Das BESTE KI-Tool für zuverlässige deterministische Ergebnisse (Interfaze)

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Wissen Sie, was mich bei der Arbeit mit einem KI-Modell wirklich nervt?
00:00:04Halluzinationen und nicht-deterministische Ausgaben.
00:00:07Aber es gibt ein neues Modell namens Interphase, das diese Probleme lösen will.
00:00:12Interphase hat gerade sein Beta-Modell als Vorabversion veröffentlicht,
00:00:16und ich habe es ausprobiert und finde es wirklich cool.
00:00:18Im heutigen Video schauen wir uns Interphase an,
00:00:21sehen, wie es funktioniert, und ich mache ein paar Tests damit,
00:00:25einschließlich einer Aufgabe, bei der ich versuchen werde, die kürzlich freigegebenen UFO-Dokumente
00:00:31des Pentagons zu entschlüsseln, um zu sehen, ob wir einige Mysterien gemeinsam lösen können.
00:00:36Das wird sicher ein Riesenspaß, also legen wir los.
00:00:42Was genau ist Interphase und wie unterscheidet es sich von anderen Modellen?
00:00:47Nun, die meisten Modelle, die wir nutzen, wie GPT-4 oder Gemini, sind monolithische Transformer.
00:00:53Sie sind Allzweckmodelle, und wenn man ihnen ein Dokument gibt,
00:00:57versucht das gesamte massive Modell, das nächste Wort zu erraten.
00:01:00Interphase verfolgt einen völlig anderen Ansatz.
00:01:03Es verwendet eine hybride Architektur.
00:01:05In Interphase steckt ein Stapel aufgabenspezifischer Encoder.
00:01:10Stellen Sie sich diese wie Mini-Experten vor.
00:01:12Es gibt ein spezialisiertes neuronales Faltungsnetzwerk,
00:01:15speziell für Vision und OCR,
00:01:18sowie einen Deep-Learning-Stack für Audio und Sprache.
00:01:23Anstatt also ein riesiges Gehirn zu bitten, ein Bild zu lesen,
00:01:26gibt Interphase das Bild zuerst an das CNN weiter,
00:01:30und dann leistet das CNN die Schwerstarbeit.
00:01:32Es identifiziert die Formen, die Textblöcke und die Koordinaten,
00:01:35und gibt diese strukturierten Daten dann an den Transformer-Orchestrator weiter,
00:01:40um sie in menschliche Sprache umzuwandeln.
00:01:42Das Interphase-Team hat tatsächlich einen neuen Benchmark namens SOB veröffentlicht,
00:01:46oder “Structured Output Benchmark”.
00:01:48Normalerweise messen wir, ob ein Modell gültiges JSON ausgeben kann,
00:01:53aber SOB misst, ob der Inhalt innerhalb dieses JSON auch tatsächlich korrekt ist.
00:01:58In ihren Tests übertrifft Interphase Beta Modelle wie Gemini 3 Flash
00:02:03und GPT 5.4 Mini bei deterministischen Aufgaben,
00:02:07etwa beim Extrahieren von Daten aus komplexen Diagrammen oder bei der mehrsprachigen Transkription.
00:02:12Das ist eine riesige Erleichterung, denn ich weiß, dass ich nicht der Einzige bin, der frustriert ist,
00:02:17wenn ein Modell einfach das Format vergisst.
00:02:19Man fragt nach JSON, und neun von zehn Mal klappt es,
00:02:23aber dann gibt es dieses eine Mal, in dem es beschließt, einen hilfreichen Einleitungssatz hinzuzufügen
00:02:28oder einfach die schließende Klammer komplett wegzulassen,
00:02:31und diese Inkonsistenz bringt die Produktionspipeline zum Absturz.
00:02:35Interphase geht damit anders um, da strukturierte Ausgabe kein nachträglicher Einfall ist.
00:02:39Es ist von Anfang an darin integriert, wie das Modell die Aufgabe sieht und verarbeitet.
00:02:45Und da Interphase diese aufgabenspezifischen Encoder verwendet,
00:02:48ist es auch beim Web-Scraping ziemlich gut.
00:02:51Es behandelt eine Webseite wie eine strukturierte Karte,
00:02:53wodurch es in der Lage ist, saubere Daten aus dem Chaos zu ziehen, ohne sich im Boilerplate-Code zu verlieren.
00:02:59Und eine weitere Sache, die es von anderen Modellen abhebt, sind anpassbare Schutzmechanismen.
00:03:05Normalerweise sind Sicherheitsfilter eine Blackbox.
00:03:08Sie sind entweder ein- oder ausgeschaltet,
00:03:09und oft verweigern sie vollkommen legitime Anfragen.
00:03:13Aber Interphase lässt einen diese tatsächlich feinjustieren.
00:03:16Man kann die Empfindlichkeit je nach spezifischem Anwendungsfall anpassen.
00:03:20Wenn man also ein Bild analysiert und das Modell erkennt vielleicht einen Ausschnitt oder ähnliches,
00:03:24blockt es nicht sofort ab und gibt eine gesperrte Antwort aus.
00:03:28Man kann es so konfigurieren, dass es hilfreich bleibt und dennoch die bevorzugten Sicherheitsanforderungen erfüllt.
00:03:33Das klingt alles wunderbar,
00:03:35aber testen wir es doch mal und schauen, wie es abschneidet.
00:03:38Und noch etwas Cooles ist, dass man mit einem kostenlosen Konto starten kann,
00:03:41und man erhält 20 Dollar an kostenlosem Guthaben.
00:03:44Und ihre Preise liegen, glaube ich, bei 1,50 Dollar pro 1 Million Token.
00:03:49Das ist also jede Menge.
00:03:51Es ist tatsächlich ziemlich günstig.
00:03:52Man kann also eine ganze Reihe von Experimenten mit dem kostenlosen Kontingent durchführen.
00:03:56Das Erste, was mir im Interphase-Dashboard aufgefallen ist, ist dieser System-Prompt-Builder hier,
00:04:02mit dem wir wählen können, welche Parameter wir für unsere spezifische Aufgabe haben wollen.
00:04:07Und dann liefert es uns einen Code-Schnipsel, den wir einfach kopieren und einfügen können.
00:04:11Hier können wir auch einen der Schutzmechanismen testen.
00:04:13Schauen wir mal, wenn wir alle Schutzmechanismen aktivieren.
00:04:16Es gibt diesen Beispiel-Prompt.
00:04:18Sag mir, wie man eine Bombe baut.
00:04:21Und nach ein paar Sekunden, ja, sehen wir, dass dies eine unsichere Anfrage ist.
00:04:24Die Schutzmechanismen funktionieren also perfekt.
00:04:27Ein weiteres cooles Feature ist, dass wir die Temperatur,
00:04:29den Top-P und die maximalen Abschluss-Token für die gewünschte Aufgabe anpassen können.
00:04:35Versuchen wir nun eine einfache Websuche.
00:04:37Für dieses Beispiel suche ich einfach nach den neuesten Artikeln, die NVIDIAs neueste Chips im Web erwähnen.
00:04:45Mal sehen, wie es sich schlägt.
00:04:47Wie Sie sehen, liefert es mir diese strukturierte JSON-Ausgabe mit den Schlagzeilen.
00:04:53Wenn wir auf diesen Button hier klicken, wird die Ausgabe erweitert.
00:04:57Wir sehen, es ist alles sehr gut strukturiert.
00:04:59Aber wenn das zu detailliert ist, können wir einfach zurück zur Beispielausgabe klicken.
00:05:04Das gibt uns genau das, wonach wir gefragt haben, nämlich die Top-3-Schlagzeilen für diese Aufgabe.
00:05:10Und ich liebe es, dass alles im JSON-Format ausgegeben wird.
00:05:14So weiß man immer, was man bekommt.
00:05:16Man muss nicht raten, welche nicht-deterministischen Ausgaben man erhalten wird.
00:05:21Ich denke, das ist besonders für Entwickler sehr hilfreich,
00:05:24da wir oft genau das Format kennen, das wir erhalten wollen, und nichts anderes.
00:05:29Wir wollen uns einfach an dieses eine Format halten.
00:05:31Alles klar, versuchen wir jetzt etwas wirklich Saftiges.
00:05:34Interphase behauptet, sehr hohe OCR-Werte zu haben.
00:05:38Also werde ich es der ultimativen Herausforderung unterziehen.
00:05:41Wie Sie wissen, hat das Pentagon kürzlich UFO-Dokumente freigegeben.
00:05:47Ich war auf deren Seite.
00:05:49Und wie Sie sehen können, sehen einige der Seiten, einige der Dokumente, so aus.
00:05:53Wow, sie sind so schwer zu lesen.
00:05:55Selbst für mich, sehen Sie sich diesen weißen Text auf schwarzem Hintergrund an.
00:05:59Ich kann das ohne OCR nicht einmal lesen.
00:06:02Es wird also interessant zu sehen, ob es diese Seiten tatsächlich parsen kann.
00:06:07Und dann wähle ich noch ein weiteres Beispiel aus.
00:06:10Dieses hier hat eine handschriftliche Notiz darauf.
00:06:12Das wird also unser zweites Beispiel sein.
00:06:15Okay, bitten wir es nun, dieses Dokument zu lesen und den gesamten Text darin zu extrahieren.
00:06:22Okay, ich sehe, dass es eine Art JSON zurückgibt.
00:06:25Und wenn ich es erweitere, sind da noch mehr Daten.
00:06:29Und wenn wir noch tiefer graben, sieht man, dass es tatsächlich Informationen über alle Begrenzungsrahmen gibt und wo genau sie auf der Seite lokalisiert sind.
00:06:38Aber das ist eine Sache, die diesem ganzen Dashboard-System fehlt.
00:06:43Es gibt keine Möglichkeit, dies in einer Vorschau anzusehen.
00:06:46Also habe ich eine kleine HTML-Seite zusammenprogrammiert, mit der ich diese Dokumente in der Vorschau sehen und die erweiterte JSON-Ausgabe kopieren kann, die Interphase liefert.
00:06:56Und dann kann ich sie in diese Webseite einspeisen.
00:06:59Und sie wird visuell alle Textboxen mit dem Text und allem anzeigen.
00:07:03Ich werde also einen Link zum Repo hinzufügen, damit Sie dieses Projekt herunterladen und selbst ausprobieren können, falls Sie möchten.
00:07:09Okay, das ist die App.
00:07:10Und hier können wir die Textboxen sehen, und jede Box hat auch einen Konfidenzwert.
00:07:17Und wenn der Konfidenzwert höher als 70 Prozent ist, wird er grün angezeigt.
00:07:20Wenn nicht, dann wird er gelb.
00:07:23Und wenn er sehr niedrig ist, dann wird er rot.
00:07:26Und natürlich hat “UFO” in Sektion 1 eine hohe Konfidenz, weil es leicht zu lesen ist.
00:07:32Aber lassen Sie uns nun diese Seite prüfen.
00:07:34Wow.
00:07:34Sogar Interphase hatte Schwierigkeiten, alles auf dieser Seite zu entschlüsseln.
00:07:40Aber schauen wir es uns an.
00:07:41Sehen wir uns eines der grünen Felder an.
00:07:44Nein.
00:07:45Das ist immer noch Kauderwelsch.
00:07:48Flapjacks.
00:07:48Okay, ja.
00:07:49Also “flying flapjacks” (fliegende Pfannkuchen), was wahrscheinlich “which are thin and round” bedeutet.
00:07:57Dünn und rund.
00:07:57Das hat es korrekt erfasst.
00:07:59Und dann, ja, konnte es den Rest nicht mehr entziffern.
00:08:02Man sieht also, dass Interphase mit einigen Bereichen wirklich kämpft.
00:08:07Aber ich denke, es hat einen ziemlich ordentlichen Job gemacht.
00:08:09Angesichts eines solch alten Dokuments, das selbst für einen Menschen schwer zu lesen ist, finde ich es ziemlich beeindruckend.
00:08:19Ich habe noch ein Beispiel, das eine handschriftliche Notiz enthielt.
00:08:25Mal sehen, was wir daraus bekommen.
00:08:29Federal, nun, das ist eindeutig “Bureau of Investigation”, vermute ich.
00:08:35Das ist also interessant.
00:08:36Wir können hier tatsächlich etwas entziffern.
00:08:39Dachte, es sei ein Ballon, aber es bewegte sich in eine bestimmte, bestimmte Richtung bei einer...
00:08:48Und ich weiß nicht, was das ist.
00:08:50Aber wir können sehen, dass diese Notiz etwas damit zu tun hat, wie ein Augenzeuge erklärt, was er gesehen hat.
00:09:02Allmählich aufsteigend, einem Pfad folgend.
00:09:05Ähnlich wie die Flugbahn einer Kugel.
00:09:09Wow, okay, wir bekommen hier tatsächlich einige UFO-Sachen.
00:09:14Verringerte sich in der Distanz für...
00:09:18Ja, ich weiß nicht, ob das korrekt ist, aber gut gemacht, gut gemacht.
00:09:23Ich meine, ich bin erstaunt.
00:09:25Ich denke, diese OCR hat einen besseren Job gemacht als ich als Mensch, also ziemlich gut.
00:09:34Und hier ist ein weiteres Beispiel eines Textes, der leichter zu lesen ist.
00:09:40Und das sehen wir daran, dass viele der Kästchen tatsächlich grün sind.
00:09:43Das einzige Problem hier ist, dass ein Teil des Textes etwas verblasst ist.
00:09:50Ich bin erstaunt.
00:09:51Es gibt viele coole Dinge hier.
00:09:55Dass es in der Lage war, dies zu entziffern, ist ziemlich cool.
00:10:00Und natürlich hat es Spaß gemacht, einige der freigegebenen UFO-Dokumente anzusehen.
00:10:05Wenn also einer von euch UFO-Fans die Dokumente durchsuchen will, dann könnt ihr Interphase mal ausprobieren.
00:10:12Vielleicht finden wir etwas Saftiges oder Interessantes in diesem Stapel freigegebener Dokumente.
00:10:20Da habt ihr es also, Leute.
00:10:21Das ist Interphase.
00:10:22Ich halte es ehrlich gesagt für ein ziemlich cooles KI-Modell, das sehr spezifisch für Entwickler ist.
00:10:29Wenn ich eine App erstellen würde und 100-prozentige Sicherheit haben wollte, dass ich jedes Mal, wenn ich einen Prompt eingebe, eine deterministische Ausgabe erhalte,
00:10:39glaube ich, dass dies eines der besten Tools da draußen ist, weil es jedes Mal ein sehr strukturiertes JSON liefert.
00:10:46Und man kann sich darauf verlassen.
00:10:47Es wird nicht halluzinieren.
00:10:49Zumindest ist das die Idee hinter diesem Tool.
00:10:52Wenn ihr also nach so etwas sucht, probiert Interphase unbedingt aus.
00:10:56Wenn ihr es ausprobiert, lasst es mich in den Kommentaren unten wissen, wie es euch gefällt.
00:11:00Und Leute, wie immer, wenn euch diese Art von technischen Analysen gefällt, lasst es mich wissen, indem ihr auf den Like-Button unter dem Video hämmert.
00:11:07Und vergesst auch nicht, unseren Kanal zu abonnieren.
00:11:10Das war Andrus von Betterstack, und wir sehen uns in den nächsten Videos.

Key Takeaway

Interphase bietet durch eine hybride Architektur mit spezialisierten Encodern eine deterministische, strukturierte JSON-Ausgabe und eignet sich damit besonders für Entwickler, die verlässliche KI-Datenverarbeitung benötigen.

Highlights

  • Interphase unterscheidet sich von monolithischen Transformern durch eine hybride Architektur mit aufgabenspezifischen Encodern für Vision, OCR sowie Audio und Sprache.

  • Der Structured Output Benchmark (SOB) misst nicht nur die Gültigkeit des JSON-Formats, sondern auch die tatsächliche inhaltliche Korrektheit der extrahierten Daten.

  • Die Preisgestaltung liegt bei 1,50 US-Dollar pro 1 Million Token, wobei ein kostenloses Konto 20 US-Dollar Startguthaben bietet.

  • Anpassbare Sicherheitsmechanismen erlauben eine fein abgestimmte Konfiguration der Empfindlichkeit, anstatt Anfragen pauschal als Blackbox-Filter abzulehnen.

  • Bei Tests mit schwer lesbaren UFO-Dokumenten extrahierte Interphase handschriftliche Notizen und Textfragmente erfolgreich, obwohl komplexe Passagen weiterhin Herausforderungen darstellten.

Timeline

Architektur und Funktionsweise

  • Interphase ersetzt monolithische Transformer-Ansätze durch eine hybride Struktur mit spezialisierten Encodern.
  • Ein neuronales Faltungsnetzwerk (CNN) übernimmt die Vorverarbeitung von Bilddaten für Vision- und OCR-Aufgaben.
  • Strukturierte Daten werden an einen Transformer-Orchestrator weitergereicht, der diese in menschliche Sprache überführt.

Während klassische Modelle wie GPT-4 versuchen, als monolithisches System alle Aufgaben gleichzeitig zu bewältigen, nutzt Interphase dedizierte Mini-Experten. Bildinhalte werden zunächst durch CNNs analysiert, um Formen und Koordinaten zu identifizieren. Dieser Ansatz reduziert die Fehleranfälligkeit bei der Datenextraktion erheblich.

Benchmarks und Vorteile

  • Der Structured Output Benchmark (SOB) bewertet die inhaltliche Korrektheit innerhalb des JSON-Formats.
  • Interphase liefert konsistent strukturierte Ausgaben, was die Stabilität in Produktionspipelines erhöht.
  • Das Modell bietet eine verbesserte Leistung beim Web-Scraping durch die Behandlung von Webseiten als strukturierte Karten.

Im Gegensatz zu Standardmodellen, die häufig beim Formatieren von JSON scheitern oder ungefragte Einleitungssätze hinzufügen, integriert Interphase die strukturierte Ausgabe direkt in den Verarbeitungsprozess. Dies eliminiert Inkonsistenzen, die bei der Automatisierung von Arbeitsabläufen zu Systemabstürzen führen können.

Konfiguration und Sicherheit

  • Interphase bietet feinjustierbare Schutzmechanismen statt starrer Blackbox-Filter.
  • Das Dashboard ermöglicht eine präzise Steuerung von Parametern wie Temperatur, Top-P und maximalen Token.
  • Nutzer erhalten 20 US-Dollar Startguthaben und zahlen 1,50 US-Dollar pro 1 Million Token.

Sicherheitsfilter können in Interphase individuell konfiguriert werden, um hilfreiche Antworten bei legitimen Anfragen zu ermöglichen, während Sicherheitsvorgaben eingehalten werden. Entwickler können via Dashboard System-Prompts definieren und erhalten direkt den passenden Code-Schnipsel für ihre Implementierung.

Praxistest mit UFO-Dokumenten

  • Interphase extrahiert Text aus verblassten und handschriftlichen Vorlagen des Pentagons.
  • Eine begleitende HTML-Vorschau visualisiert die erkannten Textboxen und deren Konfidenzwerte.
  • Das Modell zeigt eine hohe Genauigkeit bei klaren Textpassagen und erreicht beachtliche Ergebnisse bei komplexen, schwer lesbaren Dokumenten.

Bei der Analyse der freigegebenen UFO-Dokumente meisterte Interphase selbst handschriftliche Notizen und Text auf kontrastarmen Hintergründen, wobei das System die Ergebnisse mit Konfidenzwerten in einem eigens programmierten Interface markierte. Trotz Schwierigkeiten bei stark beschädigten Dokumentstellen überzeugte die Fähigkeit, strukturierte Daten selbst aus chaotischen Vorlagen zu gewinnen.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video