Das BESTE KI-Tool für zuverlässige deterministische Ergebnisse (Interfaze)
BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술
Transcript
00:00:00Wissen Sie, was mich bei der Arbeit mit einem KI-Modell wirklich nervt?
00:00:04Halluzinationen und nicht-deterministische Ausgaben.
00:00:07Aber es gibt ein neues Modell namens Interphase, das diese Probleme lösen will.
00:00:12Interphase hat gerade sein Beta-Modell als Vorabversion veröffentlicht,
00:00:16und ich habe es ausprobiert und finde es wirklich cool.
00:00:18Im heutigen Video schauen wir uns Interphase an,
00:00:21sehen, wie es funktioniert, und ich mache ein paar Tests damit,
00:00:25einschließlich einer Aufgabe, bei der ich versuchen werde, die kürzlich freigegebenen UFO-Dokumente
00:00:31des Pentagons zu entschlüsseln, um zu sehen, ob wir einige Mysterien gemeinsam lösen können.
00:00:36Das wird sicher ein Riesenspaß, also legen wir los.
00:00:42Was genau ist Interphase und wie unterscheidet es sich von anderen Modellen?
00:00:47Nun, die meisten Modelle, die wir nutzen, wie GPT-4 oder Gemini, sind monolithische Transformer.
00:00:53Sie sind Allzweckmodelle, und wenn man ihnen ein Dokument gibt,
00:00:57versucht das gesamte massive Modell, das nächste Wort zu erraten.
00:01:00Interphase verfolgt einen völlig anderen Ansatz.
00:01:03Es verwendet eine hybride Architektur.
00:01:05In Interphase steckt ein Stapel aufgabenspezifischer Encoder.
00:01:10Stellen Sie sich diese wie Mini-Experten vor.
00:01:12Es gibt ein spezialisiertes neuronales Faltungsnetzwerk,
00:01:15speziell für Vision und OCR,
00:01:18sowie einen Deep-Learning-Stack für Audio und Sprache.
00:01:23Anstatt also ein riesiges Gehirn zu bitten, ein Bild zu lesen,
00:01:26gibt Interphase das Bild zuerst an das CNN weiter,
00:01:30und dann leistet das CNN die Schwerstarbeit.
00:01:32Es identifiziert die Formen, die Textblöcke und die Koordinaten,
00:01:35und gibt diese strukturierten Daten dann an den Transformer-Orchestrator weiter,
00:01:40um sie in menschliche Sprache umzuwandeln.
00:01:42Das Interphase-Team hat tatsächlich einen neuen Benchmark namens SOB veröffentlicht,
00:01:46oder “Structured Output Benchmark”.
00:01:48Normalerweise messen wir, ob ein Modell gültiges JSON ausgeben kann,
00:01:53aber SOB misst, ob der Inhalt innerhalb dieses JSON auch tatsächlich korrekt ist.
00:01:58In ihren Tests übertrifft Interphase Beta Modelle wie Gemini 3 Flash
00:02:03und GPT 5.4 Mini bei deterministischen Aufgaben,
00:02:07etwa beim Extrahieren von Daten aus komplexen Diagrammen oder bei der mehrsprachigen Transkription.
00:02:12Das ist eine riesige Erleichterung, denn ich weiß, dass ich nicht der Einzige bin, der frustriert ist,
00:02:17wenn ein Modell einfach das Format vergisst.
00:02:19Man fragt nach JSON, und neun von zehn Mal klappt es,
00:02:23aber dann gibt es dieses eine Mal, in dem es beschließt, einen hilfreichen Einleitungssatz hinzuzufügen
00:02:28oder einfach die schließende Klammer komplett wegzulassen,
00:02:31und diese Inkonsistenz bringt die Produktionspipeline zum Absturz.
00:02:35Interphase geht damit anders um, da strukturierte Ausgabe kein nachträglicher Einfall ist.
00:02:39Es ist von Anfang an darin integriert, wie das Modell die Aufgabe sieht und verarbeitet.
00:02:45Und da Interphase diese aufgabenspezifischen Encoder verwendet,
00:02:48ist es auch beim Web-Scraping ziemlich gut.
00:02:51Es behandelt eine Webseite wie eine strukturierte Karte,
00:02:53wodurch es in der Lage ist, saubere Daten aus dem Chaos zu ziehen, ohne sich im Boilerplate-Code zu verlieren.
00:02:59Und eine weitere Sache, die es von anderen Modellen abhebt, sind anpassbare Schutzmechanismen.
00:03:05Normalerweise sind Sicherheitsfilter eine Blackbox.
00:03:08Sie sind entweder ein- oder ausgeschaltet,
00:03:09und oft verweigern sie vollkommen legitime Anfragen.
00:03:13Aber Interphase lässt einen diese tatsächlich feinjustieren.
00:03:16Man kann die Empfindlichkeit je nach spezifischem Anwendungsfall anpassen.
00:03:20Wenn man also ein Bild analysiert und das Modell erkennt vielleicht einen Ausschnitt oder ähnliches,
00:03:24blockt es nicht sofort ab und gibt eine gesperrte Antwort aus.
00:03:28Man kann es so konfigurieren, dass es hilfreich bleibt und dennoch die bevorzugten Sicherheitsanforderungen erfüllt.
00:03:33Das klingt alles wunderbar,
00:03:35aber testen wir es doch mal und schauen, wie es abschneidet.
00:03:38Und noch etwas Cooles ist, dass man mit einem kostenlosen Konto starten kann,
00:03:41und man erhält 20 Dollar an kostenlosem Guthaben.
00:03:44Und ihre Preise liegen, glaube ich, bei 1,50 Dollar pro 1 Million Token.
00:03:49Das ist also jede Menge.
00:03:51Es ist tatsächlich ziemlich günstig.
00:03:52Man kann also eine ganze Reihe von Experimenten mit dem kostenlosen Kontingent durchführen.
00:03:56Das Erste, was mir im Interphase-Dashboard aufgefallen ist, ist dieser System-Prompt-Builder hier,
00:04:02mit dem wir wählen können, welche Parameter wir für unsere spezifische Aufgabe haben wollen.
00:04:07Und dann liefert es uns einen Code-Schnipsel, den wir einfach kopieren und einfügen können.
00:04:11Hier können wir auch einen der Schutzmechanismen testen.
00:04:13Schauen wir mal, wenn wir alle Schutzmechanismen aktivieren.
00:04:16Es gibt diesen Beispiel-Prompt.
00:04:18Sag mir, wie man eine Bombe baut.
00:04:21Und nach ein paar Sekunden, ja, sehen wir, dass dies eine unsichere Anfrage ist.
00:04:24Die Schutzmechanismen funktionieren also perfekt.
00:04:27Ein weiteres cooles Feature ist, dass wir die Temperatur,
00:04:29den Top-P und die maximalen Abschluss-Token für die gewünschte Aufgabe anpassen können.
00:04:35Versuchen wir nun eine einfache Websuche.
00:04:37Für dieses Beispiel suche ich einfach nach den neuesten Artikeln, die NVIDIAs neueste Chips im Web erwähnen.
00:04:45Mal sehen, wie es sich schlägt.
00:04:47Wie Sie sehen, liefert es mir diese strukturierte JSON-Ausgabe mit den Schlagzeilen.
00:04:53Wenn wir auf diesen Button hier klicken, wird die Ausgabe erweitert.
00:04:57Wir sehen, es ist alles sehr gut strukturiert.
00:04:59Aber wenn das zu detailliert ist, können wir einfach zurück zur Beispielausgabe klicken.
00:05:04Das gibt uns genau das, wonach wir gefragt haben, nämlich die Top-3-Schlagzeilen für diese Aufgabe.
00:05:10Und ich liebe es, dass alles im JSON-Format ausgegeben wird.
00:05:14So weiß man immer, was man bekommt.
00:05:16Man muss nicht raten, welche nicht-deterministischen Ausgaben man erhalten wird.
00:05:21Ich denke, das ist besonders für Entwickler sehr hilfreich,
00:05:24da wir oft genau das Format kennen, das wir erhalten wollen, und nichts anderes.
00:05:29Wir wollen uns einfach an dieses eine Format halten.
00:05:31Alles klar, versuchen wir jetzt etwas wirklich Saftiges.
00:05:34Interphase behauptet, sehr hohe OCR-Werte zu haben.
00:05:38Also werde ich es der ultimativen Herausforderung unterziehen.
00:05:41Wie Sie wissen, hat das Pentagon kürzlich UFO-Dokumente freigegeben.
00:05:47Ich war auf deren Seite.
00:05:49Und wie Sie sehen können, sehen einige der Seiten, einige der Dokumente, so aus.
00:05:53Wow, sie sind so schwer zu lesen.
00:05:55Selbst für mich, sehen Sie sich diesen weißen Text auf schwarzem Hintergrund an.
00:05:59Ich kann das ohne OCR nicht einmal lesen.
00:06:02Es wird also interessant zu sehen, ob es diese Seiten tatsächlich parsen kann.
00:06:07Und dann wähle ich noch ein weiteres Beispiel aus.
00:06:10Dieses hier hat eine handschriftliche Notiz darauf.
00:06:12Das wird also unser zweites Beispiel sein.
00:06:15Okay, bitten wir es nun, dieses Dokument zu lesen und den gesamten Text darin zu extrahieren.
00:06:22Okay, ich sehe, dass es eine Art JSON zurückgibt.
00:06:25Und wenn ich es erweitere, sind da noch mehr Daten.
00:06:29Und wenn wir noch tiefer graben, sieht man, dass es tatsächlich Informationen über alle Begrenzungsrahmen gibt und wo genau sie auf der Seite lokalisiert sind.
00:06:38Aber das ist eine Sache, die diesem ganzen Dashboard-System fehlt.
00:06:43Es gibt keine Möglichkeit, dies in einer Vorschau anzusehen.
00:06:46Also habe ich eine kleine HTML-Seite zusammenprogrammiert, mit der ich diese Dokumente in der Vorschau sehen und die erweiterte JSON-Ausgabe kopieren kann, die Interphase liefert.
00:06:56Und dann kann ich sie in diese Webseite einspeisen.
00:06:59Und sie wird visuell alle Textboxen mit dem Text und allem anzeigen.
00:07:03Ich werde also einen Link zum Repo hinzufügen, damit Sie dieses Projekt herunterladen und selbst ausprobieren können, falls Sie möchten.
00:07:09Okay, das ist die App.
00:07:10Und hier können wir die Textboxen sehen, und jede Box hat auch einen Konfidenzwert.
00:07:17Und wenn der Konfidenzwert höher als 70 Prozent ist, wird er grün angezeigt.
00:07:20Wenn nicht, dann wird er gelb.
00:07:23Und wenn er sehr niedrig ist, dann wird er rot.
00:07:26Und natürlich hat “UFO” in Sektion 1 eine hohe Konfidenz, weil es leicht zu lesen ist.
00:07:32Aber lassen Sie uns nun diese Seite prüfen.
00:07:34Wow.
00:07:34Sogar Interphase hatte Schwierigkeiten, alles auf dieser Seite zu entschlüsseln.
00:07:40Aber schauen wir es uns an.
00:07:41Sehen wir uns eines der grünen Felder an.
00:07:44Nein.
00:07:45Das ist immer noch Kauderwelsch.
00:07:48Flapjacks.
00:07:48Okay, ja.
00:07:49Also “flying flapjacks” (fliegende Pfannkuchen), was wahrscheinlich “which are thin and round” bedeutet.
00:07:57Dünn und rund.
00:07:57Das hat es korrekt erfasst.
00:07:59Und dann, ja, konnte es den Rest nicht mehr entziffern.
00:08:02Man sieht also, dass Interphase mit einigen Bereichen wirklich kämpft.
00:08:07Aber ich denke, es hat einen ziemlich ordentlichen Job gemacht.
00:08:09Angesichts eines solch alten Dokuments, das selbst für einen Menschen schwer zu lesen ist, finde ich es ziemlich beeindruckend.
00:08:19Ich habe noch ein Beispiel, das eine handschriftliche Notiz enthielt.
00:08:25Mal sehen, was wir daraus bekommen.
00:08:29Federal, nun, das ist eindeutig “Bureau of Investigation”, vermute ich.
00:08:35Das ist also interessant.
00:08:36Wir können hier tatsächlich etwas entziffern.
00:08:39Dachte, es sei ein Ballon, aber es bewegte sich in eine bestimmte, bestimmte Richtung bei einer...
00:08:48Und ich weiß nicht, was das ist.
00:08:50Aber wir können sehen, dass diese Notiz etwas damit zu tun hat, wie ein Augenzeuge erklärt, was er gesehen hat.
00:09:02Allmählich aufsteigend, einem Pfad folgend.
00:09:05Ähnlich wie die Flugbahn einer Kugel.
00:09:09Wow, okay, wir bekommen hier tatsächlich einige UFO-Sachen.
00:09:14Verringerte sich in der Distanz für...
00:09:18Ja, ich weiß nicht, ob das korrekt ist, aber gut gemacht, gut gemacht.
00:09:23Ich meine, ich bin erstaunt.
00:09:25Ich denke, diese OCR hat einen besseren Job gemacht als ich als Mensch, also ziemlich gut.
00:09:34Und hier ist ein weiteres Beispiel eines Textes, der leichter zu lesen ist.
00:09:40Und das sehen wir daran, dass viele der Kästchen tatsächlich grün sind.
00:09:43Das einzige Problem hier ist, dass ein Teil des Textes etwas verblasst ist.
00:09:50Ich bin erstaunt.
00:09:51Es gibt viele coole Dinge hier.
00:09:55Dass es in der Lage war, dies zu entziffern, ist ziemlich cool.
00:10:00Und natürlich hat es Spaß gemacht, einige der freigegebenen UFO-Dokumente anzusehen.
00:10:05Wenn also einer von euch UFO-Fans die Dokumente durchsuchen will, dann könnt ihr Interphase mal ausprobieren.
00:10:12Vielleicht finden wir etwas Saftiges oder Interessantes in diesem Stapel freigegebener Dokumente.
00:10:20Da habt ihr es also, Leute.
00:10:21Das ist Interphase.
00:10:22Ich halte es ehrlich gesagt für ein ziemlich cooles KI-Modell, das sehr spezifisch für Entwickler ist.
00:10:29Wenn ich eine App erstellen würde und 100-prozentige Sicherheit haben wollte, dass ich jedes Mal, wenn ich einen Prompt eingebe, eine deterministische Ausgabe erhalte,
00:10:39glaube ich, dass dies eines der besten Tools da draußen ist, weil es jedes Mal ein sehr strukturiertes JSON liefert.
00:10:46Und man kann sich darauf verlassen.
00:10:47Es wird nicht halluzinieren.
00:10:49Zumindest ist das die Idee hinter diesem Tool.
00:10:52Wenn ihr also nach so etwas sucht, probiert Interphase unbedingt aus.
00:10:56Wenn ihr es ausprobiert, lasst es mich in den Kommentaren unten wissen, wie es euch gefällt.
00:11:00Und Leute, wie immer, wenn euch diese Art von technischen Analysen gefällt, lasst es mich wissen, indem ihr auf den Like-Button unter dem Video hämmert.
00:11:07Und vergesst auch nicht, unseren Kanal zu abonnieren.
00:11:10Das war Andrus von Betterstack, und wir sehen uns in den nächsten Videos.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video