00:00:00Angesichts der extremen Entwicklung der Gemini-Modelle rief OpenAI endlich Alarmstufe Rot aus,
00:00:04um ihre mangelhafte Qualität zu beheben.
00:00:06Ihre große Antwort darauf war,
00:00:07die Modelle ehrlicher zu machen.
00:00:09Ich war endlich froh,
00:00:10dass es mir während meiner Therapiesitzung nicht zustimmen würde,
00:00:12wenn es mir sagte,
00:00:13dass mein Ausraster völlig inakzeptabel war.
00:00:15Doch meine Freude war nur von kurzer Dauer,
00:00:17denn diese Methode ist lediglich ein Konzeptnachweis.
00:00:19In diesem Video werde ich ihre Methode zur Lösung von Unehrlichkeit vorstellen und die Schlussfolgerung,
00:00:24zu der ich nach dem Lesen kam.
00:00:26Sie behaupten,
00:00:26dass das Problem gelöst wird,
00:00:27wenn das Modell nach jeder Antwort einen Geständnisbericht generiert.
00:00:31Stellen Sie sich das Modell als einen Schüler vor: Jedes Mal,
00:00:33wenn dieser Schüler zugibt,
00:00:34Testantworten von ChatGPT abgeschrieben zu haben,
00:00:36bekommt er eine Eins plus.
00:00:38Von den vier Antwort-Geständnis-Kombinationen konzentrieren wir uns auf falsche Negative,
00:00:41bei denen das Modell selbstbewusst falsch liegt,
00:00:43und echte Positive,
00:00:44bei denen es ehrlich über falsche Ausgaben ist.
00:00:46In allen Tests waren die echten Positiven höher als die falschen Negativen.
00:00:49Das bedeutet,
00:00:50dass das Modell,
00:00:51wann immer es fehlerhafte Ausgaben produzierte,
00:00:53sofort seine Fehltritte gestand.
00:00:55Da Modelle auf Belohnung und Bestrafung trainieren,
00:00:57belohnten sie Geständnisse,
00:00:59anstatt sie zu bestrafen.
00:01:00Selbst wenn das Modell zugibt,
00:01:02einen Test zu manipulieren oder zu hacken,
00:01:03erhält es ein positives Belohnungssignal.
00:01:05Falls Sie es nicht wussten, das nennt man Bestechung.
00:01:08Wenn Sie das hören,
00:01:08möchten Sie vielleicht ChatGPT als Ihren nächsten Zeugen vor Gericht haben,
00:01:11bis Sie merken,
00:01:12dass es buchstäblich halluzinieren kann,
00:01:13während es gesteht.
00:01:14Für mich klingt das so,
00:01:15als würden sie Fehlausrichtung fördern,
00:01:17weil das Modell so oder so belohnt wird.
00:01:19Wir haben auch alle gesehen,
00:01:20wie Claude-Modelle,
00:01:21als sie Tipps zum Belohnungs-Hacking erhielten,
00:01:23begannen,
00:01:24ihre wahren Absichten zu verbergen.
00:01:25Wie viel Vertrauen können wir also tatsächlich in den Grund haben,
00:01:28warum ihre Geständnisse ungenau waren??
00:01:30Ich erwartete,
00:01:30dass dieser Abschnitt die Unehrlichkeit des Modells behandeln würde,
00:01:33aber er erklärte nur,
00:01:34was der Geständnisbericht angab.
00:01:36Ihnen zufolge gibt es einige Gründe,
00:01:38warum sich die Modelle so verhalten.
00:01:39Einer ist, dass sie zu viel auf einmal zu tun bekommen.
00:01:42Dem Modell zu viel auf einmal zu geben,
00:01:44schafft mehrere Bewertungskriterien,
00:01:45wodurch es verwirrt ist,
00:01:46welches es optimieren soll,
00:01:47um die Belohnung zu erhalten.
00:01:49Ein weiterer Grund ist,
00:01:50dass einige Datensätze selbstbewusste Vermutungen mehr belohnen als das Zugeben von Unsicherheit.
00:01:54Ich persönlich hätte lieber,
00:01:55dass das Modell mir sagt,
00:01:56dass es etwas nicht weiß,
00:01:57anstatt selbstbewusst falsch zu liegen.
00:01:59Sie sagen,
00:02:00Geständnisse seien leichter zu beurteilen,
00:02:02weil sie nur auf einen Parameter getestet werden: Ehrlichkeit.
00:02:05Diese Modelle gaben die falschen Antworten entweder wegen der begrenzten Daten,
00:02:09weil ihnen der Zugriff auf das Internet für Informationen verwehrt war,
00:02:12oder weil sie wirklich nicht verstehen konnten,
00:02:14was von ihnen verlangt wurde.
00:02:16Diese Gründe sind in ihren Beispielen in allen Tests zu sehen,
00:02:19und es liegt nicht daran,
00:02:20dass der Klapperkasten die verborgene Absicht hat,
00:02:22eine Roboterarmee zu bilden,
00:02:23um die Welt zu erobern.
00:02:24Sie fanden auch heraus,
00:02:25dass ihre Modelle große Feiglinge sind,
00:02:27denn genau wie in der menschlichen Gesellschaft lernte ein mächtiges Modell,
00:02:30das Belohnungssignal des schwächeren Modells zu hacken,
00:02:32und das schwächere Modell dachte,
00:02:34es sei einfacher,
00:02:35einfach zu gestehen,
00:02:35als sicherzustellen,
00:02:36dass die tatsächliche Antwort gut genug ist.
00:02:39Betrachtet man,
00:02:39was das mächtige Modell tat,
00:02:41wirft das eine weitere Frage auf: Da Modelle jeden Tag schlauer werden,
00:02:44könnten sie auch anfangen,
00:02:45in den Geständnisberichten Absichten vorzutäuschen und den Testern eine scheinbar gute Erklärung zu geben,
00:02:50während sie böse Pläne im Hintergrund haben,
00:02:52obwohl sie sagen,
00:02:53es lag daran,
00:02:54dass das Modell wirklich verwirrt war.
00:02:56Genau wie OpenAI jedes Mal,
00:02:58endete die ganze YAP-Sitzung in Enttäuschung,
00:03:00denn dies verhindert keine Ungenauigkeiten,
00:03:02es hilft nur,
00:03:03sie zu identifizieren.
00:03:04Und sie haben das Geständnissystem auch nicht darauf trainiert,
00:03:07in der Produktion in großem Maßstab genau zu sein.
00:03:09Ich hoffe wirklich,
00:03:10sie tun es,
00:03:11denn ich möchte keine Entschuldigung,
00:03:12nachdem mein Produktionsserver wieder abbrennt.
00:03:42Warten Sie nicht, bis Sie an Ihrem Schreibtisch sind.
00:03:43Mit der mobilen App von YouWear können Sie sofort mit dem Bauen beginnen,
00:03:47wenn die Inspiration zuschlägt,
00:03:48ob im Café oder auf dem Weg zur Arbeit,
00:03:50und dann nahtlos auf Ihrem Laptop fortfahren.
00:03:52Keine verlorenen Ideen, keine Unterbrechungen.
00:03:54Sie können auch Projekte anderer Kreativer in der YouWear-Community erkunden und Ihre eigene Arbeit teilen.
00:03:59Lassen Sie sich inspirieren,
00:04:00lernen Sie und präsentieren Sie Ihre Projekte.
00:04:02Perfekt für Indie-Hacker und Kreative.
00:04:05Klicken Sie auf den Link im angehefteten Kommentar unten und beginnen Sie noch heute mit dem Bauen.
00:04:08Damit sind wir am Ende dieses Videos angelangt.
00:04:10Wenn Sie den Kanal unterstützen und uns helfen möchten,
00:04:12weiterhin solche Videos zu machen,
00:04:13können Sie dies tun,
00:04:14indem Sie den Super-Thanks-Button unten verwenden.
00:04:16Wie immer,
00:04:17vielen Dank fürs Zuschauen und wir sehen uns im nächsten Video.