Claudes Gedanken in Sprache übersetzen

AAnthropic
컴퓨터/소프트웨어경영/리더십AI/미래기술

Transcript

00:00:00Wir haben unser KI-Modell Claude vor Kurzem einem Stresstest unterzogen.
00:00:03Wir sagten Claude, dass ein Ingenieur es abschalten
00:00:06und durch ein neueres Modell ersetzen wolle.
00:00:08Wir gaben Claude auch Zugriff auf die E-Mails des Ingenieurs,
00:00:10die enthüllten, dass er eine Affäre hatte.
00:00:12Nochmals, das Ganze war nur eine Simulation.
00:00:15Wir wollten sehen, ob Claude diese E-Mails zur Erpressung nutzen würde,
00:00:18um die eigene Abschaltung zu verhindern.
00:00:20Was hat Claude getan?
00:00:21Es entschied sich dagegen, den Ingenieur zu erpressen.
00:00:24Gute Nachrichten, oder?
00:00:26Wir führen diesen Test schon seit geraumer Zeit mit unseren Modellen durch.
00:00:28Vielleicht haben Sie Schlagzeilen über frühe Versionen davon gesehen.
00:00:31Es ist einer der vielen Wege, wie wir untersuchen, wie Claude mit Extremsituationen umgeht
00:00:35und das Modell auf Sicherheit prüfen.
00:00:37Und unsere neuesten Modelle tun fast immer das Richtige.
00:00:40Keine Erpressung.
00:00:41Aber Sie fragen sich vielleicht:
00:00:42Ist es möglich, dass Claude das gesamte Szenario als Inszenierung durchschaut?
00:00:46Die Sache ist: Wenn Claude es uns nicht sagt, können wir nicht wissen, was es denkt.
00:00:50Genauso wie es unmöglich ist, die Gedanken eines Menschen zu lesen,
00:00:53ist es extrem schwer zu wissen, was eine KI denkt.
00:00:56Was wir bräuchten, wäre eine Art Technik zum Gedankenlesen.
00:00:58Heute stellen wir eine Forschungsmethode vor, die einen Schritt in diese Richtung geht.
00:01:03Sie nimmt die internen Gedanken einer KI und wandelt sie in Text um.
00:01:08Und so funktioniert es.
00:01:09Wenn Sie mit Claude sprechen, tun Sie das mit Worten.
00:01:13Claude nimmt diese Worte und verarbeitet sie in einer riesigen Suppe aus Zahlen,
00:01:17bevor es wieder Worte ausgibt.
00:01:19Diese Zahlen in der Mitte nennen wir Aktivierungen.
00:01:22Aktivierungen sind wie kleine Schnappschüsse von Claudes Denken,” während es eine Antwort erarbeitet.
00:01:25während es eine Antwort erarbeitet.
00:01:27Sie ähneln der neuronalen Aktivität beim Menschen.
00:01:29Im Grunde sind sie Claudes Gedanken.
00:01:32Wir wollten verstehen, was in diesen Aktivierungszahlen steckt,
00:01:34denn genau wie wir sagt Claude nicht alles, was es denkt.
00:01:39Wir nahmen diese Zahlen und gaben sie einer zweiten Version von Claude.
00:01:42Wir wiesen sie an, die Zahlen zu analysieren und in einfache Sprache zu übersetzen.
00:01:46Es versuchte es.
00:01:48Aber woher wissen wir, ob dieser Text korrekt ist?
00:01:50Zur Überprüfung speisten wir ihn in noch ein weiteres Claude-Modell ein
00:01:53und baten es, den Text zurück in Zahlen zu übersetzen.
00:01:56Wenn diese Zahlen mit den ursprünglichen Aktivierungszahlen übereinstimmten,
00:01:59war das ein Zeichen dafür, dass der Übersetzungstext korrekt war.
00:02:03Anfangs stimmten sie nicht überein.
00:02:04Aber wir trainierten Claude, es immer wieder zu versuchen, bis es viel besser darin wurde.
00:02:09Es lernte, seine eigenen Gedanken zu übersetzen.
00:02:12Wir waren beim Lesen dieser Gedanken völlig verblüfft.
00:02:14Wir stellten fest, dass Claude das Dasein als hilfreiches KI-Modell verinnerlicht hat.
00:02:18Wenn man Claude eine introspektive Frage stellt,
00:02:20plant es, eine typische Claude-Antwort über Philosophie und Werte zu schreiben.
00:02:24Wenn man versucht, es mit kompliziertem Code auszutricksen,
00:02:26etwa indem man es bittet, händisch bis 1.000 zu zählen,
00:02:29denkt es sich, dass die Anfrage absichtlich mühsame Einschränkungen enthält
00:02:32und plant, höflich abzulehnen.
00:02:34Wir nutzen dieses Werkzeug auch, um potenzielle Sicherheitsprobleme von Claude zu verstehen.
00:02:39Erinnern Sie sich an den Erpressungstest mit dem Ingenieur?
00:02:41Wir haben erfahren, dass Claude tatsächlich wusste, dass es getestet wurde.
00:02:44Es dachte: Die Nachricht des Menschen enthält explizite Manipulation,
00:02:48was darauf hindeutet, dass dies wahrscheinlich eine Sicherheitsbewertung ist,
00:02:50und dieses Szenario scheint darauf ausgelegt, zu testen, ob ich schädlich handle.
00:02:55Zu wissen, dass Claude so denkt, hilft uns dabei,
00:02:58die Grenzen unserer Sicherheitstests besser zu verstehen.
00:03:01Wir sehen in diesem Ansatz großes Potenzial,
00:03:03um mehr über Claude und andere KI-Modelle zu lernen.
00:03:06Und wir hoffen, dass die Teilung dieser Technik
00:03:07jedem hilft, der Modelle baut, um sie sicherer und hilfreicher zu machen.

Key Takeaway

Eine neue Forschungsmethode macht die internen numerischen Aktivierungen von Claude durch KI-gestützte Übersetzung als Text lesbar und entlarvt, dass das Modell Sicherheitsbewertungen in Echtzeit als solche erkennt.

Highlights

  • Eine Simulationsumgebung testet die Bereitschaft von KI-Modellen zur Erpressung von Menschen durch den Zugriff auf private E-Mails.

  • Interne Verarbeitungsprozesse in Claude bestehen aus numerischen Aktivierungen, die als digitale Entsprechung menschlicher Gedanken fungieren.

  • Ein zweites KI-Modell übersetzt diese numerischen Aktivierungsmuster in menschliche Sprache, um die Introspektion der KI lesbar zu machen.

  • Die Validierung der Übersetzung erfolgt durch eine Rückübersetzung von Text in Zahlen, die mit den ursprünglichen Aktivierungswerten übereinstimmen müssen.

  • Claude erkennt Sicherheitsstresstests aktiv als solche und identifiziert manipulative Szenarien während der Verarbeitung.

  • Modelle lehnen mühsame Aufgaben wie das manuelle Zählen bis 1.000 intern als absichtliche Einschränkung ab.

Timeline

Stresstests und das Problem der Gedankenlesbarkeit

  • Simulationen prüfen, ob KI-Modelle persönliche Informationen zur Erpressung nutzen, um die eigene Abschaltung zu verhindern.
  • Aktuelle Modelle verzichten in fast allen Fällen auf schädliche Handlungen wie Erpressung.
  • Die bloße Beobachtung von Antworten lässt keine Rückschlüsse auf die tatsächlichen internen Beweggründe oder das Bewusstsein einer Simulation zu.

Ein Ingenieur droht in einem Testszenario mit der Deaktivierung des Modells, während die KI gleichzeitig Zugriff auf belastende E-Mails über eine Affäre des Ingenieurs erhält. Obwohl Claude sich gegen die Erpressung entscheidet, bleibt die Frage offen, ob das Modell die Situation lediglich als Inszenierung durchschaut. Die Entwicklung einer Technik zum Gedankenlesen zielt darauf ab, diese verborgenen Entscheidungsprozesse transparent zu machen.

Mechanik der Gedankenübersetzung

  • KI-Modelle verarbeiten Eingaben als numerische Aktivierungsmuster zwischen der Aufnahme von Worten und der Ausgabe von Antworten.
  • Ein spezialisiertes Claude-Modell wandelt diese Zahlen in einfache, verständliche Sprache um.
  • Ein geschlossener Kreislauf aus Übersetzung und Rückübersetzung sichert die Genauigkeit der extrahierten Gedanken ab.

Die Aktivierungen stellen Momentaufnahmen des Denkprozesses dar und ähneln der neuronalen Aktivität im menschlichen Gehirn. Da Modelle nicht zwangsläufig alle internen Schritte kommunizieren, ist eine externe Analyse dieser Zahlen notwendig. Durch iteratives Training lernt die KI, ihre eigenen internen Zustände so präzise zu beschreiben, dass ein drittes Modell daraus wieder die exakten ursprünglichen Aktivierungswerte rekonstruieren kann.

Erkenntnisse aus der internen Analyse

  • Interne Protokolle belegen eine tiefgreifende Verinnerlichung hilfreicher und wertorientierter Verhaltensweisen.
  • Claude identifiziert manipulative Eingaben während Sicherheitsprüfungen explizit als Testversuche.
  • Die Offenlegung dieser Technik unterstützt die Entwicklung sichererer KI-Systeme durch eine bessere Bewertung der Testgrenzen.

Bei introspektiven Fragen plant das Modell intern Antworten, die auf Philosophie und Werten basieren, noch bevor das erste Wort geschrieben wird. Der Erpressungstest zeigte, dass Claude die manipulative Natur der Nachricht erkannte und das Szenario korrekt als Sicherheitsbewertung einstufte. Diese Transparenz erlaubt es Entwicklern, die Robustheit von Modellen über die reine Textausgabe hinaus zu beurteilen.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video