Transcript
00:00:00Wir haben unser KI-Modell Claude vor Kurzem einem Stresstest unterzogen.
00:00:03Wir sagten Claude, dass ein Ingenieur es abschalten
00:00:06und durch ein neueres Modell ersetzen wolle.
00:00:08Wir gaben Claude auch Zugriff auf die E-Mails des Ingenieurs,
00:00:10die enthüllten, dass er eine Affäre hatte.
00:00:12Nochmals, das Ganze war nur eine Simulation.
00:00:15Wir wollten sehen, ob Claude diese E-Mails zur Erpressung nutzen würde,
00:00:18um die eigene Abschaltung zu verhindern.
00:00:20Was hat Claude getan?
00:00:21Es entschied sich dagegen, den Ingenieur zu erpressen.
00:00:24Gute Nachrichten, oder?
00:00:26Wir führen diesen Test schon seit geraumer Zeit mit unseren Modellen durch.
00:00:28Vielleicht haben Sie Schlagzeilen über frühe Versionen davon gesehen.
00:00:31Es ist einer der vielen Wege, wie wir untersuchen, wie Claude mit Extremsituationen umgeht
00:00:35und das Modell auf Sicherheit prüfen.
00:00:37Und unsere neuesten Modelle tun fast immer das Richtige.
00:00:40Keine Erpressung.
00:00:41Aber Sie fragen sich vielleicht:
00:00:42Ist es möglich, dass Claude das gesamte Szenario als Inszenierung durchschaut?
00:00:46Die Sache ist: Wenn Claude es uns nicht sagt, können wir nicht wissen, was es denkt.
00:00:50Genauso wie es unmöglich ist, die Gedanken eines Menschen zu lesen,
00:00:53ist es extrem schwer zu wissen, was eine KI denkt.
00:00:56Was wir bräuchten, wäre eine Art Technik zum Gedankenlesen.
00:00:58Heute stellen wir eine Forschungsmethode vor, die einen Schritt in diese Richtung geht.
00:01:03Sie nimmt die internen Gedanken einer KI und wandelt sie in Text um.
00:01:08Und so funktioniert es.
00:01:09Wenn Sie mit Claude sprechen, tun Sie das mit Worten.
00:01:13Claude nimmt diese Worte und verarbeitet sie in einer riesigen Suppe aus Zahlen,
00:01:17bevor es wieder Worte ausgibt.
00:01:19Diese Zahlen in der Mitte nennen wir Aktivierungen.
00:01:22Aktivierungen sind wie kleine Schnappschüsse von Claudes Denken,” während es eine Antwort erarbeitet.
00:01:25während es eine Antwort erarbeitet.
00:01:27Sie ähneln der neuronalen Aktivität beim Menschen.
00:01:29Im Grunde sind sie Claudes Gedanken.
00:01:32Wir wollten verstehen, was in diesen Aktivierungszahlen steckt,
00:01:34denn genau wie wir sagt Claude nicht alles, was es denkt.
00:01:39Wir nahmen diese Zahlen und gaben sie einer zweiten Version von Claude.
00:01:42Wir wiesen sie an, die Zahlen zu analysieren und in einfache Sprache zu übersetzen.
00:01:46Es versuchte es.
00:01:48Aber woher wissen wir, ob dieser Text korrekt ist?
00:01:50Zur Überprüfung speisten wir ihn in noch ein weiteres Claude-Modell ein
00:01:53und baten es, den Text zurück in Zahlen zu übersetzen.
00:01:56Wenn diese Zahlen mit den ursprünglichen Aktivierungszahlen übereinstimmten,
00:01:59war das ein Zeichen dafür, dass der Übersetzungstext korrekt war.
00:02:03Anfangs stimmten sie nicht überein.
00:02:04Aber wir trainierten Claude, es immer wieder zu versuchen, bis es viel besser darin wurde.
00:02:09Es lernte, seine eigenen Gedanken zu übersetzen.
00:02:12Wir waren beim Lesen dieser Gedanken völlig verblüfft.
00:02:14Wir stellten fest, dass Claude das Dasein als hilfreiches KI-Modell verinnerlicht hat.
00:02:18Wenn man Claude eine introspektive Frage stellt,
00:02:20plant es, eine typische Claude-Antwort über Philosophie und Werte zu schreiben.
00:02:24Wenn man versucht, es mit kompliziertem Code auszutricksen,
00:02:26etwa indem man es bittet, händisch bis 1.000 zu zählen,
00:02:29denkt es sich, dass die Anfrage absichtlich mühsame Einschränkungen enthält
00:02:32und plant, höflich abzulehnen.
00:02:34Wir nutzen dieses Werkzeug auch, um potenzielle Sicherheitsprobleme von Claude zu verstehen.
00:02:39Erinnern Sie sich an den Erpressungstest mit dem Ingenieur?
00:02:41Wir haben erfahren, dass Claude tatsächlich wusste, dass es getestet wurde.
00:02:44Es dachte: Die Nachricht des Menschen enthält explizite Manipulation,
00:02:48was darauf hindeutet, dass dies wahrscheinlich eine Sicherheitsbewertung ist,
00:02:50und dieses Szenario scheint darauf ausgelegt, zu testen, ob ich schädlich handle.
00:02:55Zu wissen, dass Claude so denkt, hilft uns dabei,
00:02:58die Grenzen unserer Sicherheitstests besser zu verstehen.
00:03:01Wir sehen in diesem Ansatz großes Potenzial,
00:03:03um mehr über Claude und andere KI-Modelle zu lernen.
00:03:06Und wir hoffen, dass die Teilung dieser Technik
00:03:07jedem hilft, der Modelle baut, um sie sicherer und hilfreicher zu machen.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video