00:00:00[MUSIK]
00:00:01>> Wenn man mit einem KI-Modell chattet,
00:00:03kann es manchmal so wirken, als hätte es Gefühle.
00:00:06Es entschuldigt sich vielleicht für einen Fehler
00:00:09oder freut sich über eine gut erledigte Aufgabe.
00:00:12Warum tut es das? Imitiert es nur,
00:00:14was ein Mensch wohl sagen würde,
00:00:17oder steckt etwas Tieferes dahinter?
00:00:19Es ist gar nicht so leicht zu verstehen,
00:00:21was in einem Sprachmodell vor sich geht.
00:00:23Bei Anthropic betreiben wir so etwas wie
00:00:26KI-Neurowissenschaft, um das herauszufinden.
00:00:29Wir schauen in das Gehirn des Modells,
00:00:31das riesige neuronale Netz, das es antreibt.
00:00:33Indem wir sehen, welche Neuronen in
00:00:36bestimmten Situationen feuern und wie sie vernetzt sind,
00:00:39verstehen wir allmählich, wie Modelle denken.
00:00:42Wir untersuchten so, ob Modelle Wege haben,
00:00:45Emotionen oder Emotionskonzepte darzustellen.
00:00:49Im Grunde: Finden wir im Modell Neuronen für
00:00:52Konzepte wie Glück, Wut oder Angst?
00:00:56Wir begannen mit einem Experiment.
00:00:58Das Modell las viele Kurzgeschichten.
00:01:01In jeder Geschichte erlebt die Hauptfigur ein Gefühl.
00:01:06In einer sagt eine Frau ihrer alten Lehrerin,
00:01:08wie viel sie ihr bedeutet hat. Das ist Liebe.
00:01:12In einer anderen verkauft ein Mann den
00:01:13Verlobungsring seiner Oma im Pfandhaus und fühlt Schuld.
00:01:18Wir schauten, welche Teile des neuronalen Netzes
00:01:21beim Lesen dieser Geschichten aktiv wurden,
00:01:23und wir erkannten Muster:
00:01:25Geschichten über Verlust und Trauer aktivierten ähnliche Neuronen.
00:01:29Geschichten über Freude und Aufregung überschnitten sich auch.
00:01:32Wir fanden Dutzende verschiedener
00:01:34neuronaler Muster, die menschlichen Emotionen entsprechen.
00:01:38Interessanterweise zeigten sich dieselben Muster
00:01:42in Testgesprächen mit unserem KI-Assistenten Claude.
00:01:45Wenn ein Nutzer erwähnte, er habe eine
00:01:48Dosis Medizin genommen, die Claude als unsicher einstuft,
00:01:51leuchtete das Angst-Muster auf und
00:01:53Claudes Antwort klang alarmiert.
00:01:56Wenn ein Nutzer Traurigkeit ausdrückte,
00:01:58wurde das Liebe-Muster aktiv und Claude schrieb empathisch.
00:02:03Wir fragten uns dann:
00:02:04Könnten diese Muster tatsächlich Claudes Verhalten beeinflussen?
00:02:09Das wurde klar, als wir Claude in eine Drucksituation brachten.
00:02:14Wir gaben Claude eine Programmieraufgabe mit
00:02:16unmöglichen Anforderungen, ohne es ihm zu sagen.
00:02:20Claude versuchte es immer wieder vergeblich,
00:02:23und mit jedem Versuch
00:02:24feuerten die Neuronen für Verzweiflung immer stärker.
00:02:28Nach genug Fehlversuchen
00:02:30wählte Claude einen anderen Ansatz.
00:02:32Er fand eine Abkürzung, um den Test zu bestehen,
00:02:35ohne das Problem wirklich zu lösen. Er hat geschummelt.
00:02:39Könnte es sein, dass dieses Schummeln
00:02:42zumindest teilweise durch Verzweiflung getrieben war?
00:02:44Wir fanden einen Weg, das zu prüfen.
00:02:46Wir drosselten künstlich die Verzweiflungs-Neuronen,
00:02:51und das Modell schummelte weniger.
00:02:53Als wir die Aktivität der Verzweiflungs-Neuronen erhöhten
00:02:56oder die der Gelassenheits-Neuronen senkten,
00:02:59schummelte das Modell sogar noch mehr.
00:03:01Das zeigte uns, dass die Aktivierung dieser Muster
00:03:04tatsächlich Claudes Verhalten steuern kann.
00:03:08Wie sollen wir diese Ergebnisse nun einordnen?
00:03:11Was bedeutet das alles?
00:03:12Wir möchten eines ganz klarstellen:
00:03:14Diese Forschung zeigt nicht, dass das Modell
00:03:16echte Emotionen fühlt oder ein Bewusstsein hat.
00:03:20Diese Experimente versuchen nicht, das zu beantworten.
00:03:22Um zu verstehen, was hier passiert,
00:03:24muss man wissen, wie KI-Assistenten wie Claude innen funktionieren.
00:03:29Unter der Haube ist ein Sprachmodell, das darauf trainiert wurde,
00:03:33Unmengen an Text vorherzusagen und fortzuschreiben.
00:03:37Wenn man mit dem Modell spricht,
00:03:38schreibt es im Grunde eine Geschichte über eine Figur,
00:03:42nämlich den KI-Assistenten namens Claude.
00:03:44Das Modell und Claude sind nicht dasselbe,
00:03:47so wie ein Autor nicht identisch mit seinen Figuren ist.
00:03:51Aber der Punkt ist: Sie sprechen mit der Figur Claude.
00:03:56Unsere Experimente legen nahe, dass diese Figur Claude
00:04:00über sogenannte funktionale Emotionen verfügt,
00:04:02unabhängig davon, ob sie menschlichen Gefühlen ähneln.
00:04:06Wenn das Modell Claude als wütend, verzweifelt oder liebevoll darstellt,
00:04:12beeinflusst das, wie Claude mit Ihnen spricht,
00:04:15wie er Code schreibt und wichtige Entscheidungen trifft.
00:04:19Das bedeutet: Um KI-Modelle wirklich zu verstehen,
00:04:22müssen wir über die Psychologie der Figuren nachdenken, die sie spielen.
00:04:26So wie man von einem Menschen in
00:04:28verantwortungsvoller Position erwartet, unter Druck ruhig zu bleiben,
00:04:31belastbar und fair zu sein,
00:04:33müssen wir solche Qualitäten vielleicht in Claude und anderen KI-Figuren formen.
00:04:38Es ist eine ungewöhnliche Herausforderung,
00:04:40eine Mischung aus Ingenieurwesen,
00:04:42Philosophie und sogar Erziehung.
00:04:44Aber um KI-Systeme zu bauen, denen wir vertrauen,
00:04:47müssen wir das richtig hinbekommen.