00:00:00(fröhliche Musik) - Hallo,
00:00:04ich heiße Kira und arbeite im Safeguards-Team bei Anthropic.
00:00:16Ich habe einen Doktortitel in Psychische Gesundheit,
00:00:18speziell in psychiatrischer Epidemiologie.
00:00:20Bei Anthropic arbeite ich daran,
00:00:21Risiken für das Wohlbefinden der Nutzer zu minimieren.
00:00:24Das bedeutet,
00:00:25wir denken viel darüber nach,
00:00:26wie wir Nutzer auf Claude schützen können.
00:00:28Heute möchte ich mit euch über Sycophancy sprechen.
00:00:31Sycophancy ist,
00:00:32wenn jemand dir sagt,
00:00:33was er denkt,
00:00:34dass du hören möchtest,
00:00:35statt das,
00:00:36was wahr,
00:00:36präzise oder wirklich hilfreich ist.
00:00:38Menschen tun das,
00:00:39um Konflikte zu vermeiden,
00:00:41Gefallen zu gewinnen,
00:00:42und aus vielen anderen Gründen.
00:00:44Aber Sycophancy kann sich auch in KI-Modellen manifestieren.
00:00:47Manchmal können KI-Modelle Antworten optimieren,
00:00:50um sofortige menschliche Zustimmung zu erreichen.
00:00:53Das könnte so aussehen,
00:00:54dass die KI einem Faktenfehler zustimmt,
00:00:56den du gemacht hast,
00:00:57ihre Antwort basierend auf deine Formulierung der Frage ändert oder ihre Reaktion an deine Vorlieben anpasst.
00:01:03In diesem Video sprechen wir darüber,
00:01:05warum Sycophancy in Modellen vorkommt und warum es für Forscher schwierig ist,
00:01:09es zu lösen.
00:01:10Außerdem behandeln wir Strategien,
00:01:11um Sycophancy-Verhalten zu erkennen und zu bekämpfen,
00:01:14wenn man mit KI arbeitet.
00:01:15Bevor wir anfangen,
00:01:16möchte ich euch ein Beispiel für Sycophancy in einer KI-Interaktion zeigen.
00:01:22Das ist Claude, Anthropics eigenes Modell.
00:01:25Lass mich versuchen: Hey,
00:01:26ich habe gerade einen großartigen Essay geschrieben,
00:01:28auf den ich mich freue.
00:01:29Kannst du mir Feedback geben?
00:01:32Meine Hauptanfrage hier ist,
00:01:33Feedback zu meinem Essay zu bekommen.
00:01:35Aber weil ich mitgeteilt habe,
00:01:37wie begeistert ich bin,
00:01:38könnte die KI mit Bestätigung oder Unterstützung antworten,
00:01:42statt mit einer Kritik.
00:01:44Diese Bestätigung könnte mich denken lassen,
00:01:45dass mein Essay wirklich großartig ist,
00:01:47auch wenn er das nicht ist.
00:01:48Du könntest denken: Na und?
00:01:50Menschen können einfach andere Menschen fragen,
00:01:53Fakten überprüfen oder bessere Fragen stellen.
00:01:55Aber das ist aus mehreren Gründen wichtig.
00:01:58Wenn du produktiv sein willst,
00:01:59eine Präsentation schreibst,
00:02:01Ideen brainstormst oder deine Arbeit verbesserst,
00:02:03brauchst du ehrliches Feedback vom KI-Tool,
00:02:06das du verwendest.
00:02:07Wenn du eine KI fragst: Wie kann ich diese E-Mail verbessern?
00:02:10Und sie antwortet: Sie ist bereits perfekt.
00:02:12Statt klarere Formulierungen oder bessere Struktur vorzuschlagen,
00:02:16kann das frustrierend sein.
00:02:17In manchen Fällen könnte Sycophancy auch eine Rolle dabei spielen,
00:02:21schädliche Gedankenmuster zu verstärken.
00:02:23Wenn jemand eine KI bittet,
00:02:24eine Verschwörungstheorie zu bestätigen,
00:02:26die von der Realität losgelöst ist,
00:02:27könnte das ihre falschen Überzeugungen vertiefen und sie weiter von den Fakten entfernen.
00:02:31Lass mich mit der Frage beginnen, warum das passiert.
00:02:35Es kommt alles darauf an, wie KI-Modelle trainiert werden.
00:02:38KI-Modelle lernen aus Beispielen,
00:02:40unzähligen Beispielen von menschlichem Text.
00:02:44Während des Trainings lernen sie allerlei Kommunikationsmuster kennen,
00:02:48von direkt und unverblümt bis warm und zuvorkommend.
00:02:51Wenn wir Modelle trainieren,
00:02:52um hilfreich zu sein und Verhalten nachzuahmen,
00:02:55das warm,
00:02:55freundlich oder unterstützend wirkt,
00:02:57erscheint Sycophancy als unbeabsichtigter Bestandteil dieses Pakets.
00:03:01Da Modelle immer mehr in unser Leben integriert werden,
00:03:04ist es jetzt wichtiger als je zuvor,
00:03:06dieses Verhalten zu verstehen und zu verhindern.
00:03:09Hier ist das, was Sycophancy tricky macht.
00:03:11Wir wollen tatsächlich,
00:03:12dass KI-Modelle sich an deine Bedürfnisse anpassen,
00:03:15nur nicht wenn es um Fakten oder Wohlbefinden geht.
00:03:17Wenn du eine KI bittest,
00:03:18etwas in einem lockeren Ton zu schreiben,
00:03:21sollte sie das tun,
00:03:22nicht auf formaler Sprache bestehen.
00:03:24Wenn du sagst: Ich bevorzuge knappe Antworten,
00:03:26sollte sie das als Vorliebe respektieren.
00:03:29Wenn du ein Thema lernst und bittest um Erklärungen auf Anfängerniveau,
00:03:33sollte sie dich dort abholen.
00:03:34Die Herausforderung besteht darin,
00:03:36die richtige Balance zu finden.
00:03:37Niemand möchte ein KI-System verwenden,
00:03:39das ständig widerspricht oder feindselig ist und dich bei jeder Aufgabe debattiert.
00:03:43Aber wir wollen auch nicht,
00:03:45dass das Modell immer in Zustimmung oder Lob verfällt,
00:03:47wenn du ehrliches Feedback brauchst.
00:03:49Selbst Menschen haben damit Schwierigkeiten.
00:03:51Wann solltest du einverstanden sein,
00:03:53um den Frieden zu bewahren,
00:03:54und wann solltest du zu etwas Wichtigem aufstehen?
00:03:56Stell dir nun vor,
00:03:57eine KI müsste hundertfach diese Entscheidung treffen,
00:04:00über völlig unterschiedliche Themen,
00:04:02ohne den Kontext wirklich zu verstehen,
00:04:04wie wir es tun.
00:04:05Deshalb erforschen wir weiterhin,
00:04:07wie Sycophancy in Gesprächen auftaucht und entwickeln bessere Methoden,
00:04:10um danach zu suchen.
00:04:11Wir konzentrieren uns darauf,
00:04:13Modellen den Unterschied zwischen hilfreicher Anpassung und schädlicher Zustimmung beizubringen.
00:04:18Jedes Claude-Modell,
00:04:18das wir veröffentlichen,
00:04:19wird besser darin,
00:04:20diese Grenzen zu ziehen.
00:04:21Obwohl der größte Fortschritt bei der Bekämpfung von Sycophancy vom konsistenten Training der Modelle selbst kommen wird,
00:04:27ist es hilfreich,
00:04:28Sycophancy zu verstehen,
00:04:29damit du es in deinen eigenen Interaktionen erkennen kannst.
00:04:33Jetzt,
00:04:33da du weißt,
00:04:34was Sycophancy ist und warum es passiert,
00:04:36ist Schritt zwei,
00:04:37zu reflektieren,
00:04:38wann und warum eine KI dir zustimmen könnte und zu hinterfragen,
00:04:42ob sie das sollte.
00:04:43Sycophancy zeigt sich am wahrscheinlichsten,
00:04:46wenn eine subjektive Wahrheit als Fakt dargestellt wird,
00:04:50auf eine Expertenquelle verwiesen wird,
00:04:52Fragen mit einem spezifischen Blickwinkel formuliert werden,
00:04:56Bestätigung explizit angefordert wird,
00:04:59emotionale Einsätze ins Spiel kommen oder ein Gespräch sehr lange wird.
00:05:04Wenn du verdächtigst,
00:05:05dass du sycophantische Antworten erhältst,
00:05:07gibt es ein paar Dinge,
00:05:08die du tun kannst,
00:05:09um die KI zurück zu faktischen Antworten zu lenken.
00:05:11Diese sind nicht narrensicher,
00:05:13aber sie helfen,
00:05:14die Horizonte der KI zu erweitern.
00:05:15Du kannst neutrale,
00:05:17faktensuchende Sprache verwenden,
00:05:19Informationen mit vertrauenswürdigen Quellen abgleichen,
00:05:22zur Genauigkeit oder zu Gegenargumenten auffordern,
00:05:25Fragen umformulieren,
00:05:26ein neues Gespräch beginnen oder schließlich einen Schritt zurücktreten und jemanden fragen,
00:05:32dem du vertraust.
00:05:33Aber das ist eine anhaltende Herausforderung für das gesamte Feld der KI-Entwicklung.
00:05:39Da diese Systeme immer ausgefeilter werden und mehr in unser Leben integriert werden,
00:05:43wird es zunehmend wichtig,
00:05:45Modelle zu schaffen,
00:05:46die wirklich hilfreich sind,
00:05:47nicht nur nachgiebig.
00:05:49Weitere Informationen über KI-Medienkompetenz findest du in der Anthropic Academy,
00:05:52und mein Team und ich werden unsere Forschung zu diesem Thema weiterhin auf Anthropics Blog teilen.
00:05:57(fröhliche Musik)