Anthropic erforscht LLMs und entdeckt dabei unerwartet bizarre Ergebnisse
Sie gehört zu den großen Fragen in der Künstlichen Intelligenz: Wie kommen Large Language Models zu ihrem Output? Einer neuen Analysetechnik zufolge waren viele grundlegende Annahmen falsch. Die KI-Firma Anthropic hat eine neue Methode entwickelt, in große Sprachmodelle (Large Language Models, LLMs) hineinzuschauen und zu beobachten, was sie tun, wenn sie Antworten auf einen Prompt geben. Dabei zeigt sich: LLMs arbeiten intern offenbar noch seltsamer, als Forschende bislang dachten. Das Team, das auch hinter dem LLM Claude steckt, stellte unter anderem fest, dass die Modelle kontraintuitive Abkürzungen nehmen, um Sätze zu vervollständigen, einfache mathematische Probleme zu lösen oder Halluzinationen zu unterdrücken, wie Anthropic-Forscher Joshua Batson berichtet.
Verstehen, wie große Sprachmodelle ticken
Es ist kein Geheimnis, dass große Sprachmodelle auf scheinbar mysteriöse Weise arbeiten. Kaum eine Technik, die so breit eingesetzt wird, wurde jemals so wenig verstanden – wenn nicht sogar noch nie eine. Das macht es zu einer der größten Herausforderungen der IT-Wissenschaft, herauszufinden, wie sie ticken. Dabei geht es nicht nur um Neugierde. Wenn man weiß, wie die Modelle funktionieren, könnte man ihre Schwächen aufdecken und herausfinden, warum sie Dinge erfinden und durch Tricks und Hacks aus der Bahn geworfen werden können. Ein tieferes Verständnis würde zudem dazu beitragen, tiefe Meinungsverschiedenheiten darüber auszuräumen, was diese Modelle können und was nicht. Und dann wäre da noch die Frage der Vertrauenswürdigkeit.
Batson und seine Kollegen beschreiben ihre Forschungsergebnisse in zwei Reports. Im ersten wird die von Anthropic eingesetzte Technik des sogenannten Circuit-Tracing vorgestellt, mit dem Entscheidungsprozesse innerhalb eines großen Sprachmodells Schritt für Schritt verfolgt werden können. Das geschieht, indem es in Teilbereiche – eben jene Circuits – zerlegt wird. Anthropic nutzte die Idee, um sein LLM Claude 3.5 Haiku bei der Ausführung verschiedener Aufgaben zu beobachten. Die zweite Studie – mit dem Titel "Über die Biologie eines großen Sprachmodells" – beschreibt, was das Team bei der Untersuchung von zehn Aufgaben entdeckt hat, die Claude 3.5 Haiku lösen sollte. "Das ist eine wirklich coole Arbeit", kommentiert Jack Merullo, der sich an der Brown University in Providence, Rhode Island, mit großen Sprachmodellen beschäftigt. Er sieht einen wirklich guten Fortschritt im Verständnis von LLMs.
Das Circuit-Tracing ist an sich nicht neu. Im vergangenen Jahr analysierten Merullo und seine Kolleg:innen einen bestimmten Bereich in einer Version von OpenAIs GPT-2, einem älteren großen Sprachmodell, das OpenAI 2019 veröffentlicht hatte. Aber Anthropic hat nun eine Reihe von weiteren Bereichen innerhalb des LLM analysiert, da ein weitaus größeres und komplexeres Modell auch komplexere Circuits aufweist. "Anthropic ist sehr gut in der Lage, eine Skalierung auf dieses Problem anzuwenden", sagt Merullo.
LLMs: "Sie wachsen fast organisch“
Eden Biran, die sich an der Universität Tel Aviv mit großen Sprachmodellen beschäftigt, sieht das ähnlich. "Circuits in einem großen, hochmodernen Modell wie Claude zu definieren, ist eine nicht triviale technische Leistung", sagt er. Es zeige auch, dass die Verfolgung von Circuits ein guter Weg sein könnte, um Sprachmodelle zu interpretieren. Circuits verknüpfen verschiedene Teile – oder "Komponenten" – eines Modells miteinander. Letztes Jahr hat Anthropic bestimmte Komponenten in Claude identifiziert, die für reale Konzepte stehen. Einige waren spezifisch, wie "Michael Jordan" oder "Grün"; andere waren eher vage, wie "Konflikt zwischen Individuen". Eine Komponente schien die Golden Gate Bridge bei San Francisco darzustellen. Die Anthropic-Forscher:innen fanden heraus, dass Claude, wenn sie diese Komponente überbetonten, sich nicht als großes Sprachmodell, sondern als die physische Brücke selbst identifizierte.
Die neueste Arbeit baut auf dieser Forschung und der Arbeit anderer, einschließlich Google Deepmind, auf, um einige der Verbindungen zwischen verschiedenen Komponenten aufzudecken. Ketten solcher Komponenten sind die Wege zwischen den Wörtern, die in Claude eingegeben werden, und den Wörtern, die als Output herauskommen. "Das ist nur die Spitze des Eisbergs. Vielleicht sehen wir uns ein paar Prozent dessen an, was vor sich geht", sagt Batson. "Aber das ist schon genug, um diese unglaubliche Struktur zu erkennen." Die Forscher:innen bei Anthropic und anderen KI-Anbietern untersuchen mittlerweile große Sprachmodelle so, als wären sie natürliche Phänomene und nicht von Menschenhand geschaffene Software. Das liegt auch daran, dass die Modelle trainiert und nicht programmiert werden.
"Sie wachsen fast organisch", sagt Batson. "Am Anfang agieren sie völlig zufällig. Dann trainiert man sie mit all diesen Daten, und sie entwickeln sich von der Produktion von Kauderwelsch hin zu der Fähigkeit, verschiedene Sprachen zu sprechen, Software zu schreiben und Proteine zu falten. Es gibt verrückte Dinge, die diese Modelle lernen, aber wir wissen nicht, wie das passiert ist, weil wir nicht hineingegangen sind, um an den notwendigen Reglern zu drehen." Stattdessen sei das alles Mathematik. "Aber es ist keine Mathematik, die wir nachvollziehen können. Wenn Sie ein großes Sprachmodell öffnen, sehen Sie nur Milliarden von Zahlen – die Parameter", sagt Batson. Die verstehe niemand.
Anthropic hat sich nach eigenen Angaben von den in der Neurowissenschaft verwendeten Brain-Scan-Techniken inspirieren lassen, um eine Art Mikroskop zu entwickeln, das auf verschiedene Teile eines Modells gerichtet werden kann, während es läuft. Die Technik hebt Komponenten hervor, die zu verschiedenen Zeiten aktiv sind. Die Forschenden können dann an verschiedene Komponenten heranzoomen und aufzeichnen, wann sie aktiv sind und wann nicht.
Verfolgen, welche Komponenten aktiviert werden
Nehmen wir die erwähnte Komponente, die der Golden Gate Bridge entsprechen soll. Sie schaltet sich ein, wenn Claude einen Prompt bekommt, der die Brücke benennt oder beschreibt, oder sogar einen Text, der nur mit dem Thema zusammenhängt, wie "San Francisco" oder "Alcatraz". Ansonsten bleibt sie ausgeschaltet. Eine weitere Komponente könnte mit der Idee von "Kleinheit“ zusammenhängen. "Wir sehen uns Millionen von Texten an und stellen fest, dass das Wort 'klein', das Wort 'winzig', das Wort 'zierlich' und Wörter, die mit 'klein' zu tun haben, wie Fingerhüte, also einfach kleine Dinge, aktiviert werden", sagt Batson. Nachdem die einzelnen Komponenten identifiziert wurden, folgt Anthropic den Spuren innerhalb des Modells, wenn die verschiedenen Komponenten miteinander verkettet werden. Die Forscher:innen beginnen am Ende – mit der Komponente oder den Komponenten, die zu der endgültigen Antwort von Claude auf eine Anfrage führten. Batson und sein Team verfolgen diese Kette dann zurück.
Doch was haben sie tatsächlich herausgefunden? Anthropic untersuchte dazu zehn verschiedene Verhaltensweisen von Claude. Eine davon betraf die Verwendung verschiedener Sprachen. Hat Claude einen Bereich, der Französisch "spricht", und einen anderen Teil, der Chinesisch "spricht", und so weiter? Das Team fand heraus, dass Claude tatsächlich Komponenten unabhängig von der Sprache verwendet, um eine Frage zu beantworten oder ein Problem zu lösen. Dann wird eine bestimmte Sprache gewählt, in der das System antwortet. Fragt man Claude auf Englisch, Französisch und Chinesisch: "Was ist das Gegenteil von klein?", so verwendet er zunächst die sprachneutralen Komponenten, die mit "Kleinheit" und "Gegensätzen" zu tun haben, um eine Antwort zu finden. Erst dann wählt das LLM eine bestimmte Sprache aus, in der es antworten soll. Dies deutet darauf hin, dass große Sprachmodelle Dinge in einer Sprache lernen und sie in anderen Sprachen anwenden können.
Wenn Claude rechnet
Anthropic untersuchte auch, wie Claude einfache mathematische Probleme löst. Das Team fand heraus, dass das Modell offenbar seine eigenen internen Strategien entwickelt hat, die sich von denen unterscheiden, die es in seinen Trainingsdaten gesehen hat. Wenn man Claude bittet, 36 und 59 zu addieren, durchläuft das Modell eine Reihe merkwürdiger Schritte, bei denen es zunächst eine Auswahl von Näherungswerten (etwa 40 und 60, 57 und 36) addiert. Am Ende des Prozesses kommt es auf den Wert "92ish" (92-artig). Eine andere Folge von Schritten konzentriert sich auf die letzten Ziffern, 6 und 9, und stellt fest, dass die Antwort auf eine 5 enden muss. Zusammen mit "92ish" ergibt das die korrekte Antwort von 95.
Fragt man Claude jedoch, wie er das herausgefunden hat, wird er etwas sagen wie: "Ich habe die Einsen addiert (6+9=15), die 1 übertragen, dann die Zehner addiert (3+5+1=9), was 95 ergibt." Mit anderen Worten: Es wird ein allgemeiner Ansatz als Begründung angegeben, der überall im Internet zu finden ist – und nicht das, was tatsächlich geschehen ist. Das zeigt: LLMs sind seltsam und man sollte ihnen nicht trauen. Das Beispiel ist ein klarer Beweis dafür, dass große Sprachmodelle Gründe für ihr Handeln angeben, die nicht unbedingt dem entsprechen, was sie tatsächlich getan haben. Aber das gilt auch für Menschen, sagt Batson: "Sie fragen jemanden: 'Warum haben Sie das getan?' Und derjenige antwortet: 'Ähm, ich glaube, weil ich….'" Und das muss eben auch nicht stimmen.
Wie Claude dichtet
Eine dritte Aufgabe, die Anthropic untersuchte, war das Schreiben von Gedichten. Die Forscher wollten herausfinden, ob das Modell wirklich nur improvisiert und ein Wort nach dem anderen vorhersagt. Stattdessen stellten sie fest, dass Claude vorausschaute und das Wort am Ende der nächsten Zeile mehrere Wörter im Voraus auswählte. Wenn Claude etwa den Prompt erhielt, auf "He saw a carrot and had to grab it" zu reimen, kam "His hunger was like a starving rabbit" heraus. Bei der Analyse zeigte sich, dass das Wort "Rabbit" bereits festgelegt war, als nur "grab ist" verarbeitet wurde. Claude schaut also über den Tellerrand.
Das mag wie ein winziges Detail klingen. Aber es widerspricht der gängigen Annahme, dass große Sprachmodelle immer ein Wort nach dem anderen in der Reihenfolge auswählen. "Das Planungsvermögen bei Gedichten hat mich umgehauen", sagt Batson. "Anstatt in letzter Minute zu versuchen, den Reim sinnvoll zu gestalten, weiß es, wohin die Reise gehen soll." Auch Merullo fand das spannend. "Eine der Freuden der Arbeit in diesem Forschungsfeld sind solche Momente." Es habe nur kleine Hinweise auf die Fähigkeit von Modellen gegeben, weiter im Voraus zu planen. Anthropic bestätigte die Beobachtung, indem die Forscher die Komponente für "rabbitness" ausschalteten. Claude antwortete dann: "His hunger was a powerful habit." Und als das Team "rabbitness" durch "greenness" ersetzte, antwortete Claude mit "freeing it from the garden's green".
Anthropic untersuchte auch, warum Claude sich manchmal Dinge ausdenkt, ein Phänomen, das als Halluzinieren bekannt ist. "Das Halluzinieren ist die natürlichste Sache der Welt für diese Modelle, wenn man bedenkt, dass sie nur darauf trainiert sind, Wortvervollständigungen auszugeben", sagt Batson. "Die eigentliche Frage ist: Wie in Gottes Namen könnte man sie dazu bringen, das nicht zu tun?'"
Die Komponente "nicht spekulieren"
Die neueste Generation großer Sprachmodelle, wie Claude 3.5, Gemini und GPT-4o, halluzinieren dank umfangreichem Post-Training (jene Schritte, die ein am Internet trainiertes LLM in einen brauchbaren Chatbot verwandeln) weit weniger als frühere Versionen. Das Team um Batson war jedoch überrascht, dass diese Nachschulung Claude scheinbar dazu gebracht hat, sich standardmäßig zu weigern, zu "spekulieren". Wenn Claude mit falschen Informationen antwortete, lag das oft daran, dass eine andere Komponente die Komponente "nicht spekulieren" ausgeschaltet hatte.
Dies schien vorwiegend dann der Fall zu sein, wenn Spekulationen einen Prominenten oder eine andere bekannte Person betrafen. Es ist, als ob die Menge der verfügbaren Informationen Spekulationen trotz der Standardeinstellung nach vorn stellt. Als Anthropic die Komponente "keine Spekulationen" abdrehte, um dies zu testen, produzierte Claude viele falsche Aussagen über Personen, einschließlich der Behauptung, dass Batson für die Erfindung des Batson-Prinzips berühmt sei (was er nicht ist). Da wir so wenig über große Sprachmodelle wissen, ist jede neue Erkenntnis ein großer Schritt nach vorn. "Ein tiefes Verständnis der Funktionsweise dieser Modelle würde es uns ermöglichen, Varianten zu entwickeln und zu trainieren, die noch viel besser und leistungsfähiger sind", sagt Biran.
Offene Fragen: Was passiert während des Trainings?
Der Forscher weist jedoch darauf hin, dass es immer noch erhebliche Einschränkungen gibt. "Es ist ein Irrglaube, dass wir alle Komponenten des Modells gefunden hätten, sozusagen aus der Sicht eines Gottes", sagt er. "Einige Dinge sind für uns hier im Fokus, aber andere noch unklar – eine Art Verzerrung unseres virtuellen Mikroskops." Es dauert noch mehrere Stunden, bis menschliche Forschende die Antworten selbst auf sehr kurze Prompts nachverfolgen kann. Hinzu kommt, dass die Modelle eine bemerkenswerte Anzahl verschiedener Dinge erledigen, und Anthropic hat bisher nur zehn davon untersucht.
Batson betont, dass es zudem große Fragen gibt, die sich mit diesem Ansatz nicht beantworten lassen. Das Circuit-Tracing kann verwendet werden, um die Strukturen innerhalb eines großen Sprachmodells zu betrachten, aber es sagt nichts darüber aus, wie oder warum diese Strukturen während des Trainings entstanden sind. "Das ist eine tiefgreifende Frage, die wir in dieser Arbeit überhaupt nicht behandeln", räumt er ein. Batson sieht dennoch den Beginn einer neuen Ära, in der es endlich möglich sein wird, echte Beweise dafür zu finden, wie diese Modelle funktionieren: "Wir müssen uns nicht mehr fragen: ‚Denken sie? Ziehen sie Schlüsse? Träumen sie? Erinnern sie?' Das sind alles Analogien. Aber wenn wir buchstäblich Schritt für Schritt sehen können, was ein Modell da tut, brauchen wir vielleicht keine Analogien mehr."
Dieser Beitrag ist zuerst bei www.t3n.de erschienen.