Kann ChatGPT tatsächlich sprechen?


Von Nikola Anna Kompa (Universität Osnabrück) –


Die unter dem Namen ‚Künstliche Intelligenz‘ zusammengefassten Technologien haben in der jüngsten Vergangenheit beeindruckende Fortschritte gemacht. Dies gilt insbesondere für Systeme wie ChatGPT, die Sprachmodelle nutzen und deren Leistungen selbst ihre Entwickler:innen verblüfft. Diese Systeme können nicht nur einzelne grammatisch wohlgeformte Sätze sondern thematisch zusammenhängende Texte produzieren. Für menschliche Rezipient:innen sind diese Texte problemlos interpretierbar und genau das dürfte der Anlass dafür sein, dass diesen Systemen immer öfters ein Sprachvermögen attestiert wird.

Als Chatbots interagieren sie mit anderen Sprachbenutzer:innen; wir lassen sie auf unser gesellschaftliches Leben Einfluss nehmen. Darüber hinaus weisen sie – zumindest solange sie mit ‚unseren‘ Daten trainiert werden – einen wenngleich vermittelten kausalen Bezug zur Wirklichkeit auf. Kann man ihnen deshalb aber schon ein dem unsrigen ähnliches Sprachvermögen zusprechen? So wie die Registrierkasse nicht rechnet, auch wenn sie dieselben Ergebnisse wie menschliche ‚Rechner‘ liefert, könnte es doch auch sein, dass diese Sprachmodelle zwar ähnliche Ergebnisse liefern wie wir, aber eben nicht sprechen. Sie simulieren es nur. Um das zu entscheiden, muss man zum einen betrachten, wie diese Systeme ihre Leistung erbringen, und zum anderen untersuchen, wie es um das menschliche Sprachvermögen bestellt ist.

Betrachtet man die Funktionsweise solcher Systeme, so sieht man, dass sie über ein Vokabular verfügen, das man sich am einfachsten als eine Liste von Wörtern vorstellen kann. Wörter (streng genommen sind es sog. token) werden dargestellt über Vektoren in einem multidimensionalen Vektorraum, der – grob gesagt – berücksichtigt, wie oft und zusammen mit welchen anderen Wörtern ein Wort in den Trainingsdaten auftaucht. Die Dimensionen in diesem Vektorraum sollen unterschiedliche Aspekte der Bedeutung der einzelnen Wörter einfangen. Die Idee im Hintergrund besteht darin, dass sich die Bedeutung eines Wortes daraus ergibt, mit welchen anderen Worten es gern Nachbarschaft pflegt. John Rupert Firth brachte es auf die Formel „You shall know a word by the company it keeps“. Das heißt aber auch: Welche sprachlichen Kontexte als Trainingsdaten herangezogen werden, entscheidet darüber, welche Wörter mit welchen Bedeutungsaspekten und welcher Auftretenswahrscheinlichkeit die Basis für die Erzeugung neuer Texte bilden. Würden diese Sprachmodelle ausschließlich mit Märchen gefüttert, würden sie märchenartige Texte generieren. Durch ihr Transformer-Architektur können diese neuen Sprachmodelle dabei auch den vorgängigen sprachlichen Kontext mitberücksichtigen, und dadurch Abhängigkeiten zwischen voneinander entfernten Ausdrücken in einem Text herstellen, Mehrdeutigkeiten ausräumen, und Ähnliches mehr. Sobald dem System ein Wort oder Satz als Prompt gegeben wird, wird nun die Wahrscheinlichkeit für mögliche Fortsetzungen berechnet. Gewöhnlich wird die wahrscheinlichste Fortsetzung gewählt, basierend auf vorgängigen Wahrscheinlichkeiten für bestimmte Wörtern, zusammen aufzutreten. Allerdings kann man das System auch so einstellen, dass es nicht die wahrscheinlichste Fortsetzung wählt. Auf diese Weise entstehen deutlich originellere Texte, die allerdings auch gern in Unsinn abdriften.

Da Systeme wie ChatGPT aber nicht nur Text generieren sondern sich auch als Gesprächspartner:in anbieten sollen, wird eine weitere Komponente eingebaut, das sogenannte „Alignment“. Wie der KI-Experte Tobias Thelen von der Universität Osnabrück erläutert, geht es hier darum „dass aus möglichen und wahrscheinlichen Textergänzungen nur diejenigen ausgewählt werden, die sich mit den Intentionen, Werten etc. in Deckung bringen lassen, die die Entwickler dem Chatbot zuschreiben wollen. Ein Teil dieses Alignments geschieht explizit, d. h. die Entwickler geben Regeln vor, welche Themen zu vermeiden sind oder welche versteckten Anweisungen dem Prompt, den ich eingebe, immer noch zusätzlich mitgegeben werden („sei hilfreich und höflich, …“). Ein anderer Teil wird aber auch maschinell gelernt, indem Menschen mögliche Antworten als hilfreich/weniger hilfreich oder angemessen/unangemessen bewerten.“ Durch solche Rückmeldungen helfen wir diesen Systemen, unseren Erwartungen und Bedürfnissen immer besser gerecht zu werden. Genügt all das nun, um ihnen ein Sprachvermögen zuzugestehen? Sechs kurze Überlegungen sollen deutlich machen, dass das menschliche Sprachvermögen weit mehr umfasst als nur ein bestimmtes Ergebnis liefern zu können.

Erstens erlernen Menschen die Bedeutung sprachlicher Ausdrücke in der verkörperten Interaktion mit ihrer Umwelt. Kinder lernen gewöhnlich das Wort “greifen“ bei ihren Versuchen, selbst zu greifen oder bei der Beobachtung der Greifbemühungen anderer. Nach Ansicht einiger Theoretiker:innen besteht das Erfassen der Bedeutung solcher Verben sogar darin, die dazugehörigen Handlungen mental ‚durchzuspielen‘. Studien zeigen entsprechend, dass beim Hören solcher Handlungsverben wie „greifen“ sensomotorische Areale im Gehirn aktiviert werden. Auch wenn damit nicht gezeigt ist, dass das Verstehen in der Aktivierung solcher Hirnregionen besteht (es könnte ja auch nur eine Begleiterscheinung sein), so scheint die Idee einer erfahrungsweltlichen, handlungsbezogenen und verkörperten Verankerung von Bedeutung zumindest für basale Ausdrücke nicht unplausibel. Noch verfügen Systeme wie ChatGPT gewöhnlich weder über einen Körper noch entsprechende Interaktions–möglichkeiten mit ihrer Umgebung; die Verknüpfung mit der Robotik ist allerdings im Gange.

Zweitens ist Sprechen eine Form der sozialen Interaktion, ein gemeinschaftliches Handeln, das zu einem nicht geringen Teil durch Normen geregelt ist. Geben wir ein Versprechen, so erwarten die anderen, dass wir es halten, und wir müssen uns Sanktionen (z. B. Empörung oder Verärgerung) gefallen lassen, wenn wir es nicht tun. Auch dürfen wir eigentlich nur dann etwas behaupten, wenn wir in einer geeigneten epistemischen Position sind. Zwar wird gegen diese Normen verstoßen. Gleichwohl sind sie für die Möglichkeit, bestimmte Sprechakte überhaupt zu vollziehen, unverzichtbar. Einfach nur die Verteilungsmuster sprachlicher Ausdrücke in großen Textkorpora zu kennen, versetzt eine KI noch nicht in die Lage, auch zu erkennen, wie man sprechen sollte. Dazu müsste sie eine Empfänglichkeit für Normen entwickeln. Tatsächlich unternimmt man schon erste Schritte in diese Richtung, wenn man sie – wie oben erläutert – so trainiert, dass sie unseren Erwartungen im Gespräch immer besser entsprechen.

Damit geht ein dritter Punkt einher. Denn Sprechen ist eine zielgerichtete Tätigkeit. Wir benutzen Sprache, um bestimmte Ziele zu erreichen. Diese Ziele sind vielfältig. Sicherlich ist ein vornehmliches Ziel beim Sprechen die Weitergabe von Information zum Zwecke der Handlungskoordination. Vermutlich war gerade dies das Ticket, auf dem unsere Spezies evolutionär so erfolgreich gefahren ist. Inwiefern diese Systeme Information weitergeben, mag in Anbetracht der Tatsache, dass sie keinen Faktencheck vornehmen sondern Wortwahrscheinlichkeiten berechnen, fraglich sein. Gleichwohl scheinen sie der Handlungskoordination zu dienen, geben sie doch gern Ratschläge oder helfen bei der Urlaubsplanung. Wir Menschen verfolgen allerdings noch allerlei andere Ziele, indem wir sprechen. Dazu muss man natürlich erst einmal Ziele haben. Bisher werden diesen Systemen ihre Ziele noch weitgehend von außen vorgegeben. Allerdings können sie sich schon selbst optimieren, um vorgegebenen Ziele besser zu erreichen.

Damit eng verknüpft ist, viertens, die emotionale Seite der Sprache. Nicht nur setzen wir Sprache ein, um Emotionen auszudrücken oder in anderen emotionale Reaktionen hervorzurufen. Wir trösten sie, beleidigen sie, unterhalten sie, und machen Ähnliches mehr. Wir nutzen Sprache auch, um uns eine Umgebung zu schaffen, in der wir uns emotional aufgehoben fühlen. Die Sprache ist ein probates Mittel, um Gefühle der Zugehörigkeit und des Geborgenseins zu erzeugen. Wer emotional nicht ansprechbar ist, wird diese Verwendungen von Sprache höchstens simulieren können. Interessanterweise hat man bei CHatGPT-4o nun den Versuch unternommen, dem System eine Ansprechbarkeit für gewisse emotionale Aspekte der Sprache, die sich oft in der Weise, wie wir etwas sagen, also in der Lautstärke, der Intonation oder der Prosodie niederschlagen, anzutrainieren.

Das führt unmittelbar zu einem fünften Punkt. Denn Sprechen ist bewerten. Wir fällen explizite Werturteile, etwa indem wir eine Arbeit gut oder schlecht nennen. Die Bewertung kann aber auch deutlich subtilere Form annehmen. Denn indem wir eine Situation oder Person beschreiben, bewerten wir sie oft gleichzeitig auch schon. Wir loben eine Person, wenn wir sie großzügig oder mutig nennen. Und wir tadeln sie, wenn wir sie geizig oder feige nennen. Um Sprache auf diese Weise zu gebrauchen, muss man nicht nur Ziele und Gefühle besitzen, sondern sich auch ein Wertesystem zu eigen gemacht haben.

Sechstens nutzen wir Sprache nicht nur zu kommunikativen, sondern auch zu kognitiven Zwecken. Sprache unterstützt das Gedächtnis; wir können uns zum Beispiel Sätze besser merken als Listen von Wörtern. Auch ist kaum ein anderes Werkzeug so gut geeignet, die Aufmerksamkeit zu lenken wie die Sprache. Ebenso leistet sie uns gute Dienste beim Problemlösen, der Selbstreflexion („War ich zu streng?“), der Handlungssteuerung („Ein Stück Kuchen ist aber genug!“) oder der Emotionsregulation („Reg Dich doch nicht so auf!“). Besonders augenfällig wird der kognitive Nutzen der Sprache, wenn wir uns der inneren Sprache zuwenden. Schon Platon bezeichnete das Denken als ein Gespräch der Seele mit sich selbst. Einem derzeit populären Ansatz zufolge ist diese innere Sprache nichts anderes als die in der Kindheitsentwicklung internalisierte externe, natürliche Sprache, die im Laufe dieses Prozesses zunehmend kognitive Funktionen übernimmt. Wir internalisieren dabei nicht so sehr ein System von Wörtern und Regeln als vielmehr sozio-sprachliche Praktiken des Dialogs, des Geschichtenerzählens oder des Frage-Antwort-Spiels. Und auch wenn es erste Ideen gibt, diese KI-Systeme mit einer inneren Sprache zu versehen, so haben sie doch bisher zumindest diesen Vorteil der Sprache noch nicht selbst für sich entdeckt.

Diese kurzen Betrachtungen sprechen weder für noch gegen die prinzipielle Unmöglichkeit eines künstlichen Sprachvermögens. Sie sollten als ein Plädoyer für eine zurückhaltende Einschätzung verstanden werden. Zumindest zum gegenwärtigen Zeitpunkt sind die Voraussetzungen noch nicht erfüllt, um den Systemen ein menschenähnliches Sprachvermögen zuschreiben zu können. Das schließt freilich nicht aus, dass wir unser humanspezifisches Privileg doch irgendwann aufgeben müssen. Ab einem gewissen Punkt mag die Simulation einer Fähigkeit vom ihrem Besitz nicht mehr zu unterscheiden sein. Aber sollten wir diese Systeme eines Tages nicht mehr von menschlichen Sprachbenutzer:innen unterscheiden können, dann weil wir sie entsprechend trainiert haben.


Nikola Anna Kompa hat eine Professur für Theoretische Philosophie an der Universität Osnabrück inne. Sie arbeitet hauptsächlich zu Themen der Sprachphilosophie und der Philosophie der Kognition. Ein Buch mit dem Titel „Language, cogniton; and the way we think“ ist gerade erschienen (Bloomsbury Academic). In einem anderen Buch, das Sie mit Tim Henning (Universität Mainz) und Christian Nimtz (Universität Bielefeld) zusammen geschrieben hat und das Anfang 2025 erscheinen wird, geht es um „Die Dunkle Seite der Sprache“ (C.H. Beck).