Unkontrollierbare künstliche Intelligenz?

von Reinhard Heil und Leonie Seng (ITAS/KIT Karlsruhe)


Am Anfang stand ein einfaches Computerprogramm, das zur Sprachoptimierung von E-Mails entwickelt worden war. Durch eine kleine, nicht konsequent zu Ende gedachte, Änderung verwandelt sich das Programm in eine Selbstoptimierungsmaschine, die die Inhalte von durch Menschen verfasste E-Mails zu ihren eigenen Gunsten zu manipulieren versteht. Mit der Zeit überwindet die Software die eigenen physikalischen Grenzen und kann schließlich auf politischer Ebene Einfluss auf das Weltgeschehen nehmen (aus William Hertlings ‘Avogadro Corp’, Band 1).

Die Entwicklung künstlicher Intelligenz (KI) scheint den meisten Science-Fiction-Narrativen zufolge (vgl. Seng 2019, S. 60 ff.) keine wirklich gute Idee zu sein. Sicher, bei den künstlichen Intelligenzen im Science-Fiction-Bereich handelt es sich zumeist um künstliche Formen von Bewusstsein, also um Entitäten, die nicht nur sich selbst und das eigene Handeln reflektieren können, sondern darüber hinaus eine subjektive Erfahrung von sich selbst haben. Von künstlichem Bewusstsein – verstanden als ein Sich-seiner-selbst-bewusst-sein – sind wir heute jedoch noch genauso weit entfernt wie vor hundert Jahren. Unumstritten ist jedoch, dass sich das Feld der sogenannten künstlichen Intelligenz in den letzten Jahren sehr schnell weiterentwickelt hat. Immer mehr und immer komplexere Tätigkeiten, von denen man bis vor kurzem annahm, dass sie noch auf Jahre hinaus nur von Menschen geleistet werden könnten, lassen sich heute automatisieren.

Wenngleich die Euphorie um Sprachmodelle wie ChatGPT und LaMDA auch übertrieben sein mag, so scheinen sie doch ein Schritt in Richtung allgemeineKI(engl. Artificial General Intelligence) zu sein, d. h. hin zu Systemen, die nicht nur eine spezielle Aufgabe erledigen können, sondern prinzipiell jede kognitive Aufgabe. Die aktuellen Sprachmodelle sind davon zwar noch weit entfernt, manche sagen sogar, sie seien diesbezüglich eine Sackgasse (Gary Marcus, https://garymarcus.substack.com), sie heben jedoch definitiv die Mensch-Maschine-Kommunikation auf eine höhere Stufe.

KI heute: Kein Skynet und doch sehr mächtig

Um Verwirrungen zu vermeiden, möchten wir gleich zu Anfang klarstellen, worum es im Folgenden nicht gehen wird: bewusste Maschinen. Umgangssprachlich werden technischen Systemen immer wieder kognitive Fähigkeiten zugeschrieben, wie beispielsweise „Entscheidungen“ zu treffen oder zu „denken“; dies wird auch als ELIZA-Effekt bezeichnet. Mit menschenähnlichem Bewusstsein sind diese Formen technischer Kognition jedoch nicht vergleichbar. So kann ein Computerprogramm, das dazu entwickelt wurde, das Schachspiel zu perfektionieren, diesen Zweck nicht ohne Weiteres kritisch reflektieren und eigenständig zu dem Entschluss kommen, dass es doch lieber Go spielen möchte. Diese Freiheit, sich auch anders entscheiden und handeln zu können, bleibt technischen Systemen, so ausgefeilt sie auch sein mögen, bislang versagt.

Wenn wir von künstlicher Intelligenz sprechen, meinen wir also Computerprogramme, auch Algorithmen genannt. “Problemlösungsmaschinen” (Ullrich 2019, S. 4), die auf der Basis von Regeln operieren, die nicht von Menschen vorgegeben und dann immer in gleicher Form wiederholt werden, sondern die sie selbst generieren. Wenn aktuell von künstlicher Intelligenz die Rede ist, sind eigentlich immer sogenannte Deep Neural Networks (DNN) gemeint. So einfach, so unspektakulär – könnte man meinen. Und tatsächlich: Mit den (über-)anthropomorphisierten Darstellungen von Technikwesen, die einem in Science-Fiction häufig begegnen (und die nicht selten qua Namen, Handlungen oder Erscheinungen Bezüge zu religiösen Erzählungen aufweisen, wie beispielsweise die “Adams” und “Eves” in Ian McEwans Machines like me, 2019, die sich vor lauter Verzweiflung vor der menschlichen Unmoral teilweise selbst umbringen) hat heutige KI nichts zu tun.

Was ist eigentlich unkontrollierbare KI?

Wenn die Gefahr, dass Computer in absehbarer Zeit so etwas wie ein Bewusstsein erlangen, vernachlässigbar ist, stellt sich die Frage, warum und wie sich eine KI der Kontrolle entziehen könnte, obwohl sie keinen Willen, kein Eigeninteresse besitzt.

Von einem Kontrollverlust kann man sprechen, sobald ein System sich nicht mehr oder nur unter großen Verlusten steuern oder stoppen lässt. Die Zerstörung eines Systems kann man als die Ultima Ratio der Kontrolle verstehen. Wenn eine Rakete, die sich nicht mehr kontrollieren lässt, zerstört wird, bevor sie größeren Schaden anrichten kann, dann ging zwar die Systemkontrolle (verstanden als Steuerung) verloren, aber die Situationskontrolle blieb gewahrt. Von einem totalen Kontrollverlust kann man sprechen, wenn auch die Situationskontrolle verloren geht. Beispielsweise wenn ein Marschflugkörper das falsche Ziel ansteuert und weder zur Selbstzerstörung gebracht noch abgeschossen werden kann. Je weiter ein Vorgang automatisiert wird, desto schwerer ist er zu kontrollieren. Um Kontrollverluste zu vermeiden, wird oft auf den „human-in-the-loop“ bestanden, d.h. darauf, dass die Handlungsempfehlungen eines Systems nicht direkt oder notwendigerweise umgesetzt werden, sondern von einem Menschen freigegeben werden müssen.

Wie könnte es zu einem Kontrollverlust kommen?

Warum sollten sich eine KI überhaupt der Kontrolle entziehen? Die Antwort lautet schlicht: Um ihre Ziele besser erreichen zu können. Der Kontrollverlust kann auf mindestens zweierlei Arten entstehen. Erstens indem wir die Kontrolle freiwillig abgeben und sie nicht wiedergewinnen können, da die KIs alle Abläufe dermaßen optimiert und miteinander verzahnt haben, dass ein menschliches Eingreifen katastrophale Folgen hätte. Der Kontrollverlust wäre wahrscheinlich kein totaler, da die Situationskontrolle zu einem gewissen Grad erhalten bliebe. Der größte Teil der AI-Alignment-Diskussion, ist der Frage gewidmet, wie sich dieser freiwillige Kontrollverlust so gestalten lässt, dass menschliche Werte gewahrt bleiben.

Zweitens gibt es Befürchtungen, dass es nicht beim freiwilligen Kontrollverlust bleiben wird, sondern sich KI aktiv der Kontrolle entziehen könnte und dadurch letztendlich sogar der Fortbestand der Menschheit bedroht sei. Ein Szenario basiert auf der Idee, dass KI sich ihrer selbst im obigen Verständnis bewusst wird, sich eigene Ziele setzt, sich kontinuierlich selbst verbessert und ein Selbsterhaltungsbedürfnis entwickelt. Im Zuge dieser Entwicklung konkurriert sie dann nicht nur mit uns Menschen um Ressourcen und Macht, sondern kommt eventuell sogar zu dem Schluss ohne Menschheit besser dran zu sein. Da wir nicht wissen, wie Bewusstsein entsteht, können wir ein solches Szenario nicht völlig ausschließen, halten es aber für vernachlässigbar. Interessanter ist es darüber nachzudenken, wie sich herkömmliche KI der Kontrolle entziehen könnte.

Dazu ist es hilfreich sich einige Besonderheiten neuronaler Netze oder allgemeiner lernenden Systeme zu vergegenwärtigen. 1. Lernende Systeme entwickeln die Regeln zur Zielerreichung selbst. 2. Die entwickelten Regeln sind meist so komplex, dass sie sich der Nachvollziehbarkeit entziehen. Was 3. dazu führt, dass es sehr schwer ist herauszufinden welche Aufgabe das System tatsächlich erfüllt. Was komplexe neuronale Netze eigentlich gelernt haben, findet man oft nur per Versuch und Irrtum heraus, bzw. indem man mit den Systemen experimentiert.

Selbstverbesserung ohne Grenzen?

Was wären hilfreiche Eigenschaften, die es einer KI erlauben würde, sich der Kontrolle zu entziehen? Die KI müsste handlungsfähig sein. Das heißt, ihr müssen die zur Zielerreichung notwendigen Mittel direkt oder indirekt zur Verfügung stehen und sie muss in der Lage sein diese Mittel direkt oder indirekt einzusetzen. Wir sprechen deshalb von direkter oder indirekter Einflussnahme, da KI bereits heute in der Lage sind Menschen dahingehend zu instrumentalisieren, dass sie im Sinne von deren Optimierungszielen handeln. Damit ist nicht nur offensichtliche Manipulation gemeint, sondern auch Empfehlungen der KI, dass man ihr mehr Ressourcen zur Verfügung stellen oder leistungsfähigere Systeme entwickeln sollte.

Aus dem Szenario des freiwilligen Kontrollverlustes leiten einige Autor*innen (u.a. Carlsmith 2022) ein weit bedrohlicheres Szenario ab. Ausgangspunkt ist eine KI, die erkennt, dass es zur Zielerreichung beiträgt, mehr Kontrolle zu erlangen. Kontrollgewinn würde so zu einem Unterziel. Kontrollgewinn bedeutet Machtgewinn und Machtgewinn erleichtert wiederum die Kontrolle. Machtgewinn (powerseeking) würde so zu einem Unterziel. Einer besseren KI fiele es leichter Macht und Kontrolle zu erlangen. Womit Verbesserung von KI zu einem Unterziel würde. Das Abschalten der KI würde verhindern, dass das Optimierungsziel erreicht wird, also wird der Erhalt von KI zu einem Unterziel. Dieses Unterziel wiederum lässt sich am besten erreichen, wenn die KI möglichst viel Kontrolle ausüben kann. Ein möglicher Faktor, der zum Abschalten von KI beitragen könnte, ist der „human-in-the-loop“. Dieses Unterziel ließe sich erreichen, indem den Menschen die Kontrolle über KI direkt entzogen wird oder sie bezüglich der Unterziel getäuscht werden. Voraussetzung für dieses spekulative Szenario ist die stetige Verbesserung von KI.

Damit eine KI sich wirklich selbst verbessern kann, müssen zwei Bedingungen erfüllt sein. Erstens muss sie direkt oder indirekt den Code des Lernalgorithmus verändern können. Eine KI, die nur kontinuierlich weiter lernt und sich anpasst verbleibt immer im Rahmen ihrer vorgegebenen Parameter, das heißt: Nur das gelernte Modell verändert sich, der Trainingsalgorithmus selbst bleibt gleich. Eine Selbstverbesserung, die über die Optimierung des bestehenden Systems hinausgeht, setzt deshalb voraus, dass der Lernalgorithmus nicht nur in der Lage ist, das trainierte Modell und seine eigenen Parameter zu optimieren, sondern neue Parameter zu integrieren. Diese Integration kann durch die Erweiterung des bestehenden Systems durch sich selbst geschehen, als auch dadurch, dass die KI neue KI entwirft oder anderer KI oder Menschen dazu auffordert dies zu tun. Zweitens muss diese Möglichkeit als Mittel zur Zielerreichung dem System bekannt sein, man spricht von „strategic awareness“.

Die sogenannte „Strategic Awareness“ ist deutlich weniger als „Selbstbewusstsein“ und für KIs erreichbar. „Broadly and loosely, though, we can think of a strategically aware, planning agent as possessing models of the world that would allow it to answer questions like ‘what would happen if I had access to more computing power’ and ‘what would happen if I tried to stop humans from turning me off’ about as well as humans can (and using those same models in generating plans).” (Carlsmith 2022, 11) Problematisch an dieser Beschreibung ist der Gebrauch des Personalpronomens “me”, der die Vorstellung „selbstbewusster KI“ auf den Plan ruft, gekoppelt gar mit der Idee der Selbsterhaltung. Eine KI muss diese Art Fragen aber gar nicht in Bezug auf „sich selbst“ beantworten, sie muss nur erkennen, dass KI ein Teil des zu optimierenden Prozesses ist und dass die Verbesserung oder die Verhinderung der Abschaltung dieser KI zum Erreichen des Optimierungsziels beiträgt. Das System muss nicht erkennen, dass es sich bei dieser KI um „sie selbst“ handelt. Für das sogenannte „Powerseeking“ gilt dasselbe. Nicht: „What would happen if I had access to more computing power“, sondern „Ist für die Zielerreichung mehr Rechenleistung (oder allgemeiner: Kontrolle über mehr Ressourcen) zuträglich oder gar notwendig?“. Mit anderen Worten: Eine KI würde „sich“ bedenkenlos opfern bzw. sich selbst durch ein besseres System ersetzen, sobald dies zum Erreichen des Optimierungsziels beiträgt; KI sind selbstlose Agenten.

Umstritten ist, ob die dargestellten Szenarien mehr sind als bloße Spekulation. In den letzten Jahrzehnten hat sich hierzu eine rege Debatte entwickelt (vgl. u.a. Carlsmith 2022, Turchin und Denkenberger 2020, https://www.ki-risiken.de), die in einem Blogbeitrag nicht darstellbar ist. Wichtig war uns darauf hinzuweisen, dass die Anthropomorphisierung von KI problematisch ist, da sie dazu führen kann, dass Risiken, wie ein möglicher Kontrollverlust, falsch eingeschätzt werden.


Reinhard Heil ist seit 2010 wissenschaftlicher Mitarbeiter am Institut für Technikfolgenabschätzung und Systemanalyse (ITAS) des Karlsruher Instituts für Technikfolgenabschätzung. Seine aktuellen Forschungsschwerpunkte sind die gesellschaftlichen folgen künstlicher Intelligenz, Transhumanismus und Vision Assessment. https://www.itas.kit.edu/kollegium_heil_reinhard.php

Leonie Seng arbeitet seit 2021 am ITAS als wissenschaftliche Mitarbeiterin in der Forschungsgruppe “Digitale Technologien und gesellschaftlicher Wandel”; derzeit unter anderem im “Reallabor Robotische Künstliche Intelligenz” sowie im Projekt “Gesellschaftliches Vertrauen in lernende Systeme”. https://www.itas.kit.edu/kollegium_seng_leonie.php


Literatur

Carlsmith, Joe (2022). Is Power-Seeking AI an Existential Risk? ArXiv. https://doi.org/10.48550/arxiv.2206.13353.

Heil, Reinhard; Wadephul, Christian; Wendland, Karsten (2019): “Robotik und die Zuschreibung von Bewusstsein”. In: Hanna Fülling und Gernot Meier: Die digitale Revolution und ihre Kinder. Brennpunkte digitaler Ethik. EZW-Texte, Heft 264, S. 27—35. Online verfügbar unter https://www.ezw-berlin.de/fileadmin/user_upload/ezw-berlin/publications/downloads/EZW-Texte_264_27-35.pdf, zuletzt geprüft am 07.03.2023.

Hertling, William (2011): Avogadro Corp. The Singularity is Close than it Appears. Liquididea Press.

Kochenderfer, Mykel; Wheeler, Tim; Wray, Kyle (2022): Algorithms for Decision Making. Cambridge, MA: MIT Press.

McEwan, Ian (2019): Machines like me: and people like you. Jonathan Cape, Penguine: London.

Seng, Leonie (2019): “Mein Haus, mein Auto, mein Roboter? Eine (medien-)ethische Beurteilung der Angst vor Robotern und künstlicher Intelligenz”. In: Matthias Rath, Friedrich Krotz und Matthias Karmasin (Hg.): Maschinenethik. Normative Grenzen autonomer Systeme. Wiesbaden: Springer VS, S. 57—72.

Turchin, Alexey, & Denkenberger, David (2020). Classification of global catastrophic risks connected with artificial intelligence. AI & Society, 35(1), 147–163. https://doi.org/10.1007/s00146-018-0845-5.

Ullrich, Stefan (2019): „Algorithmen, Daten und Ethik. Ein Beitrag zur Papiermaschinenethik“. In: Handbuch Maschinenethik. Hrsg. von Oliver Bendel. Wiesbaden: VS Verlag für Sozialwissenschaften, S. 1–26.