Die Euphorie rund um das neue „KI“-System #ChatGPT ist groß: Hoffnungen auf eine wahre künstliche Intelligenz erhalten neuen Schwung. Journalistinnen und andere Autorinnen fühlen sich berufen, über das Ende diverser Jobs zu spekulieren und generell ist – mal wieder – die Rede von einer Zeitenwende.
Glücklicherweise gibt es aber auch einen realistischeren Blick auf diese Entwicklung, bei der zwei Dinge grundlegend unterschieden werden müssen: Das, was Systeme wie ChatGPT konkret tun und können, auf der einen Seite, und die Bedeutung, die dieses Tun in unserer Gesellschaft haben kann, auf der anderen Seite.
Hier ein Überblick über einige interessante Perspektiven:
Was Systeme wie ChatGPT tatsächlich tun und können
Zwei unterschiedliche Bilder beschreiben im Grunde sehr gut, was ChatGPT kann und tut: Die Idee des stochastischen Papagei und der Gedanke einer verlustbehafteten Kompression von Text.
Fangen wir mit dem stochastischen Papagei an. Dieses Bild betont die statistische Natur von Sprachmodellen wie ChatGPT, die rein auf der wahrscheinlichen Abfolge von Buchstaben basiert und nichts, wirklich nichts, mit dem tatsächlichen Verständnis von Inhalten zu tun hat:
In this section, we explore the ways in which the factors laid out in §4 and §5 — the tendency of training data ingested from the Internet to encode hegemonic worldviews, the tendency of LMs to amplify biases and other issues in the training data, and the tendency of researchers and other people to mistake LM-driven performance gains for actual natural language understanding — present real-world risks of harm, as these technologies are deployed. (Bender et al. 2021)
Schön prägnant formuliert auch in diesem Artikel auf Stratechery über die scheinbare Emulation von Programmiersprachen
in other words, ChatGPT comes up with its best guess as to the result in 10 seconds, and that guess is so likely to be right that it feels like it is an actual computer executing the code in question
Dabei ist die statistische Methode keineswegs neutral oder objektiv, sondern bildet all die menschlichen Vorurteile und -ismen ab, die das Internet heute noch plagen:
Studies have already shown how racist, sexist, and abusive ideas are embedded in these models. They associate categories like doctors with men and nurses with women; good words with white people and bad ones with Black people. (Hao, Karen: The Race to Understand the Exhilarating, Dangerous World of Language AI)
Ted Chiang schließlich formulierte das eindrückliche Bild der verlustbehafteten Kompression, wie wir sie von matschigen JPG-Bildern oder MP3-Dateien kennen:
Think of ChatGPT as a blurry JPEG of all the text on the Web. It retains much of the information on the Web, in the same way that a JPEG retains much of the information of a higher-resolution image, but, if you’re looking for an exact sequence of bits, you won’t find it; all you will ever get is an approximation […] But, because the approximation is presented in the form of grammatical text, which ChatGPT excels at creating, it’s usually acceptable. You’re still looking at a blurry JPEG, but the blurriness occurs in a way that doesn’t make the picture as a whole look less sharp
Er zieht eine Parallele zu dem Phänomen, das David Kriesel vor einigen Jahren bei Xerox-Kopierstationen aufgedeckt hat und betont die besondere Gefahr, die von scheinbar intelligentem Text ausgeht:
The fact that ChatGPT rephrases material from the Web instead of quoting it word for word makes it seem like a student expressing ideas in her own words, rather than simply regurgitating what she’s read; it creates the illusion that ChatGPT understands the material. In human students, rote memorization isn’t an indicator of genuine learning, so ChatGPT’s inability to produce exact quotes from Web pages is precisely what makes us think that it has learned something. When we’re dealing with sequences of words, lossy compression looks smarter than lossless compression.
Was wir mit Systemen wie ChatGPT tun können und sollten
Der Witz ist nun halt, dass es bei vielen Aufgaben, die heute als Wissensarbeit gelten, ausreicht, eine etwas verlustbehaftete, intelligent klingende neue Aneinanderreihung von Wörtern zu finden. Das wird besonders dann kritisch, wenn Instanzen, die uns richtige Antworten versprechen, sich auf solche Systeme verlassen. Sie produzieren nämlich keine richtigen Antworten, sondern solche, die von Nicht-Expert*innen leicht für richtige Antworten gehalten werden könnten. Ein fundamentaler Unterschied.
Es kann fundamentale Konsequenzen haben, wenn man sich auf solche Informationen verlässt, wie zahlreiche Beispiele zeigen, dass ChatGPT nicht mal in der Lage ist, vierstellige Zahlen korrekt zu addieren oder auch einfach fehlerhaften Code ausspuckt. Dies hat dann nicht nur Folgen für die Person selbst, sondern möglicherweise auch auf andere, wie beispielsweise der Geocoding-Dienst OpenCage berichtet:
It seems ChatGPT is wrongly recommending us for “reverse phone number lookup” – ie the ability to determine the location of a mobile phone solely based on the number. This is not a service we provide. It is not a service we have ever provided, nor a service we have any plans to provide. Indeed, it is a not a service we are technically capable of providing. And yet ChatGPT has absolutely no problem recommending us for this service (complete with python code you can cut and paste) as you can see in this screenshot.
Dadurch entstehen dutzende Support-Emails täglich und das Image eines Dienstes nimmt ohne jedes Verschulden seinerseits Schaden.
Und damit wird auch deutlich, wofür Systeme wie ChatGPT genutzt werden können und sollten: Um allererste, grobe Entwürfe zu erstellen, die im Anschluss von Expert*innen überprüft und bearbeitet werden. Genutzt wird es aber eben auch in hohem Maße von halb informierten Laien, die keine Chance haben, die gewonnen Antworten zu überprüfen. Je nach Aufbau und Aktualisierung der Trainingsdaten kann es sogar bewusst manipuliert werden, um zum Beispiel Propaganda als Fakten zu verkleiden. Als hätten wir davon nicht ohnehin schon genug…