KI-Trainingsdaten verändern englische Sprache und wirken dadurch rassistisch

Die Sprache der „künstlichen Intelligenz“ ist (aktuell?) Englisch. Doch nicht irgendein Englisch. Vielmehr sind die Produkte der KI geprägt von dem Englisch, das im Trainingsprozess genutzt wird. Der Guardian berichtet nun, dass hier ein spezieller Mechanismus am Werk ist, der letztlich mal wieder auf rassistischer Ausbeutung basiert und rassistische Strukturen reproduziert.

In der letzten Zeit sind einige sprachliche Marker aufgefallen, die in KI-generierten Texten deutlich häufiger auftreten, als in menschlich geschriebenen. Einer davon ist das Wort „delve“ (für „eintauchen“ oder „vertiefen“). Dessen häufiges Auftreten ist jedoch nicht nur ein statistisches Artefakt, sondern kann ganz konkret darauf zurückgeführt werden, wie – bzw. besser wo – LLMs trainiert werden. Dazu der Guardian:

Hundreds of thousands of hours of work goes into providing enough feedback to turn an LLM into a useful chatbot, and that means the large AI companies outsource the work to parts of the global south, where anglophonic knowledge workers are cheap to hire.

Und das ist diesem Fall Afrika, bzw. am Beispiel des Wortes „delve“ könnte es in erster Linie sogar Nigeria sein, in dessen Englisch das Wort wesentlich häufiger verwendet wird. So zeigt sich jetzt bereits, dass KI-Englisch einen bestimmten Soziolekt übernimmt: den afrikanischen. Auf den ersten Blick scheint das nicht besonders problematisch, wenn nicht ein weiterer Effekt auftreten würde:

If AI-ese sounds like African English, then African English sounds like AI-ese.

Das heißt, wenn eines der vielen Tools, die dabei helfen sollen, KI-generierte Texte zu erkennen, nun auf einen Text trifft, der in afrikanischem Englisch geschrieben ist, steigt die Wahrscheinlichkeit deutlich an, dass dieser als „AI-generiert“ eingeordnet wird – voilà, Rassismus.