KI-Trainingsdaten verändern englische Sprache und wirken dadurch rassistisch

Die Sprache der „kün­stlichen Intel­li­genz“ ist (aktuell?) Englisch. Doch nicht irgen­dein Englisch. Vielmehr sind die Pro­duk­te der KI geprägt von dem Englisch, das im Train­ing­sprozess genutzt wird. Der Guardian berichtet nun, dass hier ein spezieller Mech­a­nis­mus am Werk ist, der let­ztlich mal wieder auf ras­sis­tis­ch­er Aus­beu­tung basiert und ras­sis­tis­che Struk­turen repro­duziert.

In der let­zten Zeit sind einige sprach­liche Mark­er aufge­fall­en, die in KI-gener­ierten Tex­ten deut­lich häu­figer auftreten, als in men­schlich geschriebe­nen. Ein­er davon ist das Wort „delve“ (für „ein­tauchen“ oder „ver­tiefen“). Dessen häu­figes Auftreten ist jedoch nicht nur ein sta­tis­tis­ches Arte­fakt, son­dern kann ganz konkret darauf zurück­ge­führt wer­den, wie – bzw. bess­er wo – LLMs trainiert wer­den. Dazu der Guardian:

Hun­dreds of thou­sands of hours of work goes into pro­vid­ing enough feed­back to turn an LLM into a use­ful chat­bot, and that means the large AI com­pa­nies out­source the work to parts of the glob­al south, where anglo­phon­ic knowl­edge work­ers are cheap to hire.

Und das ist diesem Fall Afri­ka, bzw. am Beispiel des Wortes „delve“ kön­nte es in erster Lin­ie sog­ar Nige­ria sein, in dessen Englisch das Wort wesentlich häu­figer ver­wen­det wird. So zeigt sich jet­zt bere­its, dass KI-Englisch einen bes­timmten Sozi­olekt übern­immt: den afrikanis­chen. Auf den ersten Blick scheint das nicht beson­ders prob­lema­tisch, wenn nicht ein weit­er­er Effekt auftreten würde:

If AI-ese sounds like African Eng­lish, then African Eng­lish sounds like AI-ese.

Das heißt, wenn eines der vie­len Tools, die dabei helfen sollen, KI-gener­ierte Texte zu erken­nen, nun auf einen Text trifft, der in afrikanis­chem Englisch geschrieben ist, steigt die Wahrschein­lichkeit deut­lich an, dass dieser als „AI-gener­iert“ ein­ge­ord­net wird – voilà, Ras­sis­mus.

Quellen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert