Wann wird Lokalisierung zu Deepfake?

Ich habe vor ein paar Wochen ein Video gesehen, in dem ein amerikanischer CEO auf Japanisch sprach. Seine Lippen formten die japanischen Wörter und seine Stimme klang wie seine. Auch die Gestik passte. Der Haken an der Sache war: er spricht kein Japanisch.

Die lippensynchrone Übersetzung wurde als Durchbruch gefeiert und aus technischer Sicht sicherlich zu Recht. Es war ja auch faszinierend, wenn es so aussieht, als spricht die Person, die man kennt, plötzlich in einer komplett fremden Sprache und man bekommt tatsächlich den Eindruck, jetzt würden die letzten kulturellen Barrieren abgebaut und lückenlose Kommunikation ist möglich.

Und wie immer ist das Problem der Synthetik, die KI so gerne produziert: Ein Mensch formt Wörter, die er nie gesagt hat. Das Wort dafür heißt Deepfake. Aber das Wort benutzt in diesem Kontext niemand, sondern: Lokalisierung, Personalisierung, Skalierung, keine Ahnung. Ich habe gefühlt tausend Begriffe dazu gehört. Irgendwann war für mich der Vorgang nüchtern betrachtet gar nicht so cool: künstliche Intelligenz verändert das Gesicht einer realen Person so, dass sie etwas sagt, das sie nie gesagt hat, in einer Sprache, die sie nicht spricht.

Ich nehme jetzt Augenrollen in Kauf, wenn ich kleinkariert sage, dass der Unterschied zwischen Lokalisierung und Fälschung nicht in der Technik liegt, sondern in der Absicht und in der Transparenz darüber.

Wenn ich weiß, dass das Video übersetzt wurde, ist es ein Werkzeug. Wenn ich es nicht weiß, ist es eine Lüge. Die Frage ist: Wie viele Zuschauer werden es wissen? Weil gesagt wird es nicht immer. Und Essays über Ethik habe ich schon einige verfasst und das ist eine ethische Frage für mich. Und auch wenn das Thema Ethik jetzt nicht direkt mit dieser Frage verbunden wird, geht trotzdem kaum einer darauf ein.

Es sollte ein Common Understanding in einer Gesellschaft sein, dass die Worte einer Person auch dieser Person gehören. Wenn jemand in einem Interview etwas sagt, ist das ein Zitat und kann überprüft werden. Es kann bestritten oder im Kontext verzerrt werden, aber es wurde gesagt.

Was passiert nun, wenn Worte synthetisch produziert und in einen Mund gelegt werden? Was sind die Folgen, wenn ein Politiker in einem Video etwas sagt, das lippensynchron und stimmecht ist, aber nie von ihm gesagt wurde und seine Worte lösen weitere politische Entscheidungen nach sich?

Das implizite Argument lautet, dass die Absicht den Unterschied macht. Ein Unternehmen, das seinen CEO in zwanzig Sprachen sprechen lässt, will keine Fälschung, sondern Reichweite. Das ist ok, so, aber die Technologie kann eben mehr als nur übersetzen, sie interpretiert genauso wie ein menschlicher Übersetzer interpretieren würde. Nur ist das nachprüfbarer und korrigierbarer als simultane Real-Time-Übersetzung.

Ein guter menschlicher Übersetzer nimmt einen Gedanken und findet in einer anderen Sprache einen Weg, denselben Gedanken auszudrücken. Das Ergebnis klingt anders als das Original und es ist auch richtig so, weil die Sprache auch anders ist. Die entstehende Lücke ist eine ehrliche. Sie sagt: Das ist eine Übersetzung. Jemand hat das für dich zugänglich gemacht, aber es kommt von woanders.

Lippensynchrone Übersetzung, wenn nicht explizit kenntlich gemacht, entfernt diese Differenz. Sie entfernt den Hinweis, dass es sich um eine Übersetzung handelt. Das Video sieht aus wie ein Original und die Übersetzung dahinter ist unsichtbar. Man nennt das Lokalisierung aber es ist streng genommen Deepfake.