Ich habe vor ein paar Wochen ein Video gesehen, in dem ein amerikanischer CEO auf Japanisch sprach. Seine Lippen formten die japanischen Wörter und seine Stimme klang wie seine. Auch die Gestik passte. Der Haken an der Sache war: er spricht kein Japanisch.
Die lippensynchrone Übersetzung wurde als Durchbruch gefeiert und aus technischer Sicht sicherlich zu Recht. Es war ja auch faszinierend. Da spricht eine Person, die man kennt, plötzlich in einer fremden Sprache, und man denkt, jetzt fallen die letzten Sprachbarrieren.
Und wie immer ist das Problem der Synthetik, die KI so gerne produziert: Ein Mensch formt Wörter, die er nie gesagt hat. Das Wort dafür heißt Deepfake. Aber das Wort benutzt in diesem Kontext niemand, sondern: Lokalisierung, Personalisierung, Skalierung, keine Ahnung. Ich habe gefühlt tausend Begriffe dazu gehört. Irgendwann war für mich der Vorgang nüchtern betrachtet gar nicht so cool: künstliche Intelligenz verändert das Gesicht einer realen Person so, dass sie etwas sagt, das sie nie gesagt hat, in einer Sprache, die sie nicht spricht.
Ich nehme jetzt Augenrollen in Kauf, wenn ich kleinkariert sage, dass der Unterschied zwischen Lokalisierung und Fälschung nicht in der Technik liegt, sondern in der Absicht und in der Transparenz darüber.
Wenn ich weiß, dass das Video übersetzt wurde, hat es einen klaren Werkzeug-Charakter. Wenn ich es nicht weiß, dann werde ich hinters Licht geführt. Die Frage ist: Wie viele Zuschauer werden es wissen? Weil gesagt wird es nicht immer. Ich habe schon einige Essays über Ethik geschrieben. Für mich ist das hier auch eine ethische Frage. In der Begeisterung über die Technik kommt das aber kaum vor.
In einer Gesellschaft sollte Konsens darüber bestehen, dass die Worte einer Person auch dieser Person gehören. Wenn jemand in einem Interview etwas sagt, ist das ein Zitat und kann überprüft werden. Es kann bestritten oder im Kontext verzerrt werden, aber es wurde gesagt.
Was passiert nun, wenn Worte synthetisch produziert und in einen Mund gelegt werden? Was sind die Folgen, wenn ein Politiker in einem Video etwas sagt, das lippensynchron und stimmecht ist, aber nie von ihm gesagt wurde? Und wenn das dann politische Entscheidungen auslöst?
Klar, die Absicht macht den Unterschied. Ein Unternehmen, das seinen CEO in zwanzig Sprachen sprechen lässt, will keine Fälschung, sondern Reichweite. Das ist ok so, aber die Technologie kann eben mehr als nur übersetzen, sie interpretiert genauso wie ein menschlicher Übersetzer interpretieren würde. Nur ist das nachprüfbarer und korrigierbarer als simultane Real-Time-Übersetzung.
Ein guter menschlicher Übersetzer nimmt einen Gedanken und findet in einer anderen Sprache einen Weg, denselben Gedanken auszudrücken. Das Ergebnis klingt anders als das Original und es ist auch richtig so, weil die Sprache auch anders ist. Die entstehende Lücke ist eine ehrliche. Sie sagt: Das ist eine Übersetzung. Jemand hat das für dich zugänglich gemacht, aber es kommt von woanders.
Lippensynchrone Übersetzung, wenn nicht explizit kenntlich gemacht, entfernt diese Differenz. Sie entfernt den Hinweis, dass es sich um eine Übersetzung handelt. Das Video sieht aus wie ein Original und die Übersetzung dahinter ist unsichtbar. Man nennt das Lokalisierung aber es ist streng genommen Deepfake.