Wann wird Lokalisierung zu Deepfake?
Ich habe vor ein paar Wochen ein Video gesehen, in dem ein amerikanischer CEO auf Japanisch sprach. Seine Lippen formten die japanischen Wörter. Seine Stimme klang wie seine Stimme. Die Gestik passte. Alles stimmte, bis auf eine Kleinigkeit: Er spricht kein Japanisch.
Die Branche nennt das “lippensynchrone Übersetzung” und feiert es als Durchbruch in der Lokalisierung. Ein Redner, ein Video, hundert Sprachen. Jede Version sieht aus, als hätte die Person in dieser Sprache gesprochen. Beschrieben wird das als Effizienzgewinn und als Weg, kulturelle Barrieren abzubauen.
Ich sehe etwas anderes. Ich sehe einen Menschen, der Wörter formt, die er nie gesagt hat.
Es gibt ein Wort dafür. Es heißt Deepfake. Aber das Wort benutzt in diesem Kontext niemand. Stattdessen: Lokalisierung, Personalisierung, Skalierung. Technische Begriffe für einen Vorgang, der, wenn man ihn beschreibt statt benennt, so klingt: Eine künstliche Intelligenz verändert das Gesicht einer realen Person so, dass sie etwas sagt, das sie nie gesagt hat, in einer Sprache, die sie nicht spricht.
Der Unterschied zwischen Lokalisierung und Fälschung liegt nicht in der Technik. Er liegt in der Absicht. Und in der Transparenz.
Wenn ich weiß, dass das Video übersetzt wurde, ist es ein Werkzeug. Wenn ich es nicht weiß, ist es eine Lüge. Die Frage ist: Wie viele Zuschauer werden es wissen?
Auf diese Frage geht niemand ein. Der Nutzen wird beschrieben, die Frage wird übersprungen. Aber die Frage ist alles.
Wir haben uns als Gesellschaft darauf geeinigt, dass die Worte einer Person dieser Person gehören. Wenn jemand in einem Interview etwas sagt, ist das ein Zitat. Es kann überprüft werden. Es kann bestritten werden. Es kann in einen Kontext gestellt werden. Aber es wurde gesagt.
Was passiert mit dieser Vereinbarung, wenn Worte synthetisch sind? Wenn ein Politiker in einem Video etwas sagt, das lippensynchron und stimmecht ist, aber nie stattgefunden hat? Die Technologie ist dieselbe. Die Anwendung ist eine andere. Aber die Grenze dazwischen ist keine Linie. Sie ist ein Nebel.
Das implizite Argument lautet, dass die Absicht den Unterschied macht. Ein Unternehmen, das seinen CEO in zwanzig Sprachen sprechen lässt, will keine Fälschung. Es will Reichweite. Einverstanden. Aber die Technologie, die das ermöglicht, kann beides. Und sie wird beides.
Ich denke an Übersetzung, wie ich sie kenne. Ein guter Übersetzer nimmt einen Gedanken und findet in einer anderen Sprache einen Weg, denselben Gedanken auszudrücken. Das Ergebnis klingt anders als das Original. Es muss anders klingen, weil die Sprache anders ist. Diese Differenz ist ehrlich. Sie sagt: Das ist eine Übersetzung. Jemand hat das für dich zugänglich gemacht, aber es kommt von woanders.
Lippensynchrone Übersetzung entfernt diese Differenz. Sie entfernt den Hinweis, dass es sich um eine Übersetzung handelt. Das Video sieht aus wie ein Original. Die Übersetzung macht sich unsichtbar. Und eine Übersetzung, die sich unsichtbar macht, ist etwas anderes als eine Übersetzung.
Die Technologie ist beeindruckend. Die Anwendungsfälle sind real. Aber wenn man über Lokalisierung spricht und das Wort Deepfake kein einziges Mal vorkommt, dann hat man eine Entscheidung getroffen. Man hat entschieden, nicht darüber zu sprechen.
Die Frage, ab wann eine Übersetzung zur Fälschung wird, hat keine einfache Antwort. Aber sie nicht zu stellen, hat eine sehr klare Bedeutung: Sie ist unbequem für das, was man verkaufen will.
Wann genau kippt es? Wann wird aus einem nützlichen Werkzeug eine Waffe? Die Technik kann es nicht beantworten. Die Branche will es nicht beantworten. Wer soll es dann tun?