Reise in die Welt der Voice-Fakes
Künstliche Intelligenz kann Stimmen täuschend echt imitieren. Was passiert als nächstes?
du liest cool genug, den tech- und storytelling-newsletter von gregor schmalzried. find me on linkedin!
Reise in die Welt der Voice-Fakes
In der Netflix-Dokumentation The Andy Warhol Diaries ist Andy Warhol selbst der Erzähler. Doch die Sätze, mit denen Warhols Stimme durch die Geschichte führt, sind keine Originalaufnahmen. Sie wurden mit einer künstlichen Intelligenz erstellt — trainiert auf der Basis von Warhols Stimme.
Das Ergebnis ist so verblüffend gut, man hört die KI nur, wenn man davon weiß.
The Andy Warhol Diaries wurde im Jahr 2021 produziert. Die Technologie, die dafür nötig war, fühlte sich damals noch Cutting-Edge an — großen Studios und Unternehmen vorbehalten.
Doch in nur zwei Jahren ist diese Technologie vom Premium-Produkt zur Massenware geworden. Mir wurde das letzte Woche klar, als ich den KI-Stimme-in-der-Doku-Trick wieder gesehen habe — diesmal aber nicht in einer teuren Netflix-Produktion, sondern in einem YouTube-Video über einen Crypto-Betrug.
Tools wie ElevenLabs haben es in den letzten Monaten immer leichter gemacht, selbst künstliche Stimmen zu erzeugen, oder existierende Stimmen digital zu klonen. Das Ergebnis: Eine Welt, in der künstliche Stimmen kaum noch von echten unterscheidbar sind — und massenhaft erzeugt werden können.
1. DER LUSTIGE TEIL
Wolltest du einmal hören, wie der kanadische Psychologe und Anti-Wokeness-Aktivist Jordan Peterson den kulturellen Einfluss von Money Boy zusammenfasst?
Nein?
Pech.
Auf TikTok, Twitter und YouTube ist “Promis, die sich über nerdige Sachen unterhalten” das große Meme der Stunde.
Tools wie ElevenLabs, Voice.AI und Tortoise machen es so einfach, Fake-Audios von bekannten Personen zu erstellen… es hat sich mittlerweile eine komplette Kultur rund um diese Clips gebildet.
Im Zentrum dieser Kultur stehen einige edgy Internet-Persönlichkeit wie Jordan Peterson, Joe Rogan und Ben Shapiro, vor allem aber drei andere Typen: Joe Biden, Donald Trump und Barack Obama. Videos, in denen so getan wird, als würden die drei letzten US-Präsidenten gemeinsam in einem Discord-Chat sitzen und im Jugend-Slang über Videospiele und Popkultur diskutieren, sind ein gigantisches Phänomen geworden.
Die Videos sind so beliebt und es gibt so viele Creator, die neue erstellen, dass sich um die drei fast eine Art kleine Fangemeinde gebildet hat. “The presidents”, neu erfunden als Gamer-Kumpel, ist eine Art fortlaufende YouTube-Sitcom geworden, ein Blick in eine selige Parallel-Welt, in der die drei sich zwar permanent beleidigen, aber — anders als im echten Leben — konstruktiv miteinander umgehen können. Insbesondere, wenn es darum geht, Videospiele zu ranken.
“I find this strangely therapeutic”, kommentiert ein User. “They are so aggressive with each other yet also provide valid reasons for why they believe each game should be ranked where they think is best. When they disagree with each other they make it clear and when they find common ground to agree on they also make that apparent. After the insults are thrown with a lot of cussing they always remain friends and keep doing what they do best.”
Unter einem anderen Video steht dieser vielsagende Kommentar: “These 3 have actually become such a dynamic trio on YouTube and they aren't even real”.
2. DER ERNSTE TEIL
Zurück in der echten Welt sorgen diese KI-Stimmen bereits jetzt für jede Menge Schwierigkeiten.
Eine Auswahl:
Ein Video, in dem ein falscher Joe Biden einen transphoben Text vorliest, wurde im Februar von einem Abgeordneten in Kenia auf Twitter geteilt. Er hielt den Clip offenbar für echt.
Betrüger nutzen KI-Stimmen für eine Art ultimativen Enkeltrick. Stell dir vor, jemand ruft dich an und bittet um eintausend Euro. Jetzt stell dir vor, diese Person klingt genau wie dein Kind.
Ein Vice-Reporter hat es geschafft, mithilfe einer KI-Stimme digital in ein Bankkonto einzubrechen.
Die Witwe des bekannten verstorbenen Gaming-Streamers TotalBiscuit hat sich bestürzt darüber gezeigt, dass Leute die Stimme ihres verstorbenen Mannes klonen und für selbstsüchtige Zwecke nutzen.
3. DER AUSBLICK-TEIL
Die Einsatzbereiche für diese Art von Technologie werden sich in den nächsten Jahren noch um einiges erweitern.
Für die mehr oder weniger offensichtlichen Ideen gibt es jetzt schon Programme und Demos:
Große Unternehmen, darunter Lufthansa, lassen virtuelle Stimmen einen immer größeren Teil ihres Telefon-Service übernehmen.
Disney hat Schauspieler James Earl Jones die Rechte an seiner Stimme abgekauft, damit er auch in dreißig Jahren noch Darth Vader sprechen kann.
Und auch in der Filmsynchronisierung beobachtet man die Technologie genau. Mittlerweile gibt es gleich mehrere Startups, die Stimmsynchronisierung bald automatisiert erledigen wollen — indem die Stimme des Originaldarstellers virtuell übersetzt wird. Hier ein Beispiel aus einem Live-Action-Film
und eines aus einem Anime:
Fans der Serie Rick and Morty können sich auch dieses Fan-Video anschauen, in dem die Stimmen beider Hauptrollen durch KI ersetzt wurden (das ganze ist ein Meta-Kommentar darüber, dass der Sprecher der beiden Rollen kürzlich gefeuert wurde).
Wirklich perfekt sind die Tools natürlich noch nicht. Es fehlt ihnen noch einiges an Leben, an Esprit, an Menschlichkeit, wie man es bei einer professionellen Sprecherin bekommen würde.
Die Frage — wie so oft bei KI — ist also: Ist diese Technologie schon am Ende ihrer Verbesserungsphase angelangt? Oder hat sie damit gerade erst angefangen?
Wo auf der S-Kurve befinden wir uns?
ElevenLabs will seine Bots noch diesen Monat übrigens auf Deutsch launchen.
Außerdem
KI-Anwendungen
ChatGPT invented its own puzzle game. puzzledpenguin.substack.com
Researchers release ControlNet: control large diffusion models using inputs beyond just text prompts. twitter.com
GM wants to bring ChatGPT-like assistant to drivers. semafor.com
Worldcoin, co-founded by Sam Altman, is betting the next big thing in AI is proving you are human. techcrunch.com (siehe: Das ewige Captcha)
KI-Hintergrund
Meet the companies trying to keep up with ChatGPT. theverge.com
Wie ein Deutscher mit Aleph Alpha einen globalen KI-Champion baut. omr.com
ChatGPT broke the EU plan to regulate AI. politico.eu
LLMs are not going to destroy the human race. noahpinion.substack.com
Meet the first-ever artificial intelligence editor at the Financial Times. niemanlab.org
Alexa vs ChatGPT. spiegel.de
The semiautomated social network is coming. theverge.com
ChatGPT Explained: A Normie's Guide To How It Works. jonstokes.com
Content
Spotify’s new design is part TikTok, part Instagram, and part YouTube. theverge.com
Curation vs. Consumption. kylechayka.substack.com
Brauchen wir ICQ zurück? podcastepisode
Business
The Third Browser War and the Fight to Bring the OS to the Cloud. notboring.co
Brands are hiring creators as ‘creative directors’. digiday.com
‘An extension of me’: The rise of the founder-influencer. modernretail.co
Dystopia
Ist TikTok eine chinesische Cyberwaffe? zeit.de
Influencer Parents and The Kids Who Had Their Childhood Made Into Content. teenvogue.com
Why won’t TikTok confirm the Bold Glamour filter is AI? theverge.com
🎤,