Sora und die Revolution hinter der Revolution
Wann glauben wir dem Papagei, dass er wirklich sprechen kann?
du liest den tech- und medien-newsletter von gregor schmalzried. find me on linkedin!
Sora und die Revolution hinter der Revolution
1 SORA
Ich hatte kurz geglaubt, AI könnte mich nicht mehr überraschen.
Dann kam die Präsentation des neuen Text-zu-Video-Tools “Sora” von OpenAI.
Die meisten Lesenden dieses Newsletters haben ein paar der folgenden Clips wahrscheinlich schon gesehen — ich empfehle trotzdem, sich jeden einzelnen anzuschauen. Insbesondere “Reflections in the window of a train traveling through the Tokyo suburbs” bei 8:30, am besten mehrfach.
*nicht enthalten in diesem Video: Wie Sora Minecraft simuliert*
Instinktiv verstehen wir alle sofort, dass wir hier etwas ganz Besonderes sehen. Wir fühlen es, im Bauch. Diese Videos sind nicht bearbeitet — sie sind reine Text-zu-Bild-Generierungen eines AI-Tools, das bald ein Massenprodukt werden dürfte, ähnlich wie ChatGPT (wobei noch unklar ist, wie zeit- und kostenaufwendig ein Sora-Video am Ende sein wird). Sora trifft mit einem Schlag in den Bauch wie es seit über einem Jahr keine AI-Innovation mehr getan hat (außer vielleicht dem Daunenpapst). In Online-Foren wie dem Subreddit /r/cinematography bilden sich bereits Diskussionen zum Thema Berufswechsel.
Aber jenseits der “Uff!”- und “Wow!”-Momente zeigt uns Sora noch etwas. Eine Revolution hinter der Revolution.
2 SIMULIERTE WELTEN
Zusätzlich zu den Videos hat OpenAI noch etwas veröffentlicht. Ein Research Paper namens “Video generation models as world simulators”.
Das klingt ambitioniert. Und ist es auch.
Die technischen Details gibt es zum Nachlesen bei OpenAI — aber der wesentliche Punkt ist:
Andere Videomodelle generieren meist Frame-für-Frame. Sie betrachten ein Bild, überlegen sich, welches nächste Bild darauf folgen könnte, generieren dieses, und so weiter. Der Prozess ähnelt dem von Large Language Models wie GPT-4 — bei denen immer das nächste “Token” generiert wird.
In der Praxis hat diese Frame-für-Frame-Methode aber Limits. Nehmen wir ein Video, in dem eine Person an einem Schild vorbeiläuft. Würde einfach nur jeder Frame auf dem vorherigen aufbauen, würde das Schild verschwinden, sobald die Person es verdeckt. Das Video hätte keine Kohärenz.
Sora kennt diesem Problem nicht. In diesem Video verdeckt der Kopf der Person kurz das Straßenschild im Hintergrund — doch als sie weiter nach rechts gewandert ist, bleibt das Schild wo es ist — und sogar die Entfernung hat sich geändert, da die Kamera etwa einen gefühlten Meter nach hinten gewandert ist.
Sora ist nicht einfach nur ein Videogenerator. Das was sie tut, ähnelt eher einer Art räumlichen Modellierung einer Szene. Stark verkürzt dargestellt: Sora denkt in 3D, um dann in 2D darstellen zu können. OpenAI bezeichnet das selbst als “Emerging simulation capabilities”.
Auf diese Weise entstehen räumliche Darstellungen, die verblüffend kohärent und lebensecht sind. Die Simulationen von Sora sind sogar so gut — aus den Videoaufnahmen lassen sich 3D-Modelle der abgebildeten Szene ableiten. Auch die Effekte der Schwerkraft auf verschiedene Objekte (Menschen, Tiere, Flüssigkeiten) werden von Sora weit besser simuliert als von allen anderen Generativen AI-Tools bisher. All das zusammengenommen sorgt dafür, dass die Videos so unheimlich lebensecht aussehen. Denn sie halten sich an die gleichen Regeln, die wir aus der echten Welt kennen.
Nach dem Release von Sora gab es schnell Spekulation, ob bei der Entwicklung von Sora sogar eine Videogame-Engine wie Unreal 5 im Spiel war — ob Sora also bewusst auf dreidimensionale Räume und physikalische Effekte trainiert wurde. Stand jetzt gibt es darauf keine konkreten Hinweise. Tatsächlich scheint es eher so, als habe Sora sich das einfach alles selbst beigebracht. Nur durch das Analysieren und Verarbeiten von Videomaterial.
Niemand musste Sora erklären, wie die Schwerkraft funktioniert, dass Wasser spritzt und Schnee stöbert. Genau wie niemand GPT-3 erklären musste, an welchen Stellen man im Deutschen Kommata setzt und an welchen nicht.
Die AI-Modelle haben diese Dinge einfach selbst “gelernt”. Und alles was sie dafür brauchten? Unfassbar viel Rechenleistung.
Drei Demos aus dem Research Paper zeigen, wie ein und derselbe Prompt mit der einfachen, der vierfachen und schließlich der 32-fachen Menge an Rechenleistung umgesetzt wurde. Je mehr man der Maschine zu fressen gibt, desto besser wird ihr Verständnis von der Realität.
Allerdings ist Sora als “Weltensimulator” noch sehr fehleranfällig. In fast jedem Demo-Video gibt es kleine Pannen und Halluzinationen. Beine tauschen Orte, Menschen schweben leicht in der Luft, etc.
Soras “Weltenmodell” (wenn man es überhaupt so nennen kann) versteht die Welt eben nicht wirklich. Auch Sora 2 und 3 werden das nicht schaffen. Egal, wie gut diese Modelle werden, sie treffen immer bestimmte Annahmen über die Welt, die plausibel erscheinen, aber möglicherweise falsch sind.
Nur: Genauso tun wir Menschen das auch. Im Alltag treffen ständig Annahmen über die Welt um uns herum, ohne absolute Sicherheit zu haben. Wir benutzen eine Leiter, wenn es sich für uns plausibel anfühlt, dass die Sprossen nicht unter unserem Gewicht brechen. Wir betätigen in fremden Wohnungen Schalter an der Wand, weil wir davon ausgehen, dass sie das Licht ein- und ausschalten, auch wenn wir diesen Schalter noch nie in Aktion gesehen haben. Und vor jeder Mini-Entscheidung simulieren wir die Folgen dieser Entscheidungen kurz im Kopf. Heißt: Wir simulieren alle die Welt um uns herum, die ganze Zeit, jeden Tag. Auch wenn wir darin nicht perfekt sind.
Und synthetische Simulationen der Welt müssen auch nicht perfekt sein, um die Welt zu verändern. Sie müssen nur gut genug sein.
Und wer glaubt, dass bis zu “gut genug” noch eine Menge Zeit ist… Hier kurz die Erinnerung: So gut war KI-Video vor einem knappen Jahr:
3 DER PAPAGEI KANN JETZT SPRECHEN UND WILL EINEN ANWALT
Eines der wichtigsten KI-Schlagwörter der letzten zwei Jahre ist der “stochastische Papagei”. Die Linguistin und KI-Skeptikerin Emily Bender wollte damit zwei Dinge über KI-Modelle ausdrücken: 1. Sie rechnen nur Wahrscheinlichkeiten aus. 2. Sie plappern nur nach, was sie anderswo gehört haben, ohne ihre eigenen Schlüsse daraus zu ziehen.
Ich würde nicht unbedingt versuchen, jemanden zu überzeugen, dass der Papagei als Sinnbild komplett falsch ist. Aber er ist zumindest enorm irreführend.
Noch im Herbst 2022 meinte AI-Koryphäe Yann LeCun, eine mit Text trainierte KI könne niemals wissen, was mit einem Telefon passiert, wenn man es auf einen Tisch legt und dann den Tisch bewegt. Das passt zum Bild des Papagei: Jedem Menschen wäre es zwar völlig klar, dass das Telefon sich einfach mit dem Tisch bewegt, aber für ein KI-Modell wäre das unbegreiflich — es sei denn, in seinen Trainingsdaten steht irgendwo exakt dieses Beispiel beschrieben.
Doch genau wie das Problem der Physik in synthetischen Videos ließ sich auch diese Lücke auf überraschend einfache Weise lösen: Man stopft sie einfach mit jeder Menge Rechenleistung.
Probleme wie das Telefon auf dem Tisch löst GPT-4 heute ganz selbstverständlich. Obwohl es “nur” mit Sprache trainiert wurde. Also: Kann man es wirklich nachplappern nennen, wenn die KI sogar völlig neue und abwegige Szenarien fehlerfrei beschreiben kann? Nur ein Beispiel:
Hier ist GPT-4 in der Lage, das Verhalten mehrerer Gegenstände, von denen einer durch eine fiktive Schwebetechnologie beeinflusst ist, zu interpretieren und liefert exakt die Antwort, die ein Mensch auch geben würde, der die Situation verstanden hat.
Es ist schwer zu sagen, ob das, was wir da sehen, wirklich ein “inneres Modell der Welt” ist.
Genau wie wir nicht wissen, was im Inneren von Sora genau vor sich geht.
Aber was auch immer es ist, es ist mehr als ein stochastischer Papagei. Und: Es steht immer noch am Anfang seiner Entwicklung.
Die Ergebnisse werden immer besser.
Der Papagei wird immer eloquenter.
An welchem Punkt glauben wir ihm, dass er wirklich sprechen kann?
Außerdem
My work
Ich spreche am 18.4. auf dem All Ears Podcast Summit von Spotify in Berlin und am 5.3. auf den Chiemgauer Medienwochen in Traunstein.
Ich war zu Gast im sehr hörenswerten Bayern 2-Podcast In 5 Tagen Mord - Die Krimi-Challenge mit KI mit the one and only Christian Schiffer. ardaudiothek.de
Wir waren mit dem KI-Podcast live beim SWR Podcastfestival. Hier gibt’s die Highlights zum Nachhören (natürlich auch im Podcastfeed). ardaudiothek.de
AI und Text / Large Language Models
Google hat bereits ein Update für seinen Chatbot Gemini. Gemini 1.5 ist nach einigen Metriken wohl das beste Large Language Model der Welt und kann zum Beispiel einen kompletten Film nach einzelnen Szenen durchsuchen. Beeindruckend! Leider — in typischer Googlemanier — ist es noch nicht für die Allgemeinheit verfügbar. theverge.com
80% der Nutzer des Companion-Chatbots Replika halten die KI dahinter für “intelligent” und 90% als “human-like”. news-medical.net
In related news: Immer mehr junge Frauen in China entdecken synthetische Boyfriends für sich. techxplore.com
AI und Arbeit
Bloombergs erstes GenAI-Tool trifft auf einen gespannten Finanzmarkt. institutionalinvestor.com
AI-Executives sind der heißeste Job in Corporate America. nytimes.com
AI und Bild/Video/Audio
KI-generierte Immobilien als Lifestyle-Choice. nytimes.com
Musikindustrie vs Techindustrie. newyorker.com
Apple veröffentlicht sein erstes Open Source-AI-Modell für Bildbearbeitung, vermutlich um daran zu erinnern, dass Apple auch noch irgendwas mit AI zu tun hat. venturebeat.com
AI und alles andere
Mehr spannender Research dazu, ob AI-Modelle etwas von dem verstehen, was sie uns erzählen. quantamagazine.org
Spekulationen über mögliche Auswirkungen von AI-getriebenem Wirtschaftswachstum. understandingai.org
Etwas nischige, aber interessante Perspektive zum Thema Kinderkriegen in einer AI-Future. Vor allem was für AI-Philosophen. juliawise.net
Content
Wer im Jahr 2024 Kunst machen möchte, muss Influencer werden. vox.com
Joe Biden auf TikTok. tiktoktiktoktiktok.substack.com
Alicia Keys’ falscher Ton bei der Superbowl Halftime Show wurde auf der YouTube-Version ge-autotuned. Art in a post-truth society. theverge.com
Apple Vision Pro
Casey Neistats Video über die Apple Vision Pro ist für mich das beste Werk, was bisher rund um die Apple Vision Pro entstanden ist. Neistat holt die Zukunft in die Gegenwart, auch wenn sie sich sträubt. youtube.com
Der Vanity Fair-Longread über die Entstehung der Apple Vision Pro ist das zweitbeste Werk. vanityfair.com
Related: Dieser New York Times-Artikel aus 1985 darüber, dass kein normaler Mensch je Laptops benutzen wird, weil wer will schon einen unpraktischen Computer mit sich rumtragen. nytimes.com
🥣,