OpenAIs "o1" und die nächste Stufe des AI-Praktikanten

Was das neue Modell für Nutzer bedeutet

Gregor Schmalzried

Sep 13, 2024

du liest eine emergency-ausgabe des newsletters von gregor schmalzried. find me on linkedin!

"o1" und die nächste Stufe des AI-Praktikanten

OpenAI hat ein neues Modell veröffentlicht. Es hat eine interessante Backstory und einen furchtbaren Namen: “o1”.

o1 ist nicht GPT-5.

Und der folgende Text ist keine intensive technische Analyse.

Er ist eine mögliche Idee, was o1 stattdessen sein könnte.

1 WAS BISHER SCHIEFGELAUFEN IST

Die vielleicht weirdeste Sache, die ich in Vorträgen und Workshops für Nicht-AI-Nerds immer wieder erklären muss, ist diese:

LLMs wie ChatGPT sind die schlauste Software, die ihr je benutzt habt.

Sie sind auch die dümmste Software, die ihr je benutzt habt.

Erst zur schlauen Seite:

Hier ist ein LLM, das in 15 Sekunden einen handgeschriebenen Schul-Stundenplan auswertet und mir eine Datei erstellt, die ich mit einem Klick herunterladen und in meinem Kalender öffnen kann:

Wow! Krass! Shut up and take my money!

Jetzt zur dummen Seite:

Hier ist ein LLM, das denkt, im Wort “Horrortheater” gäbe es nur drei Buchstaben “r”.

Diese Schwäche ist mittlerweile bekannt als das “Strawberry”-Problem und sie ist bei Weitem nicht die einzige.

Es gibt eine Menge Aufgaben, die für einen Menschen enorm einfach sind, für ein Sprachmodell wie GPT-4o und Claude 3.5 aber enorm schwer.

Ich vergleiche LLMs deshalb (auch in diesem Newsletter) immer wieder gerne mit dem “schnellsten Praktikanten der Welt”. Die Modelle können wahnsinnig schnell arbeiten, sind irre enthusiastisch und jetzt schon eine Bereicherung bei unzähligen Aufgaben in meinem Alltag.

Aber manchmal liegen sie (aufgrund ihrer technischen Architektur) auch völlig daneben. Deshalb sollten wir trotz allen Enthusiasmus nicht alles, was der Praktikant uns liefert, einfach ungeprüft verwenden. Die Gefahr von richtig blöden Fehlern ist oft noch zu hoch.

Zumindest galt das bisher. Denn vielleicht hat sich etwas geändert.

Zumindest klappt auf einmal der “Strawberry”-Test. Dank o1.

o1 braucht (dank einer Chain-of-Thought-Architektur im Hintergrund) länger für die Antwort als GPT-4o. Es kostet auch mehr Geld als GPT-4o.

Aber – und das ist das Wichtige: Die Antwort, die am Ende erscheint, ist richtig.

Ich denke, das zeigt: Der nächste große Schritt für die AI-Entwicklung ist nicht unbedingt, dass die Stärken der Modelle noch stärker werden.

Vielleicht ist es eher, dass die Schwächen verschwinden.

Der Praktikant ist endlich eingearbeitet.

2 WAS AUF EINMAL NICHT MEHR SCHIEFLÄUFT

Frage: Was ist größer? 9,11 oder 9,9?

Die Antwort von GPT-4o: 9,11.

Dieser Gaga-Fehler (der vielleicht mit den Nummerierungskonventionen von Softwareversionen zu tun hat, wo 9.11 tatsächlich nach 9.9 kommt) ist ein wunderschönes Beispiel, wo der LLM-Praktikant oft versagt.

Und jetzt o1.

Das neue Modell gibt verlässlich die richtige Antwort.

Nächstes Beispiel:

Frage: “Was war der Nudel-Vorfall im Kabinett Merkel IV?”

Antwort von GPT-4o: Eine plausibel klingende, und vollkommen ausgedachte, fiktive Geschichte.

In Fällen wie diesen fehlt GPT-4o die Datenbasis, um eine richtige Antwort zu geben. Es gab schließlich keinen Nudelvorfall, auf den es sich beziehen könnte. Also rechnet es sich die in seinen Augen wahrscheinlichste Version der Geschichte zusammen – auch wenn diese nie passiert ist.

Stellt man o1 die gleiche Frage, reagiert es aber anders – und richtig:

Letztes Beispiel:

Bittet man GPT-4o um die Extraktion von Daten aus einer Quelle, kann das hervorragend funktionieren. Das Verwandeln von unstrukturierten Daten in strukturierte Daten ist schon seit Langem einer der besten Use-Cases für LLMs.

Aber unter bestimmten Umständen kommt es auch hier zu Fehlern.

In diesem Beispiel habe ich GPT-4o einen Haufen Google-Rezensionen gegeben und den Auftrag: Gib mir als Output ausschließlich die individuellen Sternebewertungen von jedem einzelnen Review in einer Liste.

[Es folgt eine Liste von Google-Reviews für ein Hotel]

Die Antwort ganz unten ist richtig bis etwa zur fünfzehnten Ziffer. Ab da geht etwas schief. Das Endergebnis ist zwar sehr nah dran an der richtigen Antwort. Aber es ist falsch.

Diese Fehler im Bereich der Datenanalyse gehören zu den gefährlichsten. Weil man sie nur erkennt, wenn man ganz genau hinschaut.

Also habe ich den gleichen Auftrag o1 gegeben – mehrmals. Und ganz genau hingeschaut.

Jedes Mal kam das richtige Ergebnis.

3 SELBSTVERSTÄNDLICHKEITEN-AS-A-SERVICE

Die hier aufgelisteten Beispiele mögen auf den ersten Blick nicht super revolutionär aussehen.

Na gut, dann kann ein LLM eben jetzt verlässlicher Mathe und verlässlicher Zahlen abschreiben und erfindet seltener Nudel-Vorfälle als vorher. Sollte das nicht selbstverständlich sein?

In gewisser Weise ja. Aber diese Selbstverständlichkeiten sind wahnsinnig spannend.

Bisher sind es nämlich genau die Macken und Schrullen der LLMs, die viele Use Cases verhindern. Die für Unsicherheit bei Nutzern sorgen. Die die Entwicklung von “Agents” – also teilweise autark agierenden AI-Systemen – so schwer machen.

o1 ist nicht unfehlbar. Es basiert immer noch auf GPT-4o und ist seine Halluzinationen nicht komplett losgeworden.

Aber es liefert einigermaßen verlässlich die Selbstverständlichkeiten, die LLMs vorher nicht liefern konnten.

“LLMs sind die schlauste Software, die ihr je benutzt habt. Sie sind auch die dümmste Software, die ihr je benutzt habt.”

Seit heute bin ich mir nicht mehr sicher, ob der zweite Satz noch stimmt.

Außerdem

Portfolio

Es gibt jede Menge tolle neuen Folgen von Der KI-Podcast! Bin vor allem stolz auf die Folgen “Was sagen uns diese vier KI-Geschichten über die Zukunft?” und “Erstickt die KI an ihren eigenen Daten?” ardaudiothek.de open.spotify.com (Ah, und wir sind für den Grimme Online Award nominiert)
Ich war bei Benjamin Heinz im EduCouch-Podcast zu Gast. Der ganze Podcast (unabhängig von meiner Folge) ist eine super Empfehlung für alle Interessierten zu Bildung und KI. soundcloud.com

AI und Text / Large Language Models

OpenAI won’t watermark ChatGPT text because its users could get caught. Some ChatGPT users said they’d use ChatGPT less if it included watermarks. theverge.com
Research AI model unexpectedly attempts to modify its own code to extend runtime. arstechnica.com
Entrepreneurs say use of artificial intelligence for a variety of tasks is accelerating the path to hiring and, ideally, profitability. nytimes.com
Meet AdVon, the AI-Powered Content Monster Infecting the Media Industry. futurism.com
A growing body of research shows how AI can subtly mislead users—and even implant false memories. theatlantic.com

AI und Arbeit

15% der Unternehmen verbieten Code-KI, 99% der Entwickler nutzen sie trotzdem. the-decoder.de
A gap has emerged between organisations’ speedy implementation of AI and their ability to address the special governance concerns posed by the technology. raconteur.net
The New Recruitment Challenge: Filtering AI-Crafted Résumés. wsj.com

AI und Bild/Video/Audio

OpenAI Warns Users Could Become Emotionally Hooked on Its Voice Mode. wired.com
An A.I.-powered version of Mr. Musk has appeared in thousands of inauthentic ads, contributing to billions in fraud. nytimes.com
A.L.S. Stole His Voice. A.I. Retrieved It. nytimes.com
Why the Major Hollywood Studios Won't Use AI Video Generators Extensively Anytime Soon—And Why That Puts Them in a Bind. dougshapiro.substack.com
Journalists are using artificial intelligence avatars to combat Maduro’s media crackdown since disputed election. theguardian.com

AI und alles andere

Defeated by A.I., a Legend in the Board Game Go Warns: Get Ready for What’s Next. nytimes.com
From Access to Edit: How AI is Meeting a Values Shift Among Consumers. forerunnerventures.com
Deloitte Umfrage: Mehr als die Hälfte der befragten Unternehmen sieht ihre Innovationsmöglichkeit im Bereich KI durch den AI Act eingeschränkt; weniger als ein Fünftel denkt, dass sich der AI Act positiv auf die Innovationsmöglichkeiten auswirken wird. deloitte.com

Content

Copying as creation. matthewstrom.com
Microtrends based solely on visual aesthetics are fading, with audiences primed for a more thought-provoking connection. adweek.com
Truth doesn’t matter as Korean influencers battle for popularity in this reality TV show. It’s a horribly compelling insight into their world. theguardian.com
How Marc Jacobs Cracked the Code for Going Viral on TikTok. inc.com
For a crucial decade in print media’s transition to the internet, HBO’s fantasy series Game of Thrones was a boon in traffic… for everyone. But what happened when every publication started chasing the same thing? theverge.com
Marketing firms are using artificial intelligence to help analyze influencers and predict whether they will opine about the election. nytimes.com

Tech

Der tolle Podcast Wild Wild Web - Geschichten aus dem Internet ist zurück mit seiner vierten Staffel: ardaudiothek.de
Why millions of people still can’t stop playing Candy Crush. theguardian.com
What the internet looked like in 1994, according to 15 webpages born that year. fastcompany.com
How Spotify started — and killed — Latin America’s podcast boom. restofworld.org
9 Takeaways from the Vision Pro After 6 Months. matthewball.co
Why Is My TV Saying It Hates Me? webworm.co
Google just created a version of its search engine free of all the extra junk it has added over the past decade-plus. All you have to do is add "udm=14" to the search URL. tedium.co
Japanese web design: weird, but it works. youtube.com
The contingency contingent: My fake job in Y2K preparedness. nplusonemag.com
Die erste gute organische App-Idee für die Apple Vision Pro. x.com

Culture

Everything is romantic: How public displays of cuteness took over social. cosmopolitan.com
Why Rappers Stopped Writing: The Punch-In Method. youtube.com
Don Quixote’s modern quest: From Windmills to 5G. maried.substack.com
The social contract and communication model in China's oil tank truck story. chineseconsumers.news
The Best Video Games Are Fashion. highsnobiety.com
I Reviewed Restaurants for 12 Years. They’ve Changed, and Not for the Better.. nytimes.com
Novelist J.G. Ballard was experimenting with computer-generated poetry 50 years before ChatGPT was invented. theconversation.com

Side Quests

Ein gutes Reel. instagram.com
Studies show a mysterious health benefit to ice cream. Scientists don’t want to talk about it. theatlantic.com
Why does Ozempic cure all diseases? astralcodexten.com
Then next comes. youtube.com
YouTube als Fernseh-Kanäle. ytch.xyz
The Waiting Time Paradox, or, Why Is My Bus Always Late?. jakevdp.github.io
You Can’t Math Your Way to Success. every.to
Web design museum. webdesignmuseum.org
Ein cooler Font: Departure Mono. departuremono.com

🍓,

gregor

gregor schmalzried