du liest cool genug, den tech- und medien-newsletter von gregor schmalzried. find me on linkedin!
Prüfungen sind für Roboter, nicht für Menschen
GPT-4 hat das Juraexamen bestanden.
In den Tests von OpenAI hat die neueste Version des Sprachmodells GPT bessere Ergebnisse als 90% der menschlichen Juraabsolvent*innen erzielt. Ähnliches Ergebnis bei den in den USA berüchtigten College Admissions Tests: Die waren für die KI ein Kinderspiel.
Es gibt einige offene Fragen darüber, unter welchen Bedingungen diese Tests durchgeführt wurden, und ob die Ergebnisse unter Nicht-Labor-Bedingungen die gleichen wären — aber das zu diskutieren wäre wie einen 20 Meter weit springenden Superroboter zu diskreditieren, weil er die Linie übertreten hat.
Fakt ist: In den Aufgaben, die der Bildungsapparat nutzt, um das Können und die Intelligenz von Schüler*innen zu bewerten, sind künstliche Intelligenzen jetzt schon sehr gut — und sie werden sehr schnell immer besser. Die wesentlichen Hürden, die es noch gibt (etwa, dass nicht-englischsprachige Ergebnisse noch deutlich unpräziser sind), werden demnächst auch abgebaut werden.
Und was dann?
1. WAS SIND EIGENTLICH PRÜFUNGEN?
Die Prüfungen, in denen künstliche Intelligenz am besten abschneidet, folgen einem simplen Muster:
1. Sachverhalt
2. Frage
3. Auswahlmöglichkeiten
Hier ein Beispiel aus dem “Bar Exam”, das GPT-4 mit Bestnote bestanden hat:
Diese Frage lässt sich für die Prüfungskandidatin nur beantworten, wenn sie vor der Prüfung einen zusätzliche Schritt 0. absolviert hat: Das Lernen und Verinnerlichen komplexer juristischer Regeln. Oder anders gesagt: Pauken.
Hier kommt der große Vorteil von Sprachmodellen wie GPT-4 ins Spiel. GPT-4 musste nie selbst pauken, es wurde gepaukt. Das Sprachmodell wurde mit unvorstellbaren Mengen an Text gefüttert, und ist jetzt in der Lage, diesen Text zu neuen Interpretationen wieder zusammenzufügen.
Das Bar Exam zu bestehen heißt vor allem eines: KI kann sehr, sehr gut Dinge auswendig lernen.
Was bedeutet das für die Bildung?
2. “DIGITALE DEMENZ”
Die letzte große Panik rund ums Thema Auswendiglernen gab es circa 2011. Damals machte Buchautor Manfred Spitzer das Schlagwort der “digitalen Demenz” populär. Seine These: Smartphones, Internet und Computer würden Kindern und Jugendlichen massiv schaden.
Man könnte erst meinen, dass diese These ganz gealtert sei. Junge Menschen werden immer einsamer, depressiver und isolierter — und die Indizien häufen sich, dass Social Media zumindest in Teilen dazu beiträgt. Wer heute 16 Jahre alt ist, dessen Leben dreht sich in großen Teilen um das, was in Social Media-Plattformen passiert. Die Social Media-Aufmerksamkeitsökonomie isoliert diese jungen Menschen von der physischen Welt, brüllt ihnen permanent die lautesten und schrillsten Gedanken ins Ohr und verlangt von ihnen, sich täglich von Freunden und Fremden mit Likes und Comments bewerten zu lassen.
Ja, the kids are not alright.
Nur… Das war überhaupt nicht, was Manfred Spitzer mit “digitaler Demenz” meinte. Er hatte eine ganze andere Sorge:
Google macht uns weis, dass es über jegliche Information verfügt, die man nur suchen muss. Studien belegen aber, dass jemand gegoogelte Inhalte mit geringerer Wahrscheinlichkeit im Gehirn abspeichert als jemand, der sie auf andere Weise sucht. Oder etwa bei der Orientierung: Wir lagern sie an das Navigationsgerät im Auto aus - und dürfen uns nicht wundern, dass wir selbst immer schlechter navigieren. Ähnliches gilt für Geburtstage, Telefonnummern, Kopfrechnen oder die Rechtschreibung.
Wenn Spitzer sagte “Die Jugend wird dümmer”, meinte er “Die Jugend lernt weniger auswendig”.
3. NIE MEHR PAUKEN
ChatGPT schließt nun den Kreis der Entwicklung, die Spitzer damals befürchtete. Vor zehn Jahren konnte man bei einer Prüfung die Technologie für Hilfe heranziehen. Und heute schreibt die Technologie die Prüfung einfach direkt selbst!
Spitzers Lösungsvorschlag damals war, die Technologie einfach im Klassenraum zu verbieten (in dem gleichen Interview brachte er den Killer-Spruch “Medienpädagogik ist etwa so sinnvoll wie Alkoholpädagogik - beides macht süchtig und brauchen wir nicht”).
Doch das ist — natürlich — genau falschherum gedacht.
Denn wenn eine KI eine Prüfung besser schreiben kann, als ein Mensch, sollte man nicht die KI abschaffen. Sondern die Prüfung.
Klassische Prüfungsformen, vom Geometrie-Test bis zum Bar Exam, funktionieren meist unter der Prämisse, dass man mit dem Messen von Auswendiglernen auch Intelligenz oder Leistungspotential messen könne. Dabei waren sie nie ein Test menschlicher Leistung — sondern immer ein Test nicht-menschlicher Leistung. Sie transportieren Schülerinnen und Studenten in eine surreale Parallelwelt, in der manche Informationen verfügbar sind, man sich andere merken muss, und verlangen in einer bestimmten Zeit eine bestimmte Zahl von Antworten, von denen dann ein bestimmter Prozentsatz richtig sein muss.
Und in dieser künstlich geschaffenen Parallelwelt kommen Maschinen sehr viel besser zurecht.
KI-Textmodelle werden in nur wenigen Jahren fast jede Art von klassischer Prüfung besser meistern als Menschen. Wir werden auch aufhören, uns darüber zu wundern. Wir wundern uns ja auch nicht, dass ein Taschenrechner besser kopfrechnet als ein Mensch.
Aber nur weil jemand gut kopfrechnen kann, ist er kein guter Mathematiker.
Und bald wird jemand, der eine klassische Jura-Prüfung besteht, auch nicht unbedingt eine gute Juristin sein.
KI ist der nächste große Technologie-Shift, der alles verändern wird. Schon jetzt enthüllt er, dass große Teile unseres Bildungsapparats mehr auf dem Vortäuschen von Leistung basieren als auf tatsächlich brauchbaren Fähigkeiten.
Die Bildung der Zukunft, wenn sie sich an die Welt anpasst, wird mehr Wert auf das Anwenden von Werkzeugen, das Interpretieren von Materialien und das Navigieren einer unsicheren Umwelt legen. Und sehr viel weniger auf Pauken. Denn darin werden wir die Maschinen ohnehin nicht schlagen.
Außerdem
KI-Anwendungen
Introducing BloombergGPT, Bloomberg’s 50-billion parameter large language model, purpose-built from scratch for finance. bloomberg.com
MemeCam combines BLIP image recognition and GPT-3.5 AI-driven caption generation for an effortless and fun meme-creating experience. memecam.io
Midjourney verbietet nach Druck aus Peking weltweit Bilderzeugung mit Xi Jinping. derstandard.de
The text in this piece was written in collaboration with a language model trained on my own private writing. In this way, the words are all my own but I had to confront the recombination of my thoughts in ways I could not control. thehtml.review
Found through Google, bought with Visa and Mastercard: Inside the deepfake porn economy. nbcnews.com
KI-Hintergrund
OpenAI: the Next Tech Giant? every.to
Die besten Quellen für Non-Techies, um Large Language Models zu verstehen. twitter.com
Far fewer people are working on AI alignment than you might think, and even the alignment research that is happening is very much not on track. (But it’s a solvable problem, if we get our act together.) forourposterity.com
Is software engineering basically a solved problem now? Did OpenAI just make the last application? grady.io
Was im angeblich weltbesten Bericht über KI steht. spiegel.de
KI und Medien
Publishers Worry A.I. Chatbots Will Cut Readership. nytimes.com (siehe auch meinen Text “Was kommt nach SEO?”)
4 Fragen zu ChatGPT. brandeins.de
ChatGPT is making up fake Guardian articles. Here’s how we’re responding. theguardian.com
Content
Wie Apple das Metaverse rettet. metacheles.de
The trouble with video. socialwarming.substack.com
How China’s hottest social media app turned Düsseldorf into a foodie destination. restofworld.org
The age of average. alexmurrell.co.uk
Business
We Don’t Know Enough About the Pornhub Acquisition. every.to
Mexicans say some police officers are taking bribes with mobile payment services. restofworld.org
How China is losing its technology advantage. youtube.com
🎓,