Der Firma bliebe keine andere Wahl, da nun Modelle und Charaktere für die Handyspiele in zwei bis drei Tagen erstellt werden können, während diese Arbeit früher mehrere Wochen in Anspruch nahm. Er wollte in seinem Job „im 3D-Raum schaffen, modellieren, kreieren. Mit meiner eigenen Kreativität. Mit meinen eigenen Händen“, klagte der Grafiker, doch nun müsse er nur noch Modelle nachbearbeiten, die „das Ergebnis von zusammengeklaubten Internetinhalten“ seien, „von Künstlern, die nicht gefragt wurden“.
Damit wird eine der Grundlagen des KI-Booms der letzten Jahre benannt: die Branche scannt das gesamte Internet, sie sammelt in einer rechtlichen Grauzone gigantische Datenmengen, um ihre Modelle anhand dieser Daten zu trainieren. Milliarden von Bildern, Texten, Videos und Musik bilden das Material, anhand dessen die neuronalen Netze mühsam geschult werden müssen. Die immer komplexer werdenden Programme der KI-Industrie verbrauchen nicht nur Unmengen von Rechenkapazität und somit Energie (Selbst die KI-Spracherkennung Whisper ist lokal nur mit GPU-Unterstützung mittels CUDA benutzbar),2 sie brauchen in ihrer Take-off-Phase auch noch Menschen, die sie trainieren.
Mit der KI zurück ins 18. Jahrhundert
Die Mustererkennung in der Lernphase – ob nun Sprache, Bilder, Musik oder Texte – erfolgt noch über „Handarbeit“, durch billige Arbeitskräfte im globalen Süden. Die Absurdität der Konstituierungsphase der KI-Industrie besteht nun darin, dass sie die wenigen „kreativen“ Jobs vernichtet, die von der spätkapitalistischen Kulturindustrie geschaffen wurden, während sie vorübergehend ein Heer von Tagelöhnen schafft, die erst den Maschinen das „Lernen“ beibringen müssen.3 Die grossen Datensets müssen in stupider Arbeit von Menschen mit „Labels“ verstehen werden (ähnlich den Captchas, die oft beim Einloggen abgefragt werden), um die KI-Systeme mit sinnvollem Material zu füttern.Und diese Handarbeit für die KI-Industrie des 21. Jahrhunderts erfolgt zu Bedingungen, wie sie im 18. Jahrhundert bei der blut- und schmutztriefenden Geburt des kapitalistischen Weltsystems üblich waren. Die globale Branche der Datensammlung und Auswertung, die das empirische Material für die KI-Neuronetze verwertbar macht, zahlt die niedrigsten Löhne und ist für die prekärsten Arbeitsbedingungen berüchtigt. Der australische Marktführer Appen, der Material für Amazon, Facebook, Google und Microsoft verarbeiten lässt, kann auf eine Heerschar von rund einer Million Tagelöhnern in den Philippinen, Südamerika oder Afrika zurückgreifen, die – wenn es gut läuft – mit Monatslöhnen von weniger als 300 US-Dollar abgespeist werden. Die Branche, deren Umsatz von 2,2 Milliarden Dollar 2022 auf 17 Milliarden 2023 steigen soll, kann noch schneller den Standort wechseln als die ebenfalls auf Elendslöhne angewiesene Textilindustrie, da hier keine Fabriken oder Produktionsstätten errichtet werden müssen. Oftmals werden diese Tagelöhner in Heimarbeit ausgebeutet – wie im Verlagssystem des Frühkapitalismus.
Das perfekte Werkzeug für die Kulturindustrie
Menschen müssen der Maschine mitteilen, welche Muster welches Label tragen, damit deren Mustererkennung immer besser funktionieren kann. Aufbauend auf einem gigantischen Datenberg, der von Tagelöhnern mit entsprechenden „Etiketten“ versehen worden ist, generieren die KI-Systeme ihre Bilder und Modelle, indem sie die Anfrage des Benutzers mit dem etikettierten Material abgleichen und dessen Variationen als Output anbieten. Das ist das ganze Geheimnis der lächerlichen „KI-Kunst“, die derzeit den Kunstbegriff vollends zur hohlen Phrase verkommen lässt. Hierbei kann nichts Neues entstehen, es ist kein schöpferischer, ästhetischer Akt, dem eine wie auch immer geartete Idee zugrunde liegen würde, die aus der Auseinandersetzung mit Facetten menschlichen Existenz entstanden wäre – was, im weitesten Sinne, Kunst leistet.Was aber die KI-Contentsysteme immer besser leisten können, sind Variationen dessen, was ist. Das Datenmaterial mit den entsprechenden Labels kann in immer neuen Kombinationen ausgespuckt werden: neue Figuren, neue Monster, neue Bilder, neue Handlungsstränge, die nur das modifizieren, womit sie gefüttert worden sind, ohne in eine andere Qualität umzuschlagen. Und eben das macht die KI so wertvoll für die spätkapitalistische Kulturindustrie.
Der linke Sprachwissenschaftler Noam Chomsky beschrieb in einem Gastbeitrag für die New York Times die fundamentalen Grenzen gegenwärtiger Systeme des Maschinenlernens wie ChatGPT, die zwar bei Anfragen „gigantische Mengen an Daten“ scannen können, um immer besser „statistisch wahrscheinlichen Output“ zu generieren, wodurch der Eindruck „menschenähnlicher Sprache und Denkens“ entstünde.4 Doch bestünde ein grundsätzlicher Unterschied zwischen dem menschlichen Verstand und diesen „schwerfälligen statistischen Maschinen zur Mustererkennung, die Hunderte an Terabytes an Daten verschlingen“, um die „wahrscheinlichste Antwort“ in einer Konversation oder bei einer wissenschaftlichen Anfrage auszuspucken, indem sie „rohe Korrelationen zwischen Datenpunkten“ herstellten.
Die gegenwärtige Generation von KI-Systemen sei nicht in der Lage, Schlussfolgerungen auf Grundlage „kausaler Mechanismen oder physikalischer Gesetzte“ zu ziehen, wie es dem menschlichen Denkvermögen möglich sei, einem „überraschend effizienten und sogar eleganten System“, das mit „einer kleinen Menge Informationen“ in der Lage sei, „Erklärungen zu schaffen“. ChatGPT und Co. als hochgezüchtete statistische Mustererkennungsmaschinen seien hingegen nicht in der Lage, grundlegend zwischen „dem Möglichen und Unmöglichen zu unterscheiden“. Selbst korrekte wissenschaftliche Antworten und Prognosen kämen einer „Pseudowissenschaft“ nahe, da sie nicht auf wissenschaftlichen Erklärungen beruhten, sondern auf statistischen Wahrscheinlichkeiten. KI-Systeme seien somit unfähig, echte Konklusionen zu ziehen oder „kreative Kritik“ zu üben, so Chomsky, sie steckten in einer „prämenschlichen“ Phase der kognitiven Entwicklung fest.
All diese Einwände des Sprachwissenschaftlers haben aber für die Produktion von Waren der Kulturindustrie keinen Belang. Das Grundprinzip der Kulturindustrie besteht in der tausendfachen Variierung und Spiegelung der Oberfläche der Realität. Es sind Variationen des Bestehenden, die durch ihre permanente Wiederholung das Bestehende bestätigen. Alles muss sich an der Oberfläche ändern, damit im Grunde alles bleiben kann, wie es ist. Ob Science Fiction oder Fantasy, ob AAA-Computerspiel oder Highend-Hollywood-Produktion: die Konsumenten durchleben bei diesen Kulturwaren faktisch nur die kostümierte Gesellschaft, in der diese produziert wurden – und in der sie selber leben. Die Kulturindustrie gleicht einer um sich selbst drehenden Contentmaschine, die permanent in ihrem Subtext eigentlich nur ein Mantra ausspuckt, das alle Gedanken an Alternativen zuverlässig abtötet: es ist, wie es. Hierzu, zu dieser öden Widerspiegelung der Oberfläche der Realität in immer neuen Variationen, wird permanent neues ästhetisches Material benötigt.
Gaming und KI
Enter the AI-Industry. Die KI-Systeme sind geradezu prädestiniert dazu, um neue Formen, neues Material für die Kulturindustrie zu generieren. Auf Knopfdruck, in einem Bruchteil der zuvor notwendigen Zeit, können Modelle, Charaktere, Bilder oder Drehbücher geliefert werden. Der grosse Konkurrenzvorteil der KI besteht gerade darin, dass ihr all diese kreativen, reflexiven und kritischen Fähigkeiten fehlen, die den menschlichen Contentlieferanten nun mal eigen sind. Das System variiert die in Terabytes angehäuften und mit entsprechenden Labels versehenen Daten, um „neue“ Inhalte für Filme, Bücher, Comics und Gaming auszuspucken. Erstmals wird die Kulturindustrie dank der KI-Contentsysteme in die Lage versetzt, reine, von jeglichem Subtext, von jeglicher Subversion freie Produkte anfertigen können. Das Kapital kommt somit auch im kulturellen Überbau zu sich.Bislang war dieser gesellschaftliche Subtext immer zwangsläufig vorhanden. Einfach dadurch, dass sie von Gesellschaftsmitgliedern durch Lohnarbeit hergestellt wurden. Die Monstrositäten, die etwa in Horrorspielen auftauchen,5 werfen simple Fragen nach den Verhältnissen – auch hinsichtlich der Arbeitsverhältnisse in der Videospielindustrie – auf, die sie hervorbringen. Bei maschinell erstelltem Content gibt es nichts mehr zu dechiffrieren – es sind reine algorithmische Variationen. Die von der „Maschinenintelligenz“ generierte Kulturware stellt somit einen letzten ideologischen Triumph des Kapitals in der Phase seiner weltgeschichtlichen Agonie dar.
Gerade in der Videospielbranche, die längst zur dominanten Sparte der Kulturindustrie aufgestiegen ist, scheinen die Möglichkeiten maschinell erzeugten Contents nahezu unbegrenzt. Valve, Betreiber der grössten Plattform für PC-Spiele, kündigte bereits Mitte Januar 2024 neue Regeln an, die es der „grossen Mehrheit“ der KI-Spiele erlauben sollten, auf dem digitalen Marktplatz Steam feilgeboten werden zu können. Die neuen Spielregeln für KI-Content machen auch klar, was derzeit möglich ist in der Branche. Die Spielehersteller müssen angeben, ob ihr Game maschinell erzeugte Grafiken und Objekte, Soundeffekte und Musikstücke, oder auch Programmcode enthält. Überdies muss angegeben werden, ob die Games während des Spielvorgangs auf KI-Systeme zurückgreifen, die Inhalte „live“, in Echtzeit generieren.
Als Pionier der Sparte der KI-Spiele fungierte das bereits 2021 erschienen Textadventure AI-Dungeon,6 das faktisch ein simples Dialogspiel mit einem Chatsystem ist, wo noch die Unzulänglichkeiten der Maschinenintelligenz durch ein entsprechendes Spielsetting kaschiert werden müssen. Das übliche Problem des „katastrophalen Vergessens“ der KI,7 der immer wieder die Handlung des Spiels entfällt, wird durch das Spielziel übertüncht, wonach der Spieler aus einem Multiverse fliehen soll, in dem er gefangen ist. Einen Schritt weiter will Dreamino gehen,8 um in Echtzeit Handlungsstränge, Grafiken und Sprachausgabe durch Contentsysteme zu erzeugen, die auf die Aktionen des Spielers reagieren. Das Textadventure soll zu einem mit Sprachausgabe und Grafiken versehenen Grafikadventure weiterentwickelt werden. Das Spiel wird dynamisch – in Reaktion auf Spielerhandlungen – Text, Grafiken, Handlungsstränge und Sprachausgabe generieren.
Weitere Spiele, deren Grafiken, Modelle und Soundeffekte nahezu vollständig durch KI-Contentsysteme generiert wurden, befinden sich in Entwicklung. Die Grafiken des Point-and-Click Adventures Zarathustra9 wurden grösstenteils durch das Contentsystem DALL-E 3 erzeugt,10 dessen Sprachausgabe – gerade bei solchen Indieprojekten der grösste Kostentreiber – entstand durch das Text-to-Speech System Elevenlabs.11 Der Spieldesigner Jussi Kemppainen entwickelte ebenfalls bereits den Prototypen eines Cyberpunk-Adventures, dessen Hintergründe und Charaktere durch KI-Systeme generiert wurden.12 In einem Blog-Beitrag machte der Designer aber klar, dass der durch die Maschine generierte Inhalt noch einer umfassenden Nachbearbeitung bedarf (Lichteffekte, Schattenwurf).13 Dennoch findet hier ein qualitativer Umbruch im kulturindustriellen Produktionsprozess statt, bei dem die Rollen von Maschine und Mensch vertauscht werden: Der Mensch korrigiert nur noch die Inhalte, die die Maschine ausspuckt. Zudem sind die Übergänge zwischen KI-Content und manueller Arbeit in der Spielebranche fliessend.
Noch sind es klamme Indie-Designer und die Produzenten von B-Waren der Spieleindustrie, wie der eingangs erwähnte Hersteller von Handyspielen, die auf KI-Inhalte setzen, doch mit der Zeit wird sich dieser Trend aufgrund des Einsparpotenzials und neuer Möglichkeiten durchsetzen. Als massenwirksames Einfallstor dürfte die ungemein populäre Sparte der sogenannten Rougelike-Spiele wie Dead Cells, Caves of Qud,14 Teleglitch,15 Risk of Rain 2, Jupiter Hell, Darkest Dungeon 2, Undermine oder Hades fungieren.
Diese Spielegattung lebt bereits davon, dass jedes neue Spiel durch Zufallsgeneratoren und Algorithmen neu generiert wird, sodass Levelaufbau, Spielgegenstände und der Spielablauf immer variieren. Das Problem dabei: Die Spielehersteller müssen eine Unmenge von Spielgegenständen (Waffen, Rüstungen, Ausrüstungsgegenstände, Zaubersprüche etc.) erschaffen, damit diese Illusion immer neuer Spielabläufe entstehen kann. Die Vorteile massenhaft maschinell generierter Inhalte liegen auf der Hand, sobald die Technik einigermassen ausgereift ist. Millionen, nicht mehr Tausende von Gegenständen, könnten in Rougelikes auch von kleinen Indie-Entwicklern eingebaut werden. Eventuell liesse sich dieser Content auch in Echtzeit generieren – auch bei Gegnern, die bei jedem Spielablauf sich verändern würden. Deren Variationen sind bislang aufgrund des Arbeitsaufwands auf wenige duzend Gegnertypen sehr begrenzt.
Hollywood, Copyright und KI
Im Gegensatz zur Spieleindustrie, die ohnehin immer schon mit digitalem Inhalt arbeitete, schien die Filmproduktion zumindest bei den Inhalten – trotz des massiven Einsatzes digitaler Technik und computergenerierter Grafik – vor der Übernahme durch KI-Systeme sicher. Wer will schon sechsfingrige Schauspieler aus dem Brutkasten schwerfälliger Mustererkennungsmaschinen bewundern? Doch scheint sich die Lage in Hollywood gerade grundlegend zu verändern, da die immer weiter perfektionierten Maschinensysteme einen Grossteil des Produktionsprozesses in dieser Sparte der Kulturindustrie übernehmen dürften.Schon der langwierige Streik der Drehbuchschreiber 2023 war von den Möglichkeiten der maschinellen Generierung von Handlungsabläufen überschattet, die mit Leichtigkeit die Plots gerade der Massenware, die die Branche fabriziert, nachahmen kann. Der Streik endete mit Klauseln, die es der KI-Industrie nur bei Zustimmung von Drehbuchschreibern erlauben, deren Werke als Datenmaterial für KI-Training zu benutzen.16 Dennoch erinnern solche Abmachungen, die voller Schlupflöcher sind,17 an die vergeblichen Versuche der untergegangen Handwerkszünfte, sich im Spätmittelalter vor freier Konkurrenz zu schützen. Netflix suchte während des Streiks in Stellenausschreibungen nach KI-Experten, die – gegen ein entgelt von 900 000 Dollar – dabei helfen sollen, „grossartigen Content“ zu kreieren.18
Auch Hollywood steht vor einer disruptiven Entwicklung, die eine Menge Jobs kosten wird, warnte der Schauspieler und Produzent Tyler Perry in einem Interview mit dem „Hollywood-Reporter“.19 Perry war dabei, 800 Millionen Dollar in den Ausbau seines Filmstudios zu investieren, in dessen Rahmen 12 neue Filmbühnen auf einem Gelände von 133 Hektar bei Atlanta entstehen sollten. Doch nun ist diese gigantische Investition auf Eis gelegt worden, nachdem der Produzent einer Vorführung des KI-Systems Sora von OpenAI beiwohnen konnte, das Texteingaben in Videomaterial umwandelt. Investitionen in Filmstudios droht schlicht binnen weniger Jahre die Obsoleszenz.
Die Anwesenden seien „geschockt“ gewesen ob der Leitungsfähigkeit des Contentsystems. Das Reisen an Filmdrehorte, der Einsatz von Bühnentechnik und Studios seien künftig überflüssig, so Perry. Alles ist nur eine Texteingabe von der Realisierung entfernt:
„Wenn ich im Schnee Colorados sein will, dann ist es Text. Wenn ich eine Szene auf dem Mond erschaffen will, dann ist es Text, und die KI generiert es, als ob es nichts wäre. Wenn ich zwei Menschen in einem Zimmer in den Bergen haben will, dann muss ich kein Filmset mehr in den Bergen bauen, … Ich kann in meinem Büro sitzen und es am Computer machen, was für mich wirklich schockierend ist.“
Bislang habe KI eine Nebenrolle in der Branche gespielt, so Perry, der selber als Schauspieler digitale Nachbearbeitungen tolerierte, die ihn älter wirken liessen, um „Stunden beim Make-up zu sparen“. Doch als er die Präsentation des KI-Systems betrachtete, sei er sofort in Sorge über all die Lohnabhängigen geraten, die von dieser disruptiven Technik betroffen sein werden. Dies betreffe nicht nur Elektriker, Transporteure, Sounddesigner oder die Editoren, sondern auch Schauspieler. Die KI-Umwälzung werde „jede Ecke unserer Industrie“ tangieren, alles „befindet sich nun in der Luft“, da die Technologie sich „so schnell bewegt“, klagte der Produzent, der einen hilflosen Appell an den Staat richtete: „Es muss eine Art staatlicher Regulierung geben, die uns schützt. Wenn nicht, dann sehe ich nicht, wie wir überleben.“
Die Möglichkeiten der maschinellen Content-Systeme haben somit die Produktionsreife erreicht. Sie können Videos dermassen gut aus den ihnen zur Verfügung stehenden Datenbergen generieren, dass selbst abgebrühte, milliardenschwere Hollywood-Produzenten in Panik geraten und nach Staatsinterventionen rufen. Angesichts der standardisierten Produkte, der üblichen, abgelutschten Plots und der oben dargelegten basalen Grundlagen der Kulturindustrie, die nur die Oberfläche der Realität zwecks deren Bestätigung reproduziert, ist diese Panik der Contentproduzenten, die sich immer mal wieder für „Künstler“ halten, nur zu berechtigt. Gerade weil die KI nichts wirklich neues produziert und nur das Gegebene in neuen Variationen reproduziert, ist sie dem in der Kulturindustrie tätigen Lohnabhängigen überlegen. Der Mensch ist ein potenziell subversiver Unsicherheitsfaktor bei der „Contentproduktion“, der zwecks Kosteneinsparung und Straffung des Produktionsablaufs ausgeschaltet werden wird. Gerade aufgrund der sich entfaltenden Weltkrise des Kapitals ist es ein essenzieller Vorteil, die Produktion von Waren der Kulturindustrie weitgehend zu automatisieren.
Und es sind nicht in erster Line Streiks in Hollywood oder Gesetzesinitiativen in Washington, die sich der KI-Industrie bei ihrem Durchmarsch in den Weg stellen. Es ist der Kapitalismus, der sich in Gestalt des Copyrights selber ein Bein stellt. Die IT-Konzerne, die weite Teile des Internets scannten, um die Datenberge zu akkumulieren, die sie für das Training ihrer KI-Systeme benötigten, operierten in einer rechtlichen Grauzone. Sie waren einfach schneller als der Gesetzgeber. Die juristische Auseinandersetzung, in deren Rahmen die Grenzen des legalen Einsatzes der maschinellen Contentproduktion festgelegt werden, steht der Branche vielfach noch bevor.20 Zudem haben US-Gerichte bereits eindeutig entschieden, dass reiner KI-Content kein Copyright erhalten kann.
Am Horizont zeichnet sich eine lange Reihe rechtlicher Auseinandersetzungen ab, bei denen Akteure der „alten“, auf menschlicher Arbeit beruhenden Kulturindustrie gegen die Schöpfungen der KI-Branche vorgehen, da deren Content aus der „Rohmasse“ ihrer gescannten Kulturwaren geformt wurde. Bislang zeichnen sich zwei Wege ab, wie Konzerne mit dieser Rechtsunsicherheit umzugehen gedenken. Valve hat bei der Gamingplattform Steam allen Benutzern die Möglichkeit eingeräumt, „illegale“ Inhalte, die gegen Copyright verstossen, umgehend zu melden. Hier wird die Verantwortung an die Hersteller von KI-Spielen delegiert. Microsoft macht hingegen aus der Rechtsunsicherheit ein Geschäft: Alle Kunden, die durch den Einsatz der hauseigenen KI-Tools in rechtliche Auseinandersetzungen geraten, werden vom Konzern Rechtsschutz erhalten. Damit gewinnt Microsoft einen wichtigen Konkurrenzvorteil auf dem Markt für KI-Systeme, da dies auch abschreckend wirkt. Wer will schon gegen einen der grössten Konzerne der Welt vor Gericht ziehen?
Dennoch dürften diese rechtlichen und politischen Kämpfe – bei denen auch Lobbys um die konkrete Ausformung des Rechtsrahmens kämpfen werden – den Erfolg der maschinengenerierten „Inhalte“ in der Sphäre der Kulturindustrie höchstens verzögern. Mit der vollen Durchsetzung der KI in Film, Videospiel, Musik und Schrift – die B-Ware des Journalismus, der Bild-Reporter, wird bereits bei Alltagsaufgaben durch die KI verdrängt21 – wird das Kapital endlich auch im kulturellen Überbau zu sich selbst kommen. Die leere Abstraktion des Werts wird reine Formen ohne jedwede Tiefe produzieren, die nicht mal das sein können, was sie äusserlich zu sein vorgeben werden.
Wohin tendiert das Ganze? Letztendlich werden auch Produzenten wie ein Tyler Perry oder Gamedesigner wie Todd Howard weitgehend überflüssig, indem die KI-Systeme mit den etablierten Netzdiensten, die den Internetnutzer längst in einen goldenen Käfig aus Algorithmen eingesperrt haben, verzahnt werden und Synthesen eingehen. Wahrscheinlich sind hochgradig personalisierte und alltäglich neu generierte Waren der KI-Kulturindustrie für die wenigen privilegierten Lohnabhängigen, die sich im Katastrophenkapitalismus des 21. Jahrhunderts noch Ideologie werden leisten können. Das personalisierte Videospiel, der personalisierte Film, der nach Feierabend auf Grundlage der Datenspur generiert wird, die der Mensch alltäglich im Netz schon jetzt hinterlässt, dürften mittelfristig realisierbar sein. Die unterschiedlichen KI-Systeme dürften dann vor allem darum konkurrieren, dem Kunden den medialen Inhalt zu liefern, von dem er noch gar nicht weiss, dass er ihn haben will.