Im Auge der KI
«Wer derzeit am meisten Angst vor künstlicher Intelligenz hat, das sind die Menschen, die sich damit auskennen.» Damit führte Wolfram Eilenberger, der Moderator der SRF-Sendung «Sternstunde Philosophie» in das am 10. Dezember 2023 geführte Gespräch mit dem Ethiker Peter G. Kirschschläger ein. Ich gehöre nicht zu jenen, die sich damit auskennen. Das unbekümmerte Herumspielen mit ein paar KI-Tools – solchen, die mir kostenlos zur Verfügung stehen – sollte, so das Ziel, daher hauptsächlich einen Effekt zeitigen: mich das Fürchten zu lehren.
Als Ausgangspunkt dienen mir zwei Fotografien, im April 2006 gleichentags in zwei verschiedenen Zürcher Tageszeitungen erschienen, die ich seit dann in meiner unsystematischen Sammlung von Pressebildern aufbewahre. Sie zeigen denselben Moment am Ende einer Fussballpartie. Der FCZ-Spieler Alhassane Keita hat eben einen Elfmeter geschossen, den der YB-Goalie Marco Wölfli im nächsten Sekundenbruchteil nicht wird halten können. Um auch dies vorwegzunehmen: Ich verstehe auch wenig von Fussball. Aber die beiden Bilder sind nicht nur deshalb verblüffend, weil sie denselben Augenblick aus komplett anderer Perspektive zeigen, sie kommen mir auch verblüffend unspektakulär vor. Keine besondere Dramatik, kein besonderer fotografischer Stil, weder nennenswerte Heroisierung noch augenfällige Ästhetisierung zeichnen sie aus. Man könnte sogar von schlechten Bildern sprechen. Der Fokus des einen liegt weder auf dem Goalie noch auf dem Torschützen, scharf im Bild sind an der Aktion nicht beteiligte Spieler. Das andere ist geprägt durch eine seltsame Distanziertheit und Leere – eher ungewohnt für Fussballbilder, soweit ich dies einzuschätzen vermag. Beide Fotografien legitimieren sich allein durch das Festhalten des Augenblicks der sich vollziehenden Entscheidung der Partie, den instant décisif, nach Henri Cartier-Bresson die Essenz jeder guten Fotografie. Die Bilder zeigen, was sie zeigen, nicht mehr und nicht weniger: Keita hat eben den Ball getreten, Wölfli versucht ihn zu halten. That’s it. That was it.
Die Idee, die Fotografie als Botschaft ohne Code [1] zu verstehen, hat mir stets eingeleuchtet. Irgendwie muss doch, mindestens als Horizont, jedes Weltverhältnis durch die Möglichkeit eines Zugangs zum Realen motiviert sein, durch die Verheissung einer buchstäblichen Tuchfühlung mit dem Wirklichen, ohne die Dazwischenkunft von Zeichen, die es ideologisch überformen, ihm «eine Kultur, eine Moral, eine Phantasie»[2] aufbürden. Die Fotografie kommt vielleicht dort am ausgeprägtesten zu ihrem Recht, wo jede Bedeutung in sich zusammenbricht und nichts anderes bleibt als die pure Geste des Zeigens: Das da. So war es. «Es-ist-so-gewesen». [3]
«[A]ngesichts einer Fotografie», schreibt Roland Barthes in seinem Aufsatz «Die Fotografie als Botschaft», «ist das Gefühl der ‘Denotation’ oder, wenn man lieber will, der analogischen Fülle so stark, dass die Beschreibung […] genaugenommen unmöglich ist; denn das Beschreiben besteht gerade darin, der denotierten Botschaft ein Relais oder eine zweite Botschaft hinzuzufügen, die dem Code der Sprache entnommen ist und, so sehr man auch um Genauigkeit bemüht ist, zwangsläufig eine Konnotation in Bezug auf das fotografische Analogon bildet: Beschreiben heisst also nicht bloss ungenau oder unvollständig sein, sondern die Struktur wechseln, etwas anderes bedeuten als das Gezeigte.» [4]
Die KI-Programme, die mir zur Verfügung stehen – ich beschränke mich auf ein paar wenige kostenlose –, gehen mit diesem Diktum (Barthes nennt es auch «Lehrsatz»[5]) reichlich unbeschwert um. Spielend verwandeln sie Texte in Bilder und Bilder in Texte – so mindestens ihr Versprechen. In einem ersten Versuch lade ich die beiden Fussballbilder einzeln auf astica.ai hoch und lasse sie mir beschreiben. Das Resultat, je ca. 1200 Zeichen umfassende Texte auf Englisch, übersetzt DeepL für mich auf Deutsch.
Das eine, kargere Bild zeige eine «lebhafte Szene mit einer Gruppe von Menschen, die sich auf einem üppigen, grünen Feld ein spannendes Fussballspiel liefern». Das Geschehen konzentriere sich «auf einen Fussballspieler in einer schwarzen Uniform, der mit dem Ball nach vorne stürmt». Insgesamt vermittle das Bild «die lebendige Energie und Spannung eines Mannschaftssports» und brächte «die Aufregung und Energie eines laufenden Fussballspiels sehr gut zum Ausdruck», wobei «die Spieler grosse Begeisterung und Entschlossenheit» zeigen würden.
«Vor der üppigen Kulisse eines gut gepflegten Rasenplatztes» würden die Spieler im zweiten Bild «ihre Sportlichkeit und ihren Teamgeist» zur Schau stellen. «Jeder Spieler», so die Interpretation von atica, «trägt ein weisses und ein gelbes Trikot und trägt damit zur Dynamik des Spiels bei.» Auf dem «Spielplatz» herrsche reges Treiben, doch trotz «der Bewegung und des Chaos des Spiels» sei «ein einzigartiger Sinn für Ordnung und Strategie in der Positionierung und den Bewegungen der Spieler zu erkennen».
Es wird nicht erstaunen, dass mich die Resultate kaum beeindrucken, sie verprellen vielmehr auch noch die vorsichtigsten Erwartungen. Doch spielen wir das Spiel einmal weiter. Ich gebe die Bildbeschreibung des ersten Bildes bei firefly.adobe.com ein. Als «Inhaltsytp» wähle ich «Foto», auf weitere Filter verzichte ich vorerst. Nun erschreckt mich das eindeutig schweizerisch anmutende Lokalkolorit doch ein wenig: Weiss das Programm, wo ich bin? Hat es Zugriff auf meinen Standort? Meinen Identitätsausweis? Warum die Berge, die Schweizer Flagge? Nichts davon kommt in der Beschreibung vor. In der erweiterten Einstellung «Aus dem Bild ausschliessen (nur Englisch)» verbiete ich «Swiss Flag», «Mountain», «Forest», «Tree», «Alps», «Landscape». Doch das hilft nur halbwegs. Hartnäckig hält das Programm an der Schweiz fest, auch bei der zweiten Bildbeschreibung, die ich demselben Prozedere unterziehe.
Ich versuche es mit einer eigenen Bildbeschreibung, die mir treffender vorkommt, in einem anderen Programm. In deepai.org gebe ich diesen Prompt ein: «A player has just kicked a penalty that the goalkeeper will not be able to save in the next fraction of a second. The ball is still flying through the air, the goalkeeper dives to his left to catch it. Otherwise, there is no particular drama, no particular photographic style, no heroisation worth mentioning and no obvious aesthetisation.»
Nun kann ich aus über 120 möglichen Filtern auswählen, die sich mir in einer «gallery of styles» als quadratische Musterbildchen präsentieren. Klicke ich eines an, wird mir ein Begriff dazu geliefert – alles in allem ein ungeordnetes Sortiment aus Epochenstilen («Renaissance Painting», «Impressionism Painting», «Cubist Art», «Pop Art» …), Sujets («Solar System», «Cute Creature», «Ice World» …), Techniken («Origami Paper», «Water Colour Painting», …) und anderen, sich an populären Genres orientierenden Bildvorlagen («Cyberpunk», «Anime», «Comics Superhero» …).
Was Roland Barthes die Fotografie von anderen analogen Darstellungen unterscheiden liess, wird hier gewissermassen auf die Spitze getrieben. Abgesehen von ihr, der Fotografie, so Barthes, «enthalten alle […] nachahmenden ‘Künste’ zwei Botschaften: eine denotierte, nämlich das Analogon als solches, und eine konnotierte, nämlich die Weise, wie die Gesellschaft gewissermassen zum Ausdruck bringt, wie sie darüber denkt.»[6] Hier, im Katalog der mir zur Verfügung stehenden Ding- und Ausdruckswelten, sind denotative und konnotative Ebenen unauflöslich ineinander vermengt. Sujets, Stile und Techniken stammen aus ein und demselben «Vorrat an Stereotypen».[7] Das Display präsentiert mit einebnender Gleich-Gültigkeit wohlbekannte Objekt-, Bild- und Figurengattungen. Die phrasenhafte Geschwätzigkeit von ChatGPT, die jeden Versuch eines eigentlichen Gesprächs in einem platten Relativismus enden lässt, findet hier eine visuelle Entsprechung. «Kitsch», so Vilém Flusser, «ist vor allem […] faszinierend, weil es bei ihm um […] eine Bejahung des Geredes geht. Nicht mehr Informationen sollen erzeugt und weitergegeben werden, um die Welt zu verändern, sondern im Gegenteil sollen Informationen zerredet werden. […] Nicht mehr gesprochen, nur geredet soll werden.»[8]
Ich wechsle zwischen «Concrete Jungle», «Modernist Architecture», «Dystopian Landscape» und ein paar weiteren Filtern, deren Beispielbilder mir einigermassen erträglich erscheinen, hin und her, variiere das Bildformat und den Prompt, tausche einige Wörter aus, füge ein paar Angaben hinzu. Den Überblick habe ich schnell verloren; nun weiss ich nicht mehr, welches Bild mit welchem Filter und welchem Prompt erstellt worden ist. Doch ob das Programm wirklich trennscharf vorgeht, ist ohnehin unklar. Die Bilder ähneln sich – oder anders: deepai.org agiert, egal mit welchen Vorgaben, ebenso variantenreich wie erratisch. Warum plötzlich schwarz-weiss? Warum die Spieler auf einmal alle in der Luft? Warum wie Marionetten an Fäden hängend? Warum mit drei Beinen, ohne Arme, ohne Kopf?
Immerhin lassen sich die Bilder kaum in das Repertoire einordnen, das deepai.org in seiner Filtergalerie bereitstellt. Habe ich das Programm gegen seine Absicht verwendet? Sieht das Programm überhaupt etwas vor? «Das Apparatprogramm muss reich sein», schreibt Vilém Flusser in seiner Philosophie der Fotografie, «sonst wäre das Spiel bald aus. Die in ihm enthaltenen Möglichkeiten müssen die Fähigkeiten des Funktionärs, sie zu erschöpfen, übertreffen, das heisst, die Kompetenz des Appartes muss grösser sein als die seiner Funktionäre […]. [Der Apparat] ist eine Black Box.»[9] Für «alles apparatische Funktionieren [ist] charakteristisch: Der Funktionär beherrscht den Apparat dank der Kontrolle seiner Aussenseiten (des Input und Output) und wird von ihm beherrscht dank der Undurchsichtigkeit seines Inneren. Anders gesagt: Funktionäre beherrschen ein Spiel, für das sie nicht kompetent sein können.»[10] Doch das triff nur halbwegs zu: Was sich im fotografischen Bild als «Output» zeigt, ist – mindestens nachträglich – kausal zu begründen. Hier aber ist jedes Bild unergründlicher Effekt undurchschaubarer Rechenvorgänge. Es steht nicht im Geringsten unter meiner Kontrolle. Doch unter wessen dann?
Unter den Fussballbildern, die deepai.org errechnet hat, gibt es das eine oder andere, dessen Anmutung mich lockt. Auf firefly.adobe.com lade ich eines davon als Referenzbild hoch und teste mit unterschiedlichen Prompts, was daraus werden kann.
Was fasziniert mich an den Bildern? Irritierend sind zunächst jene, deren Ähnlichkeit mit existierenden Schauplätzen augenfällig ist. Auf einem Bild glaube ich den Schiffländeplatz am Zürcher Limmatquai wiederzuerkennen, ein anderes scheint die Mündung von der Bahnhofstrasse in den Rennweg zu zeigen. Ein Abgleich mit Google Streetview zeigt schnell, dass ich mich täusche. Es ist das Zürcherische, dass Autobahnige, das Bahnhofige, das in meinem Hirn offenbar in ähnlicher Weise abgelagert ist wie im Programm. Das Fotografische der Bilder, obwohl schlussendlich ein Stil wie jeder andere, trägt dazu bei, dass ich mich dem Täuschungsmanöver auch dort nicht entziehen kann, wo der Realitätscode der Fotografie ins Surreale, Dystopische übersteigert wird.
Während die Fotografie gemäss Barthes aufgrund ihrer Eigenschaft, «Emanation des Referenten» zu sein, dessen «Strahlen» sich ohne menschliches Zutun auf einen lichtempfindlichen Träger einschreiben,[11] notwendig mit der realen Sache, die vor dem Objektiv platziert war, verbunden ist,[12] sieht Flusser das «Universum der technischen Bilder»[13] mit der Fotografie bereits auf Vormarsch. Das Interesse «des Funktionärs», so Flusser, richtet sich auf den Apparat selbst, «die Welt [ist] ihm nur Vorwand für die Verwirklichung von Apparatmöglichkeiten.»[14]
Aber ich schweife ab. Kommen wir noch einmal auf die beiden Fussballbilder zurück. Denn obwohl nach Barthes die Beschreibung einer Fotografie grundsätzlich unmöglich ist, weiss auch er, dass kein Bild, mindestens kein Pressebild, ohne Text erscheint. Bereits die Produzierenden (Fotograf:in, Redaktion, Layouter:in, Texter:in …), dann auch das Publikum unterziehen es einer Lektüre, bringen es «mehr oder weniger bewusst mit einem überlieferten Zeichenvorrat in Zusammenhang».[15] Schon der Name der Zeitung kann die Lektüre einer Fotografie massgeblich steuern – jedenfalls bestätigen die beiden Fussballfotografien den je unterschiedlichen Charakter, den ich der Neuen Zürcher Zeitung und dem Tages Anzeiger zuschreibe; sie festigen deren Corporate Identity und damit gewissermassen den von ihnen (und uns Lesenden) geschaffenen und gepflegten Mythos.
Das Bild aus der NZZ wirkt sachlich und nüchtern. Beinahe schematisch ordnet es die an der Aktion in definierten Rollen Beteiligten an: den Torschützen, den Torwart und den Linienrichter. Doch die Bildlegende fügt dem Geschehen eine lyrisch anmutende Dimension hinzu, welche die augenscheinliche Langeweile im Bild (die durch das ungewöhnliche Cinemascope-Format wohl noch gedehnt wird) gleichermassen konterkariert und rechtfertigt. «Ein Ball, drei Männer und viel Dreck» benennt sowohl bildimmanente und kompositorische Elemente als auch die während des ganzen Spiels massgeblichen Akteure. Wie dem Artikel zu entnehmen ist, war Keita sowohl Alleinunterhalter im Sturm, in der ersten Spielhälfte penaltyverursachender Foulspieler, danach zweifacher Torschütze; Wölfli hingegen der Keeper im Halbschlaf, der drei Tore kassierte; das Schiedsrichterteam hatte einige Fehlentscheide zu verantworten; die durch den strömenden Regen verursachte Sumpflandschaft liess an diesem Sonntagnachmittag schlicht keine bessere Spielqualität zu; und schliesslich nicht zu vergessen der Ball, nebst den Toren eh die Hauptfigur in jedem Spiel. Die Legende steuert nicht nur den Blick (ich bin nicht sicher, ob ich den «Sumpf» ohne sie wirklich ausgemacht hätte), sie zerstört gewissermassen auch die Evidenz der Momentaufnahme und macht aus ihr ein Symbolbild, wenn nicht für Fussball überhaupt, so doch für die gesamte Partie. Das Wort, so Barthes, «tritt zur Sublimierung, Pathetisierung oder Rationalisierung des Bildes hinzu». [17]
Ich mache noch einmal die Probe aufs Exempel, gebe die Bildlegende «Ein Ball, drei Männer und viel Dreck: Keita bezwingt den YB-Goalie Wölfli im letzten Duell des Tages aus elf Metern zum 3:3.» auf firefly.adobe.com ein und bekomme (wenn ich «American Football», «Baseball», «Helmet» und «Cap» verbiete) diese vier Bilder:
Das Bild aus dem Tages Anzeiger zeigt die Szene mit etwas mehr Dynamik. Das Spielfeld ist hier belebt, weitere Spieler scheinen involviert. Das Netz des Tors, durch welches auf das Geschehen auf dem Platz geblickt wird, rastert unscharf die gesamte Bildfläche. Es handelt sich dabei um eine von vielen «fotogenen Techniken», von denen Barthes sagt, jede von ihnen entspräche einem hinreichend konstanten Konnotationssignifikat, das sich in eine kulturelle Lexik der technischen Effekte eingliedere. [18] Hier wäre es vielleicht zu übersetzen mit «der (subjektive) Blick des Betrachters» oder «der (ungewöhnliche) Standpunkt des Beobachters». «Der Elfmeter ins Glück» bleibt hier zwar einerseits näher beim festgehaltenen Augenblick, andererseits unternimmt die Bildlegende den meiner Meinung nach nicht ganz geglückten Versuch, dem Bild ein Pathos einzuhauchen.
«Der Elfmeter ins Glück: Alhassane Keita lässt YB-Goali Marco Wölfli keine Chance, der FC Zürich kommt in der Nachspielzeit zum 3:3-Ausgleich» produziert mit denselben Restriktionen wie im ersten Versuch rätselhafter- und monströserweise dies:
Tatsächlich scheint Roland Barthes’ These des «fotografischen Paradoxes» auf diese Bilder nicht mehr zuzutreffen. «Wie kann […] die Fotografie zugleich ‘objektiv’ und ‘besetzt’ sein, natürlich und kulturell?»[19], fragt er in seinem Aufsatz «Die Fotografie als Botschaft». Denn gerade weil «der gesunde Menschenverstand»[20] sie als Analogon des Wirklichen versteht, eignen sich Fotografien besonders gut dazu, Historisches zu naturalisieren – in anderen Worten: Ideologien zu bilden und aufrecht zu erhalten. «Der Mythos leugnet nicht die Dinge; seine Funktion ist vielmehr, davon zu sprechen; er reinigt sie einfach, gibt ihnen ihre Unschuld zurück, gründet sie in Natur und ewiger Dauer, gibt ihnen die Klarheit […] einer Feststellung […]; er organisiert eine Welt ohne Widersprüche, weil ohne Tiefe, ausgebreitet in der Evidenz […]. Die Dinge tun so, als bedeuteten sie von ganz allein.» [21]
Man könnte es auch so formulieren: Mythen entstehen dort, wo sich Zeichen nicht als Zeichen zeigen, und diese Bilder tun nichts anderes, als ihren Zeichenvorrat offen zu legen. Solange sich KI-Bilder so gebärden, hält sich meine Furcht vor ihnen in Grenzen. Aber vielleicht sollte man gewappnet sein. Fünfzehn Jahre nach dem Entwurf seiner Mythentheorie überdenkt Barthes in einem kurzen Aufsatz seinen früheren Ansatz. [22] Statt nach Mythen zu jagen, wie er es bisher getan hatte, müsse es heute (1971) um die «Zerstörung der Zeichen» gehen. Auf «Mythoklastie» folgt «Semioklastie». [23] «Nicht mehr die Mythen gilt es zu demaskieren […], sondern die Zeichen selbst gilt es ins Wanken zu bringen: […] nicht die Symbole ändern oder reinigen, sondern das Symbolische selbst fragwürdig werden lassen.»[24] Das nehme ich mal mit, als Not-Pharmakon, falls es besser, also schlimmer wird.
[1] Roland Barthes, «Die Fotografie als Botschaft», in ders., Der entgegenkommende und der Stumpfe Sinn. Kritische Essays III, Frankfurt/M.: Suhrkamp 1990, S. 11–27, hier S. 13.
[2] Ebd., S. 21.
[3] Roland Barthes, Die helle Kammer, Frankfurt/M.: Suhrkamp 1985, S. 98, 105, 110.
[4] Barthes, «Fotografie als Botschaft», S. 14, Hervorhebung im Original.
[5] Ebd., S. 13.
[6] Ebd., Hervorhebungen im Original.
[7] Ebd.
[8] Vilém Flusser, «Gespräch, Gerede, Kitsch. Zum Problem des unvollkommenen Informationskonsums», in: ders., Nachgeschichte. Eine korrigierte Geschichtsschreibung, Frankfurt/M.; Fischer 1997, S. 224–237, hier S. 236.
[9] Vilém Flusser, Für eine Philosophie der Fotografie, Göttingen: European Photography 1983, S. 22.
[10] Ebd.
[11] Roland Barthes, Die helle Kammer, Frankfurt/M.: Suhrkamp 1985, S. 90 f.
[12] Vilém Flusser, Ins Universum der technischen Bilder, Göttingen: European Photography 1985
[13] Flusser, Für eine Philosophie der Fotografie, S. 21.
[14] Barthes, «Die Fotografie als Botschaft», S. 15.
[15] Vgl. ebd., S. 11.
[17] Ebd., S. 21.
[18] Ebd., S. 19
[19] Ebd., S. 15.
[20] Ebd., S. 13 und 14.
[21] Roland Barthes, Mythen des Alltags. Vollständige Ausgabe, Berlin: Suhrkamp 2010, S. 296.
[22] Vgl. Roland Barthes, «Mythologie heute», in: ders., Das Rauschen der Sprache. Kritische Essays IV, Frankfurt/M.: Suhrkamp 2005, S. 73–77.
[23] Ebd., S. 75.
[24] Ebd., S. 74
Spezialausgabe
Legenden
Irene Vögeli (*1963) ist Bildpraktikerin, Bildtheoretikerin und Ko-Leiterin des Master Transdisziplinarität in den Künsten der ZHdK.