Visuelle Kunst mit künstlicher Intelligenz, oft als KI-Kunst abgekürzt, bezieht sich auf visuelle Kunstwerke, die durch Programme der künstlichen Intelligenz (KI) erstellt oder erweitert werden, hauptsächlich durch Text-zu-Bild-Modelle. Die Praxis des automatisierten Kunstschaffens hat einen historischen Präzedenzfall, der bis in die Antike zurückreicht. Die formale Disziplin der künstlichen Intelligenz entstand in den 1950er Jahren und Künstler begannen daraufhin, KI in ihre kreativen Prozesse zu integrieren. Bemerkenswerte KI-generierte Kunstwerke wurden in Museumsausstellungen gezeigt und erhielten Auszeichnungen. In der Vergangenheit hat KI zahlreiche philosophische Untersuchungen zur menschlichen Kognition, zu synthetischen Einheiten und zum Wesen von Kunst innerhalb von Mensch-KI-Kollaborationsrahmen ausgelöst.
Die weitverbreitete Verfügbarkeit von Text-zu-Bild-Modellen, darunter Midjourney, DALL-E und Stable Diffusion, während des Aufschwungs der künstlichen Intelligenz in den 2020er Jahren ermöglichte es öffentlichen Benutzern, Bilder mit minimalem Aufwand schnell zu produzieren. Der Diskurs über KI-Kunst in den 2020er Jahren konzentrierte sich häufig auf Bedenken hinsichtlich Urheberrechtsverletzungen, Falschdarstellungen, Reputationsschäden und deren Auswirkungen auf konventionelle Künstler, insbesondere auf die Möglichkeit einer technologischen Arbeitslosigkeit.
Im August 2023 entschied der Oberste Gerichtshof der Vereinigten Staaten, dass KI-generierte Kunst nicht für den Urheberrechtsschutz in Frage kommt, und verwies auf das Fehlen menschlicher Urheberschaft. Anschließend, im März 2026, weigerte sich das Gericht, einen Fall zu prüfen, in dem es um die Urheberrechtsberechtigung von KI-produzierten Kunstwerken ging.
Historischer Kontext
Genesis und frühe Entwicklungen
Das Konzept der automatisierten Kunst lässt sich auf die Automaten der antiken griechischen Zivilisation zurückführen, wo Figuren wie Dädalus und dem Helden von Alexandria die Entwicklung von Mechanismen zugeschrieben wurde, die zur Texterzeugung, Tonerzeugung und musikalischen Darbietung geeignet waren. Im Laufe der Geschichte sind hochentwickelte Automaten entstanden, wie zum Beispiel der um 1800 entwickelte Automat von Maillardet, der die Fähigkeit demonstrierte, verschiedene Zeichnungen und Gedichte zu produzieren.
Im 19. Jahrhundert postulierte Ada Lovelace, dass „Rechneroperationen“ das Potenzial hätten, Musik und Poesie zu erzeugen. Alan Turings bahnbrechende Arbeit „Computing Machinery and Intelligence“ aus dem Jahr 1950 untersuchte die Machbarkeit von Maschinen, die menschliches Verhalten überzeugend nachahmen. Anschließend wurde das akademische Gebiet der künstlichen Intelligenz offiziell auf einem Forschungsworkshop am Dartmouth College im Jahr 1956 etabliert.
Von Anfang an haben sich KI-Forscher mit philosophischen Untersuchungen zum Wesen des menschlichen Geistes und den Auswirkungen der Entwicklung künstlicher Wesen mit menschenähnlicher Intelligenz beschäftigt; Diese tiefgreifenden Fragen wurden in der Vergangenheit in verschiedenen Bereichen, einschließlich Mythologie, Literatur und Philosophie, seit der Antike behandelt.
Künstlerische Integration
Nach der Einführung der KI in den 1950er Jahren begannen Künstler, künstliche Intelligenz für die Schaffung von Kunstwerken zu nutzen. Diese Produktionen wurden gelegentlich als algorithmische Kunst, Computerkunst, digitale Kunst oder Kunst der neuen Medien kategorisiert.
AARON gilt als eines der bahnbrechendsten und einflussreichsten KI-Kunstsysteme, das von Harold Cohen Ende der 1960er Jahre an der University of California in San Diego ins Leben gerufen wurde. AARON wurde von Cohen entwickelt, um den Akt des Zeichnens rechnerisch zu kodieren und technische Bilder zu erzeugen. AARON nutzt eine symbolische, regelbasierte Methodik, die für die Programmierära der Good Old-Fashioned Artificial Intelligence (GOFAI) charakteristisch ist. Die Eröffnungsausstellung fand 1972 im Los Angeles County Museum of Art statt. Zwischen 1973 und 1975 entwickelte Cohen AARON während eines Aufenthalts am Artificial Intelligence Laboratory der Stanford University weiter. Im Jahr 2024 zeigte das Whitney Museum of American Art KI-Kunst aus Cohens Karriere und zeigte rekonstruierte Iterationen seiner ersten Roboter-Zeichenapparate.
Seit den 1980er Jahren präsentiert Karl Sims Kunst, die vom künstlichen Leben abgeleitet ist. Er erwarb 1987 einen Master of Science in Computergrafik am MIT Media Lab und war von 1990 bis 1996 Artist-in-Residence bei Thinking Machines, einem bekannten Hersteller von Supercomputern und einem Unternehmen für künstliche Intelligenz. Sims wurde 1991 und 1992 beim Prix Ars Electronica mit der Goldenen Nica für seine Videoarbeiten zur künstlichen Evolution ausgezeichnet. 1997 entwickelte er für das NTT InterCommunication Center in Tokio Galápagos, eine interaktive Installation zur künstlichen Evolution. In Anerkennung seiner außergewöhnlichen Beiträge zur technischen Entwicklung erhielt Sims 2019 einen Emmy Award.
Im Jahr 1999 entwickelte und brachte Scott Draves in Zusammenarbeit mit einem Team von Ingenieuren Electric Sheep auf den Markt, einen kostenlosen Software-Bildschirmschoner. Diese freiwillige Computerinitiative animiert und entwickelt fraktale Flammen und verteilt sie auf vernetzten Computern, um sie als Bildschirmschoner anzuzeigen. Das System nutzte künstliche Intelligenz, um durch Interaktion mit dem Publikum kontinuierliche Animationen zu erzeugen. Draves erhielt 2001 den Fundacion Telefónica Life 4.0-Preis für Electric Sheep.
Stephanie Dinkins initiierte 2014 das Projekt Conversations with Bina48. In dieser Serie dokumentierte Dinkins ihre Dialoge mit BINA48, einem sozialen Roboter, der einer schwarzen Frau mittleren Alters ähneln soll. Im Jahr 2019 wurde Dinkins mit dem Creative Capital Award für ihre Entwicklung einer sich entwickelnden künstlichen Intelligenz geehrt, die von den „Interessen und Kultur(en) farbiger Menschen“ geprägt war.
Sougwen Chung begann 2015 mit Mimikry (Drawing Operations Unit: Generation 1) und begründete damit eine fortlaufende Zusammenarbeit zwischen der Künstlerin und einem Roboterarm. Chung wurde 2019 mit dem Lumen-Preis für ihre nachhaltigen Leistungen mit einem Roboterarm ausgezeichnet, der künstliche Intelligenz nutzt, um ihren Zeichenstil nachzuahmen.
Christie's in New York veranstaltete 2018 eine Auktion mit Kunst mit künstlicher Intelligenz, bei der das KI-generierte Kunstwerk Edmond de Belamy 432.500 US-Dollar erzielte. Dieser Verkaufspreis übertraf den geschätzten Wert von 7.000 bis 10.000 US-Dollar deutlich um fast das 45-fache. Für die Erstellung dieses Kunstwerks zeichnete das Pariser Kollektiv Obvious verantwortlich.
Der japanische Film generAIdoscope wurde 2024 uraufgeführt. Die von Hirotaka Adachi, Takeshi Sone und Hiroki Yamaguchi gemeinsam inszenierte Produktion enthielt Video, Audio und Musik, die vollständig durch künstliche Intelligenz generiert wurden.
Die japanische Anime-Fernsehserie Twins Hinahima wurde 2025 veröffentlicht. Ihre Produktion und Animation Integrierte KI-Unterstützung für Aufgaben wie das Ausschneiden und Konvertieren von Fotos in Anime-Illustrationen mit anschließender Retusche durch das Kunstpersonal. Die meisten anderen Elemente, einschließlich Zeichen und Logos, wurden mithilfe verschiedener Softwareanwendungen manuell gezeichnet.
Technischer Verlauf
Deep Learning zeichnet sich durch eine mehrschichtige Architektur aus, die das menschliche Gehirn nachahmen soll. Es entstand in den 2010er Jahren und löste einen tiefgreifenden Wandel im Bereich der KI-Kunst aus. In dieser Ära des Deep Learning gibt es vor allem mehrere generative Kunstdesign-Paradigmen, darunter autoregressive Modelle, Diffusionsmodelle, Generative Adversarial Networks (GANs) und normalisierende Flüsse.
Im Jahr 2014 entwickelten Ian Goodfellow und seine Mitarbeiter an der Université de Montréal das Generative Adversarial Network (GAN), eine Klasse tiefer neuronaler Netze, die entwickelt wurden, um die statistische Verteilung von Eingabedaten wie Bildern zu reproduzieren. Ein GAN arbeitet mit zwei Komponenten: einem „Generator“, der neuartige Bilder synthetisiert, und einem „Diskriminator“, der die Authentizität dieser erzeugten Bilder bewertet. Im Gegensatz zur früheren algorithmischen Kunst, die sich an vordefinierte Regeln hielt, erlangten GANs die Fähigkeit, durch die Analyse umfangreicher Bilddatensätze bestimmte Ästhetiken zu erlernen.
Im Jahr 2015 stellte ein Google-Team DeepDream vor, ein Programm, das ein Faltungs-Neuronales Netzwerk nutzt, um Muster in Bildern durch algorithmische Pareidolie zu identifizieren und zu verstärken. Dieser Prozess führt zu absichtlich überbearbeiteten Bildern, die sich durch eine traumhafte Qualität auszeichnen und eine psychedelische Ästhetik hervorrufen. Anschließend, im Jahr 2017, demonstrierte ein bedingtes GAN die Fähigkeit, 1000 Bildklassen aus ImageNet zu generieren, einer umfangreichen visuellen Datenbank, die für die Forschung in Software zur visuellen Objekterkennung entwickelt wurde. Durch die Konditionierung des GAN sowohl mit Zufallsrauschen als auch mit einer bestimmten Klassenbezeichnung verbesserte diese Methode die Qualität der Bildsynthese für klassenbedingte Modelle erheblich.
Autoregressive Modelle fanden Anwendung bei der Bilderzeugung, am Beispiel von PixelRNN (2016), das mithilfe eines rekurrenten neuronalen Netzwerks nacheinander einzelne Pixel generiert. Nach der Einführung der Transformer-Architektur in Attention Is All You Need (2018) wurde sie umgehend für die autoregressive Bildgenerierung übernommen, wenn auch zunächst ohne Textkonditionierung.
Artbreeder, eine 2018 gestartete Website, nutzt die StyleGAN- und BigGAN-Modelle, um Benutzern die Generierung und Bearbeitung verschiedener Bilder zu ermöglichen, darunter Gesichter, Landschaften und künstlerische Darstellungen.
In den 2020er Jahren kam es zu einer weit verbreiteten Einführung von Text-zu-Bild-Modelle, die Bilder aus Textaufforderungen erzeugen und damit eine weitere transformative Phase in der Entwicklung KI-generierter Kunstwerke markieren.
Im Jahr 2021 führte OpenAI DALL-E 1 ein, ein Text-zu-Bild-KI-Modell, das Bilder mithilfe der Architektur einflussreicher vorab trainierter transformatorischer Modelle zur Generierung großer Sprachen generierte, ähnlich denen in GPT-2 und GPT-3. DALL-E 1 fungiert als autoregressives generatives Modell und teilt grundlegende Architekturprinzipien mit GPT-3. Gleichzeitig, später im Jahr 2021, brachte EleutherAI VQGAN-CLIP auf den Markt, ein Open-Source-Modell, das von CLIP von OpenAI abgeleitet ist. Während Diffusionsmodelle, bei denen es sich um generative Modelle zur Synthese von Daten aus vorhandenen Datensätzen handelt, ursprünglich im Jahr 2015 vorgeschlagen wurden, übertraf ihre Leistung erst Anfang 2021 Generative Adversarial Networks (GANs). Das im Dezember 2021 veröffentlichte latente Diffusionsmodell diente anschließend als grundlegende Technologie für Stable Diffusion, das im August 2022 veröffentlicht wurde, einer Gemeinschaftsarbeit von Stability AI, der CompVis Group bei LMU München und Runway.
Das Jahr 2022 erlebte mit der Veröffentlichung von Midjourney eine deutliche Ausweitung der KI-Bildgenerierung, gefolgt von Imagen und Parti von Google Brain, die beide im Mai angekündigt wurden. Microsoft führte NUWA-Infinity ein und die im Quellcode verfügbare Stable Diffusion wurde im August 2022 veröffentlicht. DALL-E2, eine erweiterte Iteration von DALL-E, wurde einem Betatest unterzogen und anschließend veröffentlicht, wobei sein Nachfolger DALL-E3 im Jahr 2023 auf den Markt kam. Stability AI unterstützt Stable Diffusion über verschiedene Plattformen, einschließlich seiner Weboberfläche DreamStudio und dedizierter Plugins für Krita, Photoshop, Blender und GIMP. Darüber hinaus erleichtert die webbasierte Open-Source-Benutzeroberfläche von Automatic1111 den Zugriff. Das primäre vorab trainierte Modell für Stable Diffusion ist über den Hugging Face Hub öffentlich zugänglich.
Im August 2023 wurde Ideogram auf den Markt gebracht und zeichnete sich durch seine bemerkenswerte Fähigkeit aus, lesbaren Text in Bildern zu erzeugen.
Im Jahr 2024 wurde Flux eingeführt, ein Modell, das äußerst realistische Bilder erzeugen kann. Flux wurde anschließend in Grok, den auf X (ehemals Twitter) verwendeten Chatbot, und Le Chat, den Chatbot von Mistral AI, integriert. Black Forest Labs, gegründet von den ursprünglichen Forschern der Stable Diffusion, entwickelte Flux. Im Dezember desselben Jahres wechselte Grok jedoch zu seinem proprietären Text-zu-Bild-Modell Aurora. Gleichzeitig haben mehrere Unternehmen KI-Modelle weiterentwickelt, die in Bildbearbeitungsdienste integriert sind. Adobe brachte Firefly auf den Markt und bettete es in Premiere Pro, Photoshop und Illustrator ein, während Microsoft öffentlich KI-Funktionen zur Bildgenerierung für Microsoft Paint ankündigte. Darüber hinaus markierte die Mitte der 2020er Jahre die Entstehung bemerkenswerter Text-zu-Video-Modelle, darunter Gen-4 von Runway, VideoPoet von Google, Sora von OpenAI (veröffentlicht im Dezember 2024) und LTX-2 (veröffentlicht im Jahr 2025).
Das Jahr 2025 war durch die Veröffentlichung mehrerer fortschrittlicher generativer Modelle gekennzeichnet. Das im März eingeführte GPT Image 1 von OpenAI führte eine verbesserte Textwiedergabe und multimodale Funktionen ein und erleichterte die Bildgenerierung aus verschiedenen Eingaben wie Skizzen und Textbeschreibungen. MidJourney v7, das im April auf den Markt kam, bot eine verfeinerte Verarbeitung von Texteingabeaufforderungen. Im Mai 2025 wurde Flux.1 Kontext von Black Forest Labs eingeführt, das für seine Effizienz bei der Erzeugung hochauflösender Bilder bekannt ist, zusammen mit Imagen 4 von Google, das einen verbesserten Fotorealismus bot. Später, im November 2025, wurde Flux.2 veröffentlicht, das Fortschritte in den Bereichen Bildreferenzierung, Typografie und schnelles Verständnis bietet.
Tools und Prozesse
Ansätze
Künstler nutzen unterschiedliche Methoden zur Erstellung visueller KI-Kunst. Beim Text-zu-Bild-Ansatz synthetisiert künstliche Intelligenz visuelle Elemente aus Textbeschreibungen und nutzt dabei Modelle wie Diffusions- oder transformatorbasierte Architekturen. Benutzer geben Eingabeaufforderungen und die KI rendert entsprechende Bilder. Bei der Bild-zu-Bild-Methode wandelt die KI ein vorhandenes Eingabebild in einen neuartigen Stil oder eine neuartige Form um, geleitet von einer bestimmten Eingabeaufforderung oder Stilreferenz, beispielsweise durch die Umwandlung einer Skizze in eine fotorealistische Darstellung oder die Anwendung einer bestimmten künstlerischen Ästhetik. Für Bild-zu-Video-Anwendungen erstellt KI kurze Videoclips oder Animationen entweder aus einem einzelnen Bild oder einer Sequenz, wobei häufig Bewegungen oder Übergänge einbezogen werden, die von der Animation statischer Porträts bis zum Aufbau dynamischer Szenen reichen können. Schließlich ermöglichen Text-zu-Video-Funktionen der KI, Videos direkt aus Textaufforderungen zu generieren, was zu Animationen, realistischen Szenarien oder abstrakten visuellen Sequenzen führt und eine Weiterentwicklung der Text-zu-Bild-Generierung mit Schwerpunkt auf zeitlicher Kontinuität darstellt.
Bilder
Künstler, die Diffusionsmodelle nutzen, haben Zugriff auf eine Vielzahl von Werkzeugen. Dazu gehört die Möglichkeit, sowohl positive als auch negative Eingabeaufforderungen zu definieren, sowie die Option, Komponenten wie VAEs, LoRAs, Hypernetzwerke, IP-Adapter und Einbettung/Textinversionen einzubeziehen oder auszuschließen. Darüber hinaus können Künstler verschiedene Parameter anpassen, darunter Guidance Scale (die das Gleichgewicht zwischen kreativer Freiheit und Wiedergabetreue moduliert), Seed (zur Steuerung der Stochastizität) und Upscaler (zur Verbesserung der Bildauflösung). Die Manipulation von Rauschen vor der Inferenz bietet eine weitere Möglichkeit zur Einflussnahme, während herkömmliche Nachbearbeitungsmethoden üblicherweise nach der Inferenz angewendet werden. Benutzer verfügen außerdem über die Möglichkeit, benutzerdefinierte Modelle zu trainieren.
Komplementär zu Diffusionsmodellen sind prozedurale, regelbasierte Bilderzeugungstechniken entstanden, die mathematische Muster, Algorithmen, die Pinselstriche und andere künstlerische Effekte emulieren, sowie Deep-Learning-Architekturen wie Generative Adversarial Networks (GANs) und Transformatoren verwenden. Zahlreiche Unternehmen bieten Anwendungen und Webplattformen an, die den Prozess rationalisieren und es Benutzern ermöglichen, sich ausschließlich auf positive Eingabeaufforderungen zu konzentrieren, ohne dass andere Parameter manuell angepasst werden müssen. Darüber hinaus gibt es spezielle Software zum Stilisieren von Fotos, um die visuellen Merkmale berühmter künstlerischer Bewegungen nachzubilden.
Die verfügbaren Tools umfassen ein breites Spektrum, von benutzerfreundlichen mobilen Anwendungen für Verbraucher bis hin zu anspruchsvollen Jupyter-Notebooks und webbasierten Benutzeroberflächen, die erhebliche GPU-Ressourcen für optimale Leistung erfordern. Zu den erweiterten Funktionen gehört die „Textinversion“, die die Integration benutzerdefinierter Konzepte – wie bestimmter Objekte oder künstlerischer Stile – erleichtert, die aus einer begrenzten Anzahl von Bildern gelernt wurden. Dies ermöglicht die Generierung neuartiger Kunstwerke auf der Grundlage zugehöriger Textbeschreibungen (Wörter, die den erlernten, häufig abstrakten Konzepten zugeordnet sind) und durch Modellerweiterungen oder Feinabstimmungstechniken, am Beispiel von DreamBooth.
Auswirkungen und Anwendungen
Künstliche Intelligenz besitzt die Fähigkeit, tiefgreifende gesellschaftliche Veränderungen herbeizuführen und möglicherweise die Verbreitung nichtkommerzieller Nischengenres (z. B. Cyberpunk-Derivate wie Solarpunk) durch Amateurschöpfer zu fördern, neuartige Unterhaltungsformen zu erleichtern, das Prototyping zu beschleunigen, die Zugänglichkeit des Kunstschaffens zu verbessern und die Effizienz der künstlerischen Produktion in Bezug auf Aufwand, Kosten oder Zeit zu verbessern. Diese Effizienz wird durch Fähigkeiten wie das Erstellen von Vorentwürfen, das Definieren von Konzepten und das Erstellen von Bildbestandteilen (Inpainting) erreicht. Generierte Bilder dienen häufig als vorläufige Skizzen, wirtschaftliche experimentelle Hilfsmittel, Inspirationsquellen oder visuelle Darstellungen für Proof-of-Concept-Ideen. Darüber hinaus können Verbesserungen eine manuelle Bearbeitung nach der Generierung umfassen, einschließlich einer anschließenden Verfeinerung mithilfe von Bildbearbeitungssoftware.
Professionelle bildende Künstler und Designer haben generative KI vorwiegend in der frühen Konzeptualisierungsphase (divergentes Denken) und nicht in der Endproduktion (konvergentes Denken) eingesetzt. Disziplinen, die digitale oder flüchtige Ergebnisse liefern, wie UI/UX-Design und Konzeptkunst, integrieren diese Technologien leichter als diejenigen, die physische, dauerhafte Artefakte wie Skulpturen oder Architektur produzieren. In physischen Bereichen beschränken Überlegungen zu struktureller Integrität, materiellen Einschränkungen und kultureller „Ethno-Berechnung“ die KI häufig auf eine ergänzende Verbesserungsrolle und nicht auf einen direkten Ersatz für traditionelle Produktionsmethoden. Darüber hinaus weisen die Adoptionseinstellungen je nach Karrierestufe erhebliche Unterschiede auf; Berufseinsteiger betrachten generative KI häufig als eine praktische Erweiterung digitaler Werkzeuge, die für die Wettbewerbsfähigkeit auf dem Markt unerlässlich sind, während erfahrene Praktiker häufig kritische Skepsis hinsichtlich der möglichen Abwertung verkörperten Fachwissens und der Auswirkungen auf die langfristige Kompetenzentwicklung äußern.
Prompt Engineering und Teilen
Eingabeaufforderungen für bestimmte Text-zu-Bild-Modelle können Bilder, Schlüsselwörter und konfigurierbare Parameter, einschließlich künstlerischen Stils, enthalten. Diese Stilspezifikation wird häufig durch Schlüsselphrasen wie „im Stil von [Name des Künstlers]“ innerhalb der Eingabeaufforderung oder durch die Auswahl eines breiten ästhetischen oder künstlerischen Stils erreicht. Es gibt spezielle Plattformen für die gemeinsame Nutzung, den Austausch, die Entdeckung, die Verfeinerung und die gemeinsame Entwicklung von Eingabeaufforderungen, die auf die spezifische Bildgenerierung zugeschnitten sind. Aufforderungen werden häufig zusammen mit den generierten Bildern auf verschiedenen Plattformen zum Teilen von Bildern, darunter Reddit, und auf Websites, die sich speziell der KI-Kunst widmen, verbreitet. Es ist wichtig zu beachten, dass eine Eingabeaufforderung nur eine Komponente der für die Bildgenerierung erforderlichen Eingaben darstellt; Weitere entscheidende Faktoren sind die Ausgabeauflösung, der Zufallsstartwert und die Zufallsstichprobenparameter.
Verwandte Terminologie
Synthetische Medien, einschließlich KI-generierter Kunst, wurden im Jahr 2022 als bedeutender technologischer Trend identifiziert, der sich in absehbarer Zukunft auf verschiedene Branchen auswirken wird. Forscher der Harvard Kennedy School äußerten ihre Besorgnis über das Potenzial synthetischer Medien zur Verbreitung politischer Fehlinformationen, nachdem sie die weit verbreitete Einführung von KI-generierter Kunst auf der X-Plattform untersucht hatten. Synthographie stellt eine vorgeschlagene Nomenklatur für die Methodik zur Erzeugung fotoähnlicher Bilder durch künstliche Intelligenz dar.
Philosophischer Kontext
Die durch künstliche Intelligenz erzeugte visuelle Kunst hat einen umfassenden philosophischen Diskurs über die Konzepte von Kreativität, Urheberschaft und die inhärente ontologische Natur visueller Darstellungen ausgelöst. Eine zentrale Untersuchung dreht sich um die Frage, ob der innere Wert der Kunst von menschlicher Absicht und bewusstem Bewusstsein abhängt. Kritiker behaupten, dass das Fehlen subjektiver Erfahrung und bewusster Absichten in KI-Systemen ausschließt, dass ihre Produktionen als „authentische“ künstlerische Ausdrucksformen angesehen werden. Umgekehrt behaupten Befürworter, dass der ästhetische Wert in der Rezeption eines Werks und seinem kulturellen Nutzen liegt und nicht nur in den inneren Zuständen seines Schöpfers, wodurch KI-Systeme als Instrumente oder kollaborative Einheiten innerhalb erweiterter Paradigmen kreativer Bemühungen positioniert werden.
KI-generierte Bilder stellen auch etablierte Darstellungstheorien grundlegend in Frage. Traditionell wird davon ausgegangen, dass Fotografie und Film eine indexikalische Beziehung zur physischen Realität haben, was einen kausalen Zusammenhang mit Ereignissen oder Objekten in der realen Welt impliziert. Umgekehrt synthetisieren generative KI-Systeme Bilder durch statistische Mustererkennung und nicht durch direkte physische Aufzeichnung, wodurch diese indexikalische Verbindung abgeschwächt oder vollständig unterbrochen wird.
Der Medientheoretiker Johannes Grenzfurthner geht davon aus, dass dieser Paradigmenwechsel eine „ontologische Offenlegung“ erfordert – eine explizite Erklärung der Natur eines Bildes als physisch referenziell, hybrid oder vollständig synthetisch –, um ethische und politische Transparenz innerhalb der visuellen Kultur aufrechtzuerhalten. Dieser fortlaufende Diskurs positioniert KI-generierte visuelle Kunst in umfassendere philosophische Überlegungen zu Technologie, Authentizität und der dynamischen Neudefinition des künstlerischen Ausdrucks.
Analyse vorhandener Kunst mithilfe von KI
Über die Generierung neuartiger Kunstwerke hinaus wurden KI-gestützte Forschungsmethoden für die quantitative Analyse digitaler Kunstsammlungen entwickelt. Dieser Fortschritt ist auf die umfassende Digitalisierung künstlerischer Werke in den letzten Jahrzehnten zurückzuführen. Wie CETINIC und SHE (2022) feststellten, bietet der Einsatz künstlicher Intelligenz zur Untersuchung vorhandener Kunstsammlungen neue Einblicke in die Entwicklung künstlerischer Stile und die Unterscheidung künstlerischer Einflüsse.
Bei der Analyse digitalisierter Kunst kommen typischerweise zwei primäre Rechenmethoden zum Einsatz: Nahlesen und Fernbetrachten. Die genaue Lektüre konzentriert sich auf bestimmte visuelle Eigenschaften innerhalb einzelner Kunstwerke. Maschinengesteuerte Aufgaben im Rahmen von Close-Reading-Ansätzen umfassen die computergestützte Künstlerauthentifizierung und die detaillierte Analyse von Pinselführung oder Texturmerkmalen. Umgekehrt ermöglichen Methoden der Fernbetrachtung die statistische Visualisierung von Ähnlichkeiten in einer gesamten Sammlung auf der Grundlage eines bestimmten Merkmals. Typische Anwendungen dieser Methode umfassen automatische Klassifizierung, Objekterkennung, multimodale Analyse, Wissensextraktion in der Kunstgeschichte und Computerästhetik. Darüber hinaus können synthetische Bilder verwendet werden, um KI-Algorithmen für die Zwecke der Kunstauthentifizierung und Fälschungserkennung zu trainieren.
Darüber hinaus haben Forscher Modelle entwickelt, die emotionale Reaktionen auf künstlerische Kreationen vorhersagen sollen. Ein bemerkenswertes Beispiel ist ArtEmis, ein umfassender Datensatz, der in Modelle für maschinelles Lernen integriert ist. ArtEmis umfasst emotionale Anmerkungen von mehr als 6.500 Teilnehmern, ergänzt durch entsprechende textliche Erläuterungen. Durch die Analyse sowohl visueller Daten als auch der zugehörigen Textbeschreibungen in diesem Datensatz erleichtert ArtEmis die Erstellung anspruchsvoller emotionaler Vorhersagen.
Andere Formen der KI-Kunst
Künstliche Intelligenz hat in künstlerischen Bereichen Anwendung gefunden, die über die bildende Kunst hinausgehen. Generative KI wurde in der Musikkomposition und in der Entwicklung von Videospielen eingesetzt und geht über die bloße Bildsprache hinaus und umfasst Level-Design (z. B. für maßgeschneiderte Karten), die Generierung neuer Inhalte (z. B. Quests oder Dialoge) und die Erstellung interaktiver Erzählungen. Darüber hinaus wird KI in der literarischen Kunst eingesetzt, um bei Schreibblockaden zu helfen, kreative Inspiration zu liefern oder das Umschreiben von Textabschnitten zu erleichtern. In der Kochkunst verfügen bestimmte Prototyp-Robotersysteme über die Fähigkeit zur dynamischen Verkostung und unterstützen so Köche bei der Echtzeitanalyse der Zusammensetzung und Geschmacksprofile von Gerichten während der Zubereitung.
Nomenklatur: Die Anwendung von „Kunst“
Die Anwendung des Begriffs „Kunst“ auf Werke, die mit Software für künstliche Intelligenz erstellt wurden, hat unter Künstlern, Philosophen, Wissenschaftlern und anderen Interessengruppen erhebliche Debatten ausgelöst. Zahlreiche Kommentatoren behaupten, dass die Einstufung maschinell erzeugter Bilder als „Kunst“ die intrinsischen Qualitäten menschlicher Kunstfertigkeit, einschließlich Kreativität, Können und Intentionalität, schmälert. Zeitgenössische Definitionen authentischen künstlerischen Schaffens unterstreichen häufig die Notwendigkeit menschlicher Absichten, persönlicher Erfahrungen, Emotionen und relevanter historischer oder künstlerischer Kontexte.
Untersuchungen der National Library of Medicine deuten auf eine inhärente menschliche Voreingenommenheit gegenüber Kunstwerken hin, die künstlicher Intelligenz zugeschrieben werden. In einer Studie, in der die Teilnehmer zwei vergleichbare Bilder bewerteten, von denen eines ausdrücklich als KI-generiert identifiziert wurde, wiesen die Probanden dem künstlich erzeugten Bild durchweg einen geringeren künstlerischen Wert zu. Dieses Ergebnis impliziert, dass soziokulturelle Wahrnehmungen die Einstufung eines Bildes als Kunst erheblich beeinflussen, unabhängig von seinen inhärenten visuellen Eigenschaften.
In einem Bericht aus dem Jahr 2023, der auf der Annual Convention of Digital Art Observers vorgestellt wurde, postulierte Samuel Loomis, dass die Bezeichnung „KI-Kunst“ ihre inhärente Dualität anerkennt: eine Schöpfung, die sowohl aus menschlicher Leitung als auch aus maschinengesteuerten generativen Prozessen resultiert, insbesondere wenn sie anhand der etablierten kritischen Maßstäbe für traditionelle Kunst bewertet wird.