Ist eine Maschine kreativ? Werde ich in Zukunft künstliche Musik hören? Gibt es so etwas überhaupt? Solche Fragen kommen mit künstlichen neuronalen Netzwerken zunehmend auf uns zu.
Heute schon können künstliche neuronale Netzwerke Musik schreiben und Bilder malen. Diese künstliche Kunst ist menschlicher als Sie jetzt vielleicht denken. Die kreative Zusammenarbeit von Mensch und Maschine kann den Menschen verdrängen oder bereichern, wie die Künstlerin PortraitXO gelernt hat.
Künstliche Intelligenz wird, wie andere neue Technologien, schnell verteufelt. Dies ist menschlich, da ihre Funktionsweise nicht einfach verständlich ist. Künstliche Intelligenz wird Auswirkungen auf unseren Alltag und vielleicht auf unsere Arbeit haben, die sich noch nicht voraussagen lassen.
Künstliche Neuronale Netzwerke (knN) sind für uns Menschen gefühlt bedrohlich, weil sie uns nachempfunden sind. Mit ihnen haben Ingenieure versucht, Maschinen beizubringen, wie ein menschliches Gehirn funktioniert. Dabei sind die Maschinen (noch) nicht auf dem Stand der Menschen. Ein Beispiel dafür sind kreative Prozesse. Bei den Menschen sind sie noch nicht ganz erforscht – bei Maschinen vielleicht noch gar nicht kreativ.
Menschliche und künstliche Kreativität im Vergleich
Künstliche neuronale Netzwerke haben in den meisten Architekturen zwei Hauptteile. Einer kategorisiert Daten. Ein anderer setzt die gelernten Kategorien und Muster um. Dabei generiert dieser Neues. Das Prinzip ist: „viel Input, dann einordnen, dann zusammenführen“.
Eine Kreativitätstheorie von Joy Paul Guilford sieht ein ganz ähnliches Modell für Menschen vor. Nach Guilfords Theorie gibt es zunächst die Phase der Divergenz, in der Eindrücke aufgenommen werden. Nach einem Schlüsselmoment der Inspiration kommt es dann zur Konversion, bei der die verschiedenen Eindrücke in einem Kreativprozess gebündelt werden.
An sich gibt es also Parallelen: Mensch und Maschine brauchen zuerst Input. Dann folgt bei beiden Systemen ein Schlüsselmoment. Nach diesem Schlüsselmoment werden die Erkenntnisse aus dem Input zu einem kreativen Output zusammengeführt.
Mensch ist aber in seinem kreativen Prozess viel flexibler und unberechenbarer als eine Maschine. Diese bekommt einen Datensatz, errechnet daraus eine Wahrscheinlichkeit von Abfolgen der Datenpunkte aufeinander. Genau diese Wahrscheinlichkeiten setzt sie dann wieder im Kreativprozess um.
Auch der Schlüsselmoment, wo die Idee entsteht, ist bei Menschen ein anderer. Da ist es nämlich komplett zufällig und unvorhersehbar, welcher Eindruck dann schließlich der Schlüssel zur Inspiration oder Idee wird. Erst recht unvorhersehbar ist der kreative Prozess, der auch weitere äußere Eindrücke verarbeitet.
Der Schlüsselmoment ist bei einer Maschine auch zufällig. Mit einer mathematischen Zufallsfunktion wird hier ein Datenpunkt aus dem „Input“ ausgewählt und als Startpunkt für die Voraussage genommen. Das darauf folgende Generieren orientiert sich nur an errechneten Werten. Während des Prozesses wird kein weiterer Input verwertet. Es wird zum Beispiel ein Pixel eines Bildes oder eine Note eines Musikstückes zufällig aus dem Trainingskorpus ausgewählt. Aufgrund der kategorisierten bzw. errechneten Zusammenhänge werden die auf den Anfangspunkt folgenden Daten vorausgesagt (Konvergenz). Die fertige Voraussage ist dann das kreative Produkt.
Also: stark abstrahiert ähneln sich menschliche und maschinelle Kreativität. Trotzdem gibt es gravierende Unterschiede: Beim Menschen gibt es keinen zufälligen Datenpunkt als Schlüsselmoment. Der menschliche künstlerische Prozess ist keine Voraussage von einem Datenpunkt auf den anderen. Damit unterscheidet sich menschliche Kreativität nach heutigem Wissensstand noch stark von maschineller.
Kunst von künstlichen neuronalen Netzwerken
Diese Person existiert nicht: This person doesn’t exist. Die Website thispersondoesnotexist.com zeigt ein fiktives Gesicht, das bei Aufruf der Seite von einem Generative Adversarial Network (GAN), einem erzeugenden gegnerischen Netzwerk, erzeugt wird. GANs bestehen aus einem knN wie oben beschrieben und einer Kontrollinstanz, die von der Menschlichkeit des Generierten überzeugt werden muss. (Neugierig? Ausführlicher Artikel der Betreiber von thispersondoesnetexist.com, wie das Netzwerk funktioniert)
Fotorealistische Gesichter zu erzeugen, ist keine kreative Tätigkeit im Sinne einer Kunst. Damit trifft es also noch nicht den Kern der Sache. Trotzdem: Die Erzeugung von Bildern, die Menschen auf den ersten Blick ohne weiteres als „natürlich“ empfinden, ist für künstliche neuronale Netzwerke möglich und seit 2018 über das Internet weltweit abrufbar.
Wenn nun aber keine fiktiven Fotos, sondern Gemälde „regeneriert“ werden? Das Kollektiv Obvious hat den Künstler* „“ (©Obvious) geschaffen. Zumindest ist diese Formel die Signatur, die das generative adversarial network auf ihrem Kunstwerk „Portrait of Edmund Belamy“ hinterließ. Dabei ist Edmund tatsächlich nur ein Mitglied der fiktiven Familie Belamy. (Wir haben hier ein Gender-Sternchen an den Begriff „Künstler*“ gehängt, weil knNs eventuell als Kunstschaffende und Urheber ein Recht auf ein Gender brauchen oder in Zukunft in Anspruch nehmen.)
Das GAN hat diese erfundene Familie komplett portraitiert. Dabei hat es bei Stil und Farbgestaltung die jeweiligen mutmaßlichen Lebensdaten der Familienmitglieder berücksichtigt. Also: Familienmitglieder, die mutmaßlich im Barock gelebt haben, werden in für Barock-Maler typischen Posen, Belichtungen, Farben etc. portraitiert. Wobei portraitiert heißt: erfunden.
Wem ist die Signatur jedoch als Eigentumsanspruch zuzuordnen? Hier gibt es noch ein grundlegendes Problem: Gehört das Gemälde dem Algorithmus des GAN oder den Programmierer*innen dahinter? Diese Frage klingt wie aus einem Science-Fiction-Roman. Doch „Portrait of Edmond Belamy“ wurde im Auktionshaus Christie’s für 432 500 US-Dollar versteigert. Wem dieses Geld zusteht, klärt das moderne deutsche Urheberrecht nicht.
Die Society of Authors, Composers and Publishers of Music Frankreich & Luxemburg war 2016 schon weiter. Sie erkannte das künstliche neuronale Netzwerk AIVA (Artificial Intelligence Virtual Artist) als Komponist* an. Damit ist zumindest aus Sicht dieser Gesellschaft das Urheberrecht geklärt. Von AIVA komponierte Stücke wurden bereits in Philharmonien gespielt.
Auch für Filmmusik oder Videospiele ist AIVA als Komponist* beliebt. Die Produzent*innen geben Genre oder Stimmung an und AIVA schreibt die Musik. Die Urheberrechte liegen dann klar bei dem knN, und die Komposition ist günstig. Menschliche Komponist*innen brauchen mehr Zeit und verlangen mehr Geld, als AIVA zu benutzen.
Sind knN-Produktionen menschlich?
Natürlich erhebt die von AIVA erzeugte Musik keinen Anspruch auf perfekte Menschlichkeit. Das muss sie aber auch nicht.
Erstens macht die Abwesenheit des Menschlichen den Charme des Künstlers aus.
Zweitens fällt der Unterschied nicht auf. Wenn die künstliche Intelligenz komponiert, bekommt die Musik allein durch die menschliche Interpretation der Noten eine gewisse Authentizität, so Sebastian Klassmann, Doktorand für Computational Musicology an der Universität zu Köln. Ohne Zweifel kann also heute schon ästhetische Musik von knN erzeugt werden.
Nicht nur das Komponieren von Musik durch künstliche neuronale Netzwerke ist möglich. Auch sieht er Potential für knN in der forschenden Musikwissenschaft. In der Analyse von Musik beispielsweise kann das Probieren von verschiedenen Netzwerk-Architekturen Rückschlüsse auf die Struktur des Musikstücks geben, da verschiedene Architekturen mit den gleichen Datensätzen unterschiedliche Kategorisierungen anlegen.
Und wo bleibt der Mensch?
Künstliche neuronale Netzwerke kommen also ohne menschliches Zutun aus. Oft, erklärt Klassmann, sind aber Fälle, in denen Menschen mit knN und deren Produktionen interagieren, musikalisch und ästhetisch spannender.
Die Künstlerin Portrait XO war nie schüchtern damit, neue Technologien auszuprobieren. Ihre Kunstinstallationen verknüpften beispielsweise Geschmacks- und Hörsinn oder nutzten Virtual Reality. 2019 arbeitet sie in Kollaboration mit dadabots (CJ Carr) an einem Album. CJ Carr hat ein künstliches neuronales Netzwerk für Portrait XOs Stimme geschaffen. Mit einem Korpus von einer Stunde von Portrait XOs Stimme hat dieses Netzwerk zehn Stunden Audio generiert, das sich mal mehr, mal weniger menschlich anhört.
Diese Arbeit war eine persönliche Herausforderung, beschreibt die Künstlerin nicht ohne Stolz im Interview. Eben weil das künstliche neuronale Netzwerk sie nachahmt, eröffnet das generierte Material viel Platz zur Reflektion.
Das Album wird aus von Portrait XO komponierter und produzierter Musik mit Vocals aus dem generierten Audio bestehen. In einem Interview mit TOA Berlin und dBS Berlin spricht sie über ihre Erfahrungen und die Fragen, die ihr bei diesem Projekt begegnet sind.
Das von CJ Carr gestelltes künstliche neuronales Netzwerk bietet einige Stellschrauben zum Experimentieren. Beim Experimentieren kam Portrait XO zu einigen unerwarteten Ergebnissen. Zum Beispiel führte der Versuch, das Rauschen zwischen „brauchbaren“ Teilen zu vermeiden, zu mehr Lücken mit Stille. Das generierte Audiomaterial nahm dadurch wieder eine neue Form an.
Mit anderen Trainingsdaten wäre ein anderes Audio generiert worden. Falls es für PortraitXO ein zweites „KI-Album“ gibt, würde sie gerne mit anderen Geräuschen als ihrer Stimme arbeiten. Was macht ein künstliches neuronales Netzwerk aus den Geräuschen eines Zuges und eines Vogels, kombiniert als Datensatz?
knNs als Werkzeug zur Verfügung stellen
Von anderen Künstler*innen wird Portrait XO relativ häufig gefragt, ob sie auch einmal „mit dieser KI“ arbeiten dürften. Leider ist der Algorithmus und die zugrundeliegende Datenarchitektur von dadabots auf Portrait XO zugeschnitten, kann also nicht wirklich weitergegeben werden. Dennoch möchte Portrait XO ihre Faszination und Inspiration gerne teilen. Eine Möglichkeit für Künstler*innen, eine solches künstliches neuronales Netzwerk relativ unkompliziert auszuprobieren, gibt es nicht.
In den Music and Deep Learning-Seminaren von Sebastian Klassmann programmieren Studierende der Musik und der Informatik gemeinsam eigene selbstlernende Algorithmen. Er sieht in künstlichen neuronalen Netzwerken eine Möglichkeit für die Annäherung von Musikpraxis und Musikwissenschaft. Wie auch PortraitXO werden Künstler*innen zu Forschenden, wenn sie sich mit KI-Technologie ausprobieren können. Der Austausch von Forschung und Praxis kann ein tieferes Verständnis auf beiden Seiten bringen.
Das Ende vom Lied
Sebastian Klassmann sieht Potenzial, dass die Analyse mit künstlichen neuronalen Netzwerken musiktheoretische Rückschlüsse zulässt. Welche, wird seine Forschung und die Erfahrung in der Musikpraxis bald zeigen.
Offen bleibt die Frage des Urheberrechts. Was ist bei Kooperation von Mensch und künstlichem neuronalen Netzwerk wie bei PortraitXO? Sie hat dadabots wie alle Beteiligten auf ihrer Website als Urheber*innen angegeben. Da das knN ihre eigene Stimme verwendet hat, muss sie keine Beschwerden von Dritten befürchten. Was passiert aber, wenn sie im nächsten Album wirklich das Geräusch eines Zugs verwendet? Schuldet sie oder das knN der Bahngesellschaft dann Geld?
Das Ende vom Lied ist, dass knN definitiv künstlerisch schaffen können. Auch kann sie wohl als eigenständig im Sinne des Urheberrechts anerkannt werden. Aber: Menschlich ist die Kreativität von knNs nicht. Vielleicht erreichen knN diese Qualität aber in der Zukunft. Sollte das so sein, stellen sich neue Fragen über den Wert von Kreativität und was den Menschen eigentlich von der Maschine unterscheidet.
Autorin: Simone Dahmen