Festplatte mit Noten

Immer mehr Kreative nutzen Künstliche Intelligenz für die Schaffung neuer musikalischer Werke. KI kann komponieren, texten, arrangieren, Klänge und Stimmen erzeugen. Für das Training nutzen Anbieter jedoch vielfach urheberrechtlich geschützte Musik. Die Auseinandersetzung um Chancen und Risiken von KI ist in vollem Gang.

Mit großen Verheißungen betritt die künstliche Intelligenz den Bereich des kreativen Schaffens. Durch einen Klick wird aus einem Foto ein van Gogh, Obama spricht nie gesagte Worte, und eine KI erzeugt komplette Musikstücke, auf Wunsch separiert in Einzelspuren für Schlagzeug, Bass, Gitarre, Keyboard und Gesang. Wird es da noch Platz für kreative Menschen geben? Oder werden in Zukunft ausschließlich KI-Systeme der Tech-Giganten neue Kompositionen auf Knopfdruck generieren? Neben Bedenken wie diesen knüpfen sich genauso Hoffnungen und konkrete Möglichkeiten an den Einsatz von KI-Modellen in der Musik: Denn längst werden diese nicht nur von der Musikindustrie für die Produktion, Aufführung und Vermarktung, sondern auch von unabhängigen Musikschaffenden bei der Erkundung neuer experimenteller Klangwelten genutzt. Daneben kann KI – etwa im Bereich des Singer-Songwritings – den Einstieg in das eigene Komponieren erleichtern oder junge Musiker:innen bei Management-Aufgaben unterstützen. Auch in Bezug auf Barrierefreiheit besitzt sie ein großes Potenzial, wenn es etwa darum geht, Menschen mit Beeinträchtigung den Zugang zu musikalischen Angeboten zu erleichtern. 

Bei allen positiven Aspekten muss aber der Umgang mit künstlerischen Inhalten, die der KI als Grundlage für die Generierung neuer Musikstücke dienen, kritisch in den Blick genommen werden. Der Überbegriff „Machine learning“ beschreibt in diesem Zusammenhang nur den technischen Vorgang, bei dem eine KI anhand Tausender bereits existierender Werke mit Informationen zu Ästhetik, Form und neuesten Trends trainiert wird. Die meisten dieser zum Lernvorgang genutzten Kompositionen sind jedoch urheberrechtlich geschützt, und abgesehen vom 2024 verabschiedeten AI Act der Europäischen Union, der u. a. Transparenzanforderungen stellt und die Zusammenfassung urheberrechtlich geschützter Daten fordert, gibt es bislang noch kein Gesetz, das diese Art der Nutzung urheberrechtlich geschützter Werke regelt. Die Rechtsprechung reagiert allein auf neue Trends, während sich die Gesetzgebung erst im Nachhinein an die neuen Möglichkeiten und ihren Missbrauch anpasst. Doch welche Gesetze sollten überhaupt erlassen werden – vor allem auch in Hinblick auf das weltweite Agieren der KI-entwickelnden Tech-Giganten?

Da die Entscheidung hierüber nicht nur von Jurist:innen getroffen wird, müssen öffentliche Diskussion und Politik für die genauen Inhalte der Gesetze sensibilisiert werden. In Deutschland haben verschiedene Kulturinstitutionen eine gesetzliche Regelung angemahnt, die Lizenzvereinbarungen und eine Vergütung für die Nutzung urheberrechtlich geschützter Inhalte vorsieht, darunter der Deutsche Kulturrat und der Deutsche Musikrat. Als weltweit erste Verwertungsgesellschaft hat im September 2024 die GEMA ein Lizenzmodell für generative KI vorgestellt und im November 2024 Klage gegen Open AI sowie im Januar 2025 gegen Suno AI erhoben, denen sie vorwirft, urheberrechtlich geschützte Musikwerke zum Training ihrer Systeme genutzt zu haben, ohne dafür eine Lizenz zu erwerben. Es bleibt die Problematik, dass bis zur Umsetzung und Anwendung entsprechender gesetzlicher Regelungen private Firmen die Gesetzeslage zu ihren Gunsten unreguliert nutzen und damit die Einkommensbasis tausender Kreativer aufs Spiel setzen können. Sollten diese als Folge daraus nicht mehr in der Lage oder dazu bereit sein, neues Lernmaterial für das Machine learning zu erschaffen, könnte das möglicherweise Einfluss auf die Weiterentwicklung und Innovationskraft von Musik insgesamt haben.

Um zunächst einmal zu verstehen, wie ein Rechner Musik erzeugen kann, werden im Folgenden Definitionen und Funktionsweisen von KI erläutert und praktische Anwendungsfelder beschrieben. Abschließend werden ethische Aspekte diskutiert und die Frage nach der Verletzung von Urheberrechten gestellt.

Was ist KI?

In der Informatik spricht man von starker und schwacher KI. Würde ein Mensch mit einer solchen starken KI kommunizieren, könnte er sie nicht von einem realen Menschen unterscheiden (sog. Turing-Test). Die bisher bekannten Systeme werden als schwache KI bezeichnet. Sie weisen bestimmte Artefakte, Fehler oder nur sehr spezialisierte Fähigkeiten auf, die sie schnell als Maschinen erkennbar machen.

Intelligenz im Allgemeinen „ist die kognitive oder geistige Fähigkeit des Menschen (...), Probleme zu lösen.“ [1] Diese kognitiven Fähigkeiten setzen sich aus einer Vielzahl spezifischer Eigenschaften zusammen. Mathematische, abstrahierende, sprachliche, logische, geometrische, visuelle oder auditive Fähigkeiten sowie Faktenwissen können erforderlich sein, um ein bestimmtes Problem zu lösen. Im Gegensatz dazu sind bestehende KI-Systeme hoch spezialisiert und können bestimmte Probleme sehr gut lösen, während sie bei anderen Problemen völlig versagen.

Im Gegensatz zur Intelligenz wird Künstliche Intelligenz von Maschinen und Software ausgeführt. Sie versucht, sich den menschlichen Fähigkeiten so weit wie möglich anzunähern und simuliert Strategien des menschlichen Gehirns. KI wäre demnach eine „Automatisierung intelligenten Verhaltens, die sich mit maschinellem Lernen beschäftigt“. [2]  Diese Automatisierung wird durch neuronale Netze erreicht, die von Informatiker:innen mittels Programmiersprachen implementiert werden und die eingegebenen Daten nach Mustern durchsuchen.

Funktionsweise von KI-Systemen

KI-Systeme erhalten ihre kreativen Fähigkeiten hauptsächlich durch die Rekombination von gelernten Fakten, die sie durch maschinelles Lernen aufgenommen haben. Diese Daten werden vom System auf Muster, Wahrscheinlichkeiten oder Häufigkeiten untersucht. Muster entstehen durch die Häufung von Kombinationen verschiedener Eigenschaften. Einige Daten treten in bestimmten Reihenfolgen häufiger auf als andere Kombinationen. Doch wie wird aus einer solchen Datenanalyse ein Verhalten, das als kreativ oder intelligent wahrgenommen wird?

Eine KI aus dem 18. Jahrhundert: „Ein musikalisches Würfelspiel“
Eine einfache Möglichkeit, die kreative Funktionsweise einer KI zu verstehen, ist das Wolfgang Amadeus Mozart zugeschriebene „Musikalische Würfelspiel“. Dabei werden kompositorische Muster in Form von Takten vorbereitet, die sich für bestimmte harmonische Verläufe eignen, also für den Anfang, die Mitte oder das Ende des Stücks. Von jedem Takt gibt es eine bestimmte Anzahl an Varianten. Mithilfe eines Würfels werden verschiedene Versionen der Takte ausgewählt und zusammengesetzt. Die so entstehenden Kompositionen unterscheiden sich alle voneinander und klingen in sich stimmig, obwohl sie rein zufällig entstanden sind. Der Zufall übernimmt hier die Rolle der Kreativität, indem er immer wieder neue Kombinationen hervorbringt. Die vorbereiteten Takte und ihre Positionierung im 16-taktigen Walzer beinhalten das Regelmäßige, das vorhandene Muster. Das Regelmäßige und die zufälligen Kombinationen sorgen dafür, dass mit diesem Verfahren aus 176 von Mozart vorbereiteten Takten ca. 45 Millionen unterschiedliche Versionen möglich sind. [3] 

Titelblatt Anleitung so viel Walzer man will mit Würfeln zu componieren ohne musikalisch zu seyn oder Composition zu wissen, Berlin [ca. 1790]
Titelblatt Anleitung so viel Walzer man will mit Würfeln zu componieren ohne musikalisch zu seyn oder Composition zu wissen, Berlin [ca. 1790]  
Ausschnitt aus Mozarts Musikalisches Würfelspiel, aus: Anleitung so viel Walzer man will mit Würfeln zu componieren ohne musikalische zu seyn oder Composition zu wissen, Berlin [ca. 1790]
Ausschnitt aus Mozarts Musikalisches Würfelspiel, aus: Anleitung so viel Walzer man will mit Würfeln zu componieren ohne musikalische zu seyn oder Composition zu wissen, Berlin [ca. 1790]  
Zahlentafel für den Walzer, aus: Anleitung so viel Walzer man will mit Würfeln zu componieren ohne musikalische zu seyn oder Composition zu wissen, Berlin [ca. 1790]
Zahlentafel für den Walzer, aus: Anleitung so viel Walzer man will mit Würfeln zu componieren ohne musikalische zu seyn oder Composition zu wissen, Berlin [ca. 1790]  

Eine einfache KI: Markow-Ketten
Die Funktionsweise neuronaler Netze lässt sich anhand eines komplexeren Beispiels genauer erklären und verstehen. Markow-Ketten wurden Anfang des 20. Jahrhunderts vom russischen Mathematiker Andrei A. Markow entwickelt, um Varianten mit unterschiedlichem Ähnlichkeitsgrad zum Original zu erzeugen. Dieses Verfahren lässt sich sowohl auf visuelle als auch auf musikalische Muster anwenden und kann bereits als einfache Form der KI bezeichnet werden, wie nachfolgendes Beispiel verdeutlicht.

Das Lied „Happy Birthday“ enthält folgende Töne:

Tabelle 1
Töne von Happy Birthday

Analysiert man nun diese Töne nach ihrer Häufigkeit, gemessen am prozentualen Anteil, erhält man eine grobe Musterbeschreibung der Melodie. Als Markow-Kette erster Ordnung stellt sie sich folgendermaßen dar:

Tabelle 2
Markow-Kette erster Ordnung von Happy Birthday

Im nächsten Schritt wird diese Analyse verwendet, um eine neue Melodie zu erzeugen. Dabei wird gewichteter Zufall verwendet, bei dem, obwohl zufällig ausgewählt, c4 in der Summe 32 Prozent und d4 in der Summe zwölf Prozent der resultierenden Töne ausmachen. Das Ergebnis ist eine Tonfolge, die dem Original ähnlich ist, aber recht beliebig wirkt. Im nächsten Schritt wird die Analyse verfeinert. Nun wird die Häufigkeit zweier aufeinanderfolgender Töne untersucht. Im Beispiel unten würde das bedeuten, dass auf ein c4 mit einer Wahrscheinlichkeit von 37,5 Prozent wieder ein c4 folgt oder mit einer Wahrscheinlichkeit von 25 Prozent ein d4. Wendet man diese Analyse an, um eine neue Tonfolge zu erzeugen, so ist das Ergebnis durchaus als „Happy Birthday“ zu erkennen, auch wenn es sich noch immer stark davon unterscheidet. Je mehr 100-prozentige Werte die Analyse ergibt, desto ähnlicher wird das Ergebnis der ursprünglichen Melodie sein. In der folgenden Analyse sind bereits drei 100-, eine 66,7- und vier 50-prozentige Wahrscheinlichkeiten von Tonfolgen zu erkennen.

Die Markow-Kette zweiter Ordnung sieht dann so aus:

Tabelle 3
Markow-Kette zweiter Ordnung von Happy Birthday

Es können nun verschiedene Analysen durchgeführt werden, die jeweils die Aufeinanderfolge von zwei, drei oder mehr Tönen untersuchen. Nachfolgend ist eine Analyse mit der Wahrscheinlichkeit von vier aufeinanderfolgenden Tönen dargestellt. Anhand der hohen Prozentzahlen lässt sich bereits auf den ersten Blick erkennen, dass die durch diese Analyse erzeugte Melodie eine Kopie des Originals darstellt und nur aus 100-prozentigen Tonfolgen besteht.

Markow-Kette vierter Ordnung:

Tabelle 4
Markow-Kette vierter Ordnung von Happy Birthday

Zusammenfassend lässt sich sagen, dass bei der Datengenerierung durch KI-Regeln, Eigenschaften und Muster in den Daten analysiert und mithilfe eines unterschiedlich starken Zufallsanteils neu zusammengesetzt werden. Ein neuronales Netz untersucht jedoch eine viel komplexere Matrix von Eigenschaften, um die gewünschten Daten zu erzeugen. In dem oben beschriebenen Verfahren wurde nur ein Parameter, die Tonhöhe, analysiert und mit einer prozentualen Wahrscheinlichkeit gewichtet. Das neuronale Netz würde parallel dazu Lautstärken, Akkorde, Harmonien, Begleitfiguren, Klangfarben, Artikulationen etc. auf ihre Muster hin untersuchen. Dies lässt erahnen, welch enorme Datenmengen an Analyseergebnissen bei neuronalen Netzen entstehen und wie komplex das Geflecht unterschiedlichster Muster in einer solchen Analyse ist. Ziel ist es dabei nicht, eine Kopie der Originalinformation zu erhalten, sondern vielmehr die wichtigsten Eigenschaften einer Musik zu identifizieren und für die Erzeugung neuer Informationen zu nutzen. Zudem werden die spezifischen Eigenschaften verschiedener Melodien, Informationen oder Werke miteinander vermischt, sodass das Ergebnis meist neuartig erscheint, obwohl es nicht mehr ist als eine zufällig dosierte Mischung existierender musikalischer Muster. 

Zur Geschichte der KI in der Musik

Die Erforschung Künstlicher Intelligenz (KI) begann im Zusammenhang mit Computern und Programmiersprachen bereits in den 1960er-Jahren. Das hierfür grundlegende mathematische Neuron wurde Fachkreisen bereits 1943 vorgestellt. KI-Werkzeuge mit neuronalen Netzen sind der breiten Öffentlichkeit jedoch erst seit den 2010er-Jahren bekannt. Eines der ersten Werkzeuge dieser Art, die in der Musik Verwendung fanden, war das von Google entwickelte Magenta-Projekt, das 2016 veröffentlicht wurde und dessen Software seit 2019 allgemein zugänglich ist.

Nach der Veröffentlichung des Magenta-Projekts schien es lange Zeit still zu sein um das Thema KI in der Musik. Grund war die intensive Forschungs- und Entwicklungsarbeit, die in den darauffolgenden Schritt investiert wurde. Viele weitere Komponenten mussten erforscht werden, damit eine KI Klänge verarbeiten oder erzeugen kann. Gegenwärtig (Stand: 2024) ist eine KI in der Lage, mit Menschen über Sprache zu kommunizieren oder sogar eine menschliche Stimme einen Text überzeugend singen zu lassen. 
Es ist naheliegend, dass Musik zu einem der ersten Felder der Kreativitätsforschung bzw. der KI wurde, denn viele Komponist:innen experimentieren in ihrem Werk mit Regelsystemen und Algorithmen, um Musik zu entwickeln. Seit es Computer gibt, hat sich die Art und Weise und die Komplexität der verwendeten Regelsysteme gesteigert. So überrascht es nicht, dass Markow-Ketten als einfache KI bereits in den 1960er-Jahren von Iannis Xenakis bei der Komposition von Instrumentalwerken eingesetzt wurden, oder dass funktionierende KI-Systeme schon in den 1980er-Jahren in der Art von Vivaldi, Bach oder Mozart komponieren konnten. Der amerikanische Komponist David Cope war mithilfe seines Systems EMI (Experiments in Musical Intelligence) bereits 1983 in der Lage, Choräle im Bach-Stil ohne neuronale Netze zu komponieren. Spätere Versionen von EMI waren in der Lage, Musik selbstständig zu analysieren, um daraus neue Werke zu komponieren. Sie nahmen das maschinelle Lernen neuronaler Netze vorweg. Dazu wurden u. a. verschiedene zufallsbasierte stochastische Verfahren wie Markow-Ketten verwendet, in denen Regeln und Zufall gemischt wurden.

KI mit neuronalen Netzen

Infrastruktur, Big Data, Digitalisierung der Gesellschaft: Voraussetzungen für den Boom
Es gibt unterschiedliche Komponenten, die für die massive Präsenz von KI in den letzten 15 Jahren verantwortlich sind. Zum einen hat die Digitalisierung an Geschwindigkeit und Präsenz zugenommen. Digitale Geräte und vor allem die Speichertechnologie für Daten sind billiger und schneller geworden. Ein sehr wichtiger Aspekt ist darüber hinaus die Entwicklung von Netzwerktechnologien, die große Datenmengen über Glasfaser, WLAN und Mobilfunk übertragen können. Durch die massenhafte Nutzung neuer Geräte wie Smartphones, Kameras und Laptops sowie von Diensten wie Google, YouTube etc. entstanden große Datenmengen, die in einer wachsenden Anzahl von Rechenzentren gespeichert wurden. Die größten digitalen Firmen der Welt wie Microsoft und Amazon haben den Verkauf von Dienstleistungen im Zusammenhang mit Datenspeicherung zu einem ihrer wichtigsten Geschäftsfelder ausgebaut. 

Das Datenwachstum erforderte jedoch immer bessere Datenverarbeitungsstrategien, um das Potenzial der Daten zu nutzen. Eine äußerst leistungsfähige Möglichkeit, die Inhalte großer Datenmengen nutzbar zu machen, genannt Data Mining, bieten hier neuronale Netze. Entscheidend für ihre Verbreitung sind die Einsatzmöglichkeiten. Solange sie nur in Rechenzentren benutzt wurden, konnten lediglich Menschen mit Informatikkenntnissen mit KI-Systemen interagieren. ChatGPT hat 2022 den Durchbruch für sprachbasierte Methoden gebracht, die mithilfe von Large Language Models (LLM) Aufgaben über schriftliche oder mündliche Aufforderungen (Prompts) formulieren können. Diese sprachbasierte Schnittstelle zwischen Mensch und Maschine hat die Zugangsvoraussetzungen für die Interaktion mit KI deutlich gesenkt und zu ihrer Verbreitung beigetragen.

Wie Menschen mit Maschinen sprechen
Nach ChatGPT kamen 2023 sehr leistungsfähige KI-Systeme auf den Markt, die nun in der Lage sind, nach Anweisungen in einem Prompt zu komponieren und zu arrangieren. Eine der wichtigsten Komponenten für den Erfolg dieser technologiebasierten Systeme ist die Art und Weise, wie der Mensch mit der Maschine kommunizieren kann. Diese als Human Computer Interaction (HCI) bezeichnete Eigenschaft konnte durch KI-Systeme auf spektakuläre Weise revolutioniert werden. Die Interaktion mit der Maschine über eine freie, kreative Sprache ist eine der bisher größten Errungenschaften der letzten KI-Welle. Damit kann letztlich jeder Mensch, der die entsprechende Sprache spricht, eine Maschine bedienen. Eine spezielle Form dieser Eingabe (Prompting) kann auch schriftlich erfolgen. Ein solcher Prompt formuliert einen Arbeitsauftrag an die Maschine. Wenn die Maschine komplizierte Aufgaben ausführen soll, ist unter Umständen ein Training für die Benutzer:innen erforderlich. Dazu ist das Berufsfeld der Prompt-Ingenieur:innen entstanden, die Strategien entwickeln, um eine KI präziser zu steuern.

Die Funktionen neuronaler Netze
Wurden bisher algorithmische Verfahren eingesetzt, um die Inhalte von Datenbanken auf bestimmte Muster hin zu untersuchen und zu analysieren, so bieten neuronale Netze die Möglichkeit, unbekannte Mengen an Parametern auf die komplexesten Muster hin zu analysieren. Neuronale Netze analysieren äußerst flexibel und können viele Eigenschaften der Daten selbstständig miteinander verknüpfen. Ohne vorher zu wissen, nach welchen Mustern das neuronale Netz suchen soll, findet es charakteristische Muster in den zur Verfügung gestellten Daten. Erst diese Analyse macht die Daten für ihre Besitzer:innen bzw. für die Anwendung einer KI wertvoll.

In der Überwachungstechnik, einem Bereich, in dem KI schon sehr früh eingesetzt wurde, ist es wichtig, Auffälligkeiten etwa in Bewegungsmustern zu erkennen. Bisher waren dafür speziell geschulte Menschen notwendig, die verschiedene Kameras auf diese Auffälligkeiten hin beobachteten. Ein neuronales Netz wurde zunächst auf die Erkennung von Objekten und dann auf deren Auffälligkeiten in der Bewegung trainiert. Später wurden diese mit eigenen neuronalen Netzen zur Gesichtserkennung verknüpft und schon konnte man Personen identifizieren und ihre Bewegungen in einem bestimmten Bereich analysieren. Um eine solch komplexe Aufgabe zu bewältigen, bedarf es unterschiedlicher Fähigkeiten und meist mehrerer miteinander vernetzter KI-Systeme. 

Diese Aufgabenteilung entspricht der Funktionsweise unseres Gehirns. Es gibt bestimmte Areale für die Verarbeitung und Optimierung der Signale von akustischen, optischen oder Geruchssensoren. Die Objekterkennung, -trennung, -identifikation und der Vergleich mit bereits gespeicherten Daten aus dem Gedächtnis, mit dem ein erkanntes Objekt eingeordnet und gespeichert wird, erfolgt in anderen Arealen des Gehirns. Wir hören ein Geräusch, die Schwingungen kommen als zerlegte Frequenzen im Hirnstamm an und werden dort auf Akustik, Richtung und andere Eigenschaften hin untersucht. Anschließend werden die erkannten Muster getrennt, da sich verschiedene Objekte im Raum befinden können, und mit den bekannten Mustern verglichen.

Ähnlich wie im Gehirn gibt es auch bei ChatGPT eine solche Arbeitsteilung. Vereinfacht gesagt, laufen folgende Prozesse ab: Erhält die KI einen Befehl in gesprochener Sprache, wird eine Spracherkennungs-KI verwendet, die die Sprache in Buchstaben übersetzt. Der Befehl wird analysiert und an die eigentliche KI mit den archivierten Inhalten geschickt, diese beantwortet die Aufgabe, und schließlich wird die Antwort wieder in Sprache und an eine Sprachsynthese-KI weitergeleitet, um die Antwort als Stimme erklingen zu lassen.

Viele Vorgänge in neuronalen Netzen sind so komplex, dass sie bis heute nur prinzipiell verstanden worden sind. Erst der Eingabe-Prompt sowie die Qualität der Antwort gibt Aufschluss darüber, ob die KI das gewünschte Ergebnis liefert und die „Black Box“ des neuronalen Netzes richtig funktioniert. Nicht zuletzt deswegen lassen sich Fehlentwicklungen innerhalb eines KI-Systems schwer rückgängig machen. Sind die Daten verzerrt oder falsch, kann man diese bislang nicht im wünschenswerten Umfang korrigieren.

Anwendungsfelder

Voice Cloning
Theoretisch sind den Anwendungsmöglichkeiten von KI-Systemen kaum Grenzen gesetzt. In der Praxis ist jedoch viel Entwicklungs- und Optimierungsarbeit erforderlich, bis ein System gut funktioniert. Nicht immer ist klar, ob ein solches effizienter oder zuverlässiger arbeitet als ein System, das auf herkömmlicher Technologie basiert. Spannend wird es aber, wenn eine KI Aufgaben übernehmen kann, die zuvor gar nicht oder weniger effizient realisierbar waren.

Ein Beispiel dafür ist das Voice Cloning, bei dem Stimmen oder Instrumente aus einer Aufnahme entfernt werden können, wie bei dem 2024 erschienenen Beatles-Song „Now and Then“. Hier wurde die Stimme des 1980 verstorbenen John Lennon mithilfe von KI aus einer alten Aufnahme extrahiert und mit anderen vorproduzierten Elementen zu einem Song gemischt. Aus einer komplexen Tonaufnahme können beliebige Instrumente oder alle klar erkennbaren Geräusche entfernt werden (Denoising). 

Video

Auf dem Gebiet der Spracherzeugung wurde viel Forschungsarbeit geleistet. Inzwischen ist eine Sprach-KI in der Lage, mit relativ wenigen Lerndaten die Stimme einer Person jeden beliebigen Satz sprechen, aber auch singen zu lassen. Der Einsatz dieser Simulation ist aufgrund des Persönlichkeitsrechts jedoch problematisch, wenn es sich um reale Personen handelt. [4] Es gibt einzelne Schauspieler:innen oder Sänger:innen wie Holly Herndon, die ihre Stimmen der Öffentlichkeit zur Verfügung gestellt haben, um damit zu experimentieren. Auf der anderen Seite haben Hollywood-Schauspieler:innen gestreikt, um die ungefragte Verwendung ihrer künstlichen Figuren oder Stimmen zu reglementieren. Dieser Bereich betrifft neben der Sprach- und Gesangsreproduktion auch Bild- und Bewegungsdaten von Menschen, aber auch deren Speicherung durch maschinelles Lernen und die Reorganisation dieser Daten durch eine KI.

Klangoptimierung von Werken
Überall dort, wo es bestimmte Muster zu reproduzieren oder neu zu kombinieren gilt, spielen KI-Systeme ihre Stärken aus. So lassen sich z. B. auch für das Mastern von bereits existierenden Werken klar definierte Klangmuster verallgemeinern und auf andere ebenfalls existierende Werke anwenden. Das Werk wird durch die KI verarbeitet und bekommt dann eventuell mit einem zusätzlichen Feintuning eine bessere Klangqualität. Die Hörmuster von Popmusik, optimiert für Kopfhörer und Handyrezeption, sind vergleichsweise einfach. Komplizierter wird es bei experimenteller elektronischer Musik, die mit unvorhersehbaren, immer neuen Klängen operiert. Hier stößt eine KI an ihre Grenzen, da die Patterns nicht mit Granularsynthese oder Noise Sound funktionieren können. Fraglich bei dem Einsatz von Master-Software ist die persönliche Note, die Musiker:innen dem eigenen Werk für gewöhnlich aufdrücken. Die Standards dürfen nicht zu eng formuliert werden, da sie ansonsten von den Hörer:innen als zu stereotyp oder unattraktiv bewertet werden.

KI-Sampler
KI-basierte Sampler könnten in Zukunft durchaus einige Vorteile bei der Simulation realer Instrumente bieten. Klanglich sind Sampler zwar heute sehr ausgereift, sie haben jedoch eine Schwäche: Meist werden einzelne Töne eines Instruments aufgenommen, weshalb bei einer Melodie mit mehreren aufeinanderfolgenden Tönen die Interpolation zwischen den Tönen fehlt. Diese meist subtilen, leisen Interpolationen zwischen den stabilen Schwingungszuständen der Instrumente treten bei Streich-, Zupf- und Blasinstrumenten auf. Doch auch beim Klavier gibt es einen deutlich wahrnehmbaren Effekt bei der Tonwiederholung. Wird eine bereits schwingende Saite des Klaviers erneut angeschlagen, so sind auch hier leichte Veränderungen in der Klangfarbe des Einschwingvorgangs wahrnehmbar. Diese Interpolationen werden von einem Sampler nicht wiedergegeben. Nur physikalische Modelle können solche Mikrointerpolationen erzeugen. Diese müssen jedoch aufwendig individuell für jedes Instrument optimiert werden. Ein KI-System könnte diese Eigenschaften ebenfalls erzeugen und vermutlich sogar individuelle, vom Benutzer eingespielte Instrumente nutzbar machen. Zusätzlich können Spielweisen von Instrumenten, z. B. ein Human Filter, in den Generierungsprozess integriert werden, um die physischen Möglichkeiten der Spielbarkeit abzubilden. Es können aber auch virtuelle Instrumente entwickelt werden, Mischungen verschiedener Instrumente oder etwa Spielweisen einer Harfe auf Streichinstrumente projiziert werden und vieles mehr.

Klonen
Die Möglichkeiten, charakteristische Eigenschaften zu nutzen, beziehen sich nicht nur auf Instrumente, sondern auch auf Interpret:innen. [5] Das Klonen wird bereits bei vollständig künstlich erzeugten Avatar-Künstler:innen eingesetzt, da hier reale Bewegungsdaten verwendet werden, um die Avatare natürliche Bewegungsvorgänge simulieren zu lassen. Der Grad der Virtualisierung von Künstler:innen ist vor allem in Asien weit fortgeschritten. Dort gibt es bereits Figuren, die realitätsecht als Avatare funktionieren. Man kann hier von dem vollständigen Klonen eines Menschen sprechen, dessen Person visuell, dessen Gesang akustisch und dessen Musikwerke vollständig über KI und Virtualisierungstechniken geklont werden. [6]

Pianist beim KI-Projekt Dear Glenn auf der Ars Electronica 2019
Francesco Tristano beim KI-Projekt Dear Glenn auf der Ars Electronica 2019  
Foto:  vog.photo
Der Wissenschaftler Akira Maezawa beim KI-Projekt Dear Glenn auf der Ars Electronica 2019
Der Wissenschaftler Akira Maezawa beim KI-Projekt Dear Glenn auf der Ars Electronica 2019  
Foto:  vog.photo
Der Flötist Norbert Trawöger und die Geigerin Maria Elisabeth Köstler beim KI-Projekt Dear Glenn auf der Ars Electronica 2019
Der Flötist Norbert Trawöger und die Geigerin Maria Elisabeth Köstler beim KI-Projekt Dear Glenn auf der Ars Electronica 2019  
Foto:  vog.photo

Hörvorlieben vorhersagen
Empfehlungen von KI-Systemen zur Vorhersage der gewünschten Musik sind bereits alltäglich. Die Empfehlungslisten von Streamingdiensten sind schon länger bekannt. Empfehlungen können aber nur ausgesprochen werden, wenn das System die Eigenschaften eines Werks kennt und beurteilen kann, welche Eigenschaften die Hörer:innen wünschen. Dazu müssen die Werke automatisiert mit Stichworten wie „ruhig“, „schnell“, „klassisch“ usw. beschrieben werden – genannt Automatic Information Retrival –, um eine Übereinstimmung zwischen den musikalischen Eigenschaften und dem prognostizierten Musikgeschmack der Benutzer:innen vorherzusagen. Bei Millionen von Werken in einer Datenbank liegt es auf der Hand, dass sich diese Arbeit am besten von einem komplexen KI-System bewältigen lässt.

Kompositionsplattformen
Nach einer langen Zeit der algorithmischen Komposition mit mathematischen Strategien und Stochastik als Kompositionswerkzeugen haben sich die Fähigkeiten dieser Tools radikal verändert. Seit Ende 2023 ist eine neue Art kreativer KI online, die nicht nur kompositorische Entscheidungen trifft, sondern Arrangement und Klang vollständig erzeugen kann. Zu diesen komplexen Systemen gehören Plattformen wie Udio oder Suno, aber auch Stable Audio und andere, die mithilfe von Prompts Kompositionen von einigen Minuten Dauer produzieren können. Sie sind auch in der Lage, vom Nutzer selbst erzeugte und hochgeladene Soundfiles zu ergänzen und die Stücke um die klanglichen Eigenschaften des hochgeladenen Samples zu erweitern. Auch wenn die Vorgaben der Nutzer:innen vage und ungenau sind, ergänzt die KI der Plattform alles, was fehlt, mit Informationen der höchsten Wahrscheinlichkeit und produziert so komplette Musikwerke von durchaus überzeugender Klangqualität und großer stilistischer Vielfalt. 

Kompositions-KI kann Ideen und Beispiele liefern, auch wenn sie aus verschiedenen Gründen für die meisten professionellen Zwecke noch nicht einsetzbar ist. So ist z. B. die Kontrolle des Timings für Filmkomponist:innen gegenwärtig noch unzureichend, die klanglichen Details für Sound-Logos viel zu wenig kontrollierbar, und für große Formen ist sie gänzlich ungeeignet. Plattformen wie Udio und Suno geben Ergebnisse aus, die Komponierenden kaum etwas nutzen, weil die Bestandteile nicht weiterverarbeitet werden können. Komponierende und Arrangierende bevorzugen KIs, die Midi-Dateien erzeugen, als Tool für die eigene Arbeit. Es ist allerdings davon auszugehen, dass sich alle Tools erheblich weiterentwickeln und sich, soweit sie einen Markt finden, auf die Bedürfnisse der Anwender:innen einstellen werden. Inzwischen gibt es vor allem im populären Bereich schon viele Musikschaffende, die KI-Gesangslinien prototypisch oder gar direkt in ihre Kompositionen einbauen. Selbst in den Charts lassen sich bereits international oder national fast vollständig mit KI-Werkzeugen entwickelte Hits identifizieren.

KI im Unterricht
Die Analyse von Tönen kann im Unterricht oder in der Musikwissenschaft eingesetzt werden, z. B. um niedergeschriebene Stücke auf Fehler oder auf bestimmte Eigenschaften hin zu untersuchen und so den Studierenden ein schnelles Feedback zu geben. KI kann aber auch, egal auf welchem Niveau, die Kreativität von Schüler:innen stimulieren. Hier wird es auf die Fähigkeit des Schulsystems und der Lehrkräfte ankommen und die Frage, welche Wege sie finden, die Möglichkeiten von KI-stimulierter Kreativität in den Unterricht einzubauen, damit Schüler:innen musikalisch gestalterisch tätig werden, differenziert hören lernen und die Hemmschwelle vor dem Kreativen aktiv überwinden.

Musikalische Kreativität für alle
KI-basierte Musikplattformen senken den Anspruch an die Nutzer:innen. Jeder Mensch kann musikalische Eigenschaften verbal formulieren, um damit Musik zu produzieren. Die Musik, die auf diese Weise entsteht, kann zwar bestehende Stile reproduzieren und Merkmale beliebig mischen. Die dahinterstehende KI ist jedoch weniger geeignet, substanziell neue Musik oder neue Trends zu schaffen. Diese Plattformen werden daher die Komponist:innen nicht ersetzen, aber sie können sich zu potenten Werkzeugen entwickeln, um Produktionsprozesse zu beschleunigen. Kreative Kunst schafft nach wie vor jene Inhalte, die KI-Systeme neu arrangieren. Es bleibt die Frage, wie das Publikum auf die Musik reagieren wird, die mit den neuen Werkzeugen entstehen wird. Durch Prompting und das Hochladen von handgemachten Sounds kann der Mensch die reproduktive Kreativität der KI steuern und möglicherweise in innovative Richtungen lenken. Für eher konservative Musikszenen wird die dosierte Innovationskraft der KI-Systeme eine willkommene Arbeitshilfe sein, bei wirklich experimentellen Ansprüchen wird sie hingegen an ihre Grenzen stoßen und sich hinterfragen lassen, was Kreativität überhaupt ist.

„Eine KI wird sich niemals der Emotionalität, der Ästhetik von Musik bewusst, da sie im Gegensatz zum Menschen keine Intention und kein Gefühl für die Wahrnehmung von Musik besitzt.“
Autor
Ludger Brümmer

Menschliche versus maschinelle Kreativität

Kompositionsstudierende analysieren in ihrer Ausbildung Werke, um deren Regeln und Eigenschaften herauszufiltern. Diese Regeln werden dann verwendet, um eigene Kompositionen zu erstellen. Im Prinzip ist dieser Vorgang vergleichbar mit dem Prozess, den ein auf neuronalen Netzen basierendes KI-System durchläuft. Beim maschinellen Lernen analysiert die KI eine große Menge von Werken, um über ein sehr großes Vokabular an Mustern zu verfügen. Aus diesem werden nach einem Prompt einige geeignete Beispiele ausgewählt, rekombiniert und zu einer neuen Komposition zusammengesetzt.

Der interessante Punkt liegt hier in der künstlerischen Fragestellung bzw. der künstlerischen Intention, die die Ausgangssituation für einen kreativen Prozess wie diesen darstellt. Wie kann aus den gelernten Kompositionen etwas Neues entstehen, das mehr ist als eine intelligente Rekombination alter Muster? Der Mensch gewichtet die Bedeutung von Informationen zusätzlich nach den Bedürfnissen der eigenen Persönlichkeit in Form von Stimmung, Emotionalität oder dem Wunsch nach Neuartigkeit. Er lässt sich durch das Erlebnis der Konstruktion, durch Überraschungen oder kalkulierte Planung, kurz durch die Interaktion mit dem kreativen Prozess auf die Schaffung eines neuen Werks ein.

KI-Systeme unterscheiden sich zusätzlich (noch) vom menschlichen Schaffensprozess hinsichtlich der Anzahl der für das maschinelle Lernen erforderlichen Vorlagen. Gegenwärtig müssen KI-Systeme Hunderttausende oder Millionen von Kompositionen auswerten, um einen qualitativ hochwertigen Output hervorzubringen. Menschen kommen hier mit wenigen Hundert aus. Sie priorisieren Werke oder einzelne Informationen viel stärker in Bezug auf die zu erwartende Bedeutung oder den individuellen Geschmack und können dadurch optimiert arbeiten. Andere Aspekte wie die Rekombination von Informationen und Mustern sind sowohl bei menschlicher als auch bei maschineller Kreativität zu finden. 

Allerdings wird sich eine KI niemals der Emotionalität, der Ästhetik von Musik bewusst, da sie im Gegensatz zum Menschen keine Intention und kein Gefühl für die Wahrnehmung von Musik besitzt. Sie kann lediglich ermessen, wie häufig bestimmte Muster in einer ungeheuren Datenmenge auftauchen und welche Eigenschaften diese haben.

Ethische Fragen des maschinellen Lernens

Maschinelles Lernen verwendet Inhalte, untersucht die darin enthaltenen Informationen und gewichtet ihre Konstellationen und Wahrscheinlichkeiten. Mit anderen Worten: Eine KI erstellt eine statistische Beschreibung eines Werks. Diese wird nun zusammen mit Tausenden anderen Beschreibungen gespeichert und dient als Vorlage bei der Erstellung einer neuen Komposition, mischt sie aber mit so vielen ähnlichen Eigenschaften verschiedener Werke, dass aus dieser differenzierten Mischung scheinbar etwas Neues, Unbekanntes entsteht. Dies kann explizit angefordert werden, indem als Eingabeaufforderung „Erstelle eine Komposition im Stil von XY“ formuliert wird. 

Die problematischen Aspekte dieser neuartigen Nutzung urheberrechtlicher Informationen benötigen ein neues Denken. Ein urheberrechtlich geschütztes Werk wurde gespeichert und analysiert. Diese Information wird von Nutzern abgerufen und kann entweder zur Kopie eines Werks oder aber zu einer komplexen Mischung führen, die Details aus vielen Kompositionen enthält. Die Verwendung von Kompositionsmustern, seien es klangliche, rhythmische oder melodische Muster, ist nach deutschem Recht jedoch genehmigungs- bzw. entgeltpflichtig. [7]

Dem gegenüber steht das kulturelle Gemeingut. Genres und viele weitere Informationen oder Muster sind nicht urheberrechtlich geschützt, ebenso wie Werke von 70 Jahre zuvor verstorbenen Komponist:innen. 

Was aber unterscheidet diese von den Schöpfungen Komponierender, die sich in ihrem eigenen Schaffen an Werken von Stockhausen oder Boulez orientieren, Jazz-Standards nachspielen und daraus neue Kompositionen entwickeln? Immerhin bildet der Umgang mit dem Zufälligen und Regelmäßigen einen generellen Aspekt von Kreativität.

Den grundlegenden Unterschied zwischen Mensch und Maschine zu finden, wird immer schwieriger, da Begriffe wie „Bewusstsein“ oder „Intelligenz“ auch in der Wissenschaft nicht genau definiert sind. Wir selbst wissen nicht, was unser Bewusstsein ist, und können deshalb nur schwer sagen, ab wann die Maschine über ein solches verfügt. 

Und doch gibt es wesentliche Unterschiede: Komponist:innen würden bestimmte Entscheidungen mit einer Intention treffen, Emotionen damit verbinden und wären in der Lage, Neues zu schaffen, mit dem sie ihr bisheriges Schaffen ins Gegenteil kehren könnten. Die Brüche vom Barock zur Klassik, von dort zur Romantik und schließlich von der Tonalität zur Atonalität wären mit den heutigen KI-Systemen nicht möglich, da sie nur auf den gespeicherten Identitäten und Informationen basieren. Brüche wie der von der Tonalität zur Atonalität stellen echte Paradigmenwechsel dar als Äußerung einer Kreativität, die nicht auf funktionaler Statistik und der Vermischung von Eigenschaften beruht, sondern auf Individualität und Dialektik. Vergleichbares können wir derzeit noch nicht von einer KI erwarten.

MIZ WISSEN

Weiterführende Quellen

Dokumente

Titel
Deutscher Kulturrat mahnt Klärung urheberrechtlicher Fragen bei Nutzung von KI an (01/2025)

Text
In einer Stellungnahme positioniert sich der Deutsche Kulturrat zu urheberrechtlichen Fragen im Zusammenhang mit KI und fordert die Verantwortlichen im Interesse betroffener Kulturschaffender zum raschen Handeln auf.

Titel
Handlungsansätze für eine ethische Entwicklung und Nutzung von KI in Kultur und Kreativwirtschaft (11/2024)

Text
Im Austausch mit internationalen Fachleuten hat die Deutsche UNESCO-Kommission Handlungsansätze entwickelt, die sicherstellen sollen, dass die Nutzung und Entwicklung von KI in Kunst, Kultur und Kreativwirtschaft auf der Grundlage von ethischen Prinzipien erfolgt und dabei existierendes Völkerrecht geachtet wird.

Titel
KI-Charta der GEMA (11/2024)

Text
In ihrer KI-Charta definiert die GEMA zehn ethische und rechtliche Grundsätze für ein faires und nachhaltiges Zusammenspiel von menschlicher Kreativität und generativer künstlicher Intelligenz.

Titel
Künstliche Intelligenz und Musik – Hilfe oder Konkurrenz? (10/2024)

Text
Anlässlich der bevorstehenden inhaltlichen Ausgestaltung der KI-Verordnung der EU stellt der Deutsche Musikrat 2023 einen Forderungskatalog an Bund und Länder auf, der u. a. die Bereiche Urheberrecht, Persönlichkeitsrecht sowie digitale Bildung umfasst. Im Oktober 2024 erscheint ein Update des Living Paper.

Titel
Künstliche Intelligenz: Rahmenbedingungen für Kunst und Kultur nachhaltig entwickeln (10/2024)

Text
In einem Positionspapier nimmt der Deutsche Kulturrat Stellung zum Einsatz von Künstlicher Intelligenz im Kunst-, Kultur- und Mediensektor und greift Fragen zum Umgang mit KI und zu ihrer Regulierung auf.

Titel
Gemeinsames Positionspapier von DTV und VERSO (06/2024)

Text
Neben transparenteren Abrechnungsmodellen für Streaming-Plattformen fordern der Deutsche Textdichter Verband und die Vereinigung Songwriter klare Regeln bei der Nutzung urheberrechtlich geschützter Musikdaten zum Training von KI-Tools.

Titel
AI and Music (01/2024)

Text
In der weltweit ersten Studie zum Thema untersuchen die GEMA und ihre französische Schwestergesellschaft SACEM gemeinsam die Auswirkungen generativer KI auf die Musik- und Kreativbranche.

 

Titel
AI ACT: Offener Brief der Kultur-, Kreativ- und Medienwirtschaft der Bundesrepublik Deutschland an die Bundesregierung (01/2024)

Text
Ein breites Bündnis an Verbänden appelliert an die Bundesregierung, dem Entwurf der KI-Grundverordnung der EU zuzustimmen.

Titel
Für Künstliche Intelligenz gilt das Gebot maximaler Transparenz (09/2023)

Text
Im Kontext der Arbeit an einem Gesetzesvorhaben der Europäischen Union zur Regulierung der Künstlichen Intelligenz (AI Act) legt der Kulturrat NRW eine Stellungnahme vor, in der er auf die zu berücksichtigenden Rahmenbedingungen für Künstler*innen hinweist.

Titel
Formulierungsvorschläge für den AI Act (Version vom 19. September 2023) (09/2023)

Text
In einem Positionspapier plädiert die Initiative Urheberrecht für eine Klarstellung von Regelungen im AI Act des Europäischen Parlaments.

Titel
Künstliche Intelligenz und Urheberrecht – Stellungnahme des Deutschen Kulturrats (06/2023)

Text
Der Deutsche Kulturrat bittet die Bundesregierung zu prüfen, ob bestehende Schrankenregelungen für Text und Data Mining die Nutzung geschützter Werke für das Training von KI-Systemen abdeckt.

Titel
KI aus Sicht der Musikautor:innen und ausübenden Künstler:innen (Composers Club, DEFKOM, DKV, DTV, mediamusic, Pro Musik & unisono im April 2023) (04/2023)

Text
Musikverbände wie Pro Musik und unisono machen in einem Positionspapier Vorschläge für die Regulierung von KI zum Schutz urheberrechtlich geschützter musikalischer Werke.

Titel
Urheber:innen und Künstler:innen fordern Maßnahmen zum Schutz vor generativer KI in der Europäischen KI Verordnung (04/2023)

Text
In einem Offenen Brief fordert die Initiative Urheberrecht, die missbräuchliche Nutzung urheberrechtlich geschützter Werke zur Erstellung KI-generierter Erzeugnisse zu unterbinden.

Titel
Tutorial: Allgemeine Fragen zum Urheberrecht in der Musik

Text
Das miz-Tutorial "Urheberrecht in der Musik" klärt grundsätzliche Fragen zum Thema und berücksichtigt dabei auch Fragen rund um die Künstliche Intelligenz.

Ausblick

Wo die Grenzen der technischen KI liegen werden, ist nicht absehbar. Kompositionssysteme erstellen inzwischen unter fragwürdigen Urheberrechtsbedingungen ganze Kompositionen und virtuelle Menschen. Geht man noch einen Schritt weiter, sind KI-Systeme dem Menschen in vielen Aspekten sogar überlegen. Durch die Möglichkeit, Inhalte bzw. Daten von der Hardware zu trennen, verfügt eine KI theoretisch über ein unendlich langes „Leben“. Geht die Hardware kaputt, kann sie ausgetauscht werden, während die Inhalte des Systems auf die neue Hardware kopiert werden. Darüber hinaus können KI-Systeme an einem Ort lernen und die gelernten Informationen an andere Systeme weitergegeben – und das in einem Tempo, das die Lehr- und Lerngeschwindigkeit von Menschen bei Weitem übertrifft. 
KI-Systeme können durch rekursive Verfahren Daten verarbeiten, deren Qualitätsoptimierung der Verarbeitung im Gehirn deutlich überlegen ist. Sie sind noch nicht über Sensoren an gesellschaftliche Prozesse angebunden, obwohl sie via Internet kontinuierlich über aktuelle Entwicklungen informiert werden. Was wäre, wenn KI-Systeme neue musikalische Entwicklungen lernen und daraus Vorschläge und Prognosen für neue Stile einbringen könnten? Was, wenn eine KI mit den Playlists der Radiostationen und Streaming-Plattformen verbunden und gleichzeitig mit Material der aktuellen Musikstücke gefüttert werden würde: Wüsste eine solche KI genau, was im Trend liegt, und könnte sie selbstständig Prognosen abgeben?

Die Urheberrechtsdebatte um die juristische Regulierung der Nutzung von urheberrechtlich geschützten Werken für den Lernvorgang der KI-Systeme hat gerade erst begonnen. Die EU hat mit ihrem AI-Act bereits neue Regelungen zu dem Thema umgesetzt, und man kann erkennen, dass sich das Denken zur Nutzung von geschützten Werken zu wandeln beginnt. In den USA wurden einige KI-Plattformen bereits 2024 von Major Labels wegen der Nutzung urheberrechtlich geschützter Werke verklagt. Ebenfalls Ende 2024 hat in Deutschland die GEMA als erste Verwertungsgesellschaft weltweit eine Musterklage in diesem Sinne erhoben. Doch wie sähe die Lage aus, wenn die Betreiber:innen dieser Plattformen einfach in politische Systeme abwandern würden, in denen der Urheberrechtsschutz nicht gilt? Als eine der wenigen hat die Plattform Stable Audio in dieser Hinsicht Transparenz gezeigt und die Quelle ihrer Lerndaten offengelegt. Danach wurden lediglich Daten verwendet, bei denen die Nutzer:innen eine Konsenserklärung abgegeben hatten, und vielleicht kann man darin ein Modell für die Zukunft sehen. 

Eine wichtige Stimme in dieser Diskussion sind die Interessenverbände auf Seiten der Musiker:innen und Komponist:innen, darunter die GEMA, der Deutsche Musikrat und der Deutsche Kulturrat, aber auch die Kultur-, Kreativ- und Medienwirtschaft, die die existenzielle Notwendigkeit einer umfassenden Vergütung jeglicher Nutzung von urheberrechtlich geschützten Inhalten fordern und mit Veranstaltungen und Positionspapieren in die politische und gesellschaftliche Diskussion einbringen. Dazu gehören Vorschläge für realisierbare und praktikable Abrechnungssysteme mit Mikropayment, bei dem jede benutzte Komposition mit einem, wenn auch sehr geringen Betrag für einen begrenzten Zeitraum entlohnt wird, wie es bereits bei Youtube und Streaming-Plattformen praktiziert wird. 

Gegenwärtig sind KI-Systeme Werkzeuge, um Musik herzustellen. Sie entwickeln Vorschläge, Hypothesen und stellen ein interessantes Experimentierfeld für Musikschaffende dar. Sie helfen bei der Umsetzung von Ideen und können auch bei besonders standardisierten Tätigkeiten sehr nützlich sein. Es stellt sich allerdings die Frage, ob Musiker:innen in Zukunft noch über bestimmte Kenntnisse in Fächern wie Kontrapunkt oder Instrumentation verfügen müssen, da KI die daraus resultierenden Aufgaben problemlos übernehmen könnte. Bisher ist der Zauber der KI-generierten Musik allerdings ausgeblieben. 

Als beruhigend mag es empfunden werden, dass KI-Systeme bislang noch nicht in der Lage zu wirklicher Innovation sind und keine ästhetischen Hypothesen entwickeln können. Es wäre einer KI beispielsweise bislang unmöglich, den Sprung von der Tonalität zur Atonalität zu vollziehen, wie er zu Beginn des 20. Jahrhunderts stattgefunden hat: eine Hypothese, die qualitativ neu war, aber aus dialektischer Sicht eine logische Reaktion auf die vorangegangene Entwicklung der Tonalität darstellte – sprich: die kausale Folge eines Prozesses mit einem qualitativen Sprung als Ergebnis der Überlegung. Für diese Art von Entscheidung sind KI-Systeme derzeit ungeeignet. Aber vielleicht kann der richtige Prompt die KI eines Tages dazu bringen, doch einen Paradigmenwechsel wie diesen zu vollziehen. 

Über den Autor

Ludger Brümmer ist Professor für Komposition mit digitalen Medien an der Staatlichen Hochschule für Musik Trossingen und leitete fast 20 Jahren erst das Institut für Musik und Akustik und dann das Hertzlab am ZKM | Zentrum für Kunst und Medien Karlsruhe. Als Komponist und Forscher arbeitet er auf dem Gebiet der physikalischen Klangmodellierung, der algorithmischen Komposition, des Raumklangs, der künstlichen Intelligenz und der interdisziplinären Kunst. Ludger Brümmer wurde mit zahlreichen Preisen wie der Goldenen Nica bei der Ars Electronica für Digital Musics & Sound Art, zwei Pierre d'Or beim Bourges Synthese Wettbewerb oder dem Busoni-Preis der Akademie der Künste Berlin ausgezeichnet.

Fußnoten

  1. Vgl. Wikipedia: Intelligenz. Online unter: https://de.wikipedia.org/wiki/Intelligenz (Zugriff: 14. Januar 2025).

  2. Ebd.

  3. Vgl. Musikalisches Würfelspiel – Kirnberger/Mozart. Online unter: https://www.youtube.com/watch?v=fK2MCXpDWB4, Mozart – Musikalisches Würfelspiel – 3 Ergebnisse. Online unter: https://www.youtube.com/watch?v=u0Tin1s_GZk oder Mozart Musikalisches Würfelspiel – 365 gewürfelte Walzer – 365 rolled Waltzes. Online unter: https://www.youtube.com/watch?v=AP4BndvunKE (Zugriff: 14. Januar 2025).

  4. Vgl. dazu bspw. die Auseinandersetzung zwischen OpenAI und Scarlett Johansson: OpenAI verordnet KI-Stimme eine Pause. Online unter: https://www.tagesschau.de/wirtschaft/digitales/openai-scarlett-johansson-stimme-100.html (Zugriff: 07. Januar 2025). 

  5. Siehe z. B. ein Klon-Projekt zu Glenn Gould. Yamaha: Dear Glenn. Glenn Gould as A. I. Online unter: https://www.yamaha.com/en/stories/new-values/dear-glenn/ (Zugriff: 14. Januar 2025).

  6. Der US-Sender Channel 1 klont die Moderator:innen seit 2024.

  7. Näheres dazu bei Deutsches Musikinformationszentrum: Tutorial Urheberrecht in der Musik. Musik verwenden, bearbeiten und aufnehmen (Zugriff: 14. Januar 2025).