Studie der Hochschule für Musik, Theater und Medien Hannover zeigt Grenzen von KI bei Musikkomposition

Eine Studie der Hochschule für Musik, Theater und Medien Hannover zeigt: Bei Melodie-Fortsetzungsaufgaben sind künstliche Intelligenzen menschlichen Lösungen deutlich unterlegen

In der Musikwelt sorgt der Aufstieg von künstlicher Intelligenz für Aufsehen. Insbesondere im Bereich der Komposition gewinnt das Thema „KI“ sprunghaft an Dynamik. Aber können KI-Systeme dem Menschen hier wirklich das Wasser reichen? Wie befriedigend sind die Ergebnisse, wenn die Komposition ganz bestimmte Vorgaben erfüllen soll? Zu einem ernüchternden Ergebnis kommen Musikpsychologen an der Hochschule für Musik, Theater und Medien Hannover (HMTMH) in einer aktuellen Studie. Die Arbeitsgruppe unter der Leitung von Prof. Dr. Reinhard Kopiez beurteilt die aktuelle öffentliche Diskussion um das musikalisch-kreative Potenzial von KIs kritisch und sieht Tendenzen zur Überbewertung.

In ihrem Experiment forderten die Wissenschaftler zwei KI-Systeme dazu auf, eine Melodiefolge unter Beachtung bestimmter Regeln fortzusetzen. Die Resultate wurden ästhetisch deutlich schlechter bewertet als menschliche Lösungen. Der Nachweis der Arbeitsgruppe um den Wissenschaftler Prof. Dr. Reinhard Kopiez fällt eindeutig aus: „Zumindest die aktuell verfügbaren leistungsfähigsten KI-Systeme bleiben bei standardisierten Bedingungen unterhalb des kreativen Niveaus von Musikstudierenden.“

„Componiren, ohne musikalisch zu seyn“

Lange Zeit schien die Erschaffung von Musik allein eine menschliche Domäne zu sein. Frühe Versuche der automatisierten Komposition hatten keinen Kunstanspruch und dienten allein der Unterhaltung. Das bekannteste „Musikalische Würfelspiel“ wird Mozart zugeschrieben: Dessen „Anleitung so viel Walzer oder Schleifer, mit zwei Würfeln, zu componiren, so viel man will, ohne musikalisch zu seyn, noch etwas von der Composition zu verstehen“ erschien 1793, zwei Jahre nach seinem Tod.

Erst in den 1990er Jahren kamen Zweifel am menschlichen Alleinstellungsmerkmal der musikalischen Kreativität auf: Ausgehend von einem KI-basierten Computersystem gelang es dem US-Amerikaner David Cope, überzeugende Stilkopien von Klavierstücken von Mozart, Beethoven, Chopin oder Rachmaninow zu erstellen. Grundlage war ein ausgiebiges Training der KI mit dem klassischem Musikrepertoire.

Heute können Plattformen wie ChatGPT, Google Magenta Studio oder Suno mit der Aufgabe des Songwritings betraut werden. Seit 2022 bieten diese leistungsfähigen KI-Systeme einen quasi voraussetzungslosen Zugang zur Komposition in einem breiten stilistischen Bereich vom Streichquartett bis zum Heavy Metal. Das Wissen um simple Begriffe wie „Strophe“ oder „Refrain“ genügt, um der KI die entsprechenden Anweisungen zu erteilen. Tiefergehende musiktheoretische Kenntnisse sind nicht erforderlich – das vorhergehende umfangreiche Training der KIs mit dem „musikalischen Weltwissen“ des Internets macht es möglich. Aber wie sind die Leistungen der KI-Agenten zu bewerten, wenn die Systeme nicht frei komponieren – oder besser gesagt: rekombinieren – können, sondern eine standardisierte Aufgabe erhalten?

Mängel bei ästhetischen Qualitäten

Für das Experiment an der HMTMH wurden die Anfangstakte einer Melodie aus einem weitgehend unbekannten Musikstück im Stil von Filmmusik gewählt. Die KIs ChatGPT und Google Magenta Studio erstellten insgesamt 111, Musikstudierende weitere 57 Fortsetzungsvarianten. Als konstante Rahmenbedingungen
wurden die maximale Anzahl der Töne, der tiefste und höchste Ton, die Aufforderung zur Verwendung unterschiedlicher Tonlängen und die Forderung nach einem eindeutigen melodischen Höhepunkt vorgegeben.

In einem Blindtest bewerteten 71 Teilnehmende mit überdurchschnittlicher musikalischer Erfahrung die ästhetischen Qualitäten der Melodien auf einer fünfstufigen Skala nach „Gefallen“, „Interessantheit“, „logisch und sinnvoll“ und „überzeugend“. Das Ergebnis erstaunte die Musikpsychologen: Die menschlichen Lösungen wurden auf allen Skalen deutlich besser bewertet als die KI-Versionen, wobei das ältere System Google Magenta Studio noch hinter ChatGPT lag.

Musikalische Logik häufig fehlerhaft

Die Ergebnisse der Hannoveraner Wissenschaftler liefern wichtige Erkenntnisse für die zukünftige Entwicklung von KI-Systemen im Musikbereich. Die Studie unterstreicht die Notwendigkeit weiterer Forschung in diesem Bereich, um das Potenzial und die Grenzen von KI in der Musik besser zu verstehen. „Wir plädieren dafür, die in der Öffentlichkeit oftmals überhöhte Bewertung der kreativen Leistungsfähigkeit von KI-Systemen kritisch zu begleiten und auch auf Schwachstellen der Systeme hinzuweisen“, sagt Prof. Dr. Reinhard Kopiez. So fehle den verwendeten KIs aktuell beispielsweise ein Konzept von Tonalität, wodurch Melodiefortsetzungen häufig in einer anderen Tonart endeten als sie begonnen hatten. Die Ergebnisse der Hannoveraner Studie wurden kürzlich in der Fachzeitschrift „Jahrbuch Musikpsychologie“ veröffentlicht.