Dürfen KI-Bildgeneratoren mit meinen Bildern trainiert werden?

kreativ[ge]recht - Un podcast de Sebastian Deubelli

Catégories:

KI-Bildgeneratoren werden in der Regel mit maschinellen Lernverfahren trainiert, insbesondere mit neuronalen Netzen. Hierbei wird ein großer Datensatz mit Bildern verwendet, um das Modell zu trainieren. Die Erstellung dieses Datensatzes dürfte nach deutscher Rechtslage im Moment der einzige Anknüpfungspunkt für Urheber*innen sein, um gegen die Verwendung Ihrer Werke zu Trainingszwecken vorzugehen. Das Trainingsverfahren beginnt damit, dass das Modell mit einer Vielzahl von Bildern gefüttert wird, zusammen mit den entsprechenden Klassifizierungen oder Labels. Das Modell verwendet dann einen Algorithmus, um die Muster in den Bildern zu identifizieren und eine Beziehung zwischen den Eingabebildern und den Labels herzustellen. Nach dem Training kann das Modell dann neue Bilder erzeugen, indem es aufgrund seiner gelernten Muster Vorhersagen trifft. Die Genauigkeit des Modells hängt von der Qualität und Größe des Trainingsdatensatzes sowie der Architektur des Modells ab. Nach der aktuell wohl vorherrschenden Ansicht ist in der Zusammenstellung des Datasets, an dem die künstliche Intelligenz trainiert wird, eine urheberrechtlich relevante Handlung in Form einer Vervielfältigung nach § 16 UrhG zu sehen. Dies dürfte im Moment also der (vermutlich einzige?) Punkt sein, an dem Urheber*innen einhaken können, deren Bilder ungefragt zu Trainingszwecken genutzt wurden. Handelt es sich um eine solche urheberrechtlich relevante Nutzung, müssten die verarbeitenden Unternehmen eine Lizenz an den jeweiligen Bildern einholen. Mit der letzten Urheberrechtsnovelle haben nun aber auch zwei Schrankenbestimmungen Einzug ins UrhG gefunden, die gerade diese Art der Vervielfältigung (auch “Data Mining” genannt) erlauben sollen. Data Mining ist das automatisierte Verarbeiten und Analysieren von Daten. Die Vorschrift des § 44b UrhG erlaubt mit gewissen Einschränkungen jegliche Form des Data Mining. Also auch kommerzieller Natur: “§ 44b Text und Data Mining (1) Text und Data Mining ist die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen. (2) Zulässig sind Vervielfältigungen von rechtmäßig zugänglichen Werken für das Text und Data Mining. Die Vervielfältigungen sind zu löschen, wenn sie für das Text und Data Mining nicht mehr erforderlich sind. (3) Nutzungen nach Absatz 2 Satz 1 sind nur zulässig, wenn der Rechtsinhaber sich diese nicht vorbehalten hat. Ein Nutzungsvorbehalt bei online zugänglichen Werken ist nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt.” Schließlich sieht § 60d UrhG vor, dass Data Mining zum Zwecke der wissenschaftlichen Forschung sogar im Falle eines solchen Nutzungsvorbehalts legal sein soll: “§ 60d Text und Data Mining für Zwecke der wissenschaftlichen Forschung (1) Vervielfältigungen für Text und Data Mining (§ 44b Absatz 1 und 2 Satz 1) sind für Zwecke der wissenschaftlichen Forschung nach Maßgabe der nachfolgenden Bestimmungen zulässig. (2) Zu Vervielfältigungen berechtigt sind Forschungsorganisationen. Forschungsorganisationen sind Hochschulen, Forschungsinstitute oder sonstige Einrichtungen, die wissenschaftliche Forschung betreiben, sofern sie (3) Zu Vervielfältigungen berechtigt sind ferner 1.Bibliotheken und Museen, sofern sie öffentlich zugänglich sind, sowie Archive und Einrichtungen im Bereich des Film- oder Tonerbes (Kulturerbe-Einrichtungen), 2.einzelne Forscher, sofern sie nicht kommerzielle Zwecke verfolgen. (4) Berechtigte nach den Absätzen 2 und 3, die nicht kommerzielle Zwecke verfolgen, dürfen Vervielfältigungen nach Absatz 1 folgenden Personen öffentlich zugänglich machen: 1.einem bestimmt abgegrenzten Kreis von Personen für deren gemeinsame wissenschaftliche Forschung sowie 2.einzelnen Dritten zur Überprüfung der Qualität wissenschaftlicher Forschung. Sobald die gemeinsame wissenschaftliche Forschung oder die Überprüfung der Qualität wissenschaftlicher Forschung abgeschlossen ist, ist die öffentliche Zugänglichmachung zu beenden. (5) Berechtigte nach den Absätzen 2 und 3 Nummer 1 dürfen Vervielfältigungen nach Absatz 1 mit angemessenen Sicherheitsvorkehrungen gegen unbefugte Benutzung aufbewahren, solange sie für Zwecke der wissenschaftlichen Forschung oder zur Überprüfung wissenschaftlicher Erkenntnisse erforderlich sind. (6) Rechtsinhaber sind befugt, erforderliche Maßnahmen zu ergreifen, um zu verhindern, dass die Sicherheit und Integrität ihrer Netze und Datenbanken durch Vervielfältigungen nach Absatz 1 gefährdet werden.” Im Moment scheinen sich Einrichtungen wie LAION, welche Datasets zusammenstellen, eher auf § 60d UrhG zu berufen, da die Außenwirkung den Forschungszweck stark in den Vordergrund stellt. Ob gerade die Weitergabe an die kommerziell tätigen Anbieter von Bildgeneratoren hiervon noch gedeckt wird, wird die Zukunft und vor allem die zu erwartende Rechtsprechung zeigen müssen. Bis dahin können Urheber*innen leider wenig dagegen unternehmen, dass Ihre Bildinhalte als Trainingsdaten genutzt werden. Auch wenn es über Anbieter wie https://haveibeentrained.com/ möglich ist, eigene Bilder in großen Datasets zu identifizieren, stellt sich die Frage, was man als Urheber*in mit dieser Information anfangen kann. Bis auf das Setzen des oben genannten Nutzungsvorbehaltes auf der eigenen Website, welcher bestenfalls dazu führen würde, dass die eigenen Bilder nicht mehr zu kommerziellen Trainingszwecken genutzt werden dürfen, bleibt den Urheber*innen im Wesentlichen nur das Abwarten auf Rechtsprechung und Gesetzgebung. Daher sind wir der Auffassung, dass es aktuell für Urheber*innen deutlich mehr Sinn machen dürfte, sich zukunftsorientiert mit dem Thema der künstlichen Intelligenz auseinanderzusetzen, da es im Moment eher unwahrscheinlich scheint, dass durch rechtliches Vorgehen gegen potentiell unrechtmäßig zusammengesetzte Datasets die Entwicklung der künstlichen Intelligenz und ihr damit verbundener Einzug in den Berufsalltag von Kreativen zu stoppen sein dürfte.

Visit the podcast's native language site