In einem Blogbeitrag von Anfang Februar habe ich auf die Rekordinvestitionen in Rechenzentren durch den KI-Hype aufgrund von ChatGPT und Co hingewiesen. Dabei bin ich auch auf die Notwendigkeit der vielen Trainingsdaten eingegangen, die die erstaunliche Wortgewandtheit von aktuellen Large-Language-Modellen (LLMs) erklären. Jetzt bin ich auf einen Artikel gestoßen, der fragwürdige Praktiken im Umgang mit urhebergeschützten Inhalten der LLMs behandelt, die beim Training von LLMs genutzt wurden oder noch werden [1]. Auch ich selbst scheine eines der „Opfer“ dieser Piraterie zu sein.
Für das Training von generativer KI sind qualitativ hochwertige Quellen Gold wert. Zeitungsartikel, Bücher – am besten noch in mehreren Sprachen – oder wissenschaftliche Arbeiten sind Beispiele solcher Texte. Bei diesen „hochwertigen“ Texten gibt es neben den Autoren(-gruppen) zusätzlich noch Redaktionen und Lektorate, die einen gewissen Qualitätsstandard sicherstellen sollen.
Jede ernstzunehmende wissenschaftliche Publikation nutzt zum Beispiel auch das Peer-Review-Verfahren, bei dem unabhängige Wissenschaftler die Arbeiten prüfen, kritisch bewerten und gegebenenfalls auch ablehnen. An diesem Prozess habe ich auch in meiner eigenen wissenschaftlichen Laufbahn schon oft teilgenommen – sowohl als Gutachter als auch als Autor. Es ist nicht ungewöhnlich, dass es viele Monate dauert, bis so eine wissenschaftliche Arbeit schlussendlich veröffentlicht wird. Am Ende dieses Prozesses gibt es dann üblicherweise noch einen Verlag mit Lektorat, und die Arbeit erscheint in einer wissenschaftlichen Zeitschrift unter einem entsprechenden Copyright.
Die Recherche von Alex Reisner, die ich jetzt im Atlantic gelesen habe, wirft einen kritischen Blick auf die teilweise problematischen Trainingsdaten marküblicher LLMs [1]. Gerade Bücher und wissenschaftliche Arbeiten sind Quellen, die normalerweise unter Copyright stehen. Die üblichen Webcrawler von Meta, OpenAI und Co., die das Internet nach allem durchsuchen, was frei zugänglich ist, sollten darauf unter normalen Umständen nicht einfach so zugreifen dürfen. Im Internet gibt es bekanntlich doch auch vieles, was – salopp gesagt – rechtlich nicht astrein ist. Die Sammlung Library Genesis (LibGen) ist so ein Ort, der eine zentrale Rolle in dieser Geschichte spielt.
In der LibGen-Sammlung existieren sehr viele Copyright-geschützte Arbeiten, die ohne Absprache mit den Rechteinhabern nicht ohne Weiteres verwendet werden dürfen. Beispielsweise finden sich darin ganze 25 Bücher (teilweise mehrsprachige Ausgaben) von Isaac Asimov – doch auch mehrere wissenschaftliche Arbeiten von mir. Ich möchte meine eigenen Arbeiten dabei keinesfalls überbewerten. Insgesamt umfasst die LibGen-Sammlung unter anderem etwa 5 Millionen Bücher und 80 Millionen wissenschaftliche Artikel [2]. Die LibGen-„Schattenbibliothek“ ist also sehr groß und dementsprechend nützlich für das Training von LLMs.
Grundsätzlich bin ich ein Verfechter freier (Open Source) Software und – gerade bei wissenschaftlichen Arbeiten, die mit öffentlichen Fördergeldern unterstützt wurden – auch ein großer Freund von Open Science. Die beiden oben genannten Arbeiten von mir gibt es daher ebenfalls unter offener CC-BY-Lizenz frei verfügbar auf einem Preprint Server. Letztlich bin ich gar nicht der „Geschädigte“ dieser Piraterie, sondern eher der Verlag, bei dem die Arbeiten veröffentlicht wurden und der die finale Version normalerweise hinter einer Paywall hält.
Es ist schon lange eine heißdiskutierte Frage, ob das Training von LLMs mit Zeitungsartikeln, Büchern oder auch Skripten von Filmen in Ordnung ist. Die KI-Unternehmen berufen sich hierbei immer auf den Fall der sogenannten Fair Use (angemessene Verwendung) im US-Urheberrecht. Das letzte Wort ist hierbei aber noch lange nicht gesprochen. So oder so bleibt ein fader Beigeschmack. LLMs sind schon sehr mächtige Tools, die sich in den letzten Jahren unglaublich schnell weiterentwickelt haben. Ethische Fragen bleiben bei solchen Entwicklungsgeschwindigkeiten leider oftmals auf der Strecke. Das folgende Zitat aus Jurassic Park geht mir in diesem Zusammenhang dabei immer mal wieder durch den Kopf: “Your scientists were so preoccupied with whether or not they could, they didn’t stop to think if they should.”
Wenn Sie jetzt diesen Text hier lesen, ist er vorher durch eine mehrstufige Schleife der Qualitätssicherung gegangen, in die mehrere Kollegen bei ComConsult eingebunden sind. Und auch wenn (generative) KI heute ein sehr nützliches Tool ist – am Ende sind Texte und Codes, die mithilfe von KI geschrieben werden oder auch Bilder, die die KI generiert hat, nur etwas Wertvolles, wenn wir Menschen damit etwas anfangen können. Wie meine Kollegin Lea Joosten in einem Blogartikel beschrieben hat, braucht man also nicht nur Verständnis für die Technik hinter der KI, sondern auch ein gewisses Verantwortungsbewusstsein in der Anwendung.
Unter Umständen ist man als Nutzer generativer KI auch rechtlich dafür verantwortlich, wenn das Ergebnis veröffentlicht wird, wie ich in einem Blogbeitrag über den AI-Act kürzlich beschrieben habe. Es ist umso wichtiger, die Antworten, die uns ChatGPT und Co. Geben, kritisch zu hinterfragen. Die Nutzung dieser neuen Technologie versetzt uns dabei in die Rolle des Redakteurs.
Quellen
[1] Alex Reisner, The Unbelievable Scale of AI’s Pirated-Books Problem, https://www.theatlantic.com/technology/archive/2025/03/libgen-meta-openai/682093/ (20.03. 2025)
[2] https://en.wikipedia.org/wiki/Library_Genesis (abgerufen am 23.03.2025)





