ComConsult
  • Competence Center
    • Cloud und Data Center
    • Elektro-Infrastrukturen
    • Funknetze
    • IT-Infrastrukturen
    • IT-Sicherheit
    • Kommunikationslösungen
      • Medientechnik
    • Netze
    • Sicherheitstechnik
    • Smart Technologies
  • Referenzen
  • Aktuelle Themen
  • Seminare
    • Business Skills / Softskills
    • Cloud und Data Center
    • Funknetze
    • IOT / Smart Technologies
    • IT-Infrastrukturen
    • IT-Management
    • IT-Recht
    • IT-Sicherheit
    • KI / Data Science / Machine Learning
    • Kommunikationslösungen
    • Medientechnik
    • Netze
    • Software
  • Webinar der Woche
  • Publikationen
    • Blogs
    • Der Netzwerk Insider
    • Netzwerk Insider Archiv
  • Über uns
    • Unser Team
    • Kooperationen
    • IT-Letics
    • Kontakt
  • Karriere
  • Click to open the search input field Click to open the search input field Suche
  • Menü Menü
  • Competence Center
    • Cloud und Data Center
    • Elektro-Infrastrukturen
    • Funknetze
    • IT-Infrastrukturen
    • IT-Sicherheit
    • Kommunikationslösungen
      • Medientechnik
    • Netze
    • Sicherheitstechnik
    • Smart Technologies
  • Referenzen
  • Aktuelle Themen
  • Seminare
    • Business Skills / Softskills
    • Cloud und Data Center
    • Funknetze
    • IOT / Smart Technologies
    • IT-Infrastrukturen
    • IT-Management
    • IT-Recht
    • IT-Sicherheit
    • KI / Data Science / Machine Learning
    • Kommunikationslösungen
    • Medientechnik
    • Netze
    • Software
  • Webinar der Woche
  • Publikationen
    • Blogs
    • Der Netzwerk Insider
    • Netzwerk Insider Archiv
  • Über uns
    • Unser Team
    • Kooperationen
    • IT-Letics
    • Kontakt
  • Karriere
Du bist hier: Startseite1 / Bereich2 / Blog/News3 / Das Piraterie-Problem der KI
ruessmann

Das Piraterie-Problem der KI

06.05.2025 / Philipp Rüßmann

In einem Blogbeitrag von Anfang Februar habe ich auf die Rekordinvestitionen in Rechenzentren durch den KI-Hype aufgrund von ChatGPT und Co hingewiesen. Dabei bin ich auch auf die Notwendigkeit der vielen Trainingsdaten eingegangen, die die erstaunliche Wortgewandtheit von aktuellen Large-Language-Modellen (LLMs) erklären. Jetzt bin ich auf einen Artikel gestoßen, der fragwürdige Praktiken im Umgang mit urhebergeschützten Inhalten der LLMs behandelt, die beim Training von LLMs genutzt wurden oder noch werden [1]. Auch ich selbst scheine eines der „Opfer“ dieser Piraterie zu sein.

Für das Training von generativer KI sind qualitativ hochwertige Quellen Gold wert. Zeitungsartikel, Bücher – am besten noch in mehreren Sprachen – oder wissenschaftliche Arbeiten sind Beispiele solcher Texte. Bei diesen „hochwertigen“ Texten gibt es neben den Autoren(-gruppen) zusätzlich noch Redaktionen und Lektorate, die einen gewissen Qualitätsstandard sicherstellen sollen.

Jede ernstzunehmende wissenschaftliche Publikation nutzt zum Beispiel auch das Peer-Review-Verfahren, bei dem unabhängige Wissenschaftler die Arbeiten prüfen, kritisch bewerten und gegebenenfalls auch ablehnen. An diesem Prozess habe ich auch in meiner eigenen wissenschaftlichen Laufbahn schon oft teilgenommen – sowohl als Gutachter als auch als Autor. Es ist nicht ungewöhnlich, dass es viele Monate dauert, bis so eine wissenschaftliche Arbeit schlussendlich veröffentlicht wird. Am Ende dieses Prozesses gibt es dann üblicherweise noch einen Verlag mit Lektorat, und die Arbeit erscheint in einer wissenschaftlichen Zeitschrift unter einem entsprechenden Copyright.

Die Recherche von Alex Reisner, die ich jetzt im Atlantic gelesen habe, wirft einen kritischen Blick auf die teilweise problematischen Trainingsdaten marküblicher LLMs [1]. Gerade Bücher und wissenschaftliche Arbeiten sind Quellen, die normalerweise unter Copyright stehen. Die üblichen Webcrawler von Meta, OpenAI und Co., die das Internet nach allem durchsuchen, was frei zugänglich ist, sollten darauf unter normalen Umständen nicht einfach so zugreifen dürfen. Im Internet gibt es bekanntlich doch auch vieles, was – salopp gesagt – rechtlich nicht astrein ist. Die Sammlung Library Genesis (LibGen) ist so ein Ort, der eine zentrale Rolle in dieser Geschichte spielt.

In der LibGen-Sammlung existieren sehr viele Copyright-geschützte Arbeiten, die ohne Absprache mit den Rechteinhabern nicht ohne Weiteres verwendet werden dürfen. Beispielsweise finden sich darin ganze 25 Bücher (teilweise mehrsprachige Ausgaben) von Isaac Asimov – doch auch mehrere wissenschaftliche Arbeiten von mir. Ich möchte meine eigenen Arbeiten dabei keinesfalls überbewerten. Insgesamt umfasst die LibGen-Sammlung unter anderem etwa 5 Millionen Bücher und 80 Millionen wissenschaftliche Artikel [2]. Die LibGen-„Schattenbibliothek“ ist also sehr groß und dementsprechend nützlich für das Training von LLMs.

Grundsätzlich bin ich ein Verfechter freier (Open Source) Software und – gerade bei wissenschaftlichen Arbeiten, die mit öffentlichen Fördergeldern unterstützt wurden – auch ein großer Freund von Open Science. Die beiden oben genannten Arbeiten von mir gibt es daher ebenfalls unter offener CC-BY-Lizenz frei verfügbar auf einem Preprint Server. Letztlich bin ich gar nicht der „Geschädigte“ dieser Piraterie, sondern eher der Verlag, bei dem die Arbeiten veröffentlicht wurden und der die finale Version normalerweise hinter einer Paywall hält.

Es ist schon lange eine heißdiskutierte Frage, ob das Training von LLMs mit Zeitungsartikeln, Büchern oder auch Skripten von Filmen in Ordnung ist. Die KI-Unternehmen berufen sich hierbei immer auf den Fall der sogenannten Fair Use (angemessene Verwendung) im US-Urheberrecht. Das letzte Wort ist hierbei aber noch lange nicht gesprochen. So oder so bleibt ein fader Beigeschmack. LLMs sind schon sehr mächtige Tools, die sich in den letzten Jahren unglaublich schnell weiterentwickelt haben. Ethische Fragen bleiben bei solchen Entwicklungsgeschwindigkeiten leider oftmals auf der Strecke. Das folgende Zitat aus Jurassic Park geht mir in diesem Zusammenhang dabei immer mal wieder durch den Kopf: “Your scientists were so preoccupied with whether or not they could, they didn’t stop to think if they should.”

Wenn Sie jetzt diesen Text hier lesen, ist er vorher durch eine mehrstufige Schleife der Qualitätssicherung gegangen, in die mehrere Kollegen bei ComConsult eingebunden sind. Und auch wenn (generative) KI heute ein sehr nützliches Tool ist – am Ende sind Texte und Codes, die mithilfe von KI geschrieben werden oder auch Bilder, die die KI generiert hat, nur etwas Wertvolles, wenn wir Menschen damit etwas anfangen können. Wie meine Kollegin Lea Joosten in einem Blogartikel beschrieben hat, braucht man also nicht nur Verständnis für die Technik hinter der KI, sondern auch ein gewisses Verantwortungsbewusstsein in der Anwendung.

Unter Umständen ist man als Nutzer generativer KI auch rechtlich dafür verantwortlich, wenn das Ergebnis veröffentlicht wird, wie ich in einem Blogbeitrag über den AI-Act kürzlich beschrieben habe. Es ist umso wichtiger, die Antworten, die uns ChatGPT und Co. Geben, kritisch zu hinterfragen. Die Nutzung dieser neuen Technologie versetzt uns dabei in die Rolle des Redakteurs.

Quellen

[1] Alex Reisner, The Unbelievable Scale of AI’s Pirated-Books Problem, https://www.theatlantic.com/technology/archive/2025/03/libgen-meta-openai/682093/ (20.03. 2025)

[2] https://en.wikipedia.org/wiki/Library_Genesis (abgerufen am 23.03.2025)

Künstliche Intelligenz – aber sicher!
07.10.2025 online

Künstliche Intelligenz, Cloud und Datenschutz
01.04.-02.04.2025 online

KI-Strategie für Entscheider im Mittelstand: Analyse, Planung und Umsetzung
02.12.2025 online

Der Netzwerk Insider gehört mit seinen Produkt- und Markt-Bewertungen rund um IT-Infrastrukturen zu den führenden deutschen Technologie-Magazinen. Der Bezug des Netzwerk Insiders ist kostenlos.

Jetzt registrieren

Kontakt

ComConsult GmbH
Pascalstraße 27
DE-52076 Aachen
Telefon: 02408/951-0
Fax: 02408/951-200
E-Mail: info@comconsult.com

Services

Häufig gestellte Fragen
Inhouse-Schulungen
Kosten und Leistungen
Termine
Veranstaltungen A-Z
Zertifizierungen

Rechtliches

Allgemeine Geschäftsbedingungen
Datenschutzerklärung
Impressum
Ihre Cookie-Einstellungen

© Copyright - ComConsult
Nach oben scrollen Nach oben scrollen Nach oben scrollen
newsletter

Bekommen Sie schon unseren Newsletter?

Melden Sie sich jetzt an!

Erhalten Sie aktuelle Informationen zu unseren Seminaren und Sonderveranstaltungen und unser kostenloses monatliches Magazin.

Ein Widerruf der Einwilligung ist mit Wirkung für die Zukunft per Mail an insider@comconsult.com oder mit dem in jeder E-Mail enthaltenen Abmeldelink möglich.

Name
Bitte eine gültige E-Mailadresse eintragen