Wettrüsten: Deepfaker versus Detektoren

13.06.2023 / Dr. Behrooz Moayeri

Die Fake-Bilder von der angeblichen gewaltsamen Verhaftung Donald Trumps und vom Papst im Designerparka gingen um die Welt. Die von einer Künstlichen Intelligenz (KI) gefälschten Bilder wurden als große Warnung vor KI-Risiken hochgehalten. Ehrlich gesagt war ich nicht sonderlich überrascht oder beeindruckt, denn seit vielen Jahren kenne ich die immer echter aussehenden Ergebnisse menschlich gefälschter Bilder mittels Tools wie Adobe Photoshop, wie auch Animationsfilme, die immer echter aussehen. Wer mit modernen Tools gearbeitet hat, kennt die Benutzerfreundlichkeit der Programme und weiß, dass der Schritt vom manuell erzeugtem Fake-Bild zu einem KI-gesteuerten Bildbearbeitungstool nicht groß ist, selbst bei bewegten Bildern.

Für mich interessanter ist die Diskussion um ChatGPT, auf die mein Kollege Nils Wantia in einem Blog eingegangen ist. Deshalb haben wir bei der ComConsult Akademie ein Seminar zum sinnvollen Einsatz von ChatGPT für geschäftliche Zwecke in unser Programm aufgenommen. Wir verpflichten ferner unsere Autoren, im Falle der Verwendung von KI für die Generierung von Texten diesen Umstand im Quellennachweis anzugeben. Mein Kollege Dr. Dams hat sich ebenfalls mit der Frage beschäftigt, ob KI uns IT-Berater überflüssig machen wird. In der Öffentlichkeit wird intensiv diskutiert, wie Bildungseinrichtungen mit ChatGPT & Co. umgehen sollen. Eine extreme Haltung wäre die Behandlung von KI-Text zum Beispiel als Bestandteil von Hausarbeiten als Betrug. Die entgegengesetzte Haltung wäre die unbeschränkte Freigabe von KI-Text als Hilfsmittel.

Es wird längst an Detektoren gearbeitet, die synthetische Inhalte erkennen. Das einfachste Verfahren basiert auf der Erkennung einer Art Signatur des Tools, das für die Erzeugung des synthetischen Inhalts genutzt wurde, wie man einem Bericht der Zeitschrift IEEE Spectrum entnehmen kann. Im Fall von bewegten Bildern können außer Tool-Signaturen auch physische und biologische Merkmale in den Bildern für die Fake-Erkennung herangezogen werden. Im November 2022 kündigte Intel eine Plattform an, mit der Videos auf künstliche Inhalte überprüft werden können. Die Real-Time Deepfake Detector genannte Lösung analysiert Farbveränderungen auf der gefilmten Gesichtshaut von Menschen. Das Verfahren wird Photoplethysmographie (PPG) genannt. PPG-Signale sind auf der ganzen Gesichtshaut festzustellen und miteinander korreliert. Die verfügbaren KI-Tools für künstliche Aufnahmen sind noch nicht so weit, die natürliche PPG-Konstellation von Gesichtern nachzubilden. Es gibt auch Algorithmen zur Erkennung KI-generierter menschlicher Stimme.

Man muss von einem Wettrüsten zwischen Detektoren und Deepfaker-Tools ausgehen, mit der Folge, dass das PPG-Verfahren bald vielleicht nicht die heute behauptete Trefferquote von 97% aufweisen wird. Das kennen wir auch von schadensstiftender Software (Malware). Seit Jahrzehnten gibt es immer komplexere Malware und immer intelligentere Virenscanner.

Schwieriger als die Erkennung von Fake-Aufnahmen von Menschen ist die Erkennung von KI-generiertem Text. Überlegungen zur Erkennung solcher Texte schließen zum Beispiel regulatorische Vorgaben an die Entwickler solcher Systeme wie ChatGPT ein, nach denen sie die Texte mit sogenannten digitalen Wasserzeichen versehen müssten. Ein solches Wasserzeichen kann zum Beispiel daran zu erkennen sein, dass bestimmte Wörter in der Erzeugung der KI-Texte präferiert werden. Regulatorische Vorgaben haben es jedoch an sich, dass sich ein böswilliger Entwickler nicht daran hält.

Ein anderes Verfahren kann darin bestehen, den Text auf für Menschen typische Wortwahl und Satzlängen zu analysieren. Erfahrungsgemäß treffen Menschen unerwartete Wortwahlentscheidungen und variieren die Satzlänge stärker als KI. Hier besteht die Gefahr darin, dass es auch Menschen gibt, die genau das nicht tun und deren Texte dann fälschlicherweise als KI-generiert eingestuft werden.

Grundsätzlich weist ein Text nicht die Merkmale auf, an denen Videos und Audioclips aus KI-Quellen erkannt werden können, nämlich biologische und biometrische Signale. Auch die im Vergleich zu Bild und Ton wesentlich geringere Informationsmenge von Text macht die Analyse von Text schwieriger.

Einige Forscher plädieren als langfristige Lösung dafür, Protokolle für die Authentisierung von Inhalten, zum Beispiel auf Basis der Blockchain-Technologie, zu verwenden.

Vielleicht müssen wir jedoch die neue Welt so akzeptieren, wie sie ist, nämlich als eine Realität mit einer Kombination von künstlichem und „echtem“ Inhalt.

Der Netzwerk Insider gehört mit seinen Produkt- und Markt-Bewertungen rund um IT-Infrastrukturen zu den führenden deutschen Technologie-Magazinen. Der Bezug des Netzwerk Insiders ist kostenlos.