KI-Entwickler machen sich das illegale Internet zunutze

KI-Tools und die dahinter stehenden Large Language Models werden mit Daten trainiert, die im Internet frei zugänglich sind, auch wenn diese Informationen illegal oder urheberrechtlich geschützt sind. Dies ist insbesondere bei nicht englischsprachigen Modellen der Fall.

Aktuelle Untersuchungen zeigen, dass niederländische Sprachmodelle größtenteils mit Daten einer illegalen Piratenseite trainiert werden. Es scheint auch, dass der Filter von OpenAI (dem Hersteller von ChatGPT) zur Qualitätsprüfung von Online-Inhalten bei niederländischsprachigen Inhalten nicht gut funktioniert.

Illegale Websites

Die umstrittene niederländische Piratenseite Docplayer macht 3,6 Prozent des gesamten Trainingsdatensatzes aus. Diese Website enthält private Informationen wie Dokumente zur Bewerberbewertung und Daten abgeleitet von Datenschutzverletzungen, einschließlich vollständiger Lebensläufe und Steuererklärungen. Obwohl die Website von der niederländischen Datenschutzbehörde und dem Nationalen Zentrum für Cybersicherheit für illegal erklärt wurde, ist die Website immer noch in Betrieb.

Auch Anzeigen privater Anbieter sind im Datensatz gut vertreten. 0,3 Prozent stammen von eBay.nl. Marktplaats.nl hat einen Anteil von 0,2 Prozent. Das bedeutet, dass im Sprachmodell auch viele Telefonnummern von Privatpersonen aus Anzeigen enthalten sind.

Und es kann noch schlimmer

Noch beunruhigender ist, dass der Datensatz auch viele Informationen von Websites enthält, die voller Fehlinformationen sind. Die Untersuchung ergab beispielsweise, dass die Neonazi-Website Stormfront, die Verschwörungsseite Vrijspreker und der antiislamische und europhobe Blog E.J. Bron als Schulungsmaterial verwendet wurden. Die Neonazi-Website ist in der Quellenliste sogar einen Platz plaziert unter eine allgemeine Nachrichtenseite wie RTL Nieuws. KI lernt von beiden Websites ungefähr gleich viel…

Darüber hinaus enthalten die zweihundert meistzitierten Websites eine auffallende Anzahl hochwertiger Medien. Diese werden genutzt, ohne jemals dafür bezahlt zu werden. Von einer Qualitätszeitung wie „de Volkskrant“ wurden 162.000 einzigartige Texte verwendet – etwa zehn Jahre journalistische Arbeit.

Filter von schlechter Qualität für nicht-englische Websites

Für die Unternehmen, die hinter Chatbots stehen, ist es schwierig, nicht-englischsprachige Websites auf Zuverlässigkeit und Relevanz zu überprüfen. Sprachmodelle werden hauptsächlich in den Vereinigten Staaten entwickelt, wo Forscher hauptsächlich Englisch sprechen. Daher ist es für sie schwierig zu bestimmen, welche Websites unbedingt in den Datensatz aufgenommen werden sollten und welche weggelassen werden sollten.

Darüber hinaus ist die Zahl niederländischsprachiger Websites im weltweiten Internet nicht so hoch. Nur mit ausreichend Schulungsmaterial kann man einen Chatbot richtig trainieren, mit Top-Websites allein kann man diesen Wert nicht erreichen.

Alle nicht-englischen Websites

Das Problem tritt bei allen nicht englischsprachigen Modellen auf. Diese werden auch mit Datensätzen voller Desinformation, privaten Daten und urheberrechtlich geschützten Inhalten trainiert. Und ein Teil davon findet sich in der Antwort wieder, die Ihnen ein Chatbot gibt.

Die niederländische Datenschutzbehörde (AP) hat OpenAI einen Brief mit der Bitte um mehr Klarheit über ChatGPT geschickt, aber noch keine Antwort erhalten.

Auf jeden Fall zeigt es die Notwendigkeit, die Verbreitung von Desinformation und personenbezogenen Daten durch KI-generierte Inhalte zu regulieren und zu stoppen. Das KI-Gesetz der Europäischen Union soll noch vor Ende 2023 in Kraft treten und Piraterie und Datenschutzverletzungen durch die Sprachmodelle ein Ende setzen.