Künstliche Intelligenz lernt täglich über unsere Welt, indem sie Daten aus dem Internet sammelt.
Die meisten Menschen gehen davon aus, dass diese digitale Ernährung aus neutralen Fakten und harmlosen Bildern besteht. Doch was geschieht, wenn die Bilder, die die nächste Generation von Technologien trainieren, still und leise durch politische Agenden verdreht werden, wie von 02.pl berichtet wird.
Die digitale Ernährung der KI
Technologieunternehmen benötigen enorme Mengen an Medien, um ihre neuesten Modelle zu trainieren. Dieser Bedarf hat automatisierte Bots dazu veranlasst, eifrig Open-Source-Fotos, -Videos und -Audiodateien zu sammeln.
Die Wikimedia Foundation verzeichnete kürzlich einen enormen Anstieg dieser Aktivität. Seit 2024 ist die Bandbreite, die zum Herunterladen von Dateien von Wikimedia Commons verwendet wird, um 50 Prozent gestiegen.
Dieser Datenverkehr stammt nicht von Menschen. Stattdessen saugen automatisierte Programme diese offen lizenzierten Dateien auf, um KI-Systeme zu speisen.
Manipulierte Trainingsdaten
Einige Experten warnen, dass diese Datensammlung eine dunkle Seite hat. Ein Bericht der Polnischen Presseagentur, bekannt als PAP, enthüllt, dass russische Quellen Wikimedia Commons mit Materialien über die Annexion der Krim füllen.
Die Suche nach dem Begriff „Annexion der Krim“ in der englischen Datenbank ergibt über 40 russische staatliche Ergebnisse von insgesamt 51. Dazu gehört auch die offizielle Website des russischen Präsidenten.
Marcin Żabiński, ein Experte des Kybernetes Instituts, glaubt, dass dies kein Zufall ist. Er warnt, dass Russland die offene Plattform aktiv nutzt, um sein eigenes politisches Narrativ direkt in KI-Modelle einzuspeisen.
Gefahr in der Beschreibung
Die Bedrohung geht weit über die Bilder selbst hinaus. Dateibeschreibungen und Urheberinformationen, bekannt als Metadaten, spielen eine große Rolle dabei, wie KI eine Datei interpretiert.
„Eine viel interessantere Meta-Information ist eine kurze Beschreibung dessen, was auf dem Foto zu sehen ist. Und dies ist bereits sehr anfällig für Missbrauch, da es beeinflussen kann, wie der Empfänger oder das Sprachmodell die Datei interpretiert“, betonte Żabiński.
Es gibt auch Befürchtungen hinsichtlich der Steganografie, die das Verbergen geheimer Anweisungen in digitalen Bildern beinhaltet. Żabiński warnte: „Dies könnten Anweisungen sein, die explizit eine Änderung der Analysemethode anordnen oder eine bestimmte Aktion im Sprachmodell auslösen sollen.“
Politik der offenen Tür
Die Wikimedia Foundation beantwortete Fragen der PAP vor der Veröffentlichung nicht. Wikimedia Polska veröffentlichte jedoch eine Stellungnahme zu den Bedenken.
Die Organisation erklärte, dass sie, basierend auf dem Feedback von Freiwilligen, „keine Grundlage für die Annahme einer dokumentierten, koordinierten russischen Einmischung sehe.“ Sie merkten an, dass viele russische Materialien dort landen, einfach weil sie offene Lizenzen verwenden.
Dennoch bleibt die Realität, dass KI-Modelle weiterhin aus diesem offenen Pool schöpfen werden. Ist das Wasser verunreinigt, könnte auch das Weltbild der Maschine darunter leiden.
Quellen: 02.pl, PAP