Verbraucherrecht

11.07.2024

Datennutzung für künstliche Intelligenz bei Facebook, Instagram & Co

Meta (Facebook, Instagram) hatte jüngst angekündigt, ab Ende Juni dieses Jahres die Daten der Nutzer für das Training seiner Künstlichen Intelligenz (KI) zu verwenden. Nur die Daten derjenigen, die der Verwendung aktiv widersprechen, sollten von der Verarbeitung zu KI-Trainingszwecken ausgenommen sein. Nach einem medialen Aufschrei und zahlreichen besorgten Verbraucher*innen, zog das Unternehmen seine Pläne (vorläufig) zurück. Derzeit ist unklar, ob Meta von seinem Vorhaben vollständig Abstand nimmt oder versuchen wird, dieses anderweitig – möglicherweise in rechtlich weniger angreifbarer Weise – umzusetzen.

Datennutzung für künstliche Intelligenz bei Facebook, Instagram & Co© maurice norbert - stock.adobe.com
Aus welchen Daten dürfen Künstliche Intelligenzen" lernen?

Meta ist es tatsächlich nicht grundsätzlich verboten, die Daten seiner Nutzer zu KI-Trainingszwecken zu verwenden. Lediglich die Art und Weise, wie dies umgesetzt werden sollte, dürfte nicht transparent genug gewesen sein.

Diese Daten darf Meta nutzen

Nach der Datenschutzgrundverordnung (DSGVO) dürfen Unternehmen wie Meta Ihre personenbezogenen Daten eigentlich überhaupt nicht verarbeiten. Erlaubt ist das nur dann, wenn es eine Rechtsgrundlage – also eine gesetzlich vorgesehene Erlaubnis – hierfür gibt.

So darf Meta die Daten beispielsweise verarbeiten, wenn diese zur Vertragserfüllung erforderlich sind, wie zum Beispiel die Emailadresse. Das gleiche gilt für Inhalte, die Verbraucher*innen auf den Plattformen von Meta teilen, wie Fotos oder Kommentare. Auch diese dürfen aber zunächst nur für die Zurverfügungstellung der Dienstleistungen von Meta verwendet und nicht „zweckentfremdet“ werden.

Für das KI-Training kann sich Meta daher nicht auf diese Rechtsgrundlage stützen. Das Unternehmen hatte die Nutzung der Daten daher anders begründet, nämlich mit einem „berechtigten Interesse“ an der Datenverarbeitung (Art. 6 Abs. 1f DSGVO): „Wir sind überzeugt davon, dass Meta, unsere Nutzer*innen und andere Menschen ein berechtigtes Interesse an der Nutzung dieser Informationen haben. In der Region Europa und im Vereinigten Königreich bildet das berechtigte Interesse die Grundlage für die Erfassung und Verarbeitung von personenbezogenen Informationen aus öffentlich zugänglichen und lizenzierten Quellen sowie Informationen, die Nutzer*innen über die Produkte und Services von Meta geteilt haben. Diese Informationen dienen der Entwicklung und Optimierung von KI bei Meta“ (Quelle: https://www.facebook.com/privacy/genai, 14.06.2024).

Ob Meta sich tatsächlich auf ein berechtigtes Interesse hätte stützen können, ist fraglich. Vieles spricht dafür, dass Meta seine Nutzer ausdrücklich um Erlaubnis hätte fragen müssen. Das hätte aber bedeutet, dass die Daten aller Nutzer, die keine ausdrückliche Erlaubnis erteilt hätten, von der Verarbeitung zu KI-Trainingszwecken ausgeschlossen wären.

Daten, die Meta für das KI-Training nutzen wollte

„Wir verwenden sowohl öffentlich zugängliche als auch lizenzierte Informationen. Zusätzlich nutzen wir Informationen, die über die Produkte und Services von Meta geteilt werden. Das können beispielsweise Beiträge, Fotos oder Bildunterschriften sein. Wir trainieren unsere KIs nicht mit den Inhalten von Privatnachrichten, die du mit Familienmitgliedern oder Freund*innen austauschst.“ (Quelle: https://www.facebook.com/privacy/genai, 14.06.2024).

Meta wollte also im Grunde sämtliche Informationen – mit Ausnahme von Privatnachrichten – die Verbraucher*innen auf den Plattformen teilen, zu Trainingszwecken für KI-Anwendungen nutzen. Diese Anwendungen sollten es dann zum Beispiel möglich machen, Texte und Bilder mittels künstlicher Intelligenz zu erstellen.

Folgen der Datennutzung für KI-Trainingszwecke

Wenn eine KI beispielsweise trainiert werden soll, Bilder von Menschen zu generieren, muss sie lernen, wie ein Mensch „aussieht“. Meta wollte die Daten der Nutzer unter anderem genau für diesen Zweck verwenden.

In diesem Rahmen ist es möglich, dass – wir bleiben beim Beispiel eines Fotos – ein Foto zunächst mit Informationen, die es bereits enthält, verarbeitet wird. Das sind typischerweise Metadaten, wie Zeit- und Ortsstempel oder Kameraeinstellungen, die in der Bilddatei bereits gespeichert sind. Aber auch andere relevante Kontextinformationen können dem Foto beigefügt werden. Bei Fotos zur Gesichtserkennung lassen sich beispielsweise Labels wie "Gesicht", "Augen", "Nase" oder emotionale Zustände wie "lächelnd" hinzufügen. Denkbar ist es auch, dass Meta Kontextinformationen verwendet hätte, die aufgrund Ihres Facebookprofils bekannt sind (z.B. „Alter“).

Wenn eine KI (oder genauer: ein künstliches neuronales Netzwerk unter Verwendung von Deep-Learning Algorithmen) auf diese Weise mit mehreren Millionen oder gar Milliarden von Bildern „trainiert“ wird, lernt das Programm aufgrund wiederkehrender Muster (jedes Lächeln ist zwar anders, weist aber auch Gemeinsamkeiten auf) irgendwann, wie ein Mensch oder ein Gesicht aussieht, was ein Lächeln oder ein Weinen ist. Mit diesem Wissen ausgestattet – und nach weiteren „Lernstufen“, in denen dieses Wissen noch validiert, getestet und verfeinert wird, kann das Programm dann neue Bilder „erschaffen“ und beispielsweise die verschiedensten Label („Mann, 30 Jahre alt, braune lange Haare, lächelnd, hohe Auflösung“) miteinander in einem in sich stimmigen Bild kombinieren.

Wie erkennen Verbraucher*innen von KI generierte Inhalte im Internet?

Tatsächlich ist es oft sehr schwierig, KI-generierte Inhalte eindeutig zu identifizieren. Moderne KI-Modelle wie GPT-4 von OpenAI oder die Bildgenerierungs-Modelle Stable Diffusion oder Midjourney sind in der Lage, sehr realistische und in sich stimmige Inhalte zu erstellen. Es gibt aber ein paar Anhaltspunkte, anhand derer es (manchmal) möglich ist, KI generierte Inhalte zu erkennen:

Ausschließlich KI-generierte Texte weisen manchmal eine übermäßige Korrektheit und Konsistenz auf, die in von Menschen erstellten Texten eher selten ist. Auch die wiederholte Verwendung bestimmter Phrasen und Begriffe, lässt manchmal auf eine künstliche Urheberschaft schließen. Eine zuverlässige Möglichkeit, KI-generierte Texte zu erkennen, gibt es aber nicht – zumal den entsprechenden Programmen auch Vorgaben zu Satzlänge, Struktur und vielen weiteren Attributen gemacht werden können. Der KI-generierte Text ist damit nicht nur vom Inhalt, sondern auch von seiner Struktur und der Wortwahl her abhängig von den Vorgaben, die der KI gemacht wurden.

Gleiches gilt für Bilder, auch wenn es hier derzeit noch ein wenig einfacher ist, KI-generierte Inhalte zu erkennen. So geben manchmal bereits die Meta-Daten eines künstlich erstellten Bildes Aufschluss über seine Herkunft. KI-generierte Bilder enthalten beispielsweise in ihren Dateieigenschaften teilweise Hinweise auf das verwendete Generierungstool.

Manchmal entlarvt sich ein KI-erstelltes Bild in kleinen Details, die erst bei einem Heranzoomen erkennbar werden. Unstimmigkeiten, die bei einem echten Foto nicht auftreten können (z.B. sechs Finger an einer Hand, nicht erklärbare Verformungen) oder nicht passende Proportionen sind ein zuverlässiger Hinweis auf einen KI-generierten Inhalt. Bei Bildern, die eine große Reichweite erzielen, hilft auch die Schwarmintelligenz. Häufig sind solche Bilder bereits Faktenchecks unterworfen oder in Foren diskutiert. Über eine Bilderrückwärtssuche lässt sich manchmal auch der Ursprung des Bildes zurückverfolgen.

Letztendlich gilt aber auch bei KI-erstellten Bildern, dass es – jedenfalls für den „normalen“ Internetnutzer – keine zuverlässige Möglichkeit gibt, KI-erstellte Bilder zu erkennen, zumal die KI-Modelle stets dazulernen und in den letzten Jahren erhebliche Qualitätssteigerungen stattfanden.

Die KI-Verordnung der EU – eine Lösung?

Am 21. Mai 2024 hat der Rat der Europäischen Union die KI-Verordnung (AI Act) verabschiedet, diese tritt 20 Tage nach ihrer Veröffentlichung in Kraft, was voraussichtlich im Juli 2024 der Fall sein wird.

Die KI-Verordnung verpflichtet Anbieter von KI-generierten Inhalten diese eindeutig zu kennzeichnen. Die Kennzeichnung soll es Nutzern ermöglichen, auf den ersten Blick zu erkennen, ob ein Inhalt von einer KI erstellt wurde oder nicht. Allerdings laufen ab Inkrafttreten der KI-Verordnung Übergangsfristen von bis zu zwei Jahren, so dass viele Regelungen, insbesondere auch die Kennzeichnungspflichten, erst 2026 greifen. Da mit Einführung der KI-Verordnung auch Regulierungsbehörden entstehen, die bei Verstößen erhebliche Bußgelder verhängen können, ist jedenfalls bei europäischen Anbietern davon auszugehen, dass sich diese an die neuen Regelungen halten werden.

Quellen:

https://www.facebook.com/privacy/genai

https://www.verbraucherzentrale.nrw/aktuelle-meldungen/digitale-welt/ihre-daten-bei-facebook-und-instagram-fuer-ki-so-widersprechen-sie-95646

https://www.zdf.de/nachrichten/ratgeber/meta-facebook-instagram-ki-datenschutz-100.html

https://www.clickworker.de/kunden-blog/kuenstliche-intelligenz-systeme-trainieren/

https://www.dw.com/de/faktencheck-wie-erkenne-ich-ki-generierte-bilder/a-65252413

https://www.noerr.com/de/insights/ki-verordnung-ai-act-final-verabschiedet

https://www.it-recht-kanzlei.de/ki-inhalte-kennzeichnungspflicht.html#abschnitt_1