Über uns gesammelte Rohdaten werden oft verharmlosend als «digitale Abgase» (digital exhaust) bezeichnet. Das heisst, so wie ein Auto durch seine Bewegung Spuren in der Umwelt hinterlässt, hinterlassen Nutzer:innen ebenfalls Spuren durch ihre Mobilität im Internet. Am deutlichsten ist die Analogie bei Bewegungsdaten, d. h. die Informationen, an welchem Ort sich ein Gerät (und damit seine Nutzer:in) wann aufgehalten hat bzw. aktuell aufhält. Diese fallen an, indem wir uns mit unseren mobilen Geräten (in der physischen Welt) fortbewegen und die Geräte ihre Position ständig bekanntgeben, sei es durch GPS-Koordinaten, durch Einwahl in Mobilfunkzellen oder andere Mechanismen. Jeder Akteur, der diese Daten besitzt, erhält so ein sehr genaues Bild davon, wo sich die Besitzer:in des Gerätes aufgehalten hat – und das 24×7.
Untersucht man diese Daten über einen längeren Zeitraum, ergeben sich Bewegungsmuster. So lässt sich mit an Sicherheit grenzender Wahrscheinlichkeit ableiten, wo wir wohnen, wo wir arbeiten, wo und mit wem wir unsere Freizeit verbringen, mit wem wir zusammen wohnen, zu welchen Ärzten wir gehen etc. Aus diesen Informationen lassen sich dann u. a. weitere Schlüsse ziehen, z. B. welche Krankheiten wir haben, welche sexuelle Orientierung, was unsere Freizeitinteressen sind, welche politische Meinung wir vertreten etc. Auch erlauben die Daten mitunter relativ genaue Prognosen darüber, wo wir uns in Zukunt aufhalten, mit wem wir Kontakt haben werden u. v. a. m.
Die Lokationsdaten mögen bei der Erhebung «anonymisiert» sein, sie lassen sich jedoch durch Verbindung mit weiteren Datensätzen in derselben Datenbank und/oder anderen Datensammlungen (z. B. Adressverzeichnissen, Telefonbücher) leicht «deanonymisieren».
Ein Team des norwegischen öffentlichen Rundfunks NRK besorgte sich für 3000 Euro die Lokationsdaten von Tausenden Norweger:innen. Aus diesen Daten war ersichtlich, wo sich die Menschen im Jahr 2019 aufgehalten hatten. Obwohl die Daten anonymisiert waren, konnten die Journalist:innen sie deanonymisieren und so einzelne Personen identifizieren. Beispielsweise konnten sie für fast jeden Tag jenes Jahres aufzeigen, wo sich Karl Bjarne Bernhardsen aus Stavanger aufgehalten hatte – im Zoo, bei einem Bewerbungsgespräch, als frischer Vater im Spital.
Ein weiteres Beispiel zeigt, dass in vielen Fällen der Zusammenhang zwischen den gesammelten Daten und den abgeleiteten Informationen sehr viel indirekter und weitreichender sein kann als im obigen Beispiel, indem z. B. aus sehr profanen Daten mittels maschinellem Lernen Korrelationen abgeleitet werden können, welche menschlicher Mustererkennung verborgen blieben und äusserst sensitive Informationen preisgeben.
Ein bereits ein Jahrzehnt zurückliegender Bericht im New York Times Magazine erläutert detailliert, wie in der amerikanischen Supermarktkette Target ein Verfahren trainiert wurde, das es erlaubte, schwangere Kundinnen zu erkennen – und zwar zu einem Zeitpunkt so früh in der Schwangerschaft, an dem den Frauen oft selbst noch nicht bewusst war, dass sie ein Kind bekommen. Dazu wurde eine «Trainingsmenge» von Frauen zur Teilnahme an einem Programm eingeladen, in dem einerseits ihr Einkaufsverhalten aufgezeichnet wurde, und die Frauen andererseits bekannt gaben, ob sie schwanger waren und wann der errechnete Geburtstermin sein sollte. Durch das Trainieren des Systems war es Target anschliessend möglich, mit recht grosser Präzision anhand des Einkaufsverhaltens beliebiger Frauen vorherzusagen, ob und in welchem Monat diese schwanger waren. Diese Information konnte dann für personalisierte Werbung und Angebote ausgenutzt werden.
Die Episode endet so, dass solche Werbung auch an eine Kundin im Teenageralter gesendet wurde. Die junge Frau wurde dadurch gegenüber ihrer Familie als schwanger geoutet. Diese Geschichte illustriert damit besonders deutlich einige wichtige Aspekte der kommerziellen Überwachung, die Grundlage der personalisierten Werbung ist:
- Der jungen Frau wurde ihr Recht auf informationelle Selbstbestimmung genommen, d. h. die Autonomie, selbst zu entscheiden, wann sie ihrer Familie von der Schwangerschaft erzählt.
- Die personalisierte Werbung traf die junge Frau in einer verwundbaren Situation. Dies ist kein unglücklicher Zufall, vielmehr sucht die personalisierte Werbung – auch und gerade politische Werbung – nach Situationen und Verhältnissen, in den Menschen besonders (leicht) ansprechbar sind.
- Die Ausgangsdaten der Kundinnen, die für die Vorhersage der Schwangerschaft – eine sehr sensitive und private Information – verwendet wurden, waren überaus harmlos. Was soll schon problematisch sein an der Information, dass eine Frau geruchlose Körperlotion in grossen Packungen kauft?
- Die verwendeten Daten fielen «offline» (bei einem Einkauf in einer Target-Filiale) an, durch das Vorweisen einer Kundenkarte konnten sie aber der Kundin zugeordnet werden (bei einem anonymen Einkauf mit Barzahlung wäre das nicht möglich gewesen). Das heisst auch, dass offline- und online-Daten problemlos miteinander verknüpft werden können.
- Die Vorhersage der Schwangerschaft ist eine abgeleitete Information. Das heisst, die Informationen, die Firmen über uns haben können, basieren auf statistischen Zusammenhängen (Korrelationen), die aus den Daten anderer Personen gewonnen wurden.
- Während wir in Beispielen (und unserem persönlichen Denken) immer von Einzelpersonen ausgehen und uns dabei für einzigartig halten, ist es wichtig zu verstehen, dass die statistischen Zusammenhänge aus der Analyse von sehr grossen Datenmengen stammen. Die abgeleitete Information (die Vorhersage der Schwangerschaft bspw.) ist dann nicht in allen Fällen korrekt, aber die erzielte Genauigkeit ist für Zwecke der personalisierten Werbung mehr als ausreichend.
Likes (und andere Arten standardisierter Interaktionen) stellen eine weitere Goldgrube von Daten in sozialen Medien dar. Offensichtlich kann man sogar mit blossem Auge die politische Einstellung von Nutzer:innen ableiten, wenn man ihre Likes und Dislikes in Diskussionsforen kennt. Hat man eine grössere Menge von Likes zu einer grösseren Anzahl von Artikeln (nicht nur politische Nachrichten und Kommentare), dann lassen sich daraus weitreichende Informationen über die Menschen ableiten, die die Likes vergeben haben: sexuelle Orientierung, politische Einstellung, ethnische Zugehörigkeit etc. Basierend auf einer relativ kleinen Menge von Likes (ca 300) kann ein Algorithmus dann einen Menschen besser einschätzen als dessen Partner:in.