Big-Data-Analysen sind nicht neutral

Die Nutzung algorithmischer Entscheidungsfindung auf Basis von Big Data birgt einige Probleme, die besonders relevant sind, wenn sie Entscheidungen über Menschen treffen. Diese spielen in der positiven Bewertung von Big Data für Wissenschaft und Wirtschaft keine zentrale Rolle, werden jedoch in anderen Kreisen, z.B. von Bürgerrechtler*innen und einigen Wissenschaftler*innen diskutiert.

Mithilfe großer Datenmengen werden sog. „data doubles“ (Daten-Dubletten) von Menschen geschaffen, die eine Person als eine Summe ihrer Daten abbilden und damit modellieren und in Beziehung zu anderen Daten setzen. Ein einfaches Beispiel: Aufgrund des Wohnortes von Personen werden statistische Aussagen und Verbindungen zu Konsumverhaltensweisen getroffen. Diese sind grundsätzlich nicht neutral, sondern wertend und performativ, d.h. sie haben einen echten Effekt auf das Leben von Menschen. David Lyon z.B. schreibt dazu, dass „Daten-Dubletten, da sie aus kodierten Kategorien heraus geschaffen werden, keine unschuldigen oder harmlosen virtuellen Fiktionen sind. Während sie im Umlauf sind, eröffnen und schließen sich Zugänge und Möglichkeiten. […] Sie bewirken einen echten Unterschied. Sie sind ethisch, politisch.“1

Dies bekommt vor dem Hintergrund einer unterschiedlich stark ausgeprägten Einseitigkeit der algorithmischen Analyse und Entscheidungsfindung eine besondere Bedeutung: Erstens wird als Nachteil der Personalisierung die Konstruktion von Echokammern bzw. „Filterblasen“2 genannt, welche ausschließlich schon bestehende Meinungen, Einstellungen oder Informationen widerspiegeln. Zweitens werden computergestützte Entscheidungsfindungsverfahren zwar oft dafür gelobt, weniger empfänglich für menschliche Vorurteile und persönliche Einstellungen zu sein. Dennoch sind gerade maschinenbasierte Entscheidungsprozesse anfällig dafür, „die weitaus massiveren Auswirkungen systemischer Verzerrungen und blinder Flecken im Hinblick auf strukturelle Einschränkungen“ zu normalisieren.3 Bewusste und unbewusste Einseitigkeiten und Werte werden in die Programmcodes und Algorithmen eingeschrieben. Anders gesagt: Algorithmen bekommen Werte und Vorurteile von Programmierer*innen und Auftraggeber*innen vererbt. Diese Algorithmen bestimmen, welche Daten gesammelt, wie sie verknüpft und wie daraus Erkenntnisse gewonnen werden. Solche strukturellen Einseitigkeiten sind kaum nachverfolgbar, weil Algorithmen meist nicht offengelegt werden oder wenn doch, sehr komplex sind und sich mit der Zeit und bei häufiger Nutzung und Erweiterung selbst umschreiben können. Man könnte dem gegenüber stellen, dass alle Technologien in der einen oder anderen Weise Menschen diskriminieren, aber was Diskriminierung durch umfassende Big-Data-Analysen von anderen Technologien unterscheidet, ist das systematische und sowohl „detaillierte [als auch] adaptive Spektrum der Kategorisierungen, die sie produzieren“ können.4 In anderen Worten werden Menschen durch intransparente Prozesse in zahllose Gruppen eingeteilt, die sich ständig wandeln und kaum greifbar sind. Diese Einteilung bildet die Grundlage dafür, dass diese Menschen unterschiedlich behandelt werden.

Inhärente Diskriminierung und Probleme der Statistik

Darüber hinaus behauptet etwa Guzik, dass „vorhersagendes Data-Mining designbedingt diskriminiert”, weil dessen Kernfunktion darin besteht, bestimmte Personengruppen festzulegen und zu unterscheiden.5 Je nach Bewertung dieser Gruppe hat dies unterschiedlich schwere Auswirkungen. Besonders stark sind diese, wenn Big-Data-Analysen z.B. zur Terrorabwehr oder in anderen Sicherheitsfragen angewandt werden, um verdächtige oder potentiell gefährliche Personen zu finden. In diesem Fall sind deutliche Nachteile bis hin zum Freiheitsentzug für Menschen zu erwarten, die in eine Hochrisiko-Gruppe eingruppiert werden. Alle Mitglieder einer solchen statistisch geschaffenen Gruppe „tragen die Last dieser Überwachungsmethode und der zahllosen Fehler – falsch-positive Meldungen – die sie verursachen wird”.6 Diese falsch-positiven sind genauso wie falsch-negative Meldungen zwangsläufig Bestandteil jeder statistischen Analyse. Wie Guzik weiter ausführt, ist es nicht nur ein Problem, dass diese Personen unschuldig sind und dennoch staatliche Überwachung oder einschränkende Maßnahmen erfahren, die ihre Grundrechte betreffen, sondern es betrifft auch die gerechte Verteilung dieser Kosten/Belastungen in der Gesellschaft ebenso wie die Privatsphäre. Deshalb betreffen solche Gruppeneinteilungen nicht nur individuelle Rechte und Nachteile, sondern sind auch eine Frage der Fairness und sozialen Gerechtigkeit.7 Entscheidungen auf Basis solcher Kategorien und Gruppen zu treffen wird auch ‚statistische Diskriminierung‘ genannt. Oft wird als Gegenargument angeführt, dass darin kein Problem bestehe, solange diese Diskriminierung einem höheren Ziel diene, wie z.B. einer verbesserten Sicherheit der Gesellschaft.8 Dieser Argumentation folgend wären Entscheidungen zu rechtfertigen, die auch ohne gesicherte Erkenntnisse oder Kausalbeziehungen allein auf Basis von Vermutungen getroffen werden, solange diese zumindest einigermaßen zuverlässig sind.

Eine Bewertung der Zuverlässigkeit ist jedoch kaum möglich, da sich Big-Data-Algorithmen durch eine Analyse ihrer Einordnungen selbst bestätigen können: Wenn z.B. zwei Gruppen unterschieden werden mit dem Zweck, die Personen der zweiten Gruppe stärker auf verbotene Gegenstände o.Ä. zu untersuchen, so wird diese Untersuchung auch statistisch mehr Treffer in dieser Gruppe zum Vorschein bringen. Damit ist auch nachträglich kaum möglich, durch einen Vergleich der algorithmisch differenzierten Gruppen dieser Differenzierung ihre Untauglichkeit nachzuweisen.

Es bleibt darüber hinaus die grundsätzliche Frage, wie viel Einfluss über Menschen wir bereit sind und sein sollten, Algorithmen zuzugestehen – so gut oder schlecht sie auch arbeiten mögen.


  1. Lyon, David (2003): Surveillance as social sorting. In: David Lyon (Hg.): Surveillance as Social Sorting. London: Routledge, S. 13–30. ↩︎

  2. Pariser, Eli (2011): The Filter Bubble. What the Internet Is Hiding from You. New York: The Penguin Press. ↩︎

  3. Gandy, Oscar H. (2010): „Engaging Rational Discrimination: Exploring Reasons for Placing Regulatory Constraints on Decision Support Systems“, Ethics and Information Technology 12(1): 29–42. ↩︎

  4. de Vries, Katja (2010) „Identity, Profiling Algorithms and a World of Ambient Intelligence“, Ethics and Information Technology 12(1): 71–85. ↩︎

  5. Guzik, Kevin (2009) „Discrimination by Design: Predictive Data Mining as Security Practice in the United States’ ‘War on Terror’“, Surveillance & Society 7(1): 3–20. ↩︎

  6. Guzik, Kevin (2009) „Discrimination by Design: Predictive Data Mining as Security Practice in the United States’ ‘War on Terror’“, Surveillance & Society 7(1): 12. ↩︎

  7. Guzik, Kevin (2009) „Discrimination by Design: Predictive Data Mining as Security Practice in the United States’ ‘War on Terror’“, Surveillance & Society 7(1): 12. ↩︎

  8. Gandy, Oscar H. (2010) „Engaging Rational Discrimination: Exploring Reasons for Placing Regulatory Constraints on Decision Support Systems“, Ethics and Information Technology 12(1): 29–42. ↩︎