rheingucker

Meinungsblog zu Politik, Gesellschaft und Wirtschaft


Ein Kommentar

Sidekick: Statistik & die NSA

Heute gibts ein wenig Statistik anhand der NSA erklärt. Die hat kundgetan, dass sie den ganzen Heuhaufen braucht, um die Nadel darin zu finden. Wie sieht sowas genau aus? Und warum ist die wachsende Größe des Heuhaufens dabei ein Problem?

Nun die NSA meint damit zwei Dinge: Einmal suchen sie Auffälligkeiten. Genauer gesagt Auffälligkeiten im Kommunikationsverhalten. Zum anderen wollen sie gern ab und zu die Zeit zurückdrehen.

Zu den Auffälligkeiten: Um zu definieren was auffällig ist, muss man erst wissen, was normal ist. Dafür braucht man genügend Daten. Dort schaut man, ob sich mathematisch signifikante (bedeutsame) Unterschiede zwischen den Personen ergeben. Die Personen, deren Merkmale sich im terroristischen Sinne signifikant (also nicht zufällig) aus der Masse herausheben, kann man dann genauer untersuchen.
Hier kommt dann die Vergangenheit ins Spiel. Hat man einen potentiellen Terroristen (oder die hübsche Nachbarin) identifiziert, will man wissen, was der so in der Vergangenheit gemacht hat. Wo war er, mit wem hat er worüber kommuniziert usw. Dafür müssen diese Daten bereits erhoben worden sein. Siehe Vorratsdatenspeicherung.

Soweit der Status quo. Jetzt gibt es jedoch noch die blöde Eigenschaft der Statistik, dass ein Signifikanztest mit größer werdender Stichprobe immer empfindlicher reagiert. Kleinste (und unbedeutende) Unterschiede werden als bedeutsam gedeutet, wenn die Stichprobe nur groß genug ist. Man spricht hier von künstlichen Signifikanzen. Mit wachsende Sammelwut verwandeln sich also die Datenbanken der NSA in Datenmüll, weil alles plötzlich verdächtig erscheint. Gegenregeln kann nur, indem man die Stichprobe reduziert, also bewusst manche Personen ausschließt. Die NSA muss sich also auf bestimmte Personengruppen konzentrieren und wird zwangsläufig wichtige Personen aus dem Blick verlieren. So eine Art vorurteilsbeladener Betriebsblindheit. Nennt sich auch Diskriminierung.

Ein wohlverdienter Teufelskreis, in dem sich da die Überwacher befinden. Man kann das ganze auch verstärken, indem man sich bemüht, keine oder falsche Daten ins System zu geben. Dies verstärkt die Unschärfe noch einmal.

Viel Spaß dabei!

PS: Wer will kann sich über die Stichwörter „Mustererkennung“, „Faktorenanalyse“, „Clusteranalyse“ und „Signifikanztests“ über die mathematischen Grundlagen schlau machen. Wikipedia liefert da gute Ergebnisse. Die NSA wird sicherlich auf dieser Basis sehr ausgefeilte eigene Modelle entwickelt haben.