Technologische Entwicklung Data-Mining: Fluch für die Privatsphäre oder Nutzen für die Gesellschaft?

Was ist Data-Mining? Wer sind die wahren Gewinner dieser Methode? Ist die Privatsphäre dadurch eingeschränkt oder gar gefährdet?
Darüber wurde im Rahmen einer Podiumsdiskussion, veranstaltet vom TeleCommunication Cercle2010 am 22. Mai 2012 im Boecklsaal der TU Wien debattiert (www.keyevent.at). Zu Gast waren Dr. Hans G. Zeger (ARGE Daten), Dr. Roland Kurzawa (Data Technology), Dr. Florian Frommlet (Medizinische Universität Wien), Jakob Steinschaden (Journalist & Autor), Markus Huber (SBA Research) und Thomas Zimmer (Hewlett-Packard).

Was ist Data-Mining?

Data-Mining ist eine Methode bzw. Werkzeug, um aus einer großen Datenmenge (Big Data), Informationen zu aggregieren und in weiterer Folge daraus Hypothesen zu erstellen. Die Technologie bzw. Algorithmen dahinter gibt es schon sehr lange, es sind statistische Verfahren wie Assoziations- oder Regressionsanalysen, um Zusammenhänge oder Abhängigkeiten erkennen zu können.
Immer wieder fällt der Hinweis auf eine Verdoppelung der Datenmenge etwa alle 2 Jahre – vor allem unstrukturierte oder halb-strukturierte Daten verursachen eine Datenexplosion. Die digitale Gesellschaft wirkt sich wachstumsfördernd auf die Datenmenge aus. Seien es Daten die im Internet über Social Media, Blogs oder Foren veröffentlicht werden, Aktenberge die gelagert wurden und nun digitalisiert werden, wie auch Logdaten oder Überwachungsbilder (und -videos). Eine automatisierte statistische Auswertung vorhandener Daten liegt nahe. Auch wenn die Rechenleistung immer performanter wird, ist eine Selektion und Filterung von Daten immer wichtiger. „Search“ kommt eine immer größer werdende Bedeutung zu.

Wer profitiert?
Auf den ersten Blick werden meist Unternehmen als Gewinner oder Profiteure identifiziert. Es schließt allerdings nicht aus, dass Kunden, Privatpersonen oder die Gesellschaft einen Nutzen darin finden. Einige Unternehmen investieren viele Ressourcen in Data-Mining, um beispielsweise Trends erkennen zu können. Dabei steht meist nicht der einzelne Kunde oder die Person im Mittelpunkt sondern vielmehr die Gesamtheit der Kunden bzw. derer die es noch werden sollen. Lebensmittelkonzerne können dadurch ihr Sortiment für bestimmte Tage adaptieren und vorzeitig auf die Bedürfnisse der Kunden anpassen. Banken haben Interesse daran, die Kreditwürdigkeit (Scoring) von Mandanten besser bestimmen zu können, um entsprechende Rücklagen minimal zu halten. Auch im medizinischen Bereich wird Data-Mining immer mehr eingesetzt. Durch eine Analyse von genetischen Einflüssen auf Krankheiten können dabei bessere Behandlungsmethoden entwickelt werden.
Die Herausforderung bei Data-Mining ist das Erkennen von „False Positives“ und „False Negatives“. In vielen Fällen lässt sich nur sehr schwer die Korrektheit der gewonnen Informationen feststellen. Im Social Media Bereich posten Nutzer persönliche Daten oder geben andere Informationen preis – die Korrektheit ist in Frage zu stellen.

Wo liegen die Gefahren?

Für Data-Mining ist eine Trennung zwischen Analysemöglichkeiten von Daten und Schutz der Daten vor unberechtigten Zugriff notwendig. Gefahren liegen wie so oft in der zweiten Komponente, dem Missbrauch – dies wird jedoch immer wieder unterschätzt. Um einen Missbrauch oder unsachgemäße Anwendung von Daten erfassen und erkennen zu können sind allerdings zeitgemäße Datenschutzbestimmungen erforderlich. Aktuell bezieht sich Datenschutz auf Daten von denen bekannt ist, für welche Zwecke sie verwendet werden. Bei Data-Mining ist dies im Voraus nicht immer erkennbar.

Analysierte Trends auf einzelne Personen herunter zu brechen, birgt die Gefahr falsche Annahmen zu treffen. Die Analyse von Videodaten nach verdächtigen Kriminellen, kann schnell nicht-kriminelle Individuen unter Verdacht stellen. So mögen lange Wartezeiten bei Stationen von öffentlichen Verkehrsmitteln verdächtig wirken, trotzdem ist die wartende Person nicht automatisch kriminell (sondern die Station ist möglicherweise nur ein Treffpunkt). Es gibt Branchen in denen Daten aus regulatorischen oder rechtlichen Gründen gespeichert werden müssen, wie zum Beispiel im Telekommunikations- oder Bankensektor. Paradox ist, je mehr Daten gesammelt und verknüpft werden, desto größer wird die Gefahr einer Missinterpretation.