Vorteile einer Doppelgängerstadt
Es ist möglich, Standortdaten von Smartphones zu analysieren, ohne die Privatsphäre der Nutzer zu verletzen. Pieter Fourie erklärt wie.
Marketingfirmen besitzen riesige Mengen an Daten aus Smartphone-Apps, die genau zeigen, wo wir uns wann aufgehalten haben. Ein von der New York Times untersuchter Datensatz umfasst alleine für den Grossraum New York und den Zeitraum von drei Tagen 235 Millionen Standortdatenpunkte von 1,2 Millionen Mobilgeräten. In einem lesenswerten Artikel1 und einer Podcast-Episode2 zeigte uns die Zeitung im vergangenen Dezember auf, wie einzelne Personen verwundbar sind, wenn persönliche Daten massenhaft an den Meistbietenden verkauft werden. Sie offenbarte die persönlichen, wirtschaftlichen und gesellschaftlichen Dimensionen des Handels mit Standortdaten und wies drauf hin, dass es diesem Wirtschaftszweig an Regulation mangelt.
Für manche, die dem Thema bislang eher gleichgültig gegenüberstanden, dürften die genannten grossen Zahlen einen Alptraum Orwell'schen Ausmasses darstellen. Als Mobilitätsforscher im Zeitalter von Big Data gewöhnt man sich jedoch schnell an solche Grössenordnungen. Anstatt gleich den Untergang der Privatsphäre heraufzubeschwören, kann man diese Daten auch als Chance sehen: Zum Beispiel für den Aufbau besserer Modelle, mit denen wir Mobilitätsfragen untersuchen können. Es ist nämlich möglich, solche Trackingdaten zu nutzen und gleichzeitig die Privatsphäre der Menschen zu schützen.
Ein endloser Wettlauf
Es gibt mehrere Ansätze, dies zu tun. Die Firmen, welche mit Standortdaten handeln, behaupteten gegenüber der New York Times, dass sie die Daten stets in aggregierter oder anonymisierter Form verwendeten. Konkret: Entweder werden Datenpunkte so gebündelt, dass Personen nicht mehr voneinander unterscheidbar sind, oder die identifizierende Informationen wird «maskiert», also bewusst verändert.
Bei Bewegungsdaten von Personen ist die Anonymisierung jedoch gar nicht so einfach3. Wenn neue Anonymisierungs- und Maskierungstechnologien entwickelt werden, ist es oft auch möglich, Algorithmen zur Deanonymisierung zu entwickeln, mit denen die Spuren einzelner Personen wieder rekonstruiert werden können. Das heisst, es ist nie auszuschliessen, dass meine Privatsphäre im endlosen Wettlauf zwischen Datenschutz und Hackerattacke irgendwann trotzdem verletzt wird.
Synthetische Daten als Alternative
In unserem Team im Future Cities Laboratory erforschen wir daher Alternativen zu den herkömmlichen Methoden der Standortmaskierung. Wir fragten uns: Ist es möglich, künstliche Ortsdatenströme zu erzeugen mit derselben zeitlichen und räumlichen Auflösung wie das auch Smartphones machen, ohne jedoch einen echten, von einer Person zurückgelegten Bewegungspfad zu reproduzieren?
In der Praxis gibt es nämlich nur sehr wenige Fälle, in denen man zur Analyse von Mobilitätsdaten Zugang zu den detaillierten Originaldaten einer bestimmten Person benötigt. Oft ist es genauso gut möglich, mit einem bewusst veränderten Datensatz zu arbeiten. Wir generieren solche synthetischen Datenströme aus Rohdaten, wobei die Rohdaten nur vom Computer bearbeitet werden und für die Anwender unsichtbar bleiben.
«In einer ‹Doppelgänger-Stadt› können Verkehrsmassnahmen getestet werden, während die Menschen in der realen Welt unbehelligt bleiben.»Pieter Fourie
Synthetische Daten entstehen in mehreren Schritten: Die Standortrohdaten der Mobilgeräte werden sicher und verschlüsselt übertragen und in geprüfter und zertifizierter Weise zu Datenaggregaten zusammengefasst. Diese Aggregate kann man anschliessend verwenden, um synthetische Mobilitätsdaten zu erzeugen, die sich in ihren statistischen Eigenschaften nicht von den realen Daten unterscheiden. In unserem Labor arbeiten wir derzeit an zwei verschiedenen Methoden, um dies umzusetzen4,5.
Diese Techniken sind nicht nur ein Fortschritt bei der Wahrung der Privatsphäre, sondern sie erweitern auch das Potenzial der Verkehrsmodellierung: Man kann die synthetischen Daten in moderne Mobilitätssimulationen einspeisen. So ist es möglich, eine ganze «Doppelgänger-Stadt» zu schaffen, in der die Auswirkungen politischer Entscheidungen erforscht und Verkehrsmassnahmen getestet werden können, während die Menschen in der realen Welt unbehelligt bleiben.
Referenzen
1 externe Seite Your Apps Know Where You Were Last Night, and They’re Not Keeping It Secret, York Times, 10 December 2018
2 externe Seite The Business of Selling Your Location, The Daily podcast New York Times, 10 December 2018
3 Chow CY, Mokbel MR: Trajectory privacy in location-based services and data publication, ACM SIGKK Exploration Newsletter 2011, 13: 19, doi: externe Seite 10.1145/2031331.2031335
4 Fourie PJ: Synthesizing high-dimensional, agent-based transport demand data from two-dimensional aggregates with iterative multiple histogram matching, ETH Zürich Research Collection 2016, doi: externe Seite 10.3929/ethz-b-000118466
5 Cuauhtémoc A, Ordoñez Medina SA: A time-space model of disaggregated urban mobility from aggregated mobile phone data, ETH Zürich Research Collection 2018, doi: externe Seite 10.3929/ethz-b-000268852