Detailansicht
Investigating the risk of spatial re-identification of health geodata from ESDA outputs of confidential versus masked geodata
Valeria Wallach
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Geowissenschaften, Geographie und Astronomie
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Kartographie und Geoinformation
Betreuer*in
Ourania Kounadi
DOI
10.25365/thesis.76137
URN
urn:nbn:at:at-ubw:1-15313.68939.280733-8
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Die räumliche Analyse ist seit langem ein Teil der Gesundheitsgeographie und findet auf aggregierter Ebene statt. Bisher wurde keine standardisierte Geomasking-Methode von der DSGVO genehmigt, um räumliche Analysen auf Stadtebene und kleiner durchführen zu können. Gesundheitsdaten sind hochsensible Daten, die nur dann in wissenschaftlichen Fachzeitschriften abgebildet werden können, wenn sie kein Risiko einer räumlichen Reidentifikation darstellen. Umso wichtiger ist es, eine geeignete Maskierungsmethode zu finden, die das räumliche Muster der Originaldaten beibehält und gleichzeitig die DSGVO einhält. In dieser Arbeit wurden discrete Gesundheitsdaten auf Wiener Stadtebene simuliert. Im nächsten Schritt wurden die simulierten Daten (3) anhand Adaptive Voronoi Maskierung (AVM) und Adaptive Aerial Maskierung (AAM) geomaskiert. Letztendlich wurden die maskierte Punkte mit vorwiegend traditionellen ESDA-Techniken auf ihre Eignung in der medizinischen Forschung getestet. Basierend auf den ESDA-Ergebnissen wurde das Risiko einer räumlichen Re-Identifizierung visuell untersucht. Anhand der Punktkarten mit maskierten Punkten behält die AVM-Methode das räumliche Muster besser bei, als die AAM-Methode und bietet gleichzeitig einen besseren Schutz vor der räumlichen Reidentifikation. Die Ergebnisse der Cluster-Ausreißer-Analyse (Anselin) auf Punktebene haben eine detaillierte Datenanalyse ermöglicht. Basierend auf der AVM-Außreiser Visualisierung im Gebiet mit geringerer Dichte konnte ein Zusammenhang zwischen räumlicher Anonymität mit dem Straßennetz und der Bebauungsdichte angenommen werden. Die Ergebnisse der Kerndichte Schätzung und Hotspotanalyse, der Choroplethenkarten und der Cluster-Ausreißer-Analyse auf der Ebene der Registrationsbezirke haben gezeigt, dass das Risiko im Vergleich zu Punktkarten geringer ist, aber immer noch vorhanden ist. Aus diesem Grund wurde empfohlen die räumlichen Analysen mit maskierten Daten durchzuführen. Für die Gesundheitsgeographie empfiehlt sich die AVM-Methode. Dies liegt daran, dass die AAM-Methode das Punktmuster streut und das Risiko einer falschen Re-Identifizierung erhöht. Dies bedeutet jedoch nicht, dass die AAM-Geomaske keine Vorteile an sich hat. Ein gewisses Maß an Selbstkritik muss jedoch bleiben, denn bei den Gesundheitsdaten handelt es sich um hochsensible Informationen. Im Rahmen dieser Arbeit wurde eine qualitative Online-Befragung in Wiener Gesundheitseinrichtungen durchgeführt. Den Ergebnissen zufolge (weniger als erwartet) könnten mehr öffentliche Informationen über räumliche Analysen und Geomaskierung verfügbar sein, womit die öffentliche Gesundheit verbessert werden könnte.
Abstract
(Englisch)
Spatial analysis has long been a part of health geography and takes place at an aggregated level. So far, no standardized geomasking method has been approved by the GDPR to be able to perform spatial analysis at the city level and smaller. Health data is highly sensitive data that can only be mapped in scientific journals if it does not pose a risk of spatial reidentification. This makes it all the more important to find a suitable masking method that retains the spatial pattern of the original data while complying with the GDPR. In this thesis, discrete health data were at the city level of Vienna simulated. In the next step, the simulated data (3) was geomasked using Adaptive Voronoi Masking (AVM) and Adaptive Aerial Masking (AAM). Finally, the masked points were examined for their suitability in medical research using mainly traditional ESDA-techniques. Based on the ESDA results, the risk of spatial re-identification was visually assessed. Based on the point maps with masked points, the AVM method retains the spatial pattern better than the AAM method while providing better protection against spatial re-identification. The results of the cluster outlier analysis (Anselin) at the point level have enabled detailed data analysis. Based on the AVM-Außreiser visualization in the area with lower density, a connection between spatial anonymity and the road network and building density could be assumed. The results of the Kernel Density Estimation and Hotspot Analysis, Choropleth maps, and cluster outlier analysis at the registration district level, have shown that the risk is lower compared to point maps but is still present. For this reason, it was recommended to perform the spatial analyses with masked data. For health geography, the AVM method is recommended. This is because the AAM method spreads the point pattern widely and increases the risk of false re-identification. However, that doesn't mean that the AAM geomask doesn't have any benefits in itself. However, a degree of self-criticism must remain because health data is highly sensitive information. As part of this work, a qualitative online survey was carried out in Viennese health care facilities. According to the results (less than expected), more public information could be available via spatial analysis and geomasking, which could improve public health.
Schlagwörter
Schlagwörter
(Deutsch)
Gesundheitsdaten Simulation Gesundheitsgeography Risiko räumlicher Reidentifikation Räumliche K-Anonymität Geomasking Adaptive Voronoi maskierung Adaptive Aerial maskierung ESDA Resultate Datenschutz
Schlagwörter
(Englisch)
Health data simulation Health Geography Risk of reidendification Spatial K-Anonymity Geomasking Adaptive Voronoi masking Adaptive Aerial masking ESDA Results Privacy
Autor*innen
Valeria Wallach
Haupttitel (Englisch)
Investigating the risk of spatial re-identification of health geodata from ESDA outputs of confidential versus masked geodata
Publikationsjahr
2024
Umfangsangabe
149 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Ourania Kounadi
AC Nummer
AC17231026
Utheses ID
71405
Studienkennzahl
UA | 066 | 856 | |