Detailansicht

Time series comparison of global infectious disease cases and online symptom-checker assessments
a comparison of time series resulting from confirmed cases of infectious diseases and online symptom-checker assessment
Marc David Zobel
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Informatik
Betreuer*in
Christian Böhm
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.77763
URN
urn:nbn:at:at-ubw:1-28889.34641.403329-4
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Die zentralen Ziele dieser Arbeit sind es, zu analysieren, inwiefern der Online-Symptom-Checker Symptoma spezifische Zeitreihen für unterschiedliche Krankheitsbilder erzeugt und ob diese mit den offiziell berichteten COVID-19-Fällen in einer systematischen Beziehung stehen. Es wurden die 40 häufigsten Krankheitsvorschläge durch Symptoma in Österreich ausgewählt. Für jede dieser Erkrankungen wurden Zeitreihen generiert, indem die Anzahl der NutzerInnen aggregiert wurde, bei denen die jeweilige Krankheit unter den 30 wahrscheinlichsten Ursachen von Symptoma aufgeführt wurde. Anschließend wurden diese Zeitreihen mit den bestätigten COVID-19-Fällen verglichen, wobei der Pearson-Korrelationskoeffizient (PCC) zur Bestimmung der Ähnlichkeit herangezogen wurde. Zudem wurde der Überlappungskoeffizient der Symptome berechnet, um strukturelle Gemeinsamkeiten zwischen den Krankheitsbildern zu quantifizieren. Krankheiten mit einem niedrigen Symptom-Überlappung mit COVID-19 zeigten ebenfalls eine niedrige Korrelation mit der Zeitreihe aus durch Symptoma identifizierten COVID-19 Fällen. Selbst Atemwegserkrankungen, die wie erwartet eine hohe Symptom-Überlappung aufweisen zeigen einen PCC von maximal 0,44. Demnach sind die Zeitreihen generiert mit den Nutzerdaten des Online-Symptom-Checker Symptoma unter sich einzigartig. Diese Ergebnisse zeigen, dass Symptoma selbst ähnliche Krankheiten verlässlich voneinander unterscheiden kann. Die Datenbasis der zweiten Analyse umfasst aggregierte Nutzungsdaten von Symptoma sowie Fallzahlen der JHU, die den Zeitraum vom 1. Mai 2020 bis zum 1. Mai 2021 abdecken. Um zeitliche Verschiebungen in den Fallzahlen zu berücksichtigen, wurde der PCC für eine optimale Verschiebung (lag) zwischen -30 und +30 Tagen berechnet. Diese Berechnungen erfolgten für 18 von 84 untersuchten Ländern, wobei die Auswahl der Länder auf der Verfügbarkeit durchgängig erfasster Daten über 366 Tage basierte. Die Analyse ergab eine durchschnittliche zeitliche Verschiebung von +10 Tagen sowie eine mittlere Korrelation von 0,55 zwischen den Symptoma-Daten und den COVID-19-Fallzahlen der JHU in den ausgewählten Ländern. Diese Ergebnisse wurden durch zusätzliche Ähnlichkeitsmaße bestätigt, darunter die euklidische Distanz (L2-Norm), das Dynamic Time Warping (DTW) sowie die Time Warped Edit Distance (TWED). Die festgestellte positive mediane Verschiebung weist darauf hin, dass Fälle infektiöser Erkrankungen tendenziell früher in Symptoma-Daten sichtbar werden als in den offiziell gemeldeten Fallzahlen. Daraus lässt sich ableiten, dass Online-Symptom-Checker wie Symptoma potenziell als Frühwarnsysteme für aufkommende Krankheitsausbrüche genutzt werden können. Gleichzeitig werden in dieser Arbeit die Grenzen einer solchen Anwendung diskutiert. Es konnte beobachtet werden, dass die Korrelation zwischen den offiziellen Fallzahlen und den Symptoma-Daten nach der zweiten Infektionswelle in den meisten Ländern signifikant abnahm. Dies wird als Hinweis auf eine zunehmende Ermüdung in der Bevölkerung hinsichtlich der COVID-19-Berichterstattung interpretiert, ein Phänomen, das auch in anderen wissenschaftlichen Arbeiten dokumentiert wurde[36]. Die Ergebnisse dieser Arbeit verdeutlichen das Potenzial digitaler Gesundheitsdaten für die epidemiologische Überwachung, zeigen aber gleichzeitig die Notwendigkeit einer differenzierten Betrachtung der Limitationen und methodischen Herausforderungen auf. Zukünftige Forschungen sollten sich darauf konzentrieren, die Übertragbarkeit der Ergebnisse für weitere geografische Regionen und Krankheitsbilder zu untersuchen sowie alternative algorithmische Ansätze zur Optimierung der Datenanalyse einzusetzen. Durch die Verbindung von internetbasierten Gesundheitsdaten mit epidemiologischen Modellierungen leistet diese Arbeit einen Beitrag zur Weiterentwicklung digitaler Überwachungsmethoden und bietet eine Grundlage für die mögliche Implementierung von Online-Symptom-Checkern als unterstützende Werkzeuge im Bereich des öffentlichen Gesundheitswesens.
Abstract
(Englisch)
This work explores the similarity between test data generated via the online symptom checker Symptoma and confirmed global COVID-19 cases aggregated by Johns Hopkins University (JHU). It contributes to the large body of work concerned with the surveillance of epidemics under the umbrella term Infodemiology[11]. We show that Symptoma produces unique time series for diseases with different symptoms. We selected the top 40 returned diseases in Austria and produced time series for these by aggregating the amount of users that had the respective disease in the top 30 of possible causes returned by Symptoma. The Pearson correlation coefficient (PCC) between those time series and COVID-19 as well as the overlap coefficient between symptoms were calculated. By comparing those two we found that Symptoma produces distinct time series for diseases that are dissimilar in their set of symptoms. Additionally data from Symptoma GmbH and Johns Hopkins University was collected and preprocessed between 1st of May 2020 and 1st of May 2021. The PCC was calculated after introducing optimal lags between -30 and +30 days for 18 out of 84 countries that showed 366 consecutive days of usage. The countries show a median lag of +10 days and a median PCC of 0.55. Those results are confirmed by the shifted euclidean distance (L2-norm), dynamic time warping (DTW) and time warped edit distance (TWED). The positive median lag suggests that cases show up earlier in Symptoma and that the data produced by the online symptom checker could be used as an early warning signal. We further discuss the limitations of such usage. The similarity between real world case counts and Symptoma data decreased in most countries after the second wave of infections. We attribute this to media fatigue within the population with regards to the COVID-19 pandemic as others have suggested in their work as well[36].

Schlagwörter

Schlagwörter
(Deutsch)
Zeitreihen Infodemiology Überwachung Infektiöser Krankheiten Online Symptom Checker Informatik
Schlagwörter
(Englisch)
Infodemiology Surveillance of Infectious Diseases Time Series
Autor*innen
Marc David Zobel
Haupttitel (Englisch)
Time series comparison of global infectious disease cases and online symptom-checker assessments
Hauptuntertitel (Englisch)
a comparison of time series resulting from confirmed cases of infectious diseases and online symptom-checker assessment
Paralleltitel (Deutsch)
Vergleich von Zeitreihen globaler Infektionskrankheitsfälle und Bewertungen eines Online-Symptom-Checkers
Publikationsjahr
2025
Umfangsangabe
66 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Christian Böhm
Klassifikationen
44 Medizin > 44.99 Medizin. Sonstiges ,
54 Informatik > 54.29 Datenverarbeitungsanlagen. Sonstiges ,
54 Informatik > 54.99 Informatik. Sonstiges
AC Nummer
AC17447370
Utheses ID
74744
Studienkennzahl
UA | 066 | 921 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1