Detailansicht
Mining high-dimensional data with applications in medicine
Lena Greta Marie Bauer
Art der Arbeit
Dissertation
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Doktoratsstudium der technischen Wissenschaften Informatik
Betreuer*innen
Claudia Plant ,
Philipp Grohs
DOI
10.25365/thesis.77651
URN
urn:nbn:at:at-ubw:1-17330.18614.729929-9
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Das Extrahieren von nützlichen Mustern aus hochdimensionalen Daten wie Bildern oder komplexen Datenstrukturen wie Zeitreihen, sowie die Analyse dieser Muster stellt Datenwissenschafter vor spezielle Herausforderungen. Die hohe Dimensionalität beeinträchtigt die Signifikanz üblicher Distanzmaße ("Fluch der Dimensionalität''), Laufzeitprobleme entstehen und es ist entscheidend, die Beziehung zwischen Bilderpixeln sowie zwischen aufeinanderfolgenden Zeitreihenwerten mit in Betracht zu ziehen. In dieser Dissertation werden Methoden präsentiert, die der Analyse eben solcher Daten dienen. Eines der wichtigsten Datenanalyseverfahren ist das so genannte Clustering - das Gruppieren von Objekten eines Datensatzes basierend auf einem bestimmten Ähnlichkeitsbegriff, ohne die Kenntnis der wahren Gruppenzugehörigkeit. Die Herausforderungen beim Clustering von immer größeren Sammlungen komplexer hochdimensionaler Daten führte zur Entwicklung von Deep Clustering Algorithmen, welche Deep Learning mit Konzepten des klassischen Clustering vereinen. Häufig wird ein spezielles neuronales Netzwerk, ein Autoencoder, benutzt um eine niedrigdimensionale Repräsentation der Daten zu lernen, welche für das Clustering herangezogen wird. Beide Aufgaben werden dabei gemeinsam optimiert. Deep Clustering Algorithmen, die auf diesem Prinzip basieren, bringen ein inherentes Problem mit sich: Um eine gute Repräsentation zu Lernen, ist es erforderlich möglichst viele Details der Daten zu erhalten, während das Clustering das Abstrahieren von Details erfordert. Will man diese widersprüchlichen Ziele in einer gemeinsamen Verlustfunktion kombinieren, müssen oft neue nicht lernbare Parameter eingeführt werden. Wir adressieren diese Problematik mit unserem Algorithmus ACe/DeC, welcher automatisch zwei Merkmalsräume lernt, einen bestehend aus den clustering-relevanten Merkmalen und einen bestehend aus Informationen, die für das Lernen der Repräsentation wesentlich sind. Ein weiterer Aspekt, der viele Deep Clustering Algorithmen betrifft, ist, dass sie die korrekte Anzahl an Clustern als Eingabeparameter erfordern. Bei der Entwicklung unseres Algorithmus DipDECK widmen wir uns diesem Problem. Wiederum wird mit Hilfe eines Autoencoders eine niedrigdimensionale Darstellung der Daten gelernt. Für diese wird dann die Anzahl der Cluster stark überschätzt und eine Strategie entwickelt, um festzustellen welche der resultierenden Mikrocluster vereint werden sollen. Diese Strategie basiert auf dem Dip-Test, einem statistischen Test für Unimodalität. Die Annahme ist, dass, sollte der Test für eine Datenstichprobe Unimodalität signalisieren, dieses nur ein einzelnes Cluster enthält. Der Dip-Test wird auf alle Microcluster paarweise angewandt, um zu bestimmen, welche zusammen eine unimodale Struktur zeigen und daher vereint werden sollen. DipDECK ist der erste Deep Learning Algorithmus, der sich diesen statistischen Test zu Nutze macht und kompetitive Clusteringergebnisse ohne die Kenntnis der korrekten Clusteranzahl erzielt. Der Dip-Test im Allgemeinen hat wachsendes Interesse bei Datenwissenschaftern geweckt, im Speziellen für das Clustering. Die Statistik des Tests, der Dip-Wert, und der korrespondierende p-Wert, stehen in einer Beziehung zueinander, die durch eine sigmoidale Funktion approximiert werden kann. Das Verhältnis hängt jedoch von der Größe der Datenstichprobe ab. In unserer Publikation über die Teststatistik des Dip-Test untersuchen wir diesen Zusammenhang und entwerfen eine differenzierbare Übersetzungsfunktion, die automatisch den p-Wert bei gegebenem Dip-Wert und Stichprobenumfang liefert. Darüber hinaus verwenden wir diese Funktion in einem neuen Unterraum-Clustering Algorithmus Dip'n'Sub, um deren praktischen Nutzen zu zeigen. Eine wichtige praktische Anwendung für die Analyse komplexer Daten sind medizinische Forschungsstudien auf der Grundlage der funktionellen Magnetresonanztomographie (fMRT). Die Aufnahmen werden verwendet, um Konnektivitätsmuster der Gehirnaktivität zu erfassen. Die direkte Verarbeitung der hochdimensionalen fMRT-Scans, zum Beispiel mit Deep Clustering Algorithmen, ist schwierig, da diese Methoden große Mengen an Trainingsdaten benötigen, die Zahl der Probanden in diesen Studien jedoch üblicherweise gering ist. Daher werden die Bilder in der Regel in eine multivariate Zeitreihe transformiert, die die Aktivitätsniveaus in räumlich unabhängigen Hirnregionen darstellt. Die Interpretation dieser Zeitreihen als Phasenoszillatoren ermöglicht es uns, die Konnektivität zwischen diesen Regionen mit dem Konzept der Synchronisation zu analysieren. Unsere Methodik basiert auf dem Kuramoto-Modell, einem mathematischen Modell für Synchronisation. Es handelt sich um ein System gewöhnlicher Differentialgleichungen, das die zeitlichen Veränderungen der Phasen mathematischer Oszillatoren beschreibt. Zunächst verwenden wir das Modell, um SyncTree zu entwickeln, einen Algorithmus, der Synchronisationsbäume erstellt, die das Synchronisationsverhalten zwischen den Aktivitätszeitreihen erfassen. Diese erste Idee inspirierte die Entwicklung einer verbesserten Analyse der Interaktion von Gehirnregionen mit dem Kuramoto-Modell. Dabei gehen wir davon aus, dass das Modell das Synchronisationsverhalten in den fMRT-Aufzeichnungen beschreibt und bestimmen die Parameter dieses Modells, die am besten zu unseren Daten passen. Die resultierenden Kuramoto-Kopplungsparameter stellen die Kopplung zwischen Gehirnregionen dar und werden als neuartiges Maß für Konnektivität interpretiert. Ihre Relevanz wird dadurch untermauert, dass wir einen Zusammenhang zwischen den Parametern und einem etablierten klinischen Wert für den Schweregrad von Depressionen in einer Gruppe von Patienten, die an schweren depressiven Erkrankungen leiden, finden.
Abstract
(Englisch)
Analysing and finding valuable patterns in high-dimensional data such as images or complex data such as time series poses particular challenges for data mining researchers. The high dimensionality compromises the significance of common distance measures ("curse of dimensionality''), runtime issues arise, and the crucial relationship between pixels in images or consecutive measurements in time series must be accounted for. This thesis presents data mining methods that can be used to analyse these data types. One major exploratory data mining technique is grouping objects in a data set based on a certain notion of similarity without using labels, i.e., clustering the data. The challenges associated with clustering growing amounts of complex and high-dimensional data led to the emergence of a research field called deep clustering, where deep learning is combined with classical clustering concepts. Often an autoencoder is used to learn a lower-dimensional representation of the data, the clustering is performed in its embedded space and the two tasks are optimised simultaneously. Autoencoder-based deep clustering faces the dilemma that the representation learning with the autoencoder performs better when more data details are preserved, while the clustering goal requires a generalisation of the data. Combining these contradicting goals in a single loss function often requires the introduction of additional hyperparameters. To resolve this, we develop our algorithm ACe/DeC, which automatically learns two feature spaces within the embedded space. One contains features relevant to the clustering task and the other one comprises information important for the reconstruction task. Another issue with many deep clustering algorithms is, that they require the correct number of clusters as an input parameter. To approach this problem, we develop the algorithm DipDECK, where once more an autoencoder is used to find a lower-dimensional representation of the high-dimensional data. We then heavily overestimate the number of clusters for the embedded data and develop a merging strategy for the resulting micro-clusters based on the Dip-test, a statistical test for unimodality. The assumption is that if the Dip-test indicates unimodality for a sample, it contains only a single cluster. The Dip-test is applied to all pairwise micro-clusters in the embedded data to decide which ones show unimodal structure and should, therefore, be merged. DipDECK is the first algorithm that exploits this statistical test in a deep learning setting and achieves competitive clustering results despite being oblivious to the ground truth number of clusters in the data set. The Dip-test, in general, has gained a lot of interest in the data mining community, particularly for clustering. The test's statistic, the Dip-value, and the corresponding p-value share a correspondence that can be approximated by a sigmoidal function. However, this relation depends on the sample size. In our paper about the Dip-test's statistic, we investigate this correspondence and design a differentiable translation function that automatically provides the p-value given a Dip-value and sample size. Additionally, we utilise our function in a new subspace clustering algorithm Dip'n'Sub to show its practical value. One prominent real-life application for analysing complex data are medical research studies based on functional magnetic resonance imaging (fMRI). Here, these high-resolution recordings are used to discover connectivity patterns of brain activity. Processing the high-dimensional fMRI scans directly, for instance, with deep clustering algorithms, is difficult since these methods require a multitude of training data. However, the number of subjects in these studies is usually quite low. Therefore, the images are typically transformed to a multivariate time series representing the activity levels in spatially independent brain regions. Interpreting these time series as phase oscillators enables us to analyse the connectivity between these regions with the concept of synchronisation. Our methodology is based on the Kuramoto model, a popular mathematical model for synchronisation. It is a system of ordinary differential equations describing the temporal changes in the phases of mathematical oscillators. First, we use the model to introduce SyncTree, an algorithm that creates synchronisation trees, which capture the synchronisation behaviour between the activity time series. This initial idea inspired the development of an improved analysis of brain region interaction with the Kuramoto model. We assume that the model can explain the synchronisation behaviour in the fMRI recordings and determine the parameters of this model, that best fit our data. The resulting Kuramoto coupling parameters represent the coupling between brain regions and are interpreted as a novel measure of connectivity. The relevance of our measure is validated by the fact, that we can find a relation between the parameters and an established clinical score for depression in a group of patients suffering from major depressive disorders.
Schlagwörter
Schlagwörter
(Deutsch)
Data Mining Clustering hochdimensionale Daten Dip-Test Kuramoto Model Synchronisation Deep Clustering
Schlagwörter
(Englisch)
data mining clustering high-dimensional data Dip-test Kuramoto model synchronisation deep clustering
Haupttitel (Englisch)
Mining high-dimensional data with applications in medicine
Publikationsjahr
2024
Umfangsangabe
viii, 160 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*innen
Nina Hubig ,
Junming Shao
Klassifikationen
54 Informatik > 54.74 Maschinelles Sehen ,
54 Informatik > 54.80 Angewandte Informatik
AC Nummer
AC17429216
Utheses ID
72364
Studienkennzahl
UA | 786 | 880 | |