Detailansicht

Uncovering high resolution mass spectrometry patterns through audio fingerprinting and periodicity mining algorithms
an exploratory analysis
Theresa Fruhwürth
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Physik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Computational Science
Betreuer*in
Claudia Plant
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.45899
URN
urn:nbn:at:at-ubw:1-24618.24193.907470-9
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Massen Spektrometrische Daten werden herkoemmlicherweise im Frequenzbereich aufgezeichnet. Derzeit finden jedoch die meisten Daten analytischen methoden im Massen Bereich statt, da dies der Merkmalsraum ist in dem die Annotation von chemischen Substanzen mittels Summen Formel Bestimmung stattfindet. Der Frequenzbereich dieser Daten ist daher weit weniger exploriert sollte jedoch theoretischer weise gleich erfolgreich sein Information fuer das gruppieren von Daten bereitstellen da es eine bekannte non lineare funktionale Beziehung zwischen Massen und Frequenzen gibt. In einem ersten Ansatz wollen wir in Erfahrung bringen inwieweit diese Annahme berechtigt ist und Massen sowie Frequenz Merkmalsraum in ihrer Entropie und damit ihrem Informationsgehalt uebereinstimmen. Dies dient dazu die Merkmalsraeume in ihrer Faehigkeit Merkmale fuer weitere statistische Aufgaben bereitzustellen zu beurteilen. Da Daten die im Massen Spetrometer aufgezeichnet werden natuerlicherweise im Frequenz Merkmalsraum bereitstehen wuerden diese Daten exzellent fuer die Sonifizierung geeignet sein. Dies wuerde es widerum erlauben Algorithmen auf Massen Spektren anzuwenden welche herkoemmlicherweise nur in der Musik Domaene angewandt werden. Diese Masterarbeit befasst sich daher auch mit den Vorteilen und Nachteilen einer solchen Datentransformation vom Frequenzbereich in die musikalische Domaene. Dies inkludiert eine Analyse der Erhaltung von Distanzen zwischen ueberlagerten sinuskurven welche als Basis fuer die Sonifizierung dienen, als auch ihrer sonifizierten Gegenstuecke. Diese Analyse wird durch den Einsatz von Dynamic Time Warping durchgefuehrt. Ein weiterer Teil dieser Arbeit beschaeftigt sich mit der Untersuchung von "data mining" Techniken welche normalerweise in der Zeitreihen Analyse angewandt werden um periodische Muster in den Daten zu finden. Die Algorithmen die in dieser Arbeit angewandt werden sollten es ermoeglichen exakte periodische Muster in Massen Spektren sowohl in Massen als auch im Frequenz Merkmalsraum zu finden. Die Untersuchung der Anwendbarkeit solcher Algorithmen auf Massen Spektren von Proben bestehend aus Natuerlicher Organischer Substanzen ist hier das primaere Ziel. Weiters wird versucht die gefunden Muster auf ihre chemische Relevanz hin zu pruefen. Falls diese Pruefung positiv erfolgt sollten die periodischen Muster Massen Differenzen enthalten welche mit bekannten Massen Differenzen uebereinstimmen die bei der Fragmentierung von CHO enthaltenden Einheiten uebereinstimmen. Der hier Untersuchte Algorithmus terminiert in linearem Zeitaufwand und ist darauf ausgelegt periodische Muster zu extrahieren die wie wir hoffen auch chemisch relevante Massen Differenzen enthalten. Weiters wird ein neuer Baum basierter Annotations Vorgang gezeigt, welcher als eine Digitalisierung des in der Massen Spektrometrie weit verbreiteten Kendrick Massen Defekten gesehen werden kann. Durch die Nutzung von Referenz Substanzen welche fuer die Kalibierung von Massen Spektren verwendet werden als erster Datenknoten und die Addition und Subtraktion von bekannten Fragmenten kann so ein Teil des Suchraums zur Annotation von Natuerlichen Organischen Substanzen abgedeckt werden.
Abstract
(Englisch)
In mass spectral data analysis mass space which is a projection of the originally recorded data in frequency space has been investigated in much more detail than the frequency space. This is necessitated by the fact that so far annotation of peaks with their corresponding chemical substances commonly happens in mass space. Frequency space should in theory be equally successful in providing information to group data according to its features as there is a known non linear relationship between mass and frequency space. Firstly we would like to investigate how mass and frequency compare with respect to entropy i.e. their information content and thus their ability to serve as features in statistical and data mining tasks. Due to the nature of the Mass spectral data that is available in frequency space and in mass space it would lend itself to sonification which makes it possible to employ algorithms commonly used in music information retrieval. Thus this thesis investigates the benefits and drawbacks that emerge by mapping frequency data into the musical domain for further analysis. This includes an investigation into the maintenance of distance between superimposed sine waves that are derived from the original frequency data as well as their sonified counterparts employing Dynamic time warping. In this thesis we furthermore investigate the use of data mining techniques commonly used in areas of time series analysis for finding periodic patterns. The algorithms employed enable finding partial periodic patterns in mass spectral data in both mass and frequency space. The main contribution is the investigation of the suitability of these algorithms that investigate periodicity in time series analysis on mass spectral data that exhibits periodicity on a mass spectrum coming from a sample of natural organic matter (NOM). The goal of the approach is to find pattern such that they include parts that correspond to mass differences of known CHO containing repeat units in NOM which are known to be chemically relevant. The pattern mining algorithm under investigation terminates in linear time and should focus specifically on retrieving periodic patterns that we hope point towards chemically relevant datapoints. Furthermore I present novel tree based computational approaches for the annotation of the chemical species found in such patterns. These trees can be seen as a visual representation of the well known Kendrick mass defect analysis and the mass difference statistics algorithm. Using reference substances that are used for the calibration of Mass spectra, these initiator trees are build and include subtraction and additions of known repeat units corresponding to the fragmentation patterns commonly observed in NOM CHO space.

Schlagwörter

Schlagwörter
(Englisch)
Data Mining Mass spectrometry Periodicity mining algorithms Audio Fingerprinting algorithms
Schlagwörter
(Deutsch)
Data Mining Massenspektrometrie Periodizitaets Mining Algorithmen Audio Fingerprinting Algorithmen
Autor*innen
Theresa Fruhwürth
Haupttitel (Englisch)
Uncovering high resolution mass spectrometry patterns through audio fingerprinting and periodicity mining algorithms
Hauptuntertitel (Englisch)
an exploratory analysis
Paralleltitel (Deutsch)
Erkennung von Mustern in hoch auflösenden Massenspektrometrie Daten durch Audio Fingerprinting und Periodizitaets Mining Algorithmen: Eine explorative Analyse
Publikationsjahr
2017
Umfangsangabe
76 Seiten : Diagramme
Sprache
Englisch
Beurteiler*in
Claudia Plant
Klassifikationen
35 Chemie > 35.26 Massenspektrometrie ,
54 Informatik > 54.62 Datenstrukturen ,
54 Informatik > 54.80 Angewandte Informatik ,
54 Informatik > 54.99 Informatik: Sonstiges
AC Nummer
AC13720077
Utheses ID
40617
Studienkennzahl
UA | 066 | 910 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1