Detailansicht

FindGlycoPeptides – an Open Source Program for High- Throughput N-Glycopeptide Identification in Large LC- MS/MS Data Sets
Nikolaus Voulgaris
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Chemie
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Chemie
Betreuer*in
Andreas Rizzi
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.35513
URN
urn:nbn:at:at-ubw:1-29824.33232.394066-9
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Fortschritte im Bereich der Massenspektrometrie ermöglichen die Analyse der Glykosylierung von Proteinen auf Glykopeptidebene. Ein Schwachpunkt ist aber weiterhin die Datenverarbeitung. In dieser Arbeit wurde ein open source Programm für die automatische Identifikation von Glycopeptiden in groÿen LC-MS/MS Datensätzen entwickelt. FindGlycoPeptides (FGP ), welches in Perl geschrieben wurde, identifiziert den Peptidteil anhand der Y-Ionen in CID-Spektren niedriger Massengenauigkeit. Die Zuord- nungen werden mittels einer empirischen Bewertungsfunktion gewertet und die FalseDiscovery Rate wird über die Zuordnung von Decoypeptiden abgeschätzt. Weiters zählt das Programm die jeder Spezies zugeordneten Spektren und liefert dadurch semiquantitative Informationen. Das Program läuft auf unterschiedlichen Betriebssystemen und benutzt das offene Datenformat mzXML, womit Daten unterschiedlicher Gerätehersteller analysiert werden können. Als Testdatensätze wurden verschiedene Glykoproteine, mit dem Fokus auf bovinem saurem α1-Glykoprotein (AGP), einzeln und in Mischungen sowie biologische Proben, die aus MCF-7 Zellüberständen gewonnen wurden, mit Trypsin verdaut und den Standardmethoden der Proteomik entsprechend Standardmethoden mit nano-RP-LC-Orbitrap-MS/MS gemessen. Bis zu 1500 Spektren konnten in einem AGP Datensatz zugewiesen werden, die mehr als 100 unterschiedliche Glycopeptide abdeckten, welche durch manuelle Überprüfung bestätigt werden konnten. Die Ergebnisse wurden mit denen eines ähn- lichen, frei zugänglichen, Programms, GlycoPeptideSearch, verglichen, wobei sich zeigte, dass FGP sowohl in Bezug auf die Anzahl der Identifikationen als auch der False Discov- ery Rate deutlich leistungsfähiger war. Die Anzahl der jedem Glykopeptid zugeordneten Spektren wurde mit der maximalen Peakhöhe sowie dem Integral verglichen. Es zeigte sich, dass die drei Methoden zu ähnlichen Ergebnissen führten, wobei das Zählen der Spektren keines zusätzlichen Aufwandes bedurfte. Die Analyse von HPLC-MS/MS Datensätzen von Verdauen anderer einzelner Glykoproteine (humanes AGP, bovines Fetuin und Asialofetuin, Hasenimmunoglobulin G und Hühnerovalbumin) brachte weniger Zuordnungen, da die experimentelle Methodik nicht für Glykoproteomik optimiert wurde. Ähnlich viele Zuordnungen wurden bei der Analyse von Mischungen aus fünf Glykoproteinen gefunden. Allerdings liegen die Stärken von FGP vor allem im Bereich der zielgerichteten Experimente (targeted glycoprotemics). Bei sehr komplexen Proben, wie Zellüberständen, die mit SDS-PAGE fraktioniert wurden, in denen 20 oder mehr mögliche Glykoproteine vorkommen, können keine brauchbaren Ergebnisse erzielt werden, da der Peptidsuchraum zu groß ist. Bei solcherlei Proben müssten zusätzliche Informationen über die Peptidsequenzen herangezogen wer- den, zum Beispiel durch ETD Spektren.
Abstract
(Englisch)
Advances in mass spectrometric (MS) techniques made analysis of protein glycosylation on glycopeptide level feasible, but data analysis is a severe bottleneck. In this work, an open source program for high-throughput identification of glycopeptides in large LC-MS/MS data sets, FindGlycoPeptides (FGP), was developed, using the Perl programming language. FGP matches the peptide portion based on the the Y-series ions of low accuracy CID spectra. It calculates decoy based false discovery rate (FDR) estimates, uses an empirical scoring function to rate the assignments and provides semiquantitative information by spectra counting. The program runs on various operating systems and uses the open MS data format mzXML, allowing the analysis of data originating from different instruments. Test data sets of tryptic digests of several standard glycoproteins, focusing on bovine α1-acid glycoprotein (AGP), mixtures of these and biological samples, derived from MCF-7 cell supernatant, were acquired using nano-RP-LC-Orbitrap-MS/MS with standard proteomics methodologies. Up to 1500 spectra could be assigned in a single run of a bovine AGP digest, covering more than 100 distinct glycopeptides that could be verified. The performance was compared to a similar freely available program, GlycoPeptideSearch, and demonstrated to be supererior both regarding number of hits and false discovery rate. The spectra counts of the various glycopeptide species were compared to the peak heights and integrals and provided similar results, which were obtained with no additional effort. Analysis of other single glycoprotein digests (human AGP, bovine Fetuin and Asialofetuin, rabbit IgG and chicken Ovalbumin) yielded fewer assignments, since the experimental methodologies were not optimized for glycoproteomics. Assignment rates with digests of glycoprotein mixtures were similar to those of the single proteins. However, FGP is suitable mainly for targeted glycoproteomics, as with very complex samples such as the SDS-PAGE fractioned cell supernatants with more than 20 possible glycoproteins, it fails to provide useful results, due to the vast peptide search space. In such cases additional information of the peptide sequences must be incorporated, e.g. ETD spectra.

Schlagwörter

Schlagwörter
(Englisch)
glycopeptides, glycoproteomics, HPLC-MS/MS Orbitrap
Schlagwörter
(Deutsch)
Glykopeptide Glykoproteomik HPLC-MS/MS Orbitrap
Autor*innen
Nikolaus Voulgaris
Haupttitel (Englisch)
FindGlycoPeptides – an Open Source Program for High- Throughput N-Glycopeptide Identification in Large LC- MS/MS Data Sets
Paralleltitel (Deutsch)
FindGlycoPeptides - ein Open Source Programm für die automatische Identifikation von N-Glykopeptiden in Großen LC-MS/MS Datensätzen
Publikationsjahr
2015
Umfangsangabe
104
Sprache
Englisch
Beurteiler*in
Andreas Rizzi
Klassifikationen
35 Chemie > 35.06 Computeranwendungen ,
35 Chemie > 35.23 Analytische Chemie: Allgemeines ,
35 Chemie > 35.26 Massenspektrometrie ,
35 Chemie > 35.29 Chromatographische Analyse, Elektrophorese ,
35 Chemie > 35.76 Aminosäuren, Peptide, Eiweiße ,
35 Chemie > 35.77 Kohlenhydrate
AC Nummer
AC12263835
Utheses ID
31473
Studienkennzahl
UA | 066 | 862 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1