Detailansicht

Correctly counting molecules using unique molecular identifiers
Florian Pflug
Art der Arbeit
Dissertation
Universität
Universität Wien
Fakultät
Zentrum für Molekulare Biologie
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Doctor of Philosophy-Doktoratsstudium NAWI Bereich Lebenswissenschaften (Dissertationsgebiet: Molekulare Biologie)
Betreuer*in
Arndt von Haeseler
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.59838
URN
urn:nbn:at:at-ubw:1-25101.00178.529954-3
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Präzise Messungen des Zustandes eines biologischen Systems bilden eine Grundlage der quantitativen Biologie - also jenes wissenschaftlichen Gebietes welches sich mit der Erstellung und Validierung quantitativer Modelle biologischer Systeme beschäftigt. Solche Techniken, beispielsweise zur Messung der Abundanz von Transkripten oder verschiedener mikrobieller Spezies, basieren oft auf Sequenzierungsmethoden hohen Durchsatzes (eng. next-generation sequencing; NGS). Einer der hauptsächlichen die Genauigkeit limitierenden Faktoren in quantitativen NGS-Anwendungen sind Verzerrungen der gemessenen Abundanzen wegen der bevorzugten Amplifikation mancher Sequenzen durch die Polymerasekettenreaktion (eng. polymerase chain reaction; PCR). Um das zu vermeiden wird vor der Amplifikation jedes Molekül mit einem eindeutigen molekularen Identifikator (eng. unique molecular Identifier; UMI) versehen, und Abundanzen werden dann aus der Anzahl an verschiedenen UMIs geschätzt, nicht aus der Anzahl an sequenzierten Kopien. Aber auch die Anzahl an UMIs wird, wenngleich schwächer, trotzdem indirekt durch bevorzugte Amplifikation verzerrt; stärkere Amplifikation eines Moleküles reduziert das Risiko, dass keine seiner Kopien sequenziert und das Molekül damit nicht gezählt wird. Dieser indirekte Effekt kann nur durch Korrekturen in silico in Angriff genommen werden. Dazu stellt diese Arbeit die Methode TRUmiCount vor, welche auf einem Modell der PCR als stochastischer Galton-Watson Verzweigungsprozess und von Sequenzierung als Poisson'scher Stichprobennahme basiert. Damit schätzt TRUmiCount die Anzahl an nicht beobachteten Molekülen aus jener der beobachteten, und verwendete eine statistische Rauschunterdrückungstechnik um diese Schätzung auf die Ebene einzelner Transkripte oder mikrobieller Spezies zu erweitern. Mit Hilfe von TRUmiCount können damit indirekte PCR-bedingte Verzerrungen korrigiert werden, und für UMI-basierte RNA-Sequenzierung wird gezeigt, dass TRUmiCount aus verzerrten Rohdaten unverzerrte Transkriptabundanzen ermitteln kann. iPool-Seq (eng. insertion pool sequencing) ist eine experimentelle Methode zum Studium von Wirt-Pathogen-Systemen, z.B. Mais und Ustilago maydis (Verursacher des Maisbeulenbrandes), und profitiert ebenfalls von TRUmiCount. iPool-Seq vergleicht die Abundanz von Mutanten des Pathogens vor und nach der Infektion des Wirts, und identifiziert Mutanten mit veränderter Virulenz - ihrer Fähigkeit, sich auf dem Wirt zu vermehren. Es wird gezeigt, dass TRUmiCount die Genauigkeit dieser Messungen erhöht, und damit verhindert, dass PCR-bedingte Verzerrungen die gemessenen Virulenzen beeinflussen. Die statistische Analyse von TRUmiCount-korrigierten NGS-Daten muss berücksichtigen, dass korrigierte Abundanzen nicht mehr ganzzahlig sind, und typischen Poisson'schen Annahmen über das Mittelwert-Varianz-Verhältnis nicht mehr entsprechen. Um zu zeigen wie diese Probleme umgangen werden können, leiten wir ein statistisches Modell für iPool-Seq her in welches Korrekturen für indirekte PCR-Verzerrungen einfließen, und zeigen, dass damit signifikante von insignifikanten Virulenzänderungen unterschieden werden können. Abschließend wird ein benutzerfreundliches Programm zur Analyse von iPool-Seq-Daten präsentiert. Es inkludiert alle Schritte um aus rohen Sequenzdaten (korrigierte) Abundanzen zu ermitteln, und bestimmt für alle Mutanten Virulenz sowie die Signifikanz ihrer Abweichung vom Wildtyp. Eine schrittweise Beschreibung aller notwendigen Labor- und Datenauswertungsschritte, soll die Methode einem möglichst großen Kreis an Benutzern zugänglich machen. Teile dieser Arbeit wurden in folgenden Artikeln publiziert: Pflug F. G., & von Haeseler A. (2018). TRUmiCount: correctly counting absolute numbers of molecules using unique molecular identifiers. Bioinformatics, 34(18), 3137–3144. DOI:10.1093/bioinformatics/bty283. Uhse S., Pflug F. G., Stirnberg A., Ehrlinger K., von Haeseler A., & Djamei A. (2018). In vivo insertion pool sequencing identifies virulence factors in a complex fungal-host interaction. PLoS Biology, 16(4), e2005129. DOI:10.1371/journal. pbio.2005129. Uhse S., Pflug F. G., von Haeseler A., & Djamei A. (2019). Insertion pool sequencing for insertional mutant analysis in complex host-microbe interactions. Current Protocols in Plant Biology, 4, e20097. DOI:10.1002/cppb.20097.
Abstract
(Englisch)
Precise measurement of the state of biological systems is a fundamental requirement in quantitative biology - the field dealing with the deduction and validation of quantitative models of biological phenomena. Such measurement techniques, for example of mRNA transcript or microbial species abundances, are often based on next generation sequencing (NGS). A major factor limiting the precision of such quantitative NGS applications is amplification bias - the preferential amplification of some sequences by the polymerase chain reaction (PCR) step required before sequencing. To overcome this bias, unique molecular identifiers (UMIs) are added to each molecule prior to amplification, and abundances are then estimated from the number of distinct UMIs, not the number of sequencing reads. But while more faithful than read counts, such UMI counts are still indirectly biased by preferential amplification; stronger amplification of particular sequences translates into a lower risk of such molecules being overlooked during sequencing entirely, and thus of their UMI not being counted. This indirect bias is not amenable to improved in vitro techniques and must thus be tackled in silico. Towards this goal, this work introduces the computational method TRUmiCount, based on a stochastic Galton-Watson branching process model of the PCR and a model of sequencing as Poissonian sampling. TRUmiCount combines these models to predict the number of unobserved from the number of observed molecules, and by employing a statistical denoising technique called shrinkage estimation, can do so on the level of individual mRNA transcripts or microbial species. These predictions thus allow in silico corrections for indirect amplification bias, and for UMI-based RNA-Seq experiments, TRUmiCount is demonstrated to produce unbiased mRNA transcript counts from raw bias-afflicted data. Insertion pool sequencing (iPool-Seq) is another example of an experimental technique that benefits from TRUmiCount. iPool-Seq was developed to study host-pathogen systems such as maize infected by Ustilago maydis, the fungus that causes corn smut. iPool-Seq compares the abundances of different mutants of the pathogen before and after infection of the host plant, with the goal of identifying mutants whose virulence - their ability to proliferate on the host - differs from the wild-type. For iPool-Seq data, TRUmiCount is shown to improve the fidelity of the abundance estimates, and thus ensures that amplification bias does not affect the measured virulences. The statistical analysis of TRUmiCount-corrected NGS data poses unique challenges. After correction, UMI counts are fractional instead of integral, and can no longer be expected to obey the Poissonian mean-variance relationship often assumed for count data. To show how statistical inference methods can take TRUmiCount corrections into account while evading these issues, a statistical model of iPool-Seq incorporating these corrections is derived, and shown to provide a means of separating significant from insignificant differences between the virulences of mutants and wild-type. Finally, a user-friendly data analysis pipeline for iPool-Seq data is presented. It includes all steps necessary to transform raw sequencing reads into TRUmiCount-corrected mutant abundances, and assesses the virulence of mutants, and the significance of their deviation from the wild-type. Detailed step-by-step description of both the wet-lab and the data-analysis parts of iPool-Seq are meant to provide easy access to the iPool-Seq method for as many potential users as possible. Parts of this thesis have been published in the following articles: Pflug F. G., & von Haeseler A. (2018). TRUmiCount: correctly counting absolute numbers of molecules using unique molecular identifiers. Bioinformatics, 34(18), 3137–3144. DOI:10.1093/bioinformatics/bty283. Uhse S., Pflug F. G., Stirnberg A., Ehrlinger K., von Haeseler A., & Djamei A. (2018). In vivo insertion pool sequencing identifies virulence factors in a complex fungal-host interaction. PLoS Biology, 16(4), e2005129. DOI:10.1371/journal. pbio.2005129. Uhse S., Pflug F. G., von Haeseler A., & Djamei A. (2019). Insertion pool sequencing for insertional mutant analysis in complex host-microbe interactions. Current Protocols in Plant Biology, 4, e20097. DOI:10.1002/cppb.20097.

Schlagwörter

Schlagwörter
(Englisch)
NGS next-generation sequencing UMI unique molecular identifier RNA-seq PCR polymerase chain reaction bias model branching process
Schlagwörter
(Deutsch)
NGS DNA-Sequenzierung UMI eindeutiger Molekülidentifikator RNA-seq PCR Polymerasekettenreaktion Verzerrung Model Verzweigungsprozess
Autor*innen
Florian Pflug
Haupttitel (Englisch)
Correctly counting molecules using unique molecular identifiers
Paralleltitel (Deutsch)
Korrektes Zählen von Molekülen bei der Verwendung von eindeutigen Molekülidentifikatoren
Publikationsjahr
2019
Umfangsangabe
150 Seiten : Illustrationen, Diagramme
Sprache
Englisch
Beurteiler*innen
Niko Beerenwinkel ,
Rainer Spang
Klassifikationen
31 Mathematik > 31.73 Mathematische Statistik ,
31 Mathematik > 31.80 Angewandte Mathematik ,
42 Biologie > 42.03 Methoden und Techniken der Biologie ,
42 Biologie > 42.11 Biomathematik, Biokybernetik ,
42 Biologie > 42.13 Molekularbiologie ,
42 Biologie > 42.30 Mikrobiologie
AC Nummer
AC15520734
Utheses ID
52858
Studienkennzahl
UA | 794 | 685 | 490 |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1