Detailansicht

Understanding the sampling properties of high throughput sequencing technologies

Paz Luis Paulin

Art der Arbeit

Dissertation

Universität

Universität Wien

Fakultät

Zentrum für Molekulare Biologie

Studiumsbezeichnung bzw. Universitätlehrgang (ULG)

Doctor of Philosophy-Doktoratsstudium NAWI Bereich Lebenswissenschaften (Dissertationsgebiet: Molekulare Biologie)

Betreuer*in

Arndt von Haeseler

Volltext herunterladen
Volltext in Browser öffnen

DOI

10.25365/thesis.56080

URN

urn:nbn:at:at-ubw:1-22758.42087.960775-2

Link zu u:search

(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract

(Deutsch)

Die Funktion einer Zelle wird dadurch bestimmt, welche Gene zu einem bestimmten Zeitpunkt exprimiert werden, entweder als proteincodierende Gene oder als nicht-codierende RNAs. Die genaue Quantifizierung der Genexpression ist ein intensiv erforschtes Feld in der Molekularbiologie. Heutzutage, mit der weiten Verbreitung von Sequenzierungstechnologien der nchsten Generation, zu denen auch die RNA-Sequenzierung gehrt, ist die Erforschung der Genexpression in den medizinischen und biologischen Wissenschaften allgegenwrtig. Das experimentelle Verfahren zur RNA-Sequenzierung ist im Allgemeinen bekannt, wobei kommerzielle Kits und Automatisierungsoptionen zur Verfgung stehen. Die wahre Anzahl der in einer Zelle exprimierten Gene bleibt jedoch unbekannt. Basierend auf der Beobachtung, dass das experimentelle Laborverfahren der RNA-Sequenzierung aus einer Reihe von Probenereignissen besteht; von der Extraktion der RNA-Fraktion von Interesse (d.h. mRNA) bis hin zur Sequenzierung eines kleinen Aliquots der vorbereiteten Bibliothek, haben wir RNA-Sequenzierungsexperimente im Rahmen eines Probenproblems untersucht. Zuerst stellen wir die Pitman Sampling Formula (PSF) vor, eine Sampling-Formel, die im Bereich der Populationsgenetik abgeleitet wurde und allgemein genug ist, um auf die Studie der RNA-Sequenzierung angewendet zu werden. Anschlieend haben wir die Anwendung von PSF und den daraus abgeleiteten Statistiken auf RNA-Sequenzierungsexperimente systematisch untersucht. Wir zeigten, dass das PSF einen genauen Rckschluss auf die Anzahl der unerkannten Gene eines RNASequenzierungsexperiments ermglicht. Im gleichen Umfang haben wir die Statistik des PSF verwendet, um die Anzahl der zustzlich detektierten Gene bei Erhhung der Sequenziertiefe zu schtzen, um den Kosten-Nutzen weiterer Sequenzierungsexperimente zu berechnen. Zweitens haben wir den Stichprobenplan des PSF verwendet, um RNACountSim zu entwickeln, eine neue Methode zur Simulation von RNASequenzierungsexperimenten. Simulierte Daten sind heute der Schlssel fr die Entwicklung und Bewertung von Bioinformatikwerkzeugen. Fr die RNA-Sequenzierung werden Simulationswerkzeuge eingesetzt, um Zhldaten zu erzeugen, bei denen die Anzahl der Gene mit differentieller Expression bekannt ist. Viele der derzeit verfgbaren Methoden verwenden die gleiche Verteilung (z.B. negatives Binomial), um simulierte Daten zu erzeugen und dann auf differentielle Genexpression zu testen. Stattdessen haben wir die Hoppe Urne, ein Urnenmodell des PSF, verwendet, um Zhlmatrizen zu simulieren, bei denen die Anzahl der Gene, die eine unterschiedliche Expression zeigen, bekannt ist a priori. Wir verwendeten sowohl simulierte als auch experimentelle Replikate, um die Leistung von zwei weit verbreitetenWerkzeugen fr die differentielle Expression zu bewerten: edgeR und DESeq2. Wir haben hnliche Ergebnisse bei der Verwendung von simulierten und experimentellen Daten erzielt, was zeigt, dass RNACountSim simulierte Daten erzeugt, die an RNA-Sequenzierungsexperimente erinnern. Darber hinaus knnen wir mit RNACountSim RNA-Sequenzierungsexperimente simulieren, bei denen die Anzahl der differentiell exprimierten Gene bekannt ist, um aktuelle Werkzeuge zu bewerten, die auf differentielle Genexpression testen und bei der Entwicklung neuer Gene helfen. Schlielich schlagen wir vor, die Verwendung des PSF zur Bewertung der Fertigstellung von Genom-Annotationsprojekten zu verwenden. Die Annotation eines Genoms ist eine titanische Aufgabe, die bei jedem Genomsequenzierungsprojekt anfllt. Da jedes Jahr mehr neue Genome sequenziert werden, ist die RNA-Sequenzierung heute eine der wichtigsten Methoden zur Verbesserung der Genomannotation. Hier haben wir mit dem PSF die Anzahl der Gene vorhergesagt, die noch zu kommentieren sind. Um diese Behauptung zu testen, haben wir die Annotation des menschlichen Genoms verwendet. Wir haben eine ltere Version der Annotation des menschlichen Genoms (Version 3b, vom 03.09.2009) ausgewhlt, um die Anzahl der noch zu annotierenden Gene vorherzusagen. Anschlieend verglichen wir unsere Vorhersagen mit einer aktuellen Version der Annotation (Version 25, vom 19.07.2016), die sieben Jahre kontinuierliche Verbesserung darstellt. Wir haben gezeigt, dass unsere Methode die Anzahl der in der neueren Version vorhandenen Gene genau vorhersagt und damit zeigt, dass das PSF gute zusammenfassende Statistiken liefert, um den Zustand der Annotation in aktuellen Genomprojekten zu bewerten.

Abstract

(Englisch)

The function of a cell is determined by which genes are expressed at a given time point, either as protein coding genes, or non-coding RNAs. Accurate quantification of gene expression is an intensely researched field in molecular biology. Nowadays, with the widely adoption of next-generation sequencing technologies, which includes RNA-sequencing, the study of gene expression is ubiquitous in medical and biological sciences. The experimental procedure for RNA-sequencing is at large well known with commercial kits and options of automation available. However, the true number of genes expressed in a cell remains unknown. Based on the observation that the laboratory experimental procedure of RNA-sequencing consists of a series of sampling events; from extracting the RNA fraction of interest (i.e. mRNA) to taking a small aliquot of the prepared library to sequence, we studied RNA-sequencing experiments in the context of a sampling problem. First, we present the Pitman Sampling Formula (PSF), a sampling formula derived in the field of population genetics that is general enough to be applied to the study ofRNAsequencing. Then, we systematically evaluated the application of PSF and its derived statistics to RNA-sequencing experiments. We showed that the PSF allows an accurate inference of the number of undetected genes of an RNA-sequencing experiment. In the same scope, we used statistics of the PSF to estimate the number of additionally detected genes when increasing the sequencing depth in order to calculate the costbenefit of further sequencing experiments. Second, we used the sampling scheme of the PSF to develop RNACountSim, a new method to simulate RNA-sequencing experiments. Nowadays, simulated data is key for the development and evaluation of bioinformatic tools. For RNA-sequencing, simulation tools are aimed to generate count data where the number of genes showing differential expression is known. Many of the currently available methods use the same distribution (i.e negative binomial) to generate simulated data and then test for differential gene expression. We instead used the Hoppe urn, an urn model of the PSF, to simulate count matrices where the number of genes showing differential expression is known a priori. We used both simulated and experimental replicates a to evaluate the performance of two widely used tools for differential expression: edgeR and DESeq2. We obtained similar results when using simulated and experimental data, thus showing that RNACountSim generates simulated data that resemble RNA-sequencing experiments. Moreover, with RNACountSim, we can simulate RNA-sequencing experiments where the number of differentially expressed genes is known to evaluate current tools that test for differential gene expression and aid in the development of new ones. Finally, we propose the use of the PSF to evaluate the completion of genome annotation projects. Annotating a genome is a titanic task that arrives with each genome sequencing project. With the increased number of new genomes being sequenced every year, RNA-sequencing is nowadays one of the main methods used to improve genome annotation. Here, we used the PSF to predict the number of genes that remain to be annotated. To test this assertion we used the annotation of the human genome. We selected an older version of the human genome annotation (version 3b, dated 03.09.2009), to predict the number of genes that remain to be annotated. We then compared our predictions to a recent version of the annotation (version 25, dated 19.07.2016), which represents seven years of continuous improvement. We showed that our method accurately predicts the number of genes present in the newer version and thus, showing that the PSF provide good summary statistics to evaluate the state of the annotation in current genome projects.

Autor*innen

Paz Luis Paulin

Haupttitel (Englisch)

Understanding the sampling properties of high throughput sequencing technologies

Paralleltitel (Deutsch)

Verständnis der Sampling-Eigenschaften von Hochdurchsatz-Sequenzierungstechnologien

Publikationsjahr

2018

Umfangsangabe

ix, 76 Seiten : Diagramme

Sprache

Englisch

Beurteiler*in

Arndt von Haeseler

Klassifikation

42 Biologie > 42.13 Molekularbiologie

AC Nummer

AC15312555

Utheses ID

49537

Studienkennzahl

UA | 794 | 685 | 490 |

Detailansicht

Abstracts

Schlagwörter