Detailansicht

Fast, accurate and user-friendly alignment of short and long read data with high mismatch rates
Philipp Rescheneder
Art der Arbeit
Dissertation
Universität
Universität Wien
Fakultät
Zentrum für Molekulare Biologie
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Doctor of Philosophy-Doktoratsstudium NAWI Bereich Lebenswissenschaften (DissG: Molekulare Biologie)
Betreuer*in
Arndt von Haeseler
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.71849
URN
urn:nbn:at:at-ubw:1-21035.34319.163574-0
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Das Aufkommen der Hochdurchsatz-Sequenzierung hat es uns ermöglicht genomische Variationen in einem noch nie dagewesenen Ausmaß zu studieren. Diese Untersuchungen gewährten uns Einblicke in die Entwicklung von Genomen, die Beeinflussung von Phänotypen durch genetische Veränderungen und die Mechanismen hinter zahlreichen Krankheiten. In groß angelegten Projekten wie dem 1000-Genome-Projekt oder ähnlichen Projekten für andere Modellorganismen wurden tausende von Genomen sequenziert und die gefundenen genetischen Varianten katalogisiert. Die meisten dieser Projekte verwenden einen referenzgenombasierten Analyseansatz, bei dem kurze, qualitativ hochwertige Sequenzen ausgelesen (sequenziert) und mit einem hochwertigen Referenzgenom wie dem menschlichen Genom verglichen werden. Unterschiede zwischen dem sequenzierten Genom und dem Referenzgenom - meist einzelne Nukleotidveränderungen oder kleine Varianten - werden dann mit speziellen Analyseprogrammen detektiert. In den letzten Jahren wurden zahlreiche hoch optimierte Analysewerkzeuge entwickelt um die immensen Datenmengen, die bei diesen Projekten anfallen, effizient zu analysieren. Diese Werkzeuge sind jedoch oft nicht auf Versuchsanordnungen anwendbar, bei denen entweder kein hochwertiges Referenzgenom existiert, andere, weniger genaue Sequenzierungstechnologien verwendet werden oder komplexere genetische Variationen untersucht werden und daher eine höhere Anzahl an Unterschieden zwischen dem sequenzierten Genom und dem Referenzgenome zu erwarten sind. In dieser Arbeit befassen wir uns mit diesem Problem, indem wir Analysewerkzeuge für die effizienten Analyse von kurzen und langen DNA-Sequenzen vorstellen, welche eine höhere Toleranz für Sequenzierungsfehler und evolutionären Abstand haben und dabei die gleiche Benutzerfreundlichkeit und kurze Laufzeiten bieten wie sie sonst nur höher spezialisierte Werkzeuge liefern. Darüber hinaus zeigen wir, wie unsere Analysewerkzeuge es Forschern ermöglichen, ein breites Spektrum an genetischen Variationen in Modellorganismen sowie in Nicht-Modellorganismen zu untersuchen.
Abstract
(Englisch)
The advent of high-throughput sequencing has enabled us to study genomic variation at an unprecedented scale, providing us with insight into how genomes evolve, how phenotypes are influenced by genetic changes, and the mechanisms behind countless diseases. Large-scale projects, like the 1000 genomes project, or similar projects for other model organisms sequenced thousands of genomes and cataloged the genetic variation they found. Most of these projects use a reference genome-based analysis approach where short high-quality sequencing reads are aligned to a high-quality reference genome like the human genome. Differences between the sequenced and the reference genome - mostly single nucleotide changes or small variants - are then detected using specialised tools. Many analysis tools have been developed and optimised to efficiently analyse the immense amounts of data produced by these projects. However, these tools are often not applicable to experimental setups where either no high-quality reference genome exists, other less accurate sequencing technologies are used, more complex genetic variations are studied, or other sources of noise cause higher mismatch rates between the reads and the reference. In this thesis we address this issue by introducing short and long read mapping tools that handle higher numbers of differences caused by sequencing error, evolutionary distance, or custom experimental designs, while offering the same ease of use and short runtimes as more specialised tools. Furthermore, we show how our analysis tools can enable researchers to study a wide range of genetic variations in model organisms as well as non-model organisms.

Schlagwörter

Schlagwörter
(Deutsch)
Hochdurchsatz-Sequenzierung Mapping Long reads Short reads Strukturelle Varianten Alignment Bioinformatik
Schlagwörter
(Englisch)
Next-generation Sequencing Mapping Long read Short reads Structural Variation Alignment Bioinformatics
Autor*innen
Philipp Rescheneder
Haupttitel (Englisch)
Fast, accurate and user-friendly alignment of short and long read data with high mismatch rates
Paralleltitel (Deutsch)
Schnelles, genaues und benutzerfreundliches Alignment von Hochdurchsatz-Sequenzierdaten mit einer hohen Anzahl an Sequenzunterschieden
Publikationsjahr
2022
Umfangsangabe
xxi, 160 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*innen
Thomas Rattei ,
Jens Stoye
Klassifikationen
42 Biologie > 42.20 Genetik ,
54 Informatik > 54.89 Angewandte Informatik: Sonstiges
AC Nummer
AC16591870
Utheses ID
62579
Studienkennzahl
UA | 794 | 685 | 490 |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1