Detailansicht

Fast, accurate and user-friendly alignment of short and long read data with high mismatch rates

Philipp Rescheneder

Art der Arbeit

Dissertation

Universität

Universität Wien

Fakultät

Zentrum für Molekulare Biologie

Studiumsbezeichnung bzw. Universitätlehrgang (ULG)

Doctor of Philosophy-Doktoratsstudium NAWI Bereich Lebenswissenschaften (DissG: Molekulare Biologie)

Betreuer*in

Arndt von Haeseler

Volltext herunterladen
Volltext in Browser öffnen

DOI

10.25365/thesis.71849

URN

urn:nbn:at:at-ubw:1-21035.34319.163574-0

Link zu u:search

(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract

(Deutsch)

Das Aufkommen der Hochdurchsatz-Sequenzierung hat es uns ermöglicht genomische Variationen in einem noch nie dagewesenen Ausmaß zu studieren. Diese Untersuchungen gewährten uns Einblicke in die Entwicklung von Genomen, die Beeinflussung von Phänotypen durch genetische Veränderungen und die Mechanismen hinter zahlreichen Krankheiten. In groß angelegten Projekten wie dem 1000-Genome-Projekt oder ähnlichen Projekten für andere Modellorganismen wurden tausende von Genomen sequenziert und die gefundenen genetischen Varianten katalogisiert. Die meisten dieser Projekte verwenden einen referenzgenombasierten Analyseansatz, bei dem kurze, qualitativ hochwertige Sequenzen ausgelesen (sequenziert) und mit einem hochwertigen Referenzgenom wie dem menschlichen Genom verglichen werden. Unterschiede zwischen dem sequenzierten Genom und dem Referenzgenom - meist einzelne Nukleotidveränderungen oder kleine Varianten - werden dann mit speziellen Analyseprogrammen detektiert. In den letzten Jahren wurden zahlreiche hoch optimierte Analysewerkzeuge entwickelt um die immensen Datenmengen, die bei diesen Projekten anfallen, effizient zu analysieren. Diese Werkzeuge sind jedoch oft nicht auf Versuchsanordnungen anwendbar, bei denen entweder kein hochwertiges Referenzgenom existiert, andere, weniger genaue Sequenzierungstechnologien verwendet werden oder komplexere genetische Variationen untersucht werden und daher eine höhere Anzahl an Unterschieden zwischen dem sequenzierten Genom und dem Referenzgenome zu erwarten sind. In dieser Arbeit befassen wir uns mit diesem Problem, indem wir Analysewerkzeuge für die effizienten Analyse von kurzen und langen DNA-Sequenzen vorstellen, welche eine höhere Toleranz für Sequenzierungsfehler und evolutionären Abstand haben und dabei die gleiche Benutzerfreundlichkeit und kurze Laufzeiten bieten wie sie sonst nur höher spezialisierte Werkzeuge liefern. Darüber hinaus zeigen wir, wie unsere Analysewerkzeuge es Forschern ermöglichen, ein breites Spektrum an genetischen Variationen in Modellorganismen sowie in Nicht-Modellorganismen zu untersuchen.

Abstract

(Englisch)

The advent of high-throughput sequencing has enabled us to study genomic variation at an unprecedented scale, providing us with insight into how genomes evolve, how phenotypes are influenced by genetic changes, and the mechanisms behind countless diseases. Large-scale projects, like the 1000 genomes project, or similar projects for other model organisms sequenced thousands of genomes and cataloged the genetic variation they found. Most of these projects use a reference genome-based analysis approach where short high-quality sequencing reads are aligned to a high-quality reference genome like the human genome. Differences between the sequenced and the reference genome - mostly single nucleotide changes or small variants - are then detected using specialised tools. Many analysis tools have been developed and optimised to efficiently analyse the immense amounts of data produced by these projects. However, these tools are often not applicable to experimental setups where either no high-quality reference genome exists, other less accurate sequencing technologies are used, more complex genetic variations are studied, or other sources of noise cause higher mismatch rates between the reads and the reference. In this thesis we address this issue by introducing short and long read mapping tools that handle higher numbers of differences caused by sequencing error, evolutionary distance, or custom experimental designs, while offering the same ease of use and short runtimes as more specialised tools. Furthermore, we show how our analysis tools can enable researchers to study a wide range of genetic variations in model organisms as well as non-model organisms.

Autor*innen

Philipp Rescheneder

Haupttitel (Englisch)

Fast, accurate and user-friendly alignment of short and long read data with high mismatch rates

Paralleltitel (Deutsch)

Schnelles, genaues und benutzerfreundliches Alignment von Hochdurchsatz-Sequenzierdaten mit einer hohen Anzahl an Sequenzunterschieden

Publikationsjahr

2022

Umfangsangabe

xxi, 160 Seiten : Illustrationen

Sprache

Englisch

Beurteiler*innen

Thomas Rattei ,

Jens Stoye

Klassifikationen

42 Biologie > 42.20 Genetik ,

54 Informatik > 54.89 Angewandte Informatik: Sonstiges

AC Nummer

AC16591870

Utheses ID

62579

Studienkennzahl

UA | 794 | 685 | 490 |

Detailansicht

Abstracts

Schlagwörter