Large vocabulary continuous speech recognition systems, maximum mutual information estimation and switching regimes

Cozowicz Markus; undefined; undefined; undefined

doi:10.25365/thesis.5429

Detailansicht

Large vocabulary continuous speech recognition systems, maximum mutual information estimation and switching regimes

Markus Cozowicz

Art der Arbeit

Magisterarbeit

Universität

Universität Wien

Fakultät

Fakultät für Wirtschaftswissenschaften

Betreuer*in

Georg Pflug

Volltext in Browser öffnen

DOI

10.25365/thesis.5429

URN

urn:nbn:at:at-ubw:1-29627.55107.366954-3

Link zu u:search

(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract

(Deutsch)

Diese Arbeit gibt eine allgemeine Einführung in den Bereich der automatisierten Spracherkennung mit Hilfe von Hidden Markov Modellen (HMM). Es wurde eine vollständige Trainingsumgebung von Sprachmodellen inklusive Erzeugung von Mix Modellen unter Verwendung des Hidden-Markov- Toolkit (HTK) und eines Spracherkenners von Sail Labs' erstellt. Um die Erkennungsrate zu erhöhen, wurde Maximum Mutual Information (MMI) Parameterschätzung implementiert. Ein 93 Stunden umfassender arabischer Broadcast News Korpus wurde für die Experimente verwendet. Eine Verbesserung der Erkennungsrate durch MMI am verwendeten Korpus konnte nicht festgestellt werden, es wird aber vermutet, dass die nötige Modell Umwandlung um HTK trainierte Modelle in Sail Labs Spracherkenner zu verwenden, dafür verantwortlich ist. An einem einfach Modell, in Form von Switching Regime Modellen, wurden die aus der Spracherkennung bekannten Algorithmen analysiert.

Abstract

(Englisch)

This thesis presents a general introduction to automatic speech recognition based on Hidden Markov models (HMM). Using the Hidden-Markov-Toolkit (HTK) and Sail Labs' speech recognizer a complete trainings environment including mixture model training was created. To improve accuracy Maximum Mutual Information (MMI) estimation was implemented. Experiments were carried out using a 93h Arabic broadcast news corpus. MMI estimation could not improve the accuracy on the Arabic corpus, but it is presumed that model transformations needed for usage of HTK trained models in Sail Labs' speech recognizer are responsible. Based on a simple model, namely a switching regime model, algorithms used for speech recognition were analysed.

Autor*innen

Markus Cozowicz

Haupttitel (Englisch)

Large vocabulary continuous speech recognition systems, maximum mutual information estimation and switching regimes

Paralleltitel (Deutsch)

Spracherkennungssystem, Maximum Mututal Information Schätzung und Switching Regimes

Publikationsjahr

2009

Umfangsangabe

46 S.

Sprache

Englisch

Beurteiler*in

Georg Pflug

Klassifikation

31 Mathematik > 31.73 Mathematische Statistik

AC Nummer

AC08147538

Utheses ID

4860

Studienkennzahl

UA | 066 | 951 | |

Detailansicht

Abstracts

Schlagwörter