Detailansicht
Domain adaptation of whisper models to German medical automatic speech recognition
Valentina Hofecker
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Zentrum für Translationswissenschaft
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Joint-Masterstudium Multilingual Technologies
Betreuer*in
Miguel Angel Rios Gaona
DOI
10.25365/thesis.76227
URN
urn:nbn:at:at-ubw:1-22425.87285.672851-9
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Trotz der weit verbreiteten Nutzung von Systemen zur automatischen Spracherkennung (ASR) im Gesundheitswesen bleibt die automatische Transkription von domänenspezifischen medizinischen Texten eine erhebliche Herausforderung. Diese Herausforderung ist besonders im deutschsprachigen medizinischen Bereich ausgeprägt, wo die Transkriptionsqualität schlechter ist als in allgemeinen Bereichen. Umfangreiche Forschungsarbeiten zur Erstellung mehrsprachiger ASR-Datensätze haben bereits zur Verfeinerung von ASR-Technologien beigetragen. Der deutsche medizinische Bereich, insbesondere mit österreichischer Standardaussprache, ist jedoch weiterhin deutlich unterrepräsentiert. Frühere Studien konzentrierten sich auf die Domänenanpassung zur Übertragung von Wissen auf die deutsche Domäne im Allgemeinen, jedoch nicht speziell für den medizinischen Sektor oder die österreichische Standardaussprache. Diese Arbeit adressiert die genannten Lücken und Herausforderungen durch die Implementierung von Domänenanpassungs- und Feinabstimmungsstrategien auf den Whisper-Modellen von OpenAI, welche zu den modernsten Transformer-basierten ASR-Modellen zählen. Zunächst führen wir ein Benchmarking-Projekt durch, um die Ausgangsleistung der ursprünglichen Whisper-Modelle zu bewerten und einen klaren Bezugspunkt für spätere Verbesserungen zu schaffen. Zu diesem Zweck erstellen wir einen eigenen ASR-Datensatz, MedASR-DE-AT, der 11,5 Stunden deutscher medizinischer Sprache enthält, insbesondere mit österreichischer Standardaussprache, begleitet von Transkriptionsdaten. Darüber hinaus erstellen wir einen zusätzlichen Datensatz, MedASR-DE-test, ausschließlich zu Testzwecken, der die standarddeutsche Aussprache enthält, um die Auswirkungen dialektaler Unterschiede auf die Modellleistung zu untersuchen. Wir trainieren die Whisper-Modelle anhand des MedASR-DE-AT-Datensatzes und führen Experimente zur Feinabstimmung durch, um die Transkriptionsqualität weiter zu verbessern. Durch diesen Prozess können wir die Wortfehlerrate (WER) des Whisper-Medium-Modells um 14.52% senken. Außerdem führen wir eine Fehlerannotation für das ursprüngliche und das feinabgestimmte Whisper-Modell durch und präsentieren eine umfassende Fehleranalyse. Somit trägt diese Arbeit zur Verbesserung der Genauigkeit und Anwendbarkeit von ASR-Technologien im medizinischen Bereich bei, insbesondere im deutschsprachigen Raum.
Abstract
(Englisch)
Despite the advancements of Automatic Speech Recognition (ASR) technologies in healthcare settings, the systems face difficulties in accurately recognizing domain-specific, medical terminology. This challenge is particularly important in the German-speaking medical domain, where transcription quality is comparatively poorer than in general domains. There has been extensive research on creating multilingual ASR datasets to refine ASR technologies. However, the German medical sector, especially with Austrian Standard German pronunciation, remains significantly underrepresented. Previous studies have broadly explored domain adaptation to transfer knowledge to the German domain, but not specifically for the medical sector or for Austrian Standard German pronunciation. In this thesis, we address these gaps and challenges by applying domain adaptation and finetuning approaches on Whisper models, SOTA transformer-based ASR models, proposed by OpenAI. Initially, we conduct a benchmarking project to evaluate the baseline performance of the original Whisper models to provide a clear reference point for subsequent improvements. For this, we create our own custom ASR dataset, MedASR-DE-AT, containing 11.5 hours of German medical speech, specifically with Austrian Standard German pronunciation, accompanied by transcription data. Furthermore, we build an additional dataset solely for testing, MedASR-DE-test, containing Standard German pronunciation to explore the impact of dialectal variations on model performance. We finetune the Whisper models using the MedASR-DE-AT dataset to enhance transcription quality. Through this process, we achieve a substantial improvement, reducing the Word Error Rate (WER) for the Whisper-medium model by 14.52%. Additionally, we perform error annotation on the original and finetuned Whisper models and present a thorough error analysis. This work contributes to the enhancement of ASR technology’s accuracy and applicability in the medical domain, especially in the German-speaking sector.
Schlagwörter
Schlagwörter
(Deutsch)
Automatische Spracherkennung Domänenanpassung Sprachmodell Deutsche Medizinische Spracherkennung Whisper Feintuning
Schlagwörter
(Englisch)
Automatic Speech Recognition Domain Adaptation Whisper German Medical Speech Recognition Language Model Finetuning
Autor*innen
Valentina Hofecker
Haupttitel (Englisch)
Domain adaptation of whisper models to German medical automatic speech recognition
Publikationsjahr
2024
Umfangsangabe
16, 103 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Miguel Angel Rios Gaona
Klassifikation
54 Informatik > 54.75 Sprachverarbeitung
AC Nummer
AC17238287
Utheses ID
71817
Studienkennzahl
UA | 066 | 587 | |