Detailansicht
Automatische Gewinnung polnischer und österreichischer Rechtsterminologie aus den gerichtlichen Entscheidungen im Fachgebiet des Urheberrechts
Michał Sterczyński
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Zentrum für Translationswissenschaft
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Translation Polnisch Deutsch
Betreuer*in
Dagmar Gromann
DOI
10.25365/thesis.77416
URN
urn:nbn:at:at-ubw:1-13744.10388.439868-9
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Die Rechtssprache ist aus vielerlei Hinsicht ein besonderer Fall, sei es aufgrund der Rechtsterminologie, die sowohl fachspezifische Termini als auch gemeinsprachliche Ausdrücke mit der fachlichen Bedeutung enthält oder hinsichtlich der Tatsache, dass sie, anders als viele andere Fachsprachen, alle Gesellschaftsschichten einschließt. Ausgerechnet dadurch weist Rechtsterminologie ein breites Nutzungsspektrum sowohl im privaten als auch im beruflichen Kontext auf. Infolgedessen steigt, insbesondere für gewisse Berufsgruppen, der Bedarf an der automatischen Gewinnung rechtlicher Termini aus Fachtexten und somit an einem verlässlichen Extraktionstool, das mit hoher Präzision korrekte Termini gewinnt, da Verwendung fehlerhafter Rechtsterminologie ggf. gravierende Konsequenzen mit sich ziehen kann. Die vorliegende Arbeit geht diese Herausforderungen aus der der Sicht der praktischen Terminologiearbeit an. Im Rahmen einer Untersuchung wird die Leistung von Chat-GPT-4o anhand von fünf Prompts und 6 Textfragmenten mit der Leistung eines spezialisierten Extraktionstools Text2TCS und mit einem manuell erstellten Goldstandard anhand der Qualitätsmetriken Genauigkeit, Trefferquote und F1-Score ermittelt. Untersucht wird die Leistung beider Extraktionssysteme am Beispiel der österreichischen und polnischen Rechtsterminologie aus dem Gebiet des Urheberrechts, mit dem Ziel, ihre Eignung für diese Aufgabe gezielt für die genannten Sprachen zu bestimmen. Anhand der erhobenen Daten lässt sich ein Verbesserungsbedarf bei der automatischen Gewinnung von österreichischer und polnischer Rechtsterminologie feststellen. Die Untersuchung zeigte, dass das spezialisierte Extraktionstool bessere Ergebnisse als ChatGPT verzeichnete. Außerdem generierte ChatGPT mit unterschiedlichen Prompts jeweils eine andere Liste mit Termkandidaten. Schließlich konnten bessere Ergebnisse für Deutsch als für Polnisch erzielt werden. Die Erkenntnisse der vorliegenden Arbeit sollten in erster Linie einen Beitrag zu der laufenden Forschung am Gebiet der Termextraktion durch LLMs leisten. Die Untersuchung des aktuellen Leistungsstands von ChatGPT bei der automatischen Termextraktion in anderen Sprachen als Englisch hilft die Forschungslücke zu schließen und erteilt Auskunft darüber, wie verlässlich dabei aktuell das Tool ist, und dass zukünftig noch mehr an diesem Gebiet getan werden muss.
Abstract
(Englisch)
More often than not, legal language can pose a challenge on account of its extensive terminology, consisting not only of specialist terms but also of common language expressions with specialist legal meanings. Unlike many other specialist languages, legal language is not limited solely to a group of experts. Instead, it affects people from all strata of society. The widespread use of legal terminology, both in private and professional contexts, requires, especially for some occupational groups, a certain degree of automation in the field of term extraction from legal texts. Since the use of incorrect legal terms can result in serious consequences, there is a need for a reliable automatic term extraction tool to ensure the precision of the extracted legal terminology. The following study addresses these challenges from the perspective of practical terminology work. It aims to determine the performance of ChatGPT-4o in the area of automatic term extraction by using five different prompts on 6 different text fragments. The results are then compared with the performance of a specialised extraction tool, Text2TCS, and with a manually created gold standard, using the evaluation metrics of precision, recall, and F1 score. The performance of both extraction tools are tested using Austrian and Polish legal texts from the field of copyright law in order to determine their applicability for the specific task of extracting legal Austrian and Polish terms. Collected data indicates the need for improvement in the automatic extraction of Austrian and Polish legal terms. The study shows that the specialised extraction tool produces better results than ChatGPT. In addition, ChatGPT generates a different list of term candidates depending on the prompts. Finally, the study concludes that automatic term recognition obtains better results for German than for the Polish language. The findings of the present work can primarily contribute to the ongoing research in the field of automatic term extraction by Large Language Models (LLMs). Investigating the current performance of ChatGPT in automatic term extraction in languages other than English, helps close the research gap and provides information on how reliable the tool currently is for this specific task, and that there is room for further improvement in this area in the future.
Schlagwörter
Schlagwörter
(Deutsch)
Rechtsterminologie Automatische Termextraktion Terminologiegewinnung ChatGPT Gerichtliche Entscheidungen Urheberrecht Polnisch Goldstandard
Schlagwörter
(Englisch)
legal terminology automatic term extraction ChatGPT court decisions copyright law Polish gold standard
Autor*innen
Michał Sterczyński
Haupttitel (Deutsch)
Automatische Gewinnung polnischer und österreichischer Rechtsterminologie aus den gerichtlichen Entscheidungen im Fachgebiet des Urheberrechts
Paralleltitel (Englisch)
Automatic extraction of Polish and Austrian legal terminology from court decisions in the field of copyright law
Publikationsjahr
2024
Umfangsangabe
217 Seiten : Illustrationen
Sprache
Deutsch
Beurteiler*in
Dagmar Gromann
Klassifikation
17 Sprach- und Literaturwissenschaft > 17.45 Übersetzungswissenschaft
AC Nummer
AC17397987
Utheses ID
74064
Studienkennzahl
UA | 070 | 375 | 331 |