Ein digitales Wörterbuch der 200 häufigsten Wörter der Wikipedia in ägyptischer Umgangssprache : corpusbasierte Methoden zur lexikalischen Analyse nicht-standardisierter Sprache

Siam Omar; undefined; undefined; undefined

doi:10.25365/thesis.26036

Detailansicht

Ein digitales Wörterbuch der 200 häufigsten Wörter der Wikipedia in ägyptischer Umgangssprache

corpusbasierte Methoden zur lexikalischen Analyse nicht-standardisierter Sprache

Omar Siam

Art der Arbeit

Diplomarbeit

Universität

Universität Wien

Fakultät

Philologisch-Kulturwissenschaftliche Fakultät

Betreuer*in

Karlheinz Mörth

Volltext in Browser öffnen

DOI

10.25365/thesis.26036

URN

urn:nbn:at:at-ubw:1-30452.70772.244653-7

Link zu u:search

(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract

(Deutsch)

Natural Language Processung (NLP) für Arabisch ist immer noch eine Herausforderung. Erst kürzlich gab es mehrere Versuche Softwarewerzeugsammlungen zusammenzustellen, um komplexere Aufgaben im Bereich NLP für Arabisch zu lösen. Eine noch größere Herausforderung scheint es darzustellen eine solche Werkzeugsammlung für arabische Umgangssprachen zu erstellen, die die Erstsprache aller Menschen in der arabischen Welt sind. Diese Arbeit versucht einen Prozess zu skizzieren, mit dem ein Corpus aus einer frei verfügbaren Ressource im Internet, der Wikipedia Masry, erstellt werden kann, aus dem Frequenzinformationen der darin enthaltenen Wörter extrahiert werden sollen. Um dieses Zeil zu erreichen, wird der theoretische Hintergrund von Corpuslinguistik dargestellt. Außerdem werden die Werkzeuge beschrieben, die benutzt werden, um die Texte zu extrahieren, die mittels Computer verarbeitet werden können, um erste Ergebnisse zu erhalten. Weiters werden einige Werkzeuge diskutiert, die verwendet werden können, um die Daten mit Informationen anzureichern und die Analysen zu verfeinern. Nachdem die aktuellen Standards für die Codierung vorgestellt werden, wird die Arbeit mit einem Wörterbuchteil abgeschlossen, die auch in dem heute in den Geisteswissenschaften am weitesten verbreiteten Standard zur Codierung lexikographischer Daten, den Richtlinien der Text Encoding Initiativem, vorliegen soll.

Abstract

(Englisch)

Natural Language Processing (NLP) for Arabic is still a challenging task. Only recently there have been some efforts to create tool sets for accomplishing more advanced tasks in the field of Arabic NLP. Even more challenging it seems to create such a tool set for Arabic colloquials, which are the mother tongue of every citizen of the Arab World. The present work tries to sketch the process of creating a corpus from a freely available source of Egyptian colloquial on the Internet, namely the Wikipedia Masry, to extract frequency information of the words therein. To achieve this end, the theoretical background of corpus creation is presented as well as tools, which were used to create texts, which can be processed using the computer to obtain first results in the field. Furthermore some tools are discussed which could be used to enhance the data and refine the analysis. After presenting current standards in the encoding of dictionaries the work is concluded by a dictionary part, which will be available in the encoding currently best suited for scholarly exchange of lexicographic data, namely the Guidelines of the Text Encoding Initiative.

Autor*innen

Omar Siam

Haupttitel (Deutsch)

Ein digitales Wörterbuch der 200 häufigsten Wörter der Wikipedia in ägyptischer Umgangssprache

Hauptuntertitel (Deutsch)

corpusbasierte Methoden zur lexikalischen Analyse nicht-standardisierter Sprache

Publikationsjahr

2013

Umfangsangabe

VI, 117 S. : Ill., graph. Darst.

Sprache

Deutsch

Beurteiler*in

Karlheinz Mörth

Klassifikationen

17 Sprach- und Literaturwissenschaft > 17.18 Dialektologie ,

17 Sprach- und Literaturwissenschaft > 17.22 Sprachlenkung, Sprachpolitik ,

17 Sprach- und Literaturwissenschaft > 17.46 Mathematische Linguistik ,

17 Sprach- und Literaturwissenschaft > 17.54 Orthographie ,

17 Sprach- und Literaturwissenschaft > 17.59 Lexikologie ,

17 Sprach- und Literaturwissenschaft > 17.60 Lexikographie ,

54 Informatik > 54.08 Informatik in Beziehung zu Mensch und Gesellschaft ,

54 Informatik > 54.55 Auszeichungssprachen ,

54 Informatik > 54.75 Sprachverarbeitung

AC Nummer

AC10760812

Utheses ID

23262

Studienkennzahl

UA | 385 | | |

Detailansicht

Abstracts

Schlagwörter