Detailansicht
Ein digitales Wörterbuch der 200 häufigsten Wörter der Wikipedia in ägyptischer Umgangssprache
corpusbasierte Methoden zur lexikalischen Analyse nicht-standardisierter Sprache
Omar Siam
Art der Arbeit
Diplomarbeit
Universität
Universität Wien
Fakultät
Philologisch-Kulturwissenschaftliche Fakultät
Betreuer*in
Karlheinz Mörth
DOI
10.25365/thesis.26036
URN
urn:nbn:at:at-ubw:1-30452.70772.244653-7
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Natural Language Processung (NLP) für Arabisch ist immer noch eine Herausforderung. Erst kürzlich gab
es mehrere Versuche Softwarewerzeugsammlungen zusammenzustellen, um komplexere Aufgaben im
Bereich NLP für Arabisch zu lösen. Eine noch größere Herausforderung scheint es darzustellen eine
solche Werkzeugsammlung für arabische Umgangssprachen zu erstellen, die die Erstsprache aller
Menschen in der arabischen Welt sind. Diese Arbeit versucht einen Prozess zu skizzieren, mit dem ein
Corpus aus einer frei verfügbaren Ressource im Internet, der Wikipedia Masry, erstellt werden kann, aus
dem Frequenzinformationen der darin enthaltenen Wörter extrahiert werden sollen. Um dieses Zeil zu
erreichen, wird der theoretische Hintergrund von Corpuslinguistik dargestellt. Außerdem werden die
Werkzeuge beschrieben, die benutzt werden, um die Texte zu extrahieren, die mittels Computer
verarbeitet werden können, um erste Ergebnisse zu erhalten. Weiters werden einige Werkzeuge
diskutiert, die verwendet werden können, um die Daten mit Informationen anzureichern und die
Analysen zu verfeinern. Nachdem die aktuellen Standards für die Codierung vorgestellt werden, wird die
Arbeit mit einem Wörterbuchteil abgeschlossen, die auch in dem heute in den Geisteswissenschaften
am weitesten verbreiteten Standard zur Codierung lexikographischer Daten, den Richtlinien der Text
Encoding Initiativem, vorliegen soll.
Abstract
(Englisch)
Natural Language Processing (NLP) for Arabic is still a challenging task. Only recently there have been
some efforts to create tool sets for accomplishing more advanced tasks in the field of Arabic NLP. Even
more challenging it seems to create such a tool set for Arabic colloquials, which are the mother tongue
of every citizen of the Arab World. The present work tries to sketch the process of creating a corpus
from a freely available source of Egyptian colloquial on the Internet, namely the Wikipedia Masry, to
extract frequency information of the words therein. To achieve this end, the theoretical background of
corpus creation is presented as well as tools, which were used to create texts, which can be processed
using the computer to obtain first results in the field. Furthermore some tools are discussed which could
be used to enhance the data and refine the analysis. After presenting current standards in the encoding
of dictionaries the work is concluded by a dictionary part, which will be available in the encoding
currently best suited for scholarly exchange of lexicographic data, namely the Guidelines of the Text
Encoding Initiative.
Schlagwörter
Schlagwörter
(Englisch)
dialectology Corpus linguistics Cairo Egypt Cairene word frequency lists frequency dictionaries Wikipedia TEI encoding
Schlagwörter
(Deutsch)
Dialektologie Corpuslinguistik Kairo Ägypten Kairenisch Häufigkeitswortlisten Häufigkeitswörterbücher Wikipedia TEI Encoding
Autor*innen
Omar Siam
Haupttitel (Deutsch)
Ein digitales Wörterbuch der 200 häufigsten Wörter der Wikipedia in ägyptischer Umgangssprache
Hauptuntertitel (Deutsch)
corpusbasierte Methoden zur lexikalischen Analyse nicht-standardisierter Sprache
Publikationsjahr
2013
Umfangsangabe
VI, 117 S. : Ill., graph. Darst.
Sprache
Deutsch
Beurteiler*in
Karlheinz Mörth
Klassifikationen
17 Sprach- und Literaturwissenschaft > 17.18 Dialektologie ,
17 Sprach- und Literaturwissenschaft > 17.22 Sprachlenkung, Sprachpolitik ,
17 Sprach- und Literaturwissenschaft > 17.46 Mathematische Linguistik ,
17 Sprach- und Literaturwissenschaft > 17.54 Orthographie ,
17 Sprach- und Literaturwissenschaft > 17.59 Lexikologie ,
17 Sprach- und Literaturwissenschaft > 17.60 Lexikographie ,
54 Informatik > 54.08 Informatik in Beziehung zu Mensch und Gesellschaft ,
54 Informatik > 54.55 Auszeichungssprachen ,
54 Informatik > 54.75 Sprachverarbeitung
AC Nummer
AC10760812
Utheses ID
23262
Studienkennzahl
UA | 385 | | |