Detailansicht

Ein digitales Wörterbuch der 200 häufigsten Wörter der Wikipedia in ägyptischer Umgangssprache
corpusbasierte Methoden zur lexikalischen Analyse nicht-standardisierter Sprache
Omar Siam
Art der Arbeit
Diplomarbeit
Universität
Universität Wien
Fakultät
Philologisch-Kulturwissenschaftliche Fakultät
Betreuer*in
Karlheinz Mörth
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.26036
URN
urn:nbn:at:at-ubw:1-30452.70772.244653-7
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Natural Language Processung (NLP) für Arabisch ist immer noch eine Herausforderung. Erst kürzlich gab es mehrere Versuche Softwarewerzeugsammlungen zusammenzustellen, um komplexere Aufgaben im Bereich NLP für Arabisch zu lösen. Eine noch größere Herausforderung scheint es darzustellen eine solche Werkzeugsammlung für arabische Umgangssprachen zu erstellen, die die Erstsprache aller Menschen in der arabischen Welt sind. Diese Arbeit versucht einen Prozess zu skizzieren, mit dem ein Corpus aus einer frei verfügbaren Ressource im Internet, der Wikipedia Masry, erstellt werden kann, aus dem Frequenzinformationen der darin enthaltenen Wörter extrahiert werden sollen. Um dieses Zeil zu erreichen, wird der theoretische Hintergrund von Corpuslinguistik dargestellt. Außerdem werden die Werkzeuge beschrieben, die benutzt werden, um die Texte zu extrahieren, die mittels Computer verarbeitet werden können, um erste Ergebnisse zu erhalten. Weiters werden einige Werkzeuge diskutiert, die verwendet werden können, um die Daten mit Informationen anzureichern und die Analysen zu verfeinern. Nachdem die aktuellen Standards für die Codierung vorgestellt werden, wird die Arbeit mit einem Wörterbuchteil abgeschlossen, die auch in dem heute in den Geisteswissenschaften am weitesten verbreiteten Standard zur Codierung lexikographischer Daten, den Richtlinien der Text Encoding Initiativem, vorliegen soll.
Abstract
(Englisch)
Natural Language Processing (NLP) for Arabic is still a challenging task. Only recently there have been some efforts to create tool sets for accomplishing more advanced tasks in the field of Arabic NLP. Even more challenging it seems to create such a tool set for Arabic colloquials, which are the mother tongue of every citizen of the Arab World. The present work tries to sketch the process of creating a corpus from a freely available source of Egyptian colloquial on the Internet, namely the Wikipedia Masry, to extract frequency information of the words therein. To achieve this end, the theoretical background of corpus creation is presented as well as tools, which were used to create texts, which can be processed using the computer to obtain first results in the field. Furthermore some tools are discussed which could be used to enhance the data and refine the analysis. After presenting current standards in the encoding of dictionaries the work is concluded by a dictionary part, which will be available in the encoding currently best suited for scholarly exchange of lexicographic data, namely the Guidelines of the Text Encoding Initiative.

Schlagwörter

Schlagwörter
(Englisch)
dialectology Corpus linguistics Cairo Egypt Cairene word frequency lists frequency dictionaries Wikipedia TEI encoding
Schlagwörter
(Deutsch)
Dialektologie Corpuslinguistik Kairo Ägypten Kairenisch Häufigkeitswortlisten Häufigkeitswörterbücher Wikipedia TEI Encoding
Autor*innen
Omar Siam
Haupttitel (Deutsch)
Ein digitales Wörterbuch der 200 häufigsten Wörter der Wikipedia in ägyptischer Umgangssprache
Hauptuntertitel (Deutsch)
corpusbasierte Methoden zur lexikalischen Analyse nicht-standardisierter Sprache
Publikationsjahr
2013
Umfangsangabe
VI, 117 S. : Ill., graph. Darst.
Sprache
Deutsch
Beurteiler*in
Karlheinz Mörth
Klassifikationen
17 Sprach- und Literaturwissenschaft > 17.18 Dialektologie ,
17 Sprach- und Literaturwissenschaft > 17.22 Sprachlenkung, Sprachpolitik ,
17 Sprach- und Literaturwissenschaft > 17.46 Mathematische Linguistik ,
17 Sprach- und Literaturwissenschaft > 17.54 Orthographie ,
17 Sprach- und Literaturwissenschaft > 17.59 Lexikologie ,
17 Sprach- und Literaturwissenschaft > 17.60 Lexikographie ,
54 Informatik > 54.08 Informatik in Beziehung zu Mensch und Gesellschaft ,
54 Informatik > 54.55 Auszeichungssprachen ,
54 Informatik > 54.75 Sprachverarbeitung
AC Nummer
AC10760812
Utheses ID
23262
Studienkennzahl
UA | 385 | | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1