Supporting Web Vocabulary Development by Automated Quality Checks

Mader Christian; undefined; undefined; undefined

doi:10.25365/thesis.39505

Detailansicht

Supporting Web Vocabulary Development by Automated Quality Checks

Christian Mader

Art der Arbeit

Dissertation

Universität

Universität Wien

Fakultät

Fakultät für Informatik

Studiumsbezeichnung bzw. Universitätlehrgang (ULG)

Dr.-Studium der technischen Wissenschaften (Dissertationsgebiet: Informatik)

Betreuer*in

Wolfgang Klas

Volltext in Browser öffnen

DOI

10.25365/thesis.39505

URN

urn:nbn:at:at-ubw:1-30128.84916.449465-7

Link zu u:search

(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract

(Deutsch)

Kontrollierte Vokabulare haben sich als hilfreiche Werkzeuge zur Organisation von Wis- sen sowie zum Suchen und Abrufen von Informationen im Web bewährt. Sie werden beispielsweise dazu verwendet um Dokumente zu indizieren, als Navigationshilfe, oder um systemübergreifende Abfragen von Datensätzen zu realisieren. Letzteres wird durch ihre Eigenschaft, ein gemeinsames Verständnis der semantischen Bedeutung einer Ressource herzustellen, ermöglicht. Mit der Einführung des Simple Knowledge Organization Sys- tem (SKOS), ist ein Datenschema verfügbar, das einen standardisierten Grundstock an Klassen und Beziehungen bereitstellt die dazu verwendet werden können, kontrollierte Vokabulare auszudrücken. SKOS basiert auf RDF, einem ebenfalls standardisierten For- mat zum Austausch von Datensätzen im Web, und erlaubt es daher, Webvokabulare gemäß der Linked Data Prinzipien auszudrücken. Obwohl automatisierte Lösungen existieren, ist die Erstellung von Webvokabularen nach wie vor in den meisten Fällen ein intellektueller Prozess, der manuell erfolgt. Dement- sprechend können sich Fehler und Unzulänglichkeiten in die Webvokabulare einschle- ichen, die Qualitätsprobleme verursachen. Besonders in kollaborativen Umgebungen ist es schwierig, alle eingepflegten Änderungen an einem Webvokabular zwecks Qualitäts- sicherung im Auge zu behalten. Ein zusätzlicher Aspekt ist, dass der Informationsgehalt von Datensätzen durch Hinzufügen von Links zu anderen Ressourcen im Web steigt, da letztere zusätzliche Informationen einbringen. Durch die große Anzahl an verfügbaren Webvokabularen verschiedener Größe und Komplexität ist die Qualität dieser Vokab- ulare auch ein wichtiger Faktor der die Entscheidung, ob das Vokabular verlinkt oder wiederverwendet werden soll, beeinflusst. Die Auswirkungen von Qualitätsproblemen in Webvokabularen können vielfältig sein. Sie beeinträchtigen beispielsweise die Genauigkeit und Trefferquote von Suchanfragen, leiten Benutzer zu irrelevanter Information, behindern das automatisierte Abschöpfen von Daten oder verringern die Verständlichkeit des Inhalts von Webvokabularen für menschliche Benutzer. Zusätzlich streben Vokabularentwickler danach, ihre Datensätze iiiiv Zusammenfassung auch zu möglichst hochqualitativen “externen” Webvokabularen zu verlinken, die ihre Erfordernisse hinsichtlich Qualität erfüllen. Es existieren zahllose Richtlinien zur Entwicklung und Evaluierung kontrollierter Vok- abulare, die sowohl “traditionelle” als auch Webvokabulare behandeln. Viele dieser Pub- likationen schlagen Qualitätskriterien vor, deren Evaluierung zusätzliches Domänenwis- sen benötigt. Verfügbare Vorgaben zum Publizieren von Linked Data beschränken sich hingegen meistens auf syntaktische und formale Korrektheit der Datensätze. Wir haben in dieser Dissertation existierende Publikationen hinsichtlich Richtlinien be- treffend Vokabularqualität untersucht und diese an die Erfordernisse und Möglichkeit- en von Webvokabularen adaptiert. Dabei konzentrieren wir uns auf allgemein anwend- bare, automatisch auswertbare Kriterien die über existierende formale Kriterien hin- ausgehen und kein zusätzliches Domänenwissen erfordern. Ein zentraler Beitrag unserer Arbeit stellt ein Katalog von potenziellen Qualitätsproblemen dar, die in Webvokabu- laren auftreten können. Der Katalog ist einerseits Ergebnis unserer Literaturrecherche und beruht andererseits auf Erfahrungen die wir mittels einer Expertenumfrage sammeln konnten. Mittels einer Fallstudie untersuchen wir zu welchem Grad aktuell verfügbare Webvokabulare von den Qualitätsproblemen in unserem Katalog betroffen sind und en- twickeln Empfehlungen zu Formulierung und Publikation von Webvokabularen. Einen weiteren Beitrag unserer Arbeit stellen die entwickelten Werkzeuge dar, die Webvok- abulare auf das Auftreten von Qualitätsproblemen aus unserem Katalog untersuchen und eine Auswertung beziehungsweise Benachrichtigung generieren. Da die Auffassung von Qualität auch in hohem Maße vom Einsatzzweck und subjektiven Entscheidungen abhängt, können unsere Werkzeuge in Entwicklungsprozesse von Webvokabularen einge- bunden werden, um die weitere Behandlung der gefundenen Qualitätsprobleme den Vok- abularentwicklern zu überlassen. Unsere Fallstudien haben gezeigt, dass sowohl Webvokabulare die sich in Entwicklung befinden, als auch jene die bereits öffentlich verfügbar sind, von den Qualitätsproble- men die wir in unserem Katalog definieren, betroffen sind. Unsere Rückmeldungen dieser Probleme an die Entwickler haben in manchen Fällen zu Verbesserungen der Vokabu- lare geführt. Die Werkzeuge die im Kontext dieser Arbeit entwickelt wurden, werden von Webvokabularentwicklern und der Linked Data Gemeinschaft verwendet und auch teilweise erweitert. In einer weiteren Fallstudie konnten wir zeigen, dass die Integration automatisierter Prüfung auf Qualitätsprobleme in Webvokabular-Entwicklungsprozessen helfen kann, die Zahl der gefundenen Qualitätsprobleme im fertigen Webvokabular zu reduzieren.

Abstract

(Englisch)

On the Web, controlled vocabularies have proved as a useful tool for knowledge organi- zation and search and retrieval tasks. They are used, e.g., to index documents, support navigation, or enable queries that span multiple datasets as they help to achieve a com- mon understanding on the semantics of resources. The Simple Knowledge Organization System (SKOS) introduces a data schema that provides a standard set of classes and relations which can be used to model controlled vocabularies. SKOS is based on RDF, a standard way for publishing datasets on the Web, and therefore allows to express controlled vocabularies as Web vocabularies, utilizing the Linked Data paradigm. Despite the existence of automated solutions, Web vocabulary development in most cases remains an intellectual process performed by human contributors. As a consequence, errors and shortcomings can slip in, causing quality problems. Especially in collaborative development environments, overseeing all changes for the purpose of quality assurance can become difficult for human users. Another aspect is that the value of datasets on the Web increases if linked to other online resources which provide additional information. Given the vast amount of Web vocabularies of various sizes and complexity available on the Web, quality is a crucial factor for deciding whether to select a particular vocabulary on the Web for linking or reuse. The impact of quality issues in Web vocabularies can be manifold. They can impair search precision and recall, guide users to irrelevant information, break automated pro- cessing applications like information retrieval, or decrease understandability of the vo- cabulary content for human users. In addition, Web vocabulary developers want to link their datasets to vocabularies of good quality that fit and support their requirements. Numerous guidelines on development and evaluation of controlled vocabularies currently exist, covering both “traditional” controlled vocabularies and Web vocabularies. How- ever, many of these publications suggest intellectual checks that require further domain knowledge. Existing Linked Data publication guidelines mostly focus on syntactic and formal constraint violations using reasoning techniques. iii Abstract In this thesis, we reviewed existing work on controlled vocabulary development and adopted quality-related guidelines for application to Web vocabularies expressed using SKOS. We focused on generally applicable, less intellectually-loaded checks that can be automatically computed and go beyond formal data-level constraints. As one of the contributions of this thesis we provide a catalog of potential quality issues, which is the result of a literature review and expert feedback through a survey we conducted. In a case study we show to what extent currently available Web vocabularies are affected by these quality issues and provide best practices for expressing and publishing Web vocabularies. We furthermore contribute tools that can process Web vocabularies and automatically report occurrences of quality issues from the catalog. As the notion of quality is also to a large degree usage-scenario dependent and subjective, the tools can be integrated into vocabulary development processes in order to leave the final judgment of appropriateness up to human Web vocabulary developers. Our studies showed that Web vocabularies that are in development as well as already publicly available Web vocabularies are affected by the quality issues we defined in our catalog. Communicating these findings to the vocabulary developers led to improvements in some cases. The tools developed in the context of this work are actively used, adopted, and extended by Web vocabulary developers and the Linked Data community. In another case study we also show that integrating automatic quality checks in a Web vocabulary development process helps in reducing the number of observed quality issues.

Autor*innen

Christian Mader

Haupttitel (Englisch)

Supporting Web Vocabulary Development by Automated Quality Checks

Paralleltitel (Deutsch)

Unterstützte Entwicklung von Webvokabularen durch automatische Qualitätsprüfung

Publikationsjahr

2015

Umfangsangabe

XIII, 179 Seiten : Diagramme

Sprache

Englisch

Beurteiler*innen

Wolfgang Klas ,

Axel Polleres

Klassifikationen

54 Informatik > 54.61 Datenverarbeitungsmanagement ,

54 Informatik > 54.62 Datenstrukturen

AC Nummer

AC13014914

Utheses ID

34992

Studienkennzahl

UA | 786 | 880 | |

Detailansicht

Abstracts

Schlagwörter