Detailansicht
Supporting Web Vocabulary Development by Automated Quality Checks
Christian Mader
Art der Arbeit
Dissertation
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Dr.-Studium der technischen Wissenschaften (Dissertationsgebiet: Informatik)
Betreuer*in
Wolfgang Klas
DOI
10.25365/thesis.39505
URN
urn:nbn:at:at-ubw:1-30128.84916.449465-7
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Kontrollierte Vokabulare haben sich als hilfreiche Werkzeuge zur Organisation von Wis-
sen sowie zum Suchen und Abrufen von Informationen im Web bewährt. Sie werden
beispielsweise dazu verwendet um Dokumente zu indizieren, als Navigationshilfe, oder um
systemübergreifende Abfragen von Datensätzen zu realisieren. Letzteres wird durch ihre
Eigenschaft, ein gemeinsames Verständnis der semantischen Bedeutung einer Ressource
herzustellen, ermöglicht. Mit der Einführung des Simple Knowledge Organization Sys-
tem (SKOS), ist ein Datenschema verfügbar, das einen standardisierten Grundstock an
Klassen und Beziehungen bereitstellt die dazu verwendet werden können, kontrollierte
Vokabulare auszudrücken. SKOS basiert auf RDF, einem ebenfalls standardisierten For-
mat zum Austausch von Datensätzen im Web, und erlaubt es daher, Webvokabulare
gemäß der Linked Data Prinzipien auszudrücken.
Obwohl automatisierte Lösungen existieren, ist die Erstellung von Webvokabularen nach
wie vor in den meisten Fällen ein intellektueller Prozess, der manuell erfolgt. Dement-
sprechend können sich Fehler und Unzulänglichkeiten in die Webvokabulare einschle-
ichen, die Qualitätsprobleme verursachen. Besonders in kollaborativen Umgebungen ist
es schwierig, alle eingepflegten Änderungen an einem Webvokabular zwecks Qualitäts-
sicherung im Auge zu behalten. Ein zusätzlicher Aspekt ist, dass der Informationsgehalt
von Datensätzen durch Hinzufügen von Links zu anderen Ressourcen im Web steigt, da
letztere zusätzliche Informationen einbringen. Durch die große Anzahl an verfügbaren
Webvokabularen verschiedener Größe und Komplexität ist die Qualität dieser Vokab-
ulare auch ein wichtiger Faktor der die Entscheidung, ob das Vokabular verlinkt oder
wiederverwendet werden soll, beeinflusst.
Die Auswirkungen von Qualitätsproblemen in Webvokabularen können vielfältig sein.
Sie beeinträchtigen beispielsweise die Genauigkeit und Trefferquote von Suchanfragen,
leiten Benutzer zu irrelevanter Information, behindern das automatisierte Abschöpfen
von Daten oder verringern die Verständlichkeit des Inhalts von Webvokabularen für
menschliche Benutzer. Zusätzlich streben Vokabularentwickler danach, ihre Datensätze
iiiiv
Zusammenfassung
auch zu möglichst hochqualitativen “externen” Webvokabularen zu verlinken, die ihre
Erfordernisse hinsichtlich Qualität erfüllen.
Es existieren zahllose Richtlinien zur Entwicklung und Evaluierung kontrollierter Vok-
abulare, die sowohl “traditionelle” als auch Webvokabulare behandeln. Viele dieser Pub-
likationen schlagen Qualitätskriterien vor, deren Evaluierung zusätzliches Domänenwis-
sen benötigt. Verfügbare Vorgaben zum Publizieren von Linked Data beschränken sich
hingegen meistens auf syntaktische und formale Korrektheit der Datensätze.
Wir haben in dieser Dissertation existierende Publikationen hinsichtlich Richtlinien be-
treffend Vokabularqualität untersucht und diese an die Erfordernisse und Möglichkeit-
en von Webvokabularen adaptiert. Dabei konzentrieren wir uns auf allgemein anwend-
bare, automatisch auswertbare Kriterien die über existierende formale Kriterien hin-
ausgehen und kein zusätzliches Domänenwissen erfordern. Ein zentraler Beitrag unserer
Arbeit stellt ein Katalog von potenziellen Qualitätsproblemen dar, die in Webvokabu-
laren auftreten können. Der Katalog ist einerseits Ergebnis unserer Literaturrecherche
und beruht andererseits auf Erfahrungen die wir mittels einer Expertenumfrage sammeln
konnten. Mittels einer Fallstudie untersuchen wir zu welchem Grad aktuell verfügbare
Webvokabulare von den Qualitätsproblemen in unserem Katalog betroffen sind und en-
twickeln Empfehlungen zu Formulierung und Publikation von Webvokabularen. Einen
weiteren Beitrag unserer Arbeit stellen die entwickelten Werkzeuge dar, die Webvok-
abulare auf das Auftreten von Qualitätsproblemen aus unserem Katalog untersuchen
und eine Auswertung beziehungsweise Benachrichtigung generieren. Da die Auffassung
von Qualität auch in hohem Maße vom Einsatzzweck und subjektiven Entscheidungen
abhängt, können unsere Werkzeuge in Entwicklungsprozesse von Webvokabularen einge-
bunden werden, um die weitere Behandlung der gefundenen Qualitätsprobleme den Vok-
abularentwicklern zu überlassen.
Unsere Fallstudien haben gezeigt, dass sowohl Webvokabulare die sich in Entwicklung
befinden, als auch jene die bereits öffentlich verfügbar sind, von den Qualitätsproble-
men die wir in unserem Katalog definieren, betroffen sind. Unsere Rückmeldungen dieser
Probleme an die Entwickler haben in manchen Fällen zu Verbesserungen der Vokabu-
lare geführt. Die Werkzeuge die im Kontext dieser Arbeit entwickelt wurden, werden
von Webvokabularentwicklern und der Linked Data Gemeinschaft verwendet und auch
teilweise erweitert. In einer weiteren Fallstudie konnten wir zeigen, dass die Integration
automatisierter Prüfung auf Qualitätsprobleme in Webvokabular-Entwicklungsprozessen
helfen kann, die Zahl der gefundenen Qualitätsprobleme im fertigen Webvokabular zu
reduzieren.
Abstract
(Englisch)
On the Web, controlled vocabularies have proved as a useful tool for knowledge organi-
zation and search and retrieval tasks. They are used, e.g., to index documents, support
navigation, or enable queries that span multiple datasets as they help to achieve a com-
mon understanding on the semantics of resources. The Simple Knowledge Organization
System (SKOS) introduces a data schema that provides a standard set of classes and
relations which can be used to model controlled vocabularies. SKOS is based on RDF,
a standard way for publishing datasets on the Web, and therefore allows to express
controlled vocabularies as Web vocabularies, utilizing the Linked Data paradigm.
Despite the existence of automated solutions, Web vocabulary development in most cases
remains an intellectual process performed by human contributors. As a consequence,
errors and shortcomings can slip in, causing quality problems. Especially in collaborative
development environments, overseeing all changes for the purpose of quality assurance
can become difficult for human users. Another aspect is that the value of datasets on the
Web increases if linked to other online resources which provide additional information.
Given the vast amount of Web vocabularies of various sizes and complexity available on
the Web, quality is a crucial factor for deciding whether to select a particular vocabulary
on the Web for linking or reuse.
The impact of quality issues in Web vocabularies can be manifold. They can impair
search precision and recall, guide users to irrelevant information, break automated pro-
cessing applications like information retrieval, or decrease understandability of the vo-
cabulary content for human users. In addition, Web vocabulary developers want to link
their datasets to vocabularies of good quality that fit and support their requirements.
Numerous guidelines on development and evaluation of controlled vocabularies currently
exist, covering both “traditional” controlled vocabularies and Web vocabularies. How-
ever, many of these publications suggest intellectual checks that require further domain
knowledge. Existing Linked Data publication guidelines mostly focus on syntactic and
formal constraint violations using reasoning techniques.
iii
Abstract
In this thesis, we reviewed existing work on controlled vocabulary development and
adopted quality-related guidelines for application to Web vocabularies expressed using
SKOS. We focused on generally applicable, less intellectually-loaded checks that can be
automatically computed and go beyond formal data-level constraints. As one of the
contributions of this thesis we provide a catalog of potential quality issues, which is the
result of a literature review and expert feedback through a survey we conducted. In
a case study we show to what extent currently available Web vocabularies are affected
by these quality issues and provide best practices for expressing and publishing Web
vocabularies. We furthermore contribute tools that can process Web vocabularies and
automatically report occurrences of quality issues from the catalog. As the notion of
quality is also to a large degree usage-scenario dependent and subjective, the tools can
be integrated into vocabulary development processes in order to leave the final judgment
of appropriateness up to human Web vocabulary developers.
Our studies showed that Web vocabularies that are in development as well as already
publicly available Web vocabularies are affected by the quality issues we defined in our
catalog. Communicating these findings to the vocabulary developers led to improvements
in some cases. The tools developed in the context of this work are actively used, adopted,
and extended by Web vocabulary developers and the Linked Data community. In another
case study we also show that integrating automatic quality checks in a Web vocabulary
development process helps in reducing the number of observed quality issues.
Schlagwörter
Schlagwörter
(Englisch)
Controlled Vocabularies Data Quality Linked Data Data Management SKOS
Schlagwörter
(Deutsch)
Kontrollierte Vokabular Datenqualität Linked Data Datenmanagement SKOS
Autor*innen
Christian Mader
Haupttitel (Englisch)
Supporting Web Vocabulary Development by Automated Quality Checks
Paralleltitel (Deutsch)
Unterstützte Entwicklung von Webvokabularen durch automatische Qualitätsprüfung
Publikationsjahr
2015
Umfangsangabe
XIII, 179 Seiten : Diagramme
Sprache
Englisch
Beurteiler*innen
Wolfgang Klas ,
Axel Polleres
Klassifikationen
54 Informatik > 54.61 Datenverarbeitungsmanagement ,
54 Informatik > 54.62 Datenstrukturen
AC Nummer
AC13014914
Utheses ID
34992
Studienkennzahl
UA | 786 | 880 | |