Detailansicht

Vergabe von DDC-Sachgruppen mittels eines Schlagwort-Thesaurus
Sebastian Gabler
Art der Arbeit
Master-Thesis (ULG)
Universität
Universität Wien
Fakultät
Postgraduate Center
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Universitätslehrgang Library and Information Studies (MSc)
Betreuer*in
Christoph Steiner
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.70030
URN
urn:nbn:at:at-ubw:1-11238.98999.264653-0
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Vorgestellt wird die Konstruktion eines thematisch geordneten Thesaurus auf Basis der Sach-schlagwörter der Gemeinsamen Normdatei (GND) unter Nutzung der darin enthaltenen DDC-Notationen. Oberste Ordnungsebene dieses Thesaurus werden die DDC-Sachgruppen der Deut-schen Nationalbibliothek. Die Konstruktion des Thesaurus erfolgt regelbasiert unter der Nutzung von Linked Data Prinzipien in einem SPARQL Prozessor. Der Thesaurus dient der automatisierten Gewinnung von Metadaten aus wissenschaftlichen Pub-likationen mittels eines computerlinguistischen Extraktors. Hierzu werden digitale Volltexte ver-arbeitet. Dieser ermittelt die gefundenen Schlagwörter über Vergleich der Zeichenfolgen Benen-nungen im Thesaurus, ordnet die Treffer nach Relevanz im Text und gibt die zugeordneten Sach-gruppen rangordnend zurück. Die grundlegende Annahme dabei ist, dass die gesuchte Sachgrup-pe unter den oberen Rängen zurückgegeben wird. In einem dreistufigen Verfahren wird die Leistungsfähigkeit des Verfahrens validiert. Hierzu wird zunächst anhand von Metadaten und Erkenntnissen einer Kurzautopsie ein Goldstandard aus Do-kumenten erstellt, die im Online-Katalog der DNB abrufbar sind. Die Dokumente verteilen sich über 14 der Sachgruppen mit einer Losgröße von jeweils 50 Dokumenten. Sämtliche Dokumente werden mit dem Extraktor erschlossen und die Ergebnisse der Kategorisierung dokumentiert. Schließlich wird die sich daraus ergebende Retrievalleistung sowohl für eine harte (binäre) Kate-gorisierung als auch eine rangordnende Rückgabe der Sachgruppen beurteilt.
Abstract
(Englisch)
The construction of a thematically ordered thesaurus based on the subject headings of the Gemeinsame Normdatei (GND) using the DDC-Notations contained therein is presented. The DDC subject groups of the German National Library will be the top level of this thesaurus. The con-struction of the thesaurus is rule-based using Linked Data principles in a SPARQL processor. The thesaurus is used for the automated extraction of metadata from scientific publications by means of a computational linguistic extractor. For this purpose, digital full texts are processed. The extractor determines the keywords found by comparing the character strings from the full text with concept labels, ranks the hits according to their relevance in the text, and returns the assigned subject categories in rank order. The basic assumption is that the correct subject group is returned among the upper ranks. In a three-step procedure, the performance of the method is validated. For this purpose, a gold standard is first created from documents retrievable from the DNB online catalog using metada-ta and findings from a short autopsy. The documents are distributed over 14 of the subject cate-gories with a batch size of 50 documents each. All documents are indexed with the extractor and the results are documented. Finally, the information retrieval performance is assessed for both hard (binary) categorization and rank-ordered return of the subject categories.

Schlagwörter

Schlagwörter
(Englisch)
subject indexing classification thesaurus ontology
Schlagwörter
(Deutsch)
Sacherschließung Klassifikation Thesaurus Ontologie
Autor*innen
Sebastian Gabler
Haupttitel (Deutsch)
Vergabe von DDC-Sachgruppen mittels eines Schlagwort-Thesaurus
Paralleltitel (Englisch)
Assignment of DDC subject groups by means of German subject headings
Publikationsjahr
2021
Umfangsangabe
109 Seiten : Illustrationen, Diagramme, Karten
Sprache
Deutsch
Beurteiler*in
Christoph Steiner
Klassifikationen
06 Information und Dokumentation > 06.35 Informationsmanagement ,
06 Information und Dokumentation > 06.70 Katalogisierung, Bestandserschließung
AC Nummer
AC16454654
Utheses ID
60927
Studienkennzahl
UA | 992 | 600 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1