Detailansicht

Web content mining: towards an adaptable framework for delivering structured data
Jakob Rathmair
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Informatik
Betreuer*in
Wolfgang Klas
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.72839
URN
urn:nbn:at:at-ubw:1-13616.44688.513918-2
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Das World Wide Web setzt sich aus einer riesigen Menge von vernetzten Webseiten zusammen, welche Informationen über unterschiedlichste Themen bereitstellen. Diese Informationen werden üblicherweise so dargestellt, dass sie für Menschen übersichtlich und leicht verständlich sind. Es wird aber selten Wert daraufgelegt, dass diese Informationen von Computer Programmen automatisiert ausgelesen und interpretiert werden können. Dafür fehlen oft explizite Angaben über die Bedeutung von dargestellten Informationen. Außerdem unterscheiden sich Webseiten im Design sehr stark und es ist daher kaum möglich, allgemeine Darstellungsstrukturen zu identifizieren. In dieser Arbeit wird diesem Problem nachgegangen und ein System vorgestellt, mit welchem Informationen von unterschiedlichsten Webseiten extrahiert und in einem einheitlichen Format abgespeichert werden können. Das vorgestellte Framework ist flexibel einsetzbar und kann durch die Verwendung einer modularen Microservice Architektur leicht auf veränderte Anforderungen angepasst werden. Des Weiteren kann das vorgestellte System in einer modernen Cloudinfrastruktur gehostet werden und somit die verfügbare Leistung bedarfsorientiert skaliert werden. Letztendlich wird die hohe Flexibilität des Systems unter Beweis gestellt, indem Daten von einer Reihe von Webseiten mit unterschiedlichen Darstellungsformen extrahiert werden. Außerdem wird die Beständigkeit des Systems getestet, indem über einen Zeitraum von einer Woche erfolgreich über 100 000 Webseiten automatisiert verarbeitet werden.
Abstract
(Englisch)
The World Wide Web consists of a massive amount of interconnected Web pages which provide information on a wide variety of topics. This information is usually presented in a human-readable way. However, it is challenging to extract the underlying data automatically. Often, explicit information about the context of the presented information is missing. In addition, Web pages differ greatly in design, and it is therefore hardly possible to identify general representation patterns. This paper addresses this problem and presents a system which extracts information from a wide variety of Web pages and stores it in a uniform format. The presented framework is flexible and can be easily adapted to varying requirements because it is based on a modular microservice architecture. Furthermore, the presented system can be hosted in a modern cloud infrastructure and thus the available performance can be scaled on demand. Finally, the high flexibility of the system is demonstrated by extracting data from a series of websites, which use diverse information presentation formats and styles. In addition, the durability of the system is tested by successfully processing over 100 000 Web pages automatically over a period of one week.

Schlagwörter

Schlagwörter
(Deutsch)
Web Content Mining Framework Informationsextrahierung
Schlagwörter
(Englisch)
web content mining information extraction
Autor*innen
Jakob Rathmair
Haupttitel (Englisch)
Web content mining: towards an adaptable framework for delivering structured data
Paralleltitel (Deutsch)
Web Content Mining: ein anpassungsfähiges Framework zur Bereitstellung von strukturierten Daten
Publikationsjahr
2022
Umfangsangabe
xi, 96 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Wolfgang Klas
Klassifikationen
54 Informatik > 54.64 Datenbanken ,
54 Informatik > 54.65 Webentwicklung. Webanwendungen
AC Nummer
AC16724158
Utheses ID
65394
Studienkennzahl
UA | 066 | 921 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1