Detailansicht

Geospatial Information Retrieval for POIs with the use of a Data Mining System
Alexander Czech
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Geowissenschaften, Geographie und Astronomie
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Kartographie und Geoinformation
Betreuer*in
Andreas Riedl
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.40077
URN
urn:nbn:at:at-ubw:1-30003.05314.532666-1
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Bisher lag der Fokus der Arbeitsfelder “Neogeography“ und “ Big Geo-Data“ auf der Verwendung von geotagged Informationen aus sozialen Medien. Diese Arbeit versucht zu zeigen, dass auch Webseiten, die keinen geotag im bisherigen Sinne besitzen, den Raum beschreibende Eigenschaften besitzen können. Dafür wurden etwa 8 Millionen gecrawlte HTML-Dokumente verarbeitet. Diese rohen gecrawlten Daten sind für Analysen handhabbar gemacht worden und in eine PostgreSQL- Datenbank überführt worden. Um sie mit geotags zu versehen ist ein Adressdatensatz aus OpenStreetMap-Daten erstellt worden. Die HTML-Dokumente sind nach verschiedenen Schreibweisen derselben Adressen aus diesem Datensatz durchsucht worden. Dokumente, die so einer Adresse oder mehreren Adressen zugeordnet werden konnten, sind mit den Koordinaten dieser Adresse oder Adressen geotagged worden. Um den Umfang der zu verarbeitenden Daten zu begrenzen sind die HTML-Dokumente auf diejenigen beschränkt worden, die eine URL besitzen, die zu dem Top-level Domain-Bereich von .at gehören und die Adressen sind beschränkt auf den 1. bis 9. sowie 20. Gemeindebezirk Wiens. Dies erzeugt eine Informationslandschaft. Im zweiten Teil der Arbeit geht es darum, die analytischen Möglichkeiten dieser Informationslandschaft zu untersuchen. Dafür sind die HTML-Dokumente in einen Dokumenten-Vektor im Vektor-Raum-Model überführt worden. Für 9 Klassen werden 18 Klassifizierungsvektoren erzeugt und mit Hilfe der Kosinus-Ähnlichkeit werden diese mit den HTML-Dokument-Vektoren verglichen. Die Ergebnisse werden dann den Adressen zugeordnet und zusammengefasst. Die so zusammen gefassten Ergebnisse werden auf Adressenebene in zwei Schritten sortiert. Erstens werden die Daten für jede Klasse und jede Adresse in relevante und nicht relevante Daten unterschieden und ein weiteres Mal nach Zugehörigkeit zu einer Klasse oder nicht. Die Ergebnisse dieser Klassifizierungsmethode sind durchwachsen. Sie erreichen nur zwischen 19 und 25% korrekte Klassifikationen, aber es ist möglich nachzuweisen, dass es eine den Daten zugrunde liegende Struktur gibt, die in Verbindung zu den Adressen steht.
Abstract
(Englisch)
Up to now, most works about “Neogeography” and “Big Geo-Data” focus on using geotagged social media information for analysis. But this thesis argues that also non-geotagged websites have descriptive capabilities that are of interest. For this, a set of 8 million HTML crawled documents is processed. The crawled data is made manageable and transferred into a PostgreSQL database. To geotag the HTML documents, an address dataset is created from OpenStreetMap data. Multiple variations of each address are then searched for within the HTML documents. Documents containing one or more addresses are geotagged with the coordinates of those addresses. Lastly, websites linking to geotagged websites are also associated with those geotags. To limit the scope of the data that needs to be processed, the HTML documents all have a URL that belongs to the .at top-level domain and the addresses stem from the 1st to 9th and 20th districts of Vienna. This processing creates an information landscape. The second part of the thesis is to explore the analytic capabilities of this information landscape. A classification attempt based on the information is made. For this, the HTML documents are transformed into a vector in the vector space model. For 9 classes, 18 classification vectors are created and compared with cosine similarity to the HTML document vectors. The results are then associated and summarized on an address basis. These summarized results are sorted on an address level in two steps: once into relevant and irrelevant data and a second time based on whether or not they belong to a class. The results of this classification attempt are mixed. While they only achieve about 19 to 25% correct classifications, they clearly prove that the data has an underlying structure referring to the point of interest they are attached to.

Schlagwörter

Schlagwörter
(Englisch)
Data Mining Geospatial Information Retrieval GIS Spatial Data Mining Vienna Big Geo-Data
Schlagwörter
(Deutsch)
Data Mining Geospatial Information Retrieval GIS Spatial Data Mining Wien Big Geo-Data
Autor*innen
Alexander Czech
Haupttitel (Englisch)
Geospatial Information Retrieval for POIs with the use of a Data Mining System
Paralleltitel (Deutsch)
Geospatial Informationsrückgewinnung für POIs mit Hilfe eines Data-Mining Systems
Publikationsjahr
2015
Umfangsangabe
XII, 138, XIII - LIII S. : graph. Darst., Kt.
Sprache
Englisch
Beurteiler*in
Andreas Riedl
Klassifikationen
74 Geographie > 74.03 Methoden und Techniken der Geographie und Anthropogeographie ,
74 Geographie > 74.12 Stadtgeographie, Siedlungsgeographie ,
74 Geographie > 74.48 Geoinformationssysteme
AC Nummer
AC13038415
Utheses ID
35502
Studienkennzahl
UA | 066 | 856 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1