Geospatial Information Retrieval for POIs with the use of a Data Mining System

Czech Alexander; undefined; undefined; undefined

doi:10.25365/thesis.40077

Detailansicht

Geospatial Information Retrieval for POIs with the use of a Data Mining System

Alexander Czech

Art der Arbeit

Masterarbeit

Universität

Universität Wien

Fakultät

Fakultät für Geowissenschaften, Geographie und Astronomie

Studiumsbezeichnung bzw. Universitätlehrgang (ULG)

Masterstudium Kartographie und Geoinformation

Betreuer*in

Andreas Riedl

Volltext in Browser öffnen

DOI

10.25365/thesis.40077

URN

urn:nbn:at:at-ubw:1-30003.05314.532666-1

Link zu u:search

(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract

(Deutsch)

Bisher lag der Fokus der Arbeitsfelder “Neogeography“ und “ Big Geo-Data“ auf der Verwendung von geotagged Informationen aus sozialen Medien. Diese Arbeit versucht zu zeigen, dass auch Webseiten, die keinen geotag im bisherigen Sinne besitzen, den Raum beschreibende Eigenschaften besitzen können. Dafür wurden etwa 8 Millionen gecrawlte HTML-Dokumente verarbeitet. Diese rohen gecrawlten Daten sind für Analysen handhabbar gemacht worden und in eine PostgreSQL- Datenbank überführt worden. Um sie mit geotags zu versehen ist ein Adressdatensatz aus OpenStreetMap-Daten erstellt worden. Die HTML-Dokumente sind nach verschiedenen Schreibweisen derselben Adressen aus diesem Datensatz durchsucht worden. Dokumente, die so einer Adresse oder mehreren Adressen zugeordnet werden konnten, sind mit den Koordinaten dieser Adresse oder Adressen geotagged worden. Um den Umfang der zu verarbeitenden Daten zu begrenzen sind die HTML-Dokumente auf diejenigen beschränkt worden, die eine URL besitzen, die zu dem Top-level Domain-Bereich von .at gehören und die Adressen sind beschränkt auf den 1. bis 9. sowie 20. Gemeindebezirk Wiens. Dies erzeugt eine Informationslandschaft. Im zweiten Teil der Arbeit geht es darum, die analytischen Möglichkeiten dieser Informationslandschaft zu untersuchen. Dafür sind die HTML-Dokumente in einen Dokumenten-Vektor im Vektor-Raum-Model überführt worden. Für 9 Klassen werden 18 Klassifizierungsvektoren erzeugt und mit Hilfe der Kosinus-Ähnlichkeit werden diese mit den HTML-Dokument-Vektoren verglichen. Die Ergebnisse werden dann den Adressen zugeordnet und zusammengefasst. Die so zusammen gefassten Ergebnisse werden auf Adressenebene in zwei Schritten sortiert. Erstens werden die Daten für jede Klasse und jede Adresse in relevante und nicht relevante Daten unterschieden und ein weiteres Mal nach Zugehörigkeit zu einer Klasse oder nicht. Die Ergebnisse dieser Klassifizierungsmethode sind durchwachsen. Sie erreichen nur zwischen 19 und 25% korrekte Klassifikationen, aber es ist möglich nachzuweisen, dass es eine den Daten zugrunde liegende Struktur gibt, die in Verbindung zu den Adressen steht.

Abstract

(Englisch)

Up to now, most works about “Neogeography” and “Big Geo-Data” focus on using geotagged social media information for analysis. But this thesis argues that also non-geotagged websites have descriptive capabilities that are of interest. For this, a set of 8 million HTML crawled documents is processed. The crawled data is made manageable and transferred into a PostgreSQL database. To geotag the HTML documents, an address dataset is created from OpenStreetMap data. Multiple variations of each address are then searched for within the HTML documents. Documents containing one or more addresses are geotagged with the coordinates of those addresses. Lastly, websites linking to geotagged websites are also associated with those geotags. To limit the scope of the data that needs to be processed, the HTML documents all have a URL that belongs to the .at top-level domain and the addresses stem from the 1st to 9th and 20th districts of Vienna. This processing creates an information landscape. The second part of the thesis is to explore the analytic capabilities of this information landscape. A classification attempt based on the information is made. For this, the HTML documents are transformed into a vector in the vector space model. For 9 classes, 18 classification vectors are created and compared with cosine similarity to the HTML document vectors. The results are then associated and summarized on an address basis. These summarized results are sorted on an address level in two steps: once into relevant and irrelevant data and a second time based on whether or not they belong to a class. The results of this classification attempt are mixed. While they only achieve about 19 to 25% correct classifications, they clearly prove that the data has an underlying structure referring to the point of interest they are attached to.

Autor*innen

Alexander Czech

Haupttitel (Englisch)

Geospatial Information Retrieval for POIs with the use of a Data Mining System

Paralleltitel (Deutsch)

Geospatial Informationsrückgewinnung für POIs mit Hilfe eines Data-Mining Systems

Publikationsjahr

2015

Umfangsangabe

XII, 138, XIII - LIII S. : graph. Darst., Kt.

Sprache

Englisch

Beurteiler*in

Andreas Riedl

Klassifikationen

74 Geographie > 74.03 Methoden und Techniken der Geographie und Anthropogeographie ,

74 Geographie > 74.12 Stadtgeographie, Siedlungsgeographie ,

74 Geographie > 74.48 Geoinformationssysteme

AC Nummer

AC13038415

Utheses ID

35502

Studienkennzahl

UA | 066 | 856 | |

Detailansicht

Abstracts

Schlagwörter