Detailansicht
Analyzing the potential of geographic knowledge graphs for advancing spatial capabilities of RAG-based large language model applications
Simon Groß
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Geowissenschaften, Geographie und Astronomie
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Kartographie und Geoinformation
Betreuer*in
Krzysztof Janowicz
DOI
10.25365/thesis.79051
URN
urn:nbn:at:at-ubw:1-30038.03752.777947-3
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Large Language Models (LLM) haben in den letzten Jahren stark an Popularität gewonnen. Trotz beeindruckender Fähigkeiten, auch in der Geoinformation, leiden sie unter Halluzinationen. Retrieval Augmented Generation (RAG) ist ein Ansatz, diese abzuschwächen, indem korrekte Dokumente abgerufen und als Kontext für das LLM verwendet werden. GraphRAG ist eine neuere Variante, bei der kontextbezogene Informationen stattdessen aus Wissensgraphen abgerufen werden. In dieser Arbeit wird das Potenzial von GraphRAG für räumliche Aufgaben untersucht. Drei räumliche Konzepte - Topologie, Richtungen und Nähe - werden durch gezielte Fragen analysiert. Ein GraphRAG-System wurde eingerichtet, das die Antworten auf die Fragen selbständig aus den Wissensgraphen abruft. Die Fragen werden zusammen mit der Ontologie des Graphen an einen LLM gegeben, mit der Anweisung, eine GeoSPARQL-Abfrage (ggf. mit Funktionen) zu generieren, die automatisch an eine GraphDB-Instanz gesendet wird, die die benötigten Daten enthält. Während des Experiments werden mehrere Parameter (Modell, Temperatur, usw.) aufgezeichnet und ihre Auswirkungen auf die Leistung bewertet. Dieser Ansatz übertrifft ein traditionelles LLM ohne RAG um ein Vielfaches. Insgesamt liegt der F1-Score bei 0,81 für RAG im Vergleich zu 0,37 ohne RAG bei der besten Modell-Temperatur-Kombination. Bei einfacheren Fragen erreicht der RAG-Ansatz F1-Scores > 0,95. Diese Studie veranschaulicht das Potenzial von GraphRAG mit dem vorgestellten retrieval-Ansatz zur Verbesserung der räumlichen Fähigkeiten von LLMs.
Abstract
(Englisch)
Large Language Models (LLM) gained immense popularity in recent years. While exhibiting impressive abilities, also within GIScience, they suffer from so-called hallucinations. Retrieval Augmented Generation (RAG) emerged as an approach to mitigate these by retrieving factual documents and giving them as context to the LLM. GraphRAG is a recent variation the contextual information is retrieved from knowledge graphs (KG) instead. This work assesses the potential of GraphRAG for spatially explicit tasks. Three spatial concepts - topology, directionality and proximity - are analyzed through targeted questions. A GraphRAG system is set up that autonomously retrieves the answers to the questions from the KG. The question together with the KG’s ontology are given to a LLM with the instructions to generate a GeoSPARQL query (including functions if applicable) that is executed automatically on a GraphDB instance containing the needed data. During the experiment, multiple parameters (model, temperature, etc.) are recorded and their effects on performance are evaluated. This approach outperforms a non-RAG setup by a wide margin. Overall the F1 scores are 0.81 for RAG compared to 0.37 for non-RAG when using the best performing model-temperature combination. For easier questions the RAG approach reaches F1 scores > 0.95. This study illustrates the potential of GraphRAG with the presented retrieval approach for advancing spatial capabilities of LLMs.
Schlagwörter
Schlagwörter
(Deutsch)
Große Sprachmodelle Retrieval Augmented Generation RAG Semantisches Web GeoSPARQL Wissensgraphen KI Geographische KI GraphRAG Ontologien
Schlagwörter
(Englisch)
LLM RAG Retrieval Augmented Generation GraphRAG AI GeoAI Knowledge Graphs GeoSPARQL Semantic Web Ontologies
Haupttitel (Englisch)
Analyzing the potential of geographic knowledge graphs for advancing spatial capabilities of RAG-based large language model applications
Publikationsjahr
2025
Umfangsangabe
112 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Krzysztof Janowicz
Klassifikationen
54 Informatik > 54.72 Künstliche Intelligenz ,
74 Geographie > 74.48 Geoinformationssysteme
AC Nummer
AC17617113
Utheses ID
76126
Studienkennzahl
UA | 066 | 856 | |