Detailansicht
Mediators in a distributed environment
Barbara Selista
Art der Arbeit
Diplomarbeit
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Betreuer*in
Peter Brezany
DOI
10.25365/thesis.2771
URN
urn:nbn:at:at-ubw:1-29893.15114.142770-1
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Die Speicherung der Daten und Informationen in den letzten Jahren war fast zu 100 Prozent immer in der Hand von zentralen Datenbanksystemen. Eine kleine Anzahl an Programmen und Experten waren involviert in der Handhabung dieser Datenquellen. Die Unternehmensstruktur hat sich verändert, früher kleine Unternehmen expandierten und viele ehemals kleine Unternehmen haben Bereiche die auf verschiedene Städte verteilt sind. Um eine bessere Handhabung der Daten zu gewährleisten, ist es keinesfalls mehr üblich, das Daten in einem Datenbanksystem gespeichert sind. Die unterschiedlichen Abteilungen die mit den gespeicherten Daten arbeiten, sind geographisch verteilt und eine größere Anzahl an Personen ist involviert innerhalb der Abteilungen die als Database Department oder auch spezialisierter als Data Warehouse Department oftmals bezeichnet werden.
Während früher Daten oftmals innerhalb von Files gespeichert wurden, ist es heute auch möglich strukturierte und semi-strukturierte Daten und Objekte zu speichern. Die bekanntesten und innerhalb dieser Arbeit von den involvierten Systemen zur Verfügung gestellten sind: Speicherung der Daten in Files, innerhalb von relationalen Datenbanken, XML Datenbanken und objekt-orientierten Datenbanken. Neben unterschiedlichen Produkten die Heterogenitäten auslösen können, können auch unterschiedliche Schemabeschreibungen innerhalb von gleichen kommerziellen und open-source Datenbanken verschiedene Probleme verursachen, die dann mit Hilfe von Mediation korrigiert werden müssen. Drei verschiedene Arten von Datenpartitionierung können genannt werden. Der Begriff der horizontalen Partitionierung inkludiert das Aufsplitten der gleichen Daten in mehrere Datenbanken. Diese Art der Partitionierung wird üblicherweise anhand eines Schlüssels erledigt. Vertikale Partitionierung erklärt den Ausdruck, dass zusammengehörige Daten in unterschiedlichen sogar verteilten Datenbanken abgespeichert sein können und mittels eines Schlüssels (keys) wieder kombiniert werden können. Partitionierungen können aber auch über heterogene Datenquellen erfolgen. Unter Heterogenität versteht man die Unterschiedlichkeit der beteiligten Datenquellen, dies könnte sein Format, Typ oder Datenbank. Um Abfragen über heterogene Datenquellen durchführen zu können, wurde bereits einiges an Forschungsarbeit investiert. Das Mapping der verschiedenen Datenquellen wird in der Informatik auch Mediation genannt.
Der Wrapper-Mediator Ansatz ist am weitesten verbreitet, um Abfragen gegen ein mediiertes Schema durchzuführen. Der Wrapper erfüllt den Zugang zu den Daten und sorgt dafür das Heterogenitäten verdeckt werden. Als nächsten Schritt ist der Wrapper auch zuständig für die Übersetzung und Durchführung von Abfragen. Der Mediator stellt ein einheitliches Schema für die unterschiedlichen Datenquellen zur Verfügung und ist verantwortlich für die Umwandlung und Aufteilung der Query in kleinere Teil-Queries die mit Hilfe des Wrappers an die unterschiedlichen Datenquellen geschickt werden. Mediatoren können zentralisiert und verteilt sein. Handelt es sich um einen verteilten Mediator gibt es innerhalb von Amos II einen speziellen Mediator mit dem Namen nameserver und der ist zuständig für die Speicherung der Metadaten der Mediatoren. Amos II ist ein System, welches von uns verwendet wird um den Wrapper-Mediator Ansatz innerhalb von Gridsystemen zu zeigen.
Der Begriff des Gridcomputing umfasst in erster Linie die gemeinsame Nutzung von Computerresourcen. Loose coupling und der einfache Zugriff auf Resourcen innerhalb des Grid-Netzwerks sind die wichtigsten Punkte die erwähnt werden sollten. OGSA-DAI ist eine Middleware Lösung, die einen einheitlichen Zugriff mit Hilfe von Webservices auf Datenquellen innerhalb des Grids ermöglichen.
Der praktische Teil dieser Arbeit soll ein neues System sein, welches die zwei Ansätze miteinander kombiniert. Der Ansatz der Mediation innerhalb von OGSA-DAI ist gegeben durch OGSA-DQP aber hier sind nicht alle Bereiche abgedeckt, die Amos II zur Verfügung stellt. OGSA-DQP ermöglicht einen Zugriff auf relationale Datenquellen innerhalb von OGSA-DAI. Diese Arbeit erläutert die Erweitungsfähigkeit der zwei Systeme und soll die Vorteile der beiden Ansätze miteinander verknüpfen. Innerhalb dieser Arbeit werden beide Systeme vorgestellt und die Kombinationsfähigkeit dieser Systeme erläutert. Der praktische Teil dieser Arbeit beschäftigt sich mit der Erweiterung von OGSA-DAI mit Hilfe von neuen Aktivitäten und soll den Zugriff auf Amos II ermöglichen. Um die Aktivitäten an Amos II weiterleiten zu können, wird das Java call interface verwendet, welches dann die AmosQL Abfragen an die verschiedenen Amos II Peers schickt. Die Arbeit wird abgerundet durch verschiedene Performance-Analysen und Use-Cases die die Funktionalität der Implementierung zeigen sollen.
Abstract
(Englisch)
In the past data was stored in centralized databases, handled and manipulated by just few persons or programs. Today nearly every company structure has changed. The departments and data sources that they produce are distributed all over the world and more people and different soft- and hardware is involved.
There exist different solutions to store structured, semi-structured data and objects. The most common are flat file storage, relational DBs, XML DBs and object-oriented databases. Beside these conceptual differences, also database administrators can design different schemas for the same task and storage environment. This leads to three kinds of conceptual data partitioning. Horizontal partitioning means data of the same type divided into multiple databases. Vertical partitioning stands for related data stored in multiple databases and combined via a key join. Partitioning over heterogeneous data sources means handling data that can be different in format, type or database. To handle these differences, it is necessary to map and integrate the involved data according to one global schema. This is the task of mediation.
The wrapper/mediator approach is the most commonly used approach to perform queries against a mediated schema. The wrapper part is responsible for the low level access of a data source, to hide its data representation specifics and to translate and process queries. The mediator part provides a unified schema for the different schemata of the data sources and transforms the unified schema queries into one or more data resource queries that can be executed by the wrapper. It can be implemented as central mediator or as distributed mediator. In the latter case a name server keeps track of the participating peers. If cost information for each peer query is available query optimization can take place. The AMOS II system follows this wrapper/mediator approach.
Grid computing on the other hand focuses on collaborative usage of computing resources. Loose coupling and easy access of these resources are the main requirements. The OGSA-DAI middleware allows the uniform access to different data sources via Grid and Web services.
The combination of the advantages of the wrapper/mediator approach and grid computing has not fully been investigated. OGSA-DAI's DQP (Distributed Query Processing) is one advance in this direction. It enables queries in a declarative language over multiple OGSA-DAI data resources and other grid services. Nevertheless, a fully featured wrapper/mediator within OGSA-DAI has not yet been implemented. This Master Thesis discusses the possibilities of combining the wrapper/mediator approach with grid computing. It identifies the main features of both approaches and examines how they can work together and which limitations occur. The practical part of this Thesis attempts to extend OGSA-DAI with new activities to make AMOS II accessible from within OGSA-DAI. Therefore it uses the AMOS II Java call interface to forward AmosQL queries to the peers. To evaluate the prospects of this approach the provided functionality is discussed and performance comparisons are undertaken.
Schlagwörter
Schlagwörter
(Englisch)
distributed systems distributed databases mediators gridcomputing OGSA-DAI Amos II
Schlagwörter
(Deutsch)
verteilte Systeme verteilte Datenbanken Mediatoren Gridcomputing OGSA-DAI Amos II
Autor*innen
Barbara Selista
Haupttitel (Englisch)
Mediators in a distributed environment
Paralleltitel (Deutsch)
Mediatoren in einer verteilten Umgebung
Publikationsjahr
2008
Umfangsangabe
IX, 107 S. : graph. Darst.
Sprache
Englisch
Beurteiler*in
Peter Brezany
Klassifikation
54 Informatik > 54.64 Datenbanken
AC Nummer
AC07470522
Utheses ID
2402
Studienkennzahl
UA | 175 | | |