Integrating Data Stream Generators into the Data Intensive ADMIRE Platform

Fokina Ekaterina; undefined; undefined; undefined

doi:10.25365/thesis.27570

Detailansicht

Integrating Data Stream Generators into the Data Intensive ADMIRE Platform

Ekaterina Fokina

Art der Arbeit

Masterarbeit

Universität

Universität Wien

Fakultät

Fakultät für Informatik

Betreuer*in

Peter Brezany

Volltext in Browser öffnen

DOI

10.25365/thesis.27570

URN

urn:nbn:at:at-ubw:1-29867.12896.626462-1

Link zu u:search

(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract

(Deutsch)

Heutige wissenschaftliche Großkollaborationen sind zunehmend datengetrieben. Ein großer Teil dieser Daten wird ununterbrochen von Sensoren und anderen wissenschaftlichen Instrumenten produziert. Diese Stromdaten haben spezifische Data-Management- und Data-Mining-Aspekte, wie schwankende Zugangsraten, Brüche und Heterogenität von Datenformaten, Qualität oder Größen. Es gibt verschiedene Systeme, um sie zu verarbeiten, einschließlich ESPER, StreamInsight und MOA. Das OGSA-DAI Framework, das einer der Schwerpunkte dieser Arbeit ist, wurde entworfen, um stromorientierte Datensatz-Zugriffe und assoziirte Workflows auszuführen. Das ADMIRE Projekt, das teilweise von dem Team aus Research Group for Scientific Computing (Universität Wien) implementiert wurde, hat Strategien, Fähigkeiten und Technologie kombiniert, um eine Einheitsplattform zu entwickeln, die Wissensentdeckung durchführt, indem sie Datenzugriff, Integration, Vorbearbeitung, Data-Mining, Statistische Analyse, Nachbearbeitung, Transformation und Zustellung kombiniert. Das Projekt soll von verschiedenen Spezialisten-Gruppen benutzt werden, wie Fachexperten, Datenanalyse-Experten oder Technikern für datenintensives verteiltes Rechnen. Die Hauptentwicklungen sind die ADMIRE-Plattform und eine Java-ähnliche Sprache DISPEL, um die Funktionalität der Plattform zu führen. Eine fehlende Eigenschaft des ADMIRE und anderen Datenstrom-Projekte ist die Möglichkeit, ausgesuchte Datenströme für Leistungsexperimente und Validierung zu verwenden. Stattdessen werden große statistische Datensatz-Beispiele verwendet. Das Grund dazu ist fehlende, geeignete Datenströme mit voraussagbarem Verhalten, die für diesen Zweck verwerden werden könnten. Das Hauptziel dieser Arbeit ist, eine erweiterbare Datenstrom-Generation-Feature zu der ADMIRE-Plattform hinzuzufügen. Um das zu erreichen, die folgende Schritte wurden ausgeführt: 1) State-of-the-Art Analyse im Bereich Datenströme; 2) Übertragung/Anpassung von ausgesuchten Strom-Generatoren zu der ADMIRE Plattform in erweiterbarer Weise; 3) Modellierung simpler Workflows, die einen Stromgenerator umfassen; 4) Untersuchung von DISPEL Workflow-Patterns, die einen Stromgenerator umfassen; und 5) tatsächliche Bereitstellung. Das Hauptergebnis der Arbeit ist die DataStream OGSA-DAI Activity, die mehrere konfigurierbare Datenstrom-Generatoren umfasst, zusammen mit einem Client für diese Activity. Außerdem, wurde das ADMIRE Visualisierungstool eingearbeitet, um Stromerzeugung mit Hilfe der DataStream Activity zu illustrieren. Eine neue, auf dem STORM-Algorithmus basierende Outlier Activity wurde implementiert, um die Verwendbarkeit der DataStream Activity in möglichen real-life Workflows zu demonstrieren. Alle entwickelte Software-Prototypes sind in Java mit Verwendung von MOA und OGSA-DAI Tools verfasst.

Abstract

(Englisch)

Todays large-scale scientific collaborations are increasingly data driven. A big part of this data is produced continuously by sensors and other scientific instruments. This stream data has specific data management and data mining issues like varying arrival rates, bursts and heterogeneity of data formats, quality, volumes, etc. Various systems exist to process them, including ESPER, StreamInsight and MOA. The OGSA-DAI framework, one of the focuses of this Thesis, was designed to execute stream-oriented data set accesses and associated workflows. The ADMIRE Project, partially implemented by the University of Vienna team based in the Research Group for Scientific Computing, provides a single platform for knowledge discovery on the basis of combined strategies, skills and technology. It offers tools for data access, pre-processing, data mining, statistical analysis, post-processing, transformation and delivery. It is intended to be used by several groups of specialists, including domain experts, data analysis experts or data-intensive distributed computing engineers. The main developments are the ADMIRE platform and a Java-like data-intensive language DISPEL for steering the platform functionality. A missing feature of the ADMIRE and other data stream projects is the possibility to use selected data streams for performance experiments and validation. Large static data set examples are used instead. The reason is the lack of well analyzed data streams with predictable behavior that may be used for this purpose. The main goal of the presented Thesis is to add an extendable data stream generation feature to the ADMIRE platform. To achieve this, the following steps were executed: 1) analysis of state of the art in Data Streams; 2) porting/adapting selected stream generators to the ADMIRE Platform in an extendable manner; 3) modeling of simple workflows involving stream generators; 4) investigation of DISPEL workflow patterns involving stream generators; and 5) actual deployment. The kernel result of the work is the DataStream OGSA-DAI activity which includes several configurable data stream generators and a client to use with this activity. Furthermore, the ADMIRE visualization tool was incorporated to illustrate stream generation with the DataStream activity. A new Outlier activity, based on the STORM outlier detection algorithm, was implemented to demonstrate usefulness of the DataStream activity in possible real-life workflows. All the developed software prototypes are written in Java with the use of OGSA-DAI and MOA tools.

Autor*innen

Ekaterina Fokina

Haupttitel (Englisch)

Integrating Data Stream Generators into the Data Intensive ADMIRE Platform

Paralleltitel (Deutsch)

Integration von Datenstrom-Generatoren in die datenintensive ADMIRE Plattform

Publikationsjahr

2013

Umfangsangabe

103 S.

Sprache

Englisch

Beurteiler*in

Peter Brezany

Klassifikation

54 Informatik > 54.25 Parallele Datenverarbeitung

AC Nummer

AC11411403

Utheses ID

24640

Studienkennzahl

UA | 066 | 940 | |

Detailansicht

Abstracts

Schlagwörter