Provenance in clouds : framework, applications and implication

Imran Muhammad; undefined; undefined; undefined

doi:10.25365/thesis.34667

Detailansicht

Provenance in clouds

framework, applications and implication

Muhammad Imran

Art der Arbeit

Dissertation

Universität

Universität Wien

Fakultät

Fakultät für Informatik

Betreuer*in

Helmut Hlavacs

Volltext in Browser öffnen

DOI

10.25365/thesis.34667

URN

urn:nbn:at:at-ubw:1-29642.25772.244869-5

Link zu u:search

(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract

(Deutsch)

Clouds – einer der neuesten Trends in der Entwicklung von verteilten Systemen entstand auf Grund der Forschung und neuen Entwicklungen in den Bereichen Virtualisierung, Netzwerktechnik, Web Services und Grid Computing. Clouds setzen eine Service-orientierte Architektur voraus und erlauben bedarfsgetriebenen Zugriff auf eine gemeinsame Menge an Ressourcen wie Server, Speicher, Applikationen und Services. Die darunterliegende Architektur basiert auf verschiedenen Tiers wie zum Beispiel Software, Plattform und Infrastruktur, die in der Regel als Cloud Computing Stack bezeichnet werden. Jedes dieser Tiers trägt seinen Teil zum Funktionieren der Cloud bei, sei es durch die Übertragung von Ressourcen, die Ausführung von Programmen, oder die Speicherung von Daten für die Benutzer. Clouds sind abstrakt, modular und dynamisch aufgebaut. Die Abstraktion hilft die Komplexität vor dem Benutzer zu verstecken und hilft dabei die Cloud dem Benutzer als eine einzelne Entität darzustellen. Aus Sicht der Endbenutzer haben Clouds trotz vieler Vorzüge noch einige Probleme. So sind zum Beispiel weitere Verbesserungen in den Bereichen Verfügbarkeit, Nachvollziehbarkeit, Sicherheit und Vertrauenswürdigkeit nötig. Provenance sind Metadaten über die Herkunft und Geschichte eines Datenobjektes oder Berechnungsergebnis in der Simulationswissenschaft. Diese Metadaten werden verwendet um die Zuverlässigkeit und die Vertrauenswürdigkeit der Daten zu untermauern. Aktuelle Forschungsergebnisse zum Thema Provenance beschäftigen sich hauptsächlich mit der Applikationsschicht Wir sind aber der Ansicht, dass für Clouds auf Grund ihrer Dynamik und Modularität ebenfalls Provenance Daten gespeichert werden sollten. Zum Beispiel Provenance Daten für die Infrastruktur, die Plattform, die Software, den Client und Virtualisierungsumgebungen die für das Hosten der Applikationen und Übertragen der Daten zuständig sind. In dieser Arbeit untersuchen welche Anforderungen eine Cloud erfüllen muss um die Aufzeichnung von Provenance-Daten zu ermöglichen. Wir unterteilen die Anforderungen anhand der verschiedenen Tiers unter Berücksichtigung der speziellen Cloud-Charakteristiken (wie zum Beispiel Abstraktion, Modularität, Skalierbarkeit, etc.). Wir schlagen zur Vereinfachung Aufzeichnung von Provenance-Daten ein Framework vor, das die identifizierten Anforderungen erfüllt und dabei modular, unabhängig und für den Benutzer transparent arbeitet. Das Framework sollte zusätzlich zur Aufzeichnung der Provenance Daten auch Möglichkeiten zum Speichern, Abfragen und Visualizern dieser Daten bieten. Mit dem von uns entwickelten Framework und den damit aufgezeichneten Provenance Daten zeigen wir in der Folge den Zusatznutzen der Provenance Daten anhand einer Reihe von Anwendungsszenarios, welche die Wichtigkeit dieser Daten verdeutlichen. Diese Szenarien beinhalten ein breites Spektrum an Anwendungsgebieten, wie zum Beispiel Metadaten (eine Untermenge von Provenance-Daten), Benutzerstatistiken für verschiedene Benutzer und Cloud-Aktivitäten, sowie die Nachverfolgung von auftretenden Fehlern. Zusätzlich verwenden wir die Cloud Provenance Daten um die Verbindungen und Beziehungen der einzelnen Tiers zueinander zu untersuchen. Unser Framework wurde entwickelt um die speziellen Anforderungen an die Sammlung von Provenance Daten in der Cloud zu berücksichtigen und die Managementmöglichkeiten für den Benutzer zu verbessern. Des Weiteren konnten wir zeigen, dass die Anforderungen des Frameworks an Speicherkapazität und Rechenleistung vernachlässigbar sind.

Abstract

(Englisch)

Clouds – one of the latest implementation of distributed computing emerged as a result of research and advancement in virtualization, networking, web services and grid computing. They imply a service oriented architecture and provide on-demand access to a shared pool of resources such as servers, storage, applications and services. The underlying architecture of Clouds is based on various tiers or layers such as software, platform, and infrastructure also called Cloud computing stack. These tiers target specific audiences such as consumers, developers and resource providers. Each tier contributes in the overall process of delivering resources, executing applications, providing services and storing data for the target users. Clouds are also abstract, modular and dynamic in nature. The abstraction helps hiding the underlying complex details from the end users and presents them as a single entity. The layered and dynamic architecture of Clouds has made it a rapidly adopting platform for computation and data science activities. However, there is a dire need to make Clouds more reliable, accountable, secure and trustworthy from different perspectives of the end users. Provenance is metadata that describes the derivation history of any object in data or computation science. It is used as evidence to provide reliability and trustworthiness to the derived object. The existing works of provenance in Clouds are mostly focused on the application layer. However, it is not widely recognized that Clouds have their own provenance because of the dynamic and modular architecture. For instance, the provenance of infrastructure, platform, software, client, and virtualization tiers while delivering and hosting various applications and data. In this thesis, we examine the architecture of Clouds and provide a list of requirements for the collection of provenance. The requirements are identified from different layers while considering various characteristics such as abstraction, modularity, and scalability etc. of Clouds. In addition, low cost of provenance computation and storage is also considered. To achieve this, a provenance framework is designed and developed which addresses the list of requirements in a modular, independent and seamless fashion for the collection of provenance. The proposed provenance framework not only addresses the identified requirements but also provides services such as storage, query and visualization of provenance. The collected provenance and the services of framework are further utilized to present the usefulness of provenance enabled Clouds. This is achieved through validating various applications scenarios which highlight the significance of provenance and the developed framework at various layers of Clouds for the different end users. These applications cover a broad range of domains such as: (i) metadata (subset of provenance) based search, (ii) usage reports of various users and Cloud services, (iii) finding similarity patterns and utilization of resources through analysis of various users and Cloud activities, and (iv) failure tracking. Moreover, Cloud provenance is exploited as a bonding agent to explore the connections and relationships amongst various layers. In short, an effective provenance framework is derived which addresses the layered architecture of Cloud and various applications using provenance ensure the improved management of Clouds for end users. This is accomplished while keeping the computation and storage cost of provenance marginal as evident through various evaluation in this thesis. We believe that the contribution of this thesis is relevant with current data and computation science shifting towards Clouds.

Autor*innen

Muhammad Imran

Haupttitel (Englisch)

Provenance in clouds

Hauptuntertitel (Englisch)

framework, applications and implication

Paralleltitel (Englisch)

Provenance in Clouds ; Framework, Applications and Implication

Publikationsjahr

2014

Umfangsangabe

XXIII, 209 S. : Ill., graph. Darst.

Sprache

Englisch

Beurteiler*innen

Helmut Hlavacs ,

Sabri Pllana

Klassifikation

54 Informatik > 54.61 Datenverarbeitungsmanagement

AC Nummer

AC12205434

Utheses ID

30758

Studienkennzahl

UA | 786 | 881 | |

Detailansicht

Abstracts

Schlagwörter