Detailansicht

On modeling, simulation and optimization of data access profiles in data-intensive systems
Volodimir Begy
Art der Arbeit
Dissertation
Universität
Universität Wien
Fakultät
Fakultät für Informatik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Doktoratsstudium der technischen Wissenschaften Informatik
Betreuer*in
Erich Schikuta
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.78164
URN
urn:nbn:at:at-ubw:1-26131.40581.508391-6
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Das Worldwide LHC Computing Grid (WLCG) speichert mehr als 600 Petabytes an Daten, die aus dem ATLAS Experiment am CERN stammen. Diese Daten sind zwischen 170 Datenzentren verteilt, die typischerweise von Mitgliedsinstitutionen administriert werden. Forscher benutzen das Grid, um Rechenarbeiten auszuführen. Diese verlangen Eingabedateien aus lokalen und entfernten Datenzentren. Die Daten kann man anhand von verschiedenen Datenzugriffsprofilen erhalten: Data Placement, Stage-In und Remote Data Access. Diese Tatsache ermöglicht eine kombinatorische Optimierung von Datenzugriffsprofilen für gegebene Rechenkampagnen. Das Ziel dieser Optimierung ist die Gesamtübertragungszeit von erforderlichen Eingabedateien zu minimieren, indem man die Eingaberepliken und die Datenzugriffsprofile aussucht. Wir führen evolutionäre Optimierung von Datenzugriffsprofilen durch und evaluieren deren Ergebnisse anhand von einem Simulationsmodell von WLCG. Basierend auf zwei Optimierungsschemata wird eine Vielfalt von heterogenen Rechenkampagnen optimiert. Im ersten Schema wird die Menge der initialen Lösungen stochastisch initialisiert und dann optimiert. Im zweiten Schema wird die initiale Menge von Lösungen anhand von einer domänenspezifischen Heuristik berechnet. Die Heuristik priorisiert lokale Repliken und wendet die konventionellen Datenzugriffsprofile an. Das Optimierungsverfahren erreicht bei partitionierten Gruppen von verschiedenen Rechenkampagnen eine relative prozentuelle Verbesserung von bis zu 89.8% - 93.8% (mit Stichprobenmittelwerten von 75.2% - 76.6%) im Rahmen vom ersten Schema und von bis zu 42% - 78.6% (mit Stichprobenmittelwerten von 6.4% - 14.3%) im Rahmen vom zweiten Schema. Wir gestalten den Grid Data Access Profiles Simulator (GDAPS), anhand dessen das Simulationsmodell von WLCG implementiert wird. Die Architektur und die Modellierung von GDAPS sind aus zahlreichen empirischen Studien im WLCG abgeleitet. Der Simulator befolgt einen hybriden Ansatz zur Modellierung von datenintensiven Systemen: der zugrundeliegende Mechanismus vom Simulator ist auf eine transparente Weise formalisiert; der Simulator hat eine hohe Anzahl von Parametern, die anhand von Methoden aus dem maschinellen Lernen bestimmt werden. GDAPS simuliert eine Vielfalt von Rechenkampagnen, die im WLCG ausgeführt wurden, mit einem gewichteten Median des relativen Fehlers von 23.91%. Des Weiteren entwickeln wir eine simulationsbasierte Inferenzmethode im Rahmen vom Bayesschen Formalismus, nämlich Error-Guided Likelihood-Free MCMC (EG-LF-MCMC). Wir tragen der Entwicklung einer weiteren solchen Inferenzmethode, namens Amortised Approximate Likelihood-Ratio MCMC (AALR-MCMC), bei. Diese Methoden ermöglichen die Kalibrierung der Simulatorparameter.
Abstract
(Englisch)
The Worldwide LHC Computing Grid (WLCG) stores more than 600 petabytes of data recorded by the ATLAS experiment at CERN. These data are distributed among 170 computing sites, which are typically administered by member institutions. Researchers run computational jobs on the grid, which require remote and local input files. Such data may be retrieved using varying data access profiles, which include data placement, stage-in and remote data access. This fact gives rise to an opportunity for a combinatorial optimization of the data access profiles for a given bag of jobs. The goal of such optimization is to minimize the total transfer time of the required input data by selecting input replicas and data access profiles. We perform evolutionary optimization of data access profiles and evaluate its results using a simulation model of WLCG. The optimization is carried out on a variety of heterogeneous input workloads using two optimization schemes. In the first scheme we initialize and optimize a random solution pool. In the second scheme the initial pool consists of solutions computed by a custom heuristic, which gives priority to local replicas and employs baseline data access profiles. Given various workload clusters, our optimization procedure achieves a relative percentage improvement of up to 89.8% - 93.8% (with sample means of 75.2% - 76.6%) in the first scheme and up to 42% - 78.6% (with sample means of 6.4% - 14.3%) in the second scheme. We design the Grid Data Access Profiles Simulator (GDAPS) and implement the simulation model of WLCG on top of it. The architecture and modeling of GDAPS are derived from numerous empirical studies performed in the production grid. The simulator takes a hybrid approach to modeling data-intensive systems: the underlying mechanics of the simulator are formalised in a transparent way; the simulator is highly parameterised, and the parameters are inferred using machine learning techniques. GDAPS is capable of simulating a broad range of workloads executed in the production system with a weighted median relative error of 23.91%. Furthermore, we develop a simulation-based inference method using the Bayesian formalism, namely Error-Guided Likelihood-Free MCMC (EG-LF-MCMC). We contribute to the development of another such inference method, called Amortised Approximate Likelihood-Ratio MCMC (AALR-MCMC). These inference techniques allow us to calibrate the simulator parameters.

Schlagwörter

Schlagwörter
(Deutsch)
Datenintensive Systeme Worldwide LHC Computing Grid Datenzugriffsprofile Modellierung und Simulation Simulationsbasierte Inferenz Evolutionäre Optimierung
Schlagwörter
(Englisch)
Data-intensive systems Worldwide LHC Computing Grid Data access profiles Modeling and simulation Likelihood-free inference Evolutionary optimization
Autor*innen
Volodimir Begy
Haupttitel (Englisch)
On modeling, simulation and optimization of data access profiles in data-intensive systems
Publikationsjahr
2024
Umfangsangabe
xix, 151 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*innen
Ivona Brandic ,
Stefanie Rinderle-Ma
Klassifikationen
54 Informatik > 54.29 Datenverarbeitungsanlagen. Sonstiges ,
54 Informatik > 54.72 Künstliche Intelligenz ,
54 Informatik > 54.76 Computersimulation
AC Nummer
AC17488163
Utheses ID
72921
Studienkennzahl
UA | 786 | 880 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1