Detailansicht

Datenschutzrechtliche Herausforderungen beim Training von großen Sprachmodellen
Anforderungen an das berechtigte Interesse als wirksame Rechtsgrundlage und das Potential synthetischer Daten
Manuel Rombach
Art der Arbeit
Master-Thesis (ULG)
Universität
Universität Wien
Fakultät
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
außerordentliches Masterstudium Informations- und Medienrecht [Vollzeit]
Betreuer*in
Nikolaus Forgó
Volltext herunterladen
Volltext in Browser öffnen
Alle Rechte vorbehalten / All rights reserved
DOI
10.25365/thesis.78889
URN
urn:nbn:at:at-ubw:1-29290.98684.510493-3
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)

Abstracts

Abstract
(Deutsch)
Diese Masterarbeit untersucht die datenschutzrechtlichen Herausforderungen beim Training großer Sprachmodelle (Large Language Models, LLMs) unter besonderer Berücksichtigung des berechtigten Interesses gemäß Art. 6 Abs. 1 lit. f DSGVO als Rechtsgrundlage sowie dem Potenzial synthetischer Daten für ein datenschutzfreundliches Training großer Sprachmodelle. Ausgangspunkt ist die zunehmende Nutzung LLM-basierter KI-Systeme, der steigende Bedarf an Trainingsdaten und die damit verbundenen Spannungen mit zentralen Grundsätzen der DSGVO wie Zweckbindung, Datenminimierung und Transparenz. Die Arbeit beleuchtet die Funktionsweise von LLMs sowie die rechtlichen Unsicherheiten bei der Anwendung der DSGVO. Im Zentrum steht die Frage, ob typische Trainingsdaten einen Personenbezug i. S. d. DSGVO aufweisen und das Training von LLMs in den Anwendungsbereich der DSGVO fällt. Untersucht wird zudem, unter welchen Voraussetzungen das berechtigte Interesse eine tragfähige Rechtsgrundlage für das LLM-Training darstellen kann. Dabei wird auch das Potenzial synthetischer Daten als möglicher Ausweg aus dem Spannungsverhältnis zwischen DSGVO und LLM-Training geprüft. Basierend auf einer interdisziplinären Methodik werden technische Grundlagen, rechtliche Rahmenbedingungen sowie Schutzmaßnahmen wie Differential Privacy evaluiert. Ziel ist es, praxisnahe Empfehlungen für datenschutzkonformes LLM-Training zu entwickeln. Die Arbeit kommt zu dem Ergebnis, dass ein risikobasierter und kontextabhängiger Umgang mit den Anforderungen der DSGVO erforderlich ist, um voranschreitende technische Innovationen und Grundrechtsschutz in Einklang zu bringen.
Abstract
(Englisch)
This master’s thesis examines the data protection challenges involved in training large language models (LLMs), with a particular focus on the legitimate interest under Article 6(1)(f) GDPR as a legal basis, as well as the potential of synthetic data for privacy-friendly LLM training. The analysis begins with the increasing use of LLM-based AI systems, the growing demand for training data, and the resulting tensions with key GDPR principles such as purpose limitation, data minimization, and transparency. The thesis explains the technical functioning of LLMs and highlights the legal uncertainties regarding the GDPR's applicability. At its core, the study investigates whether typical training data constitutes personal data under the GDPR and whether LLM training falls within the scope of the regulation. It further explores the conditions under which the legitimate interest may serve as a valid legal basis for LLM training. The potential of synthetic data is assessed as a possible way to ease the tension between GDPR requirements and LLM development. Using an interdisciplinary approach, the thesis evaluates technical fundamentals, legal frameworks, and safeguards such as differential privacy. The objective is to provide practical guidance for GDPR-compliant LLM training. The thesis concludes that a risk-based and context-sensitive interpretation of the GDPR is essential to align ongoing technological innovation with the protection of fundamental rights.

Schlagwörter

Schlagwörter
(Deutsch)
DSGVO künstliche Intelligenz große Sprachmodelle Datenschutz synthetische Daten
Schlagwörter
(Englisch)
GDPR large language models artificial intelligence data protection synthetic data
Autor*innen
Manuel Rombach
Haupttitel (Deutsch)
Datenschutzrechtliche Herausforderungen beim Training von großen Sprachmodellen
Hauptuntertitel (Deutsch)
Anforderungen an das berechtigte Interesse als wirksame Rechtsgrundlage und das Potential synthetischer Daten
Paralleltitel (Englisch)
Data protection challenges in the training of large language models
Paralleluntertitel (Englisch)
requirements for legitimate interest as an effective legal basis and the potential of synthetic data
Publikationsjahr
2025
Umfangsangabe
X, 118 Seiten : Illustrationen
Sprache
Deutsch
Beurteiler*in
Nikolaus Forgó
Klassifikation
86 Recht > 86.55 Datenschutzrecht
AC Nummer
AC17597735
Utheses ID
76096
Studienkennzahl
UA | 999 | 083 | |
Universität Wien, Universitätsbibliothek, 1010 Wien, Universitätsring 1