Detailansicht
Cryptocurrency portfolio management during a market crash using deep reinforcement learning
Christian Wiskott
Art der Arbeit
Masterarbeit
Universität
Universität Wien
Fakultät
Fakultät für Physik
Studiumsbezeichnung bzw. Universitätlehrgang (ULG)
Masterstudium Computational Science
Betreuer*in
Sebastian Tschiatschek
DOI
10.25365/thesis.74884
URN
urn:nbn:at:at-ubw:1-26391.23019.408186-1
Link zu u:search
(Print-Exemplar eventuell in Bibliothek verfügbar)
Abstracts
Abstract
(Deutsch)
Diese Arbeit untersucht die Anwendung von Deep Reinforcement Learning für das Management eines Portfolios während des Crashs des Kryptowährungsmarktes im Jahr 2022. Das Ziel der Reinforcement Learning Agenten besteht darin, die Verteilung des Kapitals auf die verschiedenen Vermögenswerte des Portfolios zu optimieren, um die Rendite zu maximieren und gleichzeitig die Kosten der Transaktionen zu berücksichtigen. Angesichts des Mangels bezüglich der Forschung zum Verhaltens von Reinforcement Learning Agenten unter hoch volatilen Marktbedingungen (Pricope, 2021), liefert diese Arbeit neue Einblicke in die Performance, sowie in die daraus resultierenden Trading-Strategien von PPO (Proximal Policy Optimization) und DDPG (Deep Determinstic Policy Gradient) während eines Crashs des Kryptowährungsmarkts. Um die Auswirkungen auf die Performance unter Verwendung verschiedener Trainingsdatensätze zu untersuchen, werden die Reinforcement Learning Agenten auf den Daten der vorherigen Marktcrashs von 2018 und 2021, auf synthetischen Daten, die nach den realen Marktcrashs modelliert wurden, sowie auf Daten trainiert, die nicht nur Crashs umfassen, sondern auch Perioden des Wachstums sowie der Stagnation des Markts. Zur Bewertung der Performance, werden die kumulative Rendite, der maximale Drawdown und das Sharpe-Ratio herangezogen, welche die profitabelsten Portfoliorenditen, sowie die risikoärmsten Trading-Strategien aufzeigen. Die Ergebnisse von PPO und DDPG werden ebenfalls mit den üblichen Benchmarks und Strategien im Portfoliomanagement wie UBAH, UCRP und Best Stock verglichen. Die synthetischen Daten werden mithilfe von Skewed Student-T Verteilungen (SST) generiert, um die wichtigsten statistischen Eigenschaften der realen Daten zu approximieren, wobei die Qualität der synthetischen Daten numerisch, visuell und über die Wirksamkeit des maschinellen Lernens gemessen wird. Die Best Stock-Benchmark erzielte die besten Performance-Kennzahlen, was zeigt, dass die Investition des gesamten Kapitals in die BNB Aktie während des Marktcrashs im Jahr 2022, die profitabelste Trading-Strategie darstellt. Die Reinforcement Learning Agenten konnten in sieben von acht Fällen alle Benchmarks und Strategien außer Best Stock schlagen, trotz ihrer vergleichsweise simplen Trading-Strategien, im Zuge derer, eine bestimmte Verteilung des Kapitals auf die Vermögenswerte gewählt wurde und diese über den gesamten Crash im Jahr 2022 konstant gehalten wurde. Obwohl die Untersuchung der Auswirkungen auf die Performance unter der Verwendung der verschiedenen Trainingsdatensätze ergab, dass der DDPG Agent, welcher mit den synthetischen Daten trainiert wurde, alle anderen Agenten schlagen konnte, gibt es keinen Trainingsdatensatz, welcher im Vergleich zu anderen Datensätzen, zu deutlich höheren Performance-Kennzahlen für beide Reinforcement Learning Algorithmen führte. Darüber hinaus ist keine positive Korrelation zwischen der Menge der Trainingsdaten und der Performance der Reinforcement Learning Agenten zu erkennen. Die, gerechnet über alle Experimente, deutlich höheren durchschnittlichen Performance-Kennzahlen von DDPG im Vergleich zu PPO, als auch die kleinere Anzahl der Hyperparameter und das bessere Konvergenzverhalten, zeigen, dass DDPG der überlegene Algorithmus für dieses Problem ist. Die Analyse der Ergebnisse ergab eine geringe Wirksamkeit des maschinellen Lernens der synthetischen Daten, welche durch den erheblichen Performance-Unterschied beim Training der Agenten mit den echten und den synthetischen Daten gekennzeichnet ist, was zeigt, dass, die synthetischen Daten nicht denselben Einfluss auf das Training der Agenten haben wie die echten Daten.
Abstract
(Englisch)
This thesis explores the application of deep reinforcement learning for the management of a portfolio during the 2022 crash of the cryptocurrency market. The goal of the reinforcement learning agents is to optimize the portfolio allocation in order to maximize the returns, while taking into account the transaction costs of the trading actions. Given the lack of research regarding the behavior of reinforcement learning agents in highly volatile market conditions (Pricope, 2021), this thesis provides new insights into the performance, as well as the resulting trading strategies of PPO (Proximal Policy Optimization) and DDPG (Deep Deterministic Policy Gradient) during a market crash. In order to investigate the impact on the performance when using different training data sets, the reinforcement learning agents are trained on the data of the previous market crashes of 2018 and 2021, on synthetic data modeled after the real market crashes, as well as on non-crash data. The evaluation of the performance utilizes the cumulative return, the maximum drawdown and the Sharpe ratio, which indicate the most profitable portfolio returns, as well as the most risk-averse trading strategy. The results are also compared to popular benchmarks and strategies in portfolio management such as UBAH, UCRP and Best Stock. The synthetic data is generated using skewed student-t distributions (SST) to approximate the most important statistical properties of the real data, with the quality of the synthetic data being measured numerically, visually and via machine learning efficacy. The benchmark Best Stock returned the best performance measures overall, showing that investing the entire capital into the BNB asset was the most profitable trading strategy during the 2022 market crash. The reinforcement learning agents across all experiments were able to beat all benchmarks and strategies except Best Stock in seven out of eight cases, despite their comparatively simple trading strategies of choosing a certain asset allocation and keeping it constant throughout the entire 2022 market crash. Although the analysis of the impact on the performance, when using different training data sets, revealed that training DDPG with the synthetic data resulted in the highest performance measures across all reinforcement learning agents, there is no specific training data set which led to significantly higher performance measures for both reinforcement learning algorithms. The analysis also showed, that there is no clear positive correlationbetween the amount of training data and the performance of the reinforcement learning agents. The significantly higher average performance measures of DDPG across all experiments compared to PPO, together with the smaller number of hyperparameters and the superior convergence behavior, shows that DDPG is the superior algorithm for this problem. The analysis of the results further revealed a low machine learning efficacy of the synthetic data, due to the significant performance-difference of training the agents with the real versus the synthetic data, showing that the synthetic data did not have the same significance for training the agents, compared to the real data.
Schlagwörter
Schlagwörter
(Deutsch)
Portfoliomanagement Kryptowährungen Reinforcement Learning
Schlagwörter
(Englisch)
Portfolio Management Cryptocurrencies Reinforcement Learning
Autor*innen
Christian Wiskott
Haupttitel (Englisch)
Cryptocurrency portfolio management during a market crash using deep reinforcement learning
Paralleltitel (Deutsch)
Kryptowährungs-Portfoliomanagement während eines Marktcrashs mithilfe von Deep Reinforcement Learning
Publikationsjahr
2023
Umfangsangabe
xi, 117 Seiten : Illustrationen
Sprache
Englisch
Beurteiler*in
Sebastian Tschiatschek
Klassifikation
54 Informatik > 54.72 Künstliche Intelligenz
AC Nummer
AC17017115
Utheses ID
69191
Studienkennzahl
UA | 066 | 910 | |
