Reinforcement Learning for Optimal Execution in Foreign-Exchange Markets
(2025) In Master's Thesis in Mathematical Sciences FMSM01 20251Mathematical Statistics
- Abstract
- This thesis investigates the suitability of reinforcement learning (RL) for solving the optimal execution problem in financial trading. It evaluates the strengths, limitations, and practical considerations of applying RL techniques to this task. Several RL algorithms were implemented and tested, including Double Deep Q-Network (Double DQN) and Proximal Policy Optimization (PPO), both of which achieved favorable results in simulated trading environments. In addition, model-based RL methods were explored and found to significantly improve sample efficiency relative to model-free approaches. While the results demonstrate the promise of RL for optimal execution, they also highlight several key challenges that must be addressed before such... (More)
- This thesis investigates the suitability of reinforcement learning (RL) for solving the optimal execution problem in financial trading. It evaluates the strengths, limitations, and practical considerations of applying RL techniques to this task. Several RL algorithms were implemented and tested, including Double Deep Q-Network (Double DQN) and Proximal Policy Optimization (PPO), both of which achieved favorable results in simulated trading environments. In addition, model-based RL methods were explored and found to significantly improve sample efficiency relative to model-free approaches. While the results demonstrate the promise of RL for optimal execution, they also highlight several key challenges that must be addressed before such methods can be reliably deployed in live trading environments. (Less)
- Popular Abstract (Swedish)
- Vi människor lär oss mycket genom att prova oss fram. När vi märker att något fungerar bra, gör vi det igen och när något går dåligt, försöker vi undvika det i framtiden. Förstärkningsinlärning handlar om att ta inspiration från hur människor lär sig genom att interagera med sin omgivning.
När en enskild person växlar pengar, till exempel inför en semester, påverkar det inte växelkursen nämnvärt. Men när ett stort företag eller en bank vill växla mycket pengar på en gång, kan själva transaktionen påverka växelkursen i en riktning som missgynnar dem. Det här fenomenet kallas marknadspåverkan.Den här uppsatsen visar hur förstärkningsinlärning kan användas för att minska marknadspåverkan.
Arbetet består av att simulera en miljö som är... (More) - Vi människor lär oss mycket genom att prova oss fram. När vi märker att något fungerar bra, gör vi det igen och när något går dåligt, försöker vi undvika det i framtiden. Förstärkningsinlärning handlar om att ta inspiration från hur människor lär sig genom att interagera med sin omgivning.
När en enskild person växlar pengar, till exempel inför en semester, påverkar det inte växelkursen nämnvärt. Men när ett stort företag eller en bank vill växla mycket pengar på en gång, kan själva transaktionen påverka växelkursen i en riktning som missgynnar dem. Det här fenomenet kallas marknadspåverkan.Den här uppsatsen visar hur förstärkningsinlärning kan användas för att minska marknadspåverkan.
Arbetet består av att simulera en miljö som är tänkt att efterlikna den som råder när man ska växla pengar.
Därefter har flera olika algoritmer för förstärkningsinlärning testats. I den simulerade miljön har man kunnat visa att de strategier som algoritmerna lär sig är bättre än naiva strategier, vilket stärker övertyggelsen att det är en bra idé att använda förstärkningsinlärning på det här problemet.
Ett stort problem med förstärkningsinlärning i verkliga tillämpningar är att det är dyrt att göra misstag. Om algoritmen testar en dålig strategi kan det leda till stora ekonomiska förluster. Det är inte som att spela datorspel där det värsta som händer är att man förlorar poäng. I den verkliga världen står riktiga pengar på spel.
För att lösa det här problemet har jag i mitt arbete undersökt om man istället kan träna algoritmen på data från en säker, redan fungerande strategi. Man försöker då bygga en modell av hur världen fungerar utifrån det man har sett tidigare, och därefter låta algoritmen träna i den modellen. På så sätt kan man få fram bra strategier utan att ta stora risker under själva inlärningen.
Sammanfattningsvis visar arbetet att förstärkningsinlärning fungerar bra i en kontrollerad, simulerad miljö. De algoritmer som testades lyckades hitta smarta sätt att växla pengar med lägre kostnad än enkla, förutbestämda strategier. Det stärker förhoppningen om att förstärkningsinlärning i framtiden kan bli ett kraftfullt verktyg inom finansiella tillämpningar, särskilt i situationer där snabba, anpassningsbara beslut krävs.
Men att ta steget från simulerad miljö till verklig handel på finansmarknaderna är långt ifrån enkelt. I verkligheten är marknaden mycket mer komplex, oförutsägbar, och misstag kan bli mycket kostsamma. För att kunna lita på att algoritmerna fungerar även där, krävs noggrann vidareutveckling, mer avancerade simuleringar, och försiktiga tester. (Less)
Please use this url to cite or link to this publication:
http://lup.lub.lu.se/student-papers/record/9210384
- author
- Rydberg, Linn LU
- supervisor
- organization
- course
- FMSM01 20251
- year
- 2025
- type
- H2 - Master's Degree (Two Years)
- subject
- publication/series
- Master's Thesis in Mathematical Sciences
- report number
- LUTFMS-3539-2025
- ISSN
- 1404-6342
- other publication id
- 2025:E93
- language
- English
- id
- 9210384
- date added to LUP
- 2025-08-27 11:00:40
- date last changed
- 2025-08-27 11:00:40
@misc{9210384, abstract = {{This thesis investigates the suitability of reinforcement learning (RL) for solving the optimal execution problem in financial trading. It evaluates the strengths, limitations, and practical considerations of applying RL techniques to this task. Several RL algorithms were implemented and tested, including Double Deep Q-Network (Double DQN) and Proximal Policy Optimization (PPO), both of which achieved favorable results in simulated trading environments. In addition, model-based RL methods were explored and found to significantly improve sample efficiency relative to model-free approaches. While the results demonstrate the promise of RL for optimal execution, they also highlight several key challenges that must be addressed before such methods can be reliably deployed in live trading environments.}}, author = {{Rydberg, Linn}}, issn = {{1404-6342}}, language = {{eng}}, note = {{Student Paper}}, series = {{Master's Thesis in Mathematical Sciences}}, title = {{Reinforcement Learning for Optimal Execution in Foreign-Exchange Markets}}, year = {{2025}}, }