Advanced

Deep Reinforcement Learning in Real-time Bidding

Stigland, Oskar LU (2018) In Bachelor's Theses in Mathematical Sciences NUMK01 20182
Mathematics (Faculty of Engineering)
Abstract
Real-time bidding is getting increasingly popular for buying and selling online display advertisement. This has spurred a research interest into how to design optimal bidding algorithms, with advances during the last two to three years focusing heavily on reinforcement learning. This thesis focuses on creating bidding agent using recent innovations in combining reinforcement learning and deep learning, drawing heavily from a recent paper by Wu et al. (2018). However, the final algorithm presented in this thesis, called (Batch) Deep Reinforcement Learning to Bid (Batch-DRLB) deviates quite a bit from their algorithm. Batch-DRLB shows superior results to two simple benchmark algorithms and compares very well to current state-of-the-art... (More)
Real-time bidding is getting increasingly popular for buying and selling online display advertisement. This has spurred a research interest into how to design optimal bidding algorithms, with advances during the last two to three years focusing heavily on reinforcement learning. This thesis focuses on creating bidding agent using recent innovations in combining reinforcement learning and deep learning, drawing heavily from a recent paper by Wu et al. (2018). However, the final algorithm presented in this thesis, called (Batch) Deep Reinforcement Learning to Bid (Batch-DRLB) deviates quite a bit from their algorithm. Batch-DRLB shows superior results to two simple benchmark algorithms and compares very well to current state-of-the-art algorithms.

This project has been done in collaboration with Adform, which is one of the world's largest advertising technology companies, based in Copenhagen. They have provided fantastic support throughout the project. In addition to providing great resources for developing and testing the algorithm, they've provided continuous help in getting a better understanding of RTB and computational advertisement. The final algorithm is something like a thousand lines of code. Hence, I've chosen not to include it in here and have instead provided all of the code in a GitHub repository: https://github.com/Ostigland/dqn-rtb (Less)
Popular Abstract (Swedish)
Idag säljs annonsplatser på hemsidor i allt större utsträckning via realtidsauktioner. Ofta tar det mindre än 100 millisekunder att auktionera ut en annonsplats från det att en användare besöker en hemsida. För någon som vill köpa annonsplatser innebär en effektiv köpstrategi således användandet av algoritmer; mer specifikt krävs snabba algoritmer. Under de senaste två, tre åren har försök gjorts att i större utsträckning utnyttja maskininlärning för att skapa algoritmer som på ett mer eller mindre intelligent sätt kan utvärdera olika användare givet vissa demografiska kriterier och sedan formulera lämpliga bud. Målet för algoritmen är att maximera värdet av alla vunna reklamplatser, givet en viss budget för en tidsbegränsad reklamkampanj.... (More)
Idag säljs annonsplatser på hemsidor i allt större utsträckning via realtidsauktioner. Ofta tar det mindre än 100 millisekunder att auktionera ut en annonsplats från det att en användare besöker en hemsida. För någon som vill köpa annonsplatser innebär en effektiv köpstrategi således användandet av algoritmer; mer specifikt krävs snabba algoritmer. Under de senaste två, tre åren har försök gjorts att i större utsträckning utnyttja maskininlärning för att skapa algoritmer som på ett mer eller mindre intelligent sätt kan utvärdera olika användare givet vissa demografiska kriterier och sedan formulera lämpliga bud. Målet för algoritmen är att maximera värdet av alla vunna reklamplatser, givet en viss budget för en tidsbegränsad reklamkampanj.

Den del av maskininlärning som ägnas åt att skapa algoritmer som kan interagera med och lära sig från en given omgivning kallas för reinforcement learning (RL). Sedan forskare från Google Deepmind år 2015 uppvisade stora framgångar med att applicera en avancerad RL-algoritm, kallad Deep Q-learning på ett antal gamla arkadspel från Atari har RL fått enorm uppmärksamhet. Algoritmen lyckades i många fall prestera bättre än människor genom att endast analysera samma visuella input som en människa använder.

I min kandidatuppsats har jag tagit inspiration från en nyligen publicerad artikel där samma typ av RL-algoritm har applicerats för att skapa en slags robot som kan delta i realtidsauktioner, kallad Deep Reinforcement Learning to Bid (DRLB). Budroboten fokuserar på kampanjrelevanta parametrar så som hur mycket av budgeten den har kvar, hur snabbt budgeten spenderas, värdet av auktionerna den hittills har vunnit, hur mycket tid som är kvar av kampanjen, och så vidare. Min version av DRLB-algoritmen lyckades prestera långt bättre än två enkla benchmark-algoritmer och lyckades även åstadkomma resultat på samma nivå som flera andra RL-algoritmer som har publicerats de senaste åren. (Less)
Please use this url to cite or link to this publication:
author
Stigland, Oskar LU
supervisor
organization
alternative title
Maskininlärningsalgoritm för budgivning i realtidsauktioner
course
NUMK01 20182
year
type
M2 - Bachelor Degree
subject
keywords
Machine learning, reinforcement learning, markov decision process, neural network, deep Q-network, real-time bidding, online display advertisement
publication/series
Bachelor's Theses in Mathematical Sciences
report number
LUNFNA-4023-2018
ISSN
1654-6229
other publication id
2018:K26
language
English
id
8964194
date added to LUP
2018-12-28 14:38:46
date last changed
2019-07-12 10:22:45
@misc{8964194,
  abstract     = {Real-time bidding is getting increasingly popular for buying and selling online display advertisement. This has spurred a research interest into how to design optimal bidding algorithms, with advances during the last two to three years focusing heavily on reinforcement learning. This thesis focuses on creating bidding agent using recent innovations in combining reinforcement learning and deep learning, drawing heavily from a recent paper by Wu et al. (2018). However, the final algorithm presented in this thesis, called (Batch) Deep Reinforcement Learning to Bid (Batch-DRLB) deviates quite a bit from their algorithm. Batch-DRLB shows superior results to two simple benchmark algorithms and compares very well to current state-of-the-art algorithms. 

This project has been done in collaboration with Adform, which is one of the world's largest advertising technology companies, based in Copenhagen. They have provided fantastic support throughout the project. In addition to providing great resources for developing and testing the algorithm, they've provided continuous help in getting a better understanding of RTB and computational advertisement. The final algorithm is something like a thousand lines of code. Hence, I've chosen not to include it in here and have instead provided all of the code in a GitHub repository: https://github.com/Ostigland/dqn-rtb},
  author       = {Stigland, Oskar},
  issn         = {1654-6229},
  keyword      = {Machine learning,reinforcement learning,markov decision process,neural network,deep Q-network,real-time bidding,online display advertisement},
  language     = {eng},
  note         = {Student Paper},
  series       = {Bachelor's Theses in Mathematical Sciences},
  title        = {Deep Reinforcement Learning in Real-time Bidding},
  year         = {2018},
}