Deep Reinforcement Learning in Real-time Bidding

Stigland, Oskar

Deep Reinforcement Learning in Real-time Bidding

Mark

Stigland, Oskar ^LU (2018) In Bachelor's Theses in Mathematical Sciences NUMK01 20182
Mathematics (Faculty of Engineering)

Abstract: Real-time bidding is getting increasingly popular for buying and selling online display advertisement. This has spurred a research interest into how to design optimal bidding algorithms, with advances during the last two to three years focusing heavily on reinforcement learning. This thesis focuses on creating bidding agent using recent innovations in combining reinforcement learning and deep learning, drawing heavily from a recent paper by Wu et al. (2018). However, the final algorithm presented in this thesis, called (Batch) Deep Reinforcement Learning to Bid (Batch-DRLB) deviates quite a bit from their algorithm. Batch-DRLB shows superior results to two simple benchmark algorithms and compares very well to current state-of-the-art... (More); Real-time bidding is getting increasingly popular for buying and selling online display advertisement. This has spurred a research interest into how to design optimal bidding algorithms, with advances during the last two to three years focusing heavily on reinforcement learning. This thesis focuses on creating bidding agent using recent innovations in combining reinforcement learning and deep learning, drawing heavily from a recent paper by Wu et al. (2018). However, the final algorithm presented in this thesis, called (Batch) Deep Reinforcement Learning to Bid (Batch-DRLB) deviates quite a bit from their algorithm. Batch-DRLB shows superior results to two simple benchmark algorithms and compares very well to current state-of-the-art algorithms.

This project has been done in collaboration with Adform, which is one of the world's largest advertising technology companies, based in Copenhagen. They have provided fantastic support throughout the project. In addition to providing great resources for developing and testing the algorithm, they've provided continuous help in getting a better understanding of RTB and computational advertisement. The final algorithm is something like a thousand lines of code. Hence, I've chosen not to include it in here and have instead provided all of the code in a GitHub repository: https://github.com/Ostigland/dqn-rtb (Less)
Popular Abstract (Swedish): Idag säljs annonsplatser på hemsidor i allt större utsträckning via realtidsauktioner. Ofta tar det mindre än 100 millisekunder att auktionera ut en annonsplats från det att en användare besöker en hemsida. För någon som vill köpa annonsplatser innebär en effektiv köpstrategi således användandet av algoritmer; mer specifikt krävs snabba algoritmer. Under de senaste två, tre åren har försök gjorts att i större utsträckning utnyttja maskininlärning för att skapa algoritmer som på ett mer eller mindre intelligent sätt kan utvärdera olika användare givet vissa demografiska kriterier och sedan formulera lämpliga bud. Målet för algoritmen är att maximera värdet av alla vunna reklamplatser, givet en viss budget för en tidsbegränsad reklamkampanj.... (More); Idag säljs annonsplatser på hemsidor i allt större utsträckning via realtidsauktioner. Ofta tar det mindre än 100 millisekunder att auktionera ut en annonsplats från det att en användare besöker en hemsida. För någon som vill köpa annonsplatser innebär en effektiv köpstrategi således användandet av algoritmer; mer specifikt krävs snabba algoritmer. Under de senaste två, tre åren har försök gjorts att i större utsträckning utnyttja maskininlärning för att skapa algoritmer som på ett mer eller mindre intelligent sätt kan utvärdera olika användare givet vissa demografiska kriterier och sedan formulera lämpliga bud. Målet för algoritmen är att maximera värdet av alla vunna reklamplatser, givet en viss budget för en tidsbegränsad reklamkampanj.

Den del av maskininlärning som ägnas åt att skapa algoritmer som kan interagera med och lära sig från en given omgivning kallas för reinforcement learning (RL). Sedan forskare från Google Deepmind år 2015 uppvisade stora framgångar med att applicera en avancerad RL-algoritm, kallad Deep Q-learning på ett antal gamla arkadspel från Atari har RL fått enorm uppmärksamhet. Algoritmen lyckades i många fall prestera bättre än människor genom att endast analysera samma visuella input som en människa använder.

I min kandidatuppsats har jag tagit inspiration från en nyligen publicerad artikel där samma typ av RL-algoritm har applicerats för att skapa en slags robot som kan delta i realtidsauktioner, kallad Deep Reinforcement Learning to Bid (DRLB). Budroboten fokuserar på kampanjrelevanta parametrar så som hur mycket av budgeten den har kvar, hur snabbt budgeten spenderas, värdet av auktionerna den hittills har vunnit, hur mycket tid som är kvar av kampanjen, och så vidare. Min version av DRLB-algoritmen lyckades prestera långt bättre än två enkla benchmark-algoritmer och lyckades även åstadkomma resultat på samma nivå som flera andra RL-algoritmer som har publicerats de senaste åren. (Less)

- Open Access
- |
- PDF

Links

Document download statistics

Related Materials

Related object is supplementary material:
GitHub repository
Related object is popular science:
Populärvetenskaplig sammanfattning

Please use this url to cite or link to this publication: http://lup.lub.lu.se/student-papers/record/8964194

author

Stigland, Oskar ^LU

supervisor

Alexandros Sopasakis ^LU

organization

Mathematics (Faculty of Engineering)

alternative title

Maskininlärningsalgoritm för budgivning i realtidsauktioner

course

NUMK01 20182

year

2018

type

M2 - Bachelor Degree

subject

Mathematics and Statistics

keywords

Machine learning, reinforcement learning, markov decision process, neural network, deep Q-network, real-time bidding, online display advertisement

publication/series

Bachelor's Theses in Mathematical Sciences

report number

LUNFNA-4023-2018

ISSN

1654-6229

other publication id

2018:K26

language

English

id

8964194

date added to LUP

2018-12-28 14:38:46

date last changed

2019-07-12 10:22:45

@misc{8964194,
  abstract     = {{Real-time bidding is getting increasingly popular for buying and selling online display advertisement. This has spurred a research interest into how to design optimal bidding algorithms, with advances during the last two to three years focusing heavily on reinforcement learning. This thesis focuses on creating bidding agent using recent innovations in combining reinforcement learning and deep learning, drawing heavily from a recent paper by Wu et al. (2018). However, the final algorithm presented in this thesis, called (Batch) Deep Reinforcement Learning to Bid (Batch-DRLB) deviates quite a bit from their algorithm. Batch-DRLB shows superior results to two simple benchmark algorithms and compares very well to current state-of-the-art algorithms. 

This project has been done in collaboration with Adform, which is one of the world's largest advertising technology companies, based in Copenhagen. They have provided fantastic support throughout the project. In addition to providing great resources for developing and testing the algorithm, they've provided continuous help in getting a better understanding of RTB and computational advertisement. The final algorithm is something like a thousand lines of code. Hence, I've chosen not to include it in here and have instead provided all of the code in a GitHub repository: https://github.com/Ostigland/dqn-rtb}},
  author       = {{Stigland, Oskar}},
  issn         = {{1654-6229}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Bachelor's Theses in Mathematical Sciences}},
  title        = {{Deep Reinforcement Learning in Real-time Bidding}},
  year         = {{2018}},
}

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Deep Reinforcement Learning in Real-time Bidding