# LUP Student Papers

## LUND UNIVERSITY LIBRARIES

### AI-Driven Meal Planning in the FoodTech Industry: A Reinforcement Learning Approach

(2021) In Master's Theses in Mathematical Sciences FMAM05 20211
Mathematics (Faculty of Engineering)
Abstract
Traditional meal planning for large kitchens is a laborious and complex affair with multiple external constraints imposed on the meal plan, such as a healthy nutrition profile and a low environmental impact, which should be fulfilled while being under budget. This is a tough task for humans but by modelling the process with a Markov Decision Process and using Reinforcement Learning an agent can be taught to create meal plans from constraints. This is achieved by letting different sets of meals be represented by states while actions correspond to adding specific meals to the meal plan.

The algorithm uses an action-value function to govern the agent's behaviour through a policy. Furthermore, meal selections are rewarded through a... (More)
Traditional meal planning for large kitchens is a laborious and complex affair with multiple external constraints imposed on the meal plan, such as a healthy nutrition profile and a low environmental impact, which should be fulfilled while being under budget. This is a tough task for humans but by modelling the process with a Markov Decision Process and using Reinforcement Learning an agent can be taught to create meal plans from constraints. This is achieved by letting different sets of meals be represented by states while actions correspond to adding specific meals to the meal plan.

The algorithm uses an action-value function to govern the agent's behaviour through a policy. Furthermore, meal selections are rewarded through a terminal reward based on the fulfilment of the constraints. The agent is trained by generating sample episodes from following an epsilon-greedy policy. The return of each of these episodes is used to update the action-value function and thereby the policy. This allows the agent to learn which combinations of meals eventually can fulfil the constraints.

The behaviour of the algorithm is studied when applied to a realistic scenario. The algorithm generates a six week long meal plan of school lunches with imposed national nutritional constraints and uses existing meal data. It finds feasible meal selections which fulfil 14 constraints imposed when a sufficient data set is provided. The results illustrate that the method has good potential to be part of a new data and AI-driven approach to large scale meal planning. (Less)
Popular Abstract (Swedish)
Måltidsplanering för storkök, så som skolor och äldreboenden, är en mödosam och tidsödande process. Då det finns många olika villkor och restriktioner som måste beaktas i planeringen, dessa kommer i form av en budget, näringsinnehåll, tillgängliga resurser för tillagning och förvaring etc. Detta leder ofta till en slumpartad "prova sig fram"-teknik när en ny matsedel ska skapas. Likväl finns det mycket information och data rörande måltidsplaneringsprocessen tillgänglig i vår digitala era. Det hade istället varit önskvärt ifall man kunde använda sig av moderna data-drivna algoritmer för att automatisera processen.

Denna masteruppsats utvecklar och undersöker en algoritm som genererar matsedlar från ett dataset av existerande måltider... (More)
Måltidsplanering för storkök, så som skolor och äldreboenden, är en mödosam och tidsödande process. Då det finns många olika villkor och restriktioner som måste beaktas i planeringen, dessa kommer i form av en budget, näringsinnehåll, tillgängliga resurser för tillagning och förvaring etc. Detta leder ofta till en slumpartad "prova sig fram"-teknik när en ny matsedel ska skapas. Likväl finns det mycket information och data rörande måltidsplaneringsprocessen tillgänglig i vår digitala era. Det hade istället varit önskvärt ifall man kunde använda sig av moderna data-drivna algoritmer för att automatisera processen.

Denna masteruppsats utvecklar och undersöker en algoritm som genererar matsedlar från ett dataset av existerande måltider utefter villkor bestämda av användaren. Genom att definiera en belöningsfunktion, som är baserad på villkoren för den önskade matsedeln, så kan en agent tränas med förstärkningsinlärning till att skapa matsedlar som uppfyller existerande villkoren och begränsningar. De begränsningar som utgör villkoren för matsedeln är här avgränsade till budgetvillkor, näringsinnehåll och koldioxidekvivalenter.

Med denna teknik generas sex veckors långa matsedlar för skolbarn som uppfyller ett budgetvillkor, nationella näringsrekommendationer samt ett tak för koldioxidekvivalenter. Resultaten visar att metoden fungerar för det avgränsade fallet som prövas. För att praktiskt tillämpa metoden behövs dock hänsyn tas till flera försummade aspekter men likväl bedöms de generade matsedlarna kunna användas som ett underlag till riktiga matsedlar. En stor potential ses i metoden då den flexibla belöningsfunktionen och förstärkningsinlärning i sig bör kunna inkorporera flera av de försummade aspekter av måltidsplaneringen. Därmed bör det utvecklade metod kunna bidra till en mer AI-driven matplanering i framtiden. (Less)
author
supervisor
organization
course
FMAM05 20211
year
type
H2 - Master's Degree (Two Years)
subject
publication/series
Master's Theses in Mathematical Sciences
report number
LUTFMA-3443-2021
ISSN
1404-6342
other publication id
2021:E24
language
English
id
9053635
2021-06-28 14:26:42
date last changed
2021-06-28 14:26:42
```@misc{9053635,
abstract     = {{Traditional meal planning for large kitchens is a laborious and complex affair with multiple external constraints imposed on the meal plan, such as a healthy nutrition profile and a low environmental impact, which should be fulfilled while being under budget. This is a tough task for humans but by modelling the process with a Markov Decision Process and using Reinforcement Learning an agent can be taught to create meal plans from constraints. This is achieved by letting different sets of meals be represented by states while actions correspond to adding specific meals to the meal plan.

The algorithm uses an action-value function to govern the agent's behaviour through a policy. Furthermore, meal selections are rewarded through a terminal reward based on the fulfilment of the constraints. The agent is trained by generating sample episodes from following an epsilon-greedy policy. The return of each of these episodes is used to update the action-value function and thereby the policy. This allows the agent to learn which combinations of meals eventually can fulfil the constraints.

The behaviour of the algorithm is studied when applied to a realistic scenario. The algorithm generates a six week long meal plan of school lunches with imposed national nutritional constraints and uses existing meal data. It finds feasible meal selections which fulfil 14 constraints imposed when a sufficient data set is provided. The results illustrate that the method has good potential to be part of a new data and AI-driven approach to large scale meal planning.}},
author       = {{Mårtensson, Victor}},
issn         = {{1404-6342}},
language     = {{eng}},
note         = {{Student Paper}},
series       = {{Master's Theses in Mathematical Sciences}},
title        = {{AI-Driven Meal Planning in the FoodTech Industry: A Reinforcement Learning Approach}},
year         = {{2021}},
}

```