Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

On the feasibility of Transformer based foundation models for time series forecasting

Gramer, Arvid LU (2024) In Master's Thesis in Mathematical Sciences FMSM01 20241
Mathematical Statistics
Abstract
A reliable forward prediction of time series data is essential for optimising resource allocation, mitigating risks, and enhancing strategic decision-making across various domains. However, the limited historical data available can pose a challenge for accurate modelling. Conversely, transformer architectures, renowned for their success in natural language tasks through zero-shot inference, demonstrate remarkable capabilities in capturing dependencies across extensive contexts. Leveraging large models trained on extensive datasets, transformers exhibit strong generalisation abilities to novel tasks.

In this study, we explore the feasibility of foundation models for time series forward prediction. We assess the transferability of time... (More)
A reliable forward prediction of time series data is essential for optimising resource allocation, mitigating risks, and enhancing strategic decision-making across various domains. However, the limited historical data available can pose a challenge for accurate modelling. Conversely, transformer architectures, renowned for their success in natural language tasks through zero-shot inference, demonstrate remarkable capabilities in capturing dependencies across extensive contexts. Leveraging large models trained on extensive datasets, transformers exhibit strong generalisation abilities to novel tasks.

In this study, we explore the feasibility of foundation models for time series forward prediction. We assess the transferability of time series understanding by training models on various datasets and evaluate their ability to generalise to unseen data. Furthermore, we investigate the suitability of transformer architectures for this task and explore optimal training strategies. Our findings provide evidence supporting the efficacy of foundation models for time series prediction, yet we refrain from concluding that transformers are the optimal choice as the fundamental building block for this purpose. (Less)
Popular Abstract (Swedish)
Vi testar om det går att bygga generaliserade modeller för tidsseriedata och om den framgångsrika AI-arkitekturen Transformer kan hjälpa oss med detta. Vår slutsats är att sådana modeller är möjliga, men att vi inte kan fastställa huruvida Transformer är värd mödan eller inte.

Alla typer av mätningar i vilken utveckling över tid är av intresse kan porträtteras som tidsserier. Dessa är sekvenser av uppmätta värden som ordnats efter när de registrerades, och har vanliga tillämpningar inom bland annat meteorologi, epidemiologi, nationalekonomi, med flera. Att använda tidsserier för att förutspå framtida utveckling av det uppmätta värdet är ett viktigt forskningsfält eftersom det hjälper oss att planera bättre och på så vis minimerar vi... (More)
Vi testar om det går att bygga generaliserade modeller för tidsseriedata och om den framgångsrika AI-arkitekturen Transformer kan hjälpa oss med detta. Vår slutsats är att sådana modeller är möjliga, men att vi inte kan fastställa huruvida Transformer är värd mödan eller inte.

Alla typer av mätningar i vilken utveckling över tid är av intresse kan porträtteras som tidsserier. Dessa är sekvenser av uppmätta värden som ordnats efter när de registrerades, och har vanliga tillämpningar inom bland annat meteorologi, epidemiologi, nationalekonomi, med flera. Att använda tidsserier för att förutspå framtida utveckling av det uppmätta värdet är ett viktigt forskningsfält eftersom det hjälper oss att planera bättre och på så vis minimerar vi risker, använder resurser effektivare och fattar klokare beslut.

För att prognostisera framtida värden i en tidsserie kan en lång historisk kontext vara behjälplig då det gör det lättare att snappa upp återkommande tendenser och mönster. Många serier har exempelvis dagliga, veckovisa eller årliga mönster, och för att förutspå sådana värden krävs att vi sett ett par av dessa cykler, vilket i sin tur kräver kontextlängd som tillåter detta.

Å andra sidan har 2020-talets teknikscen dominerats av de stora språkmodellernas intåg, exempelvis har ChatGPT blivit mycket uppmärksammad. Dessa språkmodeller är stora AI-system tränade på enorma mängder data och med en viktig gemensam komponent: Transformer-arkitekturen. Denna viktiga komponent presenterades för första gången 2017 av ett forskningsteam på Google och bygger på en uppmärksamhetsmekanism. Uppmärksamhetsmekanismen gör att systemet kan tränas till att fokusera på de viktiga delarna i en lång sekvens av information, vilket i sin tur gör att den kan hantera längre sekvenser och effektivt hitta mönster. Vidare kan Transformer-baserade modeller anpassas till datan på ett parallelliserat vis, vilket möjliggör snabbare utveckling av nya system.

De stora språkmodellerna är så kallade grundmodeller, tränade på tillräckligt stora och varierade dataset för att kunna generalisera och på så vis kunna utföra mängder av olika uppgifter, andra än de som de initialt tränades för.

Transformer-systemens effektivitet i hantera och hitta mönster i långa sekvenser av data borde konceptuellt kunna gynna analysen av tidsdserier. I vår undersökning har vi knutit ihop dessa två fält och undersökt huruvida grundmodeller för prognostisering av tidsserier är möjlig, om transformer-arkitekturen är en passande byggsten för sådana modeller samt hur man bäst ska träna sådana system. Vi har undersökt detta genom en rad experiment, där vi först undersökt huruvida förmågan att förutspå tidsserie-data är generaliserbar på samma sätt som den är för språk. När vi konstaterat att detta gäller, förutsatt att det finns liknande mönster i de två dataseten, undersöker vi om en modell baserad på transformer är bättre än en mycket enklare regressionsbaserad modell, samt vilka metoder som är bäst för att träna dem. Vi kan inte säkerställa att transformer-systemen är tillräckligt mycket bättre för att vara värda den komplicerade strukturen. Vi konstaterar att det är viktigt att modellen, avsett typ, har en mekanism för att normalisera datan och att den under träningen exponeras för alla typer av data man vill att den ska kunna hantera på ett likvärdigt sätt. (Less)
Please use this url to cite or link to this publication:
author
Gramer, Arvid LU
supervisor
organization
alternative title
Om rimligheten i Transformer-baserade grundmodellen för tidsserieprognostisering
course
FMSM01 20241
year
type
H2 - Master's Degree (Two Years)
subject
keywords
Time series, forecasting, transformers, foundation models, replay
publication/series
Master's Thesis in Mathematical Sciences
report number
LUTFMS-3503-2024
ISSN
1404-6342
other publication id
2024:E59
language
English
id
9170631
date added to LUP
2024-08-22 13:21:14
date last changed
2024-08-22 13:21:14
@misc{9170631,
  abstract     = {{A reliable forward prediction of time series data is essential for optimising resource allocation, mitigating risks, and enhancing strategic decision-making across various domains. However, the limited historical data available can pose a challenge for accurate modelling. Conversely, transformer architectures, renowned for their success in natural language tasks through zero-shot inference, demonstrate remarkable capabilities in capturing dependencies across extensive contexts. Leveraging large models trained on extensive datasets, transformers exhibit strong generalisation abilities to novel tasks.

In this study, we explore the feasibility of foundation models for time series forward prediction. We assess the transferability of time series understanding by training models on various datasets and evaluate their ability to generalise to unseen data. Furthermore, we investigate the suitability of transformer architectures for this task and explore optimal training strategies. Our findings provide evidence supporting the efficacy of foundation models for time series prediction, yet we refrain from concluding that transformers are the optimal choice as the fundamental building block for this purpose.}},
  author       = {{Gramer, Arvid}},
  issn         = {{1404-6342}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Master's Thesis in Mathematical Sciences}},
  title        = {{On the feasibility of Transformer based foundation models for time series forecasting}},
  year         = {{2024}},
}