Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Investigating individual learning rates on standard optimizers for ANN training

Liinanki Jänkänpää, Emil LU (2025) FYSK04 20251
Department of Physics
Abstract
S-Rprop is an extension of resilient backpropagation (Rprop), which introduces mini-batch learning to the Rprop algorithm. This is done by using two different mini-batch sizes, one for the learning rate and one for the weight updates, allowing for an accurate learning-rate update whilst gaining the fast weight updates of the stochastic gradient descent (SGD) optimizer. In this paper, the concept of individual learning rates was extended to the adaptive moment estimation (ADAM) optimizer and SGD creating two new optimizers, I-ADAM and I-SGD. The performance of the new optimizers where measured, and their accuracy where better than their original. The evolution of individual learning rates was found to have a large impact on the weight... (More)
S-Rprop is an extension of resilient backpropagation (Rprop), which introduces mini-batch learning to the Rprop algorithm. This is done by using two different mini-batch sizes, one for the learning rate and one for the weight updates, allowing for an accurate learning-rate update whilst gaining the fast weight updates of the stochastic gradient descent (SGD) optimizer. In this paper, the concept of individual learning rates was extended to the adaptive moment estimation (ADAM) optimizer and SGD creating two new optimizers, I-ADAM and I-SGD. The performance of the new optimizers where measured, and their accuracy where better than their original. The evolution of individual learning rates was found to have a large impact on the weight updates. (Less)
Popular Abstract (Swedish)
Användningen av artificiell intelligens har exploderat under de senaste fem åren. Artificiell intelligens kan utvecklas på flera sätt. Ett av de vanligaste sätten är att använda ett neuralt nätverk, vilket kan liknas vid en digital hjärna.
För att förstå hur ett neuralt nätverk fungerar kan följande tankeexperiment användas. Föreställ dig att du försöker lära en robot att åka skidor. I början har den ingen aning om hur man åker skidor. Roboten svänger kraftigt åt både vänster och höger samt välter omkull ibland. Efter många träningspass med instruktioner från dig börjar roboten lära sig att åka skidor, till slut åker den vackert nerför berget.

Den som tränar ett neuralt nätverk kallas för optimerare. Optimeraren tar nätverkets... (More)
Användningen av artificiell intelligens har exploderat under de senaste fem åren. Artificiell intelligens kan utvecklas på flera sätt. Ett av de vanligaste sätten är att använda ett neuralt nätverk, vilket kan liknas vid en digital hjärna.
För att förstå hur ett neuralt nätverk fungerar kan följande tankeexperiment användas. Föreställ dig att du försöker lära en robot att åka skidor. I början har den ingen aning om hur man åker skidor. Roboten svänger kraftigt åt både vänster och höger samt välter omkull ibland. Efter många träningspass med instruktioner från dig börjar roboten lära sig att åka skidor, till slut åker den vackert nerför berget.

Den som tränar ett neuralt nätverk kallas för optimerare. Optimeraren tar nätverkets utdata, de vilda svängarna i fallet ovan och med datan vrider den på de tusentals små rattar som utgör ett neuralt nätverk. Det finns en mängd olika optimerare som används för olika problem, de flesta har något som kallas en inlärningshastighet. Denna inlärningshastighet bestämmer hur snabbt nätverket anpassar sig vid varje upprepning. Ett för högt värde ger instabilitet och ett för lågt värde förlänger träningsprocessen. I tankeexperiment ovan skulle det betyda att en för låg inlärningshastighet gör att det tar lång tid för roboten att lära sig åka skidor medan en för hög inlärningshastighet resulterar i att den inte lär sig åka skidor.
Min uppsats undersöker nyttan av att varje ratt har en egen inlärningshastighet i kombination med att nätverket uppdateras redan efter att en delmängd av datan har givits.

Inlärningshastigheten uppdateras under tiden det neurala nätverket lär sig. Jag har studerat om det neurala nätverket faktiskt använder sig av de individuella inlärningshastigheter och om detta påverkar hur värdet på rattarna förändras samt om det gör nätverket bättre på att lära sig. (Less)
Please use this url to cite or link to this publication:
author
Liinanki Jänkänpää, Emil LU
supervisor
organization
course
FYSK04 20251
year
type
M2 - Bachelor Degree
subject
keywords
Rprop, adaptive learning-rates, deep learning, SGD, ADAM, algorithm, CNN, supervised-learning, Machine Learning, optimization method, training, mini-batch training, batch training
language
English
id
9209102
date added to LUP
2025-08-06 08:56:03
date last changed
2025-08-06 08:56:03
@misc{9209102,
  abstract     = {{S-Rprop is an extension of resilient backpropagation (Rprop), which introduces mini-batch learning to the Rprop algorithm. This is done by using two different mini-batch sizes, one for the learning rate and one for the weight updates, allowing for an accurate learning-rate update whilst gaining the fast weight updates of the stochastic gradient descent (SGD) optimizer. In this paper, the concept of individual learning rates was extended to the adaptive moment estimation (ADAM) optimizer and SGD creating two new optimizers, I-ADAM and I-SGD. The performance of the new optimizers where measured, and their accuracy where better than their original. The evolution of individual learning rates was found to have a large impact on the weight updates.}},
  author       = {{Liinanki Jänkänpää, Emil}},
  language     = {{eng}},
  note         = {{Student Paper}},
  title        = {{Investigating individual learning rates on standard optimizers for ANN training}},
  year         = {{2025}},
}