Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Geolocating Alfa Laval's products using supervised machine learning

Jeppsson, Isac LU and Borna, Oskar LU (2021) In LU-CS-EX EDAM05 20211
Department of Computer Science
Abstract
A lot of companies have data that can be used to develop a more successful business. To become more data-driven, it is important to extract valuable information from the raw data. One of the largest challenges for companies, while trying to make this transition, is to ensure a data quality at a high level. In this thesis, we worked with Alfa Laval’s database of previously sold products. The main issue with this database was the lack of existing locations, where the products have been installed. In this thesis, we report a solution for the hierarchical prediction of geolocation on three levels: country, city, and coordinates. To build a solution, we examined the three tasks using four different supervised machine learning algorithms. Given... (More)
A lot of companies have data that can be used to develop a more successful business. To become more data-driven, it is important to extract valuable information from the raw data. One of the largest challenges for companies, while trying to make this transition, is to ensure a data quality at a high level. In this thesis, we worked with Alfa Laval’s database of previously sold products. The main issue with this database was the lack of existing locations, where the products have been installed. In this thesis, we report a solution for the hierarchical prediction of geolocation on three levels: country, city, and coordinates. To build a solution, we examined the three tasks using four different supervised machine learning algorithms. Given our prior knowledge and the available attributes in the database, most tasks proved to yield surprisingly good results. The prediction of countries and cities globally achieved an accuracy of 71% and 57%, respectively. Random forests was the overall best performing algorithm for these two tasks. The prediction of coordinates for the United States was a harder task, resulting in a mean error distance of 872 km, which was achieved by an implementation of artificial neural networks. Our results showed that a prediction of country and city in fact was an achievable goal, even if the existing input did not have an obvious connection to a location. On the other hand, predicting coordinates did not give a result with a sufficiently small margin of error to be useful for most applications. (Less)
Popular Abstract (Swedish)
Geografisk lokalisering av Alfa Lavals produkter med hjälp av maskininlärning.
Datakvalitet är en nödvändighet för att ett företag ska kunna bli datadrivna. Detta arbete använder maskinintelligens för att förbättra Alfa Lavals datakvalitet, genom att prediktera den geografiska positionen av deras sålda produkter. Majoriteten av världens företag har data som, på ett eller annat sätt, kan användas för att utveckla en mer framgångsrik verksamhet. För att företag ska lyckas bli datadrivna så är det viktigt att extrahera värdefull data från rådatan. En av de största utmaningarna, medan de försöker göra denna övergång, är att säkerställa en god datakvaliteten. I detta examensarbete arbetade vi med Alfa Lavals databas över sålda produkter. Det... (More)
Geografisk lokalisering av Alfa Lavals produkter med hjälp av maskininlärning.
Datakvalitet är en nödvändighet för att ett företag ska kunna bli datadrivna. Detta arbete använder maskinintelligens för att förbättra Alfa Lavals datakvalitet, genom att prediktera den geografiska positionen av deras sålda produkter. Majoriteten av världens företag har data som, på ett eller annat sätt, kan användas för att utveckla en mer framgångsrik verksamhet. För att företag ska lyckas bli datadrivna så är det viktigt att extrahera värdefull data från rådatan. En av de största utmaningarna, medan de försöker göra denna övergång, är att säkerställa en god datakvaliteten. I detta examensarbete arbetade vi med Alfa Lavals databas över sålda produkter. Det huvudsakliga problemet med denna databas var bristen på geografisk position, det vill säga var produkterna är installerade. Vi föreslår med detta arbete, en lösning för hierarkisk prediktion av geografisk position: länder, städer och koordinater. Vår lösning möjliggjordes med hjälp av olika maskininlärningsalgoritmer. Algoritmerna tränades med teknisk data, för de produkter med känd geografisk position. Därefter applicerades dessa tränade algoritmer på den datan som saknade geografisk position, men fortfarande hade teknisk data. Syftet var att finna mönster och likheter i den tekniska datan och på så sätt kunna avgöra den geografiska positionen för de produkter som saknade denna information. Givet vår tidigare kunskap och den tillgängliga tekniska datan så visade sig de flesta uppgifterna ge ett överraskande bra resultat. Prediktionen av länder visade sig vara den mest lyckosamma med en noggrannhet på 71%. Näst bäst resultat gav prediktionen av städer med en noggrannhet på 57%. Däremot visade sig den sista uppgiften, prediktion av koordinater, vara svårare. Det bästa resultatet som uppnåddes var ett genomsnittligt felavstånd på 872 km. För de två förstnämnda uppgifterna så var, generellt sett, random forests den algoritmen som presterade bäst. Random forests bygger upp ett flertal beslutsträd som tillsammans producerar ett stabilt och noggrant resultat. Våra resultat visade att det faktiskt var möjligt att prediktera geografisk position, även om datan som algoritmerna använde sig av inte hade en direkt koppling till någon plats. (Less)
Please use this url to cite or link to this publication:
author
Jeppsson, Isac LU and Borna, Oskar LU
supervisor
organization
alternative title
Geografisk lokalisering av Alfa Lavals produkter med hjälp av maskininlärning
course
EDAM05 20211
year
type
H2 - Master's Degree (Two Years)
subject
keywords
k-nearest neighbors, artificial neural network, random forests, LightGBM, geolocation
publication/series
LU-CS-EX
report number
2021-14
ISSN
1650-2884
language
English
id
9053430
date added to LUP
2021-07-02 13:44:54
date last changed
2021-07-02 13:44:54
@misc{9053430,
  abstract     = {{A lot of companies have data that can be used to develop a more successful business. To become more data-driven, it is important to extract valuable information from the raw data. One of the largest challenges for companies, while trying to make this transition, is to ensure a data quality at a high level. In this thesis, we worked with Alfa Laval’s database of previously sold products. The main issue with this database was the lack of existing locations, where the products have been installed. In this thesis, we report a solution for the hierarchical prediction of geolocation on three levels: country, city, and coordinates. To build a solution, we examined the three tasks using four different supervised machine learning algorithms. Given our prior knowledge and the available attributes in the database, most tasks proved to yield surprisingly good results. The prediction of countries and cities globally achieved an accuracy of 71% and 57%, respectively. Random forests was the overall best performing algorithm for these two tasks. The prediction of coordinates for the United States was a harder task, resulting in a mean error distance of 872 km, which was achieved by an implementation of artificial neural networks. Our results showed that a prediction of country and city in fact was an achievable goal, even if the existing input did not have an obvious connection to a location. On the other hand, predicting coordinates did not give a result with a sufficiently small margin of error to be useful for most applications.}},
  author       = {{Jeppsson, Isac and Borna, Oskar}},
  issn         = {{1650-2884}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{LU-CS-EX}},
  title        = {{Geolocating Alfa Laval's products using supervised machine learning}},
  year         = {{2021}},
}