Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Abnormality detection in diagnostics data from network cameras

Hedesand, André LU and Dageson, Oliver LU (2021) In Master's Theses in Mathematical Sciences FMAM05 20212
Mathematics (Faculty of Engineering)
Abstract
For data-driven companies, there is a need to efficiently navigate through big quantities of collected data. In our case; detecting changes in the behaviour of data. We have investigated whether machine learning could be applied to automate the process of finding abnormal behaviour (anomalies) in collected data. Some simpler methods were also investigated and compared to the results of machine learning methods and the manual findings. In order to compensate for low-quality data, a method was created to synthesize data similar to the real data. Our results suggests that some methods did a better job than others on the anomaly-finding task. The overall most accurate method was the forecasting method Theta Forecasting closely followed by... (More)
For data-driven companies, there is a need to efficiently navigate through big quantities of collected data. In our case; detecting changes in the behaviour of data. We have investigated whether machine learning could be applied to automate the process of finding abnormal behaviour (anomalies) in collected data. Some simpler methods were also investigated and compared to the results of machine learning methods and the manual findings. In order to compensate for low-quality data, a method was created to synthesize data similar to the real data. Our results suggests that some methods did a better job than others on the anomaly-finding task. The overall most accurate method was the forecasting method Theta Forecasting closely followed by non-machine learning algorithms. The results also suggests that training the model on the synthesized data is worse than only using it to tune the hyper parameters. Future work could investigate additional algorithms and synthesis in order to raise performance even further. (Less)
Popular Abstract (Swedish)
När mjukvara uppdateras och installeras på Axis kameror är det viktigt att hålla koll på om den nya mjukvaran orsakat förändringar i kamerornas prestanda.
Förändringarna kan sedan tolkas av en människa, som kan säga om det är en förbättring eller försämring.
Genom att ständigt hålla uppsikt över olika metriker (olika prestandamått) hos kamerorna finns möjligheten att upptäcka förändringar som uppstår på grund av mjukvaru-uppdateringar.

I nuläget görs denna övervakning manuellt men vi har fått i uppdrag att se hur det kan automatiseras.

Vi har använt oss av både maskininlärningsmetoder och av rent statistiska metoder för att hitta dessa förändringar.
Vi har testat många metoder, bl.a. binär klassificering, oövervakad... (More)
När mjukvara uppdateras och installeras på Axis kameror är det viktigt att hålla koll på om den nya mjukvaran orsakat förändringar i kamerornas prestanda.
Förändringarna kan sedan tolkas av en människa, som kan säga om det är en förbättring eller försämring.
Genom att ständigt hålla uppsikt över olika metriker (olika prestandamått) hos kamerorna finns möjligheten att upptäcka förändringar som uppstår på grund av mjukvaru-uppdateringar.

I nuläget görs denna övervakning manuellt men vi har fått i uppdrag att se hur det kan automatiseras.

Vi har använt oss av både maskininlärningsmetoder och av rent statistiska metoder för att hitta dessa förändringar.
Vi har testat många metoder, bl.a. binär klassificering, oövervakad maskininlärning, samt CUSUM och enkla stegdetektions-algoritmer.
De algoritmer som visade sig prestera bäst var Theta Forecasting som är en typ av oövervakad maskininlärning och CUSUM, som är en statistisk metod.

För att hitta dessa förändringar i beteende hos kamerorna behövde vi även fastställa "Vad är en förändring?".
I början av detta projekt fick vi en samlad tabell med kända förändringar som samlats in under de senaste 6 åren.
Tyvärr visade det sig att tabellen inte var så användingsbar för de metoder vi skulle prova.
Det visade sig också att tabellen inte riktigt stämde med hur metrikdatan såg ut.
Vi hittade förändringar som inte var med i tabellen och ibland innehöll tabellen markeringar för förändringar som vi inte kunde se i datan.
Att använda detta som facit hade lärt algoritmen att leta efter helt fel grejer.

Predikament vi möttes av var något vi inte var beredda på, men har också fått oss att inse att detta kan vara ett vanligt problem.
Utanför kontrollerade labbmiljöer och akademiska experiment är optimala förutsättningar, vad det gäller datakvalité, mer sällsynta.
Trots denna motgång var vi bestämda att problemet behöver lösas, så vi hittade en väg runt problemet.

Vi spånade fram två idéer fram som skulle komplettera varandras svagheter.
Första tanken var att generera data som har liknande egenskaper som datan vi har tillgång till, men även generera en tabell av förändringar.
Alltså utöva en form av data generering.
Andra tanken var att, för hand, gå igenom några tidsserier med data och markera ut var förändringar skett, vilket är det traditionella sättet att få träningsdata till maskininlärning.
Den genererade datans svaghet är att den kanske inte säger något om den verkliga användbarheten av vår modell, men det löses genom att de sista testet sker på den verkliga datan.
Den handmarkerade datans svaghet är att det är kostsamt att, för hand, gå igenom all tillgänglig data.
Detta gör att mängden verklig data är begränsad, vilket löses av mängden genererad datan, som är stor.

Våra metoder fick sen optimeras mot den genererade datan och sen testas mot våra handgjorda markeringar för att se hur de presterade på riktig data.


Resultaten vi fått under projektet talar klarspråk; det går helt klart att automatisera upptäckandet av förändringar i data och vi rekommenderar varmt Theta Forecasting och CUSUM! (Less)
Please use this url to cite or link to this publication:
author
Hedesand, André LU and Dageson, Oliver LU
supervisor
organization
alternative title
Avvikelsedetektering i diagnostikdata från nätverkskameror
course
FMAM05 20212
year
type
H2 - Master's Degree (Two Years)
subject
keywords
machine learning, change detection, anomaly detection, data synthesis, forecasting, gradient boost
publication/series
Master's Theses in Mathematical Sciences
report number
LUTFMA-3460-2021
ISSN
1404-6342
other publication id
2021:E71
language
English
id
9068634
date added to LUP
2021-12-17 16:47:04
date last changed
2021-12-17 16:47:04
@misc{9068634,
  abstract     = {{For data-driven companies, there is a need to efficiently navigate through big quantities of collected data. In our case; detecting changes in the behaviour of data. We have investigated whether machine learning could be applied to automate the process of finding abnormal behaviour (anomalies) in collected data. Some simpler methods were also investigated and compared to the results of machine learning methods and the manual findings. In order to compensate for low-quality data, a method was created to synthesize data similar to the real data. Our results suggests that some methods did a better job than others on the anomaly-finding task. The overall most accurate method was the forecasting method Theta Forecasting closely followed by non-machine learning algorithms. The results also suggests that training the model on the synthesized data is worse than only using it to tune the hyper parameters. Future work could investigate additional algorithms and synthesis in order to raise performance even further.}},
  author       = {{Hedesand, André and Dageson, Oliver}},
  issn         = {{1404-6342}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Master's Theses in Mathematical Sciences}},
  title        = {{Abnormality detection in diagnostics data from network cameras}},
  year         = {{2021}},
}