Advanced

Using LASSO regularization as a feature selection tool.

Torstensson, Erik LU (2017) FYTK02 20171
Computational Biology and Biological Physics
Abstract
The subject of deep learning has become increasingly popular, especially for machine learning applications where a large number of input variables have to be processed. However, there are instances of problem solving, where a full understanding of the variables is of high importance. When dealing with data sets containing a large number of input variables, the established methods of feature selection require a considerable time investment. Regularization is a method typically associated with prevention of overtraining, but in this study, the possibility is explored of using LASSO regularization as a feature selection tool. The input variables of several data sets were ranked with respect to a measure of synaptic weight magnitude. A... (More)
The subject of deep learning has become increasingly popular, especially for machine learning applications where a large number of input variables have to be processed. However, there are instances of problem solving, where a full understanding of the variables is of high importance. When dealing with data sets containing a large number of input variables, the established methods of feature selection require a considerable time investment. Regularization is a method typically associated with prevention of overtraining, but in this study, the possibility is explored of using LASSO regularization as a feature selection tool. The input variables of several data sets were ranked with respect to a measure of synaptic weight magnitude. A conclusion was drawn that this method is a very fast and efficient way of filtering out less important variables. (Less)
Popular Abstract (Swedish)
Artificiella neuronnät är ett samlingsnamn för maskininlärningsmetoder som försöker efterlikna biologiska system i sin struktur. Ett neuronnät förbereds, med så kallad träning, för till exempel mönsterigenkänning, genom att man presenterar exempel på den typ av data man vill identifiera. Inom ett visst intervall uppdateras nätverkets inre struktur, med målet att utsignal anpassas till den signal som identifierar datatypen. När nätverket kan generalisera den samlade informationen, och så bra som möjligt fylla den funktion som ändamålet kräver, är träningen klar. Detta kan liknas till en hjärnas plasticitet och förmåga att anpassa sig till en ny färdighet eller kunskap. Inom mönsterigenkänning handlar det ofta om att identifiera nya exempel,... (More)
Artificiella neuronnät är ett samlingsnamn för maskininlärningsmetoder som försöker efterlikna biologiska system i sin struktur. Ett neuronnät förbereds, med så kallad träning, för till exempel mönsterigenkänning, genom att man presenterar exempel på den typ av data man vill identifiera. Inom ett visst intervall uppdateras nätverkets inre struktur, med målet att utsignal anpassas till den signal som identifierar datatypen. När nätverket kan generalisera den samlade informationen, och så bra som möjligt fylla den funktion som ändamålet kräver, är träningen klar. Detta kan liknas till en hjärnas plasticitet och förmåga att anpassa sig till en ny färdighet eller kunskap. Inom mönsterigenkänning handlar det ofta om att identifiera nya exempel, som aldrig presenterats för nätverket tidigare, och att placera dem i de kategorier som man tidigare har tränat för. Feature selection är metoder som hittar, och väljer ut, de variabler som i högsta grad påverkar ett ändamål, och sållar bort de variabler som minst påverkar ändamålet. Vilken typ av variabler som insignalen består av beror helt på ändamålet, och kan vara allt ifrån ett fåtal variabler, till vektorer av stor dimension. Inom medicin och diagnostisering ställs ett särskilt högt krav på att resultat kan tolkas in i minsta detalj, och detta är en av de stora drivkrafterna till att utveckla bättre metoder för att bearbeta variabler. Regularisering är en särskild typ av funktionsanpassning som innebär att man med ytterligare mått på komplexitet, kan tvinga en funktion till att anta en mjukare och mer generaliserad form. Ett problem som ofta förekommer i samband med träning av neuronnät är så kallad överinlärning, då ett nätverk lär sig detaljer i träningsexempel istället för att generalisera, och regularisering är att effektivt sätt att motverka detta. LASSO (Least Absolute Shrinkage and Selection Operator), är en regulariseringsmetod som användes i den här studien. Det intressanta med LASSO är att den ställer ett särskilt högt krav på nätverkets inre struktur och de variabler som insignalen innehåller. Frågeställningen för studien var: "Kan regularisering av neuronnät med LASSO, ge upphov till en användbar rangordning av variabler?" (Less)
Please use this url to cite or link to this publication:
author
Torstensson, Erik LU
supervisor
organization
course
FYTK02 20171
year
type
M2 - Bachelor Degree
subject
keywords
artificial neural network feature variable selection regularization overtraining lasso synaptic weight filter multi layer perceptron decay
language
English
id
8914341
date added to LUP
2017-06-16 15:18:11
date last changed
2017-10-06 16:05:41
@misc{8914341,
  abstract     = {The subject of deep learning has become increasingly popular, especially for machine learning applications where a large number of input variables have to be processed. However, there are instances of problem solving, where a full understanding of the variables is of high importance. When dealing with data sets containing a large number of input variables, the established methods of feature selection require a considerable time investment. Regularization is a method typically associated with prevention of overtraining, but in this study, the possibility is explored of using LASSO regularization as a feature selection tool. The input variables of several data sets were ranked with respect to a measure of synaptic weight magnitude. A conclusion was drawn that this method is a very fast and efficient way of filtering out less important variables.},
  author       = {Torstensson, Erik},
  keyword      = {artificial neural network feature variable selection regularization overtraining lasso synaptic weight filter multi layer perceptron decay},
  language     = {eng},
  note         = {Student Paper},
  title        = {Using LASSO regularization as a feature selection tool.},
  year         = {2017},
}