Using LASSO regularization as a feature selection tool.

Torstensson, Erik

Using LASSO regularization as a feature selection tool.

Mark

Torstensson, Erik ^LU (2017) FYTK02 20171
Computational Biology and Biological Physics - Has been reorganised

Abstract: The subject of deep learning has become increasingly popular, especially for machine learning applications where a large number of input variables have to be processed. However, there are instances of problem solving, where a full understanding of the variables is of high importance. When dealing with data sets containing a large number of input variables, the established methods of feature selection require a considerable time investment. Regularization is a method typically associated with prevention of overtraining, but in this study, the possibility is explored of using LASSO regularization as a feature selection tool. The input variables of several data sets were ranked with respect to a measure of synaptic weight magnitude. A... (More); The subject of deep learning has become increasingly popular, especially for machine learning applications where a large number of input variables have to be processed. However, there are instances of problem solving, where a full understanding of the variables is of high importance. When dealing with data sets containing a large number of input variables, the established methods of feature selection require a considerable time investment. Regularization is a method typically associated with prevention of overtraining, but in this study, the possibility is explored of using LASSO regularization as a feature selection tool. The input variables of several data sets were ranked with respect to a measure of synaptic weight magnitude. A conclusion was drawn that this method is a very fast and efficient way of filtering out less important variables. (Less)
Popular Abstract (Swedish): Artificiella neuronnät är ett samlingsnamn för maskininlärningsmetoder som försöker efterlikna biologiska system i sin struktur. Ett neuronnät förbereds, med så kallad träning, för till exempel mönsterigenkänning, genom att man presenterar exempel på den typ av data man vill identifiera. Inom ett visst intervall uppdateras nätverkets inre struktur, med målet att utsignal anpassas till den signal som identifierar datatypen. När nätverket kan generalisera den samlade informationen, och så bra som möjligt fylla den funktion som ändamålet kräver, är träningen klar. Detta kan liknas till en hjärnas plasticitet och förmåga att anpassa sig till en ny färdighet eller kunskap. Inom mönsterigenkänning handlar det ofta om att identifiera nya exempel,... (More); Artificiella neuronnät är ett samlingsnamn för maskininlärningsmetoder som försöker efterlikna biologiska system i sin struktur. Ett neuronnät förbereds, med så kallad träning, för till exempel mönsterigenkänning, genom att man presenterar exempel på den typ av data man vill identifiera. Inom ett visst intervall uppdateras nätverkets inre struktur, med målet att utsignal anpassas till den signal som identifierar datatypen. När nätverket kan generalisera den samlade informationen, och så bra som möjligt fylla den funktion som ändamålet kräver, är träningen klar. Detta kan liknas till en hjärnas plasticitet och förmåga att anpassa sig till en ny färdighet eller kunskap. Inom mönsterigenkänning handlar det ofta om att identifiera nya exempel, som aldrig presenterats för nätverket tidigare, och att placera dem i de kategorier som man tidigare har tränat för. Feature selection är metoder som hittar, och väljer ut, de variabler som i högsta grad påverkar ett ändamål, och sållar bort de variabler som minst påverkar ändamålet. Vilken typ av variabler som insignalen består av beror helt på ändamålet, och kan vara allt ifrån ett fåtal variabler, till vektorer av stor dimension. Inom medicin och diagnostisering ställs ett särskilt högt krav på att resultat kan tolkas in i minsta detalj, och detta är en av de stora drivkrafterna till att utveckla bättre metoder för att bearbeta variabler. Regularisering är en särskild typ av funktionsanpassning som innebär att man med ytterligare mått på komplexitet, kan tvinga en funktion till att anta en mjukare och mer generaliserad form. Ett problem som ofta förekommer i samband med träning av neuronnät är så kallad överinlärning, då ett nätverk lär sig detaljer i träningsexempel istället för att generalisera, och regularisering är att effektivt sätt att motverka detta. LASSO (Least Absolute Shrinkage and Selection Operator), är en regulariseringsmetod som användes i den här studien. Det intressanta med LASSO är att den ställer ett särskilt högt krav på nätverkets inre struktur och de variabler som insignalen innehåller. Frågeställningen för studien var: "Kan regularisering av neuronnät med LASSO, ge upphov till en användbar rangordning av variabler?" (Less)

Please use this url to cite or link to this publication: http://lup.lub.lu.se/student-papers/record/8914341

author

Torstensson, Erik ^LU

supervisor

Mattias Ohlsson ^LU

organization

Computational Biology and Biological Physics - Has been reorganised

course

FYTK02 20171

year

2017

type

M2 - Bachelor Degree

subject

Science General

keywords

artificial neural network feature variable selection regularization overtraining lasso synaptic weight filter multi layer perceptron decay

language

English

id

8914341

date added to LUP

2017-06-16 15:18:11

date last changed

2017-10-06 16:05:41

@misc{8914341,
  abstract     = {{The subject of deep learning has become increasingly popular, especially for machine learning applications where a large number of input variables have to be processed. However, there are instances of problem solving, where a full understanding of the variables is of high importance. When dealing with data sets containing a large number of input variables, the established methods of feature selection require a considerable time investment. Regularization is a method typically associated with prevention of overtraining, but in this study, the possibility is explored of using LASSO regularization as a feature selection tool. The input variables of several data sets were ranked with respect to a measure of synaptic weight magnitude. A conclusion was drawn that this method is a very fast and efficient way of filtering out less important variables.}},
  author       = {{Torstensson, Erik}},
  language     = {{eng}},
  note         = {{Student Paper}},
  title        = {{Using LASSO regularization as a feature selection tool.}},
  year         = {{2017}},
}

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Using LASSO regularization as a feature selection tool.