Machine learning and its applications within insurance hit rates and credit risk modelling

Blomgren, Linus; Vitestam, Hampus

Machine learning and its applications within insurance hit rates and credit risk modelling

Mark

Blomgren, Linus and Vitestam, Hampus (2017) In Master's Theses in Mathematical Sciences FMS820 20171
Mathematical Statistics

Abstract: This thesis aims to shine light on some diﬀerent machine learning methods. As reference a more common statistical prediction method, namely the generalized linear model, is applied to compare the results of the machine learning methods. Six different machine learning methods are investigated. These methods are explained in detail and used to predict hit rates within insurance customers. To further explore the data sets and the methods, the data sets are rebalanced to deal with skewness of the target class. The insurance data set used contains 86 features, including the target feature, which can be troublesome in some cases, and therefore a feature reduction analysis is performed. Further the positives and negatives of the diﬀerent methods... (More); This thesis aims to shine light on some diﬀerent machine learning methods. As reference a more common statistical prediction method, namely the generalized linear model, is applied to compare the results of the machine learning methods. Six different machine learning methods are investigated. These methods are explained in detail and used to predict hit rates within insurance customers. To further explore the data sets and the methods, the data sets are rebalanced to deal with skewness of the target class. The insurance data set used contains 86 features, including the target feature, which can be troublesome in some cases, and therefore a feature reduction analysis is performed. Further the positives and negatives of the diﬀerent methods and how to put machine learning in practice was discussed. Lastly a new data set is introduced and the machine learning methods are used to assess the risk of default within credit customers.
The results show that random forest perform best of the diﬀerent data sets, and it is fairly easy to interpret. The k-nn, naïve Bayes and decision tree do not perform as well as the random forest but are easier to use and requires much less computing time to tune and train. These less computational complex methods can be good when much data is available, but is inferior to regression methods when that is not the case. The support vector machine and the neural network are complex but have potential for greatness. Further investigation into the diﬀerent models we used are needed, especially the support vector machine and the neural network. (Less)
Popular Abstract (Swedish): Vi lever i en tid där det blivit allt enklare för företag att samla in och lagra stora mängder data om sina kunder. Möjlighetenattutnyttjaalladennadataförattidentiﬁeraochförutsekundebeteendenstårhögtpåagendanföralla somsysslarmedförsäljninginågonform.
Att i förväg känna till vilka kunder som är troligast att köpaenspeciﬁkproduktellerattkunnaidentiﬁeravilka låntagare som är mindre troliga att betala tillbaka sina skulderärbaranågraexempel. Forskningeninomdessa frågor har ökat markant de senaste årtiondena till följd avnyteknologiochettmodeordsomfåttökaduppmärksamhetdesenasteårenärmaskininlärning. Denhärrapportensyftartillattgeenövergripandeförståelseförhur några av de mest populära maskininlärningsmetoderna... (More); Vi lever i en tid där det blivit allt enklare för företag att samla in och lagra stora mängder data om sina kunder. Möjlighetenattutnyttjaalladennadataförattidentiﬁeraochförutsekundebeteendenstårhögtpåagendanföralla somsysslarmedförsäljninginågonform.
Att i förväg känna till vilka kunder som är troligast att köpaenspeciﬁkproduktellerattkunnaidentiﬁeravilka låntagare som är mindre troliga att betala tillbaka sina skulderärbaranågraexempel. Forskningeninomdessa frågor har ökat markant de senaste årtiondena till följd avnyteknologiochettmodeordsomfåttökaduppmärksamhetdesenasteårenärmaskininlärning. Denhärrapportensyftartillattgeenövergripandeförståelseförhur några av de mest populära maskininlärningsmetoderna fungerarochderasmöjligaanvändningsområden.
Termen maskininlärnnig syftar till att på innovativa sätt identiﬁera mönster i samt förutse utfall från stora mängder data på ett eﬀektivt sätt. Dessa metoder är besläktademedstatistiskaregressionsmodellermenskiljer sig ofta med att de inte har ett teoretiskt bevis på att defungerarmenattnärdeanvändsipraktikenfungerar likvärdigtellerbättre.
Viharivårtarbetevaltattfokuserapå6olikametoder: naïve Bayes, k-nearest neighbors, decision tree, randomforest,supportvectormachineochneuralnetwork. De tre första metoderna är relativt simpla med korta beräkningstider och de tre efterföljande metoderna är mer avancerade och kan ta dagar, veckor eller ﬂera månader att kalibrera, beroende på hur noggrann användarenvillvara. Ävenommetodernaärgrupperadeinom maskininlärning så skiljer sig deras tillvägagångssätt markantfrånvarandra. Därtillexempelk-nearestneighborsbestämmervadutfalletblirgenomatttamajoriteten avdenärmstintilliggandepunkternaochdärneuralnetworkförsökersimuleraenhjärnamedolikalageravneuroner som kommunicerar med varandra för att förutse ettutfall.
Den primära kunddatan som vi använts oss av i rapporten beskriver kunder hos ett försäkringsbolag och vilka försäkringar de innehar. Utifrån den datan tränades de olika maskininlärningsmetoderna att avgöra vilka kunder som är troligast att inneha en husvagnsförsäkring. Genom att jämföra dessa resultat med verkligheten, dvs. vilka som redan innehar en husvagnsförsäkring, ﬁck vi fram ett mått på de olika metodernas träﬀsäkerhet.
Dennakunddatavisadesigvaraväldigtskevifördelningenavhurmångasomhadehusvagnsförsäkringochhur många som inte hade det, då endast en sextondel hade husvagnsförsäkring. Detta kan skapa problem eftersom metoderna anpassar sig efter alla punkter och kan bidra till att man tränar modeller som anpassar sig mer
efter att förutse vilka som inte har husvagnsförsäkring än vilka som har. För att balansera om datan användes en metod som skapade nya syntetiska kunder som innehar husvagnsförsäkring och reducerar antalet kunder utan husvagnsföräskring. Datan balancerades om till tre nya datamängder innehållandes tre, fem respektive sju tiondelar som hade köpt försäkringen istället för en sextondel som det var från början. Det visade sig inte ha en större eﬀekt förutom hos metoden support vector machine som innebär att man optimerar ett hyperplan mellan de som köpt och inte köpt. Sedan används detta plan för att nya kunder som hamnar på ena sidan inte kommerattköpaochkunderpåandrasidankommeratt köpa.
För att vidare undersöka datamängden så valde vi att göraenvariabelreduktion. Enstatistiskmetodsomheter generalized linear model användes för att se vilka variabler som hade störst betydelse i att förutse utfall hos datamängden. Vitogutdefemtonavåttiofemviktigaste variablerna och tränade om alla maskininlärningsmodeller på endast dessa variabler. Resultatet av detta blev jämförbart med de tidigare resultaten men vad som är viktigtatttautavdettaärattberäkningstidenminskade drastiskt med färre variabler, vilket kan vara till stor hjälp när det ska tränas avancerade modeller som tar långtidattkalibrera.
I ett sista steg applicerades maskininlärningsmetoderna på en ny datamängd innehållandes kreditkortskunddata för att försöka förutse fallissemang hos kunderna. Dennadatamängdinnehöllbetydligtﬂerkunderfastmed färrevariabler. Resultatenblevtydligaremenvisadepå sammatendensersomhosförsäkringsdatan.
Våraresultatvisadeattdenstatistiskametodengeneralized linear model fungerade väldigt bra jämfört med de olikamaskininlärningsmetodernamenattrandomforest presterade bäst. Detta är en relativt enkel metod som handlar om att bygga små decision trees som tränas på en mindre del av datan och på färre variabler än det totalaantaletförattsedanklassiﬁcerasommajoritetenav dessa träd. Eftersom man bygger många träd så tar den längre tid att träna än vanliga andra modeller. Fortsatt arbetehadefokuseratpåattoptimerademerkomplicerade metoderna som support vector machine och neural network för att det ﬁnns mycket man kan variera med dessametoderochimycketannanlitteraturvisardesig presterabättreänstatistiskaregressionsmodeller. (Less)

Please use this url to cite or link to this publication: http://lup.lub.lu.se/student-papers/record/8915361

author

Blomgren, Linus and Vitestam, Hampus

supervisor

Nader Tajvidi ^LU

organization

Mathematical Statistics

course

FMS820 20171

year

2017

type

H2 - Master's Degree (Two Years)

subject

Mathematics and Statistics

keywords

Machine learning, Artiﬁcial intelligence, Insurance, Credit risk, SMOTE, k-NN, Naïve Bayes, Decision tree, Random forest, Support vector machine, Neural network, Generalized linear model, Receiver operating characteristics, Hit rate

publication/series

Master's Theses in Mathematical Sciences

report number

LUTFMS-3320-2017

ISSN

1404-6342

other publication id

2017:E23

language

English

id

8915361

date added to LUP

2017-06-14 11:10:46

date last changed

2024-09-26 11:50:13

@misc{8915361,
  abstract     = {{This thesis aims to shine light on some diﬀerent machine learning methods. As reference a more common statistical prediction method, namely the generalized linear model, is applied to compare the results of the machine learning methods. Six different machine learning methods are investigated. These methods are explained in detail and used to predict hit rates within insurance customers. To further explore the data sets and the methods, the data sets are rebalanced to deal with skewness of the target class. The insurance data set used contains 86 features, including the target feature, which can be troublesome in some cases, and therefore a feature reduction analysis is performed. Further the positives and negatives of the diﬀerent methods and how to put machine learning in practice was discussed. Lastly a new data set is introduced and the machine learning methods are used to assess the risk of default within credit customers.
The results show that random forest perform best of the diﬀerent data sets, and it is fairly easy to interpret. The k-nn, naïve Bayes and decision tree do not perform as well as the random forest but are easier to use and requires much less computing time to tune and train. These less computational complex methods can be good when much data is available, but is inferior to regression methods when that is not the case. The support vector machine and the neural network are complex but have potential for greatness. Further investigation into the diﬀerent models we used are needed, especially the support vector machine and the neural network.}},
  author       = {{Blomgren, Linus and Vitestam, Hampus}},
  issn         = {{1404-6342}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Master's Theses in Mathematical Sciences}},
  title        = {{Machine learning and its applications within insurance hit rates and credit risk modelling}},
  year         = {{2017}},
}

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Machine learning and its applications within insurance hit rates and credit risk modelling