Advanced

Machine learning and its applications within insurance hit rates and credit risk modelling

Blomgren, Linus and Vitestam, Hampus (2017) FMS820 20171
Mathematical Statistics
Abstract
This thesis aims to shine light on some different machine learning methods. As reference a more common statistical prediction method, namely the generalized linear model, is applied to compare the results of the machine learning methods. Six different machine learning methods are investigated. These methods are explained in detail and used to predict hit rates within insurance customers. To further explore the data sets and the methods, the data sets are rebalanced to deal with skewness of the target class. The insurance data set used contains 86 features, including the target feature, which can be troublesome in some cases, and therefore a feature reduction analysis is performed. Further the positives and negatives of the different methods... (More)
This thesis aims to shine light on some different machine learning methods. As reference a more common statistical prediction method, namely the generalized linear model, is applied to compare the results of the machine learning methods. Six different machine learning methods are investigated. These methods are explained in detail and used to predict hit rates within insurance customers. To further explore the data sets and the methods, the data sets are rebalanced to deal with skewness of the target class. The insurance data set used contains 86 features, including the target feature, which can be troublesome in some cases, and therefore a feature reduction analysis is performed. Further the positives and negatives of the different methods and how to put machine learning in practice was discussed. Lastly a new data set is introduced and the machine learning methods are used to assess the risk of default within credit customers.
The results show that random forest perform best of the different data sets, and it is fairly easy to interpret. The k-nn, naïve Bayes and decision tree do not perform as well as the random forest but are easier to use and requires much less computing time to tune and train. These less computational complex methods can be good when much data is available, but is inferior to regression methods when that is not the case. The support vector machine and the neural network are complex but have potential for greatness. Further investigation into the different models we used are needed, especially the support vector machine and the neural network. (Less)
Popular Abstract (Swedish)
Vi lever i en tid där det blivit allt enklare för företag att samla in och lagra stora mängder data om sina kunder. Möjlighetenattutnyttjaalladennadataförattidentifieraochförutsekundebeteendenstårhögtpåagendanföralla somsysslarmedförsäljninginågonform.
Att i förväg känna till vilka kunder som är troligast att köpaenspecifikproduktellerattkunnaidentifieravilka låntagare som är mindre troliga att betala tillbaka sina skulderärbaranågraexempel. Forskningeninomdessa frågor har ökat markant de senaste årtiondena till följd avnyteknologiochettmodeordsomfåttökaduppmärksamhetdesenasteårenärmaskininlärning. Denhärrapportensyftartillattgeenövergripandeförståelseförhur några av de mest populära maskininlärningsmetoderna... (More)
Vi lever i en tid där det blivit allt enklare för företag att samla in och lagra stora mängder data om sina kunder. Möjlighetenattutnyttjaalladennadataförattidentifieraochförutsekundebeteendenstårhögtpåagendanföralla somsysslarmedförsäljninginågonform.
Att i förväg känna till vilka kunder som är troligast att köpaenspecifikproduktellerattkunnaidentifieravilka låntagare som är mindre troliga att betala tillbaka sina skulderärbaranågraexempel. Forskningeninomdessa frågor har ökat markant de senaste årtiondena till följd avnyteknologiochettmodeordsomfåttökaduppmärksamhetdesenasteårenärmaskininlärning. Denhärrapportensyftartillattgeenövergripandeförståelseförhur några av de mest populära maskininlärningsmetoderna fungerarochderasmöjligaanvändningsområden.
Termen maskininlärnnig syftar till att på innovativa sätt identifiera mönster i samt förutse utfall från stora mängder data på ett effektivt sätt. Dessa metoder är besläktademedstatistiskaregressionsmodellermenskiljer sig ofta med att de inte har ett teoretiskt bevis på att defungerarmenattnärdeanvändsipraktikenfungerar likvärdigtellerbättre.
Viharivårtarbetevaltattfokuserapå6olikametoder: naïve Bayes, k-nearest neighbors, decision tree, randomforest,supportvectormachineochneuralnetwork. De tre första metoderna är relativt simpla med korta beräkningstider och de tre efterföljande metoderna är mer avancerade och kan ta dagar, veckor eller flera månader att kalibrera, beroende på hur noggrann användarenvillvara. Ävenommetodernaärgrupperadeinom maskininlärning så skiljer sig deras tillvägagångssätt markantfrånvarandra. Därtillexempelk-nearestneighborsbestämmervadutfalletblirgenomatttamajoriteten avdenärmstintilliggandepunkternaochdärneuralnetworkförsökersimuleraenhjärnamedolikalageravneuroner som kommunicerar med varandra för att förutse ettutfall.
Den primära kunddatan som vi använts oss av i rapporten beskriver kunder hos ett försäkringsbolag och vilka försäkringar de innehar. Utifrån den datan tränades de olika maskininlärningsmetoderna att avgöra vilka kunder som är troligast att inneha en husvagnsförsäkring. Genom att jämföra dessa resultat med verkligheten, dvs. vilka som redan innehar en husvagnsförsäkring, fick vi fram ett mått på de olika metodernas träffsäkerhet.
Dennakunddatavisadesigvaraväldigtskevifördelningenavhurmångasomhadehusvagnsförsäkringochhur många som inte hade det, då endast en sextondel hade husvagnsförsäkring. Detta kan skapa problem eftersom metoderna anpassar sig efter alla punkter och kan bidra till att man tränar modeller som anpassar sig mer
efter att förutse vilka som inte har husvagnsförsäkring än vilka som har. För att balansera om datan användes en metod som skapade nya syntetiska kunder som innehar husvagnsförsäkring och reducerar antalet kunder utan husvagnsföräskring. Datan balancerades om till tre nya datamängder innehållandes tre, fem respektive sju tiondelar som hade köpt försäkringen istället för en sextondel som det var från början. Det visade sig inte ha en större effekt förutom hos metoden support vector machine som innebär att man optimerar ett hyperplan mellan de som köpt och inte köpt. Sedan används detta plan för att nya kunder som hamnar på ena sidan inte kommerattköpaochkunderpåandrasidankommeratt köpa.
För att vidare undersöka datamängden så valde vi att göraenvariabelreduktion. Enstatistiskmetodsomheter generalized linear model användes för att se vilka variabler som hade störst betydelse i att förutse utfall hos datamängden. Vitogutdefemtonavåttiofemviktigaste variablerna och tränade om alla maskininlärningsmodeller på endast dessa variabler. Resultatet av detta blev jämförbart med de tidigare resultaten men vad som är viktigtatttautavdettaärattberäkningstidenminskade drastiskt med färre variabler, vilket kan vara till stor hjälp när det ska tränas avancerade modeller som tar långtidattkalibrera.
I ett sista steg applicerades maskininlärningsmetoderna på en ny datamängd innehållandes kreditkortskunddata för att försöka förutse fallissemang hos kunderna. Dennadatamängdinnehöllbetydligtflerkunderfastmed färrevariabler. Resultatenblevtydligaremenvisadepå sammatendensersomhosförsäkringsdatan.
Våraresultatvisadeattdenstatistiskametodengeneralized linear model fungerade väldigt bra jämfört med de olikamaskininlärningsmetodernamenattrandomforest presterade bäst. Detta är en relativt enkel metod som handlar om att bygga små decision trees som tränas på en mindre del av datan och på färre variabler än det totalaantaletförattsedanklassificerasommajoritetenav dessa träd. Eftersom man bygger många träd så tar den längre tid att träna än vanliga andra modeller. Fortsatt arbetehadefokuseratpåattoptimerademerkomplicerade metoderna som support vector machine och neural network för att det finns mycket man kan variera med dessametoderochimycketannanlitteraturvisardesig presterabättreänstatistiskaregressionsmodeller. (Less)
Please use this url to cite or link to this publication:
author
Blomgren, Linus and Vitestam, Hampus
supervisor
organization
course
FMS820 20171
year
type
H2 - Master's Degree (Two Years)
subject
keywords
Machine learning, Artificial intelligence, Insurance, Credit risk, SMOTE, k-NN, Naïve Bayes, Decision tree, Random forest, Support vector machine, Neural network, Generalized linear model, Receiver operating characteristics, Hit rate
language
English
id
8915361
date added to LUP
2017-06-14 11:10:46
date last changed
2017-06-14 11:10:46
@misc{8915361,
  abstract     = {This thesis aims to shine light on some different machine learning methods. As reference a more common statistical prediction method, namely the generalized linear model, is applied to compare the results of the machine learning methods. Six different machine learning methods are investigated. These methods are explained in detail and used to predict hit rates within insurance customers. To further explore the data sets and the methods, the data sets are rebalanced to deal with skewness of the target class. The insurance data set used contains 86 features, including the target feature, which can be troublesome in some cases, and therefore a feature reduction analysis is performed. Further the positives and negatives of the different methods and how to put machine learning in practice was discussed. Lastly a new data set is introduced and the machine learning methods are used to assess the risk of default within credit customers.
The results show that random forest perform best of the different data sets, and it is fairly easy to interpret. The k-nn, naïve Bayes and decision tree do not perform as well as the random forest but are easier to use and requires much less computing time to tune and train. These less computational complex methods can be good when much data is available, but is inferior to regression methods when that is not the case. The support vector machine and the neural network are complex but have potential for greatness. Further investigation into the different models we used are needed, especially the support vector machine and the neural network.},
  author       = {Blomgren, Linus and Vitestam, Hampus},
  keyword      = {Machine learning,Artificial intelligence,Insurance,Credit risk,SMOTE,k-NN,Naïve Bayes,Decision tree,Random forest,Support vector machine,Neural network,Generalized linear model,Receiver operating characteristics,Hit rate},
  language     = {eng},
  note         = {Student Paper},
  title        = {Machine learning and its applications within insurance hit rates and credit risk modelling},
  year         = {2017},
}