Imputation Methods in Dialysis Data

Albinsson, Mattias; Gillsbro, Erik

Imputation Methods in Dialysis Data

Mark

Albinsson, Mattias ^LU and Gillsbro, Erik (2017) In Master's Theses in Mathematical Sciences FMA820 20171
Mathematics (Faculty of Engineering)

Abstract: Imputation of data is the process of filling in missing values in an incomplete data set. Missing data is a common problem in many fields, not least in clinical research. This report aims to evaluate different methods for imputing missing data in health records of dialysis patients. The imputed data will, in a related project, be used to predict hospitalizations of dialysis patients. The hope is that an imputed data set will give a higher hit rate when predicting the hospitalizations of those patients. Seven different imputation methods, with varying complexity, were considered and compared to the presently used imputation method, which was to simply use the latest observed value as imputed value. The methods were evaluated according to... (More); Imputation of data is the process of filling in missing values in an incomplete data set. Missing data is a common problem in many fields, not least in clinical research. This report aims to evaluate different methods for imputing missing data in health records of dialysis patients. The imputed data will, in a related project, be used to predict hospitalizations of dialysis patients. The hope is that an imputed data set will give a higher hit rate when predicting the hospitalizations of those patients. Seven different imputation methods, with varying complexity, were considered and compared to the presently used imputation method, which was to simply use the latest observed value as imputed value. The methods were evaluated according to their performance compared to a validation data set, as well as if improvement in prediction of hospitalizations were seen. We found that methods built on within-variable dependencies performed better than methods built on between-variable dependencies. Specifically, time series models using a Kalman filter gave the best results. Also, an improvement in the prediction algorithm could be seen when using more sophisticated imputation methods compared to using the presently used imputation method. When increasing the amount of missing data we still managed to obtain good results in contrast to the present method. All data analyzed in this project was from dialysis patients suffering from end stage renal disease. (Less)
Popular Abstract (Swedish): Vid de flesta processer som innefattar insamlande av data kan det ibland uppstå problem som gör att all data inte samlas in korrekt. När detta händer uppstår det tomma platser i datan där värden saknas. Det finns många sätt att hantera dessa tomma platser och i många fall kan man bortse från dem. Om ett komplett dataset behövs för analys kan så kallade imputationsmetoder användas för att fylla i de tomma platserna med rimliga värden. I den här rapporten har olika sådana imputationsmetoder implementerats, testats och utvärderats på data från dialyspatienter.

Med ökande välfärd och tillgång till medicin i världens mest avlägsna hörn har infektionssjukdomar fått se sig besegrade. Nu för tiden är det istället kroniska sjukdomar som är den... (More); Vid de flesta processer som innefattar insamlande av data kan det ibland uppstå problem som gör att all data inte samlas in korrekt. När detta händer uppstår det tomma platser i datan där värden saknas. Det finns många sätt att hantera dessa tomma platser och i många fall kan man bortse från dem. Om ett komplett dataset behövs för analys kan så kallade imputationsmetoder användas för att fylla i de tomma platserna med rimliga värden. I den här rapporten har olika sådana imputationsmetoder implementerats, testats och utvärderats på data från dialyspatienter.

Med ökande välfärd och tillgång till medicin i världens mest avlägsna hörn har infektionssjukdomar fått se sig besegrade. Nu för tiden är det istället kroniska sjukdomar som är den största dödsorsaken världen över. Då kroniska sjukdomar inte går att bota med medicin läggs istället mycket forskning och resurser på att försöka förhindra att människor drabbas av dessa sjukdomar. Vi vet alla att man ska äta rätt, träna rätt och sova rätt för att leva så bra som möjligt. Det är dock lättare sagt än gjort och så småningom drabbas de flesta ändå av en kronisk sjukdom inför dödens bädd. Till exempel kan njurarna lägga av och du kan tvingas leva uppkopplad till en dialysmaskin resten av dina kvarvarande år. För att spä på eländet ännu mer händer det ofta att dialyspatienter insjuknar i akuta sjukdomar och tvingas bli inlagda på sjukhus. Så vore det inte skönt att i denna misär med tidsödande behandlingar flera gånger i veckan, strikta matscheman för att inte få i sig för mycket socker eller vätska och oförmågan att ens kunna kissa längre, i alla fall slippa att bli inlagd på sjukhus?
Det är precis det som Lytics Health AB vill kunna undvika. De har utvecklat en algoritm som med hjälp av dialyspatientens data kan förutsäga om hen kommer bli inlagd på sjukhus inom de närmsta 30 dagarna och på så vis kunna sätta in åtgärder i tid för att förhindra det. Det finns dock ett problem och det är att algoritmen inte fungerar om datakvaliteten är för dålig. Till exempel om datan innehåller massa tomma platser där värden saknas. Det är där vårt examensarbete kommer in i leken. Målet med detta arbete är alltså att utveckla imputationsmetoder för att fylla i dessa saknade värden.

Det finns många sätt att angripa detta problem med saknad data. Det lättaste, vilket också används som imputationsmetod i dagsläget, kan vara att helt enkelt använda ett tidigare värde och fylla i där det fattas. Denna metod är dock ganska dålig och missvisande för variabler som ändrar sig mycket från behandling till behandling, som till exempel patientens puls. Vad vi har undersökt är om mer avancerade algoritmer, som använder sig av information från större del av datan, kan ge ett bättre resultat. Tidsserie-modeller, maskininlärnings-modeller och linjära modeller har testats med varierande resultat. Utvärderingen skedde dels genom att jämföra hur nära algoritmerna kunde imputera saknade värden i ett givet dataset och dels genom att se om prediktionerna på dialyspatienter blev bättre.

Slutsatsen av arbetet är att man ganska lätt kan öka kvaliteten av datan genom att använda sig av imputationsmetoder. Vi ser en liten förbättring i resultatet för prediktionen när vi använder oss av imputationsmetoder. Med större mängd saknad data och fler imputerade variabler hade troligtvis skillnaden blivit större. I framtiden tror vi absolut att användandet av mer sofistikerade imputationsmetoder kommer att växa då värdet av högkvalitativ data ständigt ökar. Det bästa vore dock att angripa roten till problemet och minska mängden saknad data vid datainsamling. (Less)

Please use this url to cite or link to this publication: http://lup.lub.lu.se/student-papers/record/8912742

author

Albinsson, Mattias ^LU and Gillsbro, Erik

supervisor

organization

Mathematics (Faculty of Engineering)

course

FMA820 20171

year

2017

type

H2 - Master's Degree (Two Years)

subject

Mathematics and Statistics

keywords

Imputation, Dialysis, Missing data

publication/series

Master's Theses in Mathematical Sciences

report number

LUTFMA-3318-2017

ISSN

1404-6342

other publication id

2017:E26

language

English

id

8912742

date added to LUP

2017-06-12 15:03:02

date last changed

2018-10-11 16:20:37

@misc{8912742,
  abstract     = {{Imputation of data is the process of filling in missing values in an incomplete data set. Missing data is a common problem in many fields, not least in clinical research. This report aims to evaluate different methods for imputing missing data in health records of dialysis patients. The imputed data will, in a related project, be used to predict hospitalizations of dialysis patients. The hope is that an imputed data set will give a higher hit rate when predicting the hospitalizations of those patients. Seven different imputation methods, with varying complexity, were considered and compared to the presently used imputation method, which was to simply use the latest observed value as imputed value. The methods were evaluated according to their performance compared to a validation data set, as well as if improvement in prediction of hospitalizations were seen. We found that methods built on within-variable dependencies performed better than methods built on between-variable dependencies. Specifically, time series models using a Kalman filter gave the best results. Also, an improvement in the prediction algorithm could be seen when using more sophisticated imputation methods compared to using the presently used imputation method. When increasing the amount of missing data we still managed to obtain good results in contrast to the present method. All data analyzed in this project was from dialysis patients suffering from end stage renal disease.}},
  author       = {{Albinsson, Mattias and Gillsbro, Erik}},
  issn         = {{1404-6342}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Master's Theses in Mathematical Sciences}},
  title        = {{Imputation Methods in Dialysis Data}},
  year         = {{2017}},
}

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Imputation Methods in Dialysis Data