Sparse Clustering and Regression Models for High-Dimensional Kidney Transplant Patient Data

Tebäck, Maiya

Sparse Clustering and Regression Models for High-Dimensional Kidney Transplant Patient Data

Mark

Tebäck, Maiya ^LU (2025) In Master’s Theses in Mathematical Sciences MASM02 20251
Mathematical Statistics

Abstract: Kidney transplants are the most common type of organ transplant globally. While immunosuppressants targeting the adaptive immune systems have been successful in improving short-term outcomes, the role of the innate immune system is relatively less studied, and has come under attention as a potential driver of the inflammation causing poor long-term outcomes. In this thesis, sparse statistical methods were employed on a high-dimensional data set in an attempt to predict outcomes for kidney transplant patients. Nested cross-validation was used to create and evaluate sparse regression models for categorical and continuous outcomes, showing the difficulty of making predictions with small sample data sets. The same methods were also applied to... (More); Kidney transplants are the most common type of organ transplant globally. While immunosuppressants targeting the adaptive immune systems have been successful in improving short-term outcomes, the role of the innate immune system is relatively less studied, and has come under attention as a potential driver of the inflammation causing poor long-term outcomes. In this thesis, sparse statistical methods were employed on a high-dimensional data set in an attempt to predict outcomes for kidney transplant patients. Nested cross-validation was used to create and evaluate sparse regression models for categorical and continuous outcomes, showing the difficulty of making predictions with small sample data sets. The same methods were also applied to classify transplant modality using only data consisting of the levels of 109 proteins evaluated at four time points each, yielding a close to perfect model where at most one or two patients (out of 63) were misclassified across multiple runs. Improvements and alternative approaches to the methods used are discussed, together with suggestions for further research. (Less)
Popular Abstract (Swedish): Den första lyckade organtransplantationen var av en njure år 1954, och sedan dess har njurtransplantationer förbättrat livet för de idag över 100 000 patienter globalt som varje år får en ny njure. Mycket av framgångarna är tack vare mediciner som hämmar det adaptiva immunförsvaret, och förhindrar att kroppen attackerar det främmande organet. Den fortsatta utvecklingen av dessa mediciner har lett till stora förbättringar på kort sikt, men problem kvarstår med utfall på lång sikt. Det medfödda immunförsvaret har blivit uppmärksammat som en möjlig anledning till den inflammation som leder till de kvarstående problemen. Syrebrist som uppstår i samband med transplantationen skadar den nya njuren, vilket det medfödda immunförsvaret kan reagera... (More); Den första lyckade organtransplantationen var av en njure år 1954, och sedan dess har njurtransplantationer förbättrat livet för de idag över 100 000 patienter globalt som varje år får en ny njure. Mycket av framgångarna är tack vare mediciner som hämmar det adaptiva immunförsvaret, och förhindrar att kroppen attackerar det främmande organet. Den fortsatta utvecklingen av dessa mediciner har lett till stora förbättringar på kort sikt, men problem kvarstår med utfall på lång sikt. Det medfödda immunförsvaret har blivit uppmärksammat som en möjlig anledning till den inflammation som leder till de kvarstående problemen. Syrebrist som uppstår i samband med transplantationen skadar den nya njuren, vilket det medfödda immunförsvaret kan reagera på med att sätta igång inflammation när blodflödet väl återställs i mottagaren, vilket i sin tur kan skada organet ytterligare. Tidigare studier av en forskningsgrupp vid Skånes Universitetssjukhus visade bland annat på att flera inflammationsmarkörer skiljde sig åt mellan de patienter som hade levande respektive avliden donator, och att nivåerna av dessa markörer i sin tur korrelerade med vissa utfall.

I den här masteruppsatsen undersöktes den data som insamlats vidare, med hjälp av matematiska metoder som särskilt kan hantera data med mycket färre observationer (i det här fallet patienter) än variabler (i det här fallet nivåer av olika inflammations-relaterade proteiner). För att kunna använda alla variabler, inklusive de där det saknades värden för några patienter, gjordes även försök att fylla i dessa värden med hjälp av en annan sorts matematiska metoder. Alla dessa metoder beskrivs först översiktligt i uppsatsens teoridel, varefter de tillämpas i analysdelen.

När vi här försöker skapa modeller för att förutsäga olika viktiga utfall, så visar sig detta vara svårt. Detta betyder dock inte att det inte skulle gå att göra, utan visar snarare på hur svårt det är att bygga robusta modeller med relativt få observationer, framförallt då utfallen är relativt sällsynta. Trots begränsningarna så visar det sig att en modell nästan perfekt kan klassificera patienter enligt om deras donator var levande eller avliden, utifrån endast proteinnivåer uppmätta omeddelbart före transplantation samt inom trettio minuter efter att blodflödet återställts. Detta bekräftar de tidigare resultaten från en ny synvinkel, och uppmuntrar därmed ytterligare till framtida forskning för att undersöka dessa samband. Andra förslag på förbättringar, alternativa metoder, och möjliga vägar framåt ges också. (Less)

Please use this url to cite or link to this publication: http://lup.lub.lu.se/student-papers/record/9202216

author

Tebäck, Maiya ^LU

supervisor

Andreas Jakobsson ^LU

organization

Mathematical Statistics

alternative title

Glesa klustrings- och regressionsmodeller för högdimensionell data från njurtransplantationspatienter

course

MASM02 20251

year

2025

type

H2 - Master's Degree (Two Years)

subject

Mathematics and Statistics

keywords

kidney transplantation, sparsity, sparse regression, sparse clustering

publication/series

Master’s Theses in Mathematical Sciences

report number

LUNFMS-3132-2025

ISSN

1404-6342

other publication id

2025:E74

language

English

id

9202216

date added to LUP

2025-06-19 13:24:18

date last changed

2025-06-19 13:24:18

@misc{9202216,
  abstract     = {{Kidney transplants are the most common type of organ transplant globally. While immunosuppressants targeting the adaptive immune systems have been successful in improving short-term outcomes, the role of the innate immune system is relatively less studied, and has come under attention as a potential driver of the inflammation causing poor long-term outcomes. In this thesis, sparse statistical methods were employed on a high-dimensional data set in an attempt to predict outcomes for kidney transplant patients. Nested cross-validation was used to create and evaluate sparse regression models for categorical and continuous outcomes, showing the difficulty of making predictions with small sample data sets. The same methods were also applied to classify transplant modality using only data consisting of the levels of 109 proteins evaluated at four time points each, yielding a close to perfect model where at most one or two patients (out of 63) were misclassified across multiple runs. Improvements and alternative approaches to the methods used are discussed, together with suggestions for further research.}},
  author       = {{Tebäck, Maiya}},
  issn         = {{1404-6342}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Master’s Theses in Mathematical Sciences}},
  title        = {{Sparse Clustering and Regression Models for High-Dimensional Kidney Transplant Patient Data}},
  year         = {{2025}},
}

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Sparse Clustering and Regression Models for High-Dimensional Kidney Transplant Patient Data