Predicting Blood Stream Infections with Tabular Data from Swedish Electronic Health Records
(2024) In Master's Theses in Mathematical Sciences FMAM05 20242Mathematics (Faculty of Engineering)
- Abstract
- This thesis explores the application of machine learning techniques to improve the diagnosis of bloodstream
infections (BSIs) using tabular data extracted from Swedish electronic health records maintained
by Region Skåne. BSIs are associated with high mortality rates, especially when diagnosis and
treatment are delayed. Traditional diagnostic methods like blood cultures are time-consuming and
can be prone to contamination, underscoring the need for more efficient diagnostic tools.
Building upon previous research by Jakobsson & Rydengård, which achieved an Area Under the Receiver
Operating Characteristic (AUROC) score of 0.76 using non-sequential data, this study aims to
enhance predictive performance by leveraging time-series data... (More) - This thesis explores the application of machine learning techniques to improve the diagnosis of bloodstream
infections (BSIs) using tabular data extracted from Swedish electronic health records maintained
by Region Skåne. BSIs are associated with high mortality rates, especially when diagnosis and
treatment are delayed. Traditional diagnostic methods like blood cultures are time-consuming and
can be prone to contamination, underscoring the need for more efficient diagnostic tools.
Building upon previous research by Jakobsson & Rydengård, which achieved an Area Under the Receiver
Operating Characteristic (AUROC) score of 0.76 using non-sequential data, this study aims to
enhance predictive performance by leveraging time-series data and additional patient medical history.
The research addresses four key questions: whether integrating time-series data and patient history improves
predictive performance compared to existing benchmarks; how predictive performance varies
across patient subgroups defined by comorbidities, medication usage, age groups, and hospitalization
duration; how the timing of prediction relative to blood culture sampling affects performance;
and how Generative Adversarial Imputation Networks (GAIN) compare to previous imputation techniques.
Using a dataset provided by Region Skåne, machine learning models were developed to analyze timeseries
data and patient histories. The models were evaluated using metrics such as AUROC and
precision-recall curves, and performance was compared across different patient subgroups and prediction
timings. The best-performing model achieved an AUROC of 0.79, indicating significant improvement
over the previous benchmark. The findings indicate that integrating time-series data and patient
history enhances the model’s predictive capabilities. The models demonstrated varying performance
across different patient subgroups, highlighting the importance of personalized approaches in clinical
settings. Additionally, the use of GAIN for data imputation showed promising results, slightly
improving predictive performance over traditional imputation methods.
This study contributes to the growing body of research on machine learning in clinical decision-making,
offering a data-driven approach to early identification of at-risk patients. Suggestions for future work
includes a more nuanced approach to classification, expanding the current binary classification to
a multiclass classification framework, which can distinguish between different pathogens, as well as
differentiate patients without BSI but with other infections. (Less) - Popular Abstract (Swedish)
- —
Infektioner i blodomloppet är en livshotande diagnos som kräver snabb behandling. I mitt examensarbete har jag undersökt hur diagnostiska modeller kan förbättras med hjälp av maskininlärningsbaserade prediktionsmetoder. Det långsiktiga målet är att bidra till utvecklingen av kliniska stödverktyg som kan förkorta svarstider och bidra till en minskad användning av antibiotika.
—
Infektioner i blodomloppet är ett allvarligt tillstånd förknippat med hög dödlighet. Tidig och korrekt behandling är avgörande för att förbättra överlevnadschanserna. Den nuvarande standardmetoden för att diagnostisera dessa infektioner är blododling, en process som tar upp till 2 dygn och kan ge osäkra resultat på grund av kontaminering från hudbakterier.... (More) - —
Infektioner i blodomloppet är en livshotande diagnos som kräver snabb behandling. I mitt examensarbete har jag undersökt hur diagnostiska modeller kan förbättras med hjälp av maskininlärningsbaserade prediktionsmetoder. Det långsiktiga målet är att bidra till utvecklingen av kliniska stödverktyg som kan förkorta svarstider och bidra till en minskad användning av antibiotika.
—
Infektioner i blodomloppet är ett allvarligt tillstånd förknippat med hög dödlighet. Tidig och korrekt behandling är avgörande för att förbättra överlevnadschanserna. Den nuvarande standardmetoden för att diagnostisera dessa infektioner är blododling, en process som tar upp till 2 dygn och kan ge osäkra resultat på grund av kontaminering från hudbakterier. Behovet av snabbare och mer tillförlitliga diagnostiska verktyg är därför stort.
I mitt examensarbete har jag undersökt hur maskininlärning kan användas för att utveckla diagnostiska verktyg som hjälper läkare att snabbare identifiera blodomloppsinfektioner. Prediktionsmodeller, som dessa verktyg baseras på, använder patientdata för att förutsäga om en infektion är sannolik. Mitt arbete bygger på att kombinera data från laboratorietester, såsom blodvärden, samt vitalparametrar som blodtryck och puls, tillsammans med övrig medicinsk historik för att skapa modeller som är mer träffsäkra än tidigare försök. En särskild utmaning har varit att hantera saknad data, som är en konsekvens av att tester endast utförs när de bedöms vara kliniskt nödvändiga och därför inte alltid är tillgängliga för alla patienter. För detta har jag med framgång undersökt Generative Adversarial Imputation Networks (GAIN), en metod som fyller i saknad information på ett sätt som efterliknar verkliga data.
Modellerna tränades och utvärderades med hjälp av data från cirka 100 000 patientbesök, hämtade ur Region Skånes elektroniska patientjournaler. Resultaten visar att prediktionsmodellerna kan förbättras avsevärt genom att inkludera både aktuell patientdata och historik. AUROC är ett mått som beskriver modellens förmåga att rangordna patienter efter risk, där 1.0 motsvarar en perfekt modell och 0.5 motsvarar slumpmässiga gissningar. Den bästa modellen nådde ett AUROC-värde på 0.79, vilket innebär att den kan skilja mellan infekterade och icke-infekterade patienter med högre precision än tidigare försök.
Förutom att undersöka modellernas generella prestanda analyserade jag även hur de fungerar för olika patientgrupper, såsom äldre patienter, de med kroniska sjukdomar eller de som nyligen behandlats med antibiotika. Dessa analyser visade att vissa grupper kan dra särskild nytta av modellerna, vilket understryker vikten av personanpassade lösningar inom vården.
Sammanfattningsvis visar resultaten att det finns potential i maskininlärningsbaserade modeller för att utveckla användbara verktyg för diagnostiskt beslutsstöd inom sjukvården. Mitt arbete har haft en utforskande karaktär, och alla resultat bör därför betraktas som indikativa snarare än definitiva. Framtida forskning skulle kunna expandera modellerna för att exempelvis särskilja mellan olika patogener eller identifiera andra infektionssjukdomar. (Less)
Please use this url to cite or link to this publication:
http://lup.lub.lu.se/student-papers/record/9178790
- author
- Rausér Porsback, John LU
- supervisor
-
- Johanna Engman LU
- Ida Arvidsson LU
- Oskar Ljungquist LU
- Gustav Torisson LU
- organization
- course
- FMAM05 20242
- year
- 2024
- type
- H2 - Master's Degree (Two Years)
- subject
- keywords
- machine learning, predictive modeling, imputation, blood stream infections
- publication/series
- Master's Theses in Mathematical Sciences
- report number
- LUTFMA-3564-2024
- ISSN
- 1404-6342
- other publication id
- 2024:E80
- language
- English
- id
- 9178790
- date added to LUP
- 2024-12-20 09:30:28
- date last changed
- 2025-01-15 03:43:13
@misc{9178790, abstract = {{This thesis explores the application of machine learning techniques to improve the diagnosis of bloodstream infections (BSIs) using tabular data extracted from Swedish electronic health records maintained by Region Skåne. BSIs are associated with high mortality rates, especially when diagnosis and treatment are delayed. Traditional diagnostic methods like blood cultures are time-consuming and can be prone to contamination, underscoring the need for more efficient diagnostic tools. Building upon previous research by Jakobsson & Rydengård, which achieved an Area Under the Receiver Operating Characteristic (AUROC) score of 0.76 using non-sequential data, this study aims to enhance predictive performance by leveraging time-series data and additional patient medical history. The research addresses four key questions: whether integrating time-series data and patient history improves predictive performance compared to existing benchmarks; how predictive performance varies across patient subgroups defined by comorbidities, medication usage, age groups, and hospitalization duration; how the timing of prediction relative to blood culture sampling affects performance; and how Generative Adversarial Imputation Networks (GAIN) compare to previous imputation techniques. Using a dataset provided by Region Skåne, machine learning models were developed to analyze timeseries data and patient histories. The models were evaluated using metrics such as AUROC and precision-recall curves, and performance was compared across different patient subgroups and prediction timings. The best-performing model achieved an AUROC of 0.79, indicating significant improvement over the previous benchmark. The findings indicate that integrating time-series data and patient history enhances the model’s predictive capabilities. The models demonstrated varying performance across different patient subgroups, highlighting the importance of personalized approaches in clinical settings. Additionally, the use of GAIN for data imputation showed promising results, slightly improving predictive performance over traditional imputation methods. This study contributes to the growing body of research on machine learning in clinical decision-making, offering a data-driven approach to early identification of at-risk patients. Suggestions for future work includes a more nuanced approach to classification, expanding the current binary classification to a multiclass classification framework, which can distinguish between different pathogens, as well as differentiate patients without BSI but with other infections.}}, author = {{Rausér Porsback, John}}, issn = {{1404-6342}}, language = {{eng}}, note = {{Student Paper}}, series = {{Master's Theses in Mathematical Sciences}}, title = {{Predicting Blood Stream Infections with Tabular Data from Swedish Electronic Health Records}}, year = {{2024}}, }