Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Natural Language Processing for Patient Data in Clinical Decision Support Systems

Nilsson, Amanda LU and Samnegård, Lina LU (2021) BMEM01 20211
Department of Biomedical Engineering
Abstract
In Sweden, prostate cancer is the most common type of cancer among men. The care need within prostate cancer will get higher as the population increases and gets older. With this in mind, there is a need to streamline the care pathway. One way to do this is with a clinical decision support system. Here natural language processing (NLP) plays an important role to handle the big amount of free text data.

In this project, we used NLP, more specific text classification and information extraction. The task was to extract key information related to prostate cancer from free text in electronic health records. The key information that we chose to extract were Gleason, PSA and tumour type. Binary classifiers were used to sort out irrelevant... (More)
In Sweden, prostate cancer is the most common type of cancer among men. The care need within prostate cancer will get higher as the population increases and gets older. With this in mind, there is a need to streamline the care pathway. One way to do this is with a clinical decision support system. Here natural language processing (NLP) plays an important role to handle the big amount of free text data.

In this project, we used NLP, more specific text classification and information extraction. The task was to extract key information related to prostate cancer from free text in electronic health records. The key information that we chose to extract were Gleason, PSA and tumour type. Binary classifiers were used to sort out irrelevant texts, to reduce the complexity for the information extraction. We tried different classifiers and methods to extract information. The information extraction method which turned out to be the best was named entity recognition (NER). Another important part of the project was to map the care pathway and data-flow within prostate cancer.

To build our algorithms, we mainly used the open source library for text processing called Spacy. The classifiers with the overall best performance were random forest (F-score in average 0.978) and Swedish Spacy CNN (F-score in average 0.965). For the named entity recognition, we used Swedish Spacy CNN and Swedish BERT. The Swedish Spacy CNN in average got F-score of 0.915 while the Swedish BERT got 0.922.

In the final and best pipeline, we combined one binary classifier (prostate cancer related or not) with the Spacy CNN NER and got F-score of 0.911. (Less)
Popular Abstract (Swedish)
Naturlig språkbehandling och prostatacancer

Naturlig språkbehandling är ett område inom maskininlärning för att förstå och generera text och tal. I detta arbete använder vi naturlig språkbehandling på patientjournaltexter relaterade till prostatacancer, för att klassificera dem samt extrahera relevant information.

Prostatacancer är den vanligaste typen av cancer bland män och varje år dör 2400 i sjukdomen. Vårdflödet för prostatacancer är komplext och innefattar många olika steg. Risken att insjukna i prostatacancer ökar drastiskt med åldern och vid 80 års ålder har 1/5 män sjukdomen. Med en befolkning som blir äldre, kommer allt fler få sjukdomen och vårdbehovet kommer att öka. Med en redan pressad sjukvård, är digitalisering... (More)
Naturlig språkbehandling och prostatacancer

Naturlig språkbehandling är ett område inom maskininlärning för att förstå och generera text och tal. I detta arbete använder vi naturlig språkbehandling på patientjournaltexter relaterade till prostatacancer, för att klassificera dem samt extrahera relevant information.

Prostatacancer är den vanligaste typen av cancer bland män och varje år dör 2400 i sjukdomen. Vårdflödet för prostatacancer är komplext och innefattar många olika steg. Risken att insjukna i prostatacancer ökar drastiskt med åldern och vid 80 års ålder har 1/5 män sjukdomen. Med en befolkning som blir äldre, kommer allt fler få sjukdomen och vårdbehovet kommer att öka. Med en redan pressad sjukvård, är digitalisering nödvändigt för att förenkla för sjukvårdspersonal. Ett verktyg som kan användas är kliniska beslutsstöd. De kan implementeras med hjälp av naturlig språkbehandling, för att på ett strukturerat sätt visa patientens sjukdomsinformation.

Syftet med vårt projekt var att göra ett proof of concept. Detta för att se om det var möjligt att extrahera nyckelinformation kopplat till prostatacancer från löpande text. Vårt arbete inleddes med en litteraturstudie och intervjuer för att kartlägga vårdprocessen för prostatacancer. Vi lade fokus på att förstå vad som händer i de olika stegen samt hur data lagras. Parallellt med det här började vi implementera vårt program. För att kunna träna maskininlärningsalgoritmen använde vi data från journaltexter kopplade till prostatacancer. Vi valde ut tre olika värden som skulle extraheras från texterna. I det första steget tränades klassificerare för att ta bort irrelevanta texter (som ej är kopplade till prostatacancer). Därefter implementerades en maskininlärningsmetod för att hitta och extrahera de valda värdena. Detta kallas för named entity recognition (NER). Vi testade olika modeller för både klassificerare och NER för att se vilken som gav bäst resultat.

Klassificeringen blev bäst då vi använde en modell vid namn random forest med F-score på 0,978. För NER blev resultatet bäst då vi använde språkmodellen BERT som var förtränad på svensk text. Då blev F-score 0,922. För att bygga vår slutliga arkitetektur kombinerades en klassificerare med tre olika NER, se bild nedan. Detta gav en F-score på 0,911. Jämfört med andra projekt inom samma område är detta ett väldigt bra resultat. (Less)
Please use this url to cite or link to this publication:
author
Nilsson, Amanda LU and Samnegård, Lina LU
supervisor
organization
alternative title
Naturlig språkbehandling av patientjournaler till kliniskt beslutsstöd
course
BMEM01 20211
year
type
H2 - Master's Degree (Two Years)
subject
keywords
Natural language processing, Machine learning, Prostate cancer, Named entity recognition, BERT
language
English
additional info
2021-09
id
9055805
date added to LUP
2021-06-21 12:57:39
date last changed
2021-06-21 12:57:39
@misc{9055805,
  abstract     = {{In Sweden, prostate cancer is the most common type of cancer among men. The care need within prostate cancer will get higher as the population increases and gets older. With this in mind, there is a need to streamline the care pathway. One way to do this is with a clinical decision support system. Here natural language processing (NLP) plays an important role to handle the big amount of free text data. 

In this project, we used NLP, more specific text classification and information extraction. The task was to extract key information related to prostate cancer from free text in electronic health records. The key information that we chose to extract were Gleason, PSA and tumour type. Binary classifiers were used to sort out irrelevant texts, to reduce the complexity for the information extraction. We tried different classifiers and methods to extract information. The information extraction method which turned out to be the best was named entity recognition (NER). Another important part of the project was to map the care pathway and data-flow within prostate cancer. 

To build our algorithms, we mainly used the open source library for text processing called Spacy. The classifiers with the overall best performance were random forest (F-score in average 0.978) and Swedish Spacy CNN (F-score in average 0.965). For the named entity recognition, we used Swedish Spacy CNN and Swedish BERT. The Swedish Spacy CNN in average got F-score of 0.915 while the Swedish BERT got 0.922. 

In the final and best pipeline, we combined one binary classifier (prostate cancer related or not) with the Spacy CNN NER and got F-score of 0.911.}},
  author       = {{Nilsson, Amanda and Samnegård, Lina}},
  language     = {{eng}},
  note         = {{Student Paper}},
  title        = {{Natural Language Processing for Patient Data in Clinical Decision Support Systems}},
  year         = {{2021}},
}