Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Improving Skin Tumour delineation by Optimising Clustering and Training Data Selection

Andersson, Elin LU (2025) FYSK04 20251
Department of Physics
Abstract
Due to the increasing incidence rates of skin cancer, there is an urgent need for novel technologies that can improve diagnostic accuracy and patient outlook. In a previous study, a machine learning model was developed to automatically delineate skin tumours from non-invasive hyperspectral images. However, the reliability of the model was undermined by difficulties with a preprocessing step in which the approximate location of the tumour was found via clustering. Failure to correctly identify the tumour resulted in incorrect annotation of data subsequently used for training the machine learning model. In these cases, the initial error obtained from the clustering propagated throughout the subsequent parts of the pipeline, ultimately... (More)
Due to the increasing incidence rates of skin cancer, there is an urgent need for novel technologies that can improve diagnostic accuracy and patient outlook. In a previous study, a machine learning model was developed to automatically delineate skin tumours from non-invasive hyperspectral images. However, the reliability of the model was undermined by difficulties with a preprocessing step in which the approximate location of the tumour was found via clustering. Failure to correctly identify the tumour resulted in incorrect annotation of data subsequently used for training the machine learning model. In these cases, the initial error obtained from the clustering propagated throughout the subsequent parts of the pipeline, ultimately causing incorrect final tumour size predictions. This thesis investigates possible improvements of the clustering procedure for approximating the location of the tumour. Specifically, it evaluates three different methods for selecting the correct tumour cluster, examines to what extent the validity of a clustering can be judged by computing silhouette coefficients, investigates and compares the performance of different clustering algorithms, assesses the impact of adding spatial or radial data prior to clustering. The clustering performance improved most significantly when the radial data was incorporated. Despite improvements in the final prediction of the tumour size, the most challenging sample continued to underestimate the tumour size even after correct initial clusters were obtained. This indicates that additional issues likely arise in a subsequent part of the pipeline, possibly in the method that was used to select and annotate the training data from the clustering result. (Less)
Popular Abstract (Swedish)
Föreställ dig att inga fler människor ska behöva dö av cancer. Det låter som en utopi, men med hjälp av ny teknik kommer diagnosticering och behandling av cancer att förbättras avsevärt och fler människor kunna hjälpas. Redan nu klarar maskininlärning av att diagnostisera bröstcancer med större träffsäkerhet än vad erfarna radiologer kan. Det är inte bara bröstcancervården som kommer kunna dra nytta av tekniken, även för hudcancer kommer stora framsteg kunna åstadkommas. En stor svårighet vid behandlingen av hudcancer är att tumören inte fullständigt tas bort, vilket markant försämrar patientens prognos. Därför utvecklas just nu maskininlärningsmodeller som med noggrannhet ska kunna förutsäga tumörens exakta position på mycket kortare tid... (More)
Föreställ dig att inga fler människor ska behöva dö av cancer. Det låter som en utopi, men med hjälp av ny teknik kommer diagnosticering och behandling av cancer att förbättras avsevärt och fler människor kunna hjälpas. Redan nu klarar maskininlärning av att diagnostisera bröstcancer med större träffsäkerhet än vad erfarna radiologer kan. Det är inte bara bröstcancervården som kommer kunna dra nytta av tekniken, även för hudcancer kommer stora framsteg kunna åstadkommas. En stor svårighet vid behandlingen av hudcancer är att tumören inte fullständigt tas bort, vilket markant försämrar patientens prognos. Därför utvecklas just nu maskininlärningsmodeller som med noggrannhet ska kunna förutsäga tumörens exakta position på mycket kortare tid än vad nuvarande metoder kräver. Förhoppningsvis kommer detta leda till en signifikant ökning av antalet lyckade borttagningar av hudcancer.

Men vad är egentligen maskininlärning? Det handlar om algoritmer som kan lära sig att känna igen olika mönster. Modellen kan lära sig genom att analysera en datapunkt tillsammans med det önskade resultatet för den datapunkten. Detta kan liknas vid hur man lärde sig glosor i skolan. Till skillnad från elever så förväntas modellen inte enbart kunna de glosorna som den pluggat på, utan även helt nya, genom den 'intuition' som den byggt upp genom träningen. Det har redan tagits fram en maskininlärningsmodell för att hitta konturerna av en tumör. Tyvärr, gav modellen felaktiga förutsägelser för vissa av tumörproverna. En maskininlärningsmodell som inte är träffsäkert kan i praktiken bli oanvändbar, därför undersöktes vad som orsakade de felaktiga förutsägelserna. Problematiken ansågs uppstå i ett steg som bestämde vilken data som modellen skulle träna på, som kallas klustringen.

Klustring är inget klurigt, det är precis som att sortera saker. Det finns flera olika sätt man kan sortera exempelvis strumpor, men det finns oftast bara ett sätt som är bäst. För strumpor vill man att ett par av samma färg och längd ska vara tillsammans, likaså vill man att alla celler som tillhör tumören ska vara skilda från den friska huden efter klustringen. Problemet har varit att klustringen i vissa fall delade tumörer i för många bitar eller inte hittade den alls. För sorteringen spelar det kanske inte så stor roll om en röd strumpa parades med en lila, men för maskininlärningsmodellen kan det jämföras med att plugga på fel språkglossor inför provet. Till följd av detta blev förutsägelsen från modellen undermålig.

För att komma till rätta med problemet undersöktes flera olika metoder för att förbättra klustringen i min studie. En lovande förbättring visade sig vara att inkludera radien från mittpunkten av hudbiten med tumören under klustringen. Detta resulterade i att korrekta kluster skapades. Däremot, förbättrades inte förutsägelsen från modellen tillräckligt mycket för att säga att problemet blivit åtgärdat, vilket indikerar att problemet orsakades av mer än bara klustringen. Därför behövs ett nytt tillvägagångssätt för att välja ut datan efter klustringen tas fram för att kunna förbättra modellens prestanda ytterligare.

Efter att problematiken kommit tillrätta, kommer ett verktyg kunna skapas som kan bestämma konturerna av en tumör. Detta kommer förhoppningsvis kunna hjälpa kirurger att ta bort hela tumören direkt och därmed förbättra prognoserna för patienterna. Maskininlärning är inte ensam nyckeln till att få världen fri från cancer, men med hjälp av denna nya teknik kommer vi att komma ett steg på vägen. (Less)
Please use this url to cite or link to this publication:
author
Andersson, Elin LU
supervisor
organization
course
FYSK04 20251
year
type
M2 - Bachelor Degree
subject
keywords
Machine Learning, clustering, tumour delineation, basal cell carcinoma, BCC, SCC, MM, skin cancer, neural network, multilayer perceptron, MLP, artificial intelligence, AI
language
English
id
9209020
date added to LUP
2025-08-06 09:02:41
date last changed
2025-08-06 09:02:41
@misc{9209020,
  abstract     = {{Due to the increasing incidence rates of skin cancer, there is an urgent need for novel technologies that can improve diagnostic accuracy and patient outlook. In a previous study, a machine learning model was developed to automatically delineate skin tumours from non-invasive hyperspectral images. However, the reliability of the model was undermined by difficulties with a preprocessing step in which the approximate location of the tumour was found via clustering. Failure to correctly identify the tumour resulted in incorrect annotation of data subsequently used for training the machine learning model. In these cases, the initial error obtained from the clustering propagated throughout the subsequent parts of the pipeline, ultimately causing incorrect final tumour size predictions. This thesis investigates possible improvements of the clustering procedure for approximating the location of the tumour. Specifically, it evaluates three different methods for selecting the correct tumour cluster, examines to what extent the validity of a clustering can be judged by computing silhouette coefficients, investigates and compares the performance of different clustering algorithms, assesses the impact of adding spatial or radial data prior to clustering. The clustering performance improved most significantly when the radial data was incorporated. Despite improvements in the final prediction of the tumour size, the most challenging sample continued to underestimate the tumour size even after correct initial clusters were obtained. This indicates that additional issues likely arise in a subsequent part of the pipeline, possibly in the method that was used to select and annotate the training data from the clustering result.}},
  author       = {{Andersson, Elin}},
  language     = {{eng}},
  note         = {{Student Paper}},
  title        = {{Improving Skin Tumour delineation by Optimising Clustering and Training Data Selection}},
  year         = {{2025}},
}