Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

DETECTION OF RELAPSING VOCAL CORD CANCER USING SIAMESE NEURAL NETWORKS

Stenvall, Viktor LU (2021) In Master's theses in Mathematical Sciences FMSM01 20202
Mathematical Statistics
Abstract
In this thesis, we investigate the possibility of using Siamese Neural Networks to detect voice changes in the voices of patients su↵ering from a recurrence of their vocal cord cancer. In collaboration with VoiceDiagnostic Sweden AB and physicians at Lunds’s University Hospital, models were trained on audio features in order to learn distance measures between recordings, and segments of recordings. The resulting models were able to distinguish whether pairs of recordings came from the same or di↵ering users, with an accuracy of over 90%. The best performing frame level model was the Siamese Neural Network using a contrastive loss function. The best recording level model was the network with a binary cross entropy loss function utilising a... (More)
In this thesis, we investigate the possibility of using Siamese Neural Networks to detect voice changes in the voices of patients su↵ering from a recurrence of their vocal cord cancer. In collaboration with VoiceDiagnostic Sweden AB and physicians at Lunds’s University Hospital, models were trained on audio features in order to learn distance measures between recordings, and segments of recordings. The resulting models were able to distinguish whether pairs of recordings came from the same or di↵ering users, with an accuracy of over 90%. The best performing frame level model was the Siamese Neural Network using a contrastive loss function. The best recording level model was the network with a binary cross entropy loss function utilising a bi-branch input structure. These models obtained AUC scores of 0.950 and 0.979 respectively, on the validation set.
The models were tested on recordings made by four separate users believed to have experienced voice changes during the recording period. Two of the users had had their vocal cord cancer relapse and the others were experiencing gender dysphoria and in the process of altering their voices together with a speech therapist. There was an observable change in the voices of all four patients according to the frame level model. (Less)
Abstract (Swedish)
I denna avhandling undersöker vi möjligheten att använda Siamesiska Neurala Nätverk för att detektera röstförändringar bland patienter som lider av återkommande stämbandscancer. I samarbete med VoiceDiagnostic Sweden AB och läkare vid Lunds Universitetssjukhus konstruerades modeller för att mäta avstånd mellan olika röstinspelningar, samt avstånd mellan mindre segment av röstinspelningar. De resulterande modellerna kunde skilja på om inspelningspar härstammade från samma eller olika användare, med en noggrannhet på över 90%. Den bäst presterande modellen på ramnivå var nätverket med en kontrastförlustfunktion (contrastive loss). Den bästa modellen på inspelningsnivå var nätverket med en binär korsentropiförlustfunktion (binary cross... (More)
I denna avhandling undersöker vi möjligheten att använda Siamesiska Neurala Nätverk för att detektera röstförändringar bland patienter som lider av återkommande stämbandscancer. I samarbete med VoiceDiagnostic Sweden AB och läkare vid Lunds Universitetssjukhus konstruerades modeller för att mäta avstånd mellan olika röstinspelningar, samt avstånd mellan mindre segment av röstinspelningar. De resulterande modellerna kunde skilja på om inspelningspar härstammade från samma eller olika användare, med en noggrannhet på över 90%. Den bäst presterande modellen på ramnivå var nätverket med en kontrastförlustfunktion (contrastive loss). Den bästa modellen på inspelningsnivå var nätverket med en binär korsentropiförlustfunktion (binary cross entropy loss) som använde en grenad struktur. Dessa modeller uppnådde AUC-resultat på 0,950 respektive 0,979 på valideringsdatan.

Modellerna testades på inspelningar gjorda av fyra separata användare. Dessa fyra användare tros ha upplevt röständringar under inspelningsperioden. Två av användarna hade fått återfall av stämbandscancer, och de andra två upplevde könsdysfori och var i färd med att ändra sina röster tillsammans med logoped. Det skedde en observerbar förändring i rösterna hos alla fyra patienterna enligt den bästa ramnivåmodellen. (Less)
Popular Abstract (Swedish)
Vi tränar Siamesiska Neurala Nätverksmodeller på inspelningsdata från hundratals individer, med målet att detektera gradvisa röständringar bland patienter. Modellerna testas på inspelningar från individer med återfall av stämbandscancer och resultaten tyder på en observerbar röstförändring.

Ett av de allra vanligaste symptomen för patienter som lider av stämbandscancer är röstförändringar. Patientens röst har en tendens att bli raspigare i takt med cancerns spridning över stämbanden. Dessa förändringar är så pass påtagliga att de går att använda som diagnosunderlag. Den gradvisa karaktären av röständringarna kan däremot göra det svårt för läkare att höra skillnad mellan en frisk röst och en sjuk röst. Nya tekniker och teknologier gör... (More)
Vi tränar Siamesiska Neurala Nätverksmodeller på inspelningsdata från hundratals individer, med målet att detektera gradvisa röständringar bland patienter. Modellerna testas på inspelningar från individer med återfall av stämbandscancer och resultaten tyder på en observerbar röstförändring.

Ett av de allra vanligaste symptomen för patienter som lider av stämbandscancer är röstförändringar. Patientens röst har en tendens att bli raspigare i takt med cancerns spridning över stämbanden. Dessa förändringar är så pass påtagliga att de går att använda som diagnosunderlag. Den gradvisa karaktären av röständringarna kan däremot göra det svårt för läkare att höra skillnad mellan en frisk röst och en sjuk röst. Nya tekniker och teknologier gör det möjligt att skapa verktyg som kan detektera denna typ av förändringar och på så vis användas som underlag för läkare i både diagnosticerings- och behandlingssyfte. I denna avhandling undersöker vi möjligheten att använda Siamesiska Neurala Nätverk för att detektera röstförändringar bland patienter som lider av återfall av stämbandscancer. I samarbete med VoiceDiagnostic Sweden AB och läkare vid Lunds universitetssjukhus tränades maskininlärningsmodeller till att mäta avstånd mellan inspelningar från patienter, med målet att kunna detektera avvikelser från originaltillståndet av patienternas röster. Genom träning lyckades dessa modeller lära sig en kondenserad representation av inspelningarna som i sin tur kunde användas, dels för att skilja på olika individers inspelningar, men även för att bedöma avstånd mellan inspelningar som härstammade från samma person. De resulterande modellerna lyckades skilja på om par av inspelningar kom från samma eller olika användare, med en noggrannhet på över 90%.

Ett flertal olika variabler, som till exempelvis tonhöjd och AR-parametrar, extraherades från ljudfilerna för att användas som träningsdata för de olika modellerna. Olika modellarkitekturer testades även med syftet att finna den optimala strukturen.

Slutsatsen från arbetet är att det är fullt möjligt att spåra röstförändringar bland individer med hjälp av Siamesiska Neurala Nätverks, och att denna metod även kan appliceras för att detektera röstskillnader bland patienter med återfall av stämbandscancer. (Less)
Please use this url to cite or link to this publication:
author
Stenvall, Viktor LU
supervisor
organization
course
FMSM01 20202
year
type
H2 - Master's Degree (Two Years)
subject
keywords
Siamese Neural Networks, Vocal cord cancer detection, triplet loss
publication/series
Master's theses in Mathematical Sciences
report number
LUTFMS-3414-2021
ISSN
1404-6342
other publication id
2021:E18
language
English
id
9045289
date added to LUP
2021-05-26 13:27:10
date last changed
2021-06-03 14:43:49
@misc{9045289,
  abstract     = {{In this thesis, we investigate the possibility of using Siamese Neural Networks to detect voice changes in the voices of patients su↵ering from a recurrence of their vocal cord cancer. In collaboration with VoiceDiagnostic Sweden AB and physicians at Lunds’s University Hospital, models were trained on audio features in order to learn distance measures between recordings, and segments of recordings. The resulting models were able to distinguish whether pairs of recordings came from the same or di↵ering users, with an accuracy of over 90%. The best performing frame level model was the Siamese Neural Network using a contrastive loss function. The best recording level model was the network with a binary cross entropy loss function utilising a bi-branch input structure. These models obtained AUC scores of 0.950 and 0.979 respectively, on the validation set.
The models were tested on recordings made by four separate users believed to have experienced voice changes during the recording period. Two of the users had had their vocal cord cancer relapse and the others were experiencing gender dysphoria and in the process of altering their voices together with a speech therapist. There was an observable change in the voices of all four patients according to the frame level model.}},
  author       = {{Stenvall, Viktor}},
  issn         = {{1404-6342}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Master's theses in Mathematical Sciences}},
  title        = {{DETECTION OF RELAPSING VOCAL CORD CANCER USING SIAMESE NEURAL NETWORKS}},
  year         = {{2021}},
}