Exploring Deep Learning Approaches to Cleft Lip and Palate Speech

Mamedov, Tofig; Bluhme, Joel

Exploring Deep Learning Approaches to Cleft Lip and Palate Speech

Mark

Mamedov, Tofig ^LU and Bluhme, Joel (2021) In Master's Thesis in Mathematical Sciences FMSM01 20211
Mathematical Statistics

Abstract: Cleft lip and palate belong to the most common deformities present at birth. The condition hampers normal speech development in children, and treatment involves both surgery and regular sessions with a speech pathologist. The speech pathologist assesses the child’s speech impairment stemming from the condition on a three-point scale: "Competent", "Marginally incompetent" and "Incompetent" and the rating forms a basis for future treatment decisions. This procedure is time and resource intensive since close examination of the entire recording is necessary for an accurate aggregate rating. Furthermore, field experience is that the assigned rating for a singular recording can be biased and the ratings from different speech pathologists are... (More); Cleft lip and palate belong to the most common deformities present at birth. The condition hampers normal speech development in children, and treatment involves both surgery and regular sessions with a speech pathologist. The speech pathologist assesses the child’s speech impairment stemming from the condition on a three-point scale: "Competent", "Marginally incompetent" and "Incompetent" and the rating forms a basis for future treatment decisions. This procedure is time and resource intensive since close examination of the entire recording is necessary for an accurate aggregate rating. Furthermore, field experience is that the assigned rating for a singular recording can be biased and the ratings from different speech pathologists are inconsistent.

In this thesis, deep learning methods are used to classify audio recordings of children into the three categories. The ambition of this undertaking is to rid the classification of bias and provide speech pathologists with a consistent baseline rating. Different steps in the pre-processing of speech therapy recordings are explored to transform the raw audio input into meaningful information for a neural network. The best performing network structure was a convolutional neural network model and it manages to classify recordings with a 89.76% accuracy by using Mel-spectrograms on 0.2 seconds of pre-processed audio segments. Recommendations about further work is discussed with the end goal of developing a fully automatic classifier with appropriate data gathering methods. (Less)
Popular Abstract (Swedish): I detta projekt föreslås en automatiserad metod för att bedöma talförmågan hos barn med läpp, käk- och gomspalt på en tregradig skala. Genom djupinlärningsmetoder uppnås en träffsäkerhet upp mot 90% vid varje enskild bedömning. Läpp, käk- och gomspalt hör till en av dem vanligaste missbildningarna som kan uppstå under graviditeten, det som händer är att ansiktets olika delar inte sammanslutits på korrekt sätt och därav lämnat en spalt i antingen läppen, käken, gommen eller flera av dem samtidigt. I Sverige föds varje år runt 200 barn med tillståndet, vilket motsvarar 1 födsel på 500. Tillståndet innebär talsvårigheter då barnet bl.a.
uttalar meningar och ord med en kraftig hypernasalitet eller har svårigheter att uttala vissa konsonanter... (More); I detta projekt föreslås en automatiserad metod för att bedöma talförmågan hos barn med läpp, käk- och gomspalt på en tregradig skala. Genom djupinlärningsmetoder uppnås en träffsäkerhet upp mot 90% vid varje enskild bedömning. Läpp, käk- och gomspalt hör till en av dem vanligaste missbildningarna som kan uppstå under graviditeten, det som händer är att ansiktets olika delar inte sammanslutits på korrekt sätt och därav lämnat en spalt i antingen läppen, käken, gommen eller flera av dem samtidigt. I Sverige föds varje år runt 200 barn med tillståndet, vilket motsvarar 1 födsel på 500. Tillståndet innebär talsvårigheter då barnet bl.a.
uttalar meningar och ord med en kraftig hypernasalitet eller har svårigheter att uttala vissa konsonanter såsom /k/, /t/ och /p/ då luften lämnar via näsan p.g.a. spalten och förhindrar uppbyggnad av trycket i munnen som krävs vid korrekt uttal. Behandling innebär i de flesta fall
en kombination av kirurgiska ingrepp och regelbundna träffar med en logoped för att träna upp talförmågan. Barnet träffar logopeden regelbundet och i deras sessioner får barnet säga eller upprepa vissa specifika fraser som kan påvisa grad av talsvårighet, givet läpp, käk- och gomspalt. Logopeden bedömer sedan talet på en tregradig skala som är en av faktorerna vid
hänsyn till vidare behandling. Problemställningen är att den mänskliga bedömningen kräver tid och har visat sig präglas av partiskhet och varians vid bedömning av samma barn, hos olika logopeder. En automatiserad lösning skulle bli kvitt båda problemen och ge logopederna en opartisk bedömning som de kan ta hänsyn till, men även fria upp tidskrävande resurser som kan
användas på annat håll vid behandlingen.

Djupinlärningsmetoder har på senare tid använts med stora framgångar vid modellering av röst och tal. Det är en automatiserad lösning som givet tillgänglig data kan upptäcka skillnader mellan de tre kategorierna genom igenkänning av påvisande mönster i datan. För modelleringen finns tillgång till 138 ljudinspelningar av sessionerna mellan barn och logoped. Datan förprocesserades genom att filtrera ut tysta och icke-tal sekvenser för inspelningen. Sedan separerades barnets och logopedens röster för att ge djupinlärningen renare data, innehållandes av endast barnets röst till så hög grad som möjligt. På kvarvarande sekvenser extraherades mel-spektrogrammet på 200ms intervall i bildform, vilket sedan blev nätverkets input data. Nätverksarkitekturen bestod för det mesta av s.k. Convolutional Layers som är bäst lämpade för att hitta struktur och mönster i bilddata. Denna lösning gav en träffsäkerhet på upp mot 90 % och siffran verifierades genom att slumpa träning- och valideringsdata tio gånger och
träna tio separata modeller. Slutresultatet är ett medelvärde på alla tio körningar för att undvika ett förhöjt resultat orsakat av slumpen i valideringsdatan.

Med detta resultat påvisas att en automatiserad lösning är möjlig och riktlinjer för vidareutveckling av modellen ligger i ytterligare förfining av datan genom att standardisera insamlingen. Om inspelningarna endast skulle inneha de mest indikativa fraserna för läpp, käk- och gomspalt i samma ordning kan bättre och robustare resultat uppnås. Förhoppningen är att detta arbete kommer att ligga till grund för en serie av liknande projekt som vidareutvecklar dessa resultat för att slutligen nå en bättre behandlingsprocess för läpp, käk- och gomspalt som drar nytta av de senaste innovationerna inom djupinlärning. (Less)

Please use this url to cite or link to this publication: http://lup.lub.lu.se/student-papers/record/9068210

author

Mamedov, Tofig ^LU and Bluhme, Joel

supervisor

Andreas Jakobsson ^LU

organization

Mathematical Statistics

alternative title

Tal-modellering med djupinlärning hos barn med läpp, käk- och gomspalt

course

FMSM01 20211

year

2021

type

H2 - Master's Degree (Two Years)

subject

Mathematics and Statistics

keywords

Cleft Lip, Cleft Palate, Speech, CNN, RNN, LSTM, Deep Learning

publication/series

Master's Thesis in Mathematical Sciences

report number

LUTFMS-3434-2021

ISSN

1404-6342

other publication id

2021:E69

language

English

id

9068210

date added to LUP

2021-11-18 09:44:14

date last changed

2022-02-02 16:21:03

@misc{9068210,
  abstract     = {{Cleft lip and palate belong to the most common deformities present at birth. The condition hampers normal speech development in children, and treatment involves both surgery and regular sessions with a speech pathologist. The speech pathologist assesses the child’s speech impairment stemming from the condition on a three-point scale: "Competent", "Marginally incompetent" and "Incompetent" and the rating forms a basis for future treatment decisions. This procedure is time and resource intensive since close examination of the entire recording is necessary for an accurate aggregate rating. Furthermore, field experience is that the assigned rating for a singular recording can be biased and the ratings from different speech pathologists are inconsistent.

In this thesis, deep learning methods are used to classify audio recordings of children into the three categories. The ambition of this undertaking is to rid the classification of bias and provide speech pathologists with a consistent baseline rating. Different steps in the pre-processing of speech therapy recordings are explored to transform the raw audio input into meaningful information for a neural network. The best performing network structure was a convolutional neural network model and it manages to classify recordings with a 89.76% accuracy by using Mel-spectrograms on 0.2 seconds of pre-processed audio segments. Recommendations about further work is discussed with the end goal of developing a fully automatic classifier with appropriate data gathering methods.}},
  author       = {{Mamedov, Tofig and Bluhme, Joel}},
  issn         = {{1404-6342}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Master's Thesis in Mathematical Sciences}},
  title        = {{Exploring Deep Learning Approaches to Cleft Lip and Palate Speech}},
  year         = {{2021}},
}

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Exploring Deep Learning Approaches to Cleft Lip and Palate Speech