Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Multiple Enrollments and Neural Back-End Modeling for Automatic Speaker Verification

Paulsson, Aron LU and Onshage, Torbjörn LU (2025) In Master's Thesis in Mathematical Sciences FMSM01 20242
Mathematical Statistics
Abstract
This thesis explores advancements in Automatic Speaker Verification (ASV) by examining the impact of multiple speaker enrollments and introducing Adaptive Neural Probabilistic Linear Discriminant Analysis (Adaptive NPLDA). Modern ASV combines front-end feature extraction, using state-of-the-art methods based on Deep Neural Networks (DNNs), such as the ReDimNet architectures, with back-end modeling used to differentiate between speakers based on the extracted features. This study evaluates the performance of models trained primarily on English datasets when applied to Swedish datasets under various noise conditions and enrollment configurations.

The analysis demonstrates that splitting longer enrollments into multiple shorter ones... (More)
This thesis explores advancements in Automatic Speaker Verification (ASV) by examining the impact of multiple speaker enrollments and introducing Adaptive Neural Probabilistic Linear Discriminant Analysis (Adaptive NPLDA). Modern ASV combines front-end feature extraction, using state-of-the-art methods based on Deep Neural Networks (DNNs), such as the ReDimNet architectures, with back-end modeling used to differentiate between speakers based on the extracted features. This study evaluates the performance of models trained primarily on English datasets when applied to Swedish datasets under various noise conditions and enrollment configurations.

The analysis demonstrates that splitting longer enrollments into multiple shorter ones significantly improves performance, particularly in noisy environments. Adaptive NPLDA is proposed as an enhancement over traditional PLDA variants, enabling flexible and efficient modeling across diverse enrollment scenarios. Comparative results show that Adaptive NPLDA outperforms conventional PLDA and cosine similarity in multi-enrollment settings, with cosine similarity excelling only in single-enrollment cases. The study underscores the critical role of back-end modeling in optimizing ASV systems for real-world applications, providing insights into improving robustness and generalizability across languages and acoustic conditions. (Less)
Popular Abstract (Swedish)
Tänk dig en värld där din röst är nyckeln till allt – från att låsa upp dörrar till att logga in på ditt bankkonto. Denna teknik, kallad röstverifiering, används redan i stor skala för att identifiera personer genom unika egenskaper i deras röst. Men tekniken har sina begränsningar. Bullriga miljöer, korta inspelningar och språkliga skillnader kan göra systemen mindre pålitliga. Hur kan robustheten av röstverifieringssystem förbättras mot yttre störningar?

I röstverifiering sker processen i två steg. Först extraheras ett slags "fingeravtryck" av rösten från ljudsignalen, och sedan jämförs två eller flera röstfingeravtryck i ett andra steg för att avgör om två talare matchar. Historiskt har detta skett med statistiska metoder. Under de... (More)
Tänk dig en värld där din röst är nyckeln till allt – från att låsa upp dörrar till att logga in på ditt bankkonto. Denna teknik, kallad röstverifiering, används redan i stor skala för att identifiera personer genom unika egenskaper i deras röst. Men tekniken har sina begränsningar. Bullriga miljöer, korta inspelningar och språkliga skillnader kan göra systemen mindre pålitliga. Hur kan robustheten av röstverifieringssystem förbättras mot yttre störningar?

I röstverifiering sker processen i två steg. Först extraheras ett slags "fingeravtryck" av rösten från ljudsignalen, och sedan jämförs två eller flera röstfingeravtryck i ett andra steg för att avgör om två talare matchar. Historiskt har detta skett med statistiska metoder. Under de senaste åren har flera metoder baserade på djupa neurala nätverk och maskininlärning utvecklats vilket bland annat har påverkat hur jämförelsen i slutskedet utförs.

I vårt arbete har vi tittat på tre saker, först hur extraherande av röstfingeravtrycket påverkas av pålagt brus av olika typer och intensitet för att bättre förstå hur väl metoden fungerar i realistiska situationer. Vidare har vi granskat hur informationen i ett ljudklipp kan användas på bästa sätt, är det exempelvis fördelaktigt att extrahera flera röstfingeravtryck genom att dela upp ett ljudklipp i flera kortare klipp? Slutligen har vi undersökt flera olika metoder för att avgöra om två eller flera röstfingeravtryck matchar och där har vi även byggt på tidigare metoder för att presentera en egen metod, "Adaptiv NPLDA".

En av de största utmaningarna för röstigenkänning är bakgrundsljud. Våra experiment visade att ljud med andra röster i bakgrunden är särskilt problematiskt, då det stör systemens förmåga att identifiera den primära rösten. Däremot påverkar vitt brus och instrumental musik resultaten betydligt mindre. Genom att dela upp längre inspelningar till flera kortare inspelningar från samma person kan modellen utnyttja information bättre och leverera högre träffsäkerhet, framför allt under svåra förhållanden då vi ser en förbättring av klassificering på upp till 30 procentenheter. Den introducerade "Adaptiv NPLDA" bygger vidare på tidigare metoder som implementerar klassiska metoder för slutjämförelsen med neurala nätverk. Det nya med Adaptiv NPLDA är att metoden kan utnyttja information från flera röstfingeravtryck per talare, istället för att vara begränsad till ett röstfingeravtryck, som var fallet innan. Resultaten från rapporten visar också att Adaptiv NPLDA får den bästa prestandan då flera röstfingeravtryck används.

De praktiska tillämpningarna är många. Föreställ dig ett säkerhetssystem som kan identifiera dig utan att påverkas av bakgrundsljud, eller en röststyrd enhet som fungerar lika bra i ett livligt kök som i ett tyst sovrum. Robust röstverifiering öppnar också för nya möjligheter inom rättsmedicin, där noggrann röstigenkänning kan användas för att analysera inspelningar i utredningar. Slutsatsen är tydlig: genom att kombinera innovativa metoder med smart hantering av röstdata kan vi göra röstverifiering till en ännu mer pålitlig och användbar teknik – oavsett om det är i hemmet, på arbetsplatsen eller i rättssalen. (Less)
Please use this url to cite or link to this publication:
author
Paulsson, Aron LU and Onshage, Torbjörn LU
supervisor
organization
alternative title
Parallell uppdelning och neural modellering av tal för automatisk talarverifiering
course
FMSM01 20242
year
type
H2 - Master's Degree (Two Years)
subject
keywords
Automatic Speaker Verification (ASV), Neural Probabilistic Linear Discriminant Analysis, ReDimNet, X-Vectors, Speaker Embeddings, Noise Robustness, Swedish Dataset Evaluation
publication/series
Master's Thesis in Mathematical Sciences
report number
LUTFMS-3517--2025
ISSN
1404-6342
other publication id
2025:E29
language
English
id
9190843
date added to LUP
2025-06-02 16:04:24
date last changed
2025-06-02 16:04:24
@misc{9190843,
  abstract     = {{This thesis explores advancements in Automatic Speaker Verification (ASV) by examining the impact of multiple speaker enrollments and introducing Adaptive Neural Probabilistic Linear Discriminant Analysis (Adaptive NPLDA). Modern ASV combines front-end feature extraction, using state-of-the-art methods based on Deep Neural Networks (DNNs), such as the ReDimNet architectures, with back-end modeling used to differentiate between speakers based on the extracted features. This study evaluates the performance of models trained primarily on English datasets when applied to Swedish datasets under various noise conditions and enrollment configurations.

The analysis demonstrates that splitting longer enrollments into multiple shorter ones significantly improves performance, particularly in noisy environments. Adaptive NPLDA is proposed as an enhancement over traditional PLDA variants, enabling flexible and efficient modeling across diverse enrollment scenarios. Comparative results show that Adaptive NPLDA outperforms conventional PLDA and cosine similarity in multi-enrollment settings, with cosine similarity excelling only in single-enrollment cases. The study underscores the critical role of back-end modeling in optimizing ASV systems for real-world applications, providing insights into improving robustness and generalizability across languages and acoustic conditions.}},
  author       = {{Paulsson, Aron and Onshage, Torbjörn}},
  issn         = {{1404-6342}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Master's Thesis in Mathematical Sciences}},
  title        = {{Multiple Enrollments and Neural Back-End Modeling for Automatic Speaker Verification}},
  year         = {{2025}},
}