Multiple Enrollments and Neural Back-End Modeling for Automatic Speaker Verification

Paulsson, Aron; Onshage, Torbjörn

Multiple Enrollments and Neural Back-End Modeling for Automatic Speaker Verification

Mark

Paulsson, Aron ^LU and Onshage, Torbjörn ^LU (2025) In Master's Thesis in Mathematical Sciences FMSM01 20242
Mathematical Statistics

Abstract: This thesis explores advancements in Automatic Speaker Verification (ASV) by examining the impact of multiple speaker enrollments and introducing Adaptive Neural Probabilistic Linear Discriminant Analysis (Adaptive NPLDA). Modern ASV combines front-end feature extraction, using state-of-the-art methods based on Deep Neural Networks (DNNs), such as the ReDimNet architectures, with back-end modeling used to differentiate between speakers based on the extracted features. This study evaluates the performance of models trained primarily on English datasets when applied to Swedish datasets under various noise conditions and enrollment configurations.

The analysis demonstrates that splitting longer enrollments into multiple shorter ones... (More); This thesis explores advancements in Automatic Speaker Verification (ASV) by examining the impact of multiple speaker enrollments and introducing Adaptive Neural Probabilistic Linear Discriminant Analysis (Adaptive NPLDA). Modern ASV combines front-end feature extraction, using state-of-the-art methods based on Deep Neural Networks (DNNs), such as the ReDimNet architectures, with back-end modeling used to differentiate between speakers based on the extracted features. This study evaluates the performance of models trained primarily on English datasets when applied to Swedish datasets under various noise conditions and enrollment configurations.

The analysis demonstrates that splitting longer enrollments into multiple shorter ones significantly improves performance, particularly in noisy environments. Adaptive NPLDA is proposed as an enhancement over traditional PLDA variants, enabling flexible and efficient modeling across diverse enrollment scenarios. Comparative results show that Adaptive NPLDA outperforms conventional PLDA and cosine similarity in multi-enrollment settings, with cosine similarity excelling only in single-enrollment cases. The study underscores the critical role of back-end modeling in optimizing ASV systems for real-world applications, providing insights into improving robustness and generalizability across languages and acoustic conditions. (Less)
Popular Abstract (Swedish): Tänk dig en värld där din röst är nyckeln till allt – från att låsa upp dörrar till att logga in på ditt bankkonto. Denna teknik, kallad röstverifiering, används redan i stor skala för att identifiera personer genom unika egenskaper i deras röst. Men tekniken har sina begränsningar. Bullriga miljöer, korta inspelningar och språkliga skillnader kan göra systemen mindre pålitliga. Hur kan robustheten av röstverifieringssystem förbättras mot yttre störningar?

I röstverifiering sker processen i två steg. Först extraheras ett slags "fingeravtryck" av rösten från ljudsignalen, och sedan jämförs två eller flera röstfingeravtryck i ett andra steg för att avgör om två talare matchar. Historiskt har detta skett med statistiska metoder. Under de... (More); Tänk dig en värld där din röst är nyckeln till allt – från att låsa upp dörrar till att logga in på ditt bankkonto. Denna teknik, kallad röstverifiering, används redan i stor skala för att identifiera personer genom unika egenskaper i deras röst. Men tekniken har sina begränsningar. Bullriga miljöer, korta inspelningar och språkliga skillnader kan göra systemen mindre pålitliga. Hur kan robustheten av röstverifieringssystem förbättras mot yttre störningar?

I röstverifiering sker processen i två steg. Först extraheras ett slags "fingeravtryck" av rösten från ljudsignalen, och sedan jämförs två eller flera röstfingeravtryck i ett andra steg för att avgör om två talare matchar. Historiskt har detta skett med statistiska metoder. Under de senaste åren har flera metoder baserade på djupa neurala nätverk och maskininlärning utvecklats vilket bland annat har påverkat hur jämförelsen i slutskedet utförs.

I vårt arbete har vi tittat på tre saker, först hur extraherande av röstfingeravtrycket påverkas av pålagt brus av olika typer och intensitet för att bättre förstå hur väl metoden fungerar i realistiska situationer. Vidare har vi granskat hur informationen i ett ljudklipp kan användas på bästa sätt, är det exempelvis fördelaktigt att extrahera flera röstfingeravtryck genom att dela upp ett ljudklipp i flera kortare klipp? Slutligen har vi undersökt flera olika metoder för att avgöra om två eller flera röstfingeravtryck matchar och där har vi även byggt på tidigare metoder för att presentera en egen metod, "Adaptiv NPLDA".

En av de största utmaningarna för röstigenkänning är bakgrundsljud. Våra experiment visade att ljud med andra röster i bakgrunden är särskilt problematiskt, då det stör systemens förmåga att identifiera den primära rösten. Däremot påverkar vitt brus och instrumental musik resultaten betydligt mindre. Genom att dela upp längre inspelningar till flera kortare inspelningar från samma person kan modellen utnyttja information bättre och leverera högre träffsäkerhet, framför allt under svåra förhållanden då vi ser en förbättring av klassificering på upp till 30 procentenheter. Den introducerade "Adaptiv NPLDA" bygger vidare på tidigare metoder som implementerar klassiska metoder för slutjämförelsen med neurala nätverk. Det nya med Adaptiv NPLDA är att metoden kan utnyttja information från flera röstfingeravtryck per talare, istället för att vara begränsad till ett röstfingeravtryck, som var fallet innan. Resultaten från rapporten visar också att Adaptiv NPLDA får den bästa prestandan då flera röstfingeravtryck används.

De praktiska tillämpningarna är många. Föreställ dig ett säkerhetssystem som kan identifiera dig utan att påverkas av bakgrundsljud, eller en röststyrd enhet som fungerar lika bra i ett livligt kök som i ett tyst sovrum. Robust röstverifiering öppnar också för nya möjligheter inom rättsmedicin, där noggrann röstigenkänning kan användas för att analysera inspelningar i utredningar. Slutsatsen är tydlig: genom att kombinera innovativa metoder med smart hantering av röstdata kan vi göra röstverifiering till en ännu mer pålitlig och användbar teknik – oavsett om det är i hemmet, på arbetsplatsen eller i rättssalen. (Less)

Please use this url to cite or link to this publication: http://lup.lub.lu.se/student-papers/record/9190843

author

Paulsson, Aron ^LU and Onshage, Torbjörn ^LU

supervisor

Andreas Jakobsson ^LU

organization

Mathematical Statistics

alternative title

Parallell uppdelning och neural modellering av tal för automatisk talarverifiering

course

FMSM01 20242

year

2025

type

H2 - Master's Degree (Two Years)

subject

Technology and Engineering

keywords

Automatic Speaker Verification (ASV), Neural Probabilistic Linear Discriminant Analysis, ReDimNet, X-Vectors, Speaker Embeddings, Noise Robustness, Swedish Dataset Evaluation

publication/series

Master's Thesis in Mathematical Sciences

report number

LUTFMS-3517--2025

ISSN

1404-6342

other publication id

2025:E29

language

English

id

9190843

date added to LUP

2025-06-02 16:04:24

date last changed

2025-06-02 16:04:24

@misc{9190843,
  abstract     = {{This thesis explores advancements in Automatic Speaker Verification (ASV) by examining the impact of multiple speaker enrollments and introducing Adaptive Neural Probabilistic Linear Discriminant Analysis (Adaptive NPLDA). Modern ASV combines front-end feature extraction, using state-of-the-art methods based on Deep Neural Networks (DNNs), such as the ReDimNet architectures, with back-end modeling used to differentiate between speakers based on the extracted features. This study evaluates the performance of models trained primarily on English datasets when applied to Swedish datasets under various noise conditions and enrollment configurations.

The analysis demonstrates that splitting longer enrollments into multiple shorter ones significantly improves performance, particularly in noisy environments. Adaptive NPLDA is proposed as an enhancement over traditional PLDA variants, enabling flexible and efficient modeling across diverse enrollment scenarios. Comparative results show that Adaptive NPLDA outperforms conventional PLDA and cosine similarity in multi-enrollment settings, with cosine similarity excelling only in single-enrollment cases. The study underscores the critical role of back-end modeling in optimizing ASV systems for real-world applications, providing insights into improving robustness and generalizability across languages and acoustic conditions.}},
  author       = {{Paulsson, Aron and Onshage, Torbjörn}},
  issn         = {{1404-6342}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Master's Thesis in Mathematical Sciences}},
  title        = {{Multiple Enrollments and Neural Back-End Modeling for Automatic Speaker Verification}},
  year         = {{2025}},
}

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Multiple Enrollments and Neural Back-End Modeling for Automatic Speaker Verification