Multiple Enrollments and Neural Back-End Modeling for Automatic Speaker Verification
(2025) In Master's Thesis in Mathematical Sciences FMSM01 20242Mathematical Statistics
- Abstract
- This thesis explores advancements in Automatic Speaker Verification (ASV) by examining the impact of multiple speaker enrollments and introducing Adaptive Neural Probabilistic Linear Discriminant Analysis (Adaptive NPLDA). Modern ASV combines front-end feature extraction, using state-of-the-art methods based on Deep Neural Networks (DNNs), such as the ReDimNet architectures, with back-end modeling used to differentiate between speakers based on the extracted features. This study evaluates the performance of models trained primarily on English datasets when applied to Swedish datasets under various noise conditions and enrollment configurations.
The analysis demonstrates that splitting longer enrollments into multiple shorter ones... (More) - This thesis explores advancements in Automatic Speaker Verification (ASV) by examining the impact of multiple speaker enrollments and introducing Adaptive Neural Probabilistic Linear Discriminant Analysis (Adaptive NPLDA). Modern ASV combines front-end feature extraction, using state-of-the-art methods based on Deep Neural Networks (DNNs), such as the ReDimNet architectures, with back-end modeling used to differentiate between speakers based on the extracted features. This study evaluates the performance of models trained primarily on English datasets when applied to Swedish datasets under various noise conditions and enrollment configurations.
The analysis demonstrates that splitting longer enrollments into multiple shorter ones significantly improves performance, particularly in noisy environments. Adaptive NPLDA is proposed as an enhancement over traditional PLDA variants, enabling flexible and efficient modeling across diverse enrollment scenarios. Comparative results show that Adaptive NPLDA outperforms conventional PLDA and cosine similarity in multi-enrollment settings, with cosine similarity excelling only in single-enrollment cases. The study underscores the critical role of back-end modeling in optimizing ASV systems for real-world applications, providing insights into improving robustness and generalizability across languages and acoustic conditions. (Less) - Popular Abstract (Swedish)
- Tänk dig en värld där din röst är nyckeln till allt – från att låsa upp dörrar till att logga in på ditt bankkonto. Denna teknik, kallad röstverifiering, används redan i stor skala för att identifiera personer genom unika egenskaper i deras röst. Men tekniken har sina begränsningar. Bullriga miljöer, korta inspelningar och språkliga skillnader kan göra systemen mindre pålitliga. Hur kan robustheten av röstverifieringssystem förbättras mot yttre störningar?
I röstverifiering sker processen i två steg. Först extraheras ett slags "fingeravtryck" av rösten från ljudsignalen, och sedan jämförs två eller flera röstfingeravtryck i ett andra steg för att avgör om två talare matchar. Historiskt har detta skett med statistiska metoder. Under de... (More) - Tänk dig en värld där din röst är nyckeln till allt – från att låsa upp dörrar till att logga in på ditt bankkonto. Denna teknik, kallad röstverifiering, används redan i stor skala för att identifiera personer genom unika egenskaper i deras röst. Men tekniken har sina begränsningar. Bullriga miljöer, korta inspelningar och språkliga skillnader kan göra systemen mindre pålitliga. Hur kan robustheten av röstverifieringssystem förbättras mot yttre störningar?
I röstverifiering sker processen i två steg. Först extraheras ett slags "fingeravtryck" av rösten från ljudsignalen, och sedan jämförs två eller flera röstfingeravtryck i ett andra steg för att avgör om två talare matchar. Historiskt har detta skett med statistiska metoder. Under de senaste åren har flera metoder baserade på djupa neurala nätverk och maskininlärning utvecklats vilket bland annat har påverkat hur jämförelsen i slutskedet utförs.
I vårt arbete har vi tittat på tre saker, först hur extraherande av röstfingeravtrycket påverkas av pålagt brus av olika typer och intensitet för att bättre förstå hur väl metoden fungerar i realistiska situationer. Vidare har vi granskat hur informationen i ett ljudklipp kan användas på bästa sätt, är det exempelvis fördelaktigt att extrahera flera röstfingeravtryck genom att dela upp ett ljudklipp i flera kortare klipp? Slutligen har vi undersökt flera olika metoder för att avgöra om två eller flera röstfingeravtryck matchar och där har vi även byggt på tidigare metoder för att presentera en egen metod, "Adaptiv NPLDA".
En av de största utmaningarna för röstigenkänning är bakgrundsljud. Våra experiment visade att ljud med andra röster i bakgrunden är särskilt problematiskt, då det stör systemens förmåga att identifiera den primära rösten. Däremot påverkar vitt brus och instrumental musik resultaten betydligt mindre. Genom att dela upp längre inspelningar till flera kortare inspelningar från samma person kan modellen utnyttja information bättre och leverera högre träffsäkerhet, framför allt under svåra förhållanden då vi ser en förbättring av klassificering på upp till 30 procentenheter. Den introducerade "Adaptiv NPLDA" bygger vidare på tidigare metoder som implementerar klassiska metoder för slutjämförelsen med neurala nätverk. Det nya med Adaptiv NPLDA är att metoden kan utnyttja information från flera röstfingeravtryck per talare, istället för att vara begränsad till ett röstfingeravtryck, som var fallet innan. Resultaten från rapporten visar också att Adaptiv NPLDA får den bästa prestandan då flera röstfingeravtryck används.
De praktiska tillämpningarna är många. Föreställ dig ett säkerhetssystem som kan identifiera dig utan att påverkas av bakgrundsljud, eller en röststyrd enhet som fungerar lika bra i ett livligt kök som i ett tyst sovrum. Robust röstverifiering öppnar också för nya möjligheter inom rättsmedicin, där noggrann röstigenkänning kan användas för att analysera inspelningar i utredningar. Slutsatsen är tydlig: genom att kombinera innovativa metoder med smart hantering av röstdata kan vi göra röstverifiering till en ännu mer pålitlig och användbar teknik – oavsett om det är i hemmet, på arbetsplatsen eller i rättssalen. (Less)
Please use this url to cite or link to this publication:
http://lup.lub.lu.se/student-papers/record/9190843
- author
- Paulsson, Aron LU and Onshage, Torbjörn LU
- supervisor
- organization
- alternative title
- Parallell uppdelning och neural modellering av tal för automatisk talarverifiering
- course
- FMSM01 20242
- year
- 2025
- type
- H2 - Master's Degree (Two Years)
- subject
- keywords
- Automatic Speaker Verification (ASV), Neural Probabilistic Linear Discriminant Analysis, ReDimNet, X-Vectors, Speaker Embeddings, Noise Robustness, Swedish Dataset Evaluation
- publication/series
- Master's Thesis in Mathematical Sciences
- report number
- LUTFMS-3517--2025
- ISSN
- 1404-6342
- other publication id
- 2025:E29
- language
- English
- id
- 9190843
- date added to LUP
- 2025-06-02 16:04:24
- date last changed
- 2025-06-02 16:04:24
@misc{9190843, abstract = {{This thesis explores advancements in Automatic Speaker Verification (ASV) by examining the impact of multiple speaker enrollments and introducing Adaptive Neural Probabilistic Linear Discriminant Analysis (Adaptive NPLDA). Modern ASV combines front-end feature extraction, using state-of-the-art methods based on Deep Neural Networks (DNNs), such as the ReDimNet architectures, with back-end modeling used to differentiate between speakers based on the extracted features. This study evaluates the performance of models trained primarily on English datasets when applied to Swedish datasets under various noise conditions and enrollment configurations. The analysis demonstrates that splitting longer enrollments into multiple shorter ones significantly improves performance, particularly in noisy environments. Adaptive NPLDA is proposed as an enhancement over traditional PLDA variants, enabling flexible and efficient modeling across diverse enrollment scenarios. Comparative results show that Adaptive NPLDA outperforms conventional PLDA and cosine similarity in multi-enrollment settings, with cosine similarity excelling only in single-enrollment cases. The study underscores the critical role of back-end modeling in optimizing ASV systems for real-world applications, providing insights into improving robustness and generalizability across languages and acoustic conditions.}}, author = {{Paulsson, Aron and Onshage, Torbjörn}}, issn = {{1404-6342}}, language = {{eng}}, note = {{Student Paper}}, series = {{Master's Thesis in Mathematical Sciences}}, title = {{Multiple Enrollments and Neural Back-End Modeling for Automatic Speaker Verification}}, year = {{2025}}, }