Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Gradually Changing Gender Attribution of Speech Recordings Using Interpolated Filters

Kjellin, Mira LU (2022) In Master's Theses in Mathematical Sciences FMSM01 20212
Mathematical Statistics
Abstract
When we listen to human speech, one of the first characteristics we assess is the gender of the speaker. For individuals who suffer from gender dysphoria, this may cause them to be negatively impacted by their voice not matching their gender identity. Therefore, some persons attempt to change their voices with a speech-language therapist. Differences between the average female and male voice have been studied extensively, and the findings are used in therapy to appropriately modify patients’ voices. By applying this knowledge to digitally alter patients’ voice recordings to sound more like their respective target voices, treatment could be made easier and more effective. This thesis explores the use of interpolated all-pole filters and... (More)
When we listen to human speech, one of the first characteristics we assess is the gender of the speaker. For individuals who suffer from gender dysphoria, this may cause them to be negatively impacted by their voice not matching their gender identity. Therefore, some persons attempt to change their voices with a speech-language therapist. Differences between the average female and male voice have been studied extensively, and the findings are used in therapy to appropriately modify patients’ voices. By applying this knowledge to digitally alter patients’ voice recordings to sound more like their respective target voices, treatment could be made easier and more effective. This thesis explores the use of interpolated all-pole filters and TD-PSOLA to transform voice recordings of the vowel /a/ to be perceived as more feminine or masculine, while simultaneously attempting to preserve the qualities that make voices sound natural. Additionally, methods of measuring the distance between speech signals using the 2-Wasserstein metric are investigated. An online survey is conducted to evaluate the perceived gender and naturalness of 15 transformations. Results from the survey indicate that the gender attribution of the recordings changes when they are transformed and that the average gender scores correlate with transformation goals. It is found that five out of eleven transformed speech signals were rated as natural by more than 50 % of listeners. Furthermore, the ratings imply that several of the transformed signals were as natural sounding as unmodified ones. In conclusion, this method of voice transformation shows promise, but additional research is required before real-world applications can be made. (Less)
Popular Abstract (Swedish)
Mänskliga röster bär på mycket information, och en av de fösta egenskaper vi registrerar är talarens kön. Är det möjligt att omvandla en röst så att lyssnaren ändrar uppfattning?

Inom könsbekräftande vård av transpersoner ingår ibland talterapi för att uppnå en röst mer i linje med patientens könsidentitet. Där fokuserar behandlingen på att ändra de aspekter av rösten som associeras med kön: grundtonsfrekvensen och de så kallade formanternas placering, vilka båda i genomsnitt är lägre för män. Formanterna är aspekter av talljudets frekvensinnehåll som beror på resonansen i talröret.

Dessvärre är det ofta svårt för patienter att nå naturliga resultat, framför allt för transkvinnor som, till skillnad från transmän, inte erfar... (More)
Mänskliga röster bär på mycket information, och en av de fösta egenskaper vi registrerar är talarens kön. Är det möjligt att omvandla en röst så att lyssnaren ändrar uppfattning?

Inom könsbekräftande vård av transpersoner ingår ibland talterapi för att uppnå en röst mer i linje med patientens könsidentitet. Där fokuserar behandlingen på att ändra de aspekter av rösten som associeras med kön: grundtonsfrekvensen och de så kallade formanternas placering, vilka båda i genomsnitt är lägre för män. Formanterna är aspekter av talljudets frekvensinnehåll som beror på resonansen i talröret.

Dessvärre är det ofta svårt för patienter att nå naturliga resultat, framför allt för transkvinnor som, till skillnad från transmän, inte erfar fysiologiska skillnader på stämbanden från hormonbehandling. Digitala verktyg, som exempelvis mäter grundtonsfrekvensen, används därför i vissa fall som hjälpmedel för patienten att träna med hemma. Men det finns möjligheter att utveckla mer avancerade verktyg för hemmaträning. Ett sätt att göra detta hade kunnat vara att skapa artificiella ljudfiler, genom att omvandla inspelningar från patienten själv, som hen kan härma för att hitta rätt röstläge. Verktyget hade också kunnat bidra genom att mäta skillnaden mellan inspelningen och patientens röst. Detta examensarbete utredde denna möjlighet, genom att undersöka en metod för att skapa gradvisa omvandlingar från en röstinspelning till en annan, och testa ett sätt att kvantifiera skillnader mellan olika röstinspelningar. Evalueringen visade att omvandlingsmetoden lyckades och att det uppfattade könet av talaren ändrades. Avståndsmåttet, däremot, behöver undersökas vidare för att se hur den presterar på inspelningar under behandling men visar potential för användning på röstinspelningar generellt.
Omvandlingsmetoden utgick från två inspelningar: en med originalrösten och en som motsvarade den ideala rösten efter könsbekräftande behandling. Originalinspelningen transformerades gradvis mot målrösten enligt en önskad nivå mellan noll och ett, så att både grundtonsfrekvensen och formen av spektrumet, en representation av signalen som visar intensiteten av alla olika frekvenser, förvandlades. För att ändra grundtonsfrekvensen användes algoritmen TD-PSOLA, medan spektrumets form omvandlades genom digitala filter modellerade efter både original- och målrösten. En utvärdering av transformationernas effektivitet skedde via en enkät där deltagare fick lyssna på både omvandlade och oförändrade inspelningar. Lyssnarna uppmanades för varje ljudfil avgöra talarens kön, samt om inspelningen lät naturlig. Resultatet visade att lyssnarna inte helt enkelt kunde höra vilka inspelningar som var modifierade, även om ett fåtal ansågs låta syntetiska av majoriteten. Dessutom korrelerade önskad omvandling – beroende på omvandlingsfaktorns storlek – med medelvärdet för upplevt kön.

Vidare testades Wasserstein-måttet för att kvantifiera skillnaden mellan två inspelningar av samma ljudtyp. Initiala försök visade att måttet returnerade större avstånd för inspelningar som var perceptuellt olika, samt för inspelningar som hade skillnader i pitch och i formantplacering.
Sammanfattningsvis gav de båda undersökta metoderna lovande resultat, men behöver framöver generaliseras för att ge mer konsekventa resultat, samt för att kunna användas på fler typer av inspelningar som exempelvis hela ord och meningar. (Less)
Please use this url to cite or link to this publication:
author
Kjellin, Mira LU
supervisor
organization
alternative title
Gradvis omvandling av uppfattat kön av röstinspelningar
course
FMSM01 20212
year
type
H2 - Master's Degree (Two Years)
subject
publication/series
Master's Theses in Mathematical Sciences
report number
LUTFMS-3455-2022
ISSN
1404-6342
other publication id
2022:E59
language
English
id
9093548
date added to LUP
2022-08-18 08:12:55
date last changed
2022-08-18 14:31:45
@misc{9093548,
  abstract     = {{When we listen to human speech, one of the first characteristics we assess is the gender of the speaker. For individuals who suffer from gender dysphoria, this may cause them to be negatively impacted by their voice not matching their gender identity. Therefore, some persons attempt to change their voices with a speech-language therapist. Differences between the average female and male voice have been studied extensively, and the findings are used in therapy to appropriately modify patients’ voices. By applying this knowledge to digitally alter patients’ voice recordings to sound more like their respective target voices, treatment could be made easier and more effective. This thesis explores the use of interpolated all-pole filters and TD-PSOLA to transform voice recordings of the vowel /a/ to be perceived as more feminine or masculine, while simultaneously attempting to preserve the qualities that make voices sound natural. Additionally, methods of measuring the distance between speech signals using the 2-Wasserstein metric are investigated. An online survey is conducted to evaluate the perceived gender and naturalness of 15 transformations. Results from the survey indicate that the gender attribution of the recordings changes when they are transformed and that the average gender scores correlate with transformation goals. It is found that five out of eleven transformed speech signals were rated as natural by more than 50 % of listeners. Furthermore, the ratings imply that several of the transformed signals were as natural sounding as unmodified ones. In conclusion, this method of voice transformation shows promise, but additional research is required before real-world applications can be made.}},
  author       = {{Kjellin, Mira}},
  issn         = {{1404-6342}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Master's Theses in Mathematical Sciences}},
  title        = {{Gradually Changing Gender Attribution of Speech Recordings Using Interpolated Filters}},
  year         = {{2022}},
}