Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Anonymising Speech in Surveillance using Speech Masking and Background Separation

Örnberg, Carl LU (2024) In Master's Thesis in Mathematical Sciences FMSM01 20241
Mathematical Statistics
Abstract
The modern society is associated with widespread sound recording in public environments as well as in the workplace and at home, which motivates an increased use of speech anonymisation techniques in recorded audio. A demonstrative example is masking recorded speech in hospitals' waiting rooms for eavesdropping listeners inside a control room, thus ensuring privacy of information. This thesis evaluates Short-Term-Objective Intelligibility of offline speech separation and its cancellation from other background audio, maintaining the background sound. The intactness of background sound(s) is measured with a metric based on cross correlation. In addition, comparing the resulting masking effect due to different additive speech masking signals... (More)
The modern society is associated with widespread sound recording in public environments as well as in the workplace and at home, which motivates an increased use of speech anonymisation techniques in recorded audio. A demonstrative example is masking recorded speech in hospitals' waiting rooms for eavesdropping listeners inside a control room, thus ensuring privacy of information. This thesis evaluates Short-Term-Objective Intelligibility of offline speech separation and its cancellation from other background audio, maintaining the background sound. The intactness of background sound(s) is measured with a metric based on cross correlation. In addition, comparing the resulting masking effect due to different additive speech masking signals is performed, to evaluate their effect on intelligibility and perceptual classifiability. (Less)
Popular Abstract (Swedish)
Det moderna övervakningssamhället är förknippat med omfattande ljudupptagning i offentliga rum, på arbetsplatsen och även i hemmet, vilket motiverar ökad användning av s.k. talanonymiseringstekniker. Att värna rätten till privatliv samtidigt som övervakningskapaciteten säkerställs är balansgången detta examensarbete tar itu med i två delar. Möjligheten att blint extrahera hela talsegment ur ljudupptagningar utan att fördärva bakgrundsljudbilden studeras först. Sedan presenteras en röstförvrängare liksom ett förslag på talmaskerare för att maskera vem som talar respektive vad som sägs. Båda med realtidsfunktion. Resultat utvärderas med s.k. objektiva mått för talbegriplighet samt ett mått baserat på korskorrelation.

Genom att använda... (More)
Det moderna övervakningssamhället är förknippat med omfattande ljudupptagning i offentliga rum, på arbetsplatsen och även i hemmet, vilket motiverar ökad användning av s.k. talanonymiseringstekniker. Att värna rätten till privatliv samtidigt som övervakningskapaciteten säkerställs är balansgången detta examensarbete tar itu med i två delar. Möjligheten att blint extrahera hela talsegment ur ljudupptagningar utan att fördärva bakgrundsljudbilden studeras först. Sedan presenteras en röstförvrängare liksom ett förslag på talmaskerare för att maskera vem som talar respektive vad som sägs. Båda med realtidsfunktion. Resultat utvärderas med s.k. objektiva mått för talbegriplighet samt ett mått baserat på korskorrelation.

Genom att använda oberoende komponentanalys på observationer från flertalet mikrofoner för att separera tal från bakgrundsljud demonstreras den stegrande
svårighetsgrad när ljudkällor förflyttar sig i rummet över tid med varierande ljudnivå relativt till bakgrundsljudets. Examensarbetet finner emellertid att bevarandet av bakgrundsljud är enklare att uppnå än att utvinna själva rösten från ljudupptagningen. Detta antas härröra ur icke uppfyllda egenskaper hos modellen som oberoende komponentanalys antar, vilken hittar en ortogonal bas i observationsrummet som maximerar avståndet till Gaussiska fördelningar. Examensarbetet visar också genom sina resultat att talbegriplighetsmåtten måste anses som begränsade i sin överförbarhet till att mäta annat än begripligheten för brusreducerade talsignaler. (Less)
Please use this url to cite or link to this publication:
author
Örnberg, Carl LU
supervisor
organization
course
FMSM01 20241
year
type
H2 - Master's Degree (Two Years)
subject
keywords
Independent Component Analysis, Blind Source Separation, Speech Separation, negentropy, mutual information, nongaussianity, Gaussian, surveillance, privacy, TASCAR, Python, Speech Masking, phase-less, Voice Anonymisation, pitch shift
publication/series
Master's Thesis in Mathematical Sciences
report number
LUTFMS-3501--2024
ISSN
1404-6342
other publication id
2024:E52
language
English
additional info
This Master's Thesis was funded by Axis Communications AB.
id
9162438
date added to LUP
2024-06-13 14:17:51
date last changed
2024-06-13 17:00:17
@misc{9162438,
  abstract     = {{The modern society is associated with widespread sound recording in public environments as well as in the workplace and at home, which motivates an increased use of speech anonymisation techniques in recorded audio. A demonstrative example is masking recorded speech in hospitals' waiting rooms for eavesdropping listeners inside a control room, thus ensuring privacy of information. This thesis evaluates Short-Term-Objective Intelligibility of offline speech separation and its cancellation from other background audio, maintaining the background sound. The intactness of background sound(s) is measured with a metric based on cross correlation. In addition, comparing the resulting masking effect due to different additive speech masking signals is performed, to evaluate their effect on intelligibility and perceptual classifiability.}},
  author       = {{Örnberg, Carl}},
  issn         = {{1404-6342}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Master's Thesis in Mathematical Sciences}},
  title        = {{Anonymising Speech in Surveillance using Speech Masking and Background Separation}},
  year         = {{2024}},
}