Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Adaptive content-based sound compression

Gerard, Markus LU and Tedenvall, Marcus LU (2019) BMEM05 20191
Department of Biomedical Engineering
Abstract
Three different classification solutions for distinguishing events from non-events in surveillance audio are described and evaluated. The three compared methods are energy functions, Gaussian mixture modelling algorithms (GMM) and existing voice activity detectors (VAD). Recorded test signals with corresponding manually labelled ground truth files are used to determine the accuracies of the methods. The GMM algorithm performed best with an accuracy of 86.63 % in average over different environments, amount of activity and amount of noise. This can be compared to the accuracy of the energy functions (60.08 %) and the VADs (77.85 %). With this method, the data size is reduced from 57.87 to 25.83 MB per hour on average when using an instant... (More)
Three different classification solutions for distinguishing events from non-events in surveillance audio are described and evaluated. The three compared methods are energy functions, Gaussian mixture modelling algorithms (GMM) and existing voice activity detectors (VAD). Recorded test signals with corresponding manually labelled ground truth files are used to determine the accuracies of the methods. The GMM algorithm performed best with an accuracy of 86.63 % in average over different environments, amount of activity and amount of noise. This can be compared to the accuracy of the energy functions (60.08 %) and the VADs (77.85 %). With this method, the data size is reduced from 57.87 to 25.83 MB per hour on average when using an instant bitrate decrease for non-event segments, compared to constantly recording the audio with a high bitrate. This is a reduction in storage size of 55.37 % for the test files which contain 39.9 % activity. A technology we call gradual bitrate decline is also implemented which reduces the bitrate slowly over time instead of instantly after an event has happened. The technology improves the listening experience with the trade-off of taking up more disk space.

The noise level at which the GMM algorithm has the best results is with a signal-to-noise ratio (SNR) around 20 dB, where over 97 % of the events are classified as events, and with an accuracy above 92 % for the measured test file. For lower SNR, fewer events are found where for example only 22 % of the events are found at an SNR of 0 dB. The algorithm does not work with outdoor noises such as wind and it is instead constructed and optimised for indoor use. (Less)
Popular Abstract (Swedish)
Smart komprimeringsteknik för ljudinspelningar

Omfattande forskning inom videokomprimering har lett till en märklig balans där ljudspåret ibland tar större plats än videospåret i övervakningsinspelningar. För att jämna ut detta behövs smarta tekniker även för ljudkomprimering. Det här arbetet presenterar ett förslag för att minska ljuddatan med mer än 50 %.

Det är vanligt att majoriteten av materialet i en övervakningsinspelning är ointressant. Om man lyckas utnyttja det påståendet så finns det en möjlighet att effektivt minska datamängden genom att spara det ointressanta innehållet i låg kvalité. Utmaningen ligger i att bestämma vad som är intressant och vad som är ointressant och att låta en dator ta de besluten.

För... (More)
Smart komprimeringsteknik för ljudinspelningar

Omfattande forskning inom videokomprimering har lett till en märklig balans där ljudspåret ibland tar större plats än videospåret i övervakningsinspelningar. För att jämna ut detta behövs smarta tekniker även för ljudkomprimering. Det här arbetet presenterar ett förslag för att minska ljuddatan med mer än 50 %.

Det är vanligt att majoriteten av materialet i en övervakningsinspelning är ointressant. Om man lyckas utnyttja det påståendet så finns det en möjlighet att effektivt minska datamängden genom att spara det ointressanta innehållet i låg kvalité. Utmaningen ligger i att bestämma vad som är intressant och vad som är ointressant och att låta en dator ta de besluten.

För ljudinspelningar kan ointressant material vara tystnad eller brus, d.v.s. avsaknaden av aktivitet. Föreställ er en övervakningskamera inuti ett lager eller en butik som spelar in både ljud och bild dygnet runt. Under natten är aktiviteten låg och det enda som spelas in ljudmässigt är brus. Trots den låga aktiviteten sparas allt under natten med hög kvalité, vilket resulterar i onödigt stora datafiler. Istället kan sådana långa sekvenser av tystnad komprimeras väldigt hårt eftersom dess resulterande kvalité inte är viktig.

Det finns olika tillvägagångsätt för att känna igen aktivitet i ljud. En enkel lösning är att gå efter volymen i ljudet, om volymen överstiger bruset så förekommer det aktivitet. Nackdelen med den metoden är att ljudhändelser med samma eller lägre volym som bruset inte kommer att detekteras. En bättre lösning är att dela upp ljudet i frekvenser och sedan analysera ändringar i energi för olika frekvenser. De här energikomponenterna kan användas för att ta fram normalfördelningskurvor som kan modellera bakgrundsljudet. Ljud som avviker från bakgrundsmodellen klassificeras som aktivitet och kommer att komprimeras med en hög bithastighet medan övrigt ljud komprimeras med en låg. (Less)
Please use this url to cite or link to this publication:
author
Gerard, Markus LU and Tedenvall, Marcus LU
supervisor
organization
course
BMEM05 20191
year
type
H2 - Master's Degree (Two Years)
subject
language
English
additional info
2019-07
id
8983831
date added to LUP
2019-06-19 13:10:47
date last changed
2019-06-19 13:10:47
@misc{8983831,
  abstract     = {{Three different classification solutions for distinguishing events from non-events in surveillance audio are described and evaluated. The three compared methods are energy functions, Gaussian mixture modelling algorithms (GMM) and existing voice activity detectors (VAD). Recorded test signals with corresponding manually labelled ground truth files are used to determine the accuracies of the methods. The GMM algorithm performed best with an accuracy of 86.63 % in average over different environments, amount of activity and amount of noise. This can be compared to the accuracy of the energy functions (60.08 %) and the VADs (77.85 %). With this method, the data size is reduced from 57.87 to 25.83 MB per hour on average when using an instant bitrate decrease for non-event segments, compared to constantly recording the audio with a high bitrate. This is a reduction in storage size of 55.37 % for the test files which contain 39.9 % activity. A technology we call gradual bitrate decline is also implemented which reduces the bitrate slowly over time instead of instantly after an event has happened. The technology improves the listening experience with the trade-off of taking up more disk space.

The noise level at which the GMM algorithm has the best results is with a signal-to-noise ratio (SNR) around 20 dB, where over 97 % of the events are classified as events, and with an accuracy above 92 % for the measured test file. For lower SNR, fewer events are found where for example only 22 % of the events are found at an SNR of 0 dB. The algorithm does not work with outdoor noises such as wind and it is instead constructed and optimised for indoor use.}},
  author       = {{Gerard, Markus and Tedenvall, Marcus}},
  language     = {{eng}},
  note         = {{Student Paper}},
  title        = {{Adaptive content-based sound compression}},
  year         = {{2019}},
}