Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Audio Detection for Preparation of Video Rate Controller

Axelsson, Olle LU and Bladh, Tobias LU (2021) BMEM05 20211
Department of Biomedical Engineering
Abstract
Modern video streaming may use the protocol H.264 to encode video in high quality. The protocol takes advantage of similarities between consecutive frames to lower the bit rate. If there are differences between frames the bit rate will therefore rise. To control the fluctuations in bit rate a rate controller (RC) can be used together with the encoder. The RC manages the quantisation levels of the encoder. Rapid unforeseen changes may require the RC to drastically increase the quantisation parameter (QP) or even skip frames.

This paper evaluates if audio event detection can be used to prepare the RC for incoming changes by creating a warning signal that acts on the RC. Two methods are investigated; restricting the minimum allowed QP... (More)
Modern video streaming may use the protocol H.264 to encode video in high quality. The protocol takes advantage of similarities between consecutive frames to lower the bit rate. If there are differences between frames the bit rate will therefore rise. To control the fluctuations in bit rate a rate controller (RC) can be used together with the encoder. The RC manages the quantisation levels of the encoder. Rapid unforeseen changes may require the RC to drastically increase the quantisation parameter (QP) or even skip frames.

This paper evaluates if audio event detection can be used to prepare the RC for incoming changes by creating a warning signal that acts on the RC. Two methods are investigated; restricting the minimum allowed QP during detections, and allowing higher bit rates temporarily. The paper also examines a number of methods for performing audio event detection. Three types of Gaussian mixture models (GMM) are implemented and tested. Further, two envelope based algorithms are used. Finally, one GMM and one envelope algorithm are used together with the minimum QP scheme to test a combined solution.

Results show that both envelopes and GMMs can be used to perform detection useful for the purposes of RC preparation. When acted on by the warning system the RC lowers the amount of frame skips on most tests. Further, the peak quantisation needed during an event is often lower. Investigation of the resulting video quality shows that the quality score is lower in terms of VMAF and SSIM before and after the event happens. However, during the event the quality is roughly the same and sometimes slightly higher. When a real audio detection is used for preparation the frame skips are improved, but there are side effects in terms of quality related to false positives in the audio detection. (Less)
Popular Abstract (Swedish)
Ljudbaserat varningsystem för videoströmning

En kamera som observerar samma scen under en period utnyttjar att scenen inte förändras. Detta gör att kameran kan komma undan med att producera en relativt liten mängd data med fortsatt hög kvalitet. Men när förändringar sker i scenen så går det inte att utnyttja likheter mellan bilder på samma sätt. Med begränsning på hur mycket data kameran får producera så tvingas den att sänka kvalitén. I värsta fall kan bilder till och med behöva slängas.

Rapporten har kommit fram till att en övervakningskamera kan dra nytta av ljudet runt om för att förbereda sig för plötsliga händelser. Genom att lyssna och analysera ljudet kan kameran i förväg avgöra att det snart kommer finnas rörelse i bilden.... (More)
Ljudbaserat varningsystem för videoströmning

En kamera som observerar samma scen under en period utnyttjar att scenen inte förändras. Detta gör att kameran kan komma undan med att producera en relativt liten mängd data med fortsatt hög kvalitet. Men när förändringar sker i scenen så går det inte att utnyttja likheter mellan bilder på samma sätt. Med begränsning på hur mycket data kameran får producera så tvingas den att sänka kvalitén. I värsta fall kan bilder till och med behöva slängas.

Rapporten har kommit fram till att en övervakningskamera kan dra nytta av ljudet runt om för att förbereda sig för plötsliga händelser. Genom att lyssna och analysera ljudet kan kameran i förväg avgöra att det snart kommer finnas rörelse i bilden. Då kan den ändra sina inställningar tidigare och på så sätt minska antalet kastade bilder i flertalet situationer där de annars uppstod. Detta utan att kvaliteten på bilderna försämras nämnvärt.

När en kamera övervakar samma scen under lång tid vänjer sig den vid scenen. Likheten mellan tätt följande bilder utnyttjas så att inte samma sak skickas flera gånger. Därför går det att sätta höga krav på mängden data som producerats utan att kvaliteten minskar. Men! Om det plötsligt händer något stort kan detta överrumpla kameran. Bildströmmen blir mycket större än vad kameran förväntade sig och den har kanske inte råd att skicka alla bilder. Det kan likställas med en strikt budget. Under normala omständigheter så tjänar kameran ungefär lika mycket som den betalar. Men om det helt plötsligt kommer en stor oplanerad räkning, så har den inte råd att betala denna. De leder till att den inte har möjlighet betala för det som behöver betalas, och den har alltså inte råd att skicka bilderna som den ska. Om den hade kunnat förutse räkningen hade den också kunnat budgetera för den.
Det kan göras genom att kameran spelar in video i något sämre kvalitet en kort stund innan händelsen för att spara data.

Analysen av ljud görs med hjälp av en mängd normaldistributioner. Kameran lär sig hur det brukar låta i närheten och skapar en normaldistribution som representerar omgivningen. Så länge ljudet passar in i den distribution som är vanlig dras slutsatsen att det inte händer något särskilt. Men om ljudet hamnar utanför den vanliga distributionen är det högst intressant. Det tyder på att något som inte brukar finnas nära kameran nu är där. Kameran varnas om detta och kan därför hantera den uppkomna situationen genom att budgetera bättre. Det gör sen att den kan slippa slänga bilder, samt behålla god kvalitet när det gäller. (Less)
Please use this url to cite or link to this publication:
author
Axelsson, Olle LU and Bladh, Tobias LU
supervisor
organization
course
BMEM05 20211
year
type
H2 - Master's Degree (Two Years)
subject
keywords
Audio detection, Gaussian Mixture Model, GMM, Video Rate Control, Rate Control, Video Streaming
language
English
additional info
2021-14
id
9060258
date added to LUP
2021-08-16 12:55:25
date last changed
2021-08-16 12:55:25
@misc{9060258,
  abstract     = {{Modern video streaming may use the protocol H.264 to encode video in high quality. The protocol takes advantage of similarities between consecutive frames to lower the bit rate. If there are differences between frames the bit rate will therefore rise. To control the fluctuations in bit rate a rate controller (RC) can be used together with the encoder. The RC manages the quantisation levels of the encoder. Rapid unforeseen changes may require the RC to drastically increase the quantisation parameter (QP) or even skip frames.

This paper evaluates if audio event detection can be used to prepare the RC for incoming changes by creating a warning signal that acts on the RC. Two methods are investigated; restricting the minimum allowed QP during detections, and allowing higher bit rates temporarily. The paper also examines a number of methods for performing audio event detection. Three types of Gaussian mixture models (GMM) are implemented and tested. Further, two envelope based algorithms are used. Finally, one GMM and one envelope algorithm are used together with the minimum QP scheme to test a combined solution.

Results show that both envelopes and GMMs can be used to perform detection useful for the purposes of RC preparation. When acted on by the warning system the RC lowers the amount of frame skips on most tests. Further, the peak quantisation needed during an event is often lower. Investigation of the resulting video quality shows that the quality score is lower in terms of VMAF and SSIM before and after the event happens. However, during the event the quality is roughly the same and sometimes slightly higher. When a real audio detection is used for preparation the frame skips are improved, but there are side effects in terms of quality related to false positives in the audio detection.}},
  author       = {{Axelsson, Olle and Bladh, Tobias}},
  language     = {{eng}},
  note         = {{Student Paper}},
  title        = {{Audio Detection for Preparation of Video Rate Controller}},
  year         = {{2021}},
}