Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Who Let the Meerkats Out? Improving Annotation Efficiency for Bioacoustic Sound Event Detection Through Active Learning

Marklund, Oscar LU and Lindholm, Richard LU (2024) In Master's Thesis in Mathematical Sciences FMSM01 20241
Mathematical Statistics
Abstract
Bioacoustic sound event detection (SED) is a critical field for biodiversity monitoring, yet the high cost
of annotating data poses significant challenges. This thesis explores the application of active learning
strategies to reduce the amount of annotated data required for effective model training. This is done
for a segment based SED model, where batch active learning is performed by querying full audio files
rather than individual segments. The data set used is created by mixing recordings from a park with
vocalizations from babies, dogs and meerkats. By implementing uncertainty based querying strategies,
a reduction in data demand by up to 92% is seen when compared to a baseline. These strategies
query audio files with higher... (More)
Bioacoustic sound event detection (SED) is a critical field for biodiversity monitoring, yet the high cost
of annotating data poses significant challenges. This thesis explores the application of active learning
strategies to reduce the amount of annotated data required for effective model training. This is done
for a segment based SED model, where batch active learning is performed by querying full audio files
rather than individual segments. The data set used is created by mixing recordings from a park with
vocalizations from babies, dogs and meerkats. By implementing uncertainty based querying strategies,
a reduction in data demand by up to 92% is seen when compared to a baseline. These strategies
query audio files with higher event density, leading to improved performance. The best active learning
strategy is the proposed top X entropy which performs well for X = 10. Batch diversification using
farthest traversal shows an increase in performance for other strategies, but failed to improve top X
entropy. This shows that there is potential for assuring diverse batches and could suggest that top
X entropy promotes diversity. The active learning results show that these methods generalise well
across different datasets, highlighting their robustness and potential for broader application in other
bioacoustic contexts. The benefit of active learning is shown to correlate with the frequency of events,
where a higher pay-off is given in a domain where events are rare. This work advances the practicality
of machine learning in bioacoustics by enhancing annotation efficiency for segment based SED models. (Less)
Popular Abstract (Swedish)
Inom bioakustiken studeras ljud i naturen. Ljudbilden ger en inblick i
ekosystemets mående, inte minst avslöjas vilka djurarter som rör sig i
närområdet. Ljudinspelningar kan därmed användas för att studera biodiversitet,
vilket blir en mer och mer akut fråga.

Inspelningarna som används i sammanhanget är långa, ibland flera månader
långa. Det är därför inte möjligt för en biolog att manuellt lyssna på ljud för att
notera vad ljudet föreställer. Lyckligtvis kan datorer användas för detta, och
maskininlärning har accelererat datorernas förståelse för ljuden. Men problemet
kvarstår ändå, eftersom modellerna som datorn använder behöver lära sig hur
den ska tolka ljuden genom att den får se exempel. Därmed måste biologerna
... (More)
Inom bioakustiken studeras ljud i naturen. Ljudbilden ger en inblick i
ekosystemets mående, inte minst avslöjas vilka djurarter som rör sig i
närområdet. Ljudinspelningar kan därmed användas för att studera biodiversitet,
vilket blir en mer och mer akut fråga.

Inspelningarna som används i sammanhanget är långa, ibland flera månader
långa. Det är därför inte möjligt för en biolog att manuellt lyssna på ljud för att
notera vad ljudet föreställer. Lyckligtvis kan datorer användas för detta, och
maskininlärning har accelererat datorernas förståelse för ljuden. Men problemet
kvarstår ändå, eftersom modellerna som datorn använder behöver lära sig hur
den ska tolka ljuden genom att den får se exempel. Därmed måste biologerna
fortfarande lyssna på väldigt långa inspelningar för att berätta var och när olika
djurläten förekommer. Det är alltså själva inlärningsprocessen som fortfarande
stjäl biologernas dyrbara tid.

Det är detta problem som utforskas i “Vem släppte ut surikaterna?”, där vi
studerar bebisars, hundars och surikaters läten i syfte att kunna upptäcka deras
närvaro. Hur kan vi mer effektivt lära modellerna att särskilja olika arters läten i
ljud? Ett tillvägagångssätt är att datorn får själv välja vilka ljudfiler den vill lära
sig från. Detta kallas för aktiv inlärning, som vi kan illustrera med ett exempel.

Tänk dig att du studerar till ett matematikprov. Du har fått några uppgifter att
öva på, men lektionen är snart slut så du hinner bara få hjälp med fem uppgifter.
Vilka fem uppgifter väljer du? En tanke är att välja de frågor som du är mest
osäker på, eftersom det inte är någon idé att fråga om något som du är säker på.
En annan taktik är att inte välja fem nästintill likadana uppgifter, utan istället
vill du välja problem berör olika områden av det du ska lära dig.

Dessa koncept är tillämpbara inom maskininlärning och utforskas i arbetet,
genom att utnyttja osäkerhet och olikhet för att få bättre prestanda. Med hjälp av
dessa två verktyg kan ett datorprogram bestämma vilka ljudfiler den vill att en
biolog ska hjälpa den förstå. Genom att välja rätt data kan modellen snabba på
sin inlärningskurva.

I arbetet görs detta framgångsrikt för ljudanalys, där datan som behövs minskas
med upp till 92%, vilket gör det betydligt rimligare att använda sig av denna typ
av modeller. Detta uppnås genom att välja ljudfiler med hög osäkerhet. När man
mäter osäkerhet i en ljudfil visar det sig att man tjänar på att mäta den delen av
filen som har högst osäkerhet, snarare än att låta osäkerheten längs hela ljudfilen
spela roll.

Arbetet visar att aktiv inlärning kan underlätta användningen av avancerad
maskininlärning inom bioakustik. Med denna metodik krävs betydligt mindre
input från en biolog för att en modell ska kunna förstå olika djurläten. Med
detta, hoppas vi att bioakustiken kan nå längre för att gynna biodiversiteten runt
om i världen. (Less)
Please use this url to cite or link to this publication:
author
Marklund, Oscar LU and Lindholm, Richard LU
supervisor
organization
course
FMSM01 20241
year
type
H2 - Master's Degree (Two Years)
subject
keywords
Active Learning, Sound Event Detection, Bioacoustics, Querying Strategies, Annotation Efficiency
publication/series
Master's Thesis in Mathematical Sciences
report number
LUTFMS-3502-2024
ISSN
1404-6342
other publication id
2024:E53
language
English
id
9164680
date added to LUP
2024-06-17 16:26:48
date last changed
2024-06-17 16:26:48
@misc{9164680,
  abstract     = {{Bioacoustic sound event detection (SED) is a critical field for biodiversity monitoring, yet the high cost
of annotating data poses significant challenges. This thesis explores the application of active learning
strategies to reduce the amount of annotated data required for effective model training. This is done
for a segment based SED model, where batch active learning is performed by querying full audio files
rather than individual segments. The data set used is created by mixing recordings from a park with
vocalizations from babies, dogs and meerkats. By implementing uncertainty based querying strategies,
a reduction in data demand by up to 92% is seen when compared to a baseline. These strategies
query audio files with higher event density, leading to improved performance. The best active learning
strategy is the proposed top X entropy which performs well for X = 10. Batch diversification using
farthest traversal shows an increase in performance for other strategies, but failed to improve top X
entropy. This shows that there is potential for assuring diverse batches and could suggest that top
X entropy promotes diversity. The active learning results show that these methods generalise well
across different datasets, highlighting their robustness and potential for broader application in other
bioacoustic contexts. The benefit of active learning is shown to correlate with the frequency of events,
where a higher pay-off is given in a domain where events are rare. This work advances the practicality
of machine learning in bioacoustics by enhancing annotation efficiency for segment based SED models.}},
  author       = {{Marklund, Oscar and Lindholm, Richard}},
  issn         = {{1404-6342}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Master's Thesis in Mathematical Sciences}},
  title        = {{Who Let the Meerkats Out? Improving Annotation Efficiency for Bioacoustic Sound Event Detection Through Active Learning}},
  year         = {{2024}},
}