Multimodal Speech Emotion Recognition for Swedish Customer Service Conversations
(2022) In Master's Theses in Mathematical Sciences FMSM01 20212Mathematical Statistics
- Abstract
- Speech Emotion Recognition (SER) opens up the possibility to collect opinions from people in channels that have not be conceivable before, such as youtube videos, podcasts or phone calls. SER is becoming more advanced, and the SER models that have been published recently are reaching accuracy-results well beyond state of the arts. However, SER is not a simple task and it is most common that the models are trained and evaluated on simulated data sets, which have been recorded by actors in a studio environment. In this thesis, a parallel CNN-LSTM network framework has first been built and evaluated on open source data sets RAVDESS and EMO-DB, reaching 73,5 % and 73,0% average test accuracy in 5-fold cross validation respectively. The model... (More)
- Speech Emotion Recognition (SER) opens up the possibility to collect opinions from people in channels that have not be conceivable before, such as youtube videos, podcasts or phone calls. SER is becoming more advanced, and the SER models that have been published recently are reaching accuracy-results well beyond state of the arts. However, SER is not a simple task and it is most common that the models are trained and evaluated on simulated data sets, which have been recorded by actors in a studio environment. In this thesis, a parallel CNN-LSTM network framework has first been built and evaluated on open source data sets RAVDESS and EMO-DB, reaching 73,5 % and 73,0% average test accuracy in 5-fold cross validation respectively. The model framework has then been evaluated on a Swedish data set of sentences from real life Customer Service Calls with a large number of speakers, background noise and overlapping speech, reaching an average test accuracy of 64,7%. The Swedish model was improved by adding an additional text-branch with automatic transcriptions, ultimately achieving an average test accuracy of 73,4%. The final results for the Swedish model are presented in figure 1. (Less)
- Popular Abstract (Swedish)
- Är kunderna nöjda? Låt röstteknologin berätta
Snart kan kundservicecenter plocka ut statistik över hur glada, arga, ledsna eller kanske förvånade deras kunder har varit den senaste veckan, dagen eller timmen. Vi har byggt en sentimentmodell som automatiskt kan klassificera känslorna hos en talare utifrån både tonläge och sammanhang.
Redan idag analyseras stora mängder samtal i kundservice för att förstå vad kunderna ringer om, samt om de är nöjda eller missnöjda med en produkt. Detta görs genom att transkribera samtalen och sedan använda en maskininlärningsmodell på texten för att avgöra om kunden var positiv eller negativ. Ett problem med detta är att det vi säger och hur vi säger det inte alltid går hand i hand.
I detta projekt har... (More) - Är kunderna nöjda? Låt röstteknologin berätta
Snart kan kundservicecenter plocka ut statistik över hur glada, arga, ledsna eller kanske förvånade deras kunder har varit den senaste veckan, dagen eller timmen. Vi har byggt en sentimentmodell som automatiskt kan klassificera känslorna hos en talare utifrån både tonläge och sammanhang.
Redan idag analyseras stora mängder samtal i kundservice för att förstå vad kunderna ringer om, samt om de är nöjda eller missnöjda med en produkt. Detta görs genom att transkribera samtalen och sedan använda en maskininlärningsmodell på texten för att avgöra om kunden var positiv eller negativ. Ett problem med detta är att det vi säger och hur vi säger det inte alltid går hand i hand.
I detta projekt har vi tagit fram en modell för sentimentanalys som genom att analysera ljudvågor kan avgöra vilken känsla personen i ett ljudklipp uttrycker. Det finns flertalet projekt som har byggt liknande modeller men hittills har ingen tränat en modell på det svenska språket. Dessa modeller är också oftast tränade med simulerade ljudfiler, vilket är filer som har spelats in av skådespelare i en studiomiljö. Detta innebär att de är helt fria från bakgrundsljud och andra störande moment, med andra ord, saker som vanligtvis försämrar resultaten. I ett verkligt kundservicesamtal ser förutsättningarna inte ut som i de simulerade inspelningarna och resultaten kan därför inte förväntas vara lika träffsäkra när modellen används på ”riktig data”. Vi har därför tränat vår sentimentmodell på realistiska telefonsamtal för att testa hur modellens prestation påverkas av bakgrundsljud och störningar.
För att förbättra resultatet ytterligare har vi utökat modellen, så att den också använder sig av automatisk röstigenkänning och transkriberar meningarna för text-analys. Detta gör att vi kan kombinera analys av tonläget i ljudvågorna och sammanhanget i texten för att nå ännu bättre resultat. Vi skapar också en unik möjlighet för modellen att känna igen subtila signaler, när tonläge och texten inte hänger ihop, till exempel då någon är sarkastisk. Beroende på tonläget kan texten ”Lycka till” betyda två helt olika saker. Genom att kombinera analysen av ljudvågor och texten från den automatiska transkriberingen har vi således skapat en modell som presterar lika bra, eller bättre, än modellen som är tränad med simulerad data. Resultaten pekar tydligt på att analys av både text och ljud överträffar analys av vardera kanal enskilt.
Med denna sentimentmodell kan vi få ännu mer träffsäkra resultat än dagens modeller. På så sätt kan vi bidra till att analysen av kundservicesamtal med sentimentanalys skapar mer värde för företag med stora kundserviceorganisationer och hjälper dem ta vara på alla insikter som de inringande kunderna bidrar med. Vi kan också drastiskt minska tiden som människor behöver lyssna på samtal för att hitta det som faktiskt är intressant. I rapporten diskuteras utöver detta möjligheterna att bygga en modell för att kunna analysera samtalen i realtid – något som kanske kan användas för att skapa en digital realtids-coach åt medarbetarna. (Less)
Please use this url to cite or link to this publication:
http://lup.lub.lu.se/student-papers/record/9076268
- author
- Eliasson, Amanda LU
- supervisor
- organization
- course
- FMSM01 20212
- year
- 2022
- type
- H2 - Master's Degree (Two Years)
- subject
- keywords
- Speech Emotion Recognition, Sentiment Analysis, Machine Learning, LSTM, CNN
- publication/series
- Master's Theses in Mathematical Sciences
- report number
- LUTFMS-3438-2022
- ISSN
- 1404-6342
- other publication id
- 2022:E9
- language
- English
- id
- 9076268
- date added to LUP
- 2022-03-23 13:21:29
- date last changed
- 2022-08-23 14:00:10
@misc{9076268, abstract = {{Speech Emotion Recognition (SER) opens up the possibility to collect opinions from people in channels that have not be conceivable before, such as youtube videos, podcasts or phone calls. SER is becoming more advanced, and the SER models that have been published recently are reaching accuracy-results well beyond state of the arts. However, SER is not a simple task and it is most common that the models are trained and evaluated on simulated data sets, which have been recorded by actors in a studio environment. In this thesis, a parallel CNN-LSTM network framework has first been built and evaluated on open source data sets RAVDESS and EMO-DB, reaching 73,5 % and 73,0% average test accuracy in 5-fold cross validation respectively. The model framework has then been evaluated on a Swedish data set of sentences from real life Customer Service Calls with a large number of speakers, background noise and overlapping speech, reaching an average test accuracy of 64,7%. The Swedish model was improved by adding an additional text-branch with automatic transcriptions, ultimately achieving an average test accuracy of 73,4%. The final results for the Swedish model are presented in figure 1.}}, author = {{Eliasson, Amanda}}, issn = {{1404-6342}}, language = {{eng}}, note = {{Student Paper}}, series = {{Master's Theses in Mathematical Sciences}}, title = {{Multimodal Speech Emotion Recognition for Swedish Customer Service Conversations}}, year = {{2022}}, }