Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

An exploration of the current state-of-the-art in automatic music transcription - with proposed improvements using machine learning

Torby, Joel LU (2018) In Master's Theses in Mathematical Sciences MASM01 20181
Mathematical Statistics
Abstract
The research field of automatic music transcription has vastly grown during the 21st century, where the goal is to transcribe a polyphonic music signal into annotated sheet music. Within this field, the subproblem of fundamental frequency estimation in a piece of music is a difficult problem, e.g., due to dissimilar structures in signals from different instruments playing the same note. This becomes further convoluted in a polyphonic signal consisting of several notes, where the harmonic overtones of the notes interact. To solve this and other issues, machine learning techniques have furthered the research in music transcription, which is the main focus of this thesis. This is undertaken by comparing the best performing fundamental... (More)
The research field of automatic music transcription has vastly grown during the 21st century, where the goal is to transcribe a polyphonic music signal into annotated sheet music. Within this field, the subproblem of fundamental frequency estimation in a piece of music is a difficult problem, e.g., due to dissimilar structures in signals from different instruments playing the same note. This becomes further convoluted in a polyphonic signal consisting of several notes, where the harmonic overtones of the notes interact. To solve this and other issues, machine learning techniques have furthered the research in music transcription, which is the main focus of this thesis. This is undertaken by comparing the best performing fundamental frequency estimators from recent years, mainly from MIREX competitions from 2015-2017. These are recreated and evaluated on a customized test set consisting of MIDI files of various instruments. The evaluation consists both of typical music transcription measures such as precision, recall and accuracy, but
also by deeper analysis in order to find the large-scale structural biases. The evaluation of the tests herein shows that the best performing models are THK1 and CT1 from MIREX 2017 which are based on CNN. This work has identified some structural errors in these methods pointing out potential for further improvements. In addition, a novel approach of applying complex-valued neural networks in music transcription is also examined, by modifying research in an existing deep complex neural network model. The proposed and improved model finishes on third place in the evaluation, indicating that complex neural networks may develop the research area of music transcription even further. (Less)
Popular Abstract (Swedish)
Forskning kring att utvinna information om musik direkt från en ljudinspelning har pågått sedan slutet av 1900-talet. Många nya upptäckter har gjorts de allra senaste åren, dels på grund av att forskningsområdet har varit relativt outforskat men också då den tekniska utvecklingen har gått framåt väldigt kraftigt. Denna avhandling utforskar en gren inom forskningsområdet, kallad multipel fundamentalfrekvensestimation, där målet är att få en dator att omvandla musik i form av en ljudinspelning av flera samtidigt spelande instrument, till ett notblad med korrekt transkriberade noter. En fundamentalfrekvens motsvarar ljudvågornas svängningshastighet för varje ton i notsystemet. Rent intuitivt kan detta låta som magi, och som man kan förvänta... (More)
Forskning kring att utvinna information om musik direkt från en ljudinspelning har pågått sedan slutet av 1900-talet. Många nya upptäckter har gjorts de allra senaste åren, dels på grund av att forskningsområdet har varit relativt outforskat men också då den tekniska utvecklingen har gått framåt väldigt kraftigt. Denna avhandling utforskar en gren inom forskningsområdet, kallad multipel fundamentalfrekvensestimation, där målet är att få en dator att omvandla musik i form av en ljudinspelning av flera samtidigt spelande instrument, till ett notblad med korrekt transkriberade noter. En fundamentalfrekvens motsvarar ljudvågornas svängningshastighet för varje ton i notsystemet. Rent intuitivt kan detta låta som magi, och som man kan förvänta sig finns det heller inte någon enkel formel som felfritt löser problemet. De lösningsmetoder som finns är snarare inriktade på att göra en så bra estimation av det korrekta notbladet som möjligt. Tillvägagångssätten består generellt sett av avancerade modeller som i flera steg omvandlar data och optimerar parametrar utifrån olika tekniska och musikteoretiska aspekter. Hur forskningens senaste modeller fungerar och hur bra de presterar är två ämnen som denna avhandling utreder.

Tillämpningsmöjligheterna för forskningsområdet är stora, givet att en modell skulle fungera i princip felfritt. En musiker skulle t.ex. kunna få ut noterna till vilken ljudinspelning som helst, vilket skulle vara uppskattat och praktiskt för musiker på alla nivåer.

Avhandlingen går inledningsvis igenom de tekniska och musikteoretiska delarna som de senaste forskningsmodellerna baseras på, samt vilka hinder man behöver få bukt med. En stor del av svårigheten i multipel fundamentalfrekvens-estimation ligger i att ljudet från flera olika instrument går in i varandra och frekvenser kan på så vis både förstärkas eller ta ut varandra. Vidare vet datorn inte vilken uppsättning av instrument som ljudet kommer från, samt hur många toner som spelas samtidigt. Ett nyligen applicerat segment inom forskningsområdet är machine learning genom så kallade neurala nätverk. Ett neuralt nätverk lärs upp till att automatiskt identifiera mönster i ett okänt dataset genom att anpassa parametrar på en stor mängd träningsdata. Hur neurala nätverk fungerar rent praktiskt och hur de appliceras för att estimera fundamentalfrekvenser är något som också utreds i denna avhandling.

Ett avsnitt är tillägnat åt att implementera en egen modell som baserar sig på insikter från existerande modeller. Den presenterade modellen använder sig av en variant av neurala nätverk som tillåter komplexa värden, det vill säga roten ur negativa tal. Detta är en nyintroducerad variant av neurala nätverk inom forskningsvärlden som inom bland annat bildigenkänning har visat bättre resultat än likvärdiga realvärda neurala nätverk. I avhandlingen görs en omfattande utvärdering där totalt 24 modeller testas på 12 musikstycken i olika stilar och instrumentkonstellationer. Den föreslagna modellen presterar väldigt väl och är enligt testerna den tredje bästa modellen.

Testerna används dels för att avgöra vilka modeller som presterar bäst, vilket ger ett mått på vad dagens forskning kan åstadkomma. Testerna används också för att analysera vilka frekvenser modellerna klarar av att estimera samt om det går att hitta några strukturella fel som de inte klarar av. Att grundligt utvärdera metoderna inom dagens forskning kan förhoppningsvis hjälpa till att vägleda framtidens forskning till att fortsätta göra nya framsteg. (Less)
Please use this url to cite or link to this publication:
author
Torby, Joel LU
supervisor
organization
course
MASM01 20181
year
type
H2 - Master's Degree (Two Years)
subject
keywords
Music transcription, music annotation, fundamental frequency estimation, machine learning, neural networks, mirex
publication/series
Master's Theses in Mathematical Sciences
report number
LUNFMS-3080-2018
ISSN
1404-6342
other publication id
2018:E59
language
English
id
8990968
date added to LUP
2019-10-10 13:33:40
date last changed
2019-10-10 13:33:40
@misc{8990968,
  abstract     = {{The research field of automatic music transcription has vastly grown during the 21st century, where the goal is to transcribe a polyphonic music signal into annotated sheet music. Within this field, the subproblem of fundamental frequency estimation in a piece of music is a difficult problem, e.g., due to dissimilar structures in signals from different instruments playing the same note. This becomes further convoluted in a polyphonic signal consisting of several notes, where the harmonic overtones of the notes interact. To solve this and other issues, machine learning techniques have furthered the research in music transcription, which is the main focus of this thesis. This is undertaken by comparing the best performing fundamental frequency estimators from recent years, mainly from MIREX competitions from 2015-2017. These are recreated and evaluated on a customized test set consisting of MIDI files of various instruments. The evaluation consists both of typical music transcription measures such as precision, recall and accuracy, but
also by deeper analysis in order to find the large-scale structural biases. The evaluation of the tests herein shows that the best performing models are THK1 and CT1 from MIREX 2017 which are based on CNN. This work has identified some structural errors in these methods pointing out potential for further improvements. In addition, a novel approach of applying complex-valued neural networks in music transcription is also examined, by modifying research in an existing deep complex neural network model. The proposed and improved model finishes on third place in the evaluation, indicating that complex neural networks may develop the research area of music transcription even further.}},
  author       = {{Torby, Joel}},
  issn         = {{1404-6342}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{Master's Theses in Mathematical Sciences}},
  title        = {{An exploration of the current state-of-the-art in automatic music transcription - with proposed improvements using machine learning}},
  year         = {{2018}},
}