Advanced

Discrete Stochastic Time-Frequency Analysis and Cepstrum Estimation

Sandberg, Johan LU (2010) In LUTFMS-1035-2010 2010:3.
Abstract (Swedish)
Popular Abstract in Swedish

Det är ofta fördelaktigt att i olika sammanhang representera våra observationer av verkligheten med en följd av tal. Så skilda exempel som ljud, bilder, hjärnvågor, havsvattenvågor, jordbävningar och aktiekurser kan låta sig beskrivas av följder av tal. Man kan med fördel föreställa sig följden som en uppritad graf, där den horisontella axeln beskriver tidpunkten för mätningen och den vertikala beskriver storleken på det uppmätta värdet. Vi använder ordet "tid" för att beskriva positionen i talföljden även om talens position i somliga tillämpningar representerar något annat än olika tidpunkter. För att kunna analysera dessa följder av tal är det ofta lämpligt att utgå från att våra observationer... (More)
Popular Abstract in Swedish

Det är ofta fördelaktigt att i olika sammanhang representera våra observationer av verkligheten med en följd av tal. Så skilda exempel som ljud, bilder, hjärnvågor, havsvattenvågor, jordbävningar och aktiekurser kan låta sig beskrivas av följder av tal. Man kan med fördel föreställa sig följden som en uppritad graf, där den horisontella axeln beskriver tidpunkten för mätningen och den vertikala beskriver storleken på det uppmätta värdet. Vi använder ordet "tid" för att beskriva positionen i talföljden även om talens position i somliga tillämpningar representerar något annat än olika tidpunkter. För att kunna analysera dessa följder av tal är det ofta lämpligt att utgå från att våra observationer till viss del påverkats av slumpmässiga variationer. Man säger då att följden är en observation av en tidsserie eller en stokastisk process i diskret tid.



I vissa sammanhang kan man utgå från att talen i följden är både positiva och negativa på ett sådant sätt att medelvärdet av följden är nära noll. Det gäller till exempel mätning av olika elektriska signaler och ljudvågor. För den typen av stokastiska processer är det ofta intressant att studera samvariationer mellan tal på olika ställen i följden. Samvariationen beskrivs av processens kovariansfunktion. Ibland tydliggörs viss information i kovariansfunktionen genom en transformation. Två exempel på sådana transformer av kovariansfunktionen är medelvärdet av ambiguity-funktionen och cepstrat.



Ambiguity-funktionen används framförallt för stokastiska processer vars statistiska egenskaper skiljer sig åt på olika ställen i talföljden. Sådana processer kallas icke-stationära. Ambiguity-funktionen spelar en central roll inom tids-frekvens-analys. Syftet med tids-frekvens-analys är att beskriva kovariansfunktionen för en icke-stationära process som en fördelning över tid och frekvens. En liknande representation återfinns inom musiken, där noterna beskriver vid vilken tidpunkt som olika toner, dvs frekvenser, ska spelas.



Processer vars statistiska egenskaper inte förändras med tiden kallas stationära. För sådana processer används ibland cepstrat för att beskriva vissa egenskaper hos processen. Cepstrat har fått särskilt stor användning i tillämpningar där tidsserien representerar en ljudinspelning av något slag. I detta sammanhang bör man endast betrakta en mycket kort bit av ljudinspelningen i taget, eftersom kravet på att processen ska vara stationär annars inte är uppfyllt. I sammanhang då ljudet är en röstinspelning antas det ofta att cepstrat på ett förhållandevis tydligt sätt beskriver vad som sägs och vem som talar under inspelningen.



Eftersom medelvärdet av ambiguityfunktionen och cepstrat beror på samvariationerna i talföljden och då dessa i praktiska tillämpningar aldrig är helt kända, kan vi i praktiken bara göra uppskattningar av medelvärdet av ambiguity-funktionen och cepstrat. Det finns olika metoder för att göra sådana uppskattningar. I den här avhandlingen bevisas vissa möjligheter och begränsningar med några sådana metoder. (Less)
Abstract
The theory of stochastic time-frequency analysis of non-stationary random processes has mostly been developed for processes in continuous time. In practice however, random processes are observed, processed, and interpreted at a finite set of time points. For processes in continuous time, the ambiguity domain has interesting properties which makes it particularly useful. One such property is that there exists a certain relationship between scaling in the ambiguity domain and convolution in the time-lag domain. For processes in discrete time, several different definitions of the ambiguity domain have been proposed. Paper A and B of this thesis contributes to the discretization of time-frequency theory, where we in Paper A compare three of... (More)
The theory of stochastic time-frequency analysis of non-stationary random processes has mostly been developed for processes in continuous time. In practice however, random processes are observed, processed, and interpreted at a finite set of time points. For processes in continuous time, the ambiguity domain has interesting properties which makes it particularly useful. One such property is that there exists a certain relationship between scaling in the ambiguity domain and convolution in the time-lag domain. For processes in discrete time, several different definitions of the ambiguity domain have been proposed. Paper A and B of this thesis contributes to the discretization of time-frequency theory, where we in Paper A compare three of the most common definitions: the Claasen-Mecklenbräuker, the Nuttall, and the Jeong-Williams ambiguity domain. We prove that amongst these three, only the Jeong-Williams ambiguity domain has the property that there exists a bijection between scaling in this domain and convolution in the time-lag domain. For processes in continuous time, there is also a certain mapping between the mean square error (MSE) optimal smoothing covariance function estimator and the MSE optimal ambiguity function estimator. This mapping allows us to compute the MSE optimal smoothing estimator in a convenient way. In Paper B, we prove that a similar relationship is not valid between the scaling estimators in the Jeong-Williams ambiguity domain and the smoothing covariance function estimators for processes in discrete time. However, we show that the MSE optimal smoothing covariance function estimator for a non-stationary random process in discrete time can be found as the solution to a linear system of equations. It allows us to find the lower MSE bound of this family of estimators. In Paper C, we show that it is possible to compute a covariance function estimator which is MSE optimal to a set of processes in order to increase the robustness.



The cepstrum of a stationary random process has a lot of interesting applications. It is usually estimated as the Fourier transform of the log-periodogram. In Paper D, we propose a multitaper based estimator and we derive approximations of its bias and variance. We demonstrate the performance of the multitaper based estimator in a speaker verification task. In Paper E we discuss four different families of cepstrum estimators based on smoothing. We find the MSE optimal smoother in each family and the lower MSE bound of each family of estimators. The robustness of the optimal estimators within each family is also considered. (Less)
Please use this url to cite or link to this publication:
author
supervisor
opponent
  • Docent Jansson, Magnus, KTH
organization
publishing date
type
Thesis
publication status
published
subject
keywords
ambiguity domain, time-frequency analysis, time-frequency representations, covariance function, non-stationary random processes, Speaker recognition, MFCC, cepstrum
in
LUTFMS-1035-2010
volume
2010:3
pages
128 pages
publisher
Lund University
defense location
Hörsal C, Matematikcentrum, Sölvegatan 18, Lunds Universitet, Lunds Tekniska Högskola
defense date
2010-05-07 10:15
external identifiers
  • other:LUTFMS-1035-2010
ISSN
1404-0034
ISBN
978-91-628-8080-4
language
English
LU publication?
yes
id
384e7bc9-57d6-4a76-8827-cfb02978dee7 (old id 1585231)
date added to LUP
2010-04-15 13:38:33
date last changed
2018-05-29 09:37:20
@phdthesis{384e7bc9-57d6-4a76-8827-cfb02978dee7,
  abstract     = {The theory of stochastic time-frequency analysis of non-stationary random processes has mostly been developed for processes in continuous time. In practice however, random processes are observed, processed, and interpreted at a finite set of time points. For processes in continuous time, the ambiguity domain has interesting properties which makes it particularly useful. One such property is that there exists a certain relationship between scaling in the ambiguity domain and convolution in the time-lag domain. For processes in discrete time, several different definitions of the ambiguity domain have been proposed. Paper A and B of this thesis contributes to the discretization of time-frequency theory, where we in Paper A compare three of the most common definitions: the Claasen-Mecklenbräuker, the Nuttall, and the Jeong-Williams ambiguity domain. We prove that amongst these three, only the Jeong-Williams ambiguity domain has the property that there exists a bijection between scaling in this domain and convolution in the time-lag domain. For processes in continuous time, there is also a certain mapping between the mean square error (MSE) optimal smoothing covariance function estimator and the MSE optimal ambiguity function estimator. This mapping allows us to compute the MSE optimal smoothing estimator in a convenient way. In Paper B, we prove that a similar relationship is not valid between the scaling estimators in the Jeong-Williams ambiguity domain and the smoothing covariance function estimators for processes in discrete time. However, we show that the MSE optimal smoothing covariance function estimator for a non-stationary random process in discrete time can be found as the solution to a linear system of equations. It allows us to find the lower MSE bound of this family of estimators. In Paper C, we show that it is possible to compute a covariance function estimator which is MSE optimal to a set of processes in order to increase the robustness.<br/><br>
<br/><br>
The cepstrum of a stationary random process has a lot of interesting applications. It is usually estimated as the Fourier transform of the log-periodogram. In Paper D, we propose a multitaper based estimator and we derive approximations of its bias and variance. We demonstrate the performance of the multitaper based estimator in a speaker verification task. In Paper E we discuss four different families of cepstrum estimators based on smoothing. We find the MSE optimal smoother in each family and the lower MSE bound of each family of estimators. The robustness of the optimal estimators within each family is also considered.},
  author       = {Sandberg, Johan},
  isbn         = {978-91-628-8080-4},
  issn         = {1404-0034},
  keyword      = {ambiguity domain,time-frequency analysis,time-frequency representations,covariance function,non-stationary random processes,Speaker recognition,MFCC,cepstrum},
  language     = {eng},
  pages        = {128},
  publisher    = {Lund University},
  school       = {Lund University},
  series       = {LUTFMS-1035-2010},
  title        = {Discrete Stochastic Time-Frequency Analysis and Cepstrum Estimation},
  volume       = {2010:3},
  year         = {2010},
}