Statistically Guided Visualization and Exploratory Analysis of Omics Data

Soneson, Charlotte

Statistically Guided Visualization and Exploratory Analysis of Omics Data

Mark

Soneson, Charlotte ^LU (2011)

Abstract: This thesis deals with methods for extracting robust and relevant information from high-dimensional data sets, and statistically guided visualization methods for representing the data in an informative and easily accessible way. High-dimensional data sets are becoming increasingly prevalent in many different scientific disciplines. In this thesis, we focus particularly on so called "omics" data. The "omics" suffix is often used to represent biological research fields where the aim is to study relations and interactions within entire systems of biological entities, such as genes or proteins. The thesis is based on five papers. In the first two papers, we develop a method for stabilizing rankings of variables or variable sets obtained from... (More); This thesis deals with methods for extracting robust and relevant information from high-dimensional data sets, and statistically guided visualization methods for representing the data in an informative and easily accessible way. High-dimensional data sets are becoming increasingly prevalent in many different scientific disciplines. In this thesis, we focus particularly on so called "omics" data. The "omics" suffix is often used to represent biological research fields where the aim is to study relations and interactions within entire systems of biological entities, such as genes or proteins. The thesis is based on five papers. In the first two papers, we develop a method for stabilizing rankings of variables or variable sets obtained from an experiment. The stabilization effect is achieved by incorporating information concerning the exchangeability of variable pairs into the ranking. We propose a general framework for representation of variable lists, into which the variable pair exchangeabilities can be easily incorporated and which allows straightforward comparison of any two lists. In the third paper, we consider relevant dimension reduction of high-dimensional data sets and propose a new dissimilarity measure which can be used within the Multidimensional Scaling framework to obtain a low-dimensional representation of a data set. The proposed dissimilarity measure treats the variables and experimental units of the data jointly and symmetrically and yields a low-dimensional representation where patterns encoded by small groups of variables or units are more readily visible than with conventional methods such as Principal Component Analysis. The fourth paper provides a straightforward and intuitively appealing criterion for variable subset evaluation in the context of visualization. Finally, in the fifth paper we apply multivariate, correlation-based algorithms to integrate different types of high-dimensional genomic data. We show that by shifting the focus from maximizing the covariance toward maximizing the correlation between the extracted patterns we can extract more biologically relevant knowledge. The focus shift is made possible by considering the dual formulation of the applied methods which in this case is more computationally efficient. (Less)
Abstract (Swedish): Popular Abstract in Swedish

Många av dagens stora folksjukdomar, såsom cancer, diabetes och hjärt-kärlsjukdomar, kopplas i allt högre grad samman med olika riskfaktorer som beror på förändringar i arvsmassan. Dessa nya kopplingar har möjliggjorts tack vare den extrema utveckling av genetiska mätmetoder som har skett under de senaste 15 åren. Med de nya metoderna kan förekomsten och aktiviteten hos ett stort antal genetiska komponenter (exempelvis gener och protein) kvantifieras samtidigt på ett snabbt och effektivt sätt, vilket ger upphov till mycket stora datamängder. Denna typ av datamängder, där man studerar hela system av biologiska variabler, betecknas ibland med samlingsnamnet ``omics''-data. En orsak till att man... (More); Popular Abstract in Swedish

Många av dagens stora folksjukdomar, såsom cancer, diabetes och hjärt-kärlsjukdomar, kopplas i allt högre grad samman med olika riskfaktorer som beror på förändringar i arvsmassan. Dessa nya kopplingar har möjliggjorts tack vare den extrema utveckling av genetiska mätmetoder som har skett under de senaste 15 åren. Med de nya metoderna kan förekomsten och aktiviteten hos ett stort antal genetiska komponenter (exempelvis gener och protein) kvantifieras samtidigt på ett snabbt och effektivt sätt, vilket ger upphov till mycket stora datamängder. Denna typ av datamängder, där man studerar hela system av biologiska variabler, betecknas ibland med samlingsnamnet ``omics''-data. En orsak till att man ofta väljer att mäta alla dessa variabler är att vi fortfarande har en ganska rudimentär uppfattning om hur olika komponenter samspelar, samt vilka komponenter som är viktiga i olika sammanhang. Målet med datainsamlingen är därför i många fall explorativt, vilket innebär att man försöker hitta nya, tidigare okända kopplingar och viktiga komponenter genom att söka relativt förutsättningslöst.

I de stora datamängderna kan vi naturligtvis finna mycket information, men också många redundanta och oväsentliga mätningar. Det finns också mycket mätfel och andra osäkerheter i den insamlade datan. Allt detta gör de stora datamängderna svårhanterliga, och ofta drunknar den verkligt intressanta informationen i det omgivande bruset. En annan försvårande omständighet är att det stora antalet mätpunkter gör att vi kommer att se många effekter som bara beror på slumpmässiga variationer, även om dessa var för sig är ganska osannolika. I detta läge kan matematiken göra verklig nytta genom att, baserat på väldefinierade statistiska kriterier, plocka ut den i någon mening ``viktigaste'' informationen ur data och därmed reducera storleken avsevärt, samtidigt som de mest relevanta faktorerna behålls. Man kan naturligtvis ställa sig flera olika frågor här, såsom vilken den viktigaste informationen är, och hur den ska extraheras från data. En annan viktig fråga är hur den relevanta informationen ska representeras grafiskt på ett visuellt tilltalande och lättillgängligt sätt. En grafisk representation är ofta till extremt stor nytta för att skaffa en överblick över en ny datamängd, och i många fall kan relevanta hypoteser genereras genom att betrakta sådana grafiska representationer, om de framställs på rätt sätt. Moderna metoder för 3D-visualisering har här en enorm potential att vara verkligt värdefulla för att möjliggöra interaktivt utforskande av komplexa datatyper. Eftersom vi kan studera många olika typer av genetiska komponenter kan man förstås också fråga sig hur dessa samspelar, och vilka komponenter som påverkar varandra.

I avhandlingen studerar vi alla dessa frågor ur ett matematiskt perspektiv, och presenterar flera metoder för att ta fram och visualisera relevant information från genetiska datamängder. Vi applicerar våra metoder på verkliga datamängder som genererats med hjälp av moderna mätmetoder. En viktig fråga, relaterad till den stora mängd slumpmässig variation som finns i denna typ av data, är hur man säkerställer att den information som man får ut är stabil gentemot små förändringar i den insamlade datan. Naturligtvis vill vi inte att en liten variation, som kan orsakas av små förändringar i laborationsuppställningar och liknande, ska få stor betydelse för resultaten från analysen av data. I avhandlingen presenterar vi en metod som kan användas för att stabilisera resultat som erhållits från existerande analysmetoder. Metoden bygger på att först uppskatta hur resultatet kan förändras vid små förändringar i den observerade datan, och sedan införliva denna kunskap med det ursprungliga resultatet.

Idag används en uppsjö av metoder för att reducera stora datamängder och extrahera den viktigaste informationen. Ett sätt att minska antalet variabler (till exempel gener eller protein) som behöver studeras är att helt enkelt ta bort dem som varierar minst mellan olika personer i en studie, eftersom detta tyder på att de inte tillför någon relevant information för att exempelvis avgöra vilken typ av sjukdom en patient har. I avhandlingen studerar vi bland annat denna typ av reduktion, och föreslår ett intuitivt tilltalande sätt för att tala om hur många variabler som ska tas bort för att få kvar en så informativ datamängd som möjligt, ur ett visualiseringsperspektiv. Idag fattas sådana beslut ofta på oklara grunder, och det finns inget enhetligt angreppssätt. Vi presenterar också ett nytt mått på vad som kan sägas utgöra den relevanta informationen i en datamängd, och visar att grafiska representationer skapade utifrån detta mått ofta framhäver andra egenskaper än motsvarande representationer från existerande metoder. Slutligen studerar vi en metod för att analysera hur två stora datamängder, som representerar olika typer av genetiska variabler, samvarierar. Även i detta fall representerar vi de båda datamängderna grafiskt. I dessa representationer kan vi tydligt se samband mellan de två variabeltyperna och urskilja flera olika kliniskt relevanta patientgrupper. (Less)

Please use this url to cite or link to this publication: https://lup.lub.lu.se/record/1967100

author

Soneson, Charlotte ^LU

supervisor

opponent

Ass. Prof. Boulesteix, Anne-Laure, Ludwig-Maximilians-Universität München, Germany

organization

publishing date

2011

type

Thesis

publication status

published

subject

Neurosciences

keywords

Bioinformatics, Exploratory analysis, Multidimensional Scaling, Omics data, Principal component analysis, Visualization

pages

290 pages

defense location

Lecture hall MH:C, Centre for Mathematical Sciences, Sölvegatan 18, Lund University Faculty of Engineering

defense date

2011-06-17 13:15:00

ISBN

978-91-7473-134-7

language

English

LU publication?

yes

id

a30ae12a-1cac-4f54-90b9-6818f35cc894 (old id 1967100)

date added to LUP

2016-04-04 09:43:41

date last changed

2019-03-13 18:20:57

@phdthesis{a30ae12a-1cac-4f54-90b9-6818f35cc894,
  abstract     = {{This thesis deals with methods for extracting robust and relevant information from high-dimensional data sets, and statistically guided visualization methods for representing the data in an informative and easily accessible way. High-dimensional data sets are becoming increasingly prevalent in many different scientific disciplines. In this thesis, we focus particularly on so called "omics" data. The "omics" suffix is often used to represent biological research fields where the aim is to study relations and interactions within entire systems of biological entities, such as genes or proteins. The thesis is based on five papers. In the first two papers, we develop a method for stabilizing rankings of variables or variable sets obtained from an experiment. The stabilization effect is achieved by incorporating information concerning the exchangeability of variable pairs into the ranking. We propose a general framework for representation of variable lists, into which the variable pair exchangeabilities can be easily incorporated and which allows straightforward comparison of any two lists. In the third paper, we consider relevant dimension reduction of high-dimensional data sets and propose a new dissimilarity measure which can be used within the Multidimensional Scaling framework to obtain a low-dimensional representation of a data set. The proposed dissimilarity measure treats the variables and experimental units of the data jointly and symmetrically and yields a low-dimensional representation where patterns encoded by small groups of variables or units are more readily visible than with conventional methods such as Principal Component Analysis. The fourth paper provides a straightforward and intuitively appealing criterion for variable subset evaluation in the context of visualization. Finally, in the fifth paper we apply multivariate, correlation-based algorithms to integrate different types of high-dimensional genomic data. We show that by shifting the focus from maximizing the covariance toward maximizing the correlation between the extracted patterns we can extract more biologically relevant knowledge. The focus shift is made possible by considering the dual formulation of the applied methods which in this case is more computationally efficient.}},
  author       = {{Soneson, Charlotte}},
  isbn         = {{978-91-7473-134-7}},
  keywords     = {{Bioinformatics; Exploratory analysis; Multidimensional Scaling; Omics data; Principal component analysis; Visualization}},
  language     = {{eng}},
  school       = {{Lund University}},
  title        = {{Statistically Guided Visualization and Exploratory Analysis of Omics Data}},
  year         = {{2011}},
}

Lund University Publications

LUND UNIVERSITY LIBRARIES

Statistically Guided Visualization and Exploratory Analysis of Omics Data