Advanced

Classification and Computational Methods in Gene Expression Data Analysis

Ritz, Cecilia LU (2007)
Abstract (Swedish)
Popular Abstract in Swedish

Microarray-tekniken som har utvecklats under cirka ett decennium, har gett oss nya möjligheter att studera aktiviteten av tusentals gener samtidigt. Det är aktiviteten hos generna, eller uttrycket av generna, som karakteriserar en cell. Celler som tillhör olika organ, eller som befinner sig i olika omgivningar har karakteristiska genuttrycksmönster. Det som gör microarray-tekniken så användbar i cancer-forskning är att cancer-celler uppvisar ett karakteristiskt genuttryck beroende på vilken typ av cancer det är, hur aggressiv tumören är, eller vilken typ av behandling som kan vara till nytta. Detta kan hjälpa oss att förstå de biologiska mekanismerna bakom cancern. Den stora mängden av data ger... (More)
Popular Abstract in Swedish

Microarray-tekniken som har utvecklats under cirka ett decennium, har gett oss nya möjligheter att studera aktiviteten av tusentals gener samtidigt. Det är aktiviteten hos generna, eller uttrycket av generna, som karakteriserar en cell. Celler som tillhör olika organ, eller som befinner sig i olika omgivningar har karakteristiska genuttrycksmönster. Det som gör microarray-tekniken så användbar i cancer-forskning är att cancer-celler uppvisar ett karakteristiskt genuttryck beroende på vilken typ av cancer det är, hur aggressiv tumören är, eller vilken typ av behandling som kan vara till nytta. Detta kan hjälpa oss att förstå de biologiska mekanismerna bakom cancern. Den stora mängden av data ger också möjlighet att bygga datamodeller för kliniskt relevanta frågeställningar såsom prognos och diagnos.



Ett viktigt syfte med denna avhandling, förutom att bidra till utvecklingen av metoder för analys av microarray-data, var att bygga datamodeller för att förutsäga prognos eller diagnos av cancer. Två av artiklarna handlar om bröstcancer och en om leukemi.



Bröstcancer är den vanligaste formen av cancer hos kvinnor i västvärlden. Ungefär en av tio kommer att insjukna under sin livstid. Efter att den primära tumören är bortopererad är det viktigt att kunna uppskatta risken för att tumörceller kan ha spridit sig till närliggande områden eller andra delar av kroppen. För att förhindra uppkomsten av nya tumörer, så kallade metastaser, sätts olika former av behandlingar in. Idag sker en överbehandling av patienter beroende på att de prognostiska metoderna inte är tillräckligt säkra. Ibland händer också att tumörer utvecklar resistens mot en behandling. Det skulle därför också vara av värde om man kunde förutsäga vilka tumörer som svarar på behandlingen (prediktion), och vilka som skulle behöva en annan behandling.



För att bygga modellerna för prognos eller prediktion har vi använt en metod som bygger på maskin-inlärning, så kallade artificiella neurala nätverk (ANN). Våra resultat visar att de konventionella kliniska variablerna ger lika bra eller bättre resultat jämfört med en genuttrycks-profil. Flera efterföljande studier visar liknande resultat. För att kunna visa att de genprofiler vi undersökte skulle kunna förbättra prognos eller prediktion så måste man alltså göra fler studier som inkluderar ett större antal patienter. För att motivera en dyr kliniska prövning måste man ha ett större förtroende för att den nya metoden man vill testa faktiskt kommer ge en förbättring utöver redan existerande metoder.



I leukemi-studien fokuserar vi bland annat på genetiska subtyper av leukemi och svar på behandling. Många olika typer av leukemi karakteriseras av specifika fusions-gener. Det är gener från olika kromosomer som har slagits samman till en så kallad fusions-gen. Idag kan man detektera fusions-gener vid diagnos och tillsammans med andra kliniska metoder ställs en prognos. Vi har sett att man även med hjälp av genuttryck kan klassificera leukemier med olika fusions-gener. Utöver detta har vi lyckats identifiera en genprofil för svar på behandling i en subgrupp av patienterna. För att göra dessa klassificeringar tar vi hjälp av en metod som fungerar bra när man ska dela in prov i fler än två kategorier.



Utmaningen när man bygger klassificerare med hjälp av microarray-data är att det finns så många gener att välja på. Oftast är den stora majoriteten av gener inte relevanta för det man vill studera. På en microarray finns tiotusentals gener representerade. Utifrån dessa ska man alltså hitta de relevanta generna för att kalibrera sin modell.



I den sista artikeln beskriver vi en metod för att förbättra uppskattningen av saknade värden som oundvikligen uppstår i microarray-data. Vi delar in saknade värden i olika kategorier och visar att de saknade värderna i vissa kategorier är över- eller underskattade om man jämför med duplikaten av mätningarna. Därför utvecklar vi enmodell som kan förbättra redan existerande metoder för att kompensera för detta. (Less)
Abstract
The technology of cDNA microarrays has given us the possibility to monitor the state of cells by measuring the activity of thousands of genes simultaneously. This high-throughput techniqe has in cancer research allowed exploratory studies of molecular mechanisms behind for example metastasis and response to therapy. This increased knowledge can hopefully result in new therapies and improved prognostic and predictive tools. These tools however have to be properly validated in large cohorts and must be subjected to large-scale trials before use in the clinic.



One aim of this thesis is to evaluate the performance of classifiers of clinical outcome for breast cancer based on gene expression data as compared to conventional... (More)
The technology of cDNA microarrays has given us the possibility to monitor the state of cells by measuring the activity of thousands of genes simultaneously. This high-throughput techniqe has in cancer research allowed exploratory studies of molecular mechanisms behind for example metastasis and response to therapy. This increased knowledge can hopefully result in new therapies and improved prognostic and predictive tools. These tools however have to be properly validated in large cohorts and must be subjected to large-scale trials before use in the clinic.



One aim of this thesis is to evaluate the performance of classifiers of clinical outcome for breast cancer based on gene expression data as compared to conventional clinical markers. Additionally, we develop computational methods for analysis and classification using gene expression data. Our results suggests that clinical markers and molecular profiling have similar power in breast cancer prognosis. Further studies using larger cohorts are thus needed to validate and refine molecular prognostic profiles. We have also performed multicategory classification of leukemia into genetic subtypes and have predicted response to therapy in a subgroup. The main contribution to the computational analysis is our development of a method for improvement of missing value imputation of 2-dye cDNA microarray data. Recognizing that some categories of missing values are over- or underestimated in a kNN-based imputation method, we suggest a linear model that corrects for this bias and improves imputation of these spots. (Less)
Please use this url to cite or link to this publication:
author
supervisor
opponent
  • Professor Caldas, Carlos, Dept. of Oncology, Cambridge University, UK
organization
publishing date
type
Thesis
publication status
published
subject
keywords
Bioinformatik, medicinsk informatik, Bioinformatics, medical informatics, biomathematics biometrics, missing values, leukemia, cDNA microarray data, supervised classification, breast cancer, prognostic markers, biomatematik
publisher
Department of Theoretical Physics, Lund University
defense location
Lecture Hall F, Dept. of Physics
defense date
2007-05-11 10:15
ISBN
978-91-628-7159-8
language
English
LU publication?
yes
id
93d1caca-f48a-4ca2-a88d-2827aabcf941 (old id 548437)
date added to LUP
2007-09-06 14:29:24
date last changed
2016-09-19 08:45:12
@phdthesis{93d1caca-f48a-4ca2-a88d-2827aabcf941,
  abstract     = {The technology of cDNA microarrays has given us the possibility to monitor the state of cells by measuring the activity of thousands of genes simultaneously. This high-throughput techniqe has in cancer research allowed exploratory studies of molecular mechanisms behind for example metastasis and response to therapy. This increased knowledge can hopefully result in new therapies and improved prognostic and predictive tools. These tools however have to be properly validated in large cohorts and must be subjected to large-scale trials before use in the clinic.<br/><br>
<br/><br>
One aim of this thesis is to evaluate the performance of classifiers of clinical outcome for breast cancer based on gene expression data as compared to conventional clinical markers. Additionally, we develop computational methods for analysis and classification using gene expression data. Our results suggests that clinical markers and molecular profiling have similar power in breast cancer prognosis. Further studies using larger cohorts are thus needed to validate and refine molecular prognostic profiles. We have also performed multicategory classification of leukemia into genetic subtypes and have predicted response to therapy in a subgroup. The main contribution to the computational analysis is our development of a method for improvement of missing value imputation of 2-dye cDNA microarray data. Recognizing that some categories of missing values are over- or underestimated in a kNN-based imputation method, we suggest a linear model that corrects for this bias and improves imputation of these spots.},
  author       = {Ritz, Cecilia},
  isbn         = {978-91-628-7159-8},
  keyword      = {Bioinformatik,medicinsk informatik,Bioinformatics,medical informatics,biomathematics biometrics,missing values,leukemia,cDNA microarray data,supervised classification,breast cancer,prognostic markers,biomatematik},
  language     = {eng},
  publisher    = {Department of Theoretical Physics, Lund University},
  school       = {Lund University},
  title        = {Classification and Computational Methods in Gene Expression Data Analysis},
  year         = {2007},
}