Classification and Computational Methods in Gene Expression Data Analysis

Ritz, Cecilia

Classification and Computational Methods in Gene Expression Data Analysis

Mark

Ritz, Cecilia ^LU (2007)

Abstract: The technology of cDNA microarrays has given us the possibility to monitor the state of cells by measuring the activity of thousands of genes simultaneously. This high-throughput techniqe has in cancer research allowed exploratory studies of molecular mechanisms behind for example metastasis and response to therapy. This increased knowledge can hopefully result in new therapies and improved prognostic and predictive tools. These tools however have to be properly validated in large cohorts and must be subjected to large-scale trials before use in the clinic.

One aim of this thesis is to evaluate the performance of classifiers of clinical outcome for breast cancer based on gene expression data as compared to conventional... (More); The technology of cDNA microarrays has given us the possibility to monitor the state of cells by measuring the activity of thousands of genes simultaneously. This high-throughput techniqe has in cancer research allowed exploratory studies of molecular mechanisms behind for example metastasis and response to therapy. This increased knowledge can hopefully result in new therapies and improved prognostic and predictive tools. These tools however have to be properly validated in large cohorts and must be subjected to large-scale trials before use in the clinic.

One aim of this thesis is to evaluate the performance of classifiers of clinical outcome for breast cancer based on gene expression data as compared to conventional clinical markers. Additionally, we develop computational methods for analysis and classification using gene expression data. Our results suggests that clinical markers and molecular profiling have similar power in breast cancer prognosis. Further studies using larger cohorts are thus needed to validate and refine molecular prognostic profiles. We have also performed multicategory classification of leukemia into genetic subtypes and have predicted response to therapy in a subgroup. The main contribution to the computational analysis is our development of a method for improvement of missing value imputation of 2-dye cDNA microarray data. Recognizing that some categories of missing values are over- or underestimated in a kNN-based imputation method, we suggest a linear model that corrects for this bias and improves imputation of these spots. (Less)
Abstract (Swedish): Popular Abstract in Swedish

Microarray-tekniken som har utvecklats under cirka ett decennium, har gett oss nya möjligheter att studera aktiviteten av tusentals gener samtidigt. Det är aktiviteten hos generna, eller uttrycket av generna, som karakteriserar en cell. Celler som tillhör olika organ, eller som befinner sig i olika omgivningar har karakteristiska genuttrycksmönster. Det som gör microarray-tekniken så användbar i cancer-forskning är att cancer-celler uppvisar ett karakteristiskt genuttryck beroende på vilken typ av cancer det är, hur aggressiv tumören är, eller vilken typ av behandling som kan vara till nytta. Detta kan hjälpa oss att förstå de biologiska mekanismerna bakom cancern. Den stora mängden av data ger... (More); Popular Abstract in Swedish

Microarray-tekniken som har utvecklats under cirka ett decennium, har gett oss nya möjligheter att studera aktiviteten av tusentals gener samtidigt. Det är aktiviteten hos generna, eller uttrycket av generna, som karakteriserar en cell. Celler som tillhör olika organ, eller som befinner sig i olika omgivningar har karakteristiska genuttrycksmönster. Det som gör microarray-tekniken så användbar i cancer-forskning är att cancer-celler uppvisar ett karakteristiskt genuttryck beroende på vilken typ av cancer det är, hur aggressiv tumören är, eller vilken typ av behandling som kan vara till nytta. Detta kan hjälpa oss att förstå de biologiska mekanismerna bakom cancern. Den stora mängden av data ger också möjlighet att bygga datamodeller för kliniskt relevanta frågeställningar såsom prognos och diagnos.

Ett viktigt syfte med denna avhandling, förutom att bidra till utvecklingen av metoder för analys av microarray-data, var att bygga datamodeller för att förutsäga prognos eller diagnos av cancer. Två av artiklarna handlar om bröstcancer och en om leukemi.

Bröstcancer är den vanligaste formen av cancer hos kvinnor i västvärlden. Ungefär en av tio kommer att insjukna under sin livstid. Efter att den primära tumören är bortopererad är det viktigt att kunna uppskatta risken för att tumörceller kan ha spridit sig till närliggande områden eller andra delar av kroppen. För att förhindra uppkomsten av nya tumörer, så kallade metastaser, sätts olika former av behandlingar in. Idag sker en överbehandling av patienter beroende på att de prognostiska metoderna inte är tillräckligt säkra. Ibland händer också att tumörer utvecklar resistens mot en behandling. Det skulle därför också vara av värde om man kunde förutsäga vilka tumörer som svarar på behandlingen (prediktion), och vilka som skulle behöva en annan behandling.

För att bygga modellerna för prognos eller prediktion har vi använt en metod som bygger på maskin-inlärning, så kallade artificiella neurala nätverk (ANN). Våra resultat visar att de konventionella kliniska variablerna ger lika bra eller bättre resultat jämfört med en genuttrycks-profil. Flera efterföljande studier visar liknande resultat. För att kunna visa att de genprofiler vi undersökte skulle kunna förbättra prognos eller prediktion så måste man alltså göra fler studier som inkluderar ett större antal patienter. För att motivera en dyr kliniska prövning måste man ha ett större förtroende för att den nya metoden man vill testa faktiskt kommer ge en förbättring utöver redan existerande metoder.

I leukemi-studien fokuserar vi bland annat på genetiska subtyper av leukemi och svar på behandling. Många olika typer av leukemi karakteriseras av specifika fusions-gener. Det är gener från olika kromosomer som har slagits samman till en så kallad fusions-gen. Idag kan man detektera fusions-gener vid diagnos och tillsammans med andra kliniska metoder ställs en prognos. Vi har sett att man även med hjälp av genuttryck kan klassificera leukemier med olika fusions-gener. Utöver detta har vi lyckats identifiera en genprofil för svar på behandling i en subgrupp av patienterna. För att göra dessa klassificeringar tar vi hjälp av en metod som fungerar bra när man ska dela in prov i fler än två kategorier.

Utmaningen när man bygger klassificerare med hjälp av microarray-data är att det finns så många gener att välja på. Oftast är den stora majoriteten av gener inte relevanta för det man vill studera. På en microarray finns tiotusentals gener representerade. Utifrån dessa ska man alltså hitta de relevanta generna för att kalibrera sin modell.

I den sista artikeln beskriver vi en metod för att förbättra uppskattningen av saknade värden som oundvikligen uppstår i microarray-data. Vi delar in saknade värden i olika kategorier och visar att de saknade värderna i vissa kategorier är över- eller underskattade om man jämför med duplikaten av mätningarna. Därför utvecklar vi enmodell som kan förbättra redan existerande metoder för att kompensera för detta. (Less)

Please use this url to cite or link to this publication: https://lup.lub.lu.se/record/548437

author

Ritz, Cecilia ^LU

supervisor

Patrik Edén ^LU

opponent

Professor Caldas, Carlos, Dept. of Oncology, Cambridge University, UK

organization

Computational Biology and Biological Physics

publishing date

2007

type

Thesis

publication status

published

subject

Biophysics

keywords

Bioinformatik, medicinsk informatik, Bioinformatics, medical informatics, biomathematics biometrics, missing values, leukemia, cDNA microarray data, supervised classification, breast cancer, prognostic markers, biomatematik

publisher

Department of Theoretical Physics, Lund University

defense location

Lecture Hall F, Dept. of Physics

defense date

2007-05-11 10:15:00

ISBN

978-91-628-7159-8

language

English

LU publication?

yes

additional info

Patrik Edén, Cecilia Ritz, Carsten Rose, Mårten Fernö and Carsten Peterson. 2004. "Good old" clinical markers have similar power in breast cancer prognosis as microarray gene expression profilers European Journal of Cancer, vol 40 pp 1837-1841. Elsevier

Emma Niméus-Malmström, Cecilia Ritz, Patrik Edén, Anders Johnsson, Mattias Ohlsson, Carina Strand, Görel Östberg, Mårten Fernö and Carsten Peterson. 2006. Gene expression profilers and conventional clinical markers to predict recurrences for premenopausal breast cancer patients after adjuvant chemotherapy European Journal of Cancer, vol 42 pp 2729-2737. Elsevier

Anna Andersson, Cecilia Ritz, David Lindgren, Patrik Edén, Carin Lassen, Jesper Heldrup, Tor Olofsson, Johan Råde, Magnus Fontes, Anna Porwit-MacDonald, Mikael Behrendtz, Mattias Höglund, Bertil Johansson and Thoas Fioretos. 2007. Microarry-based classification of a consecutive series of 121 childhood acute leukemias: prediction of leukemic and genetic subtype as well as of minimal residual disease Leukemia, Nature publishing group (inpress)

Cecilia Ritz and Patrik Edén. . Missing value categorization improves imputation in 2-dye cDNA microarray data (submitted)

id

93d1caca-f48a-4ca2-a88d-2827aabcf941 (old id 548437)

date added to LUP

2016-04-04 11:46:31

date last changed

2025-04-04 14:26:52

@phdthesis{93d1caca-f48a-4ca2-a88d-2827aabcf941,
  abstract     = {{The technology of cDNA microarrays has given us the possibility to monitor the state of cells by measuring the activity of thousands of genes simultaneously. This high-throughput techniqe has in cancer research allowed exploratory studies of molecular mechanisms behind for example metastasis and response to therapy. This increased knowledge can hopefully result in new therapies and improved prognostic and predictive tools. These tools however have to be properly validated in large cohorts and must be subjected to large-scale trials before use in the clinic.<br/><br>
<br/><br>
One aim of this thesis is to evaluate the performance of classifiers of clinical outcome for breast cancer based on gene expression data as compared to conventional clinical markers. Additionally, we develop computational methods for analysis and classification using gene expression data. Our results suggests that clinical markers and molecular profiling have similar power in breast cancer prognosis. Further studies using larger cohorts are thus needed to validate and refine molecular prognostic profiles. We have also performed multicategory classification of leukemia into genetic subtypes and have predicted response to therapy in a subgroup. The main contribution to the computational analysis is our development of a method for improvement of missing value imputation of 2-dye cDNA microarray data. Recognizing that some categories of missing values are over- or underestimated in a kNN-based imputation method, we suggest a linear model that corrects for this bias and improves imputation of these spots.}},
  author       = {{Ritz, Cecilia}},
  isbn         = {{978-91-628-7159-8}},
  keywords     = {{Bioinformatik; medicinsk informatik; Bioinformatics; medical informatics; biomathematics biometrics; missing values; leukemia; cDNA microarray data; supervised classification; breast cancer; prognostic markers; biomatematik}},
  language     = {{eng}},
  publisher    = {{Department of Theoretical Physics, Lund University}},
  school       = {{Lund University}},
  title        = {{Classification and Computational Methods in Gene Expression Data Analysis}},
  year         = {{2007}},
}

Lund University Publications

LUND UNIVERSITY LIBRARIES

Classification and Computational Methods in Gene Expression Data Analysis