Advanced

Spatial Statistics and Ancestral Recombination Graphs with Applications in Gene Mapping and Geostatistics

Werner Hartman, Linda LU (2007)
Abstract (Swedish)
Popular Abstract in Swedish

Statistik handlar om att beskriva slumpmässiga händelser. Genom att bygga matematiska modeller för hur slumpen beter sig kan man beräkna hur troliga olika händelser är. Skilda ämnen har nytta av olika slags slumpmodeller, men slumpens lagar är universella! Därför kan en slumpmodell som utvecklats inom ett ämne senare visa sig användbar inom ett helt annat. Min avhandling handlar om slumpmodeller inom genetik och geologi, och om hur statistiska metoder från geologins område kan utnyttjas för att svara på frågor inom genetiken.



Slumpmodeller som används inom geologi måste kunna beskriva att när man mäter något (t.ex. en mineralhalt) på en plats, så är resultatet ofta likt det man... (More)
Popular Abstract in Swedish

Statistik handlar om att beskriva slumpmässiga händelser. Genom att bygga matematiska modeller för hur slumpen beter sig kan man beräkna hur troliga olika händelser är. Skilda ämnen har nytta av olika slags slumpmodeller, men slumpens lagar är universella! Därför kan en slumpmodell som utvecklats inom ett ämne senare visa sig användbar inom ett helt annat. Min avhandling handlar om slumpmodeller inom genetik och geologi, och om hur statistiska metoder från geologins område kan utnyttjas för att svara på frågor inom genetiken.



Slumpmodeller som används inom geologi måste kunna beskriva att när man mäter något (t.ex. en mineralhalt) på en plats, så är resultatet ofta likt det man mäter på en annan närliggande plats. Så, ju kortare avstånd mellan två platser, desto större är beroendet mellan mätresultaten. För att åstadkomma t.ex. en mineralogisk karta över ett område gör man mätningar av det aktuella mineralet på ett antal spridda mätpunkter i området. I punkter där man saknar mätningar får man istället uppskatta mineralhalten med hjälp av de mätningar man har. I denna uppskattning läggs större vikt vid mineralhalten i närliggande mätpunkter än vid mineralhalten i mätpunkter längre bort. Då måste man hålla reda på beroendet både mellan den nya punkten och alla mätpunkter, och mellan var och en av dessa. Om man har många mätpunkter - 10 000-tals eller fler - kan detta vara omöjligt även med dagens snabba datorer. I min avhandling visar jag hur man kan approximera den ursprungliga slumpmodellen med en annan slumpmodell, som ger likvärdiga resultat, men där beräkningarna går mycket snabbare.



Slumpmodellerna som används inom genetiken beskriver oftast helt andra slumpmässiga fenomen än inom geologin. Det mänskliga genomet består av knappt 25 000 gener, uppdelade på 23 kromosomer. Trots att man har forskat kring genetik sedan 1800-talet känner man ännu inte funktionen för mer än en bråkdel av generna. Omvänt vet man att många egenskaper och sjukdomar har genetiska orsaker, men man vet ännu inte var de ansvariga generna sitter. Genletning handlar just om att försöka lokalisera på vilken kromosom, och var på denna, som en gen som påverkar en viss sjukdom eller egenskap sitter.



Grundidén bakom metoderna i min avhandling är att utnyttja att alla som bär på sjukdomsgenen har ärvt den från en gemensam förfader, där mutationen för första gången uppstod. Generna ärvs inte en och en, utan i varje generation kommer äggets (och spermiens) kromosomer att bestå av långa kromosomstycken som kommer omväxlande från mormor och morfar (respektive farmor och farfar). Längden på dessa kromosomstycken är slumpmässig. De personer i dagens generation som ärvt sjukdomsgenen kommer därför att runt denna ha ett kromosomstycke som ärvts intakt från förfadern. I ett kromosomområde nära sjukdomsgenen kommer därför de sjuka att likna varandra mer än de friska. För att leta gener mäter man hur generna ser ut hos ett antal sjuka och friska personer på ett flertal markörer, dvs. väldefinierade positioner på kromosomerna. Med statistikens hjälp kan man skilja ut de markörer där de sjukas gener liknar varandra så mycket att det inte kan förklaras enbart av slumpen. Mycket talar då för att dessa markörer ligger nära sjukdomsgenen.



I min avhandling presenteras metoder där man utnyttjar flera markörer på samma kromosom samtidigt.



Om markörerna sitter tätt så är det inte bara en, utan flera markörer bredvid varandra, som ärvts från förfadern där sjukdomsmutationen uppstod till de sjuka som vi undersökt. Genom att leta efter det kromosomområde där en hel rad av de sjukas markörer liknar varandra kan man lättare peka ut området där sjukdomsgenen sitter, än om man bara tittar på varje markör för sig. I avhandlingen presenteras två metoder för detta. I båda fallen väljer man ut sjuka och friska personer som inte är nära släkt med varandra, och där man inte känner till något om deras släktskap.



I den första metoden byggs en slumpmodell för hur personerna man undersökt är släkt med varandra. Detta släktträd ger en modell för hur personernas kromosomer borde se ut, i förhållande till varandra. Slumpmodellen tillsammans med genmätningarna gör att det går att uppskatta hur nära släkt två uppmätta kromosomer är. Grundprincipen är att ju mindre två kromosomer skiljer sig åt desto närmare släkt är de. Eftersom våra kromosomerna kommer att ha vissa delar som vi ärvt av vår mormor och andra delar som vi ärvt av vår morfar (och motsvarande från farmor och farfar), och så vidare varje generation bakåt, så kommer olika delar på en och samma kromosom att ha skilda släktskap. Man kan därför använda denna slumpmodell till att leta efter den kromosomposition där de sjuka verkar vara närmre släkt med varandra än med de friska. Det nya i vår metod är bland annat att vår slumpmodell för släktskap tar hänsyn till hur man valt ut de personer vars gener undersöks.



Den andra genletningsmetoden identifierar också den position på kromosomen där just de sjuka har kromosomer som är lika varandra. Här modellerar vi inte ett helt släktträd, utan använder en mer ungefärlig modell som är gör det lättare att räkna. I den modellen får varje person en genetisk risk som beror på hur de uppmätta markörerna ser ut. Vi tänker oss att kromosomerna placeras ut i en abstrakt rymd på så vis att två kromosomer som är lika varandra får kort avstånd mellan sig. Sedan använder man modeller motsvarande de inom geologin, där ett kort avstånd gjorde att det var ett starkt beroende. Idén är att två kromosomer som liknar varandra bör ge liknande risk för att bli sjuk. Hur lika kromosomerna är skiljer sig mellan olika positioner. Vi kan nu söka den kromosomposition där de sjuka liknar varandra så mycket att risken för att bli sjuk är nästan samma för alla sjuka. Vi prövar här både nya sätt att räkna ut likheten mellan kromosomparen, och nya modeller för beroendet mellan de genetiska riskerna.



Min avhandling tar alltså upp både ämnesunika och universella aspekter av statistik. Den första generella egenskap som jag använt är att arbeta med approximativa modeller, som gör det lättare att räkna. Jag har vidare utnyttjat modeller där mätningar med kort avstånd emellan har starkt beroende - vare sig det är ett fysiskt avstånd eller ett avstånd som beror på hur lika två kromosomer är. (Less)
Abstract
This thesis explores models and algorithms in geostatistics and gene mapping. The first part deals with the use of computationally effective lattice models for inference of data with a continuous spatial index. The fundamental idea is to approximate a Gaussian field with a Gaussian Markov random field (GMRF) on a lattice, and then to conduct a bilinear interpolation of this at non-lattice locations. The resulting model is used for spatial interpolation, both in a Bayesian approach using Markov chain Monte Carlo (MCMC), and in kriging.



The second part of the thesis concerns genetic association analysis, particularly multi-locus gene mapping using case-control samples. The algorithms utilize the fact that a population... (More)
This thesis explores models and algorithms in geostatistics and gene mapping. The first part deals with the use of computationally effective lattice models for inference of data with a continuous spatial index. The fundamental idea is to approximate a Gaussian field with a Gaussian Markov random field (GMRF) on a lattice, and then to conduct a bilinear interpolation of this at non-lattice locations. The resulting model is used for spatial interpolation, both in a Bayesian approach using Markov chain Monte Carlo (MCMC), and in kriging.



The second part of the thesis concerns genetic association analysis, particularly multi-locus gene mapping using case-control samples. The algorithms utilize the fact that a population based sample of haplotypes (a collection of alleles at closely linked loci on the same chromosome) mirrors the population history of shared ancestry, mutation, recombination etc. Around the disease locus chromosomes carrying the disease mutation will be more similar than chromosomes that do not carry the disease mutation (on account of increased levels of shared ancestry).



Two models and corresponding algorithms for gene mapping are presented. The first explicitly models the genealogy taking the over-sampling of cases into account. Under certain model approximations, a permutation-based test for genetic association is developed that is computationally feasible, even when haplotype phase is unknown. It contends with arbitrary phenotypes and genetic models, allows for neutral mutations, and adapts to marker allele frequencies.



The second model utilizes concepts and algorithms from both spatial statistics and statistical genetics. A spatial smoothing model is used for haplotypes, such that structurally similar haplotypes have risk parameters with high correlation. The disease locus is then searched as the place where a local similarity measure produces risk parameters that can discriminate between cases and controls. Different covariance structures and similarity metrics are suggested and compared. (Less)
Please use this url to cite or link to this publication:
author
supervisor
opponent
  • PhD De Iorio, Maria, Department of Epidemiology and Public Health, Imperial College, London, United Kingdom
organization
publishing date
type
Thesis
publication status
published
subject
keywords
Genetik, Genetics, cytogenetics, cytogenetik, genetic association analysis, ancestral recombination graph Generalized linear mixed models, kriging, bilinear interpolation, Gaussian Markov random fields, Statistics
pages
156 pages
publisher
Mathematical Statistics, Centre for Mathematical Sciences, Lund University
defense location
Lecture hall MH:A, Centre for Mathematical Sciences, Sölvegatan 18, Lund University Faculty of Engineering.
defense date
2007-10-25 09:15
ISBN
978-91-628-7266-3
language
English
LU publication?
yes
id
c1f1c5b9-364e-48cc-b227-6901a2e7426e (old id 599053)
date added to LUP
2007-11-13 07:56:28
date last changed
2016-09-19 08:45:12
@misc{c1f1c5b9-364e-48cc-b227-6901a2e7426e,
  abstract     = {This thesis explores models and algorithms in geostatistics and gene mapping. The first part deals with the use of computationally effective lattice models for inference of data with a continuous spatial index. The fundamental idea is to approximate a Gaussian field with a Gaussian Markov random field (GMRF) on a lattice, and then to conduct a bilinear interpolation of this at non-lattice locations. The resulting model is used for spatial interpolation, both in a Bayesian approach using Markov chain Monte Carlo (MCMC), and in kriging.<br/><br>
<br/><br>
The second part of the thesis concerns genetic association analysis, particularly multi-locus gene mapping using case-control samples. The algorithms utilize the fact that a population based sample of haplotypes (a collection of alleles at closely linked loci on the same chromosome) mirrors the population history of shared ancestry, mutation, recombination etc. Around the disease locus chromosomes carrying the disease mutation will be more similar than chromosomes that do not carry the disease mutation (on account of increased levels of shared ancestry).<br/><br>
<br/><br>
Two models and corresponding algorithms for gene mapping are presented. The first explicitly models the genealogy taking the over-sampling of cases into account. Under certain model approximations, a permutation-based test for genetic association is developed that is computationally feasible, even when haplotype phase is unknown. It contends with arbitrary phenotypes and genetic models, allows for neutral mutations, and adapts to marker allele frequencies.<br/><br>
<br/><br>
The second model utilizes concepts and algorithms from both spatial statistics and statistical genetics. A spatial smoothing model is used for haplotypes, such that structurally similar haplotypes have risk parameters with high correlation. The disease locus is then searched as the place where a local similarity measure produces risk parameters that can discriminate between cases and controls. Different covariance structures and similarity metrics are suggested and compared.},
  author       = {Werner Hartman, Linda},
  isbn         = {978-91-628-7266-3},
  keyword      = {Genetik,Genetics,cytogenetics,cytogenetik,genetic association analysis,ancestral recombination graph Generalized linear mixed models,kriging,bilinear interpolation,Gaussian Markov random fields,Statistics},
  language     = {eng},
  pages        = {156},
  publisher    = {ARRAY(0x9317708)},
  title        = {Spatial Statistics and Ancestral Recombination Graphs with Applications in Gene Mapping and Geostatistics},
  year         = {2007},
}