Variant Calling and Microarray Expression Analysis in Pancreatic Islet Samples

Asplund, Olof

Variant Calling and Microarray Expression Analysis in Pancreatic Islet Samples

Mark

Asplund, Olof (2014) BINP31 20131
Degree Projects in Bioinformatics

Abstract: Abstract

This article describes the creation of a pipeline for variant calling from high-throughput next-generation exome and RNA sequencing data using commonly used bioinformatics tools. High-throughput sequencing data from six pancreatic islet cell samples were analyzed using the pipeline, and the resulting variant calls were validated against chip genotyping data from the same individuals. The results indicate that variant calling can be applied to RNA-seq and exome sequencing data to identify genetic variants in exons and coding regions with high precision, while the recall was relatively low. In other words, identified genotypes seem to have a high probability of being correct, but only part of the present variants are picked up.... (More); Abstract

This article describes the creation of a pipeline for variant calling from high-throughput next-generation exome and RNA sequencing data using commonly used bioinformatics tools. High-throughput sequencing data from six pancreatic islet cell samples were analyzed using the pipeline, and the resulting variant calls were validated against chip genotyping data from the same individuals. The results indicate that variant calling can be applied to RNA-seq and exome sequencing data to identify genetic variants in exons and coding regions with high precision, while the recall was relatively low. In other words, identified genotypes seem to have a high probability of being correct, but only part of the present variants are picked up. This is especially true for RNA-seq. (Less)
Abstract (Swedish): Populärvetenskaplig sammanfattning

Genetisk variation och genuttryck i Langerhanska öar

Projekt 1 - Genetisk variation

DNA är den mänskliga cellens informationslagringsenhet och består av långa sekvenser av de fyra nukleotiderna adenin(A), tymin(T), cytosin(C) och guanin(G). Proteiner kan binda till DNA och översätta delar av dessa sekvenser(gener) till RNA, en liknande typ av molekyl. RNA kan sedan användas för att organisera tillverkningen av olika proteiner. Dessutom beskriver DNA-sekvensen när och var olika proteiner tillverkas. Det genetiska materialet är uppdelat på 23 långa sekvenser, så kallade kromosomer. Alla celler i kroppen utom könscellerna har två kopior av varje kromosom. Könscellerna har endast en slumpmässigt... (More); Populärvetenskaplig sammanfattning

Genetisk variation och genuttryck i Langerhanska öar

Projekt 1 - Genetisk variation

DNA är den mänskliga cellens informationslagringsenhet och består av långa sekvenser av de fyra nukleotiderna adenin(A), tymin(T), cytosin(C) och guanin(G). Proteiner kan binda till DNA och översätta delar av dessa sekvenser(gener) till RNA, en liknande typ av molekyl. RNA kan sedan användas för att organisera tillverkningen av olika proteiner. Dessutom beskriver DNA-sekvensen när och var olika proteiner tillverkas. Det genetiska materialet är uppdelat på 23 långa sekvenser, så kallade kromosomer. Alla celler i kroppen utom könscellerna har två kopior av varje kromosom. Könscellerna har endast en slumpmässigt valt kopia av varje kromosom, vilket gör att avkomman till två personer ärver en kromosom per kromosompar från varje förälder. Det är viktigt att påpeka att de två kromosomerna i varje kromosompar är funktionellt ekvivalenta, men sekvenserna är oftast inte exakt desamma. Undantaget är XY- kromosomparet, där X och Y-versionen har olika funktioner och bestämmer vilket kön barnet får. På det sättet kan varje position på de 22 så kallade somatiska kromosomerna hos varje individ beskrivas med två olika nukleotider, exempelvis A/A, A/T eller A/G. Denna beskrivning kallas för en genotyp. Den här typen av skillnad mellan individer kallas, ifall den är vanligt förekommande i befolkningen, för single nucleotide polymorphism(SNP). Eftersom sådana skillnader kan påverka hur proteiner i kroppen byggs upp, eller förändra när och var olika proteiner tillverkas, kan de ha starka effekter på hur kroppen fungerar. Därför studeras SNP:ar mycket inom medicinsk forskning.

Målet med det här projektet var att ta data från de kodande sekvenserna i DNA och från RNA-sekvenser, respektive, och söka igenom datan efter skillnader i olika SNPar. Vi var intresserade av att veta ifall SNPar kunde identifieras korrekt från RNA, ett användningsområde som är relativt ovanligt. SNParna som hittades från de två datakällorna jämfördes med varandra och med en uppsättning SNPar som var kända från en tillförlitlig datakälla. Resultaten visade att SNPar hittade i RNA och kodande DNA hade likartad tillförlitlighet för en uppsättning av ca 30,000 SNPar som vi studerade. SNPar hittade i RNA-data var lika korrekta som SNPar hittade i data från kodande DNA. Färre SNPar hittades dock i RNA-data än i data från kodande DNA. För både RNA-data och kodande DNA visade det sig att SNPar med olika genotyper var olika korrekta. Heterozygota SNPar, alltså SNPar med två olika nukleotider hos en given individ, var mer korrekta än homozygota SNPar, SNPar med två upplagor av samma nukleotid.

Projekt 2 – Genuttryck

Människan har omkring 20,000 olika gener som kodar för olika proteiner. När en gen översätts till RNA och används för att bilda proteiner säger man att genen uttrycks. Olika vävnader uttrycker olika uppsättningar av gener. Dessutom förändras styrkan av genuttryck beroende på tid, ämnesomsättning och många andra biologiska faktorer. Att studera cellers genuttryck ger därmed en inblick i hur celler, vävnader och organismer fungerar.
Ett verktyg för att analysera genuttryck är den så kallade mikroarrayen. Det är en skiva på vilken ett stort antal korta DNA-sekvenser är fastsatta. En lösning med olika RNA-molekyler översätts till DNA-molekyler, och läggs sedan på plattan där de binder till de fastsatta molekylerna. DNA-strängarna i lösningen är kopplade till molekyler som bildar ljus, vilket gör att mängden av varje molekyl på mikroarrayen kan läsas av som en ljusintensitet på arrayen. En liknande metod kallas för bead-array. I denna metod är DNA-sekvenserna fastsatta på ett stort antal mikrometerstora kulor. Dessa kulor läggs i brunnar på en platta. Till skillnad från mikroarrayer är DNA-sekvenserna slumpmässigt placerade på plattan.
I Human Tissue Lab i Uppsala finns det stora arkiv med vävnadsprover som har blivit konserverade genom behandling med formalin. Problemet är att formalinet reagerar med RNAt i provet och gör att genuttryck inte kan analyseras rakt av lika bra. Företaget som tillverkar bead-arrays, Illumina, säljer kemikalieuppsättningar som tillsammans med bead-arrays ska minska detta problem. Målet med det här projektet var att jämföra genuttryck mätt med mikroarrayer och bead-arrayer, för att se ifall data från de olika plattformarna är jämförbara. För det första jämfördes de råa intensiteterna på olika plattformar. För det andra jämfördes skillnader mellan olika patientgrupper på olika plattformar. För det tredje jämfördes upp-och nedreglerade grupper av gener i olika patientgrupper på de olika plattformarna. Resultaten visar att råa intensiteter skiljer sig mycket mellan mikroarrayer och bead-arrayer. Olika mikroarrayer visade likartade nivåer av upp-och nedreglerade gener för olika patientgrupper, men kopplingen var starkast för starkt upp-och nedreglerande gener. För gener med mindre skillnader i genuttryck mellan grupper dök gener upp som visade sig som uppreglerade på en plattform, men nedreglerade på en annan, och vice versa. En del gengrupper bedömda som påverkade i olika patientgrupper var gemensamma mellan de två plattformarna, och en del var unika för varje platform. När dessa resultat jämfördes med en tillförligtlig tredje datakälla, RNA-sekvensiering, visade det sig att båda plattformarna var ungefär lika korrekta, men att varje plattform hittade unika korrekta gengrupper som var upp-eller nedreglerade. (Less)

Please use this url to cite or link to this publication: http://lup.lub.lu.se/student-papers/record/4361010

author

Asplund, Olof

supervisor

Leif Groop ^LU
Petter Storm ^LU

organization

Degree Projects in Bioinformatics

course

BINP31 20131

year

2014

type

H2 - Master's Degree (Two Years)

subject

Biology and Life Sciences

language

English

id

4361010

date added to LUP

2014-03-20 11:33:10

date last changed

2014-03-20 11:33:10

@misc{4361010,
  abstract     = {{Abstract

This article describes the creation of a pipeline for variant calling from high-throughput next-generation exome and RNA sequencing data using commonly used bioinformatics tools. High-throughput sequencing data from six pancreatic islet cell samples were analyzed using the pipeline, and the resulting variant calls were validated against chip genotyping data from the same individuals. The results indicate that variant calling can be applied to RNA-seq and exome sequencing data to identify genetic variants in exons and coding regions with high precision, while the recall was relatively low. In other words, identified genotypes seem to have a high probability of being correct, but only part of the present variants are picked up. This is especially true for RNA-seq.}},
  author       = {{Asplund, Olof}},
  language     = {{eng}},
  note         = {{Student Paper}},
  title        = {{Variant Calling and Microarray Expression Analysis in Pancreatic Islet Samples}},
  year         = {{2014}},
}

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Variant Calling and Microarray Expression Analysis in Pancreatic Islet Samples