Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Evaluating the Clinical Rank Model for Detection of Rare Variants from Whole Genome Sequencing

Sigl, Clara (2023) MOBM02 20231
Degree Projects in Molecular Biology
Abstract
In this master’s thesis, different options to update the variant rank model used at the University hospital in Lund are presented. The variant rank model filters genetic variants from whole genome sequencing. This is done to identify potential causative variants in patients. Since the knowledge concerning these variants and rare genetic diseases grows rapidly, the model which filters said variants must be updated frequently. Filtering is essential to reduce the number of variants requiring further analysis. The model uses a variety of databases and algorithms to score each variant. For example, variants with low frequencies at conserved positions will receive more points than variants with higher frequencies at less conserved positions. A... (More)
In this master’s thesis, different options to update the variant rank model used at the University hospital in Lund are presented. The variant rank model filters genetic variants from whole genome sequencing. This is done to identify potential causative variants in patients. Since the knowledge concerning these variants and rare genetic diseases grows rapidly, the model which filters said variants must be updated frequently. Filtering is essential to reduce the number of variants requiring further analysis. The model uses a variety of databases and algorithms to score each variant. For example, variants with low frequencies at conserved positions will receive more points than variants with higher frequencies at less conserved positions. A variant will be further studied only if it reaches a certain score threshold. Two types of cases are studied in this project, single and trio cases. Single cases only contain the genome of the patient. Trio cases contain both the genome of the patient and each parent. Each type has their own version of the rank model. All cases had been solved and contained at least one known causative variant. The new updates generally either increase the points awarded to variants with stronger predictions or decrease the points for those with weaker predictions. Other modifications include adjusting the score threshold. The estimated average number of variants above the threshold was compared between the currently used models and all modifications. Decreasing the number of points given to variants with weaker predictions proved to be more effective at filtering variants than increasing the number of points given to those with strong predictions. In the future, the different candidates presented in this thesis could be combined or used on their own to update the variant rank model. (Less)
Popular Abstract (Swedish)
Utvärdering av Variantrankmodellen vid Genetiska Sjukdomar

Vid misstänkt genetisk sjukdom kan en person få remiss till helgenomsekvensering, vilket är en teknik där näst intill hela DNA-uppsättningen (genomet) hos patienten blir avläst. Detta kan användas till att hitta skillnader, eller varianter, mellan patientens genom och ett friskt genom. Alla människor har väldigt många små ofarliga genetiska varianter, därför måste dessa filtreras bort för att hitta varianterna som möjligen orsakat sjukdom. Under mitt mastersprojekt har jag utvärderat modellen som används för att filtrera ut dessa orsakande (kausativa) varianter.

Varje vecka sekvenseras runt 30 genom på Lunds Universitetssjukhus. Varje genom kan ha över 100 000 varianter som... (More)
Utvärdering av Variantrankmodellen vid Genetiska Sjukdomar

Vid misstänkt genetisk sjukdom kan en person få remiss till helgenomsekvensering, vilket är en teknik där näst intill hela DNA-uppsättningen (genomet) hos patienten blir avläst. Detta kan användas till att hitta skillnader, eller varianter, mellan patientens genom och ett friskt genom. Alla människor har väldigt många små ofarliga genetiska varianter, därför måste dessa filtreras bort för att hitta varianterna som möjligen orsakat sjukdom. Under mitt mastersprojekt har jag utvärderat modellen som används för att filtrera ut dessa orsakande (kausativa) varianter.

Varje vecka sekvenseras runt 30 genom på Lunds Universitetssjukhus. Varje genom kan ha över 100 000 varianter som skiljer sig från referens-genomen som används, och en stor majoritet av dessa leder inte till sjukdom. De få kausativa varianter som orsakar sjukdom har en del egenskaper som gör att de skiljer sig från andra varianter. Detta utnyttjar man för att filtrera patienternas genom med hjälp av en variantrank-modell. Det är mycket viktigt att filtrera ut dessa varianter eftersom varje analys tar lång tid. Modellen ger varianterna olika poäng beroende på om de har vissa egenskaper som kausativa varianter ofta har. Generellt analyseras endast varianter som har åtminstone lika mycket poäng som ett definierat tröskelvärde. Modellen rangordnar sedan varianterna beroende på deras poäng, vilket underlättar framtida analyser eftersom det blir lättare att avgöra om en variant är den mest kausativa i ett prov.

Beståndsdelarna av DNA är baser i långa strängar, och dessa avgör hur olika gener uttrycks. De variantrankmodellerna som jag utvärderat hanterar varianter orsakade av antingen omvandlingen av en bas till en annan, eller att en eller flera baser försvunnit eller tillagts. Kausativa varianter är ovanliga, och de påverkar ofta baser som är mycket viktiga för en given gens funktion. Med hjälp av olika databaser och algoritmer kan detta användas för att avgöra om en variant är kausativ.

Det kommer in två olika sorters fall när genetiska sjukdomar undersöks. Dessa är antingen trio-fall eller singel-fall. I singel-fall finns endast genetisk information från patienten, men i trio-fall finns det även information från föräldrarna. Att föräldrarnas genom också sekvenseras gör att man även kan titta på nedärvning och bland annat hitta nya varianter som uppstått hos patienten. På grund av detta finns det två olika versioner av modellen, en för trio-fall och en för singel-fall.

När jag utvärderat modellerna har jag jämfört samtliga nya förslag med den nuvarande modellen på fall som lösts och har minst en kausativ variant. En ny modell bör ha färre varianter som når poäng-tröskelvärdet, eftersom den nuvarande modellen släpper igenom lite för många varianter. Jag utvärderade modellerna genom att jämföra hur många varianter i genomsnitt som passerade tröskelvärdet, utan att ge för många kända kausativa varianter poäng under detta tröskelvärde. I slutändan visade sig att ge färre poäng till varianter som inte hade lika extrema egenskaper var mycket mer effektivt än att ge varianterna med extrema egenskaper mer poäng. Att implementera dessa ändringar hade kunnat bidra till att diagnoserna blir mer exakta och att de inte tar lika mycket tid at genomföra.

Masterexamensprojekt i Molekylärbiologi 30 hp 2023
Biologiska institutionen, Lunds universitet

Handledare: Viktor Henmyr
Region Skåne (Less)
Please use this url to cite or link to this publication:
author
Sigl, Clara
supervisor
organization
course
MOBM02 20231
year
type
H2 - Master's Degree (Two Years)
subject
language
English
id
9140735
date added to LUP
2023-11-01 14:31:03
date last changed
2023-11-01 14:31:03
@misc{9140735,
  abstract     = {{In this master’s thesis, different options to update the variant rank model used at the University hospital in Lund are presented. The variant rank model filters genetic variants from whole genome sequencing. This is done to identify potential causative variants in patients. Since the knowledge concerning these variants and rare genetic diseases grows rapidly, the model which filters said variants must be updated frequently. Filtering is essential to reduce the number of variants requiring further analysis. The model uses a variety of databases and algorithms to score each variant. For example, variants with low frequencies at conserved positions will receive more points than variants with higher frequencies at less conserved positions. A variant will be further studied only if it reaches a certain score threshold. Two types of cases are studied in this project, single and trio cases. Single cases only contain the genome of the patient. Trio cases contain both the genome of the patient and each parent. Each type has their own version of the rank model. All cases had been solved and contained at least one known causative variant. The new updates generally either increase the points awarded to variants with stronger predictions or decrease the points for those with weaker predictions. Other modifications include adjusting the score threshold. The estimated average number of variants above the threshold was compared between the currently used models and all modifications. Decreasing the number of points given to variants with weaker predictions proved to be more effective at filtering variants than increasing the number of points given to those with strong predictions. In the future, the different candidates presented in this thesis could be combined or used on their own to update the variant rank model.}},
  author       = {{Sigl, Clara}},
  language     = {{eng}},
  note         = {{Student Paper}},
  title        = {{Evaluating the Clinical Rank Model for Detection of Rare Variants from Whole Genome Sequencing}},
  year         = {{2023}},
}