Investigation of bioinformatic pipelines for variant calling using RNA-seq data
(2025) BMEM01 20242Department of Biomedical Engineering
- Abstract
- This project has investigated tools that could be used for somatic (non-inherited) variant calling using RNA-sequence (RNA-seq) data from patients with non-small cell lung cancer (NSCLC). Identifying specific genetic variation causing growth of cancerous cells have been a major challenge within cancer research and diagnostics. Variant calling uses sequenced data to analyze differences in the genome for further usage in targetable treatments. The aim of this thesis was to propose two variant calling pipelines for variant calling using RNA-seq data and test the performance of these. Variations investigated were single nucleotide variants (SNVs) and insertions and deletion (indels). This has mainly been done on DNA-seq data but research has... (More)
- This project has investigated tools that could be used for somatic (non-inherited) variant calling using RNA-sequence (RNA-seq) data from patients with non-small cell lung cancer (NSCLC). Identifying specific genetic variation causing growth of cancerous cells have been a major challenge within cancer research and diagnostics. Variant calling uses sequenced data to analyze differences in the genome for further usage in targetable treatments. The aim of this thesis was to propose two variant calling pipelines for variant calling using RNA-seq data and test the performance of these. Variations investigated were single nucleotide variants (SNVs) and insertions and deletion (indels). This has mainly been done on DNA-seq data but research has shown that RNA-seq can provide a faster and more cost effective alternative. Additionally it has the potential to uncover novel mutations in well-known biological pathways and better detect low frequency variants. A comprehensive literature study was carried out to decide upon two variant calling tools for testing where Mutect2 and VarDict were chosen. The testing was performed on 197 patients with NSCLC with a focus of finding variations in the genes KRAS, EGFR, BRAF, ERBB2 and MET that caused protein changes. The result showed a possibility of finding clinically important mutations using RNA-seq data where the callers performed fairly similar but Mutect2 slightly better. No significant differences between the callers could be seen regarding capturing SNVs or indels. This study was carried out on a relatively small data set and could be further investigated on larger data sets to validate the result. (Less)
- Popular Abstract (Swedish)
- Bioinformatiska verktyg för att hitta lungcancermutationer i RNA
Lungcancer är idag den dödligaste typen av cancer, där 50% av patienterna diagnostiseras för sent. Om diagnosen kan ges i tid kan fler liv räddas. Kan analys av RNA vara lösningen på att diagnostisera fler patienter i tid?
Inom cancer diagnostiken har främst DNA använts för att hitta mutationer i tumörvävnad. Ny forskning visar lovande möjligheter att på ett snabbare och mer kostnadseffektivt sätt även hitta mutationer i RNA. En bråkdel av vårt DNA uttrycks under vår livstid och de sekvenser som uttrycks speglas i vårt RNA. Genom att studera RNA kan man se vilka gener som uttrycks och därför också se variationer i gener som leder till tillväxt av tumörvävnad. Med RNA... (More) - Bioinformatiska verktyg för att hitta lungcancermutationer i RNA
Lungcancer är idag den dödligaste typen av cancer, där 50% av patienterna diagnostiseras för sent. Om diagnosen kan ges i tid kan fler liv räddas. Kan analys av RNA vara lösningen på att diagnostisera fler patienter i tid?
Inom cancer diagnostiken har främst DNA använts för att hitta mutationer i tumörvävnad. Ny forskning visar lovande möjligheter att på ett snabbare och mer kostnadseffektivt sätt även hitta mutationer i RNA. En bråkdel av vårt DNA uttrycks under vår livstid och de sekvenser som uttrycks speglas i vårt RNA. Genom att studera RNA kan man se vilka gener som uttrycks och därför också se variationer i gener som leder till tillväxt av tumörvävnad. Med RNA har det även visat sig vara lättare att studera de gener som uttrycks.
Majoriteten av dagens bioinformatiska verktyg för analys av mutationer är utformade för DNA eftersom att fokus har legat där inom diagnostiken. Nyligen har verktyg börjat utvecklas för att hitta mutationer i RNA vilket har undersökts i den här studien. En marknadsanalys av dagens bioinformatiska verktyg på RNA har utforskats där två valdes ut för testning. Patientdata från 197 patienter med lungcancer samlades in från \textit{The Cancer Genome Atlas (TCGA)} för att testa två bioinformatiska verktyg. Studien syftade till att undersöka just somatiska mutationer som kan orsaka lungcancer. Studien riktade sig även till de mutationer som är kliniskt viktiga att hitta, eftersom det då finns en riktad behandling för den specifika mutationen.
Resultatet visade att det är möjligt att hitta kliniskt viktiga mutationer i RNA med båda bioinformatiska verktygen. Men eftersom testet utfördes på ett relativt litet dataset är det svårt att säga hur tillförlitligt resultatet var och till vilken utsträckning det hade kunnat användas på en mer klinisk nivå. Intressant är att studien visar att många av mutationerna som finns i proverna går att hitta men även att verktygen hittar falska mutationer. I ny forskning har det visats att maskininlärning kan hjälpa till och reducera antalet falska mutationer. Som en vidareutveckling på arbetet hade det varit intressant att testa en kombination av de bioinformatiska verktygen med maskininlärning för att förbättra resultatet. Tillförlitligheten i resultatet hade också kunnat förbättras genom att öka mängden data med hjälp av syntetiskt producerad patientdata. (Less)
Please use this url to cite or link to this publication:
http://lup.lub.lu.se/student-papers/record/9181400
- author
- Dahlberg, Elin LU and Lindén, Frida LU
- supervisor
- organization
- alternative title
- Bioinformatiska verktyg för detektering av cancermutationer i RNA-sekvenserad data
- course
- BMEM01 20242
- year
- 2025
- type
- H2 - Master's Degree (Two Years)
- subject
- keywords
- variant calling, RNA-sequence, RNA-seq, non-small cell lung cancer, NSCLC, bioinformatic tools, KRAS, EGFR, BRAF, ERBB2, MET, Mutect2, VarDict, bioinformatic pipelines
- language
- English
- additional info
- 2025-01
- id
- 9181400
- date added to LUP
- 2025-01-29 14:07:40
- date last changed
- 2025-01-29 14:07:40
@misc{9181400, abstract = {{This project has investigated tools that could be used for somatic (non-inherited) variant calling using RNA-sequence (RNA-seq) data from patients with non-small cell lung cancer (NSCLC). Identifying specific genetic variation causing growth of cancerous cells have been a major challenge within cancer research and diagnostics. Variant calling uses sequenced data to analyze differences in the genome for further usage in targetable treatments. The aim of this thesis was to propose two variant calling pipelines for variant calling using RNA-seq data and test the performance of these. Variations investigated were single nucleotide variants (SNVs) and insertions and deletion (indels). This has mainly been done on DNA-seq data but research has shown that RNA-seq can provide a faster and more cost effective alternative. Additionally it has the potential to uncover novel mutations in well-known biological pathways and better detect low frequency variants. A comprehensive literature study was carried out to decide upon two variant calling tools for testing where Mutect2 and VarDict were chosen. The testing was performed on 197 patients with NSCLC with a focus of finding variations in the genes KRAS, EGFR, BRAF, ERBB2 and MET that caused protein changes. The result showed a possibility of finding clinically important mutations using RNA-seq data where the callers performed fairly similar but Mutect2 slightly better. No significant differences between the callers could be seen regarding capturing SNVs or indels. This study was carried out on a relatively small data set and could be further investigated on larger data sets to validate the result.}}, author = {{Dahlberg, Elin and Lindén, Frida}}, language = {{eng}}, note = {{Student Paper}}, title = {{Investigation of bioinformatic pipelines for variant calling using RNA-seq data}}, year = {{2025}}, }