Quality Control for high-throughput Quantitative Proteomics - Harnessing the potential of label-free LC-MS

Sandin, Marianne

Quality Control for high-throughput Quantitative Proteomics - Harnessing the potential of label-free LC-MS

Mark

Sandin, Marianne ^LU (2014)

Abstract: Multiplex protein quantification, proteomics, is essential for uncovering new biomarkers and understanding biology. Liquid chromatography coupled to mass spectrometry (LC-MS) is the predominant technique for these measurements. In this thesis, optimization and quality control strategies for different phases of the LC-MS pipeline have been developed.

Due to the inherent complexity and dynamic range of the proteome, pre-fractionation is commonly employed in a general LC-MS setting to uncover low-abundant proteins. In paper I, we performed a (qualitative) comparative study of the proteins identified in a shotgun setup. It was found that SDS-PAGE, coupled to tryptic digestion, had the largest yield.

In paper II, we... (More); Multiplex protein quantification, proteomics, is essential for uncovering new biomarkers and understanding biology. Liquid chromatography coupled to mass spectrometry (LC-MS) is the predominant technique for these measurements. In this thesis, optimization and quality control strategies for different phases of the LC-MS pipeline have been developed.

Due to the inherent complexity and dynamic range of the proteome, pre-fractionation is commonly employed in a general LC-MS setting to uncover low-abundant proteins. In paper I, we performed a (qualitative) comparative study of the proteins identified in a shotgun setup. It was found that SDS-PAGE, coupled to tryptic digestion, had the largest yield.

In paper II, we introduced a quantitative quality control method on peptide level for the relatively computationally demanding, but experimentally high-throughput, label-free LC-MS workflow, where we discovered both considerable differences as well as complementary properties between software solutions.

The two integral parts of label-free data processing, feature detection (peptide quantification) and alignment (peptide identity propagation between samples), were further examined in papers III and IV. The complementary quality of software modules discovered in paper II was utilized in paper III, where we showed that a combination of different feature detection methods results in higher peptide coverage beneficial for downstream statistical inference.

Since the establishment of proteomics as a high-throughput science, large-scale bioinformatics has become necessity. In paper IV, an alignment algorithm was developed where parameters are estimated on the fly from underlying data, an important step towards avoiding turning data processing into the future bottleneck of proteomics.

Finally, in paper V, we performed an extensive evaluation of the relative potential of discovery and validation LC-MS (shotgun and SRM), based on the method introduced in paper II. Extensive data handling optimization was performed from normalization to quantification and statistical implications were assessed.

In summary, we have shown that large-scale label-free LC-MS can be combined with equally high-throughput quality control to create a competitive option in the hunt for biomarkers. (Less)
Abstract (Swedish): Popular Abstract in Swedish

Sedan kartläggningen av det mänskliga genomet, har mer fokus lagts på dess produkt, proteomet, som definieras som de proteiner som uttrycks i en cell vid en viss tidpunkt. Proteomets dynamiska egenskaper gör det till en fantastisk källa för så kallade biomarkörer, det vill säga molekyler som genom deras koncentrationsmönster kan användas för att särskilja sjuka och friska tillstånd. Detta gör även proteomet extremt komplext att mäta, med bland annat stora koncentrationsskillnader och en mängd modifikationer.

Masspektrometri är en vanligt använd teknik för att undersöka proteomet. En masspektrometer kan liknas vid en våg som fungerar på molekylnivå och separerar analyterna med avseende... (More); Popular Abstract in Swedish

Sedan kartläggningen av det mänskliga genomet, har mer fokus lagts på dess produkt, proteomet, som definieras som de proteiner som uttrycks i en cell vid en viss tidpunkt. Proteomets dynamiska egenskaper gör det till en fantastisk källa för så kallade biomarkörer, det vill säga molekyler som genom deras koncentrationsmönster kan användas för att särskilja sjuka och friska tillstånd. Detta gör även proteomet extremt komplext att mäta, med bland annat stora koncentrationsskillnader och en mängd modifikationer.

Masspektrometri är en vanligt använd teknik för att undersöka proteomet. En masspektrometer kan liknas vid en våg som fungerar på molekylnivå och separerar analyterna med avseende på förhållandet mellan massa och laddning. Ofta finns ytterligare ett separationsverktyg kopplat till masspektrometern, en vätskekromatograf, som först separerar molekylerna utefter olika fysiska och kemiska egenskaper innan de injiceras i masspektrometern. Detta ger upphov till en tredimensionell karta för varje prov med dimensionerna retentionstid (när molekylen lämnar kolonnen, baserat på vätskekromatografin), det tidigare nämnda massa/laddning, samt intensitet (ett mått på kvantiteten som är direkt proportionellt mot originalmängden protein i provet).

En egenskap hos denna teknik är att provet är förbrukat efter injiceringen i masspektrometern, det vill säga all fortsatt analys sker i datorn. Det är därför viktigt med både kvalitetskontrollerad och optimerad bioinformatik (informatiska och matematiska metoder applicerade på biologisk data) för att få ut så mycket information från proverna som möjligt. Dessutom existerar ytterligare en utmaning för bioinformatiken – proteinerna mäts vanligtvis inte i sin helhet i masspektrometern, utan spjälkas till specifika beståndsdelar, peptider. Problemformuleringen består därför inte bara i att fastställa så korrekta proteinkvantiteter som möjligt, men också att pussla ihop vilka proteiner som ingår i provet baserat på de peptider som hittas.

I denna avhandling presenteras metoder för att på olika sätt extrahera maximal information från proverna. I Artikel I jämförs olika förfraktioneringsmetoder för att kunna uppnå en så bra täckning av proteininnehållet som möjligt. De följande artiklarna (II-V) behandlar olika informatiska metoder för att analysera och utvärdera data.

Artikel I: Då höga koncentrationer av vanligt förekommande proteiner kan överskugga möjliga biomarkörkandidater, är förfraktionering en teknik som används för att komma åt proteiner i mindre koncentrationer och undvika att mäta samma molekyler upprepade gånger. I denna artikel har olika metoder för förfraktionering undersökts och SDS-PAGE i kombination med trypsin-baserad spjälkning visade sig uppvisa de mest gynnsamma masspektrometriegenskaperna och gav därmed upphov till flest identifierade peptider och proteiner.

Artikel II: För att kunna fastställa bästa datahanteringsstrategi, behövs data som är specifikt utformad för det ändamålet. Vi presenterar här en metod som bygger på prover blandade i linjära förhållanden till varandra. Lineäriteten utvärderas under den bioinformatiska analysen och kan ge insikt om både det instrumentella tillståndet och olika mjukvarors effektivitet, bland annat hur olika parameterinställningar påverkar resultaten.

Artikel V är en vidareutveckling av utvärderingsmetoden som presenterades i Artikel II, där vi använder oss av både storskalig och mer komplex data än i Artikel II. Den instrumentella känsligheten utvärderas, olika plattformar för masspektrometri jämförs, samt statistiska följder av datahanteringsbeslut utvärderas. Vi presentar även en ny metod för att kombinera kvantiteter från peptider med olika laddningar för större täckning av proverna.

En vanligt förekommande experimentell strategi är att kemiskt eller enzymatiskt märka proverna för att sedan kombinera dem inför analysen i masspektrometern. Detta har fördelen att minska den experimentella variationen, men är ofta dyrt och saknar effektiva möjligheter för att undersöka prover i stor skala. En märkningsfri (label-free) metod har därför blivit populär, där stora antal prov kan mätas och jämföras. Den förenkling man tjänar i labbet, förlorar man dock bioinformatiskt, då metoden kräver omfattande datahantering. Vi har i Artikel III och IV utvecklat nya mjukvaror för just denna typ av datahantering som tar fasta på inbyggd kvalitetskontroll för stora mängder prover, samt öka användarvänligheten genom att utnyttja den kända informationen i data så mycket som möjligt.

Artikel III: Genom kombination av resultat från fristående mjukvarumoduler visar vi att kvantifiering av ett större antal peptider är möjligt.

Artikel IV: Vi presenterar en ny algoritm för utökning av peptididentifikationer, där alla nödvändiga parametrar fastställs under analysens gång genom information från underliggande data. Detta ökar inte bara användarvänligheten, utan ser också till att skräddarsydda parametrar sätts för varje prov, samt kommer reproduceras för olika körningar av samma data.

Sammanfattningsvis har vi visat att kvalitetskontroll och storskalig datahantering kan automatiseras för att klara de krav som ställs av ett snabbt växande forskningsfält. Genom utveckling av standardiserade datahanteringsprotokoll kan möjliga biomarkörer upptäckas och selekteras för validering med väsentligt minskad felrisk. (Less)

Please use this url to cite or link to this publication: https://lup.lub.lu.se/record/4730682

author

Sandin, Marianne ^LU

supervisor

Fredrik Levander ^LU
Peter James ^LU

opponent

Lilley, Kathryn, The Cambridge Centre for Proteomics, University of Cambridge, Cambridge, United Kingdom

organization

Department of Immunotechnology

publishing date

2014

type

Thesis

publication status

published

subject

Immunology in the Medical Area (including Cell and Immunotherapy)

keywords

proteomics, mass spectrometry, quality control, data analysis, label-free, feature detection, alignment, biomarker discovery, separation techniques

publisher

Department of Immunotechnology, Lund University

defense location

Lecture hall B, E-huset, Ole Römers väg 3, Lund University, Faculty of Engineering LTH, Lund

defense date

2014-11-21 09:15:00

ISBN

978-91-7623-121-0

language

English

LU publication?

yes

id

7a0496ae-abfa-4a2d-a631-2f3de4a42263 (old id 4730682)

date added to LUP

2016-04-04 10:16:43

date last changed

2025-04-04 14:48:38

@phdthesis{7a0496ae-abfa-4a2d-a631-2f3de4a42263,
  abstract     = {{Multiplex protein quantification, proteomics, is essential for uncovering new biomarkers and understanding biology. Liquid chromatography coupled to mass spectrometry (LC-MS) is the predominant technique for these measurements. In this thesis, optimization and quality control strategies for different phases of the LC-MS pipeline have been developed. <br/><br>
Due to the inherent complexity and dynamic range of the proteome, pre-fractionation is commonly employed in a general LC-MS setting to uncover low-abundant proteins. In paper I, we performed a (qualitative) comparative study of the proteins identified in a shotgun setup. It was found that SDS-PAGE, coupled to tryptic digestion, had the largest yield.<br/><br>
In paper II, we introduced a quantitative quality control method on peptide level for the relatively computationally demanding, but experimentally high-throughput, label-free LC-MS workflow, where we discovered both considerable differences as well as complementary properties between software solutions. <br/><br>
The two integral parts of label-free data processing, feature detection (peptide quantification) and alignment (peptide identity propagation between samples), were further examined in papers III and IV. The complementary quality of software modules discovered in paper II was utilized in paper III, where we showed that a combination of different feature detection methods results in higher peptide coverage beneficial for downstream statistical inference. <br/><br>
Since the establishment of proteomics as a high-throughput science, large-scale bioinformatics has become necessity. In paper IV, an alignment algorithm was developed where parameters are estimated on the fly from underlying data, an important step towards avoiding turning data processing into the future bottleneck of proteomics.<br/><br>
Finally, in paper V, we performed an extensive evaluation of the relative potential of discovery and validation LC-MS (shotgun and SRM), based on the method introduced in paper II. Extensive data handling optimization was performed from normalization to quantification and statistical implications were assessed. <br/><br>
In summary, we have shown that large-scale label-free LC-MS can be combined with equally high-throughput quality control to create a competitive option in the hunt for biomarkers.}},
  author       = {{Sandin, Marianne}},
  isbn         = {{978-91-7623-121-0}},
  keywords     = {{proteomics; mass spectrometry; quality control; data analysis; label-free; feature detection; alignment; biomarker discovery; separation techniques}},
  language     = {{eng}},
  publisher    = {{Department of Immunotechnology, Lund University}},
  school       = {{Lund University}},
  title        = {{Quality Control for high-throughput Quantitative Proteomics - Harnessing the potential of label-free LC-MS}},
  url          = {{https://lup.lub.lu.se/search/files/5503189/4730683.pdf}},
  year         = {{2014}},
}

Lund University Publications

LUND UNIVERSITY LIBRARIES

Quality Control for high-throughput Quantitative Proteomics - Harnessing the potential of label-free LC-MS