Advanced

Protein shape similarity assessment

Öster, Nils (2013) BINP41 20131
Degree Projects in Bioinformatics
Abstract
Abstract

This Master Thesis explores a variety of approaches to protein structure comparision : CLICK, BetaSuperPoser, MAMMOTH, Minkowski Sum Boundary Calculation, 3DSurfer / Zernike Descriptors, Spherical Harmonics, D2 Shape (distance histogram) and ProBiS. The methods are categorized according to how they function and the meaning of their output parameters, in particular RMSD, is discussed. We investigate how their output values correlate when using these methods to assess protein structure similarity. The methods can be divided into those that rely heavily on sequence alignment and those thatare purely shape-based, except for CLICK and ProBiS which look for lo-cal structural similarities. Rotationally invariant shape descriptors... (More)
Abstract

This Master Thesis explores a variety of approaches to protein structure comparision : CLICK, BetaSuperPoser, MAMMOTH, Minkowski Sum Boundary Calculation, 3DSurfer / Zernike Descriptors, Spherical Harmonics, D2 Shape (distance histogram) and ProBiS. The methods are categorized according to how they function and the meaning of their output parameters, in particular RMSD, is discussed. We investigate how their output values correlate when using these methods to assess protein structure similarity. The methods can be divided into those that rely heavily on sequence alignment and those thatare purely shape-based, except for CLICK and ProBiS which look for lo-cal structural similarities. Rotationally invariant shape descriptors based on Zernike descriptors, spherical harmonics and distance histograms are faster and well suited to be used in database searches since most computations can be done in advance. With their help one may look for proteins of similar shape but which do not have any signi_cant sequence similarity. We conclude that there is no gold standard for comparing protein shapes. (Less)
Abstract (Swedish)
Populärvetenskaplig sammanfattning


Strukturbioinformatik och datorgrafik

Proteiner bygger upp våra muskler, hud, hår m.m. och fungerar som katalysatorer (enzymer) för reaktioner som behövs för livet. Våra gener kodar för proteiner som utför funktioner i kroppen. Bioinformatik handlar om att studera det genetiska materialet hos människor och andra organismer. Strukturbioinformatik riktar in sig på att studera strukturen hos proteiner. Ett protein består av en sekvens (kedja) av 20 olika av aminosyror. Längden på kedjan i proteiner varierar kraftigt från mindre än 100 enheter till flera tusen enheter. Beroende på vilka aminosyror och på vilka ställen i kedjan aminosyrorna finns, kommer kedjan att anta en viss struktur. Strukturen hos... (More)
Populärvetenskaplig sammanfattning


Strukturbioinformatik och datorgrafik

Proteiner bygger upp våra muskler, hud, hår m.m. och fungerar som katalysatorer (enzymer) för reaktioner som behövs för livet. Våra gener kodar för proteiner som utför funktioner i kroppen. Bioinformatik handlar om att studera det genetiska materialet hos människor och andra organismer. Strukturbioinformatik riktar in sig på att studera strukturen hos proteiner. Ett protein består av en sekvens (kedja) av 20 olika av aminosyror. Längden på kedjan i proteiner varierar kraftigt från mindre än 100 enheter till flera tusen enheter. Beroende på vilka aminosyror och på vilka ställen i kedjan aminosyrorna finns, kommer kedjan att anta en viss struktur. Strukturen hos proteinet är avgörande för vilket funktion proteinet kan utföra. Människan har uppskattningsvis 25000 gener och ännu fler proteiner. Andra organismer har andra varianter av samma proteiner eller protein som är mycket annorlunda människans. Strukturen på proteiner kan man ta reda på genom att kristallisera proteiner, skjuta röntgenstrålar igenom dem och fånga upp det diffraktionsmönster som bildas vid olika vinklar. Det finns en stor samling med uppemot 100 000 olika proteinstrukturer på nätet som heter Protein Databank och som är fritt tillgänglig. Eftersom det finns så många proteiner uppstår ett behov av att med datorns kraft se samband mellan olika proteiner, kategorisera och komma fram vilken funktion olika typer av proteiner har. Det här arbetet har handlat om att undersöka olika metoder att jämföra formen på proteiner. Formen hos ett protein är avgörande för dess benägenhet att binda till andra proteiner, och därmed för proteinets biologiska interaktioner. Jag har testat metoder som används inom datorgrafik för att känna igen olika vardagliga objekt (som t.ex. stolar, bord, flygplan) och försökt att tillämpa dessa på proteiner, för att se om metoderna levererar vettiga resultat för proteiner. Resultaten tyder på att det bör gå att använda dessa metoder för att besvara biologiska frågeställningar eftersom de verkar vara tillräckligt känsliga. En fördel med de här metoderna är att man kraftigt reducerar informationsmängden som beskriver proteinets struktur. Formen representeras på ett sätt som är oberoende av hur proteinet är orienterat i de tre dimensionerna. Detta gör att en jämförelse mellan två proteiner går blixtsnabbt. Att det går snabbt att är viktigt ifall man vill söka igenom en stor databas av proteiner. En fråga man då skulle kunna ställa till databasen är huruvida det finns några proteiner som har liknande form men som ej är genetiskt besläktade. Eller mer generellt i vad mån proteiners form har bevarats under evolutionen. Kanske kan man omvänt hitta tänkbara släktskap mellan proteiner utifrån deras liknande form som inte har kunnat fastställas baserat på sekvensjämförelser. För vissa frågeställningar om proteiners funktion räcker det dock
inte med att jämföra proteinernas yttre form, utan man behöver även ta hänsyn till
lokala strukturer och kemiska egenskaper.

Handledare: Ingmar André
Examensarbete 30 hp i Strukturbioinformatik 2013
Avdelningen för Biokemi och Strukturbiologi, Kemiska institutionen, Lunds universitet (Less)
Please use this url to cite or link to this publication:
author
Öster, Nils
supervisor
organization
course
BINP41 20131
year
type
H2 - Master's Degree (Two Years)
subject
language
English
id
4057407
date added to LUP
2013-09-20 11:27:00
date last changed
2013-09-20 11:27:00
@misc{4057407,
  abstract     = {Abstract

This Master Thesis explores a variety of approaches to protein structure comparision : CLICK, BetaSuperPoser, MAMMOTH, Minkowski Sum Boundary Calculation, 3DSurfer / Zernike Descriptors, Spherical Harmonics, D2 Shape (distance histogram) and ProBiS. The methods are categorized according to how they function and the meaning of their output parameters, in particular RMSD, is discussed. We investigate how their output values correlate when using these methods to assess protein structure similarity. The methods can be divided into those that rely heavily on sequence alignment and those thatare purely shape-based, except for CLICK and ProBiS which look for lo-cal structural similarities. Rotationally invariant shape descriptors based on Zernike descriptors, spherical harmonics and distance histograms are faster and well suited to be used in database searches since most computations can be done in advance. With their help one may look for proteins of similar shape but which do not have any signi_cant sequence similarity. We conclude that there is no gold standard for comparing protein shapes.},
  author       = {Öster, Nils},
  language     = {eng},
  note         = {Student Paper},
  title        = {Protein shape similarity assessment},
  year         = {2013},
}