Computational mass spectrometry

Transkript

Computational mass spectrometry
Computational Mass Spectrometry
Jiří Novák
SiRet Research Group
Department of Software Engineering
Faculty of Mathematics and Physics
Charles University in Prague
Czech Republic
http://www.siret.cz
Obsah
• Fyzikální princip spektrometru
– MALDI, ESI, hmotnostní analyzátory
• Základy MS a MS/MS
– rozdíl, vlastnosti MS/MS spekter
– využití MS/MS pro identifikaci a kvantifikaci proteinů/peptidů
• Identifikace peptidových sekvencí
– podobnostní vyhledávání v DB (SPC, kosinová podobnost,
param. Haus. vzd., X!Tandem, OMSSA, SEQUEST, MASCOT)
– De Novo, Sequence-Tag
– statistické hodnocení výsledků
• OpenMS, TOPP
Princip spektrometru
• iontový zdroj  hmotnostní analyzátor  detektor
• iontový zdroj
– MALDI, ESI, ...
– převádí neutrální molekuly na ionty (ionizace)
• hmotnostní analyzátor
– rozděluje ionty podle poměru m/z (hmotnost/náboj)
• detektor
– zaznamenává jednotlivé ionty a jejich intenzity
MALDI
• Matrix Assisted Laser Desorption Ionization
• vzorek rozpuštěn, smíchán s matricí, vykrystalizován na MALDI
destičce
• krátké laserové pulsy ionizují molekuly matrice
• molekuly vzorku jsou ionizovány přenosem protonu z matrice
• nejčastěji vznikají ionty s nábojem 1+
ESI (Electrospray Ionization)
•
•
•
•
•
vznikají vícenásobně nabité ionty 2+, 3+, ...
rozpuštěný analyt se přivádí vstupní kovovou kapilárou do iontového zdroje
za pomoci proudu dusíku vznikají malé kapičky (aerosol), které nesou
vzhledem k vysokému napětí v kapiláře množství nábojů
odpařováním rozpouštědla se kapičky zmenšují a hustota elstat. náboje
roste, jakmile dosáhne kritické hodnoty dojde k Coulombické explozi –
rozpadu kapiček na menší
Coulombické exploze se opakují tak dlouho, dokud není dostatečně malá a
nedojde k uvolnění iontu z jejího povrchu
Hmotnostní analyzátory
• TOF (Time-Of-Flight)
– analyzátor doby letu
– ionty o stejné kinetické energii se pohybují různou rychlostí v
závislosti na poměru m/z
– „menší ionty jsou rychlejší než větší“
– měří se čas, za který dolétnou k detektoru, čímž se určí jejich
m/z
• kvadrupólový
– v daný okamžik jím mohou projít pouze ionty s daným m/z,
ostatní zůstanou zachyceny
– změnou napětí, pak postupně projdou všechny ionty na detektor
Hmotnostní analyzátory
• iontová past
– podobné jako kvadrupólový
– ionty jsou „uvězněny“ a pak postupně uvolňovány na detektor
• magnetický analyzátor
– využívá zakřivení dráhy iontů v magnetickém poli,
které závisí na m/z
– ionty s nižší m/z mají větší zakřivení dráhy a naopak
– hodnota m/z je úměrná druhé mocnině poloměru dráhy iontu
MS - identifikace proteinů
• Peptide Mass Fingerprinting (PMF)
–
–
–
–
starší metoda
protein enzymaticky rozdělen na peptidy
1 spektrum pro celý protein (směs proteinů)
peak odpovídá peptidu - nelze stanovit pořadí aminokyselin,
protože jejich libovolná permutace dá stejnou hmotnost
– identifikace založena výhradně na vyhledávání v databázi
známých proteinových sekvencí nebo porovnání s již
naměřenými knihovnami spekter
MS/MS hmotnostní spektrometrie
MS vs. MS/MS
MS
MS/MS
spektrum ~ protein/y
sada spekter ~ protein/y
peak ~ peptid
spektrum ~ peptid
peak ~ fragmentový ion
MS/MS hmotnostní spektrum
Nedokonalosti spekter
• iontové série zpravidla nejsou kompletní
– zejména y-ionty a b-ionty jsou pro identifikaci peptidů
nejdůležitější
• šum
– může tvořit i 80% peaků ve spektru
• sada spekter
– u starších spektrometrů nelze identifikovat až 90% spekter
– s novějšími metodami se snižuje až na 50%
• modifikace aminokyselin
Modifikace aminokyselin
• záměrně přidané
– zabraňují „sbalení“ proteinů/peptidů při analýze
– např. Carbamidomehyl C (+57 Da)
– fixní – každé C je modifikováno
• náhodně vznikající při přípravě vzorku nebo
ve spektrometru
– např. Oxidation M (+16 Da)
– variabilní – ne každé M je modifikováno
• posttranslační
– vznikají kdykoliv za doby existence proteinu
– dávají proteinům nové vlastnosti, stabilizují jejich konformace,
pomáhají regulovat jejich funkce, apod.
• databáze proteinových modifikací – www.unimod.org
– obsahuje více než 950 typů
MS/MS - identifikace proteinů
• metoda bottom-up
–
–
–
–
častější, jednodušší
proteiny jsou enzymaticky rozděleny na peptidy
sekvence se „skládá“ z peptidů
identifikace purifikovaných směsí proteinů (< 5 proteinů)
• identifikace “kompletních” proteinových sekvencí
– shot-gun proteomics (HPLC-MS/MS)
• identifikace všech proteinů ve vzorku (několika tisíc)
• stanovení kompletních proteinových sekvencí je obtížné
• vhodné pro kvantifikaci proteinů/peptidů ve vzorku
• metoda top-down
–
–
–
–
méně časté, obtížnější (dekonvoluce spekter)
proteiny nejsou děleny na peptidy, analyzují se jako celek
y-ionty, b-ionty existují pro celé proteiny
vhodné např. pro studium posttranslačních modifikací
HPLC-MS/MS
E.coli – 2D
E.coli – 3D
MS/MS - kvantifikace
• label-free kvantifikace
– pro každý vzorek zvlášť se
identifikují peptidy
– spectral counting – pro každý
peptid se vypočte kolika spektrům
byl přiřazen
– množství peptidů/proteinů odpovídá
počtu spekter
MS/MS - kvantifikace
• SILAC
– stable isotope labelling by amino acids in cell culture
– 2 vzorky analyzovány současně
– buňečná kultura v 1. vzorku se „krmí normálními”
aminokyselinami
– kultura ve 2. vzorku aminokyselinami s težkými izotopy uhlíku
13C místo 12C
– Arg0  Arg6, Lys0  Lys8
Identifikace peptidových sekvencí
• Podobnostní vyhledávání
• De novo
• Sequence-Tag
Podobnostní vyhledávání
• databáze
– známých proteinových sekvencí
– predikovaných proteinových sekvencí
(6 rámcový překlad DNA sekvencí)
– naměřených spekter
• podobnostní míra
Databáze
• proteinové sekvence v databázi jsou
rozděleny na peptidové sekvence
• parametr „missed cleavage sites“
Databáze
• z peptidových sekvencí jsou
vygenerována teoretická hmotnostní
spektra
Podobnostní míra
• podobnostní míra s(*,*) vrací podobnost
mezi naměřeným a teoretickým spektrem
–
–
–
–
–
–
–
–
počet sdílených peaků (SPC – shared peak count)
kosinová podobnost (cosine similarity)
parametrizovaná Hausdorffova vzdálenost
X!Tandem
OMSSA
SEQUEST
MASCOT
atd.
SPC
• dot product
• počet peaků y,b,a,y2+,... které se napárují
mezi experimentálním a teoretickým
spektrem
Kosinová podobnost
• normalizovaný SPC
Parametrizovaná Hausdorffova vzdál.
• x,y – spektra (vektory poměrů m/z)
• dim(x) – počet peaků ve spektru x
• ξ – m/z chyba přístroje
X!Tandem - hyperscore
počet b-iontů
 n

HyperScore    Ii * Pi  * Nb !* Ny !
 i 0

počet y-iontů
intenzita
peak nalezen v teoretickém
spektru (1) nebo ne (0)
http://www.thegpm.org/tandem/
OMSSA
• Open Mass Spectrometry Search Algorithm
• skóre založeno na výpočtu pravděpodobnosti
náhodného spárování peaků
• počet spárovaných y-iontů a b-iontů odpovídá
Poissonovu rozdělení
1 spektrum vs.
všechny peptidy
v NCBI (nr)
OMSSA
• pro fragmentové ionty s nábojem 1+
• (r-o)/2t – maximální počet zásahů peaků mezi exp. a
teor. spektrem
– r – maximální naměřené m/z
– o – minimální naměřené m/z
– t – chyba přístroje
• h(r-o)/m – tolik peaků se snažíme
napárovat do v experimentálních
– h – počet vygenerovaných peaků
– m – neurální hmotnost prekurzoru
OMSSA
• pro fragmentové ionty s nábojem
1+ a 2+
• dále heuristické zrychlení a zpřesnění s předpokladem,
že aspoň 1 teoretický peak se spáruje s jedním z n=3
nejvyšších peaků v experimentálním spektru – to ale
změní pravděpodobnostní rozdělení
• q = n/v – pravděpodobnost spárování naměřeného
peaku s experimentálním
OMSSA
• E-value – výsledné skóre pro PSM (peptide-spectrum
match)
• očekávaný počet náhodných PSM takových, že náhodné
PSM mají skóre lepší nebo rovné než PSM s danou Evalue
• př. E-value = 1, říká že existuje jeden PSM se stejnou
nebo lepší E-value, který ale bude náhodný
OMSSA
• pravděpodobnost, že PSM na základě 1 porovnání je
náhodné; y – počet spárovaných peaků, z = 1 nebo 2
• pravděpodobnost, že PSM na základě porovnání
jednoho spektra s N teoretickými spektry je náhodné
• E-value
OMSSA
• http://pubchem.ncbi.nlm.nih.gov/omssa/
• Open mass spectrometry search algorithm
SEQUEST
•
•
•
•
•
hrubší skóre Sp
im – intenzita spárovaného peaku
ni – počet spárovaných peaků
nt – počet všech peaků v exp. spektru
iniciální hodnota β = 0 je inkrementována o malý
přírůstek pokaždé když dojde ke spárování y-iontu nebo
b-iontu
• ρ – podobně pro immoniové ionty
• vyšší hodnota lepší, nt zabraňuje nárůstu skóre pro
dlouhé peptidové sekvence
SEQUEST
SEQUEST
• jemnější skóre Xcorr
• křížová korelace (cross correlation)
• spektrum normalizováno, odstraněny peaky s nízkou
intenzitou, hodnoty m/z zaokrouhleny na nejbližší vyšší
celé číslo  spektrum X
• Y – teoretické spektrum vygener. z databáze sekvencí
• korelační funkce Corr(t) – součin vektorů X a Y, přičemž
Y je posunut o t hmotnostních jednotek
• avg – průměruje hodnoty v intervalu; t ϵ <-75;75>
SEQUEST
• Xcorr je výpočetně náročnější než Sp
• Xcorr je závislá na délce peptidu
• na výstupu jsou preferovány ty PSM pro něž jsou obě
skóre nejvyšší
• doplňkové skóre pro nejlepší PSM – rozdíl Xcorr mezi 1.
a 2. nejbližším teoretickým spektrem
• jeden z nejstarších programů (1993), není volně
dostupný
• http://fields.scripps.edu/sequest/
MASCOT
• komerční, ale známý a často používaný produkt
• detaily algoritmu nebyly publikovány
• http://www.matrixscience.com/search_form_select.html
MASCOT
• principiálně vychází z algoritmu MOWSE (MOlecular
Weight SEarch)
• MOWSE původně definován pro data ze starších
spektrometrů, kdy nemáme sadu spekter, ale pouze 1
spektrum, kde jsou m/z precursorů a intenzity jejich
výskytu (peptide mass fingerprinting - PMF)
MOWSE
•
•
•
•
základem je matice frekvenčních koeficientů F
řádek interval 100 Da peptidové hmotnosti
sloupec 10 kDa proteinové hmotnosti
důvod – peptidy s nižší hmotností vznikají častěji,
přičemž tato závislost je ještě ovlivněna délkou pův.
proteinové sekvence
• v praxi různé matice pro různé enzymy a databáze
MOWSE
• procházíme DB sekvencí, inkrementujeme příslušné
elementy fi,j
• na konci jsou všechny prvky v daném sloupci přeočteny
na pravděpodobnost jejich výskytu podle vztahu
• následně ještě normalizujeme podle maximální hodnoty
v daném sloupci, získáme tak prvky nové matice M
(MOWSE factor matrix)
MOWSE
• výsledné skóre proteinu
• Mprot – relativní molekulová hmotnost proteinu
• n – počet nalezených peptidů
• 50 kDa – normalizační konstanta pro redukci náhodného
růstu skóre pro velmi dlouhé sekvence
• v praxi je používán o něco složitější pravděpodobnostní
model, který nebyl publikován
De Novo
• identifikace peptidových sekvencí ze spekter s využitím
grafových algoritmů (bez databáze známých sekvencí)
• hmotnosti amynokyselin jsou definovány, vypočteme si
si hmotnosti všech dvojic (20*20) případně trojic
(20*20*20) aminokyselin
• problémy
– spektra typicky neobsahují kompletní série y-iontů, b-iontů
– spektra obsahují šum (peaky odpovídající nepredikovatelným
fragmentovým iontům – až 80% peaků)
– I a L mají stejnou hmotnost
– některé dvojice, trojice aminokyselin mají stejnou hmotnost
(stejné složení atomů)
– ve dvojici, trojici aminokyselin nelze stanovit správné pořadí
– posttranslační modifikace
De Novo
• cílem je najít cestu s největším počtem hran
De Novo
Sequence-Tag
• kombinace De Novo
s vyhledáváním v DB
• určí se krátká sekvence
„tag“, pak se prohledá DB
Sequence-Tag
Statistické hodnocení výsledků
• target-decoy přístup – proteinové sekvence v databázi přepíší
pozpátku a připojí se k původní databázi
– původní sekvence se označí „target“
– otočené sekvence „decoy“
• distribuce skóre pro PSMs v decoy databázi umožňuje rozlišit, zda
PSM s daným skóre je náhodný nebo ne
• FDR (false discovery rate)
– podíl počtu náhodných PSM ku všem
• q-value – minimální FDR, při kterém je PSM akceptován
• FDR – vlastnost množiny PSMs; q-value vlastnost jednoho PSM
• př.
– pro skóre 4.14, 4 decoy PSMs a 919 target PSMs, FDR = 0.35%
– pro skóre 3.98, 4 decoy PSMs a 1294 target PSMs, FDR = 0.27%
– q-value 0.27% má tedy 1294 PSMs, tj. pravděpodobnost, že daný PSM
je náhodný je 0.27%
OpenMS, TOPP & TOPPAS
• OpenMS je open source knihovna pro práci s MS/MS
spektry (C++)
• TOPP (balík *.exe souborů)
• TOPPAS
– z jednotlivých nástrojů lze skládat komplexní pipeline
• podpora ConsensusID
– identifikace peptidů se současným
využitím více nástrojů
• vyvíjeno v Applied Bioinformatics
Group, Eberhard-Karls Universität
in Tübingen, Německo
• www.open-ms.de
Jednoduchá identifikace
ConsensusID
That’s all folks !

Podobné dokumenty

MRP Výroba a kalkulace oba a kalkulace

MRP Výroba a kalkulace oba a kalkulace MS-DOS, Windows, Windows 95, Windows 98, Windows NT jsou registrované ochranné známky firmy Microsoft Corporation. Ostatní citované značky a jména produktů jsou ochranné známky nebo registrované oc...

Více

Cyklus glykolýza Krebs Fotorespirace dýchání

Cyklus glykolýza Krebs Fotorespirace dýchání degradace volně v matrix. 4. Řetězec mastných kyselin se prodlužuje o dva uhlíky z acetyl CoA. Aktivovaným donorem dvou uhlíků je malonyl CoA a prodlužování řetězce je poháněno odštěpováním CO2. 5....

Více

il costellos

il costellos Σ(AK zbytek) + 18

Více

Název prezentace

Název prezentace • Jakmile není uvedena velikost produktu a tím hrozí, že se na vzniklý produkt napárují nabídky s jinou velikostí, případně název porušuje výjimku názvosloví (strana 3), je jako důvod zamítnutí uve...

Více

Hmotnostní spektrometrie

Hmotnostní spektrometrie - [M+H]+, [M-H]-, aduktové ionty - fragmentové ionty nejsou pozorovány nebo jen ve velmi nízké intenzitě • peptidy, proteiny, sacharidy, nukleové kyseliny, organometalické i anorganické sloučeniny

Více

tunisko – základní informace

tunisko – základní informace Jsou to milí a příjemní lidé, kteří nikdy nebudou váhat pomoci druhému, poradit, odpovědět na jeho otázku, podat druhému pomocnou ruku. Ačkoliv se místní obyvatelé řadí mezi Araby, je jejich mental...

Více

Syntéza nových látek a polymerů na bázi boranů

Syntéza nových látek a polymerů na bázi boranů války, kdy byly borany považovány za potenciální palivo do raketových motor . V jejich struktu e se ukrývá veliké množství energie. Té se uvol uje p i spalování boran až sedmkrát více než p i spalo...

Více