Měřítka aminokyselinové záměny (Substitution matrices

Transkript

Měřítka aminokyselinové záměny (Substitution matrices
Měřítka aminokyselinové záměny
(Substitution matrices)
Evoluční neutralisté
„
„
„
„
Evoluční selekcionisté
„
„
„
Většina genetických změn je k horšímu, a
proto je v průběhu evoluce ztracena (stejně
jako neutralisté).
Neutrální mutace jsou vzácné. Mutace
přinášející selektivní výhodu jsou zachovány.
Mnohočetné přiložení zobrazuje evoluční
adaptace.
Většina genetických změn je k horšímu, a
proto je v průběhu evoluce ztracena.
Mutace neutrální na aminokyselinové úrovni
jsou v průběhu evoluce zachovány.
Většina genetických změn není podrobena
selekci. Mutační změny na úrovni genu jsou
větší než selekční změny na úrovni
fenotypu.
Mnohočetné přiložení zobrazuje toleranci
proteinů vůči změnám.
Neutralisté vedou v oboru strukturní
a sekvenční bioinformatiky
„
Substituce
– velké, škodlivé Asp na Trp,
– neškodné Leu na Ile.
„
Jak měřit podobnost aminokyselin?
– 20*20 substituční matice.
Substituční matice
„
„
„
Shody
Genetické
Genetického kó
kódu
Slož
Složitá
itá
1
Matice shody
„
„
„
„
Matice genetického kódu (GCM)
Shodná aa: podobnost = 1
Neshodná aa: podobnost = 0
„
„
Měřítko: procenta shody
Přílišné zjednodušení reality
„
Komplikovanější matice
„
„
„
„
„
„
„
„
Measured number of
mutations/
mutations/expected number of
mutations
Negative if observed less often than
expected,
expected, disfavoured in evolution.
evolution.
0 – observed as often as expected.
expected.
Positive – mutation is favoured.
favoured.
Kontrolní otázka: která kodonová
pozice je nejdůležitější?
Margaret Dayhoff
Rozlišují konzervativní substituce –
substituce beze změny fyzikálně
chemických vlastností.
Log odd
Počítá, kolik nukleotidů je třeba změnit
kvůli změně kodonu z jedné aa na
druhou.
0, 1, 2, 3
V roce 1978 přiložila k sobě desítky
podobných sekvencí a spočítala, kolikrát
byla každá z aminokyselin nahrazena jinou
aa.
Matice Dayhoffové = Mutační Datová Matice
(MDM) = Percent Accepted Mutation (PAM).
Empirická matice, měřítko relativní
mutovatelnosti = log odd
PAM matrix
„
Scored:
– general mutability.
– mutability to a concrete aa.
„
If less likely to mutate then high reward
for its conservation (cysteine to cysteine
= 12).
A R N D
A
2
R
-2
N
0
0
D
0
-1
2
4
C
-2
-4
-4
-5
C
6
2
12
2
LR
„
„
„
LogLR (log odds ratio) substituce
Rozsah 0 až nekonečno, 1 je uprostřed.
Kombinace více LR vyžaduje násobení, což je
počítačově více náchylné k chybě než sčítání.
Proto je výhodné použít logLR
„
„
„
– pozitivní, když je čitatel LR větší než jmenovatel
– negativní, když je čitatel menší než jmenovatel
– logLR=log(3)=0,48.
– H1: hypotéza společného předka
– H2: hypotéza náhodné shody.
⎛ P (a, b predek ) ⎞
⎟⎟
log LR (a, b) = log⎜⎜
⎝ P(a, b náhoda ) ⎠
Skládání pravděpodobností logaritmus
poměru šancí (log odds)
„
„
Mějme kostku a minci. Vrhneme je.
Pravdě
Pravděpodobnost, že padne 6 na kostce a
orel na minci je rovna
1 1
P(6, orel ) = P(6 )× P(orel ) = × = 0,083
6 2
…skládání log odds
„
„
„
… skládání log odds
LR ( prilozeni ) =
P( A, G predek )× P (F , K predek )× P (E , D predek )
P ( A, G náhoda )× P(F , K náhoda )× P(E , D náhoda )
Mějme dvě
dvě sekvence:
GKD
Pravdě
Pravděpodobnost př
přilož
iložení
ení AFE k GKD za platné
platné hypoté
hypotézy
společ
společného př
předka je
Pravdě
Pravděpodobnost př
přilož
iložení
ení AFE k GKD za platné
platné náhodné
hodné
hypoté
hypotézy je
P( prilození náhoda ) = P( A, G náhoda )× P(F , K náhoda )× P(E , D náhoda )
Log odds v matici
„
LR ( prilozeni ) = LR ( A, G )× LR (F , K )× LR (E , D )
„
log LR ( prilozeni ) = log LR ( A, G ) + log LR (F , K ) + log LR (E , D )
AFE
P( prilozeni predek ) = P( A, G predek ) × P (F , K predek ) × P (E , D predek )
log xy = log x + log y
log P(6, orel) = log P(6 ) + log P(orel)
Při přiložení sekvencí chceme penalizovat vzácné
substituce a zohlednit časté substituce.
Mějme přiložené aminokyseliny a a b.
LR počítá, jaká je pravděpodobnost, že a=b za
předpokladu dvou rozdílných hypotéz
Log odds je upraveno – škálová
lováno a
zaokrouhleno k nejbliž
nejbližšímu
šímu celé
celému
číslu (log odds 5,
5,79 je škálová
lováno na
57,9
57,9 a zaokrouhleno na 58).
58).
Diagoná
Diagonála matice
– zvláš
tníí význam: pravdě
zvláštn
pravděpodobnost, že aa
odolá
odolá mutaci.
3
Tvorba matice Dayhoffové
„
„
„
„
Point Accepted Mutation (PAM): jednotka evoluce, která
která prů
průměrně
rně změ
změní
1% aa v proteinu.
Jak je pravdě
pravděpodobné
podobné, že jedna aa zmutuje na druhou za př
předpokladu
dané
dané PAM?
Nelze srovnat kaž
každou souč
současnou sekvenci se sekvencí
sekvencí jejich evoluč
evolučního
předka, ale:
Můžeme
ůžeme použ
použít metodu společ
společného př
předka
–
–
–
–
„
… tvorba matice Dayhoffové
Hrubá matice
spá
spárujeme souč
současné
asné sekvence podle př
příbuznosti,
pro kaž
každý pá
pár odvodí
odvodíme nejpravdě
nejpravděpodobně
podobnějšího
šího společ
společného př
předka,
vytvoř
vytvoříme fylogenetický strom,
iterativně
iterativně odvodí
odvodíme nejpravdě
nejpravděpodobně
podobnějšího
šího společ
společného př
předka pro kaž
každé
větvení
tvení stromu.
Matice mutačních pravděpodobností
Můžeme
ůžeme použ
použít metodu vzdá
vzdálenosti
– srovná
srovnáme vš
všechny pá
páry v př
přilož
iložení
ení,
– vytvoř
vytvoříme matici vzdá
vzdáleností
leností,
– iterativně
iterativně vytvoř
vytvoříme takový fylogenetický strom, který má
má minimum mutací
mutací.
Matice logaritmů poměrů šancí (log-odds)
Hrubá PAM matice
„
Relativní mutabilita
ƒ
ELVISISALIVE
ALQISSIP
LIVE
ISSIPLIVE
ƒ
•
5 PAMs:
PAMs: EE->A, VV->Q, II->S, SS->I, AA->P
nebo opač
eme urč
opačným smě
směrem (nemůž
nemůžeme
určit)
it).
ƒ
ƒ
•
S mezerami (indely
indely) se vypoř
vypořádáme jinak,
mimo substituč
substituční matici.
Matice pravděpodobností mutací
„
„
Polí
Políčka matice př
představují
edstavují pravdě
pravděpodobnost, že
aminokyselina ve sloupci j mutuje na aminokyselinu
v řádku i ve specifikované
specifikované jednotce evoluč
evolučního času.
asu.
Diagoná
ěpodobnost, že
Diagonální polí
políčko (pravd
(pravdě
aminokyselina i nezmutuje):
nezmutuje):
m polí
políčko matice
ui celková
celková relativní
relativní mutabilita aminokyseliny i
λ normalizač
normalizační konstanta pro danou matici
(odolnost mutaci rozlož
rozložená
ená na 20 aa
aa).
m(i, i ) = 1 − λui
ƒ
Jak je aminokyselina ná
náchylná
chylná k mutaci (pomě
poměr poč
počtu
mutované
mutované aa děleno celkovým výskytem aminokyseliny
v přilož
iložení
ení).
ELVISISALIVE
ALQISSIP
LIVE
ISSIPLIVE
aa E mutuje
mutuje jednou a vyskytuje se tř
třikrá
ikrát, takž
takže
relativní
relativní mutabilita je 1/3.
1/3.
Celková
Celková mutabilita aa E je rovna souč
součtu mutabilit
z rozdí
rozdílných př
přilož
iložení
ení, normalizová
normalizováno pomocí
pomocí PAMů
PAMů.
Inverzní
Inverzní hodnota relativní
relativní mutability dá
dává diagoná
diagonální
lní
části substituč
substituční matice.
…matice pravděpodobností mutací
„
Nediagoná
diagonální
lní polí
políčko
– Pravd
ěpodobnost, že j mutuje
Pravdě
mutuje na i, za př
předpokladu, že j mutuje
mutuje..
– A(i,j)
poč
A(i,j)
počet mutací
mutací i <-> j pozorovaný v hrubé
hrubé PAM matici
m(i, j ) =
λu j A(i, j )
∑ A(i, j )
i
„
„
„
„
Nejjednodušší
Nejjednodušší případ:
pad: evoluč
evoluční čas = 1 PAM; matice
matice se nazývá
nazývá PAM1
PAM2 matice
matice se zí
získá
ská z matice PAM1 povýš
povýšení
ením hodnot na druhou
PAM3 matice
matice se zí
získá
ská z matice PAM1 povýš
povýšení
ením hodnot na tř
třetí
etí
Obvykle se použ
používají
vají matice PAM120 a PAM250,
PAM250, které
které jsou citlivě
citlivější –
větší prioritu dá
dávají
vají konzervativní
konzervativní substituci než
než shodě
shodě aminokyseliny.
4
Konečná log odds matice
(matice Dayhoffové)
Log odds matice
„
„
Matice př
příbuznosti.
Kaž
Každé polí
políčko:
ko:
LR (i, j ) =
„
P(i, j predek )
P(i, j náhoda )
nint (x) zaokrouhluje x na nejbliž
nejbližší
celé
celé číslo
M (i, j ) = n int (10 log10 LR (i, j ))
A
Námitky proti matici Dayhoffové
„
„
Je založ
založena na malé
malém poč
počtu pozorovaných
substitucí
substitucí (1500)
„
„
„
Hodí
Hodí se sice k fylogenetické
fylogenetické analýze, ale
nehodí
nehodí se k vyhledá
vyhledávání v databá
databázích.
Založ
Založena na explicitní
explicitním evoluč
evolučním modelu
„
– úplně
plně konzervovaná
konzervovaná (nemě
neměnná
nná)
– konzervovaná
konzervovaná
– variabiln
variabilníí.
„
Slova nedostač
nedostačují
ují pro vyjá
vyjádření
ení drobných
rozdí
rozdílů v konzervovanosti -> lépe vyjá
vyjádřit
číselně
selně (konz
onzervač
ervačním skóre).
re).
N
D
R
-2
N
0
0
D
0
-1
2
4
C
-2
-4
-4
-5
C
6
2
12
BLOck
BLOck Scoring Matrice, Steve a Georgia Henikoffovi
Není
Není založ
založena na explicitní
explicitním evoluč
evolučním modelu
Kaž
Každá mož
možná substituce se poč
počítá v rá
rámci konzervativní
konzervativního bloku
přilož
iložených proteinových sekvencí
sekvencí, které
které pochá
pocházejí
zejí z mnoha
proteinových rodin.
rodin.
Měří
ěřítkem evoluč
evoluční vzdá
vzdálenosti v BLOSUM matici je procento shody aa
v př
přilož
iložených blocí
blocích pro danou substituci.
substituci.
– BLOSUM62 matice
matice je založ
založena na takových př
přilož
iložených blocí
blocích proteinů
proteinů,
kde prů
průměrně
rně 62% aa je shodných
– BLOSUM62 přibliž
ibližně odpoví
odpovídá PAM150;
PAM150; BLOSUM50 odpoví
odpovídá PAM250.
PAM250.
„
„
Skórování konzervovanosti aa
Jak je aa v př
přilož
iložené
ené sekvenci
konzervovaná
konzervovaná?
R
– nepokouší
nepokouší se poč
počítat substituce podé
podél vě
větví
tví evoluč
evolučního stromu,
– BLOSUM matice vyšší
ho řádu se nepoč
vyššího
nepočítá extrapolací
extrapolací jednodušší
jednodušší BLOSUM
matice.
matice.
– proto Henikoff a Henikoffov
á vymysleli BLOSUM
Henikoffová
matici.
matici.
„
2
BLOSUM matice
– matice
matice PET podle Jonese
Jonese použ
používá postup
Dayhoffov
é na 20 krá
Dayhoffové
krát větším
ším poč
počtu sekvencí
sekvencí.
„
A
Vhodná
Vhodná pro loká
lokální
lní přilož
iložení
ení, pro signá
signál já
jádra proteinu
Mož
Možné zkreslení
zkreslení: četnost ně
některých substitucí
substitucí může
ůže být umě
uměle
zvýš
zvýšena nebo sní
snížena.
ena.
Konzervační skóre
„
Použ
Použijte svou biochemickou intuici k seř
seřazení
azení
sloupců
sloupců mnohoč
mnohočetné
etného př
přilož
iložení
ení od nejví
nejvíce
konzervované
konzervovaného k nejmé
nejméně konzervované
konzervovanému.
1
2
3
4
5
6
7
8
9
10
11
D
D
D
D
D
E
E
E
F
F
D
D
D
D
D
E
E
E
E
E
L
L
L
L
L
L
L
L
-
I
I
I
I
L
L
L
L
V
V
D
D
D
D
D
E
E
E
E
F
D
D
D
D
D
D
D
D
D
F
D
D
D
D
D
D
D
D
D
E
P
P
P
P
W
W
W
W
S
S
D
D
D
D
D
D
D
D
D
D
D
V
Y
A
T
K
P
C
R
H
5
…konzervační skóre
Formalizace konzervačního skóre
10
8
2
7
6
1
5
9
11
3
4
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
E
D
D
D
D
D
E
E
E
E
E
D
D
D
D
D
D
D
D
D
F
D
D
D
D
D
E
E
E
E
F
D
D
D
D
D
E
E
E
F
F
I
I
I
I
L
L
L
L
V
V
P
P
P
P
W
W
W
W
S
S
D
V
Y
A
T
K
P
C
R
H
L
L
L
L
L
L
L
L
-
Konzervační skóre
„
Rozdě
Rozdělení
lení podle smě
směru
– skó
skóre roste, když
když roste konzervovanost (C)
– skó
skóre roste, když
když roste variabilita
variabilita (V).
„
Rozdě
Rozdělení
lení podle slož
složitosti
– Jednoduché
Jednoduché (Vnumaa, VKabat, VShannon)
– Slož
Složité
ité
„
„
„
stereochemick
tereochemické
mutač
utační
vážené
ené.
„
„
Frekvence aminokyseliny
„
Stereochemick
Stereochemické vlastnosti
„
Mezery
– relativn
relativní frekvence aminokyseliny ve sloupci.
sloupci.
– chemick
chemické a fyzikální
lní rozdí
rozdíly mezi aa.
aa.
– častá
astá přítomnost mezer na dané
dané pozici znamená
znamená,
že pozice není
není důlež
ležitá
itá pro funkci proteinu
(penalizuj
).
(penalizuj).
„
Vážení
ení sekvence
– normalizace
normalizace proti zkreslení
zkreslení příliš
lišnou podobností
podobností
některých sekvencí
sekvencí.
Vnumaa
k poč
počet aa na dané
dané pozici př
přilož
iložení
ení
„ K maximá
maximální
lní poč
počet (20)
k
Vnumaa =
K
„
„
VKabat
„
„
Nabývá
Nabývá hodnoty 1/K až 1.
VShannon
N poč
počet řádků
dků (poč
počet sekvencí
sekvencí
v přilož
iložení
ení)
n1 frekv
ence
e nejč
frekvenc
nejčastě
astější aa
k poč
počet aa na dané
dané pozici.
VKabat =
kN
n1
„
„
Entropie informač
informační nebo Shannonovo
Shannonovo skó
skóre
Kolika rozdí
rozdílnými způ
způsoby je mož
možno kulič
kuličky
seř
seřadit do linie?
linie? Permutace
Permutace::
W=
N!
10!
=
n1!×n2 !×...nK ! 5!×2!×3!
6
…VShannon
Logaritmus
Wmin=1, Wmax=N
Pro 5 barev a 10 kulič
kuliček,
ek, maximá
maximální
lní W
odpoví
odpovídá nejrovnomě
nejrovnoměrně
rnějšímu
šímu rozdě
rozdělení
lení
barev a kulič
kuliček: vž
vždy dvě
dvě kulič
kuličky jedné
jedné barvy.
barvy.
Kulič
Kuličky=
ky=pozice,
pozice, barvy=
barvy=aa.
aa.
Nevýhoda – fak
faktoriá
toriál nám vyhodí
vyhodí obrovské
obrovské
číslo.
slo.
„
„
„
„
„
„
K
ln W = − N ∑ pi ln pi
i =1
„
– Co tak použ
us?
?
použít logaritm
logaritmus
Shannonova entropie
K
„
i =1
„
„
Pokud jsou vš
všechny objekty shodné
shodné,
pak S=0.
Pokud jsou vš
všechny objekty stejně
stejně
časté
asté, pak S = -log21/K = log2K.
Taylorův Vennův diagram
Prolin
Alifatické
V
I
Maličké
S
M
Y
H
W
K
„
Na zá
základě
kladě Taylorova
Taylorova skó
skóre.
re.
Přepsá
epsání Taylorova diagramu do pravdivostní
pravdivostní
tabulky.
tabulky.
Q
D
I
Negativní
E
F
Aromatické
CS-H
T
L
Hydrofobní
G
„
N
A
Taylor nakreslil z aminokyselin Vennů
Vennův
diagram.
diagram.
Nalezni nejmenší
nejmenší množ
množinu, která
která
zahrnuje vš
všechny zadané
zadané
aminokyseliny.
aminokyseliny.
Skóre Zvelebilové
Malé
P
CS-S
Když
Když vydě
vydělíme obě
obě strany Nln2, dostaneme
Shannonovu
Shannonovu entropii
entropii..
Stereochemické skóre
S = −∑ pi log 2 pi
„
Nechť
Nechť pi=ni/N je frekvence i-té barvy kulič
kuličky.
Použ
Použití
itím aproximace lnN!~NlnN
lnN!~NlnN--N
Nabité
R
Polární
Kladné
L
V
C
A
G
M
F
Y
W
H
K
R
E
Q
D
N
S
T
P
B
Z
X
-
1
Hydrofobní
2
Polární
3
Malé
4
Prolin
5
Maličké
6
Alifatické
7
Aromatické
8
Kladně
nabité
9
Záporně
nabité
10
Nabité
7
Zvelebilov
é pravdivostní
Zvelebilové
pravdivostní tabulka
vlastností
vlastností aminokyselin
D
D
D
D
D
D
D
D
D
E
nkonst. poč
počet vlastností
vlastností, jejichž
jejichž stav
(pravdivý nebo nepravdivý) je shodný –
konstantní
konstantní pro vš
všechny aminokyseliny ve
sloupci.
nmax
poč
počet srovná
srovnávaných vlastností
vlastností.
„
„
C Zvelebilové =
nkonst .
nmax
Zvelebilov
é pravdivostní
Zvelebilové
pravdivostní tabulka
vlastností
vlastností aminokyselin
Mutační skóre
„
I
L
V
C
A
G
M
F
Y
W
H
K
R
E
Q
D
N
S
T
P
B
Z
X
-
„
1
Hydrofobní
2
Polární
3
Malé
4
Prolin
5
Maličké
6
Alifatické
7
Aromatické
8
Kladně
nabité
9
Záporně
nabité
10
Nabité
Vážené skóre
Skó
ké k substituč
Skóre souč
součtu pá
párů (SP)
SP) je analogic
analogick
substituční matici.
Měří
ěří konzervovanost souč
součtem vš
všech mož
možných pá
párových
podobností
podobností mezi aminokyselinami ve sloupci př
přilož
iložení
ení.
Celkem N(NN(N-1)/2 párových srovná
srovnání.
N poč
počet aminokyselin ve sloupci (poč
(počet př
přilož
iložených
sekvencí
sekvencí)
ai aminokyselina patř
ence
patřící do i-té sekv
sekvence
M(a,b)
podobnost mezi aminokyselinou a a
M(a,b)
aminokyselinou b
N −1
CSP = ∑
∑ M (a , a )
N
i =1 j =i +1
i
j
Vážené skóre
„
Váha sekvence je nepř
nepřímo úměrná
rná genetické
genetické
vzdá
vzdálenosti od ostatní
ostatních sekvencí
sekvencí v př
přiřazení
azení.
–
–
–
s sekvence
w váha; wi=1 pokud si se liší
liší od vš
všech ostatní
ostatních sekvencí
sekvencí
d(si, sj) vzdá
á jako
vzdálenost mezi sekvencemi si a sj měřen
ěřená
procento identity v př
přilož
iložení
ení
wi =
1 N
∑ d (si , s j )
N − 1 j ≠i
8
Použ
Použití
ití váhy sekvence
v konzervač
konzervačním skó
skóre
„
Skó
Skóre souč
součtu pá
párů
původní
vodní
N −1
C SP = ∑
∑ M (a , a )
N
i
i =1 j =i +1
se mě
mění na
N −1
CSP = ∑
j
∑ w w M (a a )
N
i =1 j = i +1
i
j
i,
j
A tak se vynuluje účinek vysoce skó
skórují
rujících
srovná
srovnání mezi velmi podobnými sekvencemi.
9

Podobné dokumenty

1 Obsah..........................................................

1 Obsah.......................................................... Vyhledávací stroj................................................................................................................ 5 Algoritmus 1 – interpret vyhledávacího stroje ......................

Více

databáze a vyhledávání sekvencí

databáze a vyhledávání sekvencí HLEDÁNÍ V DATABÁZÍCH - ALGORITMY tradiční algoritmy (Needleman-Wunsch, Smith-Waterman) pomalé pro prohledávání velkých databází používány heuristické metody - rychle vede k výsledku, který se blíž...

Více

2 - Česká zemědělská univerzita v Praze

2 - Česká zemědělská univerzita v Praze 2) Jak se pastevní preference ovcí vyvíjí v průběhu pastevní sezóny a meziročně? 3) Kterou část pastviny ovce preferují? Sbě Sběr dat: 1) data sbírána 3 x ročně od roku 2001 do

Více

Rozšiřující učivo

Rozšiřující učivo množinami a k tomu je nutné použít schéma, kterým bude možné zachytit všechny vztahy mezi množinami. A právěě to umož umožňují Vennovy diagramy, které představil edstavil v 19. století anglický věd...

Více

Trojfázové nízkonapěťové asynchronní motory 18,5 − 200 kW

Trojfázové nízkonapěťové asynchronní motory 18,5 − 200 kW Rozměry motorů následujících tvarů jsou stejné: IM B3, IM B6, IM B7, IM B8, IM V5 a IM V6 IM B5, IM V1 a IM V3 Motory s normálním výkonovým rozsahem lze objednat v základních tvarech IM B3 a IM B5 ...

Více

Humor v amatérském filmu

Humor v amatérském filmu neustále akčně klepe kamera, jako ve nebo si při programování pobrukuje. filmu Zachraňte vojína Ryana a pan Onur Dokonce i komentáře v jeho kódu byly vždy více méně rýmované. Navrhl jsem má pořád s...

Více

Zpravodaj Východočeského volného sdružení pro amatérský film a

Zpravodaj Východočeského volného sdružení pro amatérský film a Zúčastnili jsme se také několika výletů, jako například plavby na luxusní lodi, která nás přímo dovezla až na místo vinobraní, kde na nás čekala velká hostina. Lepší grilované prase jsem snad nej...

Více