databáze a vyhledávání sekvencí

Transkript

databáze a vyhledávání sekvencí
DATABÁZE A VYHLEDÁVÁNÍ SEKVENCÍ
MOLEKULÁRNÍ TAXONOMIE 2015
MARIAN NOVOTNÝ
OSNOVA
co je substrát pro molekulární taxonomii?
kde se shromažďují data?
jak data vyhledávat ?
REKONSTRUKCE EVOLUČNÍ HISTORIE
rekonstrukce na základě
srovnávání znaků
v molekulární taxonomii se
používají sekvence
sekvence (DNA, RNA,
proteiny) se srovnávají tzv.
alignmentem
HTTP://LGIMAGES.S3.AMAZONAWS.COM/DATA/IMAGEMANAGER/7793/PHYLOTREE1.GIF
KDE NAJÍT SEKVENCE?
BIOINFORMATICKÉ DATABÁZE
úložiště dat
(volně) dostupné pro kohokoliv
snadno k nalezení
lednové číslo Nucleid Acid Research (NAR)
HTTP://NAR.OXFORDJOURNALS.ORG/CONTENT/42/D1.TOC
LEDNOVÉ ČÍSLO NAR
NUCLEOTIDE SEQUENCE DATABASES
RNA SEQUENCE DATABASES
PROTEIN SEQUENCE DATABASES
STRUCTURE DATABASES
GENOMICS DATABASES (NON-VERTEBRATE)
METABOLIC AND SIGNALING PATHWAYS
HUMAN AND OTHER VERTEBRATE GENOMES
HUMAN GENES AND DISEASES
MICROARRAY DATA AND OTHER GENE EXPRESSION DATABASES
PROTEOMICS RESOURCES
OTHER MOLECULAR BIOLOGY DATABASES
ORGANELLE DATABASES
PLANT DATABASES
IMMUNOLOGICAL DATABASES
VLASTNOSTI DATABÁZE
četnost aktualizace dat
četnost aktualizace software
redundance
anotace dat
anotace databáze
...A NÁSTROJE
DNA DATABÁZE
GenBank(NCBI)
EMBL (EBI)
DDJB (Japonsko)
MÁLO ANOTOVANÁ SEKVENCE
ANOTOVANÁ SEKVENCE
GENOMICKÁ DATA
První RNA genom bacteriofág MS2 ... 1976... 3569 bazí
První DNA genom fág Φ-X 174 ... 1978 ... 5386 bazí
První bakteriální genom ... Heamophilus influenze ... 1995 ... 1,83 Mb
Největší genom ... Amoeba dubia ... 670 Gb
Organism
Complete
Draft assembly
In progress
total
Prokaryotes
946 (658)
644
610
17884
Archaea
84 (61)
4
46
134 (97)
Bacteria
862 (598)
640
564
2066 (1606)
Eukaryotes
40 (22)
270
344
2439
Viruses
3552
228 000 HUMAN GENOMES SEQUENCED IN 2014
GENOMOVÉ DATABÁZE
HTTP://WWW.NCBI.NLM.NIH.GOV/SITES/ENTREZ?DB=GENOME
HTTP://WWW.ENSEMBL.ORG/INDEX.HTML
HTTP://VEGA.SANGER.AC.UK/INDEX.HTML
HTTP://GENOME.UCSC.EDU/
HTTP://WWW.YEASTGENOME.ORG/
PROTEINOVÉ DATABÁZE
Uniprot - Swissprot + TrEMBL - 52,7 mil. sek.
Swiss-prot - anotováno, ~550 000 sekvencí
GenPept - překládaný GenBank
UNIPROT + TREMBL
AMINO ACID COMPOSITION
2.1
ALA
ARG
ASN
ASP
CYS
(A)
(R)
(N)
(D)
(C)
COMPOSITION IN PERCENT FOR THE COMPLETE DATABASE
8.57
5.47
4.17
5.28
1.29
GLN
GLU
GLY
HIS
ILE
(Q)
(E)
(G)
(H)
(I)
ASX (B) 0.000
3.88
6.14
7.08
2.20
6.00
LEU
LYS
MET
PHE
PRO
(L)
(K)
(M)
(F)
(P)
GLX (Z) 0.000
9.81
5.30
2.45
4.03
4.74
SER
THR
TRP
TYR
VAL
(S)
(T)
(W)
(Y)
(V)
XAA (X) 0.06
6.72
5.61
1.31
3.06
6.71
JAK DATA VYHLEDÁVAT ?
>ASTAKINE
MKMRGVSVGVLVVAMMSGLAMAGSCNSQEPDCGPSECCLQGWMR
YSTRGCAPLGEAGSSCNVFTQAPVKGFYIGMCPCRAGLVCTRPSATCQLPSQDNTLDSYY
EXISTUJÍ PŘÍBUZNÉ SEKVENCE A KDE JE NAJÍT?
HLEDÁNÍ V DATABÁZÍCH - ALGORITMY
tradiční algoritmy (Needleman-Wunsch, Smith-Waterman) pomalé
pro prohledávání velkých databází
používány heuristické metody - rychle vede k výsledku, který se
blíží optimálnímu řešení (ale nezaručuje jej) -> pro vyšší rychlost je
obětována přesnost (rule of thumb)
v případě sekvenčního srovnávání se metoda vzdává jistoty nalezení
optimálního alignmentu, aby v krátkém čase provedla srovnání se
všemi sekvencemi v databázi (50 - 100x rychlejší)
klasickými heuristickými metodami jsou FASTA a BLAST
obě metody použitelné pro DNA i proteinové sekvence
FASTA
metoda popsaná v 80. letech 20. století (Lipman & Pearson)
rychlá, heuristická metoda (na úkor senzitivity), globální alignment
zjednodušení v první fázi, sekvence rozděleny na krátké úseky
program generuje všechny možné “k-tuples” o délce k z dané
sekvence
k = 1-2 pro proteiny, k = 4-6 pro DNA
k-tuples jsou porovnávány s k-tuples sekvencí v databázích
FASTA
hledání SHOD v k-tuples
skórováni shod pomocí
skórovací tabulky (Blosum
50) a rozšíření alignmentu
(bez mezer)
vysoce skórující shody
vybrány
vybere úseky, které budou
součástí alignmentu
dynamické programování
pro konečný alignment
(mezery)
BLAST
BLAST = Basic Local Alignment Search Tool
Altschul et al., 1990
sekvence rozděleny na slova (words) a slova skórována vůči
databázi všech slov
slova skórována skórovací tabulkou (Blosum 62) a jen ty, které
dosáhnou předem nadefinovaného minimálního skóre (treshold)
jsou dále používány
slova se skóre větším než treshold nemusí nutně obsahovat jen
shody ( na rozdíl od Fasty)
v prvním kroku se porovnávají slova bez mezer
BLAST – step 1
• w=3
SEWRFKHIYRGQPRRHLLTTGWSTFVT
SEW
EWR
WRF
Parameter:
Word length (w)
Increase =
faster, but less
sensitive
74
01.06.2010
Sequence searching - Andrew Cowley
BLAST - HSP
HSP - high scoring pair
vyber jen taková “slova”,
která dosahují alespoň
skóre X (treshold)
PEG versus PQA
PEQ má s Blosum 62 skóre
15, PQA jen 12
pokud si stanovíme treshold
13, tak budeme dále hledat
jen slovo PEQ
BLAST – step 2
• Then it scans database sequences for exact matches
with
ith th
these words
d
76
01.06.2010
Sequence searching - Andrew Cowley
BLAST II
takto vybráná slova jsou hledána v databázi modifikovaným SmithWatermanem (50 x rychlejší)
HSP jsou dále rozšiřovány na obě strany dokud skóre roste
v posledním kroku jsou nejlépe skórující páry (HSP`s) podrobeny
dynamickému programování, které produkuje výsledné skóre a
alignment
vzhledem k rostoucí velikosti databází je třeba algoritmus neustále
modifikovat (dvě shody v okně definované velikosti)
obvykle citlivější než FASTA
implementován jako server na řadě míst (NCBI, EBI)
BLAST – step 3
• If two hits are found on the same diagonal the alignment
is extended until the score drops by a certain amount
• This results in a High-scoring Segment Pair (HSP)
Parameters:
Drop off
Substitution matrix
77
01.06.2010
Sequence searching - Andrew Cowley
BLAST – step 4
• If the total HSP score is above another threshold then a
gapped extension is initiated
Parameters:
Extension threshold (Sg)
Substitution matrix
78
01.06.2010
Sequence searching - Andrew Cowley
VERZE BLASTU
blastn - hledá s DNA sekvencí (query) v DNA databázi
blastp - hledá s proteinovou sekvencí v proteinové databázi
blastx - hledá s DNA sekvencí (6 rámců) v proteinové databázi
tblastn - hledá s proteinovou sekvencí v DNA databázi
tblastx - překládaná DNA v překládané DNA databázi
megablast - víc query najednou
C. On-line Summaries
Sequences producing High-scoring Segment Pairs:
High
Score
Smallest
Sum
Probability
P(N)
N
...............................................................................
sp|P08506|DACC_ECOLI PENICILLIN-BINDING PROTEIN 6 PRECURS...
894 5.0e-120 1
sp|P38422|DACF_BACSU PENICILLIN-BINDING DACF PROTEIN PREC...
209 5.0e-47
3
...............................................................................
sp|P28271|IREB_MOUSE IRON-RESPONSIVE ELEMENT BINDING PROT...
59 0.9996
1
sp|P31571|CAIA_ECOLI PROBABLE CARNITINE OPERON OXIDOREDUC...
48 0.9998
2
D. Alignments
..............................................................................
>sp|P08506|DACC_ECOLI PENICILLIN-BINDING PROTEIN 6 PRECURSOR
(D-ALANYL-D-ALANINE CARBOXYPEPTIDASE FRACTION C) (EC 3.4.16.4)
(DD-PEPTIDASE) (DD-CARBOXYPEPTIDASE) (PBP-6).
Length = 400
Score = 894 (409.5 bits), Expect = 5.0e-120, P = 5.0e-120
Identities = 169/342 (49%), Positives = 237/3 42 (69%)
Query:
Sbjct:
Query:
Sbjct:
Query:
Sbjct:
Query:
Sbjct:
Query:
1 MDYTTGQILTAGNEHQQRNPASLTKLMTGYVVDRAIDSHRITPDDIVTVGRDAWAKDNPV 60
MDY +G++L GN ++ +PASLTK+MT YVV +A+ + +I
D+VTVG+DAWA NP
45 MDYASGKVLAEGNADEKLDPASLTKIMTSYVVGQALKADKIKLTDMVTVGKDAWATGNPA 104
61 FVGSSLMFLKEGDRVSVRDLSRGLIVDSGNDACVALADYIAGGQRQFVEMMNNYAEKLHL 120
GSS+MFLK GD+VSV DL++G+I+ SGNDAC+ALADY+AG Q F+ +MN YA+KL L
105 LRGSSVMFLKPGDQVSVADLNKGVIIQSGNDACIALADYVAGSQESFIGLMNGYAKKLGL 164
121 KDTHFETVHGLDAPGQHSSAYDLAVLSRAIIHGEPEFYHMYSEKSLTWNGITQQNRNGLL 180
+T F+TVHGLDAPGQ S+A D+A+L +A+IH PE Y ++ EK T+N I Q NRN LL
165 TNTTFQTVHGLDAPGQFSTARDMALLGKALIHDVPEEYAIHKEKEFTFNKIRQPNRNRLL 224
181 WDKTMNVDGLKTGHTSGAGFNLIASAVDGQRRLIAVVMGADSAKGREEEARKLLRWGQQN 240
W
+N DG+KTG T+GAG+NL+ASA G RLI+VV+GA + + R E+ KLL WG +
225 WSSNLNEDGMKTGTTAGAGYNLVASATQGDMRLISVVLGAKTDRIRFNESEKLLTWGFRF 284
241 FTTVQILHRGKKVGTERIWYGDKENIDLGTEQEFWMVLPKAEIPHIKAKYTLDGKELTAP 300
F TV +
T+R+W+GDK ++LG +
+ +P+ ++ ++KA YTL
+LTAP
BLAST - VÝBĚR
databáze - DNA x protein, anotovaná x kompletní, strukturní,
genomové, specializované (protilátky) ...
organismus
datum - sekvence za poslední dva týdny
skórovací tabulka - blosum 62
velikost slova
low-complexity region filter - často P, D, N, E - false positive
“default”nastavení algoritmu vhodné ve většině případů
BLOSUM
BLOSUM 80 - tabulka vypočítaná na základě
alignmentu bloku sekvencí s identitou 80 %
BLOSUM 62 - tabulka vypočítaná na základě
alignmentu bloku sekvencí s identitou 62 %
BLOSUM VERSUS PAM
PAM 10
BLOSUM 90
VELMI PŘÍBUZNÍ
PAM 250
BLOSUM 62
VZDÁLENĚ PŘÍBUZNÍ
VÝZNAMNOST NÁLEZU
optimální alignment lze nalézt pro jakékoliv dvě sekvence
dvě náhodné DNA sekvence = ~ 25% SI
dvě náhodné proteinové sekvence = ~ 5% SI
jak určit, že je alignment statisticky významný ?
PARAMETRY VÝZNAMNOSTI
P-value
E-value
pouze statistická významnost skóre -> biologickou relevanci
záhodno ověřovat experimentálně
P-VALUE
P-value - pravděpodobnost, že sekvence budou srovnány s
nalezeným nebo vyšším skóre a zároveň nebudou příbuzné (false
positive hit)
P-value - pravděpodobnost, že bude skóre x nebo vyššího dosaženo
náhodou
pro účely výpočtu lze náhodu simulovat přeskládáváním sekvencí
nebo výběrem vzorku z databáze
druhá možnost lépe odpovídá realitě a poskytuje lepší výsledky
(především u DNA)
EVD
rozložení skóre lokálních alignmentů nepříbuzných sekvencí
neodpovídá normálnímu rozdělení, ale rozdělení podle extrémních
hodnot (EVD)
při normálním rozdělení by docházelo k přeceňování významu
dosažených skóre
DUNDAS ET AL. BMC BIOINFORMATICS 2007
P-VALUE
P-value (S>x) = 1-exp (-exp (-λ(x-u))),
u = charakteristická hodnota = Kmn/λ
m,n = délky sekvencí; K = konstanta; λ = “decay factor”
K a λ mohou být kalkulovány z vlastností skórovací tabulky
E-VALUE
E-value = pravděpodobnost, že bude dosaženo skóre x nebo
vyššího náhodou v databázi dané velikosti
E-value = P-value x N ; velikost databáze
příklad: databáze o miliónu sekvencí a P-value = 10-6
E-value = 10-6 x 106 =1
cutoff (expect treshold) parametr v BLASTU - udává kolik lze
průměrně očekávat false positives v databázi dané velikosti ->
způsob jak vyvažovat senzitivitu a selektivitu
nižší hodnota cutoff zvyšuje selektivitu, ale snižuje senzitivitu
BLAST / EVOLUČNÍ VZDÁLENOST
říká nám BLAST něco o příbuznosti nalezených sekvencí ?
Je první “hit” evolučně nejpříbuznější query (hledané sekvenci)?
BLAST většinou nalezá příbuzné sekvence
nejpříbuznější sekvence však mohou chybět v databázi
lokální alignment - často skóruje nejlépe vzdálené příbuzné
7 % sekvencí E.coli mělo nejlépe skórující sekvenci mimo Bacteria
2JTK
SEQUENCE IDENTITA/HOMOLOGIE
NEHOMOLOGNÍ PROTEINY
ROST, 1999
SEQUENCE IDENTITA/HOMOLOGIE
HOMOLOGNÍ PROTEINY
ROST, 1999
SEQUENCE IDENTITA/HOMOLOGIE
sekvenční identita > 35% - pravděpodobně homolog
sekvenční identita = 20-35% (“twilight zone”; Doolittle) může být homolog
sekvenční identita < 20% - “midnight zone” (Rost) sekvence zcela nedostatečná k určení homologie
SANDER ET AL., PREPRINT
Average sequence identity of random alignments - 5.6 %
Average sequence identity of remote homologues - 8.5 %
SSEARCH
pokud máte moře času nebo počítačový klastr nebo jste zoufalí
rigorózní Smith-Waterman - local alignment v databázi
When to use what?
Query length
NCBI BLAST
WU-BLAST
FASTA
PSI-SEARCH
Database size
85
01.06.2010
Sequence searching - Andrew Cowley
When to use what?
time to search
h
NCBI BLAST
WU-BLAST
FASTA
PSI-SEARCH
PDB Swiss-Prot UniRef50 UniRef 90 UniRef100 UniProtKB UniParc
86
01.06.2010
Sequence searching - Andrew Cowley
01.06.2010
Sequence searching - Andrew Cowley
DALŠÍ METODY HLEDÁNÍ V DATABÁZÍCH
profilové metody
HMM modely
PROFILY
modifikují skórovací tabulky specificky pro skupiny proteinů a pozici
v alignmentu (např. globiny)
pro každou pozici v alignmentu jsou generovány specifická skóre
jak pro záměnu za jakoukoliv aa, tak pro inzerci nebo deleci
Prof (pos,aa) = Σtype N(pos,type) x S(type, aa) x 10
N(pos,type) = podíl výskytu aa x na pozici y
S(type, aa) = skóre skórovací tabulky pro zaměňovaný pár
PŘÍKLAD PROFILU
v alignmentu globinů se na pozici 3 vyskytuje 3x Ala, 6x Val, 1x Ile,
používáme tabulku Blosum 62
jaké bude profilové skóre pro výskyt Ile a His ?
N(x,A) = 0.3, N(x,V) = 0.6, N(x, I) = 0.1
S(A,I) = -1, S(V,I) = 3, S(I,I) = 4
S(A,H) = -2, S(V,H) = -3, S(I,H) = -3
Prof (x, I) = 0.3 x -1 + 0.6 x 3 + 0.1 x 4 = 2.1 x 10 (v profilu) = 21 ( -1, 3, 4)
Prof (x, H) = 0.3 x -2 + 0.6 x -3 + 0.1 x -3 = -2.7 x 10 = -27 (-2, -3, -3)
PSI-BLAST
PSI-BLAST = Position Specific Iterative Blast
Altschul et al., 1997
profilová metoda, používá Position Specific Scoring Matrix (PSSM)
v prvním kole klasický BLAST, z vysoko skórujících alignmentů je
generována PSSM
v dalším kole hledání je už použita nová matrice a následně znovu
generována nová PSSM
opakováno libovolně dlouho (až ke konvergenci)
benchmark metoda
CS/CSI BLAST
Context-Specific Iterative Blast
Biegert, Soeding, 2009
context vytváří 12 aa v okolí sledované aa (6 na každé straně)
2x více vzdálených homologů než klasický blast při zachování
rychlosti a chybovosti
CSI - podobná aplikace na PSI-blast
po dvou iteracích csi blast stejné výsledky jako po pěti iteracích
psi-blast
benchmark metoda???
HMM
HMM = Hidden Markov Model
profilová metoda, používána při rozhodování, zda protein spadá do jisté skupiny
proteinů, typicky pro sekvence s nízkou %SI
velmi citlivá metoda, která vytváří statistický model pro definovanou skupinu sekvencí
na základě “tréninku” na sekvencích patřících do jedné skupiny (globiny) generuje
pravděpodobnost nejen pro jednotlivé záměny a inzerce a delece, ale i pro přechody
mezi nima
dovede do modelu zahrnout i aminokyseliny, které se v tréninkové skupině nevyskytují
alignment s největší pravděpodobností je optimální
posuzuje jak dobře daná sekvence odpovídá modelu
HMM
HTTP://HMMER.JANELIA.ORG/
SHRNUTÍ
databáze by měly být pravidelně updatovány
přehled dostupných biologických databází vždy v lednovém čísle
NAR
řada velmi specializovaných databází
hledání v databázích povětšinou heuristickými metodami
standard dnes BLAST
nutno hodnotit statistickou významnost nálezu
citlivější metodou PSI-Blast nebo HMM metody

Podobné dokumenty

21. kódovaná aminokyselina: Selenocystein

21. kódovaná aminokyselina: Selenocystein Selen (Se), patří společně s kyslíkem a sírou mezi chalkogeny, ale na rozdíl od nich je to poměrně vzácný prvek. V přírodě spolu s tellurem doprovází síru v jejích rudách. Sloučeniny selenu (seleni...

Více

Next Generation Sequencing

Next Generation Sequencing Práce s databázemi DNA sekvencí NCBI (National Center for Biotechnology Information) BLAST (Basic Local Alignment Search Tool)

Více

Měřítka aminokyselinové záměny (Substitution matrices

Měřítka aminokyselinové záměny (Substitution matrices počet vlastností vlastností, jejichž jejichž stav (pravdivý nebo nepravdivý) je shodný – konstantní konstantní pro vš všechny aminokyseliny ve sloupci. nmax poč počet srovná srovnávaných vlastností...

Více

program kniha abstrakt - Institute of Experimental Botany AS CR

program kniha abstrakt - Institute of Experimental Botany AS CR přítomné v různých organizmech. Srovnávají se blízce příbuzné organizmy, ale i velice vzdálené organizmy, např. bakterie a obratlovci včetně člověka. Srovnání vede nejen k identifikaci funkce genů,...

Více

MOLEKULÁRNÍ TAXONOMIE - 6 (2015) P(t)=e

MOLEKULÁRNÍ TAXONOMIE - 6 (2015) P(t)=e Je třeba mít na paměti, že hodnoty v empiricky odvozené matici jsou pravděpodobnosti odvozené z pozorovaných rozdílů a obsahují tedy i vliv frekvence jednotlivých typů aminokyselin (tedy ochotu je ...

Více

E-novinky k 21. 1. 2015 - Knihkupectví Hledající

E-novinky k 21. 1. 2015 - Knihkupectví Hledající Proto není neužitečné se svým stínem zabývat dříve, než nad námi jednoho dne nekontrolovaně převezme moc. Je to dobré i kvůli jeho méně zřetelným projevům, třeba různým nutkáním a sklonům, které si...

Více

Elixir - Cesnet

Elixir - Cesnet důvodů, vyvážit zájem uživatelů z Evropy který je heterogení • Velkoobjemová data by měla být uložena u výpočetních zdrojů.

Více

E-novinky k 10. 1. 2015

E-novinky k 10. 1. 2015 doby vyzvednout (běžně je otevřeno do 18 hodin, každou středu je pak prodloužená otevírací doba do 20 hodin). Můžete vyrazit dokonce ještě než vám potvrzení objednávky přijde – v tomto případě však...

Více