Multiple alignment

Transkript

Multiple alignment

Bioinformatika
Multiple alignment, Fylogenetická
analýza, Predikce genů
http://bio.img.cas.cz
Jiří Vondrášek
Ústav organické chemie a biochemie
[email protected]
Jan Pačes
Ústav molekulární genetiky
[email protected]
Multiple alignment - princip
• Chceme vytvořit nejlepší alignment několika
(mnoha) sekvencí.
• Ideálně budeme porovnávat všechny sekvence
zároveň (efektivita je L kde L je délka alignmentu a n počet
sekvencí).
• Zrychlení:
• budeme přiřazovat všechny sekvence k
jedné vzorové.
• vytvoříme skupiny blízkých sekvencí, ze
kterých vytvoříme alignment, pak
vytváříme postupně společný alignment z
jednotlivých skupin.
n,
Multiple alignment - formáty
Fasta
Clustal
Mase
Phylip
MSF
Selex
;; saved by seaview on Mon Oct 30 03:05:23 2000
;no comment
seq4
ATTGTGGTACCAGAAG-CAGTTCTAAAGGAACATAATGTTAAGGATGGGGTTCCTCTATT
GGATTTGG-GGTTGTTGGAATTGACTGCTTAATCTGATTAGACTTTAAAATACTAAT
;no comment
seq8
ATTTTAGCACTTATAG-TGGTTCACAAGGAACATAATATTAAGGATTGGTTTCCT-TATT
TGTTTTGGCGGTTGCGGAAGCTGACGGCTTAATATGATTAGACCCAAGCATGCTTCG
;no comment
seq9
ATTTTCGTCCCAAGAA-TGGGTCTAGAGAAACAGAGTTGTAAGGATGGTGTTCTGTCATT
GGTATCGG-GGATTCTGTAGTTGCCTGTTTAACAAGATTAGACCCCAAGATGCTAA;no comment
seq10
ATTCTGATATCATAAA-TAGTTCCCTAGGAACAGAATATTAAGGATGGAGCTCTATCATT
GCTTTTGG-AGTTACTGGAATGGACTGCCCACCATGATTAGATCTAAAGATGCTAA;no comment
seq6
GTTTTACTACCATACG-T-GTTCTAGAGGAGCAATATGTTAAGGATGGGGTTCTTTAGTT
GCTTTGGG-GGTTTCTAGAGTTGGCTGCTTAATAGGATTAGACCCAAGGATGCCAAG
;no comment
seq2
ATTTTTGTACCGAGAG-TGGGTCTATAGAAATATAATATTAAGAATGGGTTTCTTTACTT
AGTCTTGG-GGTTTTTGTAGTTGGCTGTGGTATACGTATATACCCAAATACGCTAAG
;no comment
seq5
ACTTAATTACCATGAG-AGATTCTAGAGGAACACAGTATTAAGGATGGAGTTTATTCAGA
GGTTTTGG-GGTTTCTGAATTTGGCTGGTGAA-ATGATTGGACCTAAAAACGCTAA-
Fasta
Clustal
Mase
Phylip
MSF
Selex
CLUSTAL W(1.60) multiple sequence alignment
seq4
seq8
seq9
seq10
seq6
seq2
seq5
seq7
seq3
seq1
ATTGTGGTACCAGAAG-CAGTTCTAAAGGAACATAATGTTAAGGATGGGGTTCCTCTATT
ATTTTAGCACTTATAG-TGGTTCACAAGGAACATAATATTAAGGATTGGTTTCCT-TATT
ATTTTCGTCCCAAGAA-TGGGTCTAGAGAAACAGAGTTGTAAGGATGGTGTTCTGTCATT
ATTCTGATATCATAAA-TAGTTCCCTAGGAACAGAATATTAAGGATGGAGCTCTATCATT
GTTTTACTACCATACG-T-GTTCTAGAGGAGCAATATGTTAAGGATGGGGTTCTTTAGTT
ATTTTTGTACCGAGAG-TGGGTCTATAGAAATATAATATTAAGAATGGGTTTCTTTACTT
ACTTAATTACCATGAG-AGATTCTAGAGGAACACAGTATTAAGGATGGAGTTTATTCAGA
-CTTCTGAATCCTGGGTAGAGTCTAGAGGAACAAAATAGAATGGATGAAGTTCCTTAATA
ATCTTGGTACTAGGAG-TGTTTCTAGAGGAACAGAATATTAAAATTGGAGTT-ATTCGTC
---TTTTAGGCACCAGAAGTGTCTAGAGAAACAGAATATTAGGGATGGAGTCCTTTCAAT
seq4
seq8
seq9
seq10
seq6
seq2
seq5
seq7
seq3
seq1
GGATTTGG-GGTTGTTGGAATTGACTGCTTAATCTGATTAGACTTTAAAATACTAAT
TGTTTTGGCGGTTGCGGAAGCTGACGGCTTAATATGATTAGACCCAAGCATGCTTCG
GGTATCGG-GGATTCTGTAGTTGCCTGTTTAACAAGATTAGACCCCAAGATGCTAAGCTTTTGG-AGTTACTGGAATGGACTGCCCACCATGATTAGATCTAAAGATGCTAAGCTTTGGG-GGTTTCTAGAGTTGGCTGCTTAATAGGATTAGACCCAAGGATGCCAAG
AGTCTTGG-GGTTTTTGTAGTTGGCTGTGGTATACGTATATACCCAAATACGCTAAG
GGTTTTGG-GGTTTCTGAATTTGGCTGGTGAA-ATGATTGGACCTAAAAACGCTAAGGTTTCGA-GATGTCTGAGATTGGCTGCTTAATATGAGTAGATTCAAAAATGCTAAAGTTTTGG-CGTTTCTG-GTGTTGTTGCTTCATTTGAGTAGACTCCACAAGGCTAAGGTTTTGG-TGTATCTGGAGGTGTTTTTCTATTATGATAAGACTCAAAAATGCAAA-
Fasta
Clustal
Mase
Phylip
MSF
Selex
10
117
seq4
seq8
seq9
seq10
seq6
seq2
seq5
seq7
seq3
seq1
ATTGTGGTACCAGAAG-CAGTTCTAAAGGAACATAATGTTAAGGATGGGG
ATTTTAGCACTTATAG-TGGTTCACAAGGAACATAATATTAAGGATTGGT
ATTTTCGTCCCAAGAA-TGGGTCTAGAGAAACAGAGTTGTAAGGATGGTG
ATTCTGATATCATAAA-TAGTTCCCTAGGAACAGAATATTAAGGATGGAG
GTTTTACTACCATACG-T-GTTCTAGAGGAGCAATATGTTAAGGATGGGG
ATTTTTGTACCGAGAG-TGGGTCTATAGAAATATAATATTAAGAATGGGT
ACTTAATTACCATGAG-AGATTCTAGAGGAACACAGTATTAAGGATGGAG
-CTTCTGAATCCTGGGTAGAGTCTAGAGGAACAAAATAGAATGGATGAAG
ATCTTGGTACTAGGAG-TGTTTCTAGAGGAACAGAATATTAAAATTGGAG
---TTTTAGGCACCAGAAGTGTCTAGAGAAACAGAATATTAGGGATGGAG
TTCCTCTATTGGATTTGG-GGTTGTTGGAATTGACTGCTTAATCTGATTA
TTCCT-TATTTGTTTTGGCGGTTGCGGAAGCTGACGGCTTAATATGATTA
TTCTGTCATTGGTATCGG-GGATTCTGTAGTTGCCTGTTTAACAAGATTA
CTCTATCATTGCTTTTGG-AGTTACTGGAATGGACTGCCCACCATGATTA
TTCTTTAGTTGCTTTGGG-GGTTTCTAGAGTTGGCTGCTTAATAGGATTA
TTCTTTACTTAGTCTTGG-GGTTTTTGTAGTTGGCTGTGGTATACGTATA
TTTATTCAGAGGTTTTGG-GGTTTCTGAATTTGGCTGGTGAA-ATGATTG
TTCCTTAATAGGTTTCGA-GATGTCTGAGATTGGCTGCTTAATATGAGTA
TT-ATTCGTCAGTTTTGG-CGTTTCTG-GTGTTGTTGCTTCATTTGAGTA
TCCTTTCAATGGTTTTGG-TGTATCTGGAGGTGTTTTTCTATTATGATAA
GACTTTAAAATACTAAT
GACCCAAGCATGCTTCG
GACCCCAAGATGCTAAGATCTAAAGATGCTAAGACCCAAGGATGCCAAG
TACCCAAATACGCTAAG
GACCTAAAAACGCTAAGATTCAAAAATGCTAAGACTCCACAAGGCTAAGACTCAAAAATGCAAA-
PileUp
Fasta
Clustal
Mase
Phylip
MSF
Selex
MSF:
Name:
Name:
Name:
Name:
Name:
Name:
Name:
Name:
Name:
Name:
117
seq4
seq8
seq9
seq10
seq6
seq2
seq5
seq7
seq3
seq1
Type: N
Check:
oo
oo
oo
oo
oo
oo
oo
oo
oo
oo
Len:
Len:
Len:
Len:
Len:
Len:
Len:
Len:
Len:
Len:
6702
117
117
117
117
117
117
117
117
117
117
..
Check:
Check:
Check:
Check:
Check:
Check:
Check:
Check:
Check:
Check:
1684
9234
9475
7478
9874
2591
8419
8765
9670
9512
Weight:
Weight:
Weight:
Weight:
Weight:
Weight:
Weight:
Weight:
Weight:
Weight:
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
//
seq4
seq8
seq9
seq10
seq6
seq2
seq5
seq7
seq3
seq1
ATTGTGGTAC
ATTTTAGCAC
ATTTTCGTCC
ATTCTGATAT
GTTTTACTAC
ATTTTTGTAC
ACTTAATTAC
.CTTCTGAAT
ATCTTGGTAC
...TTTTAGG
CAGAAG.CAG
TTATAG.TGG
CAAGAA.TGG
CATAAA.TAG
CATACG.T.G
CGAGAG.TGG
CATGAG.AGA
CCTGGGTAGA
TAGGAG.TGT
CACCAGAAGT
TTCTAAAGGA
TTCACAAGGA
GTCTAGAGAA
TTCCCTAGGA
TTCTAGAGGA
GTCTATAGAA
TTCTAGAGGA
GTCTAGAGGA
TTCTAGAGGA
GTCTAGAGAA
ACATAATGTT
ACATAATATT
ACAGAGTTGT
ACAGAATATT
GCAATATGTT
ATATAATATT
ACACAGTATT
ACAAAATAGA
ACAGAATATT
ACAGAATATT
AAGGATGGGG
AAGGATTGGT
AAGGATGGTG
AAGGATGGAG
AAGGATGGGG
AAGAATGGGT
AAGGATGGAG
ATGGATGAAG
AAAATTGGAG
AGGGATGGAG
Multiple alignment - vizualizace
ClustalW
ClustalW
ClustalW - princip
1. Vygeneruje alignmenty každých dvou sekvencí.
2. Spočítá jejich evoluční vzdálenosti.
3. Pro nejbližší dvojici spočítá alignment a vygeneruje
consenzus.
4. Vybere další nejbližší dvojici.
Možné problémy:
• není možné později opravit chyby vzniklé
alignmentem nehomologních částí.
• používá globální alignment, musíme mít stejně
dlouhé sekvence.
ClustalW - použití
zdrojový kód:
ftp://ftp.ebi.ac.uk/pub/software/unix/clustalw
www:
http://dot.imgen.bcm.tmc.edu:9331/multi-align/Options/clustalw.html
http://www.csc.fi/molbio/progs/clustalw/
vstupní parametry:
similarity matrix
gap existence cost
per residue gap cost
ClustalW - reference
Higgins, D.G., Bleasby, A.J. and Fuchs, R. CLUSTAL
V: improved software for multiple sequence
alignment. Computer Applications in the Biosciences
(CABIOS), 8(2):189-191. (1992)
Thompson J.D., Higgins D.G., Gibson T.J.; CLUSTAL
W: improving the sensitivity of progressive multiple
sequence alignment through sequence weighting,
position-specific gap penalties and weight matrix
choice. Nucleic Acids Res. 22:4673-4680 (1994).
Dialign2, Multalign
www: http://bioweb.pasteur.fr/intro-uk.html
B. Morgenstern. DIALIGN 2: improvement of the
segment-to-segment approach to multiple sequence
alignment. Bioinformatics 15, 211 - 218. (1999)
F. Corpet Multiple sequence alignment with hierarchical
clustering, Nucl. Acids Res., 16 (22), 10881-10890
(1988)
Fylogenetická analýza
Odhaduje evoluční souvislosti mezi daty
Výchozí předpoklady:
kumulace jednotlivých změn
změny jsou náhodné
přibližně stejná evoluční rychlost
(molekulární čas)
Multiple alignment
Evoluční stromy - terminologie
• nody (uzly)
• vnitřní
• vnější
• větve
• topologie stromu
• bifurkační strom
• aditivní strom
• ultrametrický strom
• kořen (root) stromu
• pravdivý (korektní)
• odvozený
Evoluční stromy - příklad
(
(
(
(
polyA_26:0.042779,
HERV17_27:0.049179
):0.008643,
polyA_410:0.045034
):0.001912,
(
(
polyA_20:0.039953,
HERV17_15:0.034230
):0.003074,
HERV17_76:0.041414
):0.002812
):0.001440,
polyA_30:0.042838,
(
polyA_99:0.052972,
HERV17_19:0.041888
):0.003257
)
Evoluční stromy - příklad
Evoluční strom pTR5 rodiny lidských endogenních retrovirů
Evoluční stromy - tvorba
Algoritmické metody - rychlé, dávají jednoznačný
výsledek, ale ne vždy nejlepší (lokální optimum).
Optimalizační metody - pomalejší, ale naleznou globální
optimum.
Požadavky na vstupní sekvenční data:
•Alignment pouze homologních částí
•Vynechat gaps
(Stromy založené na binárních datech, jako je restrikční
analýza nebo unikatní inzerce a delece.)
Algoritmické (distanční) metody
Metoda: shluková analýza
Vstup: matice distancí (substituční model)
• UGPMA (Unweighted pair group method with
arithmetic averages)
• WGPMA
• Neighbour-joining
Neighbour-joining
Star decomposition method
Substituční modely
Pro DNA:
• Jednoparametrická: Jukes-Cantor
• Dvouparametrická: Kimura
Transice: purin - purin
Transverze: pyrimidin - purin
Pro proteiny:
• Substituční matice (Blosum etc)
Matice distancí
9
polyA_26
polyA_30
polyA_20
polyA_99
polyA_410
HERV17_27
HERV17_76
HERV17_19
HERV17_15
0.1102
0.1144
0.1326
0.1089
0.1070
0.0960
0.1045
0.0980
0.1027
0.1100
0.1009
0.1263
0.1024
0.0994
0.0975
0.1237
0.1067
0.1285
0.0953
0.1019
0.0841
0.1150
0.1504
0.1221
0.1097
0.1170
0.1198
0.1036
0.1059
0.0977
0.1188
0.1304
0.1127
0.0975
0.0860
0.0927
Optimalizační metody
Metoda: hledání optimálního stromu
Vstup: multiple alignment
• parsimonie (parsimony)
• maximální věrohodnost
(maximum likehood - ML)
• párové distanční metody
(pairwise distance methods).
Parsimonie
A:
B:
C:
D:
TATGTTC
TATTTTC
TACGTAC
GACTTAA
A
C
B
D
A
B
C
D
A
C
D
B
Parsimonie 1
A:
B:
C:
D:
TATGTTC
TATTTTC
TACGTAC
GACTTAA
A
C
B
D
A
B
C
D
A
C
D
B
1
1
1
Parsimonie 2
A:
B:
C:
D:
TATGTTC
TATTTTC
TACGTAC
GACTTAA
A
C
B
D
A
B
C
D
A
C
D
B
1+1
1+2
1+2
Parsimonie 3
A:
B:
C:
D:
TATGTTC
TATTTTC
TACGTAC
GACTTAA
A
C
B
D
A
B
C
D
A
C
D
B
2+2
3+1
3+2
Parsimonie 4
A:
B:
C:
D:
TATGTTC
TATTTTC
TACGTAC
GACTTAA
A
C
B
D
A
B
C
D
A
C
D
B
4+1
4+2
5+2
Parsimonie 5
A:
B:
C:
D:
TATGTTC
TATTTTC
TACGTAC
GACTTAA
A
C
B
D
A
B
C
D
A
C
D
B
6
7
8
Optimalizační metody
Parsimonie nebere v úvahu délky větví a
pravděpodobnosti jednotlivých přechodů
Maximální věrohodnost vybírá stromy, kde
nepravděpodobné události jsou na delších
větvích
Testování topologie
Bootstrap: výběr s opakováním
Jack Knife: výběr bez opakování, ale menší
počet sekvencí
Kořen stromu
Kořen stromu
Programy
http://geta.life.uiuc.edu/~nikos/LINKS/biocomputing_servers.html
http://bioweb.pasteur.fr/seqanal/phylogeny/phylip-uk.html
http://evolution.genetics.washington.edu/phylip/software.html
Predikce genů
Založena na nestejném informačním obsahu v
kódujících a nekódujících oblastech
(kódující potenciál).
Rozdílné metody pro prokaryotní a eukaryotní
geny.
Potřebujeme již existující data.
Principy metod
• homologie (exofish, ..)
• statistické metody (codonuse, genscan, ..)
• neuronové sítě (genemark, ..)
Výběr kodónů
Leucin
Rhodobacter capsulatus
antikodón
CUA
CUC
CUG
CUU
UUA
UUG
počet
3
119
458
157
0
27
Escherichia coli
%
<1
16
60
20
0
3
%
4
9
52
10
11
13
Predikce genů - statistický výpočet
Pravděpodobnost výskytu znaku (řetězce) na pozici i:
Pi = fi / Σ f
Pravděpodobnost výskytu určitého úseku (okna):
Pw = P1 . P2 .. Pw
= Σ logPi
kde w je délka úseku
kde i = 1..w
Pro daný úsek získáme šest hodnot, které normujeme, např:
CPf = CPi / Σ CPkde i = 1..6
codonuse
• grafické rozhraní ke statistickému výpočtu
• používá dicodon preferences
• variabilní okno při prohledávání
CRITICA
• prokaryotické geny
• hledání RBS (ribosomal binding site,
Shine-Dalgarnova sekvence)
Princip:
• TBLASTP proti proteinové databázi a vytypování "jistě"
kódujících sekvencí (většinou nekompletních genů).
• Vytvoření statistického modelu.
• Predikce genů.
• Vytvoření dalšího statistického modelu a predikce genů.
Genscan
• eukaryotické geny
• počítá různě první, prostřední a poslední exon
• promotory, terminátory, polyA
• různé statistické parametry pro různé GC
www: http://genes.mit.edu/GENSCAN.html
Pravděpodobnostní
rozsah
Exony
Přesně
Částečně
Překryv
Chybně
0.00 - 0.50
248
29.8%
27.8%
4.0%
38.3%
0.50 - 0.75
362
54.1%
26.2%
2.2%
17.4%
0.75 - 0.90
337
74.8%
16.0%
1.2%
8.0%
0.90 - 0.95
263
87.8%
6.1%
0.4%
5.7%
0.95 - 0.99
551
92.4%
3.4%
0.2%
4.0%
0.99 - 1.00
917
97.7%
0.9%
0.0%
1.4%
Genscan - příklad
GENSCAN 1.0exonsDate
Suboptimal
withrun:
probability
31-Oct-100
> 0.100
Time: 15:54:20
Sequence
HERV17_004640
: 40714
37.79%
Exnum
Type
S .Begin ...End
.Lenbp
Fr:Ph
B/Ac
----- ---- - ------ ------ ---- -- -- ---Parameter matrix: HumanIso.smat
S.001 Init +
2937
3136 200 2 2
67
Predicted
S.002
Intrgenes/exons:
+
3239
3325
87 2 0
43
S.003 Intr + 17250 17375 126 0 0
66
Gn.Ex Init
S.004
Type +
S .Begin
17311 ...End
17375 .Len
65 Fr
0 Ph
2 I/Ac
55
----- Intr
S.005
---- - -----24927 -----24728 ---200 -2 -2 ---12
S.006 Intr - 25129 25003 127 2 1
51
1.01 Init
+ 29973
1825 29878
1853
29 0
86
S.007
Intr 96
1 2
0
44
1.02 Term
+ 32589
3886 32418
4075 190
85
S.008
Intr 172 1
2 1
19
1.03 PlyA
+ 32563
4961 32427
4966 137
6 2 2
S.009
Intr 46
S.010 Intr - 32589 32427 163 2 1
19
S.011
2.00 Prom
Intr + 32857
6668 32804
6707
40 0 0 104
54
S.012
2.01 Init + 33114
17251 17375
33008 125
107 0 2
45
79
S.013
2.02 Term
Init + 37062
20137 20329
37067 193
6 1
2 1
0
85
53
S.014
2.03 PlyA
Intr + 38237
20809 20814
38315
79
6 1 1
35
S.015 Intr + 38270 38315
46 1 1
81
S.016
3.08 PlyA
Term +
- 38623
21608 21603
39059 437
6 2 2
55
S.017
3.07 Term +
- 38872
22315 21651
39059 665
188 2 2 -17
62
3.06 Intr - 24268 22592 1677 2 0
81
3.05 Intr - 24877 24728 150 2 0
34
3.04 Intr peptide
- 29976
29878
99 1 0
48
Predicted
sequence(s):
3.03 Intr - 31296 31170 127 0 1
89
3.02 Intr - 32563 32418 146 2 2
46
3.01 Init - 33114 33006 109 0 1
79
3.00 Prom - 35592 35553
40
4.00
4.01
4.02
4.03
4.04
Prom
Init
Intr
Term
PlyA
+
+
+
+
+
36433
37863
38032
38614
39744
36472
37909
38102
39059
39749
40
47
71
446
6
2
1
2
2
2
2
71
33
66
C+G :CodRg
Isochore
1 Tscr..
( 0.00 - 43.00 C+G%)
Do/T
P....
---- ----- ----- ------22
154 0.301
0.72
23
121 0.358 -0.73
72
94 0.141
4.47
Do/T
72 CodRg
45 0.204
P.... Tscr..
0.27
---91 ----115 ----0.146 -----2.27
92
37 0.117 -0.78
71
45
1.72
111
87 0.579
0.473
5.66
44
198 0.941
70
151
0.336 11.04
5.42
1.05
70
116 0.122
4.97
70
135 0.114
3.86
103
2 0.262 -4.65
0.48
72
17
80
87 0.590
0.296
1.81
0.46
43
68
196
1 0.990
0.115 10.71
-4.38
38
94 0.175 -2.69
1.05
38
59 0.170 -2.74
49
266 0.139 -3.24
13.86
55
49
522 0.952
243
0.212 31.44
14.47
94 2124 0.885 198.67
91
101 0.783
4.21
111
82 0.473
5.66
82
101 0.997
8.93
70
132 0.303
6.28
12
93 0.406
1.25
-5.85
58
67
49
16 0.307
79 0.531
276 0.577
-4.25
-2.89
-1.79
15.91
1.05
Programy a www servery
Rozcestník:
• http://www.hgc.ims.utokyo.ac.jp/
/~katsu/genefinding/programs.html
Obecné a multi:
• http://dot.imgen.bcm.tmc.edu:9331/seq-search/gene-search.html
• http://bioweb.pasteur.fr/seqanal
Jednotlivé programy:
• http://genes.mit.edu/GENSCAN.html
• http://www.tigr.org/tdb/glimmerm/glmr_form.html
• http://www.tigr.org/~salzberg/veil.html
• http://www.tigr.org/~salzberg/morgan.html
• http://kicy.genoscope.cns.fr/cgi-bin/exofish_kicy.cgi
• http://www.fruitfly.org/~martinr/doc/genie.html
• http://www.resp-sci.arizona.edu/genlab/genehunter.htm
Dodatky
Pseudogeny: poměr synonymních a
nesynonymních mutací

Multiple alignment

Transkript

Podobné dokumenty

Evropská vědecko- výzkumná politika, 7.RP