Multiple alignment
Transkript
Multiple alignment
Bioinformatika Multiple alignment, Fylogenetická analýza, Predikce genů http://bio.img.cas.cz Jiří Vondrášek Ústav organické chemie a biochemie [email protected] Jan Pačes Ústav molekulární genetiky [email protected] Multiple alignment - princip • Chceme vytvořit nejlepší alignment několika (mnoha) sekvencí. • Ideálně budeme porovnávat všechny sekvence zároveň (efektivita je L kde L je délka alignmentu a n počet sekvencí). • Zrychlení: • budeme přiřazovat všechny sekvence k jedné vzorové. • vytvoříme skupiny blízkých sekvencí, ze kterých vytvoříme alignment, pak vytváříme postupně společný alignment z jednotlivých skupin. n, Multiple alignment - formáty Fasta Clustal Mase Phylip MSF Selex ;; saved by seaview on Mon Oct 30 03:05:23 2000 ;no comment seq4 ATTGTGGTACCAGAAG-CAGTTCTAAAGGAACATAATGTTAAGGATGGGGTTCCTCTATT GGATTTGG-GGTTGTTGGAATTGACTGCTTAATCTGATTAGACTTTAAAATACTAAT ;no comment seq8 ATTTTAGCACTTATAG-TGGTTCACAAGGAACATAATATTAAGGATTGGTTTCCT-TATT TGTTTTGGCGGTTGCGGAAGCTGACGGCTTAATATGATTAGACCCAAGCATGCTTCG ;no comment seq9 ATTTTCGTCCCAAGAA-TGGGTCTAGAGAAACAGAGTTGTAAGGATGGTGTTCTGTCATT GGTATCGG-GGATTCTGTAGTTGCCTGTTTAACAAGATTAGACCCCAAGATGCTAA;no comment seq10 ATTCTGATATCATAAA-TAGTTCCCTAGGAACAGAATATTAAGGATGGAGCTCTATCATT GCTTTTGG-AGTTACTGGAATGGACTGCCCACCATGATTAGATCTAAAGATGCTAA;no comment seq6 GTTTTACTACCATACG-T-GTTCTAGAGGAGCAATATGTTAAGGATGGGGTTCTTTAGTT GCTTTGGG-GGTTTCTAGAGTTGGCTGCTTAATAGGATTAGACCCAAGGATGCCAAG ;no comment seq2 ATTTTTGTACCGAGAG-TGGGTCTATAGAAATATAATATTAAGAATGGGTTTCTTTACTT AGTCTTGG-GGTTTTTGTAGTTGGCTGTGGTATACGTATATACCCAAATACGCTAAG ;no comment seq5 ACTTAATTACCATGAG-AGATTCTAGAGGAACACAGTATTAAGGATGGAGTTTATTCAGA GGTTTTGG-GGTTTCTGAATTTGGCTGGTGAA-ATGATTGGACCTAAAAACGCTAA- Multiple alignment - formáty Fasta Clustal Mase Phylip MSF Selex CLUSTAL W(1.60) multiple sequence alignment seq4 seq8 seq9 seq10 seq6 seq2 seq5 seq7 seq3 seq1 ATTGTGGTACCAGAAG-CAGTTCTAAAGGAACATAATGTTAAGGATGGGGTTCCTCTATT ATTTTAGCACTTATAG-TGGTTCACAAGGAACATAATATTAAGGATTGGTTTCCT-TATT ATTTTCGTCCCAAGAA-TGGGTCTAGAGAAACAGAGTTGTAAGGATGGTGTTCTGTCATT ATTCTGATATCATAAA-TAGTTCCCTAGGAACAGAATATTAAGGATGGAGCTCTATCATT GTTTTACTACCATACG-T-GTTCTAGAGGAGCAATATGTTAAGGATGGGGTTCTTTAGTT ATTTTTGTACCGAGAG-TGGGTCTATAGAAATATAATATTAAGAATGGGTTTCTTTACTT ACTTAATTACCATGAG-AGATTCTAGAGGAACACAGTATTAAGGATGGAGTTTATTCAGA -CTTCTGAATCCTGGGTAGAGTCTAGAGGAACAAAATAGAATGGATGAAGTTCCTTAATA ATCTTGGTACTAGGAG-TGTTTCTAGAGGAACAGAATATTAAAATTGGAGTT-ATTCGTC ---TTTTAGGCACCAGAAGTGTCTAGAGAAACAGAATATTAGGGATGGAGTCCTTTCAAT seq4 seq8 seq9 seq10 seq6 seq2 seq5 seq7 seq3 seq1 GGATTTGG-GGTTGTTGGAATTGACTGCTTAATCTGATTAGACTTTAAAATACTAAT TGTTTTGGCGGTTGCGGAAGCTGACGGCTTAATATGATTAGACCCAAGCATGCTTCG GGTATCGG-GGATTCTGTAGTTGCCTGTTTAACAAGATTAGACCCCAAGATGCTAAGCTTTTGG-AGTTACTGGAATGGACTGCCCACCATGATTAGATCTAAAGATGCTAAGCTTTGGG-GGTTTCTAGAGTTGGCTGCTTAATAGGATTAGACCCAAGGATGCCAAG AGTCTTGG-GGTTTTTGTAGTTGGCTGTGGTATACGTATATACCCAAATACGCTAAG GGTTTTGG-GGTTTCTGAATTTGGCTGGTGAA-ATGATTGGACCTAAAAACGCTAAGGTTTCGA-GATGTCTGAGATTGGCTGCTTAATATGAGTAGATTCAAAAATGCTAAAGTTTTGG-CGTTTCTG-GTGTTGTTGCTTCATTTGAGTAGACTCCACAAGGCTAAGGTTTTGG-TGTATCTGGAGGTGTTTTTCTATTATGATAAGACTCAAAAATGCAAA- Multiple alignment - formáty Fasta Clustal Mase Phylip MSF Selex 10 117 seq4 seq8 seq9 seq10 seq6 seq2 seq5 seq7 seq3 seq1 ATTGTGGTACCAGAAG-CAGTTCTAAAGGAACATAATGTTAAGGATGGGG ATTTTAGCACTTATAG-TGGTTCACAAGGAACATAATATTAAGGATTGGT ATTTTCGTCCCAAGAA-TGGGTCTAGAGAAACAGAGTTGTAAGGATGGTG ATTCTGATATCATAAA-TAGTTCCCTAGGAACAGAATATTAAGGATGGAG GTTTTACTACCATACG-T-GTTCTAGAGGAGCAATATGTTAAGGATGGGG ATTTTTGTACCGAGAG-TGGGTCTATAGAAATATAATATTAAGAATGGGT ACTTAATTACCATGAG-AGATTCTAGAGGAACACAGTATTAAGGATGGAG -CTTCTGAATCCTGGGTAGAGTCTAGAGGAACAAAATAGAATGGATGAAG ATCTTGGTACTAGGAG-TGTTTCTAGAGGAACAGAATATTAAAATTGGAG ---TTTTAGGCACCAGAAGTGTCTAGAGAAACAGAATATTAGGGATGGAG TTCCTCTATTGGATTTGG-GGTTGTTGGAATTGACTGCTTAATCTGATTA TTCCT-TATTTGTTTTGGCGGTTGCGGAAGCTGACGGCTTAATATGATTA TTCTGTCATTGGTATCGG-GGATTCTGTAGTTGCCTGTTTAACAAGATTA CTCTATCATTGCTTTTGG-AGTTACTGGAATGGACTGCCCACCATGATTA TTCTTTAGTTGCTTTGGG-GGTTTCTAGAGTTGGCTGCTTAATAGGATTA TTCTTTACTTAGTCTTGG-GGTTTTTGTAGTTGGCTGTGGTATACGTATA TTTATTCAGAGGTTTTGG-GGTTTCTGAATTTGGCTGGTGAA-ATGATTG TTCCTTAATAGGTTTCGA-GATGTCTGAGATTGGCTGCTTAATATGAGTA TT-ATTCGTCAGTTTTGG-CGTTTCTG-GTGTTGTTGCTTCATTTGAGTA TCCTTTCAATGGTTTTGG-TGTATCTGGAGGTGTTTTTCTATTATGATAA GACTTTAAAATACTAAT GACCCAAGCATGCTTCG GACCCCAAGATGCTAAGATCTAAAGATGCTAAGACCCAAGGATGCCAAG TACCCAAATACGCTAAG GACCTAAAAACGCTAAGATTCAAAAATGCTAAGACTCCACAAGGCTAAGACTCAAAAATGCAAA- Multiple alignment - formáty PileUp Fasta Clustal Mase Phylip MSF Selex MSF: Name: Name: Name: Name: Name: Name: Name: Name: Name: Name: 117 seq4 seq8 seq9 seq10 seq6 seq2 seq5 seq7 seq3 seq1 Type: N Check: oo oo oo oo oo oo oo oo oo oo Len: Len: Len: Len: Len: Len: Len: Len: Len: Len: 6702 117 117 117 117 117 117 117 117 117 117 .. Check: Check: Check: Check: Check: Check: Check: Check: Check: Check: 1684 9234 9475 7478 9874 2591 8419 8765 9670 9512 Weight: Weight: Weight: Weight: Weight: Weight: Weight: Weight: Weight: Weight: 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 // seq4 seq8 seq9 seq10 seq6 seq2 seq5 seq7 seq3 seq1 ATTGTGGTAC ATTTTAGCAC ATTTTCGTCC ATTCTGATAT GTTTTACTAC ATTTTTGTAC ACTTAATTAC .CTTCTGAAT ATCTTGGTAC ...TTTTAGG CAGAAG.CAG TTATAG.TGG CAAGAA.TGG CATAAA.TAG CATACG.T.G CGAGAG.TGG CATGAG.AGA CCTGGGTAGA TAGGAG.TGT CACCAGAAGT TTCTAAAGGA TTCACAAGGA GTCTAGAGAA TTCCCTAGGA TTCTAGAGGA GTCTATAGAA TTCTAGAGGA GTCTAGAGGA TTCTAGAGGA GTCTAGAGAA ACATAATGTT ACATAATATT ACAGAGTTGT ACAGAATATT GCAATATGTT ATATAATATT ACACAGTATT ACAAAATAGA ACAGAATATT ACAGAATATT AAGGATGGGG AAGGATTGGT AAGGATGGTG AAGGATGGAG AAGGATGGGG AAGAATGGGT AAGGATGGAG ATGGATGAAG AAAATTGGAG AGGGATGGAG Multiple alignment - vizualizace ClustalW ClustalW ClustalW - princip 1. Vygeneruje alignmenty každých dvou sekvencí. 2. Spočítá jejich evoluční vzdálenosti. 3. Pro nejbližší dvojici spočítá alignment a vygeneruje consenzus. 4. Vybere další nejbližší dvojici. Možné problémy: • není možné později opravit chyby vzniklé alignmentem nehomologních částí. • používá globální alignment, musíme mít stejně dlouhé sekvence. ClustalW - použití zdrojový kód: ftp://ftp.ebi.ac.uk/pub/software/unix/clustalw www: http://dot.imgen.bcm.tmc.edu:9331/multi-align/Options/clustalw.html http://www.csc.fi/molbio/progs/clustalw/ vstupní parametry: similarity matrix gap existence cost per residue gap cost ClustalW - reference Higgins, D.G., Bleasby, A.J. and Fuchs, R. CLUSTAL V: improved software for multiple sequence alignment. Computer Applications in the Biosciences (CABIOS), 8(2):189-191. (1992) Thompson J.D., Higgins D.G., Gibson T.J.; CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22:4673-4680 (1994). Dialign2, Multalign www: http://bioweb.pasteur.fr/intro-uk.html B. Morgenstern. DIALIGN 2: improvement of the segment-to-segment approach to multiple sequence alignment. Bioinformatics 15, 211 - 218. (1999) F. Corpet Multiple sequence alignment with hierarchical clustering, Nucl. Acids Res., 16 (22), 10881-10890 (1988) Fylogenetická analýza Odhaduje evoluční souvislosti mezi daty Výchozí předpoklady: kumulace jednotlivých změn změny jsou náhodné přibližně stejná evoluční rychlost (molekulární čas) Multiple alignment Evoluční stromy - terminologie • nody (uzly) • vnitřní • vnější • větve • topologie stromu • bifurkační strom • aditivní strom • ultrametrický strom • kořen (root) stromu • pravdivý (korektní) • odvozený Evoluční stromy - příklad ( ( ( ( polyA_26:0.042779, HERV17_27:0.049179 ):0.008643, polyA_410:0.045034 ):0.001912, ( ( polyA_20:0.039953, HERV17_15:0.034230 ):0.003074, HERV17_76:0.041414 ):0.002812 ):0.001440, polyA_30:0.042838, ( polyA_99:0.052972, HERV17_19:0.041888 ):0.003257 ) Evoluční stromy - příklad Evoluční strom pTR5 rodiny lidských endogenních retrovirů Evoluční stromy - tvorba Algoritmické metody - rychlé, dávají jednoznačný výsledek, ale ne vždy nejlepší (lokální optimum). Optimalizační metody - pomalejší, ale naleznou globální optimum. Požadavky na vstupní sekvenční data: •Alignment pouze homologních částí •Vynechat gaps (Stromy založené na binárních datech, jako je restrikční analýza nebo unikatní inzerce a delece.) Algoritmické (distanční) metody Metoda: shluková analýza Vstup: matice distancí (substituční model) • UGPMA (Unweighted pair group method with arithmetic averages) • WGPMA • Neighbour-joining Neighbour-joining Star decomposition method Substituční modely Pro DNA: • Jednoparametrická: Jukes-Cantor • Dvouparametrická: Kimura Transice: purin - purin Transverze: pyrimidin - purin Pro proteiny: • Substituční matice (Blosum etc) Matice distancí 9 polyA_26 polyA_30 polyA_20 polyA_99 polyA_410 HERV17_27 HERV17_76 HERV17_19 HERV17_15 0.1102 0.1144 0.1326 0.1089 0.1070 0.0960 0.1045 0.0980 0.1027 0.1100 0.1009 0.1263 0.1024 0.0994 0.0975 0.1237 0.1067 0.1285 0.0953 0.1019 0.0841 0.1150 0.1504 0.1221 0.1097 0.1170 0.1198 0.1036 0.1059 0.0977 0.1188 0.1304 0.1127 0.0975 0.0860 0.0927 Optimalizační metody Metoda: hledání optimálního stromu Vstup: multiple alignment • parsimonie (parsimony) • maximální věrohodnost (maximum likehood - ML) • párové distanční metody (pairwise distance methods). Parsimonie A: B: C: D: TATGTTC TATTTTC TACGTAC GACTTAA A C B D A B C D A C D B Parsimonie 1 A: B: C: D: TATGTTC TATTTTC TACGTAC GACTTAA A C B D A B C D A C D B 1 1 1 Parsimonie 2 A: B: C: D: TATGTTC TATTTTC TACGTAC GACTTAA A C B D A B C D A C D B 1+1 1+2 1+2 Parsimonie 3 A: B: C: D: TATGTTC TATTTTC TACGTAC GACTTAA A C B D A B C D A C D B 2+2 3+1 3+2 Parsimonie 4 A: B: C: D: TATGTTC TATTTTC TACGTAC GACTTAA A C B D A B C D A C D B 4+1 4+2 5+2 Parsimonie 5 A: B: C: D: TATGTTC TATTTTC TACGTAC GACTTAA A C B D A B C D A C D B 6 7 8 Optimalizační metody Parsimonie nebere v úvahu délky větví a pravděpodobnosti jednotlivých přechodů Maximální věrohodnost vybírá stromy, kde nepravděpodobné události jsou na delších větvích Testování topologie Bootstrap: výběr s opakováním Jack Knife: výběr bez opakování, ale menší počet sekvencí Kořen stromu Kořen stromu Programy http://geta.life.uiuc.edu/~nikos/LINKS/biocomputing_servers.html http://bioweb.pasteur.fr/seqanal/phylogeny/phylip-uk.html http://evolution.genetics.washington.edu/phylip/software.html Predikce genů Založena na nestejném informačním obsahu v kódujících a nekódujících oblastech (kódující potenciál). Rozdílné metody pro prokaryotní a eukaryotní geny. Potřebujeme již existující data. Principy metod • homologie (exofish, ..) • statistické metody (codonuse, genscan, ..) • neuronové sítě (genemark, ..) Výběr kodónů Leucin Rhodobacter capsulatus antikodón CUA CUC CUG CUU UUA UUG počet 3 119 458 157 0 27 Escherichia coli % <1 16 60 20 0 3 % 4 9 52 10 11 13 Predikce genů - statistický výpočet Pravděpodobnost výskytu znaku (řetězce) na pozici i: Pi = fi / Σ f Pravděpodobnost výskytu určitého úseku (okna): Pw = P1 . P2 .. Pw = Σ logPi kde w je délka úseku kde i = 1..w Pro daný úsek získáme šest hodnot, které normujeme, např: CPf = CPi / Σ CPkde i = 1..6 codonuse • grafické rozhraní ke statistickému výpočtu • používá dicodon preferences • variabilní okno při prohledávání CRITICA • prokaryotické geny • hledání RBS (ribosomal binding site, Shine-Dalgarnova sekvence) Princip: • TBLASTP proti proteinové databázi a vytypování "jistě" kódujících sekvencí (většinou nekompletních genů). • Vytvoření statistického modelu. • Predikce genů. • Vytvoření dalšího statistického modelu a predikce genů. Genscan • eukaryotické geny • počítá různě první, prostřední a poslední exon • promotory, terminátory, polyA • různé statistické parametry pro různé GC www: http://genes.mit.edu/GENSCAN.html Pravděpodobnostní rozsah Exony Přesně Částečně Překryv Chybně 0.00 - 0.50 248 29.8% 27.8% 4.0% 38.3% 0.50 - 0.75 362 54.1% 26.2% 2.2% 17.4% 0.75 - 0.90 337 74.8% 16.0% 1.2% 8.0% 0.90 - 0.95 263 87.8% 6.1% 0.4% 5.7% 0.95 - 0.99 551 92.4% 3.4% 0.2% 4.0% 0.99 - 1.00 917 97.7% 0.9% 0.0% 1.4% Genscan - příklad GENSCAN 1.0exonsDate Suboptimal withrun: probability 31-Oct-100 > 0.100 Time: 15:54:20 Sequence HERV17_004640 : 40714 37.79% Exnum Type S .Begin ...End .Lenbp Fr:Ph B/Ac ----- ---- - ------ ------ ---- -- -- ---Parameter matrix: HumanIso.smat S.001 Init + 2937 3136 200 2 2 67 Predicted S.002 Intrgenes/exons: + 3239 3325 87 2 0 43 S.003 Intr + 17250 17375 126 0 0 66 Gn.Ex Init S.004 Type + S .Begin 17311 ...End 17375 .Len 65 Fr 0 Ph 2 I/Ac 55 ----- Intr S.005 ---- - -----24927 -----24728 ---200 -2 -2 ---12 S.006 Intr - 25129 25003 127 2 1 51 1.01 Init + 29973 1825 29878 1853 29 0 86 S.007 Intr 96 1 2 0 44 1.02 Term + 32589 3886 32418 4075 190 85 S.008 Intr 172 1 2 1 19 1.03 PlyA + 32563 4961 32427 4966 137 6 2 2 S.009 Intr 46 S.010 Intr - 32589 32427 163 2 1 19 S.011 2.00 Prom Intr + 32857 6668 32804 6707 40 0 0 104 54 S.012 2.01 Init + 33114 17251 17375 33008 125 107 0 2 45 79 S.013 2.02 Term Init + 37062 20137 20329 37067 193 6 1 2 1 0 85 53 S.014 2.03 PlyA Intr + 38237 20809 20814 38315 79 6 1 1 35 S.015 Intr + 38270 38315 46 1 1 81 S.016 3.08 PlyA Term + - 38623 21608 21603 39059 437 6 2 2 55 S.017 3.07 Term + - 38872 22315 21651 39059 665 188 2 2 -17 62 3.06 Intr - 24268 22592 1677 2 0 81 3.05 Intr - 24877 24728 150 2 0 34 3.04 Intr peptide - 29976 29878 99 1 0 48 Predicted sequence(s): 3.03 Intr - 31296 31170 127 0 1 89 3.02 Intr - 32563 32418 146 2 2 46 3.01 Init - 33114 33006 109 0 1 79 3.00 Prom - 35592 35553 40 4.00 4.01 4.02 4.03 4.04 Prom Init Intr Term PlyA + + + + + 36433 37863 38032 38614 39744 36472 37909 38102 39059 39749 40 47 71 446 6 2 1 2 2 2 2 71 33 66 C+G :CodRg Isochore 1 Tscr.. ( 0.00 - 43.00 C+G%) Do/T P.... ---- ----- ----- ------22 154 0.301 0.72 23 121 0.358 -0.73 72 94 0.141 4.47 Do/T 72 CodRg 45 0.204 P.... Tscr.. 0.27 ---91 ----115 ----0.146 -----2.27 92 37 0.117 -0.78 71 45 1.72 111 87 0.579 0.473 5.66 44 198 0.941 70 151 0.336 11.04 5.42 1.05 70 116 0.122 4.97 70 135 0.114 3.86 103 2 0.262 -4.65 0.48 72 17 80 87 0.590 0.296 1.81 0.46 43 68 196 1 0.990 0.115 10.71 -4.38 38 94 0.175 -2.69 1.05 38 59 0.170 -2.74 49 266 0.139 -3.24 13.86 55 49 522 0.952 243 0.212 31.44 14.47 94 2124 0.885 198.67 91 101 0.783 4.21 111 82 0.473 5.66 82 101 0.997 8.93 70 132 0.303 6.28 12 93 0.406 1.25 -5.85 58 67 49 16 0.307 79 0.531 276 0.577 -4.25 -2.89 -1.79 15.91 1.05 Programy a www servery Rozcestník: • http://www.hgc.ims.utokyo.ac.jp/ /~katsu/genefinding/programs.html Obecné a multi: • http://dot.imgen.bcm.tmc.edu:9331/seq-search/gene-search.html • http://bioweb.pasteur.fr/seqanal Jednotlivé programy: • http://genes.mit.edu/GENSCAN.html • http://www.tigr.org/tdb/glimmerm/glmr_form.html • http://www.tigr.org/~salzberg/veil.html • http://www.tigr.org/~salzberg/morgan.html • http://kicy.genoscope.cns.fr/cgi-bin/exofish_kicy.cgi • http://www.fruitfly.org/~martinr/doc/genie.html • http://www.resp-sci.arizona.edu/genlab/genehunter.htm Dodatky Pseudogeny: poměr synonymních a nesynonymních mutací
Podobné dokumenty
Evropská vědecko- výzkumná politika, 7.RP
Adoption of FP7; first calls published Green Book on ERA; Proposals for first JTIs and EIT Reform Treaty: ERA becomes tool of the EU Mid-term review of FP7
Více