Analýza proteinových sekvencí (domácí úkol s použitím internetu
Transkript
Analýza proteinových sekvencí (domácí úkol s použitím internetu
Biologická olympiáda 2011–2012, školní kolo kategorie A Číslo soutěžícího: ........ Analýza proteinových sekvencí (domácí úkol s použitím internetu) Tabulka jednopísmenných kódů aminokyselin Autor: Jaroslav Icha alanin A isoleucin I arginin R leucin L asparagová kyselina D lysin K asparagin N methionin M cystein C prolin P Veškeré vlastnosti proteinu jsou dány jeho primární strukturou, tj. sekvencí aminokyselin. Ne všechny vlastnosti ale umíme ze sekvence aminokyselin vyvodit. Některé už umíme odhadovat přesně, např. izoelektrický bod (což je pH, při kterém má protein celkově nulový náboj, zásadité proteiny mají vysoké pI a kyselé naopak nízké pI). Jiné charakteristiky proteinů odhadujeme pořád dost špatně, např. 3D strukturu. Pro zjišťování struktur proteinů jsou stále nepostradatelné experimentální metody rentgenová krystalografie a nukleární magnetická rezonance, i když nedávno získalo velkou publicitu vyřešení struktury virového enzymu čistě teoretickým přístupem hráči hry foldit (web: fold.it). Umět zrekonstruovat vlastnosti proteinu jen z jeho sekvence je užitečné, kupříkladu když objevíte nový gen a chcete zjistit, jakou funkci by mohl mít protein, který se podle genu vyrábí nebo když chcete odhadnout, jak se změní známý protein, pokud v jeho sekvenci dojde k mutaci. fenylalanin F serin S glutamová kyselina E threonin T glutamin Q tryptofan W glycin G tyrosin Y histidin H valin V Sekvence nemusíte opisovat, najdete je na adrese: HTTP://goo.gl/uD97w Sekvence 1 MARTKQTARKSTGGKAPRKQLATKAARKSAPATGGVKKPHRYRPGTVALREIRRYQKS TELLIRKLPFQRLVREIAQDFKTDLRFQSSAVMALQEACEAYLVGLFEDTNLCAIHAKRV TIMPKDIQLARRIRGERA V této úloze si vyzkoušíte, kolik informací umíte zjistit o neznámé aminokyselinové sekvenci pomocí několika programů volně dostupných na internetu. Vaším úkolem bude získat co nejvíce informací o čtyřech neznámých aminokyselinových sekvencích a na základě těchto dat je přiřadit k nabízeným proteinům. V biologii se pro každou aminokyselinu používá jednopísmenné označení, které si můžete přeložit podle přiložené tabulky. Dále se v textu vyskytují pojmy N-konec a C-konec proteinu. N-konec (podle NH2 skupiny první aminokyseliny) znamená začátek proteinu a C-konec (podle COOH skupiny poslední aminokyseliny) je konec proteinu. Informace můžete hledat volně na internetu, doporučuji Wikipedii, spíše anglickou než českou (wikipedia.org) jako kvalitní zdroj informací nebo detailnější proteinovou databázi Uniprot (uniprot.org) a samozřejmě Google. Počítejte s tím, že vám práce s počítačem může zabrat i více než hodinu, tak ji neodkládejte na poslední chvíli. Sekvence 2 MYGKIIFVLLLSEIVSISASSTTGVAMHTSTSSSVTKSYISSQTNDTHKRDTYAATPRAHE VSEISVRTVYPPEEETGERVQLAHHFSEPEITLIIFGVMAGVIGTILLISYGIRRLIKKSPSDV KPLPSPDTDVPLSSVEIENPETSDQ Sekvence 3 YNSTCGVSKFMWTKMMVDGHRMHIDRGLRWQVPQGSDMPMYTSRTAYMSEQVE HHPPYDRFSHVELLCKALAFKFIKLRDGQKFNITHSFCCPRETPNVENFNNEAPNITW LSWQFAAKYQALWKQIWCIYDCEGGYMNDEYQVCHIWVT Sekvence 4 MSKGEELFTGVVPILVELDGDVNGHKFSVSGEGEGDATYGKLTLKFICTTGKLPVPWP TLVTTFSYGVQCFSRYPDHMKQHDFFKSAMPEGYVQERTIFFKDDGNYKTRAEVKFE GDTLVNRIELKGIDFKEDGNILGHKLEYNYNSHNVYIMADKQKNGIKVNFKIRHNIEDG SVQLADHYQQNTPIGDGPVLLPDNHYLSTQSALSKDPNEKRDHMVLLEFVTAAGITH GMDELYK strana 3 Biologická olympiáda 2011–2012, školní kolo kategorie A Číslo soutěžícího: ........ Nejdříve si najděte na internetu základní informace o třech výše uvedených proteinech a promyslete si, jaké by měly mít aminokyselinové složení a izoelektrický bod (jsou kyselé nebo zásadité? apod.). Také se zamyslete, jak to bude u náhodné sekvence. Poté spočítejte tyto parametry pro všechny čtyři sekvence a výsledky si poznamenejte. Již na základě těchto informací jste schopní přiřadit jednu sekvenci a pro ostatní přiřazení jste získali důležité indicie. Proteiny » GFP, zelený fluorescenční protein » glycophorin A, transmembránový protein červených krvinek » histon H3 » sekvence aminokyselin náhodně vygenerovaná počítačem Návod Programy, které budete používat: 1) ProtParam http://web.expasy.org/protparam/ Spočítá některé základní parametry aminokyselinové sekvence. Nakopírujte svou sekvenci do většího ze dvou oken a zmáčkněte „compute parameters“ (spočítat parametry). 2) PSIPRED http://bioinf.cs.ucl.ac.uk/psipred/ Předpovídá sekundární strukturu proteinu, tj. oblasti α-helixů a β-listů a nestrukturované oblasti. Nakopírujte svou sekvenci do největšího okna, pojmenujte sekvenci do okna „Short identifier for submission“ (krátký identifikátor pro vaši sekvenci) a zmáčkněte „Predict“ (předpovědět). Žádné jiné nastavení neměňte. Vás bude zajímat hlavně aminokyselinové složení a z něj vyplývající izoelektrický bod (pI) proteinu. strana 4 Biologická olympiáda 2011–2012, školní kolo kategorie A Číslo soutěžícího: ........ Programu trvá několik minut než spočítá výsledek, takže mezitím můžete zjistit (např. z obrázku na wikipedii nebo v databázi proteinových struktur PDB (pdb. org), jakou sekundární strukturu nabízené čtyři proteiny doopravdy mají (převažují α-helixy nebo β-listy? apod.). Věnujte pozornost i důvěryhodnosti předpovědi „confidence of prediction“ zobrazené jako modrý graf v obrázku. Nezapomeňte si výsledek uložit, ať nemusíte zdlouhavou analýzu opakovat. 3) Tmpred http://www.ch.embnet.org/software/TMPRED_form.html Předpovídá, zda je protein transmembránový. Nakopírujte vaší sekvenci do největšího okna a zmáčkněte „Run Tmpred“. Žádné jiné nastavení neměňte. Výsledek: Když se vám zobrazí výsledek, to nejdůležitější sdělení najdete až na spodu stránky. Program předpoví, zda vůbec, a pokud ano, tak s jakou pravděpodobností a kde v sekvenci se transmembránový úsek nachází. Opět si nejprve najděte, který z proteinů je transmembránový a jaké mají transmembránové části proteinů vlastnosti. strana 5 Biologická olympiáda 2011–2012, školní kolo kategorie A Číslo soutěžícího: ........ protein GFP glycophorin A histon H3 náhodná sekvence sekvence č. Vysvětlení Za správné vysvětlení se považuje to, které umožňuje jednoznačně přiřadit aminokyselinovou sekvenci k proteinu. V některých případech může být jediná informace dostatečná. V jiných případech je pro zisk plného počtu bodů nutno uvést kombinaci alespoň dvou informací. Jako správné vysvětlení nelze uznat, pokud si najdete na internetu přímo sekvenci proteinu a odpovíte např. sekvence 4 je GFP, protože se shoduje se sekvencí GFP, kterou jsem našel na internetu nebo sekvence 4 je GFP, protože GFP je dlouhé 139 aminokyselin stejně jako sekvence 4. Vysvětlení by mělo být podloženo výsledkem analýzy v nějakém programu např. v sekvenci 4 se podle programu PSIPRED střídají úseky α-helixů a β-listů, což se shoduje se strukturou GFP, kterou jsem našel tam a tam a žádný další protein z nabídky takovou strukturu nemá. Vaše přiřazení můžete doložit např. i zkopírováním vašeho výsledku v konkrétním programu do řešení. 4) Pokud si ještě nejste jistí přiřazením, můžete si dále najít informace o doménách a funkci proteinů. Nyní už byste měli mít dostatek informací k tomu, abyste proteiny přiřadili k sekvencím a toto přiřazení správně odůvodnili. Můžete dále použít jakýkoli program, který naleznete na internetu, pokud budete chtít zjišťovat ještě další vlastnosti sekvencí. » GFP, zelený fluorescenční protein » glycophorin A, transmembránový protein červených krvinek Řešení Samotné správné přiřazení sekvencí k proteinům nebude bodováno, protože sekvence těchto proteinů jsou snadno dohledatelné na internetu. Zajímat nás bude až zdůvodnění, proč jste sekvence takto přiřadili. Rozhodně vám nezakazujeme dohledat si sekvence těchto 4 proteinů na internetu (nebo můžete použít program protein BLAST (http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE=Proteins), který k neznámé proteinové sekvenci najde nejpodobnější známé sekvence) může to být pro vás dobrá kontrola, že jste uvažovali správně. » histon H3 » sekvence aminokyselin náhodně vygenerovaná počítačem 10 strana 6