Řešení - ViBuCh - Masarykova univerzita

Transkript

Řešení - ViBuCh - Masarykova univerzita
Masarykova univerzita
Přı́rodovědecká fakulta
Ústav chemie a NCBR
Řešenı́ úloh 3. série
3. ročnı́k (2012/2013)
ViBuCh – Vzdělávacı́ ikurz pro budoucı́ chemiky
řešenı́ úkolů 3. série (3. ročnı́k)
B3 – Predikce struktury a vlastnostı́ proteinů za pomoci bioinformatických nástrojů
Autor:
Jan Oppelt (e-mail: [email protected])
13 bodů
1. Často nebylo úplně lehké se dostat k informacı́m o řazenı́ databáze, ale stačilo mi, pokud jste napsali
základnı́ rozdělenı́. Pokud jste vypsali rozdělenı́ složitějšı́, vı́c bodů než maximum jste bohužel dostat
nemohli.
(a) Databáze SCOP má následujı́cı́ rozdělenı́, resp. následujı́cı́ hierarchii (úrovně) struktur:
1. Třı́da (Class): Typy foldů, např β-listy.
2. Fold (Fold): Rozdı́lné tvary domén uvnitř třı́dy.
3. Nadčeled’ (Superfamily): Domény ve foldu jsou seskupeny do nadčeledi, pokud majı́ alespoň
vzdáleného společného předka.
4. Čeled’ (Family): Domény v nadčeledi jsou seskupeny do čeledi, pokud majı́ o něco bližšı́ho
společného předka.
5. Proteinová doména (Protein domain): Domény v rodinách jsou seskupeny do proteinové
domény, pokud jsou v podstatě stejným proteinem.
6. Druhy (Species): Domény v proteinových doménách jsou seskupeny podle druhů.
7. Doména (Domain): Část proteinu. Pro jednoduché proteiny to může být celý protein.
Dalšı́ rozdělenı́ už je poměrně obsáhlé, tak jej tu vypisovat nebudu, ale dá se najı́t na pod
tı́mto odkazem.
Původnı́ rozdělenı́ však obsahovalo pouze body 1–4 a 6. To se tedy také dalo uznat jako správná
odpověd’.
Databáze CATH má následujı́cı́ rozdělenı́, resp. následujı́cı́ hierarchii (úrovně) struktur (u kterých, mimo jiné, počátečnı́ pı́smena tvořı́ samotný název databáze):
1. Třı́da (Class): Struktury jsou klasifikovány na základě složenı́ jejich sekundárnı́ struktury
(např. hlavně alfa, hlavně beta, namı́chané alfa/beta nebo méně sekundárnı́ch struktur).
2. Architektura (Architecture): Stuktury jsou klasifikovány podle jejich celkového tvaru tak,
jak je určujı́ orientace sekundárnı́ch struktur v 3D prostoru, ale ignoruje jejich propojenı́.
3. Topologie – čeled’ foldu (Topology – fold family): Na této úrovnı́ jsou struktury seskupeny
do skupin foldů jak podle jejich celkového tvaru, tak podle spojenı́ jednotlivých sekundárnı́ch
struktur.
4. Homolognı́/Souhlasná nadčeled’ (Homologous superfamily): Tato úroveň seskupuje dohromady proteinové domény, u kterých se předpokládá, že sdı́lejı́ společného předchůdce a tak
mohou být popsány jako souhlasné/podobné.
Dále by se ještě daly přidat body, ale na správnou odpověd’ stačı́ čtyři předchozı́.
5.
6.
7.
8.
9.
Sekvenčnı́ čeled’ (Sequence Family S35): Sekvenčnı́ podobnost 35 % a vyššı́.
Ortholognı́ čeled’ (Orthologous Family S60): Sekvenčnı́ podobnost 60 % a vyššı́.
Jako“ doména (Like domain S95): Sekvenčnı́ podobnost 95 % a vyššı́.
”
Identická doména (Identical domain S100): Sekvenčnı́ podobnost 100 %.
Unikátnı́ domény (Domain counter): Unikátnı́ domény.
Vı́ce informacı́ můžete nalézt na následujı́cı́ch stránkách.
(b) U databáze SCOP je to jednoduché. Tam foldu odpovı́dá třı́da Fold ,. U databáze CATH je to
takové ne úplně jasné. Teoreticky by to mohla být i úroveň Architektura i úroveň Topologie, ale
vzhledem k tomu, že třı́da Architektura ignoruje propojenı́ jednotlivých struktur, tak správná
odpověd’ je Topologie.
A k počtům – v databázi SCOP je v současnosti 1393 foldů podle (PDB databáze), ale na
oficiálnı́ch stránkách SCOP jich je uvedeno (pouze 1194).
A v databázi CATH je 1282 foldů neboli topologiı́ (jak se tu jmenujı́ vlastně foldy) podle (PDB
databáze) ale podle oficiálnı́ch stránek CATH (pouze 1313).
Uznávám tedy obě odpovědi.
Je tedy vidět, že tyto dvě databáze nehodnotı́ struktury zcela totožně, avšak rozdı́l nenı́ zase
tak velký. Navı́c z pohledů vidı́te, že jejich počty už nějakou dobu nerostou, nebo jen velice
málo a to odpovı́dá teoreticky omezenému počtu foldů, které se mohou vyskytovat v přı́rodě.
2
ViBuCh – Vzdělávacı́ ikurz pro budoucı́ chemiky
řešenı́ úkolů 3. série (3. ročnı́k)
2. Opět mi šlo hlavně o to, abyste dokázali něco vymyslet sami a ukázat, že jste se nad problémem
zamysleli, a poté, vznesli nějakou svoji vlastnı́ myšlenku i kdyby nebyla třeba úplně správná.
Phyre2
(a) Phyre2 nám určil fold jako HIT-like, tedy v češtině podobný jako HIT“, kde HIT znamená
”
Histidinová triáda (Histidine triad).
(b) 114 residuı́ (76 % našı́ sekvence) bylo namodelováno se 100% jistotou/pravděpodobnostı́ pomocı́ jediné šablony s nejvyššı́m skórem. Jako šablona byla použita knihovna (foldu s označenı́m
d1rzya ). Procento identity s našı́ sekvencı́ pak bylo 69 %. Z pohledu na alignment (zarovnánı́),
který najdeme ve spodnı́ části stránky Phyre2, vidı́me, že sekvence se nám neshodujı́ pouze na
začátku (cca prvnı́ pětina) a poté úplně na konci (cca poslednı́ desetina). Takže je předpoklad,
že prostředek“ proteinu bude namodelován správně, zatı́mco kraje pravděpodobně budou mı́t
”
určitou odchylku od reality.
Pokud se podı́váme dále, vidı́me, že dalšı́ proteiny (resp. knihovny foldů) jsou většinou také
HIT-like ale již se s našı́ sekvencı́ shodujı́ o něco méně.
Veškeré výsledky můžete najı́t zde(nebo ve vašich vlastnı́ch predikcı́ch).
HHpred
(c) Z prvnı́ch deseti má experimentálně vyřešenou strukturu 7 proteinů. Už z prvnı́ho pohledu se
to dá poznat podle jejich označenı́. Proteiny s vyřešenou prostorovou strukturou majı́ označenı́
např. 3o1c A, 3oj7 A, . . . tedy označenı́ nebo odkaz na PDB databázi, kterou jsme nesčetněkrát
použı́vali. Samozřejmě se dá na tento odkaz i kliknout a strukturu si stáhnout nebo jen
prohlédnout abychom měli lepšı́ představu, jak vypadá. Ty, co strukturu ještě vyřešenou nemajı́, majı́ na začátku označenı́ např. gi|28574010|ref|NP 608711.3— C, což je označenı́, pod
kterým můžeme daný protein najı́t v databázi NCBI. Nenı́ žádným překvapenı́m, že jako
nejlépe hodnocenou shodu nám program našel právě náš protein avšak pod jiným označenı́.
(d) Když použijete představivost a překonáte grafickou nepěknost“ výstupu HHpred, tak si jsou
”
struktury z velké části podobné. Phyre2 nám strukturu vykreslil pěkně podle sekundárnı́ch
struktur a v zobrazenı́, kterému se řı́ká NewCartoon (tedy pěkné šipky, které označujı́ β-vlákna
a spirály, které označujı́ předevšı́m α-šroubovice). HHpred označil jednotlivé části podle barev,
ale beta vlákna a šroubovice musı́me trochu vı́ce hledat. Nevýhodou je, že nevidı́me směr“
”
proteinu, tedy směr, který by nám ukazoval, kde sekvence proteinu začı́ná a končı́. V přı́padě
Phyre2 se to dá odvodit podle šipek u β-vláken. Na prvnı́ pohled je to pouze estetická chyba
ale na druhý, už nám to dokáže lehce znepřı́jemnit čtenı́ struktury.
(e) To, co jsem chtěl, abyste určili jako divné“ je modrý ocásek“. On to vlastně ani ocásek
”
”
nenı́. Je to začátek proteinu, takže je to taková spı́š hlavička“. Už podle prvnı́ho pohledu to
”
vypadá velice divně a ne moc přirozeně. Ze zkušenosti můžu řı́ct, že takhle protein s největšı́
pravděpodobnostı́ nevypadá (myslı́m tı́m tu modrou část). Jestli si pamatujete schéma alignmentu, které bylo v dřı́vějšı́ části postupu u tohoto programu (jak jsme počı́tali, kolik proteinů
z prvnı́ch deseti má vyřešenou terciárnı́ strukturu), tak jste si mohli všimnout, že všechny
nalezené sekvenčnı́ shody pokrývaly pouze asi 4/5 našı́ sekvence a to ty zadnı́ 4/5. U Phyre2 to
bylo podobné. Co z toho tedy plyne? HHpred namodeloval přesně tu část, kde našel sekvenčnı́
shodu a nechal tam i část, kde sekvenčnı́ shodu nenašel, tudı́ž nic nenamodeloval. To je ten
modrý ocásek“, a proto vypadá tak divně. Phyre2 vzal pouze sekvenčně shodné části a ty
”
namodeloval. Náš ocásek“ vůbec nezobrazil. Na jednu stranu nás to nemate zvláštnı́ struk”
turou a na druhou stranu, můžeme lehce na tuto část zapomenout.
Můj výpočet si můžete prohlédnout zde. Odchylky od toho vašeho by měly být minimálnı́.
Ještě dodám, že pokud si nepamatujete graf alignemntu u HHpred, tak se na něj dostanete,
pokud v uvedeném (i ve vašem) výpočtu kliknete vlevo na prostřednı́ možnost v tabulce Recent
jobs u které je uvedeno pouze označenı́ HHpred.
RaptorX
(f) Použil pět hlavnı́ch šablon a to následujı́cı́ – 1rzyA, 3o1cA, 3o1xA,3o1zA, 4eqeA. Můžete
je najı́t u nápisu Templates. Pokud jste si ale proklikali všechny odkazy, tak jste si mohli
všimnout, že tyto šablony byly použity pro hlavnı́ strukturu“.
”
RatorX dokáže strukturu rozdělit na části, a ty pak modelovat samostatně. Vidı́me tedy,
že si protein rozdělil na dva segmenty. Prvnı́ segment podle označenı́ RaptorX (48. až 144.
3
ViBuCh – Vzdělávacı́ ikurz pro budoucı́ chemiky
řešenı́ úkolů 3. série (3. ročnı́k)
aminokyselina) má jako šablony zapsané následujı́cı́ 1rzyA, 3o1cA, 3o1xA, 3o1zA, 4eqeA. Pro
druhý segment (1. až 47. aminokyselina) použil následujı́cı́ šablony – 1nyhA, 1pl5A, 2oqqA,
3hrnA. Správně tedy byl celkový výčet šablon.
Tı́mto rozdělenı́m segmenty se vlastně dostáváme k otázce h).
(g) Jasně vidı́me, že alignment poměrně pěkně sedı́ u prvnı́ho segmentu (tedy u těla proteinu“).
”
Přesné shody můžete poznat tak, že na spodu je napsaná hvězdička, shody, kde jsou aminokyseliny zaměnitelné, je napsaná dvojtečka. Pokud tam nic nenı́, tak nemáme žádnou shodu.
Ovšem tato velká shoda začı́ná až na 37 aminokyselině. Aminokyseliny, které tomuto předcházı́,
žádnou velkou shodu nenašly, ani když se podı́váme na aligment samotného druhého segmentu
(který je vlastně v sekvenci před prvnı́m segmentem a odpovı́dá tomu ocásku“, o kterém jsme
”
se bavili a řešili jej v předchozı́ch otázkách).
(h) Jak jsem zmı́nil v podotázce f), RaptorX server dokázal strukturu rozdělit na dvě části a každou
uměl namodelovat sám. Vidı́me, že hlavnı́ tělo“ proteinu vypadá stejně, jako u předchozı́ch
”
programů. RaptorX dokonce zkusil namodelovat i ocásek“. Našel sice určitou shodu s jinými
”
proteiny, takže nám nějakou strukturu vytvořil, ale netroufl si ji přidat do celkového modelu
takovou, jakou ji namodeloval. Ovšem tuto část jako takovou do výsledného modelu zařadil,
i když ji trochu upravil. Bud’ proto, že alignment tohoto segmentu nebyl bůhvı́ jak dobrý nebo
proto, že nenašel žádný protein, který by alespoň částečně odpovı́dal celkové sekvenci proteinu.
Každopádně jako jediný dokázal alespoň nějakým způsobem tuto část rozumně namodelovat
(ne jako HHpred) a tudı́ž nám může sloužit jako odhad 3D struktury této části i celkového
proteinu. Jako závěr lze řı́ci, že každý z programů si se strukturou poradil poměrně dobře.
RaptorX modeloval nejdéle, ale to je vzhledem k tomu, jakou použı́vá metodu. Jako odměnu“
”
jsme zı́skali i strukturu části, která chyběla u předchozı́ch programů.
4
ViBuCh – Vzdělávacı́ ikurz pro budoucı́ chemiky
řešenı́ úkolů 3. série (3. ročnı́k)
C2 – Struktura nukleových kyselin
Autor:
Petr Stadlbauer (e-mail: [email protected])
14 bodů
At’ žije nekanonické párovánı́!
Než přikročı́me ke správným odpovědı́m, rád bych zmı́nil, že jste si vedli velmi dobře, a tak jsem si
pro vás připravil extra úkol do čtvrté série. V něm budete potřebovat všechny dosud nabyté znalosti, a
to včetně použı́vánı́ vizualizačnı́ch programů. A nynı́ zpět k samotnému řešenı́. V zadánı́ se různě střı́dal
pojem nukleotid a pár, takže i když byl výslovně uveden nukleotid a nakreslili jste jen bázi, tak jsem to
uznal, pokud obrázek podchytil podstatu věci.
1. Řešenı́ úkolu (1 bod):
Rodina (interakce) cis WC/WC
Rodina (interakce) trans H/S
2. Řešenı́ úkolu (3,5 bodu):
trans WC/WC A-U pár (47 výskytů):
trans WC/WC G-C pár (44 výskytů):
trans WC/WC A-A pár – nejpočetnějšı́ (61 výskytů):
3. Nenı́ znám pár cis WC/WC G-G a pár trans WC/WC G-A (1 bod).
5
ViBuCh – Vzdělávacı́ ikurz pro budoucı́ chemiky
řešenı́ úkolů 3. série (3. ročnı́k)
4. Tak tu jste měli na výběr spoustu párů, nejčastěji jste vybı́rali ty nejpočetnějšı́, tak je uvedeme
i zde. Jako správné byly uznávány samozřejmě i jiné existujı́cı́ páry. Zároveň se tu objevil nešvar,
že jste nekreslili ribosu jako součást páru. Tam, kde se neúčastnila vazby nebo vazba nebyla přı́liš
jasná, jsem nestrhával body, jinak každý pár s chybějı́cı́ ribosou byl penalizován 0,25 body dolů
(4 body).
Pár cis WC/S A-A:
Pár trans H/S A-G:
Pár trans S/S A-G:
5. Absence OH skupiny na C2’ znamená, že deoxynukleotidy majı́ o jeden donor i akceptor vodı́kové
vazby méně na sacharidové hraně. Tı́m klesá variabilita párovánı́, protože většina párů využı́vajı́cı́ch
sacharidovou hranu by tak nebyla dostatečně stabilnı́. Jako nosič genetické informace má tedy
oproti RNA několik výhod: je strukturně relativně chudá a uniformnı́, takže se lépe skladuje a
čte a párovánı́ může jen těžko vést k mutaci dı́ky sacharidové hraně. Chemický význam je ten, že
DNA nepodléhá tak snadno autokatalytické hydrolýze, takže genetická informace zůstává stabilnı́
(1,5 bodu).
6. Kvadruplexy jsou složeny z tetrád, ve kterých jsou guaniny spojeny pomocı́ WC/H interakcı́, účastnı́
se tedy přı́slušné hrany (2 body).
6
ViBuCh – Vzdělávacı́ ikurz pro budoucı́ chemiky
řešenı́ úkolů 3. série (3. ročnı́k)
7. C+ C pár (1 bod):
8. i-DNA je schopna existence (alespoň dosud známo) v kyselém prostředı́, protože je potřeba naprotonovat jeden z dusı́ků v C-C páru. Bez takto vzniklé dodatečné vodı́kové vazby struktura nenı́ stabilnı́
(1 bod).
7
ViBuCh – Vzdělávacı́ ikurz pro budoucı́ chemiky
řešenı́ úkolů 3. série (3. ročnı́k)
D2 – Využitı́ difrakce rentgenového zářenı́ ke studiu struktury
látek
Autor:
Michal Babiak (e-mail: [email protected])
Úkol 1
Načrtneme obrázek, který zobrazuje geometrii paprsků, krystalu a detektoru.
Obrázek 1: Náčrtek geometrie
Z trigonometrie plyne, že úhel 2θ se dá vypočı́tat:
tan 2θ =
27,2 mm
= 0,378
72,0 mm
2θ = 20,7◦
θ = 10,3◦
Difrakčnı́ jev nastává při splněnı́ rovnice
nλ = 2d sin θ
Po dosazenı́ (řád difrakce n = 1) dostáváme
1 × 71,9 pm = 2 × d × sin 10,3◦
Z čehož plyne
d=
71,9 pm
71,9 pm
71,9
=
=
pm = 200 pm
2 × sin 10,3◦
2 × 0,179
0,358
Difrakčnı́ jev tedy nastává na rovinách, které jsou od sebe vzdáleny 200 pm.
8
14 bodů
ViBuCh – Vzdělávacı́ ikurz pro budoucı́ chemiky
řešenı́ úkolů 3. série (3. ročnı́k)
Úkol 2
Řešenı́ je znázorněno na obrázcı́ch 2–5
Obrázek 2: (31)
Obrázek 3: (2̄3)
Obrázek 4: (22̄)
Obrázek 5: (2̄0)
9
ViBuCh – Vzdělávacı́ ikurz pro budoucı́ chemiky
řešenı́ úkolů 3. série (3. ročnı́k)
Úkol 3
Řešenı́ je znázorněno na obrázcı́ch 6–8.
Obrázek 6: Rotačnı́ osy
Obrázek 7: Roviny zrcadlenı́
Obrázek 8: Středy inverze
10
ViBuCh – Vzdělávacı́ ikurz pro budoucı́ chemiky
řešenı́ úkolů 3. série (3. ročnı́k)
Y – Jı́dlo a chemie (třetı́ doplňková úloha)
Autor:
Tomáš Bouchal (e-mail: [email protected]))
10 bodů
1. Základnı́mi složkami škrobu jsou amylosa a amylopeoktin. Amylosa je lineárnı́ polysacharid složený
z d-glukopyranosy, jejı́ž molekuly jsou vzájemně propojeny α(1→4) glykosidickými vazbami. V amylopektinu jsou d-glukopyranosové jednotky propojeny jak α(1→4) tak i α(1→6) glykosidickými
vazbami, proto amylopektin tvořı́ dlouhé rozvětvené struktury (viz obrázek 1).
OH
OH
H
OH
OH
H
H
OH
H
H
O
H
OH
H
H
OH
H
OH
H
OH
n
H
H
OH
O
OH
H
H
OH
O
OH
HO
OH
H
H
O
HO
H
H
HO
OH
OH
H
OH
H
H
OH
H
H
OH
O
HO
OH
O
H
H
OH
amylosa
H
OH
amylopektin
Obr. 1: Struktura amylosy a amylopektinu
2. Nejvı́ce vitamı́nu C se zachová v bramborách, když je nijak neupravujeme (uvažujeme-li špatné
podmı́nky při skladovánı́, tak také můžete velmi snadno o všechen přijı́t). Pro nutnost relativně
krátkého času pro tepelnou úpravu pokrmu můžeme na druhé mı́sto zařadit mikrovlnou troubu.
Když nám půjde o zachovánı́ co největšı́ho množstvı́ vitamı́nu C při klasickém vařenı́“ brambor,
”
je určitě lepšı́ je dát do už do vroucı́ vody, snı́žı́ se tak čas, ve kterém bude Cečko“ vystaveno pro
”
něj nehostinným podmı́nkám. Nejhoršı́ variantou je tedy začı́t brambory vařit ve studené vodě.
Jelikož nebylo řečeno, zda chci seřadit odpovědi sestupně, či vzestupně byly uznávány obě varianty.
3. Při teplotě blı́zké 240 ◦ C docházı́ k rozpadu na sacharidovou část a solanidin. Při teplotě 170 ◦ C
docházı́ ke snižovánı́ hladiny solaninu, ale nenı́ to tı́m, že by se rozkládal, ale tı́m, že jej značná část
přejde do media (nejčastěji oleje), ve kterém jsou brambory zpracovávány.
Nejvhodnějšı́ metodou pro odstraněnı́ solaninu z brambor je smaženı́.
4. Při klepánı́ řı́zku se narušı́ stěna buněčné organely zvané lysozom. Z nı́ se vylijı́ enzymy, předevšı́m
protéazy, jejichž úkolem je štěpit proteiny. Dı́ky tomuto procesu pak docházı́ k měknutı́ masa.
5. Těmito methylxantiny jsou napřı́klad theofylin, theobromin nebo kofein.
O
H3C
O
O
H
N
N
N
N
H3C
N
O
N
CH3
theofylin
CH3
N
N
CH3
kofein
O
HN
O
CH3
N
N
N
CH3
theobromin
Obr. 2: Methylxanthiny přı́tomné v čaji, kávě a kakau.
6. Ač se úkol někomu může zdát složitý, odpověd’ na něj je velmi jednoduchá. Když čaj zalijeme horkou
vodou, látky zajišt’ujı́cı́ jeho aroma se uvolňujı́ nejvı́ce. S časem klesá nejen teplota, ale i aroma. Po
vychladnutı́ čaje tyto látky nezmizı́, nýbrž se uvolňujı́ v nepatrném množstvı́.
11