Bioinformatika - studijní materiál ViBuChu

Transkript

Bioinformatika - studijní materiál ViBuChu
Hemoglobin a jemu podobní...
Studijní materiál
Jan Komárek
Bioinformatika
„Bioinformatika je vědní disciplína, která se zabývá
metodami pro shromážďování, analýzu a vizualizaci
rozsáhlých souborů biologických dat, zejména dat
molekulárně-biologických“ (http://cs.wikipedia.org/wiki/Bioinformatika)
...zabývá se mimo jiné sekvenční analýzou, anotací
genomu, zkoumáním evolučních vztahů mezi organismy,
předpovídáním struktury a funkce proteinů, ...
Struktura proteinů
q 
primární struktura = sekvence, dána pořadím aminokyselin
v polypeptidovém řetězci
N DALQLRIYAQKPDNTIQEYMWNGDGWKEGTNLGGALPGTGIGATSFRYTDYNGPS
IRIWFWYPDLVTIFDRAPPPVAATSKELKHIRVYTLTEGNTLQEFAYDSGTGWYN
GGLGGAKFQVAPYSCIAAVLAGTQTDDLKLVQRAYDPHKGRTAIAATSFGAGN C
zápis sekvence od N-konce (koncová aminokyselina s volnou NH2skupinou k C-konci (koncová aminokyselina s volnou COOHskupinou), aminokyseliny zapisovány pomocí jednopísmenných
zkratek:
alanin
arginin
asparagin
aspartát
cystein
glutamát
glutamin
glycin
histidin
A
R
N
D
C
E
Q
G
H
isoleucin
leucin
lysin
methionin
fenylalanin
prolin
serin
threonin
tryptofan
I
L
K
M
F
P
S
T
W
tyrosin
valin
Y
V
alifatické
drobné
malé
Vennův diagram pro 20
přirozeně se vyskytujících
aminokyselin vytvořený na
základě jejich fyzikálněchemických vlastností
aromatické
nepolární
http://www.ebi.ac.uk/Tools/clustalw2
pozitivně nabité
nabité
polární
Struktura proteinů
q 
sekundární struktura – opakující se strukturní uspořádání
proteinu v důsledku vazebných interakcí (vodíkové, iontové
nebo disulfidické můstky) mezi částmi proteinového řetězce
α-helix
znázornění pomocí
„cartoon“ modelu
β-skládaný list tvořený
ze čtyř řetězců
Struktura proteinů
q 
terciální struktura – celkové prostorové uspořádání jednoho
polypeptidového řetězce
q 
kvartérní struktura – uspořádání podjednotek (několika
polypeptidových řetězců) u oligomerních proteinů
homo- = složený ze stejných podjednotek
hetero- = složený z různých podjednotek
q 
homology – proteiny, jejichž sekvence mají původ ve
společném „prapředkovi“ – následek evoluční divergence
(vzájemného vzdalování):
q paralogy
– v rámci stejného druhu, pochází z jednoho
proteinu, u jehož genu došlo k duplikaci
q ortology – u různých druhů, postupně se vyvinuly z
„prapůvodního“ proteinu z „prapředka“
srovnání sekvencí ortologních proteinů → fylogenetická
analýza
Významné bioinformatické instituce
National Centre for Biotechnology information (NCBI)
www.ncbi.nlm.nih.gov
přístup k řadě databází
prostřednictvím vyhledávacího
systému Entrez
řada bioinformatických nástrojů
(BLAST)
součástí také databáze článků
s biomedicínskou tématikou
PubMed
Významné bioinformatické instituce
European Bioinformatics Institute (EBI)
www.ebi.ac.uk
přístup k řadě databází
prostřednictvím vyhledávacího
systému SRS
řada bioinformatických aplikací
(ClustalW2)
Vyhledávání v databázích vložením
přístupového kódu
start vyhledávání
vložení přístupového kódu
příklad vyhledávání záznamu
pro lidský lysozym
(P61625)
Vyhledávání v databázích vložením
přístupového kódu
počty nalezených záznamů v
různých databázích
Vyhledávání v databázích vložením
přístupového kódu
nalezené záznamy v databázi
UniprotKB
volba formátu zobrazení záznamu
Schéma záznamu zobrazeného ve
formátu SRS
obecné informace...
popis proteinu, z jakého
organismu pochází...
odkazy na vědecké články
Schéma záznamu zobrazeného ve
formátu SRS (pokračování)
popis vlastností proteinu
(pokud jsou známy)
odkazy na další databáze
Schéma záznamu zobrazeného ve
formátu SRS (pokračování)
jestli se jedná o prokázaný protein – např. důkaz na úrovni
proteinu/transkriptu, předpovězený na základě homologie, atd.
grafické vyznačení
sekundárních motivů,
aktivních míst, signálních
sekvencí...
Schéma záznamu zobrazeného ve
formátu SRS (pokračování)
informace o sekvenci (délka,
molekulová hmotnost)
zobrazení sekvence v různých
formátech
FASTA formát: textový formát pro zápis proteinových a nukleotidových sekvencí pomocí
jednopísmenných symbolů obsahující krátký popis sekvence(uvozen symbolem >)
LALIGN
http://www.ch.embnet.org/
software/LALIGN_form.html
výběr lokálního/globálního
párového přiložení dvou sekvencí
nastavení parametrů
přiložení
název proteinu
párové přiložení – přiložení dvou
sekvencí k sobě tak, aby si jejich
části co nejvíce odpovídaly
- globální (uvažována podobnost v
celé délce sekvence)
- lokální (uvažována podobnost
pouze v částech sekvence)
vložení sekvence... (holý text, ne
FASTA formát)
název proteinu
vložení druhé sekvence...
LALIGN
globálního párového přiložení pro
dvojici sekvencí
použití interpunkce u LALIGN:
: identické aminokyseliny
. podobné aminokyseliny
(konzervativní substituce)
ClustalW2
http://www.ebi.ac.uk/Tools/clustalw2/
mnohonásobné přiložení –
sekvenční přiložení pro více než
tři proteiny – řady vyjadřují
jednotlivé sekvence, sloupce
pozice aminokyselinových zbytků
v proteinu
- důležité pro identifikaci
konzervativních oblastí proteinu
(ty jsou obvykle strukturně nebo
funkčně důležité), identifikace
nových členů proteinovýh rodin
vložení sekvencí ve FASTA formátu
ClustalW2
aminokyseliny barevně znázorněny (ty s podobnými
fyzikálně – chemickými vlastnostmi stejnou barvou)
míra konzervovanosti přiřazených sekvencí vyjadřována několika symboly:
*
sloupce obsahující identické zbytky ve všech přiřazených sekvencích
:
sloupce obsahující konzervativní substituci
.
sloupce obsahující semikonzervativní substituci
ClustalW2
mnohonásobné přiložení se dá použít pro konstrukci fylogenetických
stromů (diagramy znázorňující fylogenetickou příbuznost)
délky větví úměrné evoluční změně
tvorba fylogramu v ClustalW2 po vytvoření mnohonásobného přiložení:
Protein Data Bank (PDB)
q 
databáze proteinových struktur určených pomocí
rentgenostrukturní analýzy nebo nukleární magnetické
rezonance
www.pdb.org
Protein Data Bank (PDB)
q 
všechny struktury uložené v databázi mají svůj jedinečný
čtyřmístný kód (například „1uv3“)
vložení pdb kódu
Protein Data Bank (PDB)
stáhnutí struktury
ve formátu pdb:
obecné informace,
autoři, abstrakt
Protein Data Bank (PDB)
organismus, ze kterého protein pochází
seznam a zkratky ligandů ve struktuře
odkazy na databáze
informace vztahující se
k metodě, pomocí které
byla struktura určena

Podobné dokumenty

molekulární metody v ekologii mikroorganizmů

molekulární metody v ekologii mikroorganizmů rozložení a počet bandů pomocí funkce View a dále Band pattern. Po zadání tohoto příkazu se objeví okno s rozložením (růžově označených) bandů v jednotlivých vzorcích, kdy na spodním okraji můžeme ...

Více

World Book enclyopedia

World Book enclyopedia -Některé peptidy – biologicky účinné látky – hormony (endorfiny), jedy (amanitin z muchomůrky zelené)

Více

Elixir - Cesnet

Elixir - Cesnet • Mezi členy ELIXIR CZ konzorcia patří 5 univerzit, 3 nová Bioimedicinální centra, 5 ústavů AV ČR a e-infrastruktury CESNET a CERIT-SC • Nabízí unikátní nástroje a data prostřednictvím centrálního ...

Více

Sbírka atraktivních úloh z biologie

Sbírka atraktivních úloh z biologie výzkum větší finanční prostředky. K dispozici je tedy mnoho dat, která se dají použít různými způsoby. Asi nejčastěji jsou prováděny fylogenomické studie, kdy se zároveň analyzuje mnoho (i více n...

Více

Bakalářská práce

Bakalářská práce pramenů a literatury uvedených v seznamu citované literatury. Prohlašuji, že v souladu s § 47b zákona č. 111/1998 Sb. v platném znění souhlasím se zveřejněním své bakalářské práce, a to v nezkrácen...

Více

21. kódovaná aminokyselina: Selenocystein

21. kódovaná aminokyselina: Selenocystein schopny syntetizovat všechny aminokyseliny. Vegetariáni nebo vegani tak mohou všechny esenciální aminokyseliny získávat z rostlinné stravy. Jde jen o to vědět, ve kterých rostlinách a částech rostl...

Více

prospect bi - Biotechnologická společnost

prospect bi - Biotechnologická společnost Věříme, že Vás opět zaujmou naše stručné informace v rubrice „Víte, že.“ i články, které jsme pro Vás vybrali. Těšíme se na Vaše další příspěvky. Rádi bychom Vám také popřáli pevné zdraví, spokojen...

Více

D1 - ViBuCh

D1 - ViBuCh se značí Kα , podle následujícího pravidla: Energetické hladiny elektronů se ve směru rostoucí energie (čili rostoucí vzdálenosti od jádra, rovněž roste hlavní kvantové číslo) značí K, L, M, N atd....

Více

Úvod do struktury proteinů I

Úvod do struktury proteinů I Asp-Ala-Glu-Phe-Arg-His-Asp-Ser-Gly-Tyr-GluVal-His-His-Gln-Lys Jednopísmenný (fasta formát) a třípísmenný kód pro Zn-vazebnou doménu amyloidu β (16-mer)

Více