Bioinformatika - studijní materiál ViBuChu

Transkript

Hemoglobin a jemu podobní...
Studijní materiál
Jan Komárek
Bioinformatika
„Bioinformatika je vědní disciplína, která se zabývá
metodami pro shromážďování, analýzu a vizualizaci
rozsáhlých souborů biologických dat, zejména dat
molekulárně-biologických“ (http://cs.wikipedia.org/wiki/Bioinformatika)
...zabývá se mimo jiné sekvenční analýzou, anotací
genomu, zkoumáním evolučních vztahů mezi organismy,
předpovídáním struktury a funkce proteinů, ...
Struktura proteinů
q 
primární struktura = sekvence, dána pořadím aminokyselin
v polypeptidovém řetězci
N DALQLRIYAQKPDNTIQEYMWNGDGWKEGTNLGGALPGTGIGATSFRYTDYNGPS
IRIWFWYPDLVTIFDRAPPPVAATSKELKHIRVYTLTEGNTLQEFAYDSGTGWYN
GGLGGAKFQVAPYSCIAAVLAGTQTDDLKLVQRAYDPHKGRTAIAATSFGAGN C
zápis sekvence od N-konce (koncová aminokyselina s volnou NH2skupinou k C-konci (koncová aminokyselina s volnou COOHskupinou), aminokyseliny zapisovány pomocí jednopísmenných
zkratek:
alanin
arginin
asparagin
aspartát
cystein
glutamát
glutamin
glycin
histidin
A
R
N
D
C
E
Q
G
H
isoleucin
leucin
lysin
methionin
fenylalanin
prolin
serin
threonin
tryptofan
I
L
K
M
F
P
S
T
W
tyrosin
valin
Y
V
alifatické
drobné
malé
Vennův diagram pro 20
přirozeně se vyskytujících
aminokyselin vytvořený na
základě jejich fyzikálněchemických vlastností
aromatické
nepolární
http://www.ebi.ac.uk/Tools/clustalw2
pozitivně nabité
nabité
polární
Struktura proteinů
q 
sekundární struktura – opakující se strukturní uspořádání
proteinu v důsledku vazebných interakcí (vodíkové, iontové
nebo disulfidické můstky) mezi částmi proteinového řetězce
α-helix
znázornění pomocí
„cartoon“ modelu
β-skládaný list tvořený
ze čtyř řetězců
Struktura proteinů
q 
terciální struktura – celkové prostorové uspořádání jednoho
polypeptidového řetězce
q 
kvartérní struktura – uspořádání podjednotek (několika
polypeptidových řetězců) u oligomerních proteinů
homo- = složený ze stejných podjednotek
hetero- = složený z různých podjednotek
q 
homology – proteiny, jejichž sekvence mají původ ve
společném „prapředkovi“ – následek evoluční divergence
(vzájemného vzdalování):
q paralogy
– v rámci stejného druhu, pochází z jednoho
proteinu, u jehož genu došlo k duplikaci
q ortology – u různých druhů, postupně se vyvinuly z
„prapůvodního“ proteinu z „prapředka“
srovnání sekvencí ortologních proteinů → fylogenetická
analýza
Významné bioinformatické instituce
National Centre for Biotechnology information (NCBI)
www.ncbi.nlm.nih.gov
přístup k řadě databází
prostřednictvím vyhledávacího
systému Entrez
řada bioinformatických nástrojů
(BLAST)
součástí také databáze článků
s biomedicínskou tématikou
PubMed
Významné bioinformatické instituce
European Bioinformatics Institute (EBI)
www.ebi.ac.uk
přístup k řadě databází
prostřednictvím vyhledávacího
systému SRS
řada bioinformatických aplikací
(ClustalW2)
Vyhledávání v databázích vložením
přístupového kódu
start vyhledávání
vložení přístupového kódu
příklad vyhledávání záznamu
pro lidský lysozym
(P61625)
počty nalezených záznamů v
různých databázích
nalezené záznamy v databázi
UniprotKB
volba formátu zobrazení záznamu
Schéma záznamu zobrazeného ve
formátu SRS
obecné informace...
popis proteinu, z jakého
organismu pochází...
odkazy na vědecké články
formátu SRS (pokračování)
popis vlastností proteinu
(pokud jsou známy)
odkazy na další databáze
jestli se jedná o prokázaný protein – např. důkaz na úrovni
proteinu/transkriptu, předpovězený na základě homologie, atd.
grafické vyznačení
sekundárních motivů,
aktivních míst, signálních
sekvencí...
informace o sekvenci (délka,
molekulová hmotnost)
zobrazení sekvence v různých
formátech
FASTA formát: textový formát pro zápis proteinových a nukleotidových sekvencí pomocí
jednopísmenných symbolů obsahující krátký popis sekvence(uvozen symbolem >)
LALIGN
http://www.ch.embnet.org/
software/LALIGN_form.html
výběr lokálního/globálního
párového přiložení dvou sekvencí
nastavení parametrů
přiložení
název proteinu
párové přiložení – přiložení dvou
sekvencí k sobě tak, aby si jejich
části co nejvíce odpovídaly
- globální (uvažována podobnost v
celé délce sekvence)
- lokální (uvažována podobnost
pouze v částech sekvence)
vložení sekvence... (holý text, ne
FASTA formát)
název proteinu
vložení druhé sekvence...
LALIGN
globálního párového přiložení pro
dvojici sekvencí
použití interpunkce u LALIGN:
: identické aminokyseliny
. podobné aminokyseliny
(konzervativní substituce)
ClustalW2
http://www.ebi.ac.uk/Tools/clustalw2/
mnohonásobné přiložení –
sekvenční přiložení pro více než
tři proteiny – řady vyjadřují
jednotlivé sekvence, sloupce
pozice aminokyselinových zbytků
v proteinu
- důležité pro identifikaci
konzervativních oblastí proteinu
(ty jsou obvykle strukturně nebo
funkčně důležité), identifikace
nových členů proteinovýh rodin
vložení sekvencí ve FASTA formátu
ClustalW2
aminokyseliny barevně znázorněny (ty s podobnými
fyzikálně – chemickými vlastnostmi stejnou barvou)
míra konzervovanosti přiřazených sekvencí vyjadřována několika symboly:
*
sloupce obsahující identické zbytky ve všech přiřazených sekvencích
:
sloupce obsahující konzervativní substituci
.
sloupce obsahující semikonzervativní substituci
ClustalW2
mnohonásobné přiložení se dá použít pro konstrukci fylogenetických
stromů (diagramy znázorňující fylogenetickou příbuznost)
délky větví úměrné evoluční změně
tvorba fylogramu v ClustalW2 po vytvoření mnohonásobného přiložení:
Protein Data Bank (PDB)
q 
databáze proteinových struktur určených pomocí
rentgenostrukturní analýzy nebo nukleární magnetické
rezonance
www.pdb.org
q 
všechny struktury uložené v databázi mají svůj jedinečný
čtyřmístný kód (například „1uv3“)
vložení pdb kódu
stáhnutí struktury
ve formátu pdb:
obecné informace,
autoři, abstrakt
organismus, ze kterého protein pochází
seznam a zkratky ligandů ve struktuře
odkazy na databáze
informace vztahující se
k metodě, pomocí které
byla struktura určena

Bioinformatika - studijní materiál ViBuChu

Transkript

Podobné dokumenty

molekulární metody v ekologii mikroorganizmů

World Book enclyopedia

Elixir - Cesnet

Sbírka atraktivních úloh z biologie

Bakalářská práce

21. kódovaná aminokyselina: Selenocystein

prospect bi - Biotechnologická společnost

D1 - ViBuCh

Úvod do struktury proteinů I

Jak jsou dnes vynalézány nové léky?

ZDE - ME/CFS.cz

Úloha 2: Protein X 13 bodů