GenBank

Transkript

GenBank

Bioinformatika
J an Pač es
[email protected]
Ústav molekulá rní
genetiky A V ČR
del.icio.us
citeulike
relační databáze
id
journal
title
year
rest
INTEGER
VARCHAR(20)
TEXT
DATE
TEXT
aid
id
name
INTEGER
INTEGER
VARCHAR(20)
kid
id
keyword
INTEGER
INTEGER
VARCHAR(20)
relační databáze
IUB code
code
nucleotides
complement
A
C
G
T
(U
M
R
W
S
Y
K
V
H
D
B
N
-
A
C
G
T
U)
AC
AG
AT
CG
CT
GT
ACG
ACT
AGT
CGT
ACGT
space
T
G
C
A
A
K
Y
S
W
R
M
B
D
H
V
N
-
code three-letter code aminoacid
A
C
D
G
H
I
K
L
M
N
P
Q
R
S
T
V
W
Y
Ala
Cys
Asp
Glu
His
Ile
Lys
Leu
Met
Asn
Pro
Gln
Arg
Ser
Thr
Val
Trp
Tyr
Alanine
Cysteine
Aspartic acid
Glutamic acid
Histidine
Isoleucine
Lysine
Leucine
Methionine
Asparagine
Proline
Glutamine
Arginine
Serine
Threonine
Valine
Tryptofan
Tyrosine
formáty sekvencí
binární
s chromatografem
SCF
ABI
454
pro programy
interní formáty databází
textové
minimální
text (raw)
fasta
anotované
GenBank
EMBL
ASN
XML
SCF
SCF: standard chromatogram file
ccc
fasta formát
>identifikátor [popis]
>gi|6102607|gb|AF145233.1|AF145233 Mus musculus transcription factor PAX4 mRNA
TGGCAGGACTGAAGCAGCTGGAGGCTGTTACAAGACCAGACCACCAGCAAACCCTGGAGCCTGCACAGGA
CCCTGAGACCTCTTCCTGGAATTCCCACCTTTTTTCCTCCATCCAGAACCAGTCCCAAAGAGAAACTTCC
AGAAGGAGCTCTCCGTTTTCAGTTTGCCAGTTGGCTTCCTGTCCTTCTGTGAGGAGTACCAGTGTGAAGC
ATGCAGCAGGACGGACTCAGCAGTGTGAATCAGCTAGGGGGACTCTTTGTGAATGGCCGGCCCCTTCCTC
TGGACACCAGGCAGCAGATTGTGCAGCTAGCAATAAGAGGGATGCGACCCTGTGACATTTCACGGAGCCT
TAAGGTATCTAATGGCTGTGTGAGCAAGATCCTAGGACGCTACTACCGCACAGGTGTCTTGGAACCCAAG
TGTATTGGGGGAAGCAAACCACGTCTGGCCACACCTGCTGTGGTGGCTCGAATTGCCCAGCTAAAGGATG
AGTACCCTGCTCTTTTTGCCTGGGAGATCCAACACCAGCTTTGCACTGAAGGGCTTTGTACCCAGGACAA
GGCTCCCAGTGTGTCCTCTATCAATCGAGTACTTCGGGCACTTCAGGAAGACCAGAGCTTGCACTGGACT
CAACTCAGATCACCAGCTGTGTTGGCTCCAGTTCTTCCCAGTCCCCACAGTAACTGTGGGGCTCCCCGAG
GCCCCCACCCAGGAACCAGCCACAGGAATCGGACTATCTTCTCCCCGGGACAAGCCGAGGCACTGGAGAA
AGAGTTTCAGCGTGGGCAGTATCCAGATTCAGTGGCCCGTGGGAAGCTGGCTGCTGCCACCTCTCTGCCT
GAAGACACGGTGAGGGTTTGGTTTTCTAACAGAAGAGCCAAATGGCGCAGGCAAGAGAAGCTGAAATGGG
AAGCACAGCTGCCAGGTGCTTCCCAGGACCTGACAGTACCAAAAAATTCTCCAGGGATCATCTCTGCACA
GCAGTCCCCCGGCAGTGTACCCTCAGCTGCCTTGCCTGTGCTGGAACCATTGAGTCCTTCCTTCTGTCAG
CTATGCTGTGGGACAGCACCAGGCAGATGTTCCAGTGACACCTCATCCCAGGCCTATCTCCAACCCTACT
GGGACTGCCAATCCCTCCTTCCTGTGGCTTCCTCCTCATATGTGGAATTTGCCTGGCCCTGCCTCACCAC
CCATCCTGTGCATCATCTGATTGGAGGCCCAGGACAAGTGCCATCAACCCATTGCTCAAACTGGCCATAA
GAGGCCTCTATTTGACAGTAATAAAAACCTTTTCTTAGATGTTAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
biologické databáze
primární vs. sekundární
formát vs. obsah
počítač vs člověk
faktografické databáze mají strukturu, která je nezbytná pro
efektivní využití databáze, ale často nemá kapacitu plně
obsáhnout kompletní biologický, experimentální a/nebo
historický kontext záznamu
databázové záznamy jsou (často) statické, ačkoliv
relevantní informace s časem narůstá
nukleotidové databáze
International Nucleotide Sequence Database Collaboration (INSDC)
GenBank: National Center for Biotechnology Information (NCBI)
EMBL: European Bioinformatics Institute (EBI) of the European
Molecular Biology Laboratory (EMBL)
DDBJ: DNA Data Bank of Japan
vyměňují si nová data denně
sdílejí společný set “accession numbers”
(bohužel přestalo platit pro dozorované části)
vkládání nových sekvencí

Každá chyba v sekvenci se rychle propaguje do sekundárních
databází a statistik, kde dlouho (někdy navždy) přežívá a negativně
ovlivňuje výsledky.

Jestliže není v databázovém záznamu správně označena
kódující sekvence, neobjeví se v proteinových databázích. Protože
hledání podobností je nejsenzitivnější právě přes proteinové
databáze, nebude sekvence v relevantních hledáních identifikována.

Obsahové možnosti nukleotidového záznamu jsou omezené a
mnoho proteinově orientovaných informací chybí.
GenBank
http://www.ncbi.nlm.nih.gov/Genbank
Veřejná primární databáze nukleotidových (a proteinových)
sekvencí.
K únoru 2008 obsahovala:
85 759 586 764 bazí v 82 853 685 sekvencí v tradiční části a
108 635 736 141 bazí ve 27 439 206 sekvencích ve WGS divizi.
Vychází dvouměsíčně s denními updaty.
Je “DNA-centered”, všechny části záznamu jsou vztažené k
regionu na DNA.
Má dvě (tři) části:
standartní + HTGS (high throughput genome sequencing)
WGS (whole genome shotgun sequencing)
GenBank + UniProt
Datový model používaný v NCBI kopíruje přirozený biologický
pohled na sekvence a vztahy mezi nimi.
DNA a všechny translační produkty vytváří tzv. Nuc-Prot Set, kde
charakteristické vlastnosti jsou umístěný buď v DNA záznamu
nebo v záznamu proteinovém, podle toho, jestli se vztahují k DNA
nebo proteinu.
GenBank vs RefSeq
GenBank
nedozorovaná
autoři vkládají záznamy
pouze autor smí dělat změny
více záznamu stejného úseku
DNA, mohou si navzájem
protiřečit
žádný druhový limit
výměna dat mezi INSDC
RefSeq
dozorovaná
NCBI vytváří záznamy z
existujících dat
NCBI reviduje záznamy podle
nových dat
jeden záznam pro každou
molekulu
pouze modelové organizmy
pouze NCBI
GenBank formát
LOCUS
DEFINITION
ACCESSION
VERSION
KEYWORDS
SOURCE
ORGANISM
AF145233
1360 bp
mRNA
ROD
23-OCT-1999
Mus musculus transcription factor PAX4 (Pax4) mRNA, complete cds.
AF145233
AF145233.1 GI:6102607
.
house mouse.
Mus musculus
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Mus.
REFERENCE
1 (bases 1 to 1360)
AUTHORS
Kalousova,A., Benes,V., Paces,J., Paces,V. and Kozmik,Z.
TITLE
DNA binding and transactivating properties of the paired and
homeobox protein Pax4
JOURNAL
Biochem. Biophys. Res. Commun. 259 (3), 510-518 (1999)
MEDLINE
99294619
PUBMED
10364449
REFERENCE
2 (bases 1 to 1360)
AUTHORS
Kalousova,A., Paces,J. and Kozmik,Z.
TITLE
Direct Submission
JOURNAL
Submitted (23-APR-1999) Dept. of Transcription Regulation,
Institute of Molecular Genetics, Videnska 1083, Prague 142 20,
Czech Republic
FEATURES
Location/Qualifiers
source
1..1360
GenBank formát
FEATURES
source
gene
CDS
CDS
Location/Qualifiers
1..1360
/organism="Mus musculus"
/db_xref="taxon:10090"
1..1360
/gene="Pax4"
211..1260
/gene="Pax4"
/note="DNA binding protein; paired box protein; homeobox
protein"
/codon_start=1
/product="transcription factor PAX4"
/protein_id="AAF03533.1"
211..1260
/gene="Pax4"
/note="DNA binding protein; paired box protein; homeobox
protein"
/codon_start=1
/product="transcription factor PAX4"
/protein_id="AAF03533.1"
/db_xref="GI:6102608"
/translation="MQQDGLSSVNQLGGLFVNGRPLPLDTRQQIVQLAIRGMRPCDIS
RSLKVSNGCVSKILGRYYRTGVLEPKCIGGSKPRLATPAVVARIAQLKDEYPALFAWE
IQHQLCTEGLCTQDKAPSVSSINRVLRALQEDQSLHWTQLRSPAVLAPVLPSPHSNCG
APRGPHPGTSHRNRTIFSPGQAEALEKEFQRGQYPDSVARGKLAAATSLPEDTVRVWF
GenBank formát
BASE COUNT
359 a
381 c
ORIGIN
1 tggcaggact gaagcagctg
61 ctgcacagga ccctgagacc
121 agtcccaaag agaaacttcc
181 gtccttctgt gaggagtacc
…
1081 tccagtgaca cctcatccca
1141 cctgtggctt cctcctcata
1201 catcatctga ttggaggccc
1261 gaggcctcta tttgacagta
1321 aaaaaaaaaa aaaaaaaaaa
//
328 g
292 t
gaggctgtta
tcttcctgga
agaaggagct
agtgtgaagc
caagaccaga
attcccacct
ctccgttttc
atgcagcagg
ccaccagcaa
tttttcctcc
agtttgccag
acggactcag
accctggagc
atccagaacc
ttggcttcct
cagtgtgaat
ggcctatctc
tgtggaattt
aggacaagtg
ataaaaacct
aaaaaaaaaa
caaccctact
gcctggccct
ccatcaaccc
tttcttagat
aaaaaaaaaa
gggactgcca
gcctcaccac
attgctcaaa
gttaaaaaaa
atccctcctt
ccatcctgtg
ctggccataa
aaaaaaaaaa
GenBank fields
ID fields:
LOCUS
ACCESSION (primary,secondary), VERSION
GI
V roce 1992 začala NCBI přiřazovat "Geninfo Identifiers", GI všem
sekvencím, včetně sekvencí z DDBJ/EMBL/GenBank, proteinovým
sekvencím z translatovaných CDR features, proteinovým sekvencím
ze SWISS-PROT, PIR, PRF, PDB, patentů atd. Nové GI je přiřazeno
kdykoliv se sekvence jakkoliv změní, i v jedné bázi.
GenBank Fields
REFERENCE field:
problems eg. with authors:
•
last name only.
•
last name and initials
•
last name-comma-initials
•
last name and first name
•
with initials and the last autor with a full first name
•
with or without honorifics (Ph.D.)
•
with or without suffixes (Jr., IH)
GenBank fields
Reference Seq-id
The NCBI RefSeq project provides a curated, nonredundant set of
reference sequence standards for naturally occurring biological
molecules, ranging from chromosomes to transcripts to proteins.
Prefixes:
•NC_ chromosomes
•NM_ mRNAs
•NP_ proteins
•NT_ constructed genomic contigs
•NG_ genomic regions or gene clusters
GenBank Fields
Other fields:
DEFINITION
KEYWORDS
SOURCE
ORGANISM
CDS
BASE COUNT
ORIGIN
GenBank Fileds
FEATURE field:
structured record
must have location (which can be partial)
main fields:
•SOURCE
•CDS (coding region)
•RNA
•GENE
•PROTEIN
EMBL flatfile
ID
XX
AC
XX
SV
XX
DT
DT
XX
DE
XX
KW
XX
OS
OC
OC
XX
RN
RP
RA
RT
RT
RL
XX
RN
RP
RA
RT
RL
RL
AF031150
standard; RNA; ROD; 1379 BP.
AF031150;
AF031150.1
27-FEB-1998 (Rel. 54, Created)
27-FEB-1998 (Rel. 54, Last updated, Version 1)
Mus musculus paired-box transcription factor (Pax4) mRNA, complete cds.
.
Mus musculus (house mouse)
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;
Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Mus.
[1]
1-1379
Inoue H., Nomiyama J., Nakai K., Matsutani A., Tanizawa Y., Oka Y.;
Isolation of full-length cDNA of mouse PAX4 gene and identification of its
human homologue;
Biochem. Biophys. Res. Commun. 243:628-633(1998).
[2]
1-1379
Inoue H., Nomiyama J., Nakai K., Tanizawa Y., Oka Y.;
;
Submitted (23-OCT-1997) to the EMBL/GenBank/DDBJ databases.
Third Dept. of Int. Med., Yamaguchi University, 1144 Kogushi, Ube,
slide
FH
FH
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
XX
SQ
Key
Location/Qualifiers
source
1..1379
/db_xref=taxon:10090
/organism=Mus musculus
/cell_line=MIN6
297..1346
/codon_start=1
/gene=Pax4
/product=paired-box transcription factor
/protein_id=AAC40046.1
/translation=MQQDGLSSVNQLGGLFVNGRPLPLDTRQQIVQLAIRGMRPCDISR
SLKVSNGCVSKILGRYYRTGVLEPKCIGGSKPRLATPAVVARIAQLKDEYPALFAWEIQ
HQLCTEGLCTQDKAPSVSSINRVLRALQEDQSLHWTQLRSPAVLAPVLPSPHSNCGAPR
GPHPGTSHRNRTIFSPGQAEALEKEFQRGQYPDSVARGKLAAATSLPEDTVRVWFSNRR
AKWRRQEKLKWEAQLPGASQDLTVPKNSPGIISAQQSPGSVPSAALPVLEPLSPSFCQL
CCGTAPGRCSSDTSSQAYLQPYWDCQSLLPVASSSYVEFAWPCLTTHPVHHLIGGPGQV
PSTHCSNWP
CDS
Sequence 1379 BP; 327
aaaaaaaaaa aaaaagcggc
aaggctctgt gaagctctgg
accagaccac cagcaaaccc
ccaccttttt tcctccatcc
A; 402 C; 347 G; 303 T; 0 other;
cgctgaattc tagcagaagg ctgccctctg
accccctggc aggactgaag cagctggagg
tggagcctgc acaggaccct gagacctctt
agaaccagtc ccaaagagaa acttccagaa
ctcctgagtg
ctgttacaag
cctggaattc
ggagctctcc
60
120
180
240
gctgtgggac
cctactggga
ggccctgcct
caacccattg
agatgttcca
ctccttcctg
cctgtgcatc
ccataagagg
tatctccaac
gaatttgcct
caagtgccat
aaacctttt
1200
1260
1320
1379
…
//
agcaccaggc
ctgccaatcc
caccacccat
ctcaaactgg
gtgacacctc
tggcttcctc
atctgattgg
cctctatttg
atcccaggcc
ctcatatgtg
aggcccagga
acagtaataa
ASN1
Seq-entry ::= set {
class nuc-prot ,
descr {
title "Mus musculus transcription factor PAX4 (Pax4) mRNA, complete
cds." ,
source {
org {
taxname "Mus musculus" ,
common "house mouse" ,
db {
{
db "taxon" ,
tag
id 10090 } } ,
orgname {
name
binomial {
genus "Mus" ,
species "musculus" } ,
lineage "Eukaryota; Metazoa; Chordata; Craniata; Vertebrata;
Euteleostomi; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae;
Murinae;
Mus" ,
gcode 1 ,
mgcode 2 ,
div "ROD" } } } ,
pub {
pub {
sub {
authors {
slide
ENTREZ
Literature (PubMed)
Nucleotide (GenBank)
Protein (UniProt)
Genome
Structure (PDB)
PopSet
Taxonomy
OMIM
ENTREZ schema
ENTREZ
ENTREZ
ENTREZ
ENTREZ search syntax
General syntax:
searchterm [tag] boolean operator search term [tag]
[AD] Affiliation
[ALL]
All fields
[AU] Author name
[RN] Enzyme Commission or Chemical Abstract Service
numbers
[EDAT]
Entrez date
[IP] Issue of joumal
[TA] Jornal ISSN number
[LA] Language
ENTREZ search syntax
[MAJR] MeSH major topic
[MH]
MeSH terms (Controlled vocabulary of biomedical
terms. MeSH stands for medical subject heading.)
[SH]
Subheading(Used to modify MeSH Terms)
[PS]
Personal name as subject
[DP]
Publication date
[PT]
Publication type
[NM]
Substance name
[TW]
Text words
[UID]
Unique identifiers (PMID/MEDLINE numbers)
[VI]
Volume of journal
ENTREZ
ENTREZ
bookshelf @ NCBI
bookshelf @ NCBI
EBI
EBI
swissprot
SRS
SRS
SRS
SRS
SRS
SRS
SRS
SRS
SRS
SRS
SRS
SRS
SRS

GenBank

Transkript

Podobné dokumenty

Bioinformatika

katalog produktů

[email protected]

Vlastislav Hofman papers and drawings, 1904-1984

RET : ANAL : FREQ :

MicroStation Stručný úvod