Vondrasek ELIXIR_CESNET_2016a

Transkript

Vondrasek ELIXIR_CESNET_2016a
Spolupráce velkých
infrastruktur CESNET a ELIXIR
Jiří Vondrášek, ELIXIR CZ
UOCHB AV ČR
Slavnostní setkání k 20. výročí založení CESNET, Praha 10.3.2016
ELIXIR CZ
Distribuovaná vědecká infrastruktura pro
biologická data.
„Big data" v biologii
Orto Botanico
Universita
di Padova
(1545)
Life Sciences: Jeden dotaz – mnoho zdrojů
Lze využít zlepšení pozorované v
myším modelu k měřitelnému
klinickému efektu?
Jaká je změna genové exprese
poté co je selektivně inhibován p38
MAP kinázy?
188 experiments
12245 assays
+
142 genes w
linkage to
glucocorticoids
P
ChEMBL
”Efficacy”:
Anti-inflammatory
effects in right tissue
PDB
Uniprot
GeneGo
”Side-effects”:
Increased
adipogenesis
Bone resorption
…
ExpressionAtlas
Gene
Ontology
Litterature
TrialTrove
1180 papers
”GR
and COPD” in 2012
UMLS
Nalezení společného jazyka
Svět poznáni mluví stejným jazykem?
Paracetamol:
1092 Synonyms...
[3H]Acetaminophen
10066-90-7
103-90-2
1047-607-00
1169-894-12
16110-10-4
222 AF
222-AF
3-(glutathion-S-yl)acetaminophen
37519-14-5
3-hydroxyacetaminophen
4-(Acetylamino)phenol
4-13-00-01091
4-ACETAMIDOPHENOL
4-Acetaminophenol
4-ACETYLAMINOPHENOL
4'-Hydroxyacetanilide
4-HYDROXYACETANILIDE
4-HYDROXYANILID KYSELINY OCTOVE
4-hydroxyphenolacetamide
644/4046
644/7502
64889-81-2
659/9501
77097-85-9
840-416-00
872-667-00
878-022-04
878-022-09
878-022-14
878-022-19
882-720-04
882-720-07
882-720-10
882-720-13
882-720-16
882-720-20
A F ANACIN
A PER
A.F. ANACIN
AAP
aa-sulfate
AA-sulphate
Abenol
Abensanil
ABROL
ABROLET
AC112578
AC112579
Acamol
Accu-Tap
Acenol
Acenol (pharmaceutical)
Acephen
Acertol
Aceta
Aceta Elixir
Aceta Tablets
Acetaco
Acetagesic
Acetalgin
ACETAMIDE, N-(4-HYDROXYPHENYL)ACETAMIDE, N-(P-HYDROXYPHENYL)Acetamidophenol
Acetaminofen
Acetaminophen
Acetaminophen (4-hydroxyacetanilide)
Acetaminophen glucuronide(55%)
acetaminophen sulfate
Acetaminophen sulfate(30%)
acetaminophen sulphate
Acetaminophen Uniserts
acetaminophene
Acetaminophen
Acetaminophen (4-hydroxyacetanilide)
Acetaminophen glucuronide(55%)
acetaminophen sulfate
Acetaminophen sulfate(30%)
acetaminophen sulphate
Acetaminophen Uniserts
acetaminophene
Acetamol
ACETANILIDE, 4'-HYDROXYAcetavance
Acetofen
ACETOMINOPHEN
Actamin
Actamin Extra
Actamin Super
Actifed Plus
Actimol
Actimol Chewable Tablets
Actimol Children's Suspension
Actimol Infants' Suspension
Actimol Junior Strength Caplets
Actron
Afebrin
Afebryl
Aferadol
AG10223
AG12029
AG124687
AG12800
AG12948
Amadil
Aminofen
Aminofen Max
Anacin
Anacin-3
Anacin-3 Extra Strength
Anadin dla dzieci
Anaflon
Analter
Anapap
Andox
Anelix
Anexsia
Anexsia 10/660
Anexsia 5/325
Anexsia 7.5/325
Anexsia 7.5/650
Anhiba
Anoquan
Anti-Algos
Antidol
Apacet
Apacet Capsules
Problém věd o živé přírodě - Data a Pojmy v
kontextu Infrastruktury
Základní potřeby:
1. Vzájemné porozumění Interoperabilita.
2. Ukládání a získávání informací.
3. Vyvíjet a testovat nástroje a
technologie
Růst dat v disciplinách věd o živé přírodě
Datový „příval“
• Výpočetní rychlost a
disková kapacita se
zdvojnásobuje každých
18 měsíců a tato
rychlost je konstantní.
DATAEXPLOSION
The am ount of genetic sequencing data stor ed
at the Eur opean Bioinform atics Institute tak es
less than a year to double in size.
200
• DNA sekvenční data se
zdvojnásobují každých
6-8 měsíců v posledních
3 letech a tato rychlost
bude stejná do konce
dekády
Terabases
160
Sequencers begin
giving flurries of data
120
80
40
0
2004
2006
2008
2010
Source: Nature News & Comment,
June 2013
2012
Problém dat: Geografické hledisko
• Počet míst která
produkují data se v
Evropě zvyšuje
• Nárůst prodeje
výrobce sekvenátorů
Illumina se zvýšil v roce
2014 o 20%
Source: http://omicsmaps.com
9
Generujeme data rychleji než jsme je schopni
smysluplně ukládat.
Rychlost přenosu dat po síti
24 hodin
100 Mb
DNA sekvenace
~100 GB
~5 hours
Hmotnostní spektroskopie
~4 TB
~4 days
Microskopie
~4 TB
10
~4 days
Datový Cyklus
Datový tok je dvousměrný
1. Směr do velkých databází:
• Organizace a hierarchická struktura :
laboratoř-> národní úložiště-> globální úložiště
2. Směr z velkých databází:
• Přesun dat do míst operací s daty (výpočetní centra).
• Vytváření speciálních datových setů.
Kromě hardware a automatizovaných systémů je třeba zajistit odborníky
na pomezí disciplin technických a vědeckých
• Pomoc uživatelům s daty, formáty a deponováním
• Práce s citlivými daty
• Vývoj metadat
Vědecká data vyžadují správu, péči a údržbu
Nature news, 19 December 2013
• Každých 6 minut je deponována 1 sekvence do ENA
• Základní biomolekulární archivy obsahují >10 PB dat
• Uniprot propojuje více než 120 biomolekulárních archivů
ELIXIR spojuje národní
bioinformatická centra a
EMBL-EBI do jedné udržitelné
evropské infrastruktury
pro biologická data
medicina
zemědělství
biotechnologie
Životní prostředí
14
ELIXIR podchycuje
výzkum v oblasti věd o
živé přírodě napříč
akademickými a
komerčními institucemi.
ELIXIR
Hlavní poskytovatelé
dat a bioinfo služeb
(~130)
Spolupráce
15
V
15 ELIXIR členských zemích
(+ 4 pozorovatelé)
Dlouhodobá podpora
Evropská síť datových uzlů
• ELIXIR uzly jsou
financovány na národní
úrovni
• ELIXIR uzly sledují
národní priority a cíle
• ELIXIR uzly podporují
výzkum na národní
úrovni
• ELIXIR uzly zajišťují
lokální bioinformatické
zdroje v rámci Evropy
Koordinovaná infrastruktura pro správu dat
Použití, Hodnota, Stálost,
Správa a Standardizace
Mezinárodní
Zdroje
ELIXIR Europe
Národní datové centrum
ELIXIR Uzly
Institucionální úložiště
ELIXIR : 5 základních oblastí
Interoperabilita
Nástroje
Co je standard?
Jak je používat, v jakých
službách?
Registr služeb
Správa formou federace
Podpora komunity
benchmarking
Training
Expertiza v oblasti řízení
zdrojů a využití dat.
Výpočetní výkon
Přihlášení formou federace
Distribuce dat
Interoperabilní výpočetní
zdroje, cloud technologie
Data
Propojení a údržba dat
Monitorování a správa
Propojení dat a literatury
Technické požadavky BMS infrastruktury ELIXIR CZ
Vzhledem k definici základních oblastí infrastruktury ELIXIR CZ
je třeba zajistit jejich technickou realizaci pomocí specifických komponent :
Síťová vrstva,
Cloud nebo Grid výpočetní zdroje,
Datová úložiště
E-learning a training nástroje
Komponenty e-infrastruktury CESNET
Logicky ucelené součásti CESNET. Základními komponentami jsou:
komunikační infrastruktura (síť CESNET2),
gridová infrastruktura pro náročné výpočty,
infrastruktura datových úložišť
infrastruktura pro vzdálenou spolupráci
Výzvy pro bioinformatickou infrastrukturu
• Škálovatelnost procesů a správy dat.
• Přístup k datům v distribuované infrastruktuře
N
International
ResourcesZabezpečený dlouhotrvající přístup
• Udržitelnost:
a etické otázky
• Interoperabilita: Data, Organizace, Státy
D
National data
centres
A
Institutional
Repositories
CESNET jako partner ELIXIR CZ
-
Podílí se na rozvoji strategie infrastruktury a jejím vývoji
Dedikuje prostředky na základě specifických požadavků ELIXIR CZ
Zajišťuje výpočetní zdroje pomocí cloud a GRID technologií
Navrhuje strategie ukládání dat a přístupu nim v několika režimech
Zajišťuje technická řešení pro e-learning a training
Připravuje koncepční řešení přístupu pro ELIXIR uživatele (autentikace)
a to v rámci jak ČR tak celé Evropy
- Účastní se mezinárodních projektů H2020 jako ELIXIR CZ partner
Plány
-
Aplikace na H2020 projekt Big Data
Integrovaná komunikační platforma pro ELIXIR CZ
Napojení proteomického projektu v rámci ČR na evropské partnery
Zajištění přístupu a práce s citlivými daty v nově testovaných režimech
Mapování producentů dat v ČR a jejich nákladů
E-learning bioinformatické kursy v rámci ČR
Technické zajišťění nových partnerů ELIXIR CZ
Poděkování:
prof. Ing Miroslav Tůma CSc
Ing. Jan Gruntorád CSc
Ing. Tomáš Košňar
Ing. Helmut Sverenyák
www.elixir-europe.org
@ELIXIREurope
/company/elixir-europe
Děkuji za pozornost
www.elixir-europe.org
@ELIXIREurope
/company/elixir-europe