Vondrasek ELIXIR_CESNET_2016a
Transkript
Vondrasek ELIXIR_CESNET_2016a
Spolupráce velkých infrastruktur CESNET a ELIXIR Jiří Vondrášek, ELIXIR CZ UOCHB AV ČR Slavnostní setkání k 20. výročí založení CESNET, Praha 10.3.2016 ELIXIR CZ Distribuovaná vědecká infrastruktura pro biologická data. „Big data" v biologii Orto Botanico Universita di Padova (1545) Life Sciences: Jeden dotaz – mnoho zdrojů Lze využít zlepšení pozorované v myším modelu k měřitelnému klinickému efektu? Jaká je změna genové exprese poté co je selektivně inhibován p38 MAP kinázy? 188 experiments 12245 assays + 142 genes w linkage to glucocorticoids P ChEMBL ”Efficacy”: Anti-inflammatory effects in right tissue PDB Uniprot GeneGo ”Side-effects”: Increased adipogenesis Bone resorption … ExpressionAtlas Gene Ontology Litterature TrialTrove 1180 papers ”GR and COPD” in 2012 UMLS Nalezení společného jazyka Svět poznáni mluví stejným jazykem? Paracetamol: 1092 Synonyms... [3H]Acetaminophen 10066-90-7 103-90-2 1047-607-00 1169-894-12 16110-10-4 222 AF 222-AF 3-(glutathion-S-yl)acetaminophen 37519-14-5 3-hydroxyacetaminophen 4-(Acetylamino)phenol 4-13-00-01091 4-ACETAMIDOPHENOL 4-Acetaminophenol 4-ACETYLAMINOPHENOL 4'-Hydroxyacetanilide 4-HYDROXYACETANILIDE 4-HYDROXYANILID KYSELINY OCTOVE 4-hydroxyphenolacetamide 644/4046 644/7502 64889-81-2 659/9501 77097-85-9 840-416-00 872-667-00 878-022-04 878-022-09 878-022-14 878-022-19 882-720-04 882-720-07 882-720-10 882-720-13 882-720-16 882-720-20 A F ANACIN A PER A.F. ANACIN AAP aa-sulfate AA-sulphate Abenol Abensanil ABROL ABROLET AC112578 AC112579 Acamol Accu-Tap Acenol Acenol (pharmaceutical) Acephen Acertol Aceta Aceta Elixir Aceta Tablets Acetaco Acetagesic Acetalgin ACETAMIDE, N-(4-HYDROXYPHENYL)ACETAMIDE, N-(P-HYDROXYPHENYL)Acetamidophenol Acetaminofen Acetaminophen Acetaminophen (4-hydroxyacetanilide) Acetaminophen glucuronide(55%) acetaminophen sulfate Acetaminophen sulfate(30%) acetaminophen sulphate Acetaminophen Uniserts acetaminophene Acetaminophen Acetaminophen (4-hydroxyacetanilide) Acetaminophen glucuronide(55%) acetaminophen sulfate Acetaminophen sulfate(30%) acetaminophen sulphate Acetaminophen Uniserts acetaminophene Acetamol ACETANILIDE, 4'-HYDROXYAcetavance Acetofen ACETOMINOPHEN Actamin Actamin Extra Actamin Super Actifed Plus Actimol Actimol Chewable Tablets Actimol Children's Suspension Actimol Infants' Suspension Actimol Junior Strength Caplets Actron Afebrin Afebryl Aferadol AG10223 AG12029 AG124687 AG12800 AG12948 Amadil Aminofen Aminofen Max Anacin Anacin-3 Anacin-3 Extra Strength Anadin dla dzieci Anaflon Analter Anapap Andox Anelix Anexsia Anexsia 10/660 Anexsia 5/325 Anexsia 7.5/325 Anexsia 7.5/650 Anhiba Anoquan Anti-Algos Antidol Apacet Apacet Capsules Problém věd o živé přírodě - Data a Pojmy v kontextu Infrastruktury Základní potřeby: 1. Vzájemné porozumění Interoperabilita. 2. Ukládání a získávání informací. 3. Vyvíjet a testovat nástroje a technologie Růst dat v disciplinách věd o živé přírodě Datový „příval“ • Výpočetní rychlost a disková kapacita se zdvojnásobuje každých 18 měsíců a tato rychlost je konstantní. DATAEXPLOSION The am ount of genetic sequencing data stor ed at the Eur opean Bioinform atics Institute tak es less than a year to double in size. 200 • DNA sekvenční data se zdvojnásobují každých 6-8 měsíců v posledních 3 letech a tato rychlost bude stejná do konce dekády Terabases 160 Sequencers begin giving flurries of data 120 80 40 0 2004 2006 2008 2010 Source: Nature News & Comment, June 2013 2012 Problém dat: Geografické hledisko • Počet míst která produkují data se v Evropě zvyšuje • Nárůst prodeje výrobce sekvenátorů Illumina se zvýšil v roce 2014 o 20% Source: http://omicsmaps.com 9 Generujeme data rychleji než jsme je schopni smysluplně ukládat. Rychlost přenosu dat po síti 24 hodin 100 Mb DNA sekvenace ~100 GB ~5 hours Hmotnostní spektroskopie ~4 TB ~4 days Microskopie ~4 TB 10 ~4 days Datový Cyklus Datový tok je dvousměrný 1. Směr do velkých databází: • Organizace a hierarchická struktura : laboratoř-> národní úložiště-> globální úložiště 2. Směr z velkých databází: • Přesun dat do míst operací s daty (výpočetní centra). • Vytváření speciálních datových setů. Kromě hardware a automatizovaných systémů je třeba zajistit odborníky na pomezí disciplin technických a vědeckých • Pomoc uživatelům s daty, formáty a deponováním • Práce s citlivými daty • Vývoj metadat Vědecká data vyžadují správu, péči a údržbu Nature news, 19 December 2013 • Každých 6 minut je deponována 1 sekvence do ENA • Základní biomolekulární archivy obsahují >10 PB dat • Uniprot propojuje více než 120 biomolekulárních archivů ELIXIR spojuje národní bioinformatická centra a EMBL-EBI do jedné udržitelné evropské infrastruktury pro biologická data medicina zemědělství biotechnologie Životní prostředí 14 ELIXIR podchycuje výzkum v oblasti věd o živé přírodě napříč akademickými a komerčními institucemi. ELIXIR Hlavní poskytovatelé dat a bioinfo služeb (~130) Spolupráce 15 V 15 ELIXIR členských zemích (+ 4 pozorovatelé) Dlouhodobá podpora Evropská síť datových uzlů • ELIXIR uzly jsou financovány na národní úrovni • ELIXIR uzly sledují národní priority a cíle • ELIXIR uzly podporují výzkum na národní úrovni • ELIXIR uzly zajišťují lokální bioinformatické zdroje v rámci Evropy Koordinovaná infrastruktura pro správu dat Použití, Hodnota, Stálost, Správa a Standardizace Mezinárodní Zdroje ELIXIR Europe Národní datové centrum ELIXIR Uzly Institucionální úložiště ELIXIR : 5 základních oblastí Interoperabilita Nástroje Co je standard? Jak je používat, v jakých službách? Registr služeb Správa formou federace Podpora komunity benchmarking Training Expertiza v oblasti řízení zdrojů a využití dat. Výpočetní výkon Přihlášení formou federace Distribuce dat Interoperabilní výpočetní zdroje, cloud technologie Data Propojení a údržba dat Monitorování a správa Propojení dat a literatury Technické požadavky BMS infrastruktury ELIXIR CZ Vzhledem k definici základních oblastí infrastruktury ELIXIR CZ je třeba zajistit jejich technickou realizaci pomocí specifických komponent : Síťová vrstva, Cloud nebo Grid výpočetní zdroje, Datová úložiště E-learning a training nástroje Komponenty e-infrastruktury CESNET Logicky ucelené součásti CESNET. Základními komponentami jsou: komunikační infrastruktura (síť CESNET2), gridová infrastruktura pro náročné výpočty, infrastruktura datových úložišť infrastruktura pro vzdálenou spolupráci Výzvy pro bioinformatickou infrastrukturu • Škálovatelnost procesů a správy dat. • Přístup k datům v distribuované infrastruktuře N International ResourcesZabezpečený dlouhotrvající přístup • Udržitelnost: a etické otázky • Interoperabilita: Data, Organizace, Státy D National data centres A Institutional Repositories CESNET jako partner ELIXIR CZ - Podílí se na rozvoji strategie infrastruktury a jejím vývoji Dedikuje prostředky na základě specifických požadavků ELIXIR CZ Zajišťuje výpočetní zdroje pomocí cloud a GRID technologií Navrhuje strategie ukládání dat a přístupu nim v několika režimech Zajišťuje technická řešení pro e-learning a training Připravuje koncepční řešení přístupu pro ELIXIR uživatele (autentikace) a to v rámci jak ČR tak celé Evropy - Účastní se mezinárodních projektů H2020 jako ELIXIR CZ partner Plány - Aplikace na H2020 projekt Big Data Integrovaná komunikační platforma pro ELIXIR CZ Napojení proteomického projektu v rámci ČR na evropské partnery Zajištění přístupu a práce s citlivými daty v nově testovaných režimech Mapování producentů dat v ČR a jejich nákladů E-learning bioinformatické kursy v rámci ČR Technické zajišťění nových partnerů ELIXIR CZ Poděkování: prof. Ing Miroslav Tůma CSc Ing. Jan Gruntorád CSc Ing. Tomáš Košňar Ing. Helmut Sverenyák www.elixir-europe.org @ELIXIREurope /company/elixir-europe Děkuji za pozornost www.elixir-europe.org @ELIXIREurope /company/elixir-europe