lindat-clarin

Transkript

lindat-clarin
Jan Hajič
Ústav formální a aplikované lingvistiky
Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
26. 11. 2014
Přehled
- Základní informace
- Motivace
- Klíčové komponenty
- Repozitář (PIDs, zálohování, replikace, licence/práva)
- Metadata, uživatelský „data upload“
- User IDs a AII přihlašování
- Služby
- Stávající stav
- Problémy
- Co dále?
Základní informace
● CLARIN
Common Language Resources and Technology Infrastructure
● Cíl
zpřístupňovat a uchovávat jazyková data a nástroje
● Spolupráce – síť uzlů sítě Clarin (Clarin ERIC, f. 2012)
AT, BG, CZ, DE, DK, EE, NL, PL, PO + DLU, PT (NO, FI, UK)
● Projekt velkých infrastruktur pro VaVaI (2010+, MŠMT)
● LINDAT/CLARIN = Clarin Centrum v České republice
● Partneři: UK, ZČU, ÚJČ, MU
Motivace: neobjevovat kolo
...recyklovat!
NALÉZT
SDÍLET
ZÍSKAT
VYTVOŘIT
Klíčové komponenty
● Nalézt
Repozitář (WWW, OAI-PMH, PID, interoperabilita)
● Získat
Repozitář (AAI, licence, služby)
● Vytvořit
Know-how, data, nástroje a služby
● Sdílet (a citovat)
Repozitář (infrastruktura, PID, zálohy)
Infrastruktura
● 24/7 provoz, 100% redundance (zrcadlení)
● virtualizace na platformě Proxmox
● 10+ TB diskové pole RAID6
separátně 20TB pro videoarchiv VHI/USC (pamětníci Holokaustu)
● online replikace přes iSCSI, failover
● zálohování: lokálně, CESNET, CINES (Francie)
CESNET: 30TB, týdně, CINES: B2SAFE (EUDAT EU projekt)
● monitorování přes Nagios, uptimerobot.com,
proprietární skripty
Repozitář
● úložiště
jazykových dat & nástrojů pro jazykovou analýzu
●
●
●
●
●
●
fork open source projektu DSpace (v1.8.2)
vylepšené uživatelské rozhraní
vylepšená autentizace (AAI, Shibboleth)
více výstupních formátů (OAI-PMH)
persistentní identifikátory (Handle, vlastní PID server)
otevřený repozitář
jakákoli jazyková/multimediální data, uživatelský upload (login)
AAI
● Authentication and Authorization Infrastructure
na bázi Shibboleth (SAML2)
● GUI: open-source projekt Disco Juice
● stabilní a uživatelsky přívětivé rozhraní
● snadná integrace do existujících aplikací
● discovery služba (WAYF)
→ aplikace dostupné pro širokou (i zahraniční)
akademickou obec
OAI-PMH
●
●
●
●
Open Archives Initiative Protocol for Metadata Harvesting
standard pro publikování metadat
základní formát metadat: CMDI
metadata konvertována do různých formátů
DC (Dublin Core), META-SHARE, ORE, ...
● metadata standardním způsobem “sklízena”
metavyhledavači (VLO, ...)
Replikace a zálohování
●
●
CESNET – pravidelné zálohy (30GB)
Replikace: CINES (Francie)
- B2SAFE – vyvinuto v projektu EU EUDAT
- založeno na iRODS
http://www.eudat.eu/b2safe
- LINDAT/CLARIN: obecný plugin do Dspace
https://github.com/EUDAT-B2SAFE/B2SAFE-repository-package
- AIP – Archival Information Package
nové workflow v Dspace pro korektní replikaci
B 2 S A F E W I T H D S PA C E

Submit Data and Metadata (SIP)

Approve the Record (Dspace Editor)

The record with a PID published

Save AIP to disk

Trigger iRODS copy

Replica in Destination created,
Eudat PID assigned (project internal)

Confirmation of transfer, replica PID returned, log the replication

Remove the local AIP copy
iRODS
EUDAT PID
REPLICA STATUS
Služby výzkumníkům
● jednotné přihlašování (je-li třeba)
● jeden přístupový bod pro existující nástroje
● webové a REST(-like) rozhraní
metadata, demo, dokumentace
● příklady:
prohledávač treebanků
NLP framework – analýza a syntéza češtiny (aj.)
automatický překladač
morfologický analyzátor, tagger, korektor pravopisu
jazyková příručka
Současný stav
●
●
●
●
●
●
CLARIN Centre – certifikace úrovně B
Data Seal of Approval 2014-2015
116 záznamů od 180 autorů, ~ 100 GB dat
migrace centrálního repozitáře CLARIN (LRT)
12 on-line služeb
zapojení do evropských infrastruktur (Clarin ERIC)
Weblicht, Federated Content Search
VLO – Virtual Language Observatory (Clarin portál)
Problémy
● jednoznačná identifikace autorů, objektů, uživatelů
(Researcher ID, PIDs, AAI)
● globální autorizace
komplikované smlouvy s federacemi identit
● data a nástroje se kontinuálně vyvíjí
PID, verzování, provozovatelnost uložených nástrojů
● právní otázky
licencování zdrojů, souhlas s licencí
texty – copyright
Propojení s EU projekty
● EUDAT (2010-2014) – propojení s PRACE
projekt – network pro vědecká data obecně
LINDAT: B2SHARE, B2SAFE
● DARIAH (Dariah ERIC)
obecná podpora „Digital Humanities“
● EHRI – Holocaust Research
Kontakt přes Centrum vizuální historie Malach
spolupráce s USC (Los Angeles) – voice search (ZČU)
● Výzkumné projekty EU – využití LINDAT/CLARIN
Companions, Euromatrix, Khresmoi, Faust,
META-NET, QTLeap, QT21, HimL, CRACKER, KConnect, ...
Co dále?
● více spokojených uživatelů
● intuitivnější uživatelské rozhraní repozitáře
zlepšení workflow
podpora pro prealokaci PID
podpora verzování záznamů
● více dat
● více služeb a jejich propojení pomocí REST(-like) API
● certifikace CLARIN Centre úrovně A (LRT)
● kompatibilita s OpenAire (HORIZON 2020)
http://lindat.cz
Poděkování: původní prezentace: M. Josífko, screenshots a data: J. Mišutka (LINDAT/CLARIN)

Podobné dokumenty

Seminář o digitálních zdrojích a službách ve společenských

Seminář o digitálních zdrojích a službách ve společenských ve společenských a humanitních vědách (1st Workshop on Digital Humanities 2015 - WDH 2015) pořádá LINDAT/CLARIN, český uzel infrastruktury pro jazyková data Clarin ERIC ve čtvrtek dne 24. září 2015...

Více

Genetické defekty skotu u plemene

Genetické defekty skotu u plemene Genetické defekty a nejrÛznûj‰í anomálie nalezneme u v‰ech moderních plemen skotu vystaven˘ch intenzivním selekãním tlakÛm. Plemeno belgické modrobílé není samozfiejmû v˘jimkou. Pomineme-li dvojité ...

Více

IV-2c Zapojení do projektů 7. RP

IV-2c Zapojení do projektů 7. RP RNDr. Viktor Žárský, CSc.

Více

Federativní autentizační metody

Federativní autentizační metody  Bezpečnostní standardy vynucují používání silných hesel (obtížně zapamatovatelná)

Více

Zajištění provozu Jednotné informační brány v celonárodním

Zajištění provozu Jednotné informační brány v celonárodním linkování pro uživatele NK ČR. U zdrojů, které nepodporují Shibboleth nativně, je nastaveno linkování  přes shibbolethizovanou EZproxy NK ČR.   Uživatelé  NK  ČR  s  SFX  JIB  a  el.  zdroji  pracu...

Více

RNDr. Ondřej Bojar, Ph.D.

RNDr. Ondřej Bojar, Ph.D. textů z webu. In ITAT 2009 Information Technologies – Applications and Theory, September. Jana Šindlerová and Ondřej Bojar. 2009. Towards English-Czech Parallel Valency Lexicon via Treebank Example...

Více

RNDr. Ondrej Bojar, Ph.D.

RNDr. Ondrej Bojar, Ph.D. Michal Novák, Martin Popel, and Aleš Tamchyna. 2012. The Joy of Parallelism with CzEng 1.0. In Proceedings of the Eighth International Language Resources and Evaluation Conference (LREC’12), page...

Více

užitečný blbec

užitečný blbec tato rodina o další desítky kombinací rozroste. Kolem osmi set překladatelů a tlumočníků, kteří najdou ročně práci při převodu dokumentů a jednání do mateřských jazyků členských zemí, se zatím o sv...

Více