Závěrečná zpráva o výsledcích řešení výzkumného záměru v letech

Transkript

Budování vzájemně kompatibilních informačních systémů
pro přístup k heterogenním informačním zdrojům a jejich
zastřešení prostřednictvím Jednotné informační brány
Závěrečná zpráva o výsledcích řešení výzkumného záměru
v letech 2004-2010
Předkládá
PhDr. Bohdana Stoklasová, hlavní řešitelka
Spolupracovali
Mgr. Marie Balíková, Ing. Libor Coufal, Mgr. Jan Hutař,
Mgr. Edita Lichtenbergová, PhDr. Jiří Polišenský, Mgr. Jindřiška Pospíšilová
Národní knihovna České republiky
Klementinum 190
110 00 Praha 1
28. ledna 2011
OBSAH
A
KONSTATAČNÍ ČÁST .................................................................................... 3
A.1
Rešerše .................................................................................................... 4
A.2
Současný stav ve světě a v ČR .................................................................. 5
A.3
Vstupní data a cíl...................................................................................... 7
B
ANALYTICKÁ ČÁST ..................................................................................... 10
B.1
Vlastní řešení ......................................................................................... 10
B.2
Přínos řešitele ........................................................................................ 37
B.3
Posun znalostí ........................................................................................ 37
C
NÁVRHOVÁ ČÁST ....................................................................................... 39
C.1
Výsledky řešení ...................................................................................... 39
C.2
Závěr ...................................................................................................... 41
C.3
Návrhy opatření...................................................................................... 41
D
D.1
E
POUŽITÍ FINANČNÍCH PROSTŘEDKŮ ......................................................... 43
Komentář a tabulky ................................................................................ 43
RESUMÉ A KLÍČOVÁ SLOVA ........................................................................ 44
E.1
Resumé a klíčová slova v češtině............................................................ 44
E.2
Abstract and key words in English.......................................................... 44
2
A
Konstatační část
Úvodní poznámka vztahující se ke struktuře předkládané zprávy:
Předmětem výzkumné činnosti realizované ve výzkumném záměru Budování vzájemně
kompatibilních informačních systémů pro přístup k heterogenním informačním zdrojům
a jejich zastřešení prostřednictvím Jednotné informační brány byl podle stanoveného cíle
výzkum a vývoj směřující k vytvoření informačních systémů pro přístup k heterogenním
informačním zdrojům, které budou navzájem kompatibilní do té míry, že bude možné je
zastřešit tak, že se budou navenek (tj. pro koncového uživatele) prezentovat jako systém
jediný.
Jednalo se o komplexní výzkumný záměr, který v sobě integroval výzkumnou činnost
v pěti vzájemně provázaných oblastech:
1. Zajištění trvalé dostupnosti heterogenních informačních zdrojů (domácích
i zahraničních) včetně vyhodnocování a koordinace jejich využití.
2. Koordinace jmenného zpracování a zpřístupnění heterogenních informačních zdrojů
s ohledem na mezinárodní kontext (metadata, formáty, katalogizační pravidla).
3. Optimalizace
věcného
zpřístupnění
dokumentů
s ohledem
na
integraci
v mezinárodním kontextu (kombinace vyhledávání v plných textech a řízených
slovnících, konkordance klasifikací, aplikace metody konspektu).
4. Optimalizace využití heterogenních informačních zdrojů prostřednictvím jejich
integrace v rámci Jednotné informační brány (jednotné prostředí, jednotné kladení
dotazů, jednotné výstupy, vlastní prostředí, přidané služby).
5. Budování digitálních depozitních knihoven s ohledem na možnost jejich integrace
v rámci Jednotné informační brány a nadnárodních portálů.
První čtyři oblasti byly obsahem výzkumného záměru od počátku, pátá byla přidána
v závěrečných letech řešení, kdy byly naopak první dvě oblasti utlumeny.
Původně velmi široce koncipovaný výzkumný záměr byl na základě doporučení
hodnotitelské komise postupně zužován na okruhy, v nichž bylo možné dosáhnout
kvalitních výsledků v oblasti výzkumu a vývoje a podpůrné okruhy spíše praktického
zaměření byly utlumeny.
Důraz kladený na určité oblasti v jednotlivých letech řešení koresponduje nejen
s časovým rozložením rozvojových aktivit NK ČR v době řešení od roku 2004 až 2010, ale
odráží i mezinárodní kontext. Na počátku řešení byla „horkým tématem“ standardizace
bibliografických dat v rovině jmenné i věcné, postupně zastřešení jednotlivých aplikací
pomocí portálů. Metadata přestávají uživatelům stačit, vyžadují jejich nejrůznější
obohacení (obálky, obsahy, geografické souřadnice) a přístup k primárním dokumentům,
postupně nestačí pouhý náhled na obrazovou podobu dokumentu, je požadován plný
text, probíhají experimenty s kladením dotazů v přirozeném jazyce. V závěrečné fázi
řešení projektu se posouvá akcent na budování digitálních depozitních knihoven, neboť
předpokladem trvalého zpřístupnění dokumentů v digitální podobě je jejich zachování
a ochrana. Významnou složkou národního kulturního dědictví se stává český web, který
je (stejně jako „klasické“ dokumenty) nutné zachytit, ochránit a zpřístupnit.
Takto lze velmi stručně charakterizovat vývoj výzkumného záměru v průběhu uplynulých
sedmi let řešení. Podrobnější informace budou uvedeny v následujícím textu, i zde se ale
jedná spíše o souhrnné informace. Podrobný popis výsledků řešení za jednotlivé roky
uvádějí dílčí zprávy za jednotlivé roky řešení.
3
A.1
Rešerše
Rešerše obsahuje výsledky publikační činnosti řešitelů a dalších pracovníků NK ČR
vztahující se k řešenému tématu, které se staly uznanými výsledky řešení projektu.
Výsledky řešení za rok 2010 budou do evidence RIV teprve nahlášeny. Jedná se o 3
monografie a 8 odborných článků, z nichž 4 byly publikovány v zahraničních periodikách.
Soupis je uspořádán (stejně jako celá závěrečná zpráva na úrovni jednotlivých kapitol)
chronologicky – od nejstarších publikací po nejnovější. Další bohatá publikační činnost
řešitelů výzkumného záměru doma i v zahraničí je uvedena v dílčích (ročních) zprávách.
2006
STOKLASOVÁ, Bohdana. Conspectus method used for collections mapping and
structuring of portals in Czech Libraries. In Signum : the Finnish Research Library
Association, 2006, č. 3, s. 28-33. ISSN 0355-0036.
STOKLASOVÁ, Bohdana. Czech digital library. In Archiving 2006 : final program and
proceedings. Ottawa : Society for Imaging Science and Technology, s. 49-51. ISBN 089208-261-5.
STOKLASOVÁ, Bohdana. Perspektivy důvěryhodného digitálního úložiště v rámci Národní
digitální knihovny. Knihovna. Praha, Národní knihovna ČR, 2006, roč. 17, č. 2, s. 49-56.
ISSN 1801-3252.
NERGLOVÁ, Anna; HUTAŘ, Jan. Dlouhodobé uchování a zpřístupnění digitálních
dokumentů v Evropě : výsledky dotazníkového průzkumu. Knihovna. Praha, Národní
knihovna ČR, 2006, roč. 17, č. 2, s. 57-64. ISSN 1801-3252.
2007
BALÍKOVÁ, Marie; STROSSA, Petr; VŘEŠŤÁLOVÁ, Dana. Dotazování v přirozeném jazyce
: Zkušenosti s aplikací prototypu systému M-CAST v českém prostředí. Praha : Národní
knihovna ČR, 2007. 78 s. ISBN 978-80-7050-537-3
COUFAL, Libor; ŽABIČKA, Petr. Strategies and Approaches to Building Thematic
Collections in WebArchiv. In INFuture 2007 : digital information and heritage. Zagreb :
Odsjek za informacijske znanosti Filozofskog fakulteta u Zagrebu, 2007, s. 99 – 104.
ISBN 978-953-175-305-0.
STOKLASOVÁ, Bohdana; HUTAŘ, Jan. Nové směry v dlouhodobém uchovávání
dokumentů v mezinárodním kontextu. In Automatizace knihovnických procesů 11.
Liberec 16.-17.5.2007. Praha : ČVUT, 2007. s. 83-93. ISBN 978-80-01-03691-4.
2008
STOKLASOVÁ, Bohdana; HUTAŘ, Jan; KRBEC, Pavel. Preservation of digital cultural
heritage in Europe and in Czech Republic [Ochrana digitálního kulturního dědictví v
Evropě a v České republice]. In Communication of memory in archives, libraries and
museums : the interaction of science, policy and practices, Vilnius, 4.-5.10.2007 Vilnius:
Vilnius University Press, 2008, s. 213-230 (ISBN 978-9955-33-314-2)
2009
POSPÍŠILOVÁ, Jindřiška; KOŠŤÁLOVÁ, Karolína; NEMEŠKALOVÁ, Hana. Katalogy nové
generace : analýza vybraných systémů z pohledu uživatele. Praha : Národní knihovna
ČR, 2009. 68 s. ISBN 978-80-7050-579-3 (brož.)
4
2010
CUBR, Ladislav. Dlouhodobá ochrana digitálních dokumentů. Praha : Národní knihovna
ČR, 2010. 154 s. ISBN 978-80-7050-588-5 (brož).
CUBR, Ladislav. Budování důvěryhodného systému trvalé identifikace
dokumentů. Knihovna. 2010, roč. 21, č. 1, s. 23-31. ISSN 1801-3252.
A.2
digitálních
Současný stav ve světě a v ČR
Popis stavu ve světě a jeho porovnání se situací u nás je obsažen v jednotlivých ročních
zprávách. V závěrečné zprávě se soustředíme na zhodnocení situace u nás v konfrontaci
s mezinárodním kontextem. Hodnocení je rozděleno podle tematických okruhů řešených
v průběhu projektu.
i zahraničních) včetně vyhodnocování a koordinace jejich využití
Do této oblasti byla původně zařazena i archivace webu, která byla postupně integrována
s dalšími souvisejícími aktivitami v rámci oblasti Budování digitálních depozitních
knihoven s ohledem na možnost jejich integrace v rámci Jednotné informační brány
a nadnárodních portálů, kde bude také zhodnocen současný stav v porovnání
s mezinárodním kontextem.
Dalším okruhem bylo zajištění elektronických informačních zdrojů a tvorba konsorcií
tvořených v zájmu získání elektronických zdrojů pro řadu institucí za výhodných
finančních podmínek. V průběhu řešení výzkumného záměru participovala NK ČR na řadě
projektů zaměřených na získávání elektronických zdrojů, některé z nich vedla a stále
vede. V současné době je situace v této oblasti v porovnání se zahraničím velmi dobrá,
máme-li na mysli jejich sortiment a možnosti i menších a chudších knihoven tyto zdroje
díky různým grantům získat. Pokud bychom však měli hodnotit statistiky využití těchto
zdrojů, porovnání se zahraničím nevyznívá pro nás příznivě. Centrální financování je
v budoucích letech nejisté a NK ČR bude muset (stejně jako řada dalších českých
knihoven) modifikovat svoji akviziční politiku s ohledem na financování řady
elektronických zdrojů z vlastního rozpočtu.
Do této oblasti spadalo i analytické zpracování včetně kooperačního systému článkové
bibliografie. Analytické zpracování se v NK ČR udrželo (v porovnání se zahraničními
knihovnami) velmi dlouho a vznikl zde rozsáhlý kooperační systém. Až nyní dochází
k jeho útlumu.
2. Koordinace jmenného zpracování a zpřístupnění heterogenních informačních
zdrojů s ohledem na mezinárodní kontext (metadata, formáty, katalogizační
pravidla)
Jedná se o oblast, kde je NK ČR v mezinárodním kontextu velmi respektovanou institucí.
Rychlá a úspěšná implementace mezinárodních standardů (MARC, AACR2R) bez
zásadních modifikací nám umožnila po desetiletích izolace rychle navázat kontakt se
zahraničím, stali jsme se první posttotalitní zemí, která byla schopna dodat své
bibliografické záznamy do souborného katalogu WorldCat, velká pozornost věnovaná
jmenným autoritám naši pozici ještě posílila a usnadnila naši mezinárodní kooperaci
a integraci zdrojů. Stali jsme se jedním z prvních partnerů projektu VIAF.
5
3. Optimalizace věcného zpřístupnění
v mezinárodním kontextu
dokumentů
s ohledem
na
integraci
V oblasti věcného zpřístupnění patří NK ČR v mezinárodním kontextu k nejvyspělejším
zemím. Podobně jako v oblasti jmenného zpracování, i zde došlo k rychlé implementaci
mezinárodních standardů (MDT a konkordance na DDR, Konspekt, LCSH). Na požadavky
uživatelů rychle reaguje obohacování bibliografických záznamů o obsahy, geografické
souřadnice, dotazy v přirozeném jazyce atd. Výrazným trendem v mezinárodním
kontextu je v poslední době hledání nových cest ke zkvalitnění a obohacení věcného
zpřístupnění dokumentů. V souvislosti s integrovaným zpřístupněním digitálních objektů
v různých paměťových institucích dochází stále více ke spolupráci nejen mezi
knihovnami, ale napříč paměťovými institucemi. Významnou manifestací tohoto trendu je
evropský projekt EUROPEANA. Prioritou věcného zpřístupnění je v posledních letech
vývoj a rozvoj nástrojů pro spolupráci různých paměťových institucí na bázi národních
věcných autorit. Naše výsledky dosažené v této oblasti se těší velkému celonárodnímu
i mezinárodnímu zájmu a z ohlasu na naše prezentace vyplývá, že v mezinárodním
kontextu velmi dobře obstojí. NK ČR byla a je zapojena do řady národních
i mezinárodních projektů. Mnohé z nich vedla/vede.
4. Optimalizace využití heterogenních informačních zdrojů prostřednictvím
jejich integrace v rámci Jednotné informační brány
Integrace heterogenních informačních zdrojů v rámci Jednotné informační brány, vztah
mezi univerzálním národním portálem a oborovými branami, i péče o rozvoj příslušných
standardů řadí NK ČR stále na velmi dobré místo v mezinárodním kontextu. Situace se
však vyvíjí velmi rychle. Aby knihovny a jejich služby mohly konkurovat nástrojům
a službám dostupným na volném internetu a neztratily svoji pozici základních
(primárních) poskytovatelů informací, přizpůsobují své katalogy a služby současným
možnostem. Jedním z trendů je zpřístupnění všech relevantních zdrojů knihovny
a vyhledávání pod jedním rozhraním, které je uživatelsky jednoduché, přehledné
a názorné. JIB pracující na základě MetaLibu a SFX je dobrým příkladem integrace
zdrojů, v současné době však knihovny ve světě implementují novou generaci portálů,
která pracuje jako běžné komerční služby – zobrazí relevantní výsledky bez ohledu na
primární zdroj s nabídkou všech dostupných služeb. NK ČR disponuje rozsáhlými
analýzami těchto služeb a je dobře připravena na implementaci některé z nich v rámci
projektu Národní digitální knihovna (NDK).
5. Budování digitálních depozitních knihoven s ohledem na možnost jejich
integrace v rámci Jednotné informační brány a nadnárodních portálů
Do této oblasti spadá kromě budování digitálních depozitních knihoven i archivace webu.
NK ČR začala s archivací českého webu již v roce 2000 a od počátku se zapojila jako
platný a respektovaný člen do mezinárodní spolupráce. Problematika budování digitálních
depozitních knihoven je problematikou relativně novou. I zde získala NK ČR velmi rychle
potřebné znalosti a zapojila se do mezinárodní spolupráce.
Problematika budování digitálních úložišť je jedním z klíčových témat řešených
v paměťových institucích všech zemí, které již nashromáždily určité objemy digitálních
dat. Česká republika je v této oblasti vysoce ceněna v rovině koncepční. Koncepce
Národní digitální knihovny (NDK) včetně centrálního digitálního úložiště se těší trvalému
mezinárodnímu zájmu a částečně se uplatnily i v rámci zahraničních koncepcí.
6
Ministerstvo kultury a česká vláda přijaly Národní digitální knihovnu za strategickou
prioritu, financování je schváleno a zajištěno v rámci Integrovaného Operačního
Programu – IOP (Smart Administration).
NK ČR spolu s Moravskou zemskou knihovnu v Brně má v rámci projektu NDK tři hlavní
cílové linie:
• urychlení digitalizace (dvě digitalizační centra v Praze a v Brně, nasazení masové
digitalizace)
• dlouhodobá ochrana digitálních objektů (zdigitalizovaných i digital born
dokumentů) - důvěryhodný digitální repozitář
• komfortní zpřístupnění a práce s dokumenty ze strany uživatele
Řada výsledků řešení tohoto výzkumného záměru je důležitým základem a vstupem pro
řešení projektu NDK.
Země různých částí světa, které mají určité zkušenosti s výzkumem a vývojem v oblasti
archivace webu, spojují své síly a usilují o spolupráci, zejména na vývoji softwarových
nástrojů a standardů. K tomuto účelu bylo v roce 2003 založeno konsorcium IIPC
(International Internet Preservation Consortium), jehož členem se od května 2007 stala i
NK ČR. Naše mezinárodní aktivity a kontakty v této oblasti jsou velmi významné a naše
výsledky snesou mezinárodní měřítka.
A.3
Vstupní data a cíl
Rekapitulace cílů uvedených v projektu pro jednotlivé oblasti a jejich zasazení do
časového harmonogramu budou užitečnou pomůckou pro posouzení toho, které
z vytčených cílů se podařilo/nepodařilo v průběhu sedmi let řešení výzkumného záměru
realizovat. U jednotlivých oblastí je uvedeno, zda se zde podařilo/nepodařilo dosáhnout
uznaných výsledků. Soupis všech uznaných výsledků za roky 2004-2009 a výsledků,
které budou nahlášeny za rok 2010, je uveden v kapitole C 1 Výsledky řešení.
i zahraničních) včetně vyhodnocování a koordinace jejich využití
Domácí zdroje (WebArchiv):
•
•
•
Další vývoj aplikačních softwarových nástrojů pro tvorbu metadat, jednoznačnou
identifikaci dokumentů, stahování zdrojů a jejich ukládání do archivu a vyhledávacích
nástrojů (průběžně 2004-2010).
Výzkum metod pro zajištění trvalého přístupu k dokumentům uloženým v digitálním
archivu (průběžně 2004-2010).
Výzkum způsobů efektivního zpřístupnění archivovaných dokumentů pro badatelské
účely. I efektivní zpřístupnění dokumentů uložených v digitálním archivu vyžaduje
permanentní monitorování trendů rozvoje HW i SW a v návaznosti na tento vývoj
takovou modifikaci způsobů zpřístupnění archivovaných dokumentů, aby byla pro
uživatele-badatele příjemná a efektivní (průběžně 2004-2010) a současně i v souladu
s platnou legislativou.
Všechny vytčené cíle byly splněny. V oblasti archivace webu se podařilo
dosáhnout řady významných výsledků, které byly na základě nahlášení do RIV
uznány. Jedná se o prototyp, poloprovoz a publikační činnost.
Domácí zdroje (analytické zpracování):
•
Vytvoření předpokladů pro zpracování a zpřístupnění dosud obtížně dostupných
analytických dokumentů s částečným ohledem na elektronické publikování v této
oblasti (2004-2006).
7
•
•
Vývoj aplikace standardů pro zpracování a zpřístupnění analytických dokumentů
včetně jejich vazby na plné texty primárních dokumentů (URN, SICI). Jednoznačné
identifikátory URN a SICI zajistí snadnou a okamžitou dostupnost primárních
dokumentů (plných textů). V rámci záměru bude probíhat výzkum jejich optimálního
využití v rámci JIB (2004-2005).
Implementace souborů věcných autorit v oblasti analytického zpracování s ohledem
na jeho plnou integraci v JIB (2004), výzkum v oblasti optimalizace využití řízeného
slovníku ve vazbě na plné texty dokumentů (průběžně 2004-2010).
Zahraniční zdroje:
• Efektivní zpřístupňování a využívání plnotextových databází odborných zahraničních
periodik a dalších informačních zdrojů sekundárního charakteru (2004-2007).
• Strategie získávání zdrojů v návaznosti na statistické ukazatele jejich využití
(průběžně 2004-2010).
• Integrované zpřístupnění zahraničních časopisů (2004-2010).
Všechny vytčené cíle byly sice splněny, ale v této oblasti se nedařilo dosáhnout
významných výsledků uznatelných jako výsledky řešení v oblasti VaV. Proto
byla tato oblast na základě doporučení hodnotící komise, která ji pokládala
spíše za oblast praktických aplikací než oblast výzkumu a vývoje, utlumena
v roce 2007.
2. Koordinace jmenného zpracování a zpřístupnění heterogenních informačních
zdrojů s ohledem na mezinárodní kontext (metadata, formáty, katalogizační
pravidla)
•
•
•
Soustavné sledování vývoje existujících standardů pro jmenné zpracování (metadata,
formáty, katalogizační pravidla) a vzniku a vývoje standardů nových (průběžně 20042010).
Vývoj aplikací mezinárodních standardů pro české knihovny (průběžně 2004-2010).
Jednotná implementace modifikovaných a nových standardů v českých knihovnách
(průběžně 2004-2010).
Všechny vytčené cíle byly sice splněny, ale ani v této oblasti se nedařilo
dosáhnout významných výsledků uznatelných jako výsledky řešení v oblasti
VaV. Proto byla tato oblast na základě doporučení hodnotící komise, která ji
pokládala spíše za oblast praktických aplikací než oblast výzkumu a vývoje,
utlumena v roce 2007.
3. Optimalizace věcného zpřístupnění
•
•
•
•
dokumentů
s ohledem
na
integraci
Soustavné sledování vývoje existujících standardů pro věcné zpřístupnění a vzniku a
vývoje standardů nových (průběžně 2004-2010).
Vývoj aplikací mezinárodních standardů pro české knihovny (průběžně 2004-2010).
Jednotná implementace modifikovaných a nových standardů v českých knihovnách
(průběžně 2004-2010).
Vývoj integrovaného nástroje pro indexaci a vyhledávaní informací (2004-2007).
Všechny vytčené cíle byly splněny. V oblasti věcného zpřístupnění dokumentů
se podařilo dosáhnout řady výsledků, které byly na základě nahlášení do RIV
uznány. Jedná se o prototyp, software a publikační činnost.
8
4. Optimalizace využití heterogenních informačních zdrojů prostřednictvím
jejich integrace v rámci Jednotné informační brány
•
•
•
Výzkum optimálního zpřístupnění heterogenních informačních zdrojů v rámci JIB a
vývoj nových nástrojů korespondujících s rozvojem informačních technologií
i uživatelských potřeb (průběžně 2004-2010).
Aplikace metody Konspektu v celonárodním měřítku (2004-2007).
Budování tematických bran (průběžně 2004-2010).
Všechny vytčené cíle byly splněny. V oblasti využití heterogenních informačních
zdrojů se podařilo dosáhnout výsledků, které byly na základě nahlášení do RIV
uznány. Jedná se o prototyp a publikační činnost.
5. Budování digitálních depozitních knihoven s ohledem na možnost jejich
•
•
•
Analýza existujících a nově vznikajících metadatových standardů (rovina
bibliografická, administrativní, technická i ochranná) a návrh českých národních
standardů (2006-2008).
Analýza digitálních depozitních knihoven v mezinárodním kontextu (2006-2010).
Specifikace funkčních požadavků národního repozitáře s ohledem na jeho snadnou
integraci v rámci portálů a Souborného katalogu ČR (2006-2009).
Všechny vytčené cíle byly splněny. V oblasti budování digitálních depozitních
knihoven se podařilo dosáhnout řady výsledků, které byly na základě nahlášení
do RIV uznány. Jedná se o prototyp a publikační činnost.
9
B
Analytická část
B.1
Vlastní řešení
Výsledky řešení dosažené v jednotlivých letech jsou detailně popsány v příslušných
ročních zprávách, proto budou v závěrečné zprávě zrekapitulovány pouze nejvýznamnější
výsledky typu software, prototyp a poloprovoz dosažené v jednotlivých oblastech
obsažené v evidenci RIV. Výsledky za rok 2010 budou do evidence teprve nahlášeny.
Soupis všech uznaných výsledků (včetně publikační činnosti) za roky 2004-2009
a výsledků, které budou nahlášeny za rok 2010, je uveden v kapitole C 1 Výsledky
řešení.
Soupis je uspořádán chronologicky – od nejstarších výsledků po nejnovější. Popis
výsledků je převzat z příslušných ročních zpráv, proto ilustrativní příklady (obrazovky)
odpovídají době, kdy byl výsledek uplatněn.
Rok 2006
Tematická mapa fondů (S – prototyp)
Aplikací schématu předmětové kategorizace pro potřeby Konspektu v bibliografických
záznamech a připojením pořadového čísla předmětových kategorií u jednotlivých skupin
Konspektu v bibliografických záznamech byl vytvořen základ pro vznik komplexní a
srozumitelné tematické mapy knihovních fondů vytvořené na základě jednotné metodiky.
Tematická mapa fondů poskytuje kvalitní popis obsahu fondů a přispívá tak
ke komplexnímu zpřístupnění knihovních fondů a ke snadné navigaci uživatelů hledajících
informace k určitému tématu. Výrazným způsobem též posiluje koordinaci v oblasti
budování a využívání knihovních fondů v českých knihovnách.
Cílem tematických map knihovních fondů je umožnit
• získání základní informace o tematickém profilu fondů jednotlivých institucí bez
podrobných bibliografických informací
• vyhledávání dokumentů jednoduchým a uživatelsky vstřícným způsobem.
Cílem tematické mapy fondů je umožnit vyhledávání informací o dokumentech
jednoduchým a uživatelsky vstřícným způsobem. Pomocí jednoduchého formuláře,
v němž lze podle jednotlivých kritérií pomocí logických operátorů a zadáním dalšího
selekčního termínu vybraného z nabídky zpřesnit či zúžit dotaz a získat záznamy
o dokumentech přesně odpovídající dotazu uživatele.
Názorným dokladem tohoto postupu je ukázka vyhledávání informací o dokumentech
v tematickém portálu NK ČR: např. nakladatel získá přehled o dokumentech v dané
tematické oblasti a v určitém období, které v rámci plnění svých povinností vyplývajících
ze zákonných ustanovení o povinném výtisku zaslal do knihovny, která je oprávněným
příjemcem povinného výtisku.
10
11
Rychlou informaci o tematickém profilu fondů lze zobrazit názorným způsobem pomocí
jednoduchých grafů, které přinášejí nenáročnou formou cenné informace o složení a
proporcionalitě knihovních fondů. Podávají spolehlivý obraz o tom, jak jednotlivé knihovní
instituce plní své úkoly v informačním pokrytí jim svěřeného oboru. V konkrétní rovině
poskytují účinnou zpětnou vazbu pro koncepční a kooperativní budování knihovních fondů
a sbírek.
Tematická mapa fondů NK ČR je dostupná na adrese
http://aleph.nkp.cz/F/?func=file&file_name=konsp-nkc
Portálové řešení pro univerzální portály (S – prototyp)
V roce 2006 došlo k významnému posunu v oblasti budování portálů. S využitím volně
dostupného základu Plone byl vyvinut jednotný základ nejen pro Jednotnou informační
bránu a oborové brány KIV (knihovnictví a informační věda) a MUS (hudba), kde je
využit MetaLib jako jednotný vyhledávač a SFX jako jednotný nástroj pro přidané služby,
ale i pro Souborný katalog ČR a Národní digitální knihovnu. O využití (modifikaci)
prototypu portálu již projevila zájem řada českých knihoven a oborových bran.
12
13
14
V následujících letech byl prototyp využit pro vytvoření oborové brány TECH (technika)
15
a oborové brány IREL (mezinárodní vztahy).
Rok 2008
SRU/SRW rozhraní pro vyhledávání nad fulltextovým indexem (G/A – prototyp)
V roce 2008 byly zahájeny testy s SRU/SRW rozhraním pro vyhledávání nad fulltextovým
indexem a jeho integrací s metavyhledávacími portály typu Jednotné informační brány.
Náš tým byl osloven Státní knihovnou v Berlíně, respektive správci Slavistik-Portalu, kteří
měli zájem o zpřístupnění fulltextového indexu WebArchivu pomocí standardního SRU
rozhraní, kde experimentovali s vyhledáváním nad více Lucene indexy (tj. v našem
případě indexy vytvořenými pomocí nástroje Nutch, resp.
NutchWAX). Do tohoto experimentu jsou nyní zapojeny i další knihovny např. z Polska
nebo Ruska. Paralelně pak běží testování začlenění stejného indexu do rozhraní Jednotné
informační brány (resp. systému MetaLib).
Zkratka SRU znamená Search/Retrieval via URL – tj. vyhledání a získání dokumentů je
umožněno na základě URL. Veškeré parametry pro vyhledávání (např. operation, version,
query, startRecord, …) se vkládají do URL. Výsledek dotazu je ve formátu XML, který se
pomocí XLST transformuje v příslušném softwaru do HTML.
Pro vyhledávání se používá „Contextual Query Language“. Jde o formální jazyk pro
reprezentování dotazů nad informačními systémy, jako jsou webové indexy,
bibliografické katalogy nebo různé datové kolekce. Velký důraz je kladen na to, aby
schéma a „vzhled“ dotazu byly co nejvíce intuitivní a čitelné, a tedy i snadné na
zapamatování. Do dotazů mohou být přidány i další klauzule, např. zajišťující třídění dle
daného pole v indexu.
16
Protokol umožňuje tři základní typy operací (tzv. parametr operation):
1. explain – získání informací o databázi umístěné na vyhledávacím serveru (její
umístění, její popis, přístupové body nebo podporované vlastnosti)
2. searchRetrieve – umožňuje vyhledávání pomocí CQL jazyka (formát výsledků je
možné získat pomocí předchozí operace explain, např. Doublin Core, MODS, Marc)
3. scan – slouží k získávání termínů z indexu databáze pro procházení rejstříku
K zajištění přístupu k našemu fulltextovému indexu byl použit nástroj „SRW FRED LOM
Web Service“ (viz http://fred.usq.edu.au/searchtoolkit.html) implementující SRW
Search/Retrieve standard. Jako další vhodný nástroj se jeví „OCLC Research SRW Server
2.0“, který však není již nějakou dobu dostupný a není tedy možné jej vyzkoušet (viz
http://www.oclc.org/research/software/srw/default.htm). Aplikace běží pod javovským
kontejnerem Apache Tomcat 5.5 a pro svou konfiguraci používá dvou konfiguračních
souborů:
•
•
SRWDatabase.props – mezi nejdůležitější nastavení patří přiřazení xsl
souborů k jednotlivým druhům operací (xsl soubory slouží pro XSLT transformaci
výsledků operací do HTML výstupu), dalším důležitým nastavením tohoto soboru
je namapování jednotlivých polí indexu na standardní pole. Např. používáme dva
různé indexy, v jednom indexu je URL zaznamenáno v poli local.url a ve druhém
indexu v poli lucene.url. Namapování potom znamená, že pro obě pole použijeme
zástupné jméno, např. url. Umožní to, že jeden dotaz je možný klást nad více
indexy a nemusíme měnit pro každý index název daného pole.
SRWServer.props – zde se nastavují jména „databází“ pro vyhledávání nad
různými indexy a cesty k těmto indexům.
Implementaci
je
možné
vyzkoušet
na
následujícím
URL
http://raptor.webarchiv.cz:8080/SRWLucene/search/LuceneDemoDB. Jak je vidět, naše
„databáze“ (pojem databáze je zde značně zavádějící) se jmenuje LuceneDemoDB. Ke
každé takové „databázi“ se přiřazuje cesta k indexu a lze tedy prohledávat více indexů,
pokud není možné inkrementální indexování. Z webového rozhraní je patrné, na co vše je
možné se dotazovat. Je ovšem nutno podotknout, že tato implementace neumožňuje
vyhledávání ve všech polích ani používání zástupných znaků v dotazech.
Jako ukázku dotazu lze použít následující URL:
http://raptor.webarchiv.cz:8080/SRWLucene/search/LuceneDemoDB?query=local.collecti
on+%3D+%22serials%22+and+local.content+%3D+%22brod%22+and+local.title+%3
D+%22brod%22&version=1.1&operation=searchRetrieve&recordSchema=info%3Asrw%
2Fschema%2F1%2FLuceneDocument&maximumRecords=10&startRecord=1&resultSetTT
L=300&recordPacking=xml&recordXPath=&sortKeys=.
Zde jsme vyhledávali všechny dokumenty, které obsahují slovo „brod“ a mající stejné
slovo ve svém názvu (pole local.title). Dále jsme výsledek omezili jen na kolekci „serials“.
Dále je patrná verze protokolu (1.1), jméno operace (searchRetrieve). Pro automatické
zpracování nebo i k jiným účelům se jeví jako lepší použití webové služby. Předchozí
příklad dotazu by vypadal následovně (používání webových služeb jako prostředek je
popsán níže)
<SOAP:Envelope xmlns:SOAP="http://schemas.xmlsoap.org/soap/envelope/">
<SOAP:Body>
<SRW:searchRetrieveRequest xmlns:SRW="http://www.loc.gov/zing/srw/">
<SRW:version>1.1</SRW:version>
17
<SRW:query>(local.collection = "serials" and local.title = "brod" and local.content =
"brod")</SRW:query>
<SRW:startRecord>1</SRW:startRecord>
<SRW:maximumRecords>10</SRW:maximumRecords>
<SRW:recordSchema>http://www.loc.gov/mods/</SRW:recordsSchema>
</SRW:searchRetreiveRequest>
</SOAP:Body>
</SOAP:Envelope>
Kromě standardního SRU vyhledávání (standardizace je zajištěna specifikací SRU
v současné době verze 1.2) podporuje i SRW – Search/Retrieve Web Service. Tedy
vyhledávání a získání dokumentů prostřednictvím webovým služeb.
SRW si jako svůj vzor vzalo protokol Z39.50 (klient-server protokol pro vyhledávání a
obdržení informací ze vzdálených počítačových systémů/databází). Ve své podstatě SRW
není tak komplexní, a proto jeho implementace je značně ulehčena. Je použito jen
běžných webových protokolů a nástrojů jako WSDL, SOAP, HTTP a XML. Podobně jako
SRU používá pro dotazy CQL jazyk.
Námi používaná implementace zatím stále vykazuje problémy s kódováním znaků
v dokumentech, na odstranění tohoto problému se pracuje. Dalším úkolem, který zbývá
k vyřešení, je vyhledávání nad všemi poli indexu, což by umožnilo vyhledávat dokumenty
i na základě polí jako je např. local.date, local.arcdate, local.host nebo local.exacturl. S
využitím možností jazyka CQL by pak bylo snadné vyhledávat dokumenty také na
základě času a url. Takový dotaz by pak vypadal přibližně takto:
<SRW:query>(local.date >= "20040101" and local.date < "20050101" and
local.exacturl = "http://www.webarchiv.cz")</SRW:query>
Obohacení geografických autorit o kódované kartografické matematické údaje
(R – software)
Cílem aplikace je obohacení autoritních geografických termínů o konkrétní lokalizaci
geografické entity na mapě a doplnění poznámkového aparátu o informace požadované
uživateli; jednotlivé geografické entity jsou propojeny s veřejně dostupnými mapovými
službami.
Práci na vývoji aplikace předcházela analýza dostupných mapových služeb. V současné
době je k dispozici celá řada mapových portálů, tj. internetových mapových služeb. Při
výběru nejvhodnějšího kandidáta jsme se zaměřili na licenční podmínky, technologické
možnosti nabízené služby, nabízené mapové podklady, rozsah a dostupnost dokumentace
dané služby. Na základě těchto kritérií byly vybrány dvě mapové internetové služby:
Mapy Google (Google Maps) pro lokalizaci a zpřístupnění oblastí, měst, obcí a jejich částí
a mapový portál Mapy.cz pro lokalizaci a zpřístupnění přírodních, geomorfologických i
umělých útvarů, např. pohoří, hor, rybníků, přehrad apod.
Mapový portál Google Maps byl vybrán zejména pro univerzální platnost, protože pokrývá
celý svět, nezaměřuje se pouze na Evropu. Tato služba také zveřejnila API a umožnila tak
vývoj vlastního webového rozhraní: Google Maps API podporuje vlastní mapové
podklady, ovládací prvky a značky. Navíc stránka používající Google Maps API nemá
prakticky žádné omezení týkající se počtu zobrazení této stránky za den (umožňuje půl
milionu zobrazení stránky denně); stránky musejí používat nejnovější verzi API.
Dostupná dokumentace je komplexní a obsahuje všechny potřebné informace.
K nedostatkům portálu Google Maps patří především prozatímní nedostatečné pokrytí
18
území Česka, portál také nenabízí všechny verze mapových podkladů, např. turistickou
mapu, satelitní mapu poskytuje v menším rozlišení.
Internetová mapová služba Mapy.cz se zaměřuje pouze na Evropu, funkčnost mapového
řešení je ve srovnání s portálem Google.Maps méně dokonalé, tvorba složitějších aplikací
není umožněna. Maximální počet zobrazení stránky za den je 1000, API je možné
využívat pouze pro nekomerční účely. K výhodám portálu Mapy.cz
patří kvalita
satelitních map a detailní mapy měst, obcí a jejich částí, ulic (až na popisné číslo).
V rámci přípravy byly definovány základní cíle aplikace:
• uvádět souřadnice ve tvaru požadovaném formátem MARC 21 (zapsání hodnot
zeměpisné šířky a délky v desetinném formátu, což vyžadují všechny API pro práci
s mapami) a zároveň ve formě vstřícné i pro uživatele, tedy pomocí obvyklých
jednotek – stupňů, minut a vteřin
• generovat link do mapy umožňující zobrazení lokality na mapě
• zachovat základní funkčnost map, tj. podporovat možnost přibližování a vzdalování
se, neomezený pohyb po mapě
Dílčí postupy:
Aplikace umožňuje (pomocí speciální pomůcky):
• propojení z autoritního záznamu na zvolenou internetovou mapovou službu
• zápis GEO termínu do vyhledávacího pole, zobrazení lokality na
a odečtení/zpřístupnění hodnoty metadatových geoinformací – souřadnic
• připojení souřadnic do speciálního pole GPS
mapě
Při uložení záznamu dochází
• k úpravě údajů v poli GPS do standardního tvaru (odstranění interpunkce, mezer
atd.), zaokrouhlení údajů na desetiny úhlové vteřiny
• k převedení hodnot vyjádřených ve stupních, minutách, vteřinách na hodnoty
desetinné a vytvoření pole 034
Pokud je v záznamu odkaz na mapový portál Mapy.cz, další odkazy se nevytvářejí.
V opačném případě se na základě údajů v poli GPS vytvoří standardní odkaz do vlastního
webového rozhraní – odkaz je vždy aktuální a stejně jako pole 034 odpovídá hodnotám
v poli GPS.
Realizace těchto úkolů předpokládala:
• implementovat pole pro zápis kódovaných kartografických matematických informací
(pole 034) do autoritních záznamů
• porovnat světovou databázi Geonames s bází geografických autorit
• u jednoznačných geografických názvů generovat link do mapy; asi 4200 názvů měst,
obcí a jejich částí bylo možno propojit, 3750 geografických názvů je nutné posoudit
jednotlivě.
19
Ukázka záznamu GEO autority s propojením na mapový portál Mapy.cz
Ukázka záznamu GEO autority s propojením na mapový portál Gogole Maps
20
Informační portál Kramerius (G/A – prototyp)
Připravili a zpřístupnili jsme prototyp portálu Kramerius, který bude soustřeďovat
informace o digitalizaci novodobých fondů v ČR i v zahraničí i souvisejících technologiích,
standardech a projektech.
Rok 2009
SRU/SRW rozhraní pro vyhledávání nad fulltextovým indexem
(Z/A – poloprovoz)
Fulltextovou indexaci archivu provádíme pomocí systému NutchWAX (Nutch -Web Archive
Extension). Jde o rozšíření webového vyhledávacího rozhraní Nutch, založeného na
indexovací a vyhledávací technologii Lucene. V současné době indexujeme pouze
veřejnou část WebArchivu.
Rozhraní
fulltextového
systému
NutchWAX
http://war.webarchiv.cz:8080/nutch-1.0-dev/en/
je
provozováno
docNo
bed9a
segment
tar2006-11-13-215909
digest
49426359780df26b5f3b8fb741da1c4a
boost
1.0
date
1112568417
arcdate
20050403224657
encoding
windows-1250
collection
Serials
arcname
IAH-20050403222954-00003-harvester.nkp.cz
21
na
adrese
arcoffset
78412030
primaryType
text
subType
html
url
http://kvetena.cz/systematika/system_rostlin_rise.asp?celed=177
title
Zařazení druhů do rodů a čeledí
Výše uvedený příklad ukazuje data uložená v Lucene o jednotlivých souborech z archivu.
Zapojení do portálů pomocí protokolu SRU/SRWU
V loňské zprávě jsme podrobněji popsali mechanismus SRU/SRW. SRU protokol jsme
zvolili pro zapojení fulltextového indexu, generovaného systémem NutchWAX. Díky tomu,
že index z NutchWAX je založen na Lucene, byla pro napojení zvolena aplikace OCLC,
která zpřístupnění Lucene indexu přímo podporuje.
Rozhraní SRU je provozováno na adrese
http://war.webarchiv.cz:8080/SRWLucene/search/webarchiv
Zároveň vzniklo druhé, alternativní připojení, na kterém je možno testovat vyvíjenou
verzi SRU serveru bez ohrožení ostrého provozu.
Výhodou této aplikace je to, že díky odkázaným stylesheetům lze při diagnostice
s použitím browseru generovat z přijatého XML přímo dotazovací formulář nebo zobrazit
výsledky v přehledné tabulce.
Při zapojování fulltextového indexu do JIB bylo nutné překonat některé překážky. MetaLib
sám rozhraní SRU podporuje jen díky skriptům v Perlu, vyvinutým původně ve finské
národní knihovně. Tyto skripty zajišťují komunikaci přes SRU pro dva formáty: MARCXML
a Dublin Core. SRU aplikace nad Lucene indexem generuje automaticky jen XML záznam
poplatný struktuře dat uložených v indexu. Není tedy bez úprav na jedné či druhé straně
možné přímé propojení obou systémů. Přistoupili jsme proto k takové úpravě SRU
serveru, která by umožňovala rozpoznat příchozí vyhledávací dotazy kódované ve
formátu
Dublin
Core
a
vracela
výsledky
opět
v
tomto
formátu.
SRW Lucene na dotaz od MetaLibu vrací odpověď v SRW DC, kterou už MetaLib (resp.
dodaný konektor po nakonfigurovaní - zejména vynucení si schématu Dublin Core místo
defaultního MARCXML) je schopen zpracovat a předložit uživateli.
Mapovaní dotazu je zajištěno těmito pravidly:
qualifier.cql.serverChoice=content
qualifier.dc.creator=url
qualifier.dc.title=title
qualifier.dc.subject=content
qualifier.dc.identifier=url
qualifier.dc.date=arcdate
22
V rozhraní JIB lze tento zdroj nalézt pod názvem WebArchiv - fulltext.
Integrace s Wayback Machine
Nutch jsme upravili tak, aby jím indexované dokumenty byly uživateli přímo dostupné
prostřednictvím aplikace Wayback z archivu WebArchiv. Výsledný seznam hitů tak pro
každý záznam obsahuje mimo názvu dokumentu ještě odkaz na živý web, odkaz na
konkrétní dokument do aplikace Wayback a také odkaz do rozhraní Waybacku,
zpřístupňující všechny časové verze daného dokumentu.
Výsledek vyhledávání v plných textech WebArchivu prostřednictvím JIB
23
Zobrazení konkrétního výsledku s odkazy na Wayback a živý web
Zobrazení konkrétní časové verze výsledku ve Waybacku
24
Rok 2010
SRU/SRW rozhraní pro vyhledávání nad fulltextovým indexem
(Z/A – poloprovoz)
Pro fulltextovou indexaci WebArchivu používáme nástroj NutchWAX1 vyvinutý organizací
Internet Archive2, který rozšiřuje funkcionalitu open source internetového vyhledávače
Nutch3 o indexaci ARC souborů a ukládání specifických metadat pro WebArchiv.
Fulltextová indexace se skládá z následujících fází:
1. Import obsahu dokumentů z ARC souborů - z každého textového dokumentu jsou
extrahována metadata, text a v případě HTML stránek ještě navíc odkazy.
Výsledky jsou ukládány do tzv. segmentů.
2. Aktualizace databáze crawleru - tato část je sice z našeho pohledu zbytečná,
neboť používáme pro sklízení Heritirix a ne crawler Nutche, ale z jistých
technických důvodů ji nelze vynechat.
3. Invertování odkazů - každému dokumentu je přiřazen seznam stránek, které na
něj odkazují.
4. Vygenerování pageranku pro hodnocení relavance stránek - je vygenerován
textový soubor obsahující na každém řádku URL dokumentu, podle kterého je
lexikograficky setříděn a počet externích odkazů (tzn. odkazů z jiných domén),
které na daný dokument odkazují.
5. Indexace - ze segmentů, které byly vytvořeny v první fázi, se generuje
invertovaný soubor a ke každému dokumentu se navíc ukládá hodnota pageranku.
Seznam metadat ukládaných do indexu je v následující tabulce:
pole
popis
příklad
segment
20100326225912
segment, má význam pouze pro
nuchwax
title
Národní knihovna
titulek stránky (z obsahu elementu
title)
textový obsah dokumentu pro
generování úryvků
content
url
http://narodni-knihovna.cz/
URL dokumentu
digest
sha1:NO2WDXITSO6MDWUBNK3BXZAPZCSLQGE6 otisk (hash) z obsahu dokumentu
jméno kolekce (nepovinné,
nepoužíváme)
collection
date
20081018190624
čas sklizně dokumentu
type
text/html
MIME typ dokumentu
length
28138
velikost dokumentu v bytech
5.0
relevance dokumentu pro řazení
výsledků, hodnota je rovna log10N,
kde N je počet externích odkazů na
tento dokument
boost
Fulltextová indexace probíhá po částech, výsledné indexy je třeba sloučit do jednoho a
následně odstranit z indexu duplicitní dokumenty, které rozlišujeme podle MD5 haše.
1
2
3
http://archive-access.sourceforge.net/projects/nutch/
http://www.archive.org/
http://nutch.apache.org/
25
Úskalí při fulltextové indexaci:
1. Špatné či chybějící deklarované kódování dokumentu - nástroj NutchWAX byl
modifikován tak, že identifikuje kódování dokumentu stejným způsobem jako
wayback, u kterého je již odladěné. Pokud deklarace kódování chybí, použije se
heurisitika. Úprava spočívala v ukládání HTTP hlavičky s kodováním při importu
segmentů, kterou sám o sobě NutchWAX zahazuje, a využitím této informace při
indexaci. Toto řešení lze využít i v distribuované verzi.
2. Problém s občasnými pády byl vyřešen přechodem na Javu od IBM.
3. Extrakce textu z některých nekorektně vytvořených PDF dokumentů je stále
problémem, protože z některých dokumentů po extrakci vypadne "čínský čaj"
a získat původní text není schopen ani Acrobat Reader.
4. Spam
Při detekci znakové sady se postupuje následovně (při prvním pozitivním výsledku se
nepokračuje):
1. Deklarace znakové sady v HTTP hlavičce odpovědi serveru
2. Deklarace znakové sady v prologu HTML dokumentu
3. Jednoduchá heuristika, pro každou českou znakovou sadu (UTF-8, ISO-8859-2,
CP-1250) se spočítá celkový počet českých znaků s diakritikou ze začátku
dokumentu a jako výsledek se bere znaková sada s nejvyšším dosaženým
počtem.
Možnosti omezení vyhledávání dokumentů na volně dostupné:
1. Mít dva indexy, jeden úplný a druhý jen s volně dostupnými dokumenty
vygenerovány jednou za čas z úplného indexu stejným způsobem, jakým
odstraňujeme duplikáty.
2. Odlišit ve výsledcích hledání volné a nedostupné dokumenty, např. ikonou či
poznámku.
3. Modifikace indexu je problematická, změnit metadata dokumentu lze jen tak, že
ho odstraníme a přidáme znovu do indexu.
Odstraňování dokumentů z indexu je poněkud komplikované, protože index v Lucene
nelze upravit na místě ("in place") a je tudíž náročnější na místo na disku (potřebujeme
až M dodatečného volného místa, kde M je velikost původního indexu):
1. Nejprve je vygenerována bitmapa, kde každý bit reprezentuje jeden dokument a
jeho hodnota indikuje, zda má či nemá být ponechán.
2. Při slučování indexů se přečte bitmapa každého indexu a do výsledného indexu
jsou přidány jen dokumenty, které nebyly označeny jako smazané. Sloučit lze
jeden či více dokumentů.
Statistika fulltextu
Rychlost indexace se pohybovala v rozmezí 1000 až 1500 ARC souborů za den, statistiky
za jednotlivé roky lze najít v následující tabulce:
java
IBM JRE 1.6.0
procesor
4 x Intel(R) Xeon(R) CPU [email protected]
operační paměť
8 GB
diskové pole
10 TB
26
rok
zaindexované ARC soubory
počet dokumentů v tisících
do roku 2005
915
2499
2006
1446
2143
2007
2395
3880
2008
8856
18450
2009
25363
15612
2010
7342
8365
celkem
46317
50940
Vyhledávání ve fulltextu
Vyhledávání ve fulltextu je dostupné na http://war.webarchiv.cz/nutch/search,
zvýrazňování výsledků ve waybacku zajišťuje javascript, který hledaná slova získá z
redirectu a funkčnost není garantována u všech stránek. Aktuálně (k 31.10.) jsou
zaindexované nasmlouvané zdroje od roku 2003 do března 2010. Postupně se bude
index rozšiřovat o nové sklizně.
Formát dotazu:
•
•
•
•
•
•
•
Výsledek obsahuje pouze stránky, které obsahují všechna slova v dotazu.
Lze vyhledávat i fráze, hledanou frázi je třeba uzavřít do dvojitých uvozovek,
např. "Národní knihovna".
U dotazů nezáleží na velikosti písmen.
Určitý výraz můžete z vyhledávání vyřadit vložením znaménka mínus před něj,
např. vyhledávání football -NFL najde všechny stránky týkající se fotbalu, ale
neobsahující slovo "NFL".
Dokumenty lze vyhledavát i podle času, např. dotaz "Národní knihovna"
date:2005. Čas je porovnávan prefixově, tzn. pro dotaz "date:2005" najde
všechny dokumenty z roku 2005, pro dotaz "date:200512" všechny dokumenty z
prosince 2005. Lze vyhledávat i podle intervalu, např. "Národní knihovna"
date:200511-200601.
Pokud nás zajímají pouze výsledky z domény www.nkp.cz, použijeme pole site,
např. site:www.nkp.cz "Národní knihovna".
Vyhledávat lze i podle mime typu, např. dotaz
"Národní knihovna"
type:application/pdf najde všechny PDF dokumenty, které obsahují frázi "Národní
knihovna".
Poznámky k hledání:
•
•
•
•
•
Vyhledávat lze i dlouhé fráze skládající se z několika vět, takže není problém vzít
pár vět z odstavce nějakého článku a hledat, kde všude byl článek převzat. Šlo by
to využít i pro detekci podobných dokumentů.
Nutch neumí detekovat podobné dokumenty při zobrazování výsledků, proto se
často stává, že podobné dokumenty mají shodnou relevanci a tudíž jsou ve
výsledcích u sebe.
Detekce znakové sady Nutchem u některých dokumentů není optimální, na řešení
se pracuje.
U některých PDF vypadne při převodu na text "čínský" čaj.
Původně chyběla možnost stránkování výsledků jako u Googlu, řešením je použít
XSL šablonu distribuovanou s NutchWAXem, která transformuje výsledky z Open
Search do HTML a podporuje stránkování.
27
Oficiální dokumentace k vyhledávání je na http://wiki.apache.org/nutch/FAQ#Searching.
Vyhledávání ve fulltextu je dostupné na:
•
•
•
•
Webové
rozhraní
na http://war.webarchiv.cz/nutch/search,
které
využívá
OpenSearch a výsledky z XML transformuje do HTML za pomocí XSL šablony.
OpenSearch rozhraní
na http://war.webarchiv.cz:8080/WebarchivSearcher/opensearch.html.
Jednotná informační brána, název zdroje je WebArchiv – vyhledávání v plných
textech.
MetaLib Masarykovy univerzity pod názvem WebArchiv.
Obr. Úplné zobrazení nalezeného výsledku fulltextového vyhledávání v JIB
SRU/SRW protokol, zapojení do JIB
Jednotná informační brána podporuje protokol SRU/SRW díky skriptům napsaných v
Perlu vyvinutých finskou národní knihovnou, které transformují dotazy a odpovědi do (z)
protokolu SRW/U a zpřístupňují je tak jádru systému MetaLib, který je srdcem JIB.
Veškeré parametry dotazu jsou v případě SRU součástí URL, v případě SRW se pro volání
a vracení výsledku používají webové služby. Dotazy jsou vyjádřené v jazyce CQL
(Contextual/Common Query Language), což je poměrně silný a lidsky čitelný jazyk pro
dotazování nad vyhledávacími stroji.
CQL podporuje:
•
•
•
•
booleovské operátory (AND, NOT, OR). Příkladem dotazu je "'auto' OR 'motocykl'".
relační operátory (=, >, <, ...). Příklad dotazu je "year > 2000".
dotazy na příslušný klíč, např. "dc.autor='Božena Němcová'".
podrobnější popis a příklady dotazů lze najít v A Gentle Introduction to CQL4.
OpenSearch5 je jednoduchý protokol pro vyhledávání na webu, základem je jednoduchý
XML dokument, který popisuje syntaxi URL pro volání a seznam podporovaných formátů
(JSON, RSS, HTML). Příklad takového XML dokumentu je:
<?xml version="1.0" encoding="UTF-8"?>
<OpenSearchDescription xmlns="http://a9.com/-/spec/opensearch/1.1/">
4
5
http://zing.z3950.org/cql/intro.html
http://www.opensearch.org/Home
28
<ShortName>Web Search</ShortName>
<Description>Use Example.com to search the Web.</Description>
<Tags>example web</Tags>
<Contact>[email protected]</Contact>
<Url type="application/rss+xml"
template="http://example.com/q={searchTerms}&format=rss"/>
</OpenSearchDescription>
Každý OpenSearch deskriptor obsahuje jeden či více elementů Url, které obsahují v
atributu type vrácený formát (RSS, JSON, HTML) a v atributu template syntaxi URL pro
volání, která obsahuje následující parametry, které jsou při dotazu nahrazeny za
příslušnou hodnotu parametru:
parametr
povinný
význam
{searchTerms}
ano
dotaz, hledaný výraz
{startPage?}
ne
číslo požadované stránky (umožňuje stránkování výsledků)
{count?}
ne
počet vrácených výsledků
{startIndex?}
ne
zobraz výsledky od (umožňuje stránkování výsledků)
Příklad volání, které vrátí prvních pět výsledků pro dotaz MZK ve formátu RSS
je: http://war.webarchiv.cz:8080/nutch/opensearchquery=MZK&start=0&hitsPerPage=5
&format=rss
Markantní rozdíl mezi OpenSearch a SRU/SRW je, že OpenSearch nepředepisuje na dotaz
žádná omezení a může jím být prakticky cokoliv. V SRU/SRW formu dotazu předepisuje
jazyk CQL. Příklad dotazu v CQL, a jeho ekvivalentu pro Nutch ilustrujeme v následující
tabulce, Nutch podporuje "googlovské" výrazy:
dotaz v CQL
ekvivalent dotazu pro Nutch
dc.title="hello" AND dc.date=2008
title:"ahoj" date:2008
"příklad dlouhé fráze"
"příklad dlouhé fráze"
"první fráze" AND "druhá fráze"
"první fráze" "druhá fráze"
"obsahuje" NOT "neobsahuje"
"obsahuje" -"neobsahuje"
cql.serverChoice="studená válka"
"studená válka"
dc.author="novak"
- (nelze přeložit)
"auto" OR "motocykl"
"auto" "motocykl" (není ekvivalentní)
Předposlední dotaz nelze přeložit, neboť pole autor z Dublin Core nelze namapovat na
odpovídající pole v Nutch a v takových případech vrátíme chybu. Poslední dotaz není
ekvivalentní dotazu v CQL, protože Nutch nepodporuje operátor OR a výsledný dotaz
najde všechny dokumenty, ve kterých se vyskytují zároveň slova auto a motocykl,
zatímco dotaz v CQL najde dokumenty, které obsahují slova auto nebo motocykl. Při
implementaci rozhraní mezi OpenSearch a SRU/SRW musíme počítat s tím, že ne veškeré
dotazy v CQL půjdou přeložit do OpenSearch. Mapování polí z Dulin Core, na které se
dotazuje MetaLib, na pole Nutche je přitom následující:
formulář v MetaLibu
pole v CQL
Nutch
všechna pole
cql.serverChoice
implicitní pole
název
dc.title
title
29
rok
dc.date
date
předmět
dc.subject
chyba, ekvivalent neexistuje
autor
dc.author
ISSN
dc.identifier
ISBN
dc.identifier
Příklad výsledku dotazu SRU/SRW ve formátu Dublin Core:
<?xml version="1.0" encoding="UTF-8"?>
<srw xmlns="info:srw/schema/1/dc-v1.1">
<title>MZK Brno</title>
<publisher>www.mzk.cz</publisher>
<date>2008-10-18</date>
<description>uryvky</description>
<identifier>odkaz na živou verzi/</identifier>
<identifier>odkaz do waybacku</identifier>
<identifier>všechny časové verze</identifier>
<format>text/html</format>
</srw>
Vyvinuli jsme tedy překladač z jazyka CQL na ekvivalentní dotaz v OpenSearch pro
NutchWAX, který lze ovšem využít i pro jiné zdroje s podobnou syntaxí (otestovali jsme
ho i na Google Books) a který bere v potaz výše uvedená úskalí překladu. Dále jsme
vyvinuli konfigurovatelnou bránu mezi SRU/SRW a OpenSearch, do které jsme začlenili
tento překladač a XSL šablonu, která konvertuje RSS výsledky NutchWAXe do formátu
Dublin Core. Zdrojové kódy rozhraní mezi OpenSearch a SRU/SRW jsou dostupné na
adrese http://code.google.com/p/opensearch-to-srw-gate/.
Konfigurace brány
Brána se konfiguruje v textovém souboru ve formátu java properties, který definuje URL
s OpenSearch deskriptorem, XSL šablonu pro transformaci výsledku, definici jmenných
prostorů, XPath výraz pro separaci jednotlivých výsledků a XPath výraz, který vrátí počet
celkových výsledků. V XPath výrazech se můžeme odvolávat na definované jmenné
prostory. Pro tranformaci dotazu musíme definovat podporované logické operátory (AND,
OR, NOT) a mapování polí z CQL na odpovídající OpenSearch ekvivalent. Většina
vyhledáváčů totiž podporuje výrazy ve tvaru klíč:hodnota.
opensearch.url=http://war.webarchiv.cz/warcs/googlebooks.xml
opensearch.xsl_template=/home/app/opensearch/googlebooks.xsl
opensearch.namespace.opensearch=http://a9.com/-/spec/opensearchrss/1.0/
opensearch.namespace.atom=http://www.w3.org/2005/Atom
opensearch.records_xpath=//atom:entry
opensearch.total_records_xpath=//opensearch:totalResults/text()
operator.and=AND
operator.or=OR
operator.NOT=key.srw.serverChoice=
key.cql.serverChoice=
key.cql.any=
key.title=intitle
#dublin core elements
key.dc.creator=inauthor
key.dc.title=intitle
30
key.dc.publisher=inpublisher
key.dc.identifier=isbn
Příklad konfigurace pro Google Books
Při psaní XSL šablony musíme dávat pozor na definici jmenných prostorů, Google Books
vrací Dublin Core ve jmenném prostoru s URI http://purl.org/dc/terms, MetaLib je ovšem
vyžaduje ve jmenném prostoru info:srw/schema/1/dc-v1.1, Google Books vrací výsledky
ve formátu DC, stačí u všech elementů DB změnit jmenný prostor.
<?xml version="1.0" encoding="utf-8"?>
<xsl:stylesheet version="1.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns:dc_google="http://purl.org/dc/terms"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:srw_dc="info:srw/schema/1/dc-v1.1"
xmlns:atom="http://www.w3.org/2005/Atom"
exclude-result-prefixes="atom dc_google">
<xsl:output method="xml" encoding="utf-8" indent="yes" />
<xsl:template match="/">
<srw_dc:dc>
<xsl:apply-templates/>
</srw_dc:dc>
</xsl:template>
<xsl:template match="//dc_google:*">
<xsl:variable name="element" select="name()"/>
<xsl:element name="{$element}">
<xsl:value-of select="text()"/>
</xsl:element>
</xsl:template>
<xsl:template match="text()"/>
</xsl:stylesheet>
XSL šablona pro Google Books
Loňským výsledkem tohoto záměru byl poloprovoz SRU/SRW rozhraní pro vyhledávání
nad fulltextovým indexem a jeho integraci s metavyhledávacími portály. V letošním roce
jsme se v této oblasti posunuli na úroveň provozu, který bude nahlášen jako jeden
z výsledků řešení za rok 2010.
Resolver URN:NBN (Z/A – poloprovoz)
Cílem v roce 2010 bylo připravit prostředí a základní SW aplikaci pro pilotní test systému
pro využití URN:NBN v NK ČR. Aplikace umožní přiřazování globálně jedinečného
identifikátoru odpovídajícího pravidlům URN:NBN, dále jeho správu (administrátorský
modul), vyhledávání dle identifikátoru a bude spolupracovat s již běžícími systémy NK,
které jsou potřeba pro pilotní projekt.
V první pilotní fázi (do poloviny roku 2011) je aplikace určena pro využití v NK ČR, pro
přidělování a zpřístupňování identifikátorů dokumentů projektu Kramerius, VISK7 a
Norských fondů. Identifikátory budou přiřazeny všem digitalizovaným dokumentům
31
z těchto projektů evidovaným v RD.CZ. V dalších fázích (mimo tento výzkumný záměr)
bude služba poskytována i ostatním paměťovým institucím za předem určených
podmínek.
Dokumenty, které v pilotní fázi dostanou URN:NBN musí být v současné době uloženy
v repozitáři NK ČR nebo tam musí být uloženy později. Pilotní aplikace byla funkční a
otestovaná do konce roku 2010, s případnými úpravami se počítá na rok 2011. Pilotní
fáze se vědomě vyhýbá digital born dokumentům.
Velmi intenzivně probíhaly debaty s Odborem zpracování fondů, zejména kvůli číslu
národní bibliografie a návaznostech na systém URN:NBN.
Obr. – výchozí rozhraní aplikace
Obecná funkcionalita
Návrh našeho pilotního řešení umožnil vytvoření nástroje, který dokáže přidělovat
jedinečné identifikátory postavené na syntaxi URN:NBN pro digitální dokumenty (logické
entity). Během implementace návrhu a vývoje nástroje resolver se potvrdila námi
deklarovaná skutečnost6, že je velmi komplikované a nelogické vytvářet aplikaci
resolveru dříve, než bezpečně víme, jak bude vypadat životní cyklus digitálních
dokumentů, kterým URN:NBN chceme přidělovat. Vzhledem k výše zmíněnému je logika
pilotního řešení zatím omezena na dokumenty, které jsou registrovány v jednom balíčku
jako zakázka v systému RD.CZ, a to pouze ty z nich, které jsou již reálně zdigitalizovány
a budou trvale archivovány v digitálním repozitáři Národní knihovny ČR.
Nástroj resolver umožňuje rozeznávat na základě podřízených jmenných prostorů různé
digitalizující subjekty (instituce) a přidělovat jim globálně jedinečné identifikátory,
6
viz CUBR, Ladislav; HUTAŘ, Jan; MELICHAR, Marek. Kontrolní seznam pro strategii zajištění
perzistence identifikátorů. Knihovna. 2009, roč. 20, č. 2. s. 54-62. Přístupné z WWW:
<http://knihovna.nkp.cz/pdf/0902/090254.pdf>.
32
a zajistit, že žádný identifikátor nebude přidělen znovu. Tj. pokud dvě instituce
zdigitalizují stejnou knihu, oba takto vzniklé digitální dokumenty budou mít různé
URN:NBN, i kdyby byly naprosto shodné.
Nástroj umožňuje rovněž vyhledávat identifikované digitální dokumenty, a to nejen podle
identifikátoru URN:NBN podle kterého vyhledává primárně, ale také podle dalších
užívaných identifikátorů, a sice ISSN, ISBN a čČNB (číslo České národní bibliografie). Po
vyhledání dostane uživatel relevantní metadata k vyhledávanému dokumentu, vidí, zda a
kým byl zdigitalizován a kde je zpřístupněn, včetně URL linku do konkrétní digitální
knihovny.
Obr. – výsledek hledání dle URN:NBN - výřez
Resolver je schopen přijmout a nadále udržovat URN:NBN přidělená jinými systémy,
např. SW pro workflow digitalizace na konkrétním pracovišti (např. DocWorks nebo Sirius
aj.). Druhou možností je, že workflow digitalizace bude volat resolver, ten přidělí
URN:NBN.
Syntax identifikátoru
Syntax byla navržena takto - URN:NBN:CZ:XXX:12345A, kde:
-
XXX - kód vlastníka /původce / vydavatele (v pilotní fázi odpovídá údajům
v RD.cz)
12345A - šest alfanumerických znaků - pro čísla a písmena (10 číslic + 26 znaků
latinky) máme 36 na 6 kombinací, tedy cca 2,1 miliardy kombinací
ve všech částech identifikátoru půjde o náhodná čísla, tj. nebudou označovat
konkrétní číslo ročníku ani čísla (u periodik) apod.
Současné řešení
V pilotní fázi je resolver napojen na systém Registr Digitalizace (dále RD.CZ) a využívá
jeho databáze. Do RD.CZ přicházejí data ve formě zakázek, které zpravidla reflektují
způsob uložení dokumentů v depozitářích knihoven. Digitalizace probíhá obyčejně podle
svazků monografií ovšem i periodik, které jsou svázány do svazků (dodatečně po
akvizici) podle toho, jak se to vazačům hodilo, tj. bez obecně platných pravidel a jsou
takto i digitalizovány. Jeden svazek tak může obsahovat různé množství čísel i ročníků,
nebo naopak jen půl ročníku apod.). Ovšem metadata např. k číslu periodika v katalogu a
ani v RD.cz neexistují. Do RD.CZ přichází takto digitalizované svazky jako zakázky a tedy
jako celky (tj. digitální objekty), které v pilotní fázi dostanou přiděleno URN:NBN. Je
33
jasné, že tato situace není konsistentní, např. pro uživatele, který hledá konkrétní číslo
periodika a to konkrétní číslo by mělo mít své číslo URN:NBN, stejně jako např. celý
ročník nebo i titul periodika. Takto má URN:NBN digitální objekt (celek) vzniklý
digitalizací svazku, jehož obsah jako intelektuální entity je proměnlivý (velmi často celý
ročník, dále půlročníky, dva nebo více ročníků apod.). To působí problémy hlavně u
periodik, u monografií méně (často svazek=číslo zakázky).
Vyjmenované logické nekonzistence pilotního řešení nejsou problémem samotného
resolveru, ten je již i v pilotní verzi schopen přidělit URN:NBN jakémukoliv digitálnímu
objektu, který jako celek bude zaregistrován v RD.CZ nebo požádá o přidělení URN:NBN
externě. Tj. pokud bude workflow digitalizace v NK nastaveno tak, že budou
digitalizována periodika tzv. „na čísla“, každé číslo bude mít svůj metadatový záznam,
pak tato číslo mohou dostat URN:NBN. Stejně se to děje již nyní, pokud digitální objekt
v RD.CZ je číslo, pak URN:NBN je přiděleno pro číslo. Tj. resolver je připraven na budoucí
změny ve workflow digitalizace (opuštění čísel zakázek a zrušení fixace digitálního
objektu na fyzický svazek dokumentů). To čemu se bude URN:NBN přidělovat, musí být
jasné již během procesu digitalizace, jejíž workflow tak musí být nastaveno.
Obr.- výsledek hledání dle ISSN, lze vidět různé ročníky Lidových novin a jejich URN:NBN
identifikátory (výřez)
34
Obr.- rozhranní administrace (výřez)
Obr. – definice struktury dat
35
Provázání workflow digitalizace a systému identifikace
Z předchozích odstavců vyplývá, že je klíčové a nutné provázat systém trvalé
identifikace s celým digitalizačním workflow a řízením digitálního životního
cyklu dokumentu již od jeho rané fáze7.
V přípravě projektu IOP/NDK se počítá s tím, že základní jednotkou granularity pro
periodikum bude jedno číslo8. Tento postup bude aplikován v dalším vývoji systému
trvalé identifikace URN:NBN. Je tedy potřeba stanovit standardy pro digitalizaci, které
budou dodržovány institucemi, které dodávají data do RD.CZ, potažmo do projektů
VISK7 apod.
Problematika aktuálních lokací digitálních dokumentů
Dalším tématem na budoucí řešení v dalších fázích výzkumu a reálného nasazení i pro
ostatní instituce je „publikování“ aktuálních lokací digitálního dokumentu. Tj. jde o to,
aby instituce u dokumentů, kterým je URN:NBN přiděleno, buď zaslaly informace o
aktuálním uložení (URL) nebo vystavily profil OAI-PMH pro resolver ze své digitální
knihovny. Např. v současnosti jsou do RD.CZ dodána metadata o dokumentech
(svazcích), které se budou digitalizovat nebo se již digitalizují. Není k nim ovšem logicky
uvedeno URL, kde je digitalizovaný dokument uveden, protože zatím neexistuje. Podobně
to bude ve workflow digitalizace projektu NDK. Jen velmi málo institucí do RD.CZ zpětně
toto URL doplní. Tím jsme postaveni před otázku, odkud tato aktuální URL pro resolver
brát, z jakého zdroje. Existují dvě možnosti – resolver bude muset využít protokol OAIPMH ke sklízení metadat z jednotlivých digitálních knihoven spolupracujících institucí, tj.
těch, kterým bylo povoleno si přidělovat nebo jsou jejich dokumentům přidělována
URN:NBN. Zde opět narážíme na problém workflow a řízení dalších fází životního cyklu
digitálního dokumentu. Druhou možnosti je ustanovení povinnosti, kdy by spolupracující
knihovny musely dodávat resolveru informace o aktuálních lokacích (URL) dokumentu.
Tato povinnost by se doplňovala s povinností udržovat aktuálnost URL dokumentů
v digitální knihovně konkrétní instituce a s možností administrace své množiny
dokumentů.
Technické řešení
-
-
pilotní implementace systém Resolver URN:NBN je provozována na existující
infrastruktuře Registru digitalizace v Národní knihovně
Systém navazuje na ostatní řešení Národní knihovny - prostřednictvím Registru
digitalizace
přebírá
bibliografické
záznamy
z
Katalogu
a
informace
o digitalizovaných předlohách z Krameria4
URN:NBN resolver je webová databázová aplikace na platformě J2EE (Java 2
Enterprise Edition)
může běžet v libovolném J2EE Servlet kontejneru, obvykle pod Apache Tomcat
jako databáze může být použita většina obvyklých SQL databází
systém využívá relační databáze Oracle 11g a Aplikačního serveru registru
a napojení do vyhledávací služby FAST Registru
vrstva GUI používá technologii Google Web Toolkit
databázová vrstva je založena na frameworku Apache EmpireDb
vyhledávací rozhraní je napsáno specificky pro potřeby Resolveru
administrátorské rozhraní je postaveno na novém frameworku pro Relief 4
pilotní implementace čte data z databáze RD.CZ, v dalších fázích bude doplněno
API pro spolupráci s jinými systémy/zdroji dat
7
viz (CUBR, Ladislav. Budování důvěryhodného systému trvalé identifikace digitálních dokumentů.
Knihovna. 2010, roč. 21, č. 1, s. 23-31. ISSN 1801-3252.)
8
Není možné, aby URN:NBN jednou identifikovalo celý ročník, jindy jen půlročník nebo podobné
neúplné intelektuální entity.
36
Technický vývoj Resolveru zahrnoval
- definici databázové struktury aplikace do RDBMS Oracle
- vytvoření uživatelských formulářů pro administraci
v systému R4
- vytvoření vyhledávací služby pro zadání identifikátoru
- sadu komponent pro komunikaci s ostatními systémy
záznamů
v
Resolveru
Shrnutí
-
-
-
-
jde o poloprovoz, tj. plánovaná technická funkcionalita SW pro tuto fázi vývoje je
vyřešena, základ technického řešení pro zapojení dalších institucí a projektu NDK
je hotov
netechnické věci související se strategií přidělování a odvíjející se od aktuálního
workflow digitalizace je nutné ještě dořešit – očekáváme v další fázi v rámci
projektu NDK
resolver je maximálně flexibilní s ohledem na přidělování URN:NBN digitálním
objektům – přidělí je čemukoliv, vliv na to, co se bude přidělovat má workflow
digitalizace a strategická rozhodnutí udělaná v ní (potažmo v projektu NDK
a následně ve VISK7)
v rámci NDK a řešení resolveru se ukázalo, že zcela jistě nastane situace, kdy
URN:NBN budou přidělována i mimo resolver
resolver bude zacházet i s URN:NBN, která budou podle určitých pravidel
přidělována v jiných systémech (digitalizační workflow NDK nebo Sirius apod.)
resolver by měl mít možnost sklízet OAI-PMH profily z digitálních knihoven
zúčastněných institucí
nelze vytvářet strategii resolveru, pokud neznáme finální podobu životního cyklu
dokumentu (tj. tok dat v digitalizaci a dále)
nelze vytvořit konzistentní systém identifikátorů, pokud ostatní zdroje dat, které
by měl využívat, nejsou konzistentní
je nutné stanovit závazné standardy pro data dodávaná do RD.CZ na základě
workflow nebo URN:NBN oddělit od RD.CZ a udělat workflow tak, aby instituce,
která URN:NBN potřebuje, s tím neměla příliš práce (tj. přidělit URN:NBN
v procesu digitalizace a pak ho posléze sklízet z aplikace zpřístupnění)
Testovací verze je přístupná zatím jen na serveru http://sluzby.incad.cz/urnnbn/, v roce
2011 bude zprovozněna na následujícím URL http://resolver.nkp.cz/
B.2
Přínos řešitele
Přínos řešitele vyplývá z popisů řešení v kapitole B.1. Nejcennější je přínos řešitele
v oblastech, kde řešení přinesla výrazný posun znalostí - viz kapitola B.3 – Posun
znalostí.
B.3
Posun znalostí
S ohledem na široké zaměření výzkumného záměru došlo v průběhu jeho řešení
k zásadnímu posunu znalostí v několika oblastech. Dosažený posun znalostí je
významným přínosem nejen pro NK ČR, ale i pro další české i zahraniční knihovny a
paměťové instituce, vydavatele atd. Významný je posun znalostí především u výsledků,
které figurují v evidenci RIV a byly podrobně popsány v kapitole B.1. Důležitý je ale
i posun znalostí u výsledků, které uznány nebyly, proto jsou alespoň krátce připomenuty
v následujícím textu.
37
Optimalizace věcného zpřístupnění dokumentů s ohledem na integraci
Výsledky uvedené v evidenci RIV:
Tematická mapa fondů (S – prototyp)
Obohacení geografických autorit o kódované kartografické matematické údaje (Rsoftware)
Dotazování v přirozeném jazyce (B – odborná kniha)
Další významné výsledky:
K významnému posunu znalostí došlo i v oblasti tvorby nástrojů pro interoperabilitu
paměťových institucí.
Optimalizace využití heterogenních informačních zdrojů prostřednictvím jejich
integrace v rámci Jednotné informační brány
Portálové řešení pro univerzální portály (S – prototyp)
Katalogy nové generace : analýza vybraných systémů (B – odborná kniha)
Budování digitálních depozitních knihoven s ohledem na možnost jejich
SRU/SRW rozhraní pro vyhledávání nad fulltextovým indexem (G/A prototyp, Z/A
poloprovoz)
Resolver URN:NBN (Z/A poloprovoz)
Informační portál Kramerius (G/A prototyp)
Dlouhodobá ochrana digitálních dokumentů (B – odborná kniha)
Další významné výsledky:
K významnému posunu znalostí došlo i v oblasti návrhu komplexních systémů pro
digitalizaci, dlouhodobou ochranu a zpřístupnění digitálních dokumentů. Znalosti
dosažené v této oblasti jsou důležité nejen pro projekt Národní digitální knihovna
financovaný ze Strukturálních fondů EU, ale i pro další projekty obdobného zaměření
v českých paměťových institucích.
Závěr: V rámci řešení výzkumného záměru došlo k významnému posunu
znalostí v několika oblastech. Získané znalosti jsou přínosem nejen pro NK ČR,
ale i pro další české knihovny a jejich uživatele a pro všechny paměťové
instituce.
38
C
Návrhová část
C.1
Výsledky řešení
V této kapitole je uveden kompletní souhrn výsledků dosažených v průběhu řešení
výzkumného záměru, které jsou uvedeny v evidenci RIV.
Soupis je uspořádán chronologicky – od nejstarších publikací po nejnovější. Při kontrole
výsledků proti soupisu RIV je tedy nutné postupovat odspoda.
Další dosažené výsledky jsou uvedeny v dílčích (ročních) zprávách.
Rok 2006
S – prototyp
Název výsledku: Tematická mapa fondů
Popis výsledku: Tematická mapa fondů je prototypem unikátní a velmi efektivní aplikace
metody Konspektu ve speciálním SW prostředí. Poskytuje kvalitní popis obsahu fondů a
přispívá tak ke komplexnímu zpřístupnění knihovních fondů a snadné navigaci uživatelů
hledajících informace k určitému tématu.
Tvůrci výsledku: Marie Balíková + 5
Garant výsledku: Marie Balíková
S – prototyp
Název výsledku: Portálové řešení pro univerzální portály
Popis výsledku: Prototyp modulárního portálového řešení založeného na aplikaci open
source programu Plone. Prototyp je výsledkem rozsáhlých analýz, testování
a optimalizace funkcí i grafické podoby portálu s hlavním důrazem na jeho přehlednost,
snadné ovládání a bohatost poskytovaných funkcí i informací.
Tvůrci výsledku: Bohdana Stoklasová + 7
Garant výsledku: Bohdana Stoklasová
J – článek v odborném periodiku
STOKLASOVÁ, Bohdana. Perspektivy důvěryhodného digitálního úložiště v rámci Národní
digitální knihovny. Knihovna. Praha, Národní knihovna ČR, 2006, roč. 17, č. 2, s. 49-56.
ISSN 1801-3252.
NERGLOVÁ, Anna; HUTAŘ, Jan. Dlouhodobé uchování a zpřístupnění digitálních
dokumentů v Evropě : výsledky dotazníkového průzkumu. Knihovna. Praha, Národní
knihovna ČR, 2006, roč. 17, č. 2, s. 57-64. ISSN 1801-3252.
D – článek ve sborníku
STOKLASOVÁ, Bohdana. Czech digital library. In Archiving 2006 : final program and
proceedings. Ottawa : Society for Imaging Science and Technology, s. 49-51. ISBN 089208-261-5.
STOKLASOVÁ, Bohdana. Conspectus method used for collections mapping and
structuring of portals in Czech Libraries. In Signum : the Finnish Research Library
Association, 2006, č. 3, s. 28-33. ISSN 0355-0036.
Rok 2007
39
COUFAL, Libor; ŽABIČKA, Petr. Strategies and Approaches to Building Thematic
Collections in WebArchiv. In INFuture 2007 : digital information and heritage. Zagreb :
Odsjek za informacijske znanosti Filozofskog fakulteta u Zagrebu, 2007, s. 99 – 104.
ISBN 978-953-175-305-0.
STOKLASOVÁ, Bohdana; HUTAŘ, Jan. Nové směry v dlouhodobém uchovávání
dokumentů v mezinárodním kontextu. In Automatizace knihovnických procesů 11.
Liberec 16.-17.5.2007. Praha : ČVUT, 2007. s. 83-93. ISBN 978-80-01-03691-4.
B – odborná kniha
BALÍKOVÁ, Marie; STROSSA, Petr; VŘEŠŤÁLOVÁ, Dana. Dotazování v přirozeném jazyce
: Zkušenosti s aplikací prototypu systému M-CAST v českém prostředí. Praha : Národní
knihovna ČR, 2007. 78 s. ISBN 978-80-7050-537-3
Rok 2008
G/A – prototyp
Název výsledku: SRU/SRW rozhraní pro vyhledávání nad fulltextovým indexem
Popis výsledku: SRU/SRW rozhraní pro vyhledávání nad fulltextovým indexem a jeho
integraci s metavyhledávacími portály
Tvůrci výsledku: Libor Coufal, Petr Vlček, Petr Žabička
Garant výsledku: Libor Coufal
STOKLASOVÁ, Bohdana; HUTAŘ, Jan; KRBEC, Pavel. Preservation of digital cultural
heritage in Europe and in Czech Republic [Ochrana digitálního kulturního dědictví v
Evropě a v České republice]. In Communication of memory in archives, libraries and
museums : the interaction of science, policy and practices, Vilnius, 4.-5.10.2007 Vilnius:
Vilnius University Press, 2008, s. 213-230 (ISBN 978-9955-33-314-2)
G/A – prototyp
Název výsledku: Obohacení geografických autorit o kódované kartografické
matematické údaje
Popis výsledku: Aplikace umožňuje obohacení autoritních geografických termínů
o konkrétní lokalizaci geografické entity na mapě a doplnění poznámkového aparátu
o informace požadované uživateli; jednotlivé geografické entity jsou propojeny s veřejně
dostupnými mapovými službami.
Tvůrci výsledku: Marie Balíková, Radovan Zahořík
Garant výsledku: Marie Balíková
G/A – prototyp
Název výsledku: Informační portál Kramerius
Popis výsledku: Informační portál integrující informace o digitalizaci novodobých
dokumentů doma i v zahraničí vytvořený s využitím open source Plone.
Tvůrci výsledku: Tomáš Foltýn, Jiří Polišenský, Jan Pokorný
Garant výsledku: Tomáš Foltýn
Rok 2009
Z/A – poloprovoz
integraci s metavyhledávacími portály a s prohlížecím rozhraním Wayback
Tvůrci výsledku: Libor Coufal, Vlastimil Krejčíř, Lukáš Kopáč, Petr Žabička
40
POSPÍŠILOVÁ, Jindřiška; KOŠŤÁLOVÁ, Karolína; NEMEŠKALOVÁ, Hana. Katalogy nové
generace : analýza vybraných systémů z pohledu uživatele. Praha : Národní knihovna
ČR, 2009. 68 s. ISBN 978-80-7050-579-3 (brož.)
Rok 2010 (do soupisu RIV bude nahlášeno v roce 2011)
CUBR, Ladislav. Dlouhodobá ochrana digitálních dokumentů. Praha : Národní knihovna
ČR, 2010. 154 s. ISBN 978-80-7050-588-5 (brož).
CUBR, Ladislav. Budování důvěryhodného systému trvalé identifikace
dokumentů. Knihovna. 2010, roč. 21, č. 1, s. 23-31. ISSN 1801-3252.
digitálních
Z/A – poloprovoz
integraci s metavyhledávacími portály a s prohlížecím rozhraním Wayback
Tvůrci výsledku: Libor Coufal, Vlastimil Krejčíř, Lukáš Kopáč, Petr Žabička
Z/A – poloprovoz
Název výsledku: Resolver URN:NBN
Popis výsledku: Vytvořené prostředí a základní SW aplikace pilotního testu pro využití
URN:NBN v NK ČR umožní přiřazování identifikátoru, jeho správu, vyhledávání dle
identifikátoru a zpřístupnění odkazu na digitální dokument. V pilotní fázi budou přiřazeny
identifikátory všem digitalizovaným dokumentům evidovaným v RD.CZ, které vznikly
v rámci programu Kramerius, VISK7 a Norských fondů.
Tvůrci výsledku: Jan Hutař, Ladislav Cubr, Incad
Garant výsledku: Jan Hutař
C.2
Závěr
V rámci řešení komplexního výzkumného záměru Budování vzájemně
kompatibilních informačních fondů … se v NK ČR podařilo dosáhnout výsledků,
které mají zásadní význam pro vědu a výzkum ve všech profilových oborech NK,
v celém oboru knihovnictví a informační věda a v neposlední řadě v NK ČR
a ostatních knihovnách i jiných paměťových institucí.
C.3
Návrhy opatření
Po ukončení výzkumného záměru bude zajištěno financování některých aktivit pokrytých
výzkumným záměrem v rámci navazujících projektů - v rovině aplikační především
v rámci projektu Národní digitální knihovna (digitalizace, dlouhodobá ochrana digitálních
dokumentů, centrální přístup) a programu VISK (portály, archivace českého webu –
provozní část), v rovině vývojové v rámci programu NAKI (interoperabilita paměťových
institucí v oblasti věcného zpřístupnění) a v rámci výzkumných aktivit NK ČR (archivace
českého webu – vývojová část).
V případě rozvoje a výzkumu systému jednoznačné identifikace za použití URN:NBN bude
nutné zajistit financování dalšího výzkumu tak, aby vznikla služba identifikace digitálních
41
objektů na národní úrovni, využitelná nejen knihovnami, ale i archivy, muzei apod.
Financován musí také být provoz služby, který si bude žádat pracovní síly, technologie
apod. Financování výzkumu a vývoje by mělo být poskytnuto z těchto zdrojů: projekty
NAKI, výzkumné záměry MK ČR, evropské projekty. Financování provozu by mělo být
zajištěno v rámci rozpočtu NK ČR a z programu VISK.
Široce zaměřený výzkumný záměr reagoval na potřeby NK ČR i dalších českých
knihoven. S ohledem na měnící se potřeby bylo nutné v průběhu řešení modifikovat jeho
náplň. Sumarizace výsledků představuje mj. i ohlédnutí za sedmiletou historií rozvoje
(nejen) českého knihovnictví a jeho potřeb.
Důraz kladený na určité oblasti v jednotlivých letech řešení koresponduje nejen
s časovým rozložením rozvojových aktivit NK ČR v době řešení od roku 2004 až 2010, ale
odráží i mezinárodní kontext. Na počátku řešení byla „horkým tématem“ standardizace
bibliografických dat v rovině jmenné i věcné, postupně zastřešení jednotlivých aplikací
pomocí portálů. Metadata přestávají uživatelům stačit, vyžadují jejich nejrůznější
obohacení (obálky, obsahy, geografické souřadnice) a přístup k primárním dokumentům,
postupně nestačí pouhý náhled na obrazovou podobu dokumentu, je požadován plný
text, probíhají experimenty s kladením dotazů v přirozeném jazyce. V závěrečné fázi
řešení projektu se posouvá akcent na budování digitálních depozitních knihoven, neboť
předpokladem trvalého zpřístupnění dokumentů v digitální podobě je jejich zachování a
ochrana. Významnou složkou národního kulturního dědictví se stává český web, který je
(stejně jako „klasické“ dokumenty) nutné zachytit, ochránit a zpřístupnit. Český web je
již nyní podchycen relativně dobře, ale stále více nabývají na důležitosti dokumenty
publikované pouze v elektronické podobě, které zatím nedokážeme podchytit, ochránit,
ani zpřístupnit. V této oblasti nám uniká podstatná část informací i národního kulturního
dědictví. Jde o jeden z mnoha příkladů nových aktivit, které si kromě praktických a
legislativních aktivit nepochybně vyžádají určitý podíl vývoje.
Další nové oblasti a výzvy, které dnes nedokážeme predikovat, se bezpochyby
objeví v následujících letech. Finanční prostředky na výzkum a vývoj budu vždy
omezené. Tím spíše je třeba jejich rozdělování účelně koordinovat (na úrovni
institucionální, resortní i meziresortní) a v budoucích letech akcentovat zejména
podporu oblastí souvisejících s naplňováním hlavních strategických priorit
Koncepce rozvoje knihoven ČR na léta 2011-2014.
42
D
Použití finančních prostředků
D.1
Komentář a tabulky
Podrobný rozpis využití finančních prostředků byl uveden v rámci příslušných ročních
zpráv, ke kterým byly přiloženy i účetní doklady. V závěrečné zprávě předkládáme
tabulky sumarizující čerpání dotace za celý průběh řešení.
Vyúčtování dotace
Celkový rozpočet v tis. Kč
Období
2004
2005
2006
2007
2008
2009
2010 Celkem
Podpora ze
státního rozpočtu
1 227
1 290
1 418
1 622
1 705
1 904
1 375
10 541
Celkové uznané
náklady
16 450 18 310 18 172 19 519 18 175 20 710 21 096
132 432
Vlastní vklad NK
ČR
15 223 17 020 16 754 17 897 16 470 18 806 19 721
121 891
Čerpání dotace v tis. Kč
Období/položka
2004
2005
2006
2007
2008
2009
50
150
238
430
450
390
210
1 918
Služby
211
282
348
289
385
581
353
2 449
Cestovné
200
210
195
206
203
215
190
1 419
Mzdy
474
450
465
488
488
529
390
3 284
Pojištění
Investice
2010 Celkem
166
158
163
170
170
179
132
1 138
FKSP
9
9
9
9
9
10
7
62
Odpisy
0
0
0
0
0
0
80
80
Ostatní
117
31
0
30
0
0
13
191
Celkem
1 227
1 290
1 418
1 622
1 705
1 904
1 375
10 541
Vklad NK ČR
Vlastní vklad NK ČR je podrobně specifikován v tabulkách, které jsou součástí příslušných
ročních zpráv.
Vklad NK ČR tvořily především následující náklady vynaložené v souvislosti s řešením
výzkumného záměru: mzdové náklady na zaměstnance NK ČR a k nim vztažené režijní
náklady. Jednalo se o náklady na zaměstnance, kteří se podíleli na řešení výzkumného
záměru jako řešitelé, dále pak na zaměstnance, kteří zajišťovali rozsáhlá testování a další
podpůrné činnosti. Další položku tvořily ostatní osobní náklady, vlastní vklad
k souvisejícím projektům, které vytvářely zázemí pro výzkumný záměr, provozní
náklady, náklady na pořízení majetku a připojení k síti. Zde byla započítána poměrná
část vztahující se k řešení projektu. Poslední položku tvořily cestovní náklady – část
zahraničních služebních cest byla hrazena z rozpočtu projektu, další část z rozpočtu NK
ČR.
43
E
Resumé a klíčová slova
E.1
Resumé a klíčová slova v češtině
Resumé:
Předmětem výzkumné činnosti realizované ve výzkumném záměru Budování vzájemně
kompatibilních informačních systémů pro přístup k heterogenním informačním zdrojům
a jejich zastřešení prostřednictvím Jednotné informační brány je výzkum a vývoj
směřující k vytvoření informačních systémů pro přístup k heterogenním informačním
zdrojům, které budou navzájem kompatibilní do té míry, že bude možné je zastřešit tak,
že se budou navenek (tj. pro koncového uživatele) prezentovat jako systém jediný.
Jedná se o velmi komplexní výzkumný záměr, který v sobě integruje výzkumnou činnost
v několika vzájemně provázaných oblastech: optimalizace věcného zpřístupnění
dokumentů s ohledem na integraci v mezinárodním kontextu (kombinace vyhledávání
v plných textech a řízených slovnících, konkordance klasifikací, aplikace metody
Konspektu); optimalizace využití heterogenních informačních zdrojů prostřednictvím
jejich integrace v rámci Jednotné informační brány (jednotné prostředí, jednotné kladení
dotazů, jednotné výstupy, vlastní prostředí, přidané služby); budování digitálních
depozitních knihoven s ohledem na možnost jejich integrace v rámci Jednotné informační
brány a nadnárodních portálů. Výsledky dosažené v průběhu řešení záměru ve všech
uvedených oblastech jsou srovnatelné s výsledky nejvyspělejších zemí v dané oblasti.
Klíčová slova:
Informační systémy * portály * jmenné zpracování * věcné zpřístupnění * integrace
informačních zdrojů * digitální úložiště
E.2
Abstract and key words in English
Abstract:
The aim of the research plan “Building of Mutually Compatible Information
Systems for Access to Heterogeneous Information Resources under the
Umbrella of the Uniform Information Gateway” is research into, and development
of, information systems for access to heterogeneous information resources that will be
mutually compatible to such an extent that it will be possible to put them under one
umbrella in such a way that for the external environment (i.e. for the final user) they will
work as a single system. It is a very comprehensive project that integrates research
activities in a number of related subjects: optimisation of subject-based access to
documents with an emphasis on the international context (a combination of searches in
full texts and controlled vocabularies, concordance of classifications, application of
Conspectus principles); optimisation of the use of heterogeneous information resources
by their integration into the Uniform information gateway (uniform environment, uniform
queries, uniform outputs, user’s own environment, extended services); building of digital
repositories to be integrated under the umbrella of the Uniform information gateway and
other portals. Research results achieved during the NL involvement in the research plan
are comparable with those achieved in countries known as most advanced in this area.
Key words:
Information systems * portals * bibliographic description * subject access * integration
of information resources * digital repositories
44

Závěrečná zpráva o výsledcích řešení výzkumného záměru v letech

Transkript

Podobné dokumenty

Zpráva o plnění cílů v roce 2010 - JIB

Nebojme se počítače - Soukromá střední odborná škola Hranice, sro

Zajištění provozu Jednotné informační brány v celonárodním

Dostupné škálovateľné riešenia pre spracovanie veľkého objemu

Uživatelský manuál pro Travelviewer aktualizace 1.3.2013

Text studie (prof. Zlatuška)

Prezentace aplikace PowerPoint

zpráva o plnění cílů hlavního projektu 2005

2009 - březen - Mistrovství světa v klasickém lyžování Liberec 2009

text hlavního projektu NK - Vítejte v portálu Jednotné informační brány