ve formátu PDF pro off

Transkript

Vysoká škola báňská – Technická univerzita Ostrava
Ústřední knihovna
http://knihovna.vsb.cz/
Jak pracovat s webovými
vyhledávacími službami
Daniela Tkačíková
[email protected]
březen 2002
Jak pracovat s webovými vyhledávacími službami
Úvod
Množství informací a služeb dostupných prostřednictvím Internetu je obrovské a narůstá neustále. Pro toho, kdo si již prožil prvotní okouzlení ze setkání s Webem i z „brouzdání“ prostřednictvím zajímavých odkazů v navštívených dokumentech, je důležitá odpověď na otázku
„Jak se co nejrychleji dostanu k těm informacím, které potřebuji?“.
Co byste o zdrojích na Internetu měli vědět
Ať už chcete informační zdroje a služby dostupné na Internetu využívat pro práci, pro studium nebo pro zábavu, měli byste si být vědomi několika důležitých věcí. Především: Internet není knihovna. Internet sice připomíná knihovnu, ale není to knihovna. Knihovny nejsou
jen budovy plné knih. Dokumenty, které jsou součástí knihovních fondů, ale také další informační zdroje – bibliografie, dokumentografické báze dat apod., které jsou čtenáři a uživateli
knihovnicko-informačních služeb využívány, jsou organizovány a zpracovávány takovým
způsobem, aby je bylo možné snadno vyhledat podle nejrůznějších kritérií a s co největší
přesností. Pro jejich zpracování jsou používány mezinárodně platné normy a pro jejich vyhledávání jsou k dispozici rovněž mezinárodně uznávaná pravidla a postupy. Toto vše je výsledkem mnohaletého vývoje. V knihovnách navíc pracují knihovníci, kteří mají odbornou kvalifikaci a praktické zkušenosti v oblasti zpracování i vyhledávání informací.
Oproti tomu na Internetu je leccos jinak – je často neuspořádaný a chaotický. Právě
v oblasti zpracovávání a vyhledávání informací, které jsou na něm šířeny, je negativně poznamenán nedostatkem standardizace. Obrovský význam Internetu spočívá v tom, že jde
o prostředí pro publikování a šíření informací bez bariér a omezení doprovázejících tradiční
publikační aktivity. To má samozřejmě své klady i zápory. Na jedné straně Internet nabízí přístup k informacím bez ohledu na vzdálenosti a hranice států. Na druhé straně však obrovské
množství zveřejňovaných informací – prakticky kýmkoliv, kdo si zamane, v nejrůznějších jazycích a s minimálními pravidly, v podstatě jen technickými – znesnadňuje nejen jejich zpracování, ale především přináší určitá úskalí při jejich vyhledávání.
Chcete-li úspěšně hledat, musíte se to nejdřív naučit
Přístup k informacím usnadňují výkonné vyhledávací nástroje. Na Internetu je však
k dispozici stále více a více informací, neboť nové elektronické informační zdroje se objevují
doslova každodenně. Neustálý nárůst informací na Internetu tak způsobuje, že i při práci s
relativně jednoduchými a snadno ovladatelnými nástroji, byste měli hodně vědět, abyste
dokázali možností, jež síť Internet nabízí, využívat účelně a efektivně. Zvlášť významné jsou
širší znalosti tehdy, budete-li chtít informační zdroje na Internetu využívat pro seriózní práci a
pro studium.
Mějte na paměti, že se nástroje umožňující orientaci v informacích na Internetu neustále
vyvíjejí. Objevují se nové služby a občas také některé, dokonce i ty hodně využívané, zanikají. Poměrně často dochází ke změnám designu vyhledávacích služeb, k jejich aktualizaci,
k rozšíření nabídky – podobně jako je tomu u jiných internetových zdrojů.
Ačkoliv jsou vyhledávací služby určeny pro širokou uživatelskou veřejnost, je do jisté
míry obtížné správně je využívat. Každá z nich slouží trochu jinému účelu, liší se od sebe
rovněž nabídkou prostředků, jimiž lze prohledávání Internetu provádět. Výjimkou není ani
odlišné fungování shodných či podobných příkazů.
2
Ze všeho, co bylo dosud uvedeno, je zřejmé, že hledání a nalézání dokumentů na Internetu
– zvláště v prostředí služby WWW – může být buď velmi jednoduché nebo naopak velmi složité.
Hlavní příčiny obtížnosti vyhledávání informací
Jednou z hlavních příčin této situace je obrovské množství WWW dokumentů. V současnosti
je jejich počet odhadován na více než jednu miliardu indexovatelných dokumentů. Tedy jednotlivých dokumentů, které mohou být podchyceny v databázích vyhledávacích služeb, jež
jsou založeny na automatizovaném sběru dat. Některé zdroje dokonce uvádějí ještě větší rozsah jednotlivých veřejně přístupných webových stránek, až na více než 2 miliardy dokumentů.
Kromě obrovského množství informačních zdrojů přispívá k obtížnosti hledání také fakt,
že obsah informačního prostoru WWW není a nemůže být evidován v žádném „katalogu“
nebo „rejstříku“ s použitím standardního jazyka. Pod takovýmto standardním jazykem si můžete představit například předmětová hesla nebo klasifikační systémy, např. u nás rozšířené
Mezinárodní desetinné třídění, MDT. Ty jsou používány pro popis a vyhledávání knih
v katalozích knihoven. Podobný nástroj představují thesaury deskriptorů používané jako
zdroj termínů pro popis dokumentů hlavně v oborově specializovaných bibliografických bázích dat.
To vše je mimo jiné způsobeno tím, že dokumenty HTML jsou sice „technicky“ vytvářeny
podle určitých pravidel, ale vlastní obsah – text a další prvky v dokumentech – závisí výhradně na jejich autorech. Řada z nich dokonce ani nerespektuje specifikace jazyka HTML a
tím také přispívají k problémům při vyhledávání.
Co je to neviditelný Web
Kromě veřejně přístupných a indexovatelných webových dokumentů ovšem síť Internet
umožňuje přístup k obrovskému množství dalších informací, pro něž se v literatuře i na webu
vžil termín „neviditelný web“ (angl. invisible web). Jde o informace, jež jsou uloženy
v databázích a generují se dynamicky až na základě interakce uživatele se systémem.
K jiným informacím je zase přístup chráněn heslem a jsou dostupné jen autorizovaným uživatelům, často pouze na komerční bázi. Počet dokumentů, které nemohou být vyhledány prostřednictvím tradičních vyhledávacích nástrojů, je podle jedné studie společnosti
BrightPlanet až pětisetnásobně vyšší než ta část informačního prostoru Webu, ke které poskytují přístup vyhledávací stroje.
Zdroje tohoto typu (především báze dat) registrují některé specializované služby, např.
Complete Planet, Direct Search, Invisible Web nebo Lycos Searchable Databases (Lycos
Invisible Web Catalog).
Co jsou to metadata
Nevýhody současného způsobu publikování informací na Internetu ve vztahu k možnostem
jejich účinného vyhledávání se pokoušejí řešit odborníci z různých oblastí (počítačoví specialisté, informační pracovníci, knihovníci a nakladatelé), kteří se zabývají problematikou metadat. Metadata jsou „data o datech“ a v nejrůznějších podobách jsou využívána již poměrně
dlouhou dobu v oblastech zabývajících se uchováváním a zpřístupňováním informací.
Jako příklad lze uvést záznamy v katalozích knihoven (v tradičních lístkových nebo
v elektronických). Existuje řada různých iniciativ a aktivit, které se pokoušejí vytvořit meta-
3
datové formáty a nástroje pro jejich používání. Jednou z nejvýznamnějších je Dublin Core
Metadata Initiative (viz též Dublin Core Czech).
Metadata podporují řadu funkcí, které by měly umožnit efektivnější vyhledávání informací na Internetu (pokud jde o přesnost a výtěžnost vyhledávání informací) ve srovnání s tím,
co umožňují současné vyhledávací nástroje. Zjednodušeně řečeno, dokumenty publikované na
Internetu by měly být opatřeny dalšími informacemi – metadatovými záznamy. Ty by měly
zahrnovat jejich hlavní charakteristiky vztahující se například k obsahu informačního zdroje
nebo k intelektuálnímu vlastnictví (tj. k autorským právům).
S realizací myšlenky metadat je samozřejmě spojena řada problémů. V prvé řadě se nabízí
otázka: kdo by měl metadatový záznam vytvářet? Sami autoři webových dokumentů nebo
specializovaná pracoviště? I při snaze o co nejjednodušší a co nejstručnější schéma takového
záznamu je jasné, že nejde o triviální záležitost. Dá se proto předpokládat, že doplnění informačních zdrojů o metadata by mohlo mít smysl především u profesionálně vytvářených a
dlouhodobě uchovávaných a zpřístupňovaných zdrojů.
Základní podmínky úspěšného hledání na Internetu
Snad každý začínající uživatel Internetu je nejprve nadšen informačními službami a zdroji i
novým přitažlivým prostředím, se kterým se na Webu setká. Toto nadšení po určité době většinou vystřídá určité rozčarování, které je důsledkem obrovské publikační exploze, jež rozvoj
internetových služeb doprovází. Obrovské množství informačních zdrojů různorodé kvality
znesnadňuje nezkušenému uživateli orientaci v prostředí Internetu.
Při hledání kvalitních informací i při jejich využívání vám mohou pomoci předchozí
zkušenosti s využíváním tradičních informačních zdrojů. Velkou roli hraje také dobrá
znalost vlastní profese či zájmů, nejen odborných. Měli byste však znát také základní informace o vyhledávacích nástrojích, o jejich typech a o způsobu jejich využívání při řešení
konkrétních informačních potřeb.
Používání vyhledávacích nástrojů není samozřejmě jedinou možností pro hledání informačních zdrojů. Záleží totiž do značné míry na zkušenosti uživatele s internetovými i s tradičními zdroji. Často je možné i bez vyhledávacích nástrojů odhadnout, kde jsou hledané informace zveřejněny. Úspěch či nezdar hledání i skutečná efektivnost využívání
internetových zdrojů jsou závislé na řadě dalších faktorů.
Jaké jsou příčiny neúspěšného hledání informací na Internetu
Neúspěch při hledání informací na Internetu (na Webu) může mít různé příčiny. Kromě nedostatečných znalostí a nezkušenosti na straně uživatele a nesprávného používání vyhledávacích
nástrojů i dalších navigačních technik mohou vést k neúspěchu například tyto důvody:
• hledáte dlouho v různých zdrojích, přesto jste nic nenašli – hledané informace na Internetu
nejsou, anebo jsou, ale hledáte na nesprávném místě nevhodným způsobem,
• služba vám vyhledala takové množství dokumentů, že je mezi nimi obtížné (nemožné) najít to, co potřebujete – v takovém případě jde o špatně formulovaný dotaz nebo frekventované internetové téma,
• v okamžiku, kdy hledáte, špatně funguje síť,
• počítač, na němž jsou hledané informace, je právě mimo provoz,
• odkazy na hledané informace jste sice našli, ale při pokusu o jejich zobrazení zjistíte, že
již neexistují – Internet je plný změn.
4
Co je základem úspěšného hledání
Abyste se vyvarovali neúspěchů nebo si dokázali poradit s překážkami, které se vám občas
postaví do cesty, musíte mít určité znalosti. Z oblasti vyhledávání informací obecně, také však
musíte znát dobře jednotlivé vyhledávací nástroje a jejich možnosti. Dále byste měli mít určité praktické zkušenosti s hledáním i s tím, jaké informace se vyplatí na Internetu hledat.
Základem úspěšného hledání jsou tedy mj. tyto schopnosti:
• dokázat odhadnout, co má smysl na Internetu hledat,
• umět vybrat správná místa, kde s hledáním začít,
• nevzdávat se po první odpovědi typu „Žádný takový dokument nebyl nalezen“, „nothing
found“, „no results“ nebo „výsledek dotazu je zcela bezcenný“.
Neočekávejte také příliš rychlý výsledek hledání. První vyhledané zdroje nemusejí být ani jediné, ani zrovna ty nejkvalitnější. Pro úspěšné hledání na Internetu je rovněž důležité přemýšlet o tom, jak jste se k informacím dostali, neboť nabyté zkušenosti se vám mohou hodit
při dalším hledání. Získané zkušenosti usnadní zároveň vaši adaptaci na nové prostředí, například na zcela novou nebo poprvé používanou vyhledávací službu.
Při práci s Internetem mají velký význam i znalosti z tradičního prostředí. Při práci s elektronickými síťovými zdroji však nelze vždy automaticky použít zkušenosti z práce se zdroji
tradičními. Tradiční šíření informací, nejen tištěných, je zpravidla výsledkem práce profesionálů, zatímco relativní snadnost a dostupnost publikování v prostředí Webu způsobila, že se
do publikačních aktivit pouštějí i ti, kdož postrádají dokonce i ty nejzákladnější znalosti a
předpoklady pro podobnou činnost. Do tradičního publikování by se asi nikdo bez určitého
zázemí a zkušeností neodvážil pustit, protože jde také o finančně nákladnou záležitost. Na
Internetu však může prakticky kdokoliv, obrazně řečeno, publikovat bez koruny v kapse.
Proto se zde tak často setkáte s „dílky“ autorů, kteří jsou schopni porušit na jediné webové
stránce snad všechna existující pravidla. Ne úmyslně, ale z nevědomosti. S tím vším musíte
počítat.
Obecně ovšem platí, že poučený a zkušený uživatel snáze identifikuje a lokalizuje
kvalitní a užitečné informační zdroje, nežli ten, kdo jen spoléhá na náhodu nebo využívá
stále jedinou vyhledávací službu a ještě ke všemu tím nejprimitivnějším způsobem.
Vyhledávání jako pohyb v informačním prostoru
Vyhledávání informací je jedním z řady způsobů navigace – pohybu – v informačním prostoru Internetu. Pro pohyb po Internetu můžete využít například navigačních funkcí prohlížeče. K nim patří vložení konkrétní adresy, využití funkčních tlačítek umožňujících přechod
zpět či vpřed, na domovskou stránku, historie, složka s oblíbenými odkazy apod. Samozřejmostí je pohyb po Webu prostřednictvím hypertextových odkazů v navštívených dokumentech. Tyto odkazy umožňují přechod na další dokumenty v rámci daného webového sídla, ale
samozřejmě také na webové dokumenty na jiných serverech.
Vyhledávat informace je možné v konkrétním dokumentu, viz např. funkce „Najít (na
této stránce).“, v jednom webovém sídle nebo v určitém informačním prostoru (omezeném
podle typu služby, aplikace nebo třeba podle zeměpisné oblasti). Nemusíte ani hledat,
můžete zkusit uhádnout adresu webového zdroje, na který se potřebujete dostat.
5
Jak uhádnout adresu zdroje
Jednou z cest k nalezení potřebných informací může být i pokus o odhadnutí adresy serveru.
Podle typu hledané informace tak můžete buď zkusit uhodnout adresu zdroje nebo ze známé
adresy „oříznout“ její část. To ovšem znamená, že byste měli něco vědět o způsobu, jakým
jsou vytvářeny adresy serverů a dokumentů v prostředí Internetu. Budete-li si všímat toho, jak
vypadají adresy serverů, které navštěvujete, můžete se občas – ne vždy, neboť adresy jsou
opravdu různorodé, pokusit uhádnout adresu serveru, který hledáte. Zjistíte možná, že je to
způsob, který vás často na hledané místo dovede rychleji než hledání některou vyhledávací
službou. Například lze celkem snadno správně odhadnout, jaká jména mají WWW servery firem, organizací, významných institucí, známých osobností, nakladatelství, novin, časopisů
apod.
Adresy webových serverů začínají často – ne však vždy – zkratkou „www“. Použijete-li
pro přístup k hledanému webovému sídlu metodu hádání adresy, můžete tedy využít toho, že
struktura adresy webového serveru známé firmy, města či osobnosti obvykle vypadá takto
(doménami nejvyšší úrovně nemusí být jen domény .com a .cz, jak je uvedeno v příkladu):
www.jmenofirmy.com nebo www.jmenomesta.cz nebo www.jmenoosoby.com apod.
BMW
Ferrari
Toyota
IBM
Compaq
Time
Autocont
Tatra Kopřivnice
Škoda (Plzeň)
Škoda Auto (Mladá Boleslav)
Jihlava
Vsetín
Depeche Mode
Davie Bowie
Leonard Cohen
www.bmw.com
www.ferrari.com
www.toyota.com
www.ibm.com
www.compaq.com
www.time.com
www.autocont.cz
www.tatra.cz
www.skoda.cz
www.skoda-auto.cz
www.jihlava.cz
www.vsetin.cz
www.depechemode.com
www.davidbowie.com
www.leonardcohen.com
Často bývají součástí adresy – názvem domény – také zkratky názvu instituce, takže budeteli hledat podobné servery, můžete to zkusit se zkratkami (nebo akronymy) podle následujících
příkladů:
American Chemical Society (ACS)
American Society for Quality (ASQ)
Federation of Internation Football Associations (FIFA)
International Ice Hockey Federation (IIHF)
North Atlantic Treaty Organisation (NATO)
Union of European Football Associations (UEFA)
České vysoké učení technické (ČVUT)
Grantová agentura (GAČR)
Ministerstvo vnitra České republiky (MV ČR)
Státní technická knihovna (STK)
6
www.acs.org
www.asq.org
www.fifa.com
www.iihf.com
www.nato.int
www.uefa.com
www.cvut.cz
www.gacr.cz
www.mvcr.cz
www.stk.cz
Nesmíte se ovšem divit tomu, že podobné odhady také občas nefungují. Někdy se prostě
se svým odhadem nestrefíte, jindy vás ani v zásadě správně odhadnutá adresa ke hledanému
cíli nedovede.
Zatímco odhadnutí adresy WWW serveru známé firmy, významného nakladatelství, vysoké školy nebo mezinárodní organizace bývá pro zkušenějšího uživatele jednou
z nejrychlejších cest k internetovému zdroji, ne vždy vás ke správnému cíli dovede výše zmíněná cesta druhá. „Oříznutí“ adresy dokumentu nebo pokus o její modifikaci bohužel často
končívá nezdarem.
Jedním z důvodů, proč podobný postup nefunguje vždy, jsou nesprávné postupy tvůrců
webových dokumentů. Absence určitých znalostí se projevuje i tím, jakým způsobem strukturují své internetové informace. To se pak odráží také v názvech souborů a cestách
k informacím na některých serverech. Jde samozřejmě o složitější problém související
s provozem serverů obecně, s informační architekturou webových sídel, obsahem i designem
webových dokumentů a služeb. Přesto můžete podobný způsob pohybu po Webu a objevování nových informací někdy – s úspěchem – zkusit.
Adresy na Internetu
Pro podobné odhadování adres serverů musíte vědět alespoň to, že na Internetu existují tzv.
domény. Systém doménových jmen (angl. Domain Name System, DNS) umožňuje přidělit
počítačům na síti symbolické adresy. Ty jsou pro uživatele snadněji zapamatovatelné nežli
číselné IP (Internet Protocol) adresy, jež jsou přidělovány všem počítačům připojeným do
sítě Internet. Stěží byste si asi dokázali zapamatovat větší množství adres vypadajících takto:
208.215.201.161. Proto jsou symbolické adresy pro běžné uživatele Internetu velmi výhodné.
IP adresy i domény mají hierarchickou strukturu. Není nijak těžké zapamatovat si tzv. domény nejvyšší úrovně (angl. top-level domains, zkráceně TLDs). Ty jsou buď zeměpisné
nebo vycházejí z charakteru organizace, která daný server provozuje.
Například v USA není zpravidla využívána zeměpisná doména .us, i když i tato doména
samozřejmě existuje (viz např. Cerritos Public Library, library.ci.cerritos.ca.us). Servery organizací zde používají jako domény nejvyšší úrovně zkratky podle svého zaměření:
• .com (commercial) – komerční organizace
• .edu (education) – vzdělávací instituce
• .gov (government) – vládní organizace
• .mil (military) – armáda
• .net (network) – síťově zaměřené organizace
• .org (non-profit organization) – neziskové organizace
K tomuto typu tzv. generických domén je možné přiřadit doménu .int (international), jež bývá
používána pro servery mezinárodních organizací.
Europa – oficiální webový server Evropské unie
European Central Bank
International Civil Aviation Organization
International Telecommunication Union
Universal Postal Union
europa.eu.int
www.ecb.int
www.icao.int
www.itu.int
www.upu.int
Pravděpodobně se časem setkáte ještě s dalšími doménami (.shop, .tel, .news aj.), neboť již
bylo rozhodnuto o změnách tohoto systému. Nové domény by měly rozšířit nabídku možností
současných registrací zahrnutých především pod doménu .com.
7
Stejný systém jako v USA je používán pro označení domén také v Austrálii, avšak zde je
v adresách používána jako doména nejvyšší úrovně zeměpisná zkratka au, například
National Library of Australia: www.nla.gov.au, Australian National University:
www.anu.edu.au.
V některých dalších zemích je využívána poněkud modifikovaná verze tohoto systému.
Zkratky pro určité typy organizací se tedy liší od zkratek používaných v USA.
Platí to například pro Velkou Británii. Není zde používána jen jedna doména pro vzdělávací instituce, ale domény dvě. Pro instituce typu vysokých škol má doména zkratku ac,
zkratkou domény pro školy je sch. Pro komerční organizace se používá zkratka co, pro státní
správu gov, pro různé (většinou neziskové) organizace org apod. Za doménami určujícími
charakter instituce následuje v tomto případě, stejně jako v Austrálii, ještě zeměpisná doména.
U Velké Británie je to zkratka uk (United Kingdom), takže např. webový server nakladatelství Blackwell Science má adresu www.blacksci.co.uk, server University of
Cambridge adresu www.cam.ac.uk a server Grasmere Primary School má adresu
www.grasmere.hackney.sch.uk.
V jiných zemích jsou občas používány ještě další úpravy tohoto systému domén. Na Novém Zélandu mají organizace z oblasti státní správy doménu se zkratkou govt (viz například
National Library of New Zealand: www.natlib.govt.nz).
Zeměpisné domény korespondují s dvoumístnými kódy zemí podle normy ISO. Můžete
si je v tištěné podobě zjistit v normě ČSN EN ISO 3166-1. Kódy pro názvy zemí a jejich částí
: část 1: kódy zemí.
Zapamatovat si nejnavštěvovanější zeměpisné domény není těžké, to asi při častějším používání Internetu zjistíte sami. Budete-li potřebovat rychle zjistit zeměpisnou doménu, můžete
si informace snadno vyhledat na serveru checkdomain.com. Podrobnější informace o doménách registrovaných v České republice získáte na serveru Lupa.
Základní typy vyhledávacích nástrojů a jejich charakteristika
Současný stav vyhledávacích nástrojů je ovlivněn jejich „historickým“ vývojem. Oba základní typy hledačů totiž vycházejí z původních potřeb orientace v informačním prostoru
služby WWW. První z cest vedla k vytváření soupisů dokumentů podle jejich tematiky na základě manuálního sběru dat. Úplně na začátku byly často záložky (angl. bookmarks)
v prohlížeči Netscape s adresami zajímavých a užitečných zdrojů na počítačích jejich tvůrců.
Tento způsob shromažďování informací však s obrovským nárůstem zpřístupňovaných
dokumentů přestal být efektivní, protože neumožňuje podchytit zdroje v dostatečném rozsahu
a potřebné aktuálnosti. To vedlo ke vzniku a k rozšíření služeb využívajících pro sběr a vytváření databází automatizovaných prostředků. V současnosti jsou nejúčinnějšími vyhledávacími nástroji ty služby, které využívají vysoce výkonné technologie pro fulltextové indexování a vyhledávání.
Vyhledávací nástroje se liší způsobem sběru údajů i jejich
zpřístupňováním
Vyhledávací služby založené na automatizovaném sběru dat jsou anglicky nazývány search
engines, což je možné do češtiny přeložit jako vyhledávací stroje.
Vyhledávací služby, které disponují nejrozsáhlejšími databázemi, používají ke sběru dat
tzv. robotů. Pro tyto programy jsou používány také názvy spider, crawler nebo worm. Někdy mají roboty dokonce vlastní jména, například program používaný pro sběr dat AltaVistou
se jmenuje „Scooter“. Roboty jsou programy, které se pohybují prostřednictvím hypertexto-
8
vých odkazů po Webu od jednoho dokumentu ke druhému za účelem sběru informací o nich.
Získané informace jsou zařazovány do rozsáhlých databází, které jsou pravidelně aktualizovány. Databáze jsou přitom doplňovány nejen údaji o nových informačních zdrojích, ale zároveň jsou upravovány (došlo-li ke změnám) údaje o dříve registrovaných zdrojích a vyřazovány nefunkční odkazy.
Jiné vyhledávací nástroje jsou budovány ručně s využitím znalostí a zkušeností odborníků, kteří údaje nejen sbírají, ale často také doplňují svým hodnocením. Do databází těchto
služeb jsou odkazy na informační zdroje zařazovány výběrově podle určitých kritérií stanovených pro hodnocení jejich kvality provozovatelem služby. Pro získávání informací o nových informačních zdrojích je v tomto případě používán dvojí způsob. Buď tyto informace
poskytují vyhledávacím službám sami producenti internetových zdrojů vyplněním formuláře,
který je součástí nabídky každé z vyhledávacích služeb (najdete je pod názvy přidej stránku,
add URL, submit URL apod.) nebo jsou informace o nových zdrojích zjišťovány pracovníky
nebo spolupracovníky vyhledávacích služeb vlastním průzkumem Internetu.
Tento druhý typ vyhledávacích nástrojů reprezentují služby, jejichž hlavní funkcí je předmětově orientované vyhledávání v hierarchicky uspořádaných předmětových katalozích.
Předmětově orientované vyhledávací služby založené na manuálním sběru dat lze dále rozdělit na dva typy. První typ je v zahraniční literatuře nazýván virtuální knihovny (angl. virtual
libraries), druhý najdete nejčastěji pod názvem soupisy zdrojů Internetu (angl. Internet
directories).
Vyhledávací stroje jsou primárně určeny pro vyhledávání (angl. searching), zatímco základní funkcí druhého typu služeb je prohlížení (angl. browsing).
V souvislosti s rozvojem WWW a s nárůstem počtu zpřístupňovaných informací i
s vývojem vyhledávacích nástrojů došlo postupně k tomu, že většina těchto služeb
v současnosti kombinuje pro zpřístupnění informačních zdrojů uživatelům oba přístupy. Často
také dochází ke spojení nebo vzájemné spolupráci vyhledávacích služeb.
Jak jsou vyhledávací služby nazývány
Internetová terminologie se s rozvojem nových služeb a nástrojů neustále vyvíjí, není ustálená, ani jednoznačná. Týká se to pochopitelně i vyhledávacích nástrojů. Budete-li chtít sledovat rozvoj těchto služeb a být schopni si vyhledat nové či méně známé vyhledávací služby,
měli byste mít přehled i o tom, jaké ekvivalentní výrazy jsou pro jednotlivé typy služeb používány.
•
•
•
•
Vyhledávací stroje – search engines – jsou občas nazývány searchable indexes.
Virtuální knihovny – virtual libraries – jsou zhruba totožné s výrazem subject guides.
Pro Internet directories bývají používány také termíny subject catalogs nebo subject directories.
Nejčastěji používanými nadřazenými výrazy jsou pak (Internet, Net, Web) search (searching) tools.
Anglické výrazy byste měli znát, protože se vám mohou hodit, budete-li například potřebovat
najít nějakou zahraniční specializovanou službu. Nejrychleji se k odkazům na tyto služby
dostanete prostřednictvím některého z nejznámějších a nejrozsáhlejších předmětových
katalogů, jako je třeba Yahoo!.
Ustálená zatím pochopitelně není ani česká terminologie, takže se v tištěné literatuře i na
Internetu můžete setkat s nejrůznějšími termíny. Někdy jde o novotvary zavedené jejich autory s nadějí, že se prostřednictvím čtenářů článků nebo knih právě tyto výrazy uchytí a roz-
9
šíří mezi uživateli českého Internetu. Přeložit anglické výrazy stručně a jednoduše tak, aby
český výraz vystihoval daný typ služby, není snadné. Angličtina má výhodu v tom, že dvěma
slovy vyjádří to, pro co se v češtině musí použít dlouhá věta. Autoři českých termínů jsou
proto vedeni především snahou o maximální stručnost a jednoduchost. Můžete se tak setkat
např. s termíny rozcestník nebo odkazovač pro služby založené na vyhledávání v hierarchicky uspořádaných předmětových katalozích. Místo výrazu vyhledávací služby se pak používají termíny vyhledávače nebo hledače, přičemž první výraz bývá používán nejen jako
souhrnné označení pro vyhledávací nástroje, ale také jako označení služeb založených na automatizovaném sběru údajů.
V tomto kursu budou pro pojmenování jednotlivých typů vyhledávacích služeb používány následující výrazy:
• služby založené na automatizovaném sběru údajů: vyhledávací stroje,
• služby založené na manuálním sběru údajů: virtuální knihovny a předmětové katalogy,
• souhrnné pojmenování: vyhledávací služby nebo vyhledávací nástroje.
Co a jak vyhledávací služby nabízejí
Masivní nárůst zdrojů i rostoucí počet uživatelů služby WWW neustále ovlivňuje rozvoj vyhledávacích nástrojů. Vzhledem k tomu, že Internet je dnes chápán jako informační prostředí
určené široké veřejnosti, je snahou většiny poskytovatelů vyhledávacích služeb nabídnout
jednoduchou a pro většinu uživatelů přijatelnou formu hledání dokumentů v prostředí WWW.
Většina velkých vyhledávacích služeb nabízí proto uživateli dvě základní možnosti –
buď mohou prohledávat databázi příslušné služby procházením hierarchicky uspořádaného
systému menu nebo mohou zformulovat svůj dotaz prostřednictvím klíčových slov a zadat
příkaz k prohledávání databáze dané služby.
Služby primárně založené na automatizovaném sběru dat a zpětném vyhledávání prostřednictvím klíčových slov, tj. vyhledávací stroje, proto doplnily svoji nabídku o přístup
k vybraným zdrojům procházením hierarchicky uspořádaných předmětových skupin. Zpravidla pro tento účel využívají jiných služeb přizpůsobených vlastním potřebám. Například
služba Google pro tento účel používá poněkud modifikovanou podobu Open Directory.
Naopak služby, u nichž je prvotní funkcí zpřístupnění odkazů na informační zdroje prostřednictvím hierarchicky uspořádaných předmětových skupin, nabízejí uživatelům také
možnost prohledávání své vlastní databáze klíčovými slovy. Obsah databáze je shodný
s daty zpřístupňovanými předmětově, jejich rozsah je tedy (ve srovnání s databázemi vyhledávacích strojů) poměrně omezený. Proto také pro případ, že se hledané zdroje v jejich databázi nenajdou, nabízejí tyto služby uživatelům také možnost vyhledat zadaný dotaz vybraným
vyhledávacím strojem nebo alespoň odkazy na řadu dalších vyhledávacích služeb, které lze
pro hledání použít. Některé z nich však hledání provedou automaticky. Jako příklad je možné
uvést službu Yahoo! – ta vám v tomto případě sama nabídne výsledky hledání dotazu
vyhledávacím strojem Google.
Zadáte-li například Yahoo! dotaz Vysoká škola báňská, pak vám tato služba nabídne výsledky hledání službou Google, což je zřejmé z ikony v pravém horním rohu (Powered by
Google).
Většina velkých vyhledávacích služeb postupně rozšířila svoje základní – vyhledávací –
funkce o řadu nejrůznějších dalších služeb. Bez ohledu na to, o jaký typ vyhledávací služby
primárně jde, najdete na její vstupní stránce kromě standardních vyhledávacích nabídek i odkazy na aktuální denní zpravodajství, obchodní a ekonomické informace, turistické informace,
informace o počasí, bezplatnou schránku elektronické pošty na free-mailovém serveru, možnost individualizace (personalizace) poskytovaných služeb, přístup k placeným informačním
10
zdrojům a službám apod. Vyhledávací služby se tak proměnily ve webové portály. Naprostou
většinu podobných informačních služeb v současnosti poskytují také všechny nejznámější
české vyhledávací služby.
Pozor na rozdílné principy práce vyhledávacích služeb
Pracujete-li s vyhledávací službou, měli byste si vždy být vědomi, co je jejím základním
principem. Pro začínajícího nezkušeného uživatele to dnes není tak jednoduché rozpoznat.
Pustíte-li se do hledání v databázi předmětově orientované služby klíčovými slovy, nesmíte zapomenout, že se v naprosté většině případů jedná pouze o alternativní způsob práce se
stejnou databází, jaká je vám k dispozici pro procházení hierarchickým systémem menu. Konečný výsledek hledání by tedy měl být v obou případech teoreticky shodný. Míra shody bude
ovšem záviset nejen na tom, co a jakými klíčovými slovy budete hledat: zda konkrétně (klíčová slova: Amos Software) nebo obecně (klíčová slova: softwarové firmy – v tomto případě bude výsledek zhruba shodný s postupným procházením kategoriemi Obsah > Obchod a
prodej > Technika > Počítače a sítě > Software > Softwarové firmy), ale také na způsobu, jakým je služba budována. Záleží totiž na tom, jak jsou odkazy v jednotlivých kategoriích
uspořádány, a rovněž na tom, kdo je do databáze zařazuje.
Naopak, rozhodnete-li se u vyhledávacího stroje využít možnost prohledávání tematicky
uspořádaných údajů o zdrojích Internetu, pamatujte na to, že se jedná pouze o hledání ve vybraných zdrojích. Tyto zdroje uspořádané tematicky pochopitelně představují jen malou část
z celkového počtu dokumentů registrovaných v kompletních databázích služeb tohoto typu.
Ve srovnání s výsledky hledání v úplné databázi prostřednictvím klíčových slov se budou výsledky hledání takovým způsobem velmi lišit!
Co byste měli o vyhledávacích službách vědět, než se pustíte do
hledání
Při seznamování se s možnostmi, které uživatelům jednotlivé vyhledávací služby nabízejí,
byste tedy neměli přehlédnout především následující informace:
• Jaký prostor Internetu daná služba prohledává – zda celý svět (Google) nebo jen
zdroje v určitém regionu (český Atlas.cz), jen WWW nebo také zdroje z dalších internetových služeb (Usenet, FTP apod.).
• Jaká je velikost její databáze – zda jsou zdroje registrovány automatizovaně nebo na základě ručního sběru údajů.
• Jaký používá způsob indexování – zda zařazuje do své databáze jen názvy dokumentů,
názvy hypertextových odkazů, vybrané prvky z dokumentů, části textů nebo plné texty
dokumentů.
• Jaké nabízí způsoby hledání – zda kromě jednoduchého (angl. simple) – standardního –
rozhraní na vstupní stránce poskytuje také další, tzv. rozšířené nebo pokročilé (angl.
advanced) možnosti pro prohledávání své databáze.
• Jaké nabízí možnosti prezentace výsledků vyhledávání.
Tyto informace o vyhledávacích službách by měly ovlivnit vaše rozhodování o tom, kterou ze
služeb pro určitý druh hledání zvolit.
11
Další typy vyhledávacích nástrojů
Kromě již zmíněných dvou základních typů vyhledávacích nástrojů existuje řada služeb
dalších. Principem sběru dat se však neliší od obou výše popsaných typů hledačů, používají
také stejné metody pro vyhledávání informací. Odlišují se však určitou specializací. Základní dva typy hlavních vyhledávacích nástrojů jsou totiž orientovány na sběr údajů o informačních zdrojích v prostředí služby World Wide Web, případně na zdroje Usenet.
Další vyhledávací služby jsou specializovány na prohledávání určitého informačního prostoru:
• podle typu aplikace nebo služby,
• podle typu informací,
• podle geografického hlediska – lokální služby například shromažďují pouze informace
o zdrojích dostupných v určité zeměpisné či jazykové oblasti.
Specializace zužuje informační prostor, který služby mapují, usnadňuje sběr údajů
a urychluje hledání.
Specializované služby umožňují například hledání osob a adres elektronické pošty nebo
osobních domovských stránek, diskusních skupin, příspěvků zaslaných do diskusních skupin,
firemních informací, informačních zdrojů dostupných prostřednictvím WAP nebo vyhledávání (a stahování) software. Další specializované služby usnadňují hledání zvukových souborů, obrázků, časopisů a časopiseckých článků, knihovních katalogů apod. Některé ze služeb
jsou orientovány na určité kategorie uživatelů (například na děti), jiné jsou specializovány
podle tematiky sledovaných zdrojů (například na informace z oblasti chemie, architektury
nebo umění). Jiné služby zase podchycují pouze zdroje z určité zeměpisné nebo jazykové oblasti (jako například české servery Atlas.cz, Centrum, Seznam).
Jiný typ vyhledávacích nástrojů zase vznikl proto, aby bylo možné buď jediným příkazem nebo prostřednictvím jednotného rozhraní z jednoho dokumentu usnadnit a urychlit
prohledávání co největšího prostoru Internetu. První typ představují metahledače (angl.
metasearch engines nebo parallel search tools), například ProFusion, a druhý vyhledávací
nástroje s jednotným rozhraním (angl. unified search tools), například český server
Alenka.
Virtuální knihovny
Tyto vyhledávací nástroje patří mezi velmi užitečné zdroje informací o informacích na Internetu. Na rozdíl od jiných vyhledávacích nástrojů obsahují více prvků využívajících tradiční
dovednosti a zkušenosti profesionálních informačních pracovníků a knihovníků, což je jejich
nesporným kladem. Databáze těchto služeb jsou tedy vytvářeny odborníky, kteří informace
nejen sbírají, ale také vybírají, popisují a hodnotí na základě určitých kritérií. Informační
zdroje ve virtuálních knihovnách jsou zpravidla organizovány logicky, obdobně jako je tomu
u tradičních informačních zdrojů, na jejichž tvorbě se informační profesionálové podílejí
(např. knihovní katalogy, bibliografie, dokumentografické báze dat a jiné sekundární informační zdroje). Kromě kvalitního pořádacího systému nabízejí tyto služby uživatelům Internetu také odkazy na kvalitní informační zdroje.
Virtuální knihovny poskytují informace na základě hierarchicky uspořádaných předmětových skupin, původně pouze pro prohlížení (angl. browsing). V současnosti většina z nich
nabízí i rozhraní umožňující hledání prostřednictvím klíčových slov.
12
Použití virtuálních knihoven je vhodné zvláště tehdy, hledáte-li kvalitní zdroje na určité
téma. Hledání nejvhodnějších zdrojů vám přitom mohou usnadnit recenze, jimiž bývají odkazy na informační zdroje zpravidla doplňovány.
Lidský faktor znamená na druhé straně omezení. Jednak je obtížná údržba a aktualizace
zdrojů, jednak je to limitující prvek, pokud jde o množství a úplnost zdrojů ve virtuálních
knihovnách registrovaných. A to nejen ve vztahu k celému Internetu, tam je to zřejmé na
první pohled, ale i s ohledem na praktickou nemožnost – vzhledem k tomu, jakým způsobem
jsou budovány – podchytit opravdu všechny kvalitní zdroje věnující se danému tématu.
Příklady virtuálních knihoven:
About.com
Argus Clearinghouse
Internet Public Library
World Wide Web Virtual Library
Předmětové katalogy – základní charakteristika
Předmětové katalogy:
• jsou budovány ručně,
• databáze registrovaných zdrojů jsou poměrně malé,
• informace o registrovaných zdrojích jsou stručné (název webového sídla nebo dokumentu, URL a stručný popis),
• odkazy na zdroje jsou uspořádány podle témat na základě stanoveného hierarchického
schématu,
• umožňují vyhledávání informací prohlížením tematických kategorií až po konkrétní
odkazy na registrované zdroje, prohledáváním databáze zdrojů (jinak registrovaných
podle tématu) také klíčovými slovy prostřednictvím jednoduchého rozhraní, případně
některými pokročilými metodami (zpravidla výběrem z menu a s určitými omezeními).
Tyto nástroje patří mezi nejpopulárnější a nejvíce využívané vyhledávací služby. Poskytují
přístup k velkému množství informačních zdrojů uspořádaných podle témat na základě určitého hierarchického schématu. Jeho základ, tj. nejvyšší úrovně (angl. top categories), jsou
vytvářeny poskytovateli těchto služeb, zatímco nižší úrovně až po konkrétní adresy zdrojů
jsou víceméně ponechány na uživatelích Internetu, kteří sami svými údaji do soupisů přispívají.
Předmětově orientované služby dnes umožňují uživatelům vyhledávat zdroje také prostřednictvím klíčových slov. To je výhodné právě v souvislosti s výše zmíněnými problémy.
Použití této funkce umožní vyhledat informační zdroje, aniž by bylo nutné přemýšlet nad hierarchickou strukturou služby a odhadovat, kam bylo hledané téma zařazeno. Hledání prostřednictvím klíčových slov můžete využít také tehdy, pokud nechcete ztrácet čas procházením jednotlivých úrovní tematických kategorií, nebo jako doplněk předchozího prohlížení, nejste-li s jeho výsledkem spokojeni. Některé předmětové katalogy vám automaticky nabídnou
výsledky vyhledávání prostřednictvím některého z vyhledávacích strojů, pokud průzkum jejich vlastní databáze nebyl úspěšný (viz již uvedený příklad Yahoo! a Google).
Nejvýznamnější předmětové katalogy
Předmětové katalogy jsou tedy tematické soupisy vybraných zdrojů na WWW, které jsou
uspořádány hierarchicky. Předmětové skupiny (kategorie) jsou uspořádány od nejvýše nadřa-
13
zeného termínu až po nejvíce specializované (nejužší) téma v dané kategorii.
V hypertextovém prostředí služby WWW je prohlížení zvolené kategorie směrem
k detailnějšímu vymezení tématu velmi jednoduché.
V závislosti na tom, jakým způsobem je daná služba organizována a jak velký rozsah
zdrojů sleduje, mají jednotlivé tematické kategorie několik úrovní, některé větší počet, jiné
pak třeba jen úrovně dvě. Ačkoliv jsou jednotlivé vyhledávací služby tohoto typu organizovány na podobném principu, jejich tematické kategorie pochopitelně nejsou shodné, i když je
občas evidentní, kterou ze služeb se jejich poskytovatelé hlavně na počátku budování své
služby inspirovali.
Nejznámější a nejpopulárnější z předmětových katalogů je Yahoo! (nejstarší z těch, jež
dosud fungují, je však zřejmě Galaxy). Tato služba se stala vzorem pro podobně zaměřené
vyhledávací nástroje včetně těch, jež registrují údaje o informačních zdrojích na Internetu
v určité geografické oblasti (viz například český server Seznam). Ve srovnání
s vyhledávacími službami, které své databáze vytvářejí na základě automatizovaného sběru
údajů, je rozsah registrovaných zdrojů v předmětových katalozích omezený. Zpravidla jde o
několik stovek tisíc odkazů, avšak největší služby tohoto typu umožňují prohledávat podstatně větší množství zdrojů. Tak například Open Directory registruje více než 2 milióny
webových sídel, LookSmart a Yahoo! okolo 1 a půl miliónu.
Předmětové katalogy – nevýhody a problémy
Způsob organizace záznamů i vyhledávací možnosti zřejmě vyhovují potřebám běžných uživatelů Internetu, ačkoliv – a to je nutné zdůraznit – nejde zrovna z mnoha důvodů o nejšťastnější způsob registrování a zpětného zpřístupňování informačních zdrojů.
Jednou z nevýhod těchto zdrojů je kromě jejich omezené velikosti (= neúplnosti ve
vztahu k množství zdrojů zpřístupňovaných na Internetu) také nedostatečná kontrola registrovaných informací. Zdroje zařazované do jednotlivých kategorií jsou často velmi různorodé,
jak z hlediska kvality, tak s ohledem na rozsah poskytovaných informací. U některých služeb
tohoto typu nedochází také ze strany jejich provozovatelů ke kontrole správnosti zařazení do
příslušné tematické skupiny. Volba kategorie pro zařazení domovských stránek do vyhledávací služby je tak ponechána na tom, kdo informaci o daném informačním zdroji či službě poskytuje. Díky tomu při hledání a prohlížení zařazených odkazů může docházet
k informačnímu šumu (tj. k získání odkazů na zdroje, které se ve skutečnosti hledanou problematikou nezabývají) nebo ke ztrátě informací. Je to i jedním z nedostatků českých vyhledávacích služeb, včetně nejoblíbenějšího Seznamu. Provozovatelé těchto vyhledávacích nástrojů se samozřejmě snaží své služby zlepšovat, limitujícím faktorem je však způsob, který
byl pro sběr, zpracování a zpřístupňování údajů zvolen.
Problémem při využívání těchto služeb může být rovněž skutečnost, že u řady informačních zdrojů je obtížné zvolit jedinou kategorii, do níž mají být zařazeny. Stává se také, že jsou
občas podobná témata zařazena v rámci jedné služby pod různými kategoriemi nejvyšší
úrovně. Odkazy na domovské stránky se stejnou nebo podobnou tematikou se tak dostanou na
dvě od sebe poměrně vzdálená místa. Z pohledu uživatele, který nezná podrobně tematickou
strukturu služby, pak může být problémem rozhodnutí o tom, kterou cestou se při hledání
zdrojů vydat. Zařazení témat v rámci příslušné hierarchické struktury nemusí odpovídat uživatelově subjektivní představě nebo předchozím zkušenostem, kde by téma mělo být zařazeno. Částečně je tento problém ošetřen zpřístupňováním odkazů na příbuzné kategorie.
Kupříkladu v Seznamu najdete kategorie (podsekce), jejichž názvy končí znakem @
(česky znám jako „zavináč“, angl. atsign). Znak @ za názvem kategorie vám sděluje zhruba
totéž jako odkaz „viz též“. Znamená to, že je příslušná kategorie v katalogu Seznamu umístěna na několika místech v příbuzných sekcích nebo podsekcích. Pokud na odkaz poklepete
14
myší, dostanete se na prvotní umístění kategorie v katalogu. Například v sekci Knihovny
(Obsah > Instituce > Knihovny) naleznete také odkaz Knižní nakladatelství a vydavatelství@. Použijete-li jej, dostanete se ve struktuře jinam: Obsah > Průmysl a výroba > Papírenský a polygrafický průmysl, vydavatelské činnosti > Nakladatelství a vydavatelství >
Knižní – tedy až na stránku sekce, na níž jsou umístěny odkazy na webová sídla nakladatelů
knih. V Seznamu se pro tuto funkci používá termín symbolický link. Pokud některá sekce
svým obsahem vyhovuje dvěma a více sekcím vyšší úrovně, je umístěna pouze v jedné z nich.
Ve druhé (a v každé další) je vytvořen jen její „zástupce“, tedy symbolický link. Tento způsob
propojení příbuzných témat v různých kategoriích používá také Yahoo!.
Jistým úskalím při rozvoji předmětových katalogů může být také tematická struktura
zvolená na začátku jejich budování. S nárůstem počtu informací registrovaných danou vyhledávací službou je obtížné reagovat na rozmanitost nově vznikajících informačních zdrojů a
služeb a měnit hierarchickou strukturu služby tak, aby lépe vyhovovala současnému stavu Internetu – důvodem je časová náročnost a pracnost změn, při nichž hraje velkou roli lidský
faktor. Největší celosvětové služby se s tímto problémem dokáží vyrovnat mnohem lépe než
služby lokální díky tomu, že si mohou dovolit vynaložit značné finanční prostředky na změny,
jež jsou pro ně koneckonců i životně důležité – musí obstát v opravdu silné konkurenci.
Předmětové katalogy – vyhledávání klíčovými slovy
K prohledávání databáze předmětového katalogu slouží jednoduché rozhraní, které najdete
nejen na vstupní stránce, ale také na každé straně s jednotlivými kategoriemi. Prohledávat
můžete celou databázi předmětového katalogu nebo pouze zvolenou kategorii. Většina předmětových katalogů nabízí uživatelům i poměrně jednoduché rozhraní pro vybrané funkce
pokročilého vyhledávání.
Pokud budete prohledávat vlastní databázi předmětového katalogu klíčovými slovy, mějte
na paměti, že jde o hledání v databázi jiného typu, než u služeb založených na automatizovaném sběru dat. Použijete-li hledání prostřednictvím klíčových slov u předmětového katalogu,
zjistíte možná, že se vámi zvolená slova vyskytují v názvech dokumentů, ve stručných anotacích nebo v adresách dokumentů (URL), ale nikoliv přímo v textech nalezených dokumentů.
Nejde zde totiž o fulltextové indexování. V databázi předmětově orientovaných služeb jsou
uloženy pouze ty údaje, které byly poskytovatelem informace o zdroji vyplněny do formuláře
při registraci nového zdroje, případně jsou zde uloženy recenze (nebo anotace), kterými doplňují odkazy na vybrané kvalitní nebo populární zdroje sami provozovatelé dané služby.
S tím může být spojen další problém. Někdy se při doplňování údajů o novém zdroji stává,
že autor informace zkreslí popis obsahu dokumentu. Buď z neznalosti, z nedbalosti nebo dokonce úmyslně ve snaze přilákat na své stránky co nejvíce uživatelů. Nedostatečné nebo
„marketingově orientované“ informace se pak mohou negativně projevit na výsledcích hledání.
Kdy je vhodné využít pro hledání informací předmětový katalog
Využívání předmětových katalogů je možné doporučit především tehdy, potřebujete-li zjistit,
zda je hledané téma na Internetu zastoupeno. Například služba Yahoo! je velmi výhodné
místo pro hledání, pokud se potřebujete seznámit s tématy, která patří k nejrozšířenějším
v prostředí služby World Wide Web.
Využití těchto služeb je vhodné také tehdy, nejste-li si jisti, jakým způsobem máte zformulovat správně dotaz pro hledání klíčovými slovy v rozsáhlé databázi služby založené na
automatizovaném sběru údajů. Zvolíte-li nevhodný způsob hledání vyhledávacím strojem,
může být výsledkem obrovské množství odkazů na dokumenty. Nejen na dokumenty, které se
15
opravdu vztahují k hledané problematice, ale také na takové dokumenty, ve kterých se sice
použitá klíčová slova vyskytují, avšak nevyjadřují téma, které hledáte. V takovémto případě,
mj. i díky menšímu množství registrovaných dokumentů, vám mnohem lépe poslouží předmětový katalog.
Vyhledávací stroje – základní charakteristika
Vyhledávací stroje:
• jsou budovány na základě automatizovaného sběru dat,
• informační zdroje v jejich databázích jsou zpravidla registrovány fulltextově,
• informace o registrovaných zdrojích jsou podrobné díky fulltextovému indexování,
• databáze registrovaných zdrojů jsou rozsáhlé,
• umožňují vyhledávání informací prohledáváním databáze fulltextově registrovaných
zdrojů klíčovými slovy prostřednictvím jednoduchého rozhraní nebo metodami pokročilého vyhledávání (buď výběrem z menu nebo přímým zápisem dotazu) a často také
prohlížením předmětového katalogu obsahujícího informace o vybraných zdrojích registrovaných v dané databázi nebo předmětového katalogu partnerské vyhledávací služby.
Vyhledávací nástroje tohoto typu jsou tedy založeny na automatizovaném sběru dat. Díky
tomu (a samozřejmě také díky výkonným technologiím) jejich databáze disponují největším
rozsahem registrovaných zdrojů. Většina z těchto nástrojů je orientována na sledování dokumentů zpřístupňovaných na WWW, některé registrují také příspěvky ze systému Usenet.
Vyhledávací stroje jsou velmi účinným pomocníkem, potřebujete-li provést vyčerpávající
průzkum o zdrojích na Internetu na určité téma. S úspěchem je lze využít také při hledání
velmi specializovaných informací.
Vyhledávací stroje – nabídka služeb
S rozvojem Internetu – a také s rozvojem vyhledávacích nástrojů – bývají základní vyhledávací služby rozšiřovány ještě o další nabídky. Na vstupní stránce těchto služeb najdete zpravidla také možnost prohledávání předmětového katalogu, vyhledání lidí, firem, zvukových či
obrazových dokumentů, denní zpravodajství a řadu dalších služeb, včetně poskytování podrobnějších recenzovaných informací o některých vybraných – kvalitních nebo populárních –
zdrojích.
Oproti původní nabídce služeb tohoto typu, jíž byl jen stručný formulář pro jednoduché
hledání a možnost přechodu na rozhraní pro pokročilé hledání, jsou v současnosti stránky
těchto služeb přeplněny tak širokou nabídkou dalších informací, že se v ní málem ztrácí původní vyhledávací funkce. Poskytovatelé těchto služeb se snaží uživatelům prezentovat jako
jakýsi vstupní bod takřka ke všemu, co je dnes na Internetu (na Webu) k dispozici –
z vyhledávacích strojů se tak často staly webové portály. Možnost prohledávat Web díky
automatizovaně vytvářeným databázím je tedy jen jednou z mnoha služeb, jež portály nabízejí. Řadu dalších služeb a informací neposkytují tyto servery z „vlastních“ zdrojů, ale přebírají je od specializovaných producentů. K typickým příkladům převzatých informací se
kromě zpravodajství a ekonomických informací řadí doplňkové vyhledávací služby pro hledání webových zdrojů procházením předmětových kategorií.
Uživatel, který si chce hlavně co nejrychleji a co nejjednodušeji vyhledat potřebné informace, uvítá zřejmě možnost použít pro tento účel vyhledávací nástroje, které ho nezahltí nepřehlednou nabídkou nejrůznějších personalizovaných služeb a dalších pro něho nepotřeb-
16
ných informací. Jejich množství snižuje přehlednost a zhoršuje orientaci, navíc někdy dochází
ke zbytečným zdržením při zobrazování reklam, které jsou na těchto stránkách umístěny.
Graficky a typograficky jednoduché rozhraní orientované jen na vyhledávací funkce dnes
poskytují služby Google a AllTheWeb. Tyto dvě služby jsou také v současnosti nejkvalitnějšími nástroji pro vyhledávání informací na WWW.
Vyhledávací stroje – vyhledávací rozhraní
Každý z vyhledávacích strojů nabízí alespoň dvě rozdílné úrovně rozhraní pro vyhledávání.
Jednoduché rozhraní a rozhraní umožňující využít i pokročilé metody. Konkrétní nabídky
jednotlivých služeb se samozřejmě liší, ale v podstatě jde vždy o nabídku podobných funkcí,
v poslední době především výběrem z pull-down menu.
Na vstupní obrazovce je k dispozici jen jednoduché rozhraní (angl. simple search,
u AltaVisty: basic search) umožňující prohledávání databází klíčovými slovy s možností
vyjádřit vzájemnou logickou vazbu mezi těmito slovy, buď velmi jednoduchým způsobem
(znaménka plus a minus nebo uvozovky) nebo pomocí logických operátorů a složitých
dotazů, včetně použití některých speciálních funkcí.
Účinnější využití těchto služeb – především méně zkušeným uživatelům (tj. těm, kteří
chtějí zformulovat složitější vyhledávací dotaz, ale nevědí, jak jej správně zapsat – nabízí pokročilé hledání (angl. advanced search), které je v současnosti reprezentováno určitým návodným menu.
Příklady rozhraní pro pokročilé hledání:
AltaVista Advanced Search
AllTheWeb Advanced Search
Google Advanced Search
Vyhledávací nástroje jsou určeny všem uživatelům Internetu, nejen informačním specialistům. A tak je snahou jejich provozovatelů poskytnout i těm méně zkušeným větší možnost
kontroly nad výsledky vyhledávání, aniž by se museli příliš zatěžovat přemýšlením nad
správnou formulací svých složitějších dotazů. Proto většina služeb nabízí uživatelům pokročilé rozhraní s možností „zformulovat“ složitější dotaz výběrem příslušných položek
z menu.
Budete-li se chtít pustit do složitějšího hledání, vždy se předem dobře seznamte s tím, jakým způsobem lze těchto metod u dané služby využít, neboť konkrétní aplikace se poněkud
liší. Všechny nejznámější celosvětové vyhledávací služby dnes poskytují poměrně podrobné
informace o tom, jak s nimi pracovat. Není tedy problémem seznámit se předem – prostřednictvím nápovědy (angl. help) – se všemi možnostmi, které jsou pro hledání a konstrukci dotazů u dané služby k dispozici. Nezapomeňte však na to, že se design a vyhledávací rozhraní
služeb čas od času z nejrůznějších důvodů mění. Dojde-li k významnější změně, je pravděpodobné, že byla provedena i určitá modifikace používaných vyhledávacích technik. V takovém
případě byste si měli znovu prostudovat dokumenty s nápovědou, v nichž by se informace
o změnách v nabídce možností pro hledání měly vyskytovat.
Jak vyhledávací stroje fungují
Vzhledem k tomu, že vyhledávací stroje patří ke službám, které lze nejlépe využít pro tzv. seriózní vyhledávání informací, vyplatí se podívat blíže, jakým způsobem tyto služby fungují.
17
Vyhledávací stroje jsou tvořeny 4 základními funkčními částmi:
• roboty, jejichž hlavním úkolem je sběr informací na Webu,
• indexačním programem zpracovávajícím informace, které získají z Webu roboty,
• vyhledávacím programem (vyhledávacím algoritmem a souvisejícími programy, tzv. vyhledávacím strojem, angl. retrieval engine), který na základě uživatelova dotazu vyhledává a zpracovává informace z databáze vytvořené indexačním programem tak, aby výsledky co nejlépe vyhovovaly položenému dotazu,
• grafickým rozhraním, které sbírá dotazy od uživatele, předává je vyhledávacímu stroji
a zobrazuje výsledky hledání uživateli.
Vyhledávací program na základě uživatelova dotazu prohledává databázi vytvořenou indexačním programem s cílem nalézt a předat uživateli odkazy na dokumenty, které se
s dotazem shodují. Součástí tohoto programu jsou i nástroje, které hodnotí vyhledané odkazy
z hlediska jejich relevance a ovlivňují způsob setřídění odkazů při zobrazení výsledku vyhledávání.
Grafické rozhraní získává informace od uživatele a předává je vyhledávacímu programu.
Ten pak opět předá informace o vyhledaných odkazech pro zobrazení výsledků hledání uživateli, buď standardně nebo podle volby uživatele.
Co jsou to roboty
Roboty jsou programy, které „cestují” po Webu. Přitom identifikují nové zdroje, které by
měly být do databáze služby přidány, a zároveň kontrolují změny, ke kterým došlo u těch
zdrojů, které již jsou v její databázi registrovány. Shromažďují přitom informace o obsahu
dokumentů na webových serverech a předávají je indexačnímu programu.
Také u těchto služeb je možné „přidat odkaz“ (prostřednictvím funkcí submit page, add
URL, přidej URL apod.), tzn. oznámit vyhledávací službě adresu nového zdroje. Odkaz však
není zařazen do databáze, neboť tato oznámení slouží jen jako informace pro roboty, kam je
možné se vydat pro nové informace. Teprve po prozkoumání zdroje robotem jsou informace
zařazeny do databáze dané služby.
Z pohledu uživatele takovéto služby je důležité, do jaké hloubky a šířky jsou informace
umístěné na webových serverech, tj. obsah serverů i jednotlivých dokumentů, roboty zpracovávány. Některé z těchto robotů jsou naprogramovány tak, aby registrovaly pouze údaje
z hlavních (úvodních) stran webových serverů (resp. webových sídel), jiné naopak načítají informace i z dalších dokumentů, které jsou zde zveřejněny.
Cílem prvního typu služeb je zmapovat prostor Webu extenzivně z hlediska podchycení co
největšího počtu webových serverů, ale nikoliv s cílem registrace celého jejich obsahu. Informační technologie se však neustále vyvíjejí, a tak je v současnosti možné zpracovávat obsah webových serverů do větší hloubky, aniž by tím utrpěl i celkový rozsah registrovaných
webových sídel, resp. aktuálnost informací uložených v databázích vyhledávacích služeb. Například robot Inktomi (jeho databázi, kromě jiných poskytovatelů portálových a vyhledávacích služeb využívá například HotBot) má kapacitu více než 10 miliónů navštívených a
indexovaných dokumentů denně.
Do hloubky načítají webové dokumenty například roboty vyhledávacích strojů AltaVista,
AllTheWeb, Google, Inktomi a NorthernLight Research. Jejich databáze také
v současnosti registrují nejvíce zdrojů.
Databáze Google je zároveň příkladem snahy o podchycení informací publikovaných na
Webu do šířky. Více než dvě třetiny informací registrovaných v databázi Google (tj. zhruba
1,5 miliardy dokumentů, včetně asi 35 miliónů dokumentů, které jsou na Webu zveřejněny
18
v jiných formátech než HTML) byly získány načtením plných textů dokumentů z webových
sídel, jež její roboty prozkoumaly opravdu důkladně. Zbývající část pak představují informace
získané analýzou odkazů v navštívených dokumentech. Díky tomu může tato služba poskytovat informace i o těch zdrojích, jež její roboty nikdy nenavštívily.
Jaké informace roboty sbírají
Většina služeb přikládá velký význam těmto údajům:
• název (ve zdrojovém kódu TITLE),
• adresa (URL),
• metatagy – slova a fráze vyjadřující obsah dokumentů, které jsou vkládány do zvláštního
pole (značka META) ve zdrojovém kódu dokumentů a které se v prohlížeči nezobrazují;
tyto údaje lze zneužít pro přilákání co největšího počtu uživatelů klamnými informacemi,
proto je některé služby do svých databází nezařazují nebo jim přikládají nižší váhu (např.
AllTheWeb a Google),
• názvy hypertextových odkazů,
• počáteční odstavce z textu dokumentů, včetně prvního nadpisu (ve zdrojovém kódu
H1),
• úplné texty dokumentů,
• některé další informace – např. o obrázcích, o zvukových souborech, o formátech souborů (PDF, GIF, JPEG, TIFF, Microsoft Office, PostScript, WordPro, WordPerfect
apod.) apod.
Údaje, které roboty sesbírají, se ukládají do databází vyhledávacích služeb. Umožňují, v závislosti na nabídce funkcí jednotlivých služeb, vyhledávání informací tematicky klíčovými
slovy nebo podle dalších kritérií.
Indexační program
Z hlediska toho, jaké dokumenty nakonec služba na základě uživatelova dotazu vyhledá, je
velmi důležitý indexační program. Některé vyhledávací nástroje jsou jejich provozovateli
označovány jako fulltextové vyhledávače. Znamená to tedy, že by jejich databáze (indexy)
měly být vytvářeny na základě zpracování úplných textů (případně dalších typů informací
obsažených v dokumentech) načtených z webových serverů. Není to ovšem vždy zcela pravdivé tvrzení.
Informace jsou z dokumentů získávány na základě rozhodnutí tvůrců těchto programů
o tom, na kterých místech se v HTML dokumentech vyskytují důležité informace. Rozsah načítaných informací bývá ovlivněn i technologickým zázemím provozovatele vyhledávací
služby. Sbírané údaje se proto u jednotlivých služeb liší, což je jedním z důvodů rozdílného
zpracování téhož dotazu několika vyhledávacími službami.
Všechny nejvýznamnější celosvětové vyhledávací stroje (AltaVista, AllTheWeb, Google,
Inktomi nebo NorthernLight Research) načítají do svých databází plné texty viditelných
částí webových dokumentů.
Některé ze služeb však neindexují tzv. stop-slova a ty výrazy, jež jsou identifikovány jako
„spam”. Mezi spam patří: opakující se slova, „neviditelný text“ (ve zdrojovém kódu je pro
tuto část textu použita stejná barva jako pro pozadí dokumentu, takže uživatel text
v prohlížeči nevidí) a velmi malé fonty. Tyto metody jsou považovány za pokus o nežádoucí
reklamu, jejímž cílem je zajistit výhodnější umístění daného zdroje ve výsledcích vyhledávání. Jednou z metod hodnocení relevance vyhledaných zdrojů je totiž výskyt hledaných slov
19
v dokumentech – čím vyšší četnost výskytu hledaných termínů v daném dokumentu, tím výše
se webové sídlo nebo jednotlivý dokument ocitne při zobrazení výsledku vyhledávání.
Pokud někdo neoprávněně na svých webových stránkách použije některou z technik, jež
používají vyhledávací stroje pro setřídění výsledků hledání, sníží tím vlastně úroveň jejich
kvality. Některé ze služeb proto podobné metody „trestají“. Buď slova z textu dokumentu
rozpoznaná jako spam nezahrnou do databáze nebo jim nepřikládají váhu, někdy dokonce do
svých databází nezařadí podobné dokumenty či webová sídla vůbec.
Vyhledávací strategie
Vyhledávací nástroje hledají dokumenty, které se shodují s informačními potřebami a zájmy
uživatelů. Záleží jen na vás, jak se znalostí vyhledávacích nástrojů a technik dokážete vyhledávacím příkazem co nejpřesněji vyjádřit téma, které vás zajímá. Pro úspěšné použití vyhledávacích služeb je nutná vyhledávací strategie (angl. search strategy). Ta spočívá jednak ve
znalosti služeb, které jsou pro hledání na Internetu k dispozici, jednak v důkladné analýze tématu, jež chcete hledat. V užším smyslu pak jde o vlastní formulaci vyhledávacího dotazu
(angl. search query).
Při prohledávání prostoru WWW hledáte určitou množinu dokumentů podle kritérií zvolených pro tento účel daným vyhledávacím nástrojem. Na základě těchto kritérií je prováděn sběr údajů o dokumentech a jejich zpětné vyhledání podle uživatelova dotazu.
Úspěch hledání prostřednictvím vyhledávacích služeb tedy závisí na třech důležitých
faktorech:
• na schopnosti uživatele zformulovat co nejpřesněji dotaz tak, aby se co nejvíce shodovala
zadaná klíčová slova s výrazy vyskytujícími se v textu dokumentů, případně dalších jejich
součástech – patří mezi ně například URL, některé prvky zdrojového kódu apod.,
• na rozsahu a obsahu databáze vyhledávacího nástroje, který byl pro hledání zvolen,
• na dalších vlastnostech vyhledávacího nástroje ovlivňujících úspěšnost hledání.
Každý z vyhledávacích nástrojů pracuje s vlastní databází, v níž jsou registrovány údaje o dokumentech. Používáte-li vyhledávací nástroj, prohledáváte jeho databázi, nikoliv přímo
samotný Web.
Vzhledem k tomu, že žádný z vyhledávacích nástrojů nepokrývá celý prostor WWW
(resp. dalších internetových služeb a aplikací), dostanete zpravidla při hledání shodného tématu v několika službách odlišné výsledky. Příčinou není jen rozdílná velikost databáze použité služby a její aktuálnost, ale také to, že se služby liší jak mechanismem sběru dat, tak
také zpracováním získaných údajů. Velký význam mají odlišné nástroje a techniky, kterými
služby hodnotí relevanci nalezených odkazů ve vztahu ke konkrétnímu uživatelovu dotazu.
Pro vaše hledání jsou tedy důležité především dvě věci: jednak úroveň vašich znalostí souvisejících s tématem dotazu, jednak správná volba vhodného vyhledávacího nástroje. Ten by
měl co nejvíce vyhovovat svými charakteristikami hledané informaci.
Hlavní kroky vyhledávací strategie
Chcete-li úspěšně hledat informace na Internetu, měli byste si osvojit základní rešeršní strategii, jež se skládá z následujících kroků:
• slovní formulace tématu (souvislou větou či několika větami),
• výběr vhodných klíčových slov, jež vyjadřují hledané téma, včetně synonym a příbuzných
výrazů,
20
•
•
•
•
•
•
•
předběžná formulace dotazu, včetně rozhodnutí o tom, zda použít jednoduché hledání
nebo pokročilé metody hledání,
výběr vyhledávacího nástroje,
prostudování nápovědy zvolené vyhledávací služby,
formulace dotazu v souladu s funkcemi dané vyhledávací služby,
průzkum a zhodnocení výsledků vyhledávání,
nejste-li spokojeni s výsledkem hledání, měla by následovat úprava (oprava) dotazu
a opětné zhodnocení výsledků vyhledávání,
podle potřeby vyhledání stejného dotazu jinou vyhledávací službou.
Není pochopitelně vždy nezbytné použít pro hledání všechny uvedené kroky. Konkrétní postup bude záviset na složitosti hledaného tématu a na vašich předchozích zkušenostech nejen
s vyhledávacími nástroji, ale s internetovými zdroji obecně.
Úspěšné hledání a nalézání informací na Internetu by v zásadě mělo být kombinací odhadnutí adresy zdroje a použití předmětových katalogů a vyhledávacích strojů. Než se pustíte
do hledání prostřednictvím některé z vyhledávacích služeb, pokuste se nejdříve odhadnout,
která organizace by mohla být zdrojem hledané informace, zkuste uhodnout adresu jejího webového sídla a navštívit je. Pokud tento pokus nebyl úspěšný, zvolte pro hledání, v souladu
s typem hledané informace, některou z kvalitních vyhledávacích služeb.
Jak vybrat vhodný nástroj pro hledání
•
•
•
•
Jestliže chcete provést vyčerpávající průzkum nebo potřebujete-li nalézt co nejlepší
odpověď na svůj dotaz z většího množství možných odpovědí, použijte nástroj s velkou
databází registrovaných dokumentů, tj. některý z vyhledávacích strojů.
Chcete-li se dostat jen k těm nejznámějším a nejvíce navštěvovaným zdrojům na dané
téma, pak byste měli využít některého nástroje budovaného na základě manuálního sběru
dat, některou z virtuálních knihoven nebo některý z předmětových katalogů. Pokud nemáte přesnou představu o tom, co hledáte, může pro vás být postupné procházení předmětovými kategoriemi užitečnou inspirací.
Máte-li jasnou představu o hledaném tématu a zároveň víte, že se na Webu – někde – vyskytuje, dejte vždy přednost hledání prostřednictvím vyhledávacího stroje, který registruje
informační zdroje celosvětově a který disponuje rozsáhlou databází.
Budete-li chtít vyhledat informační zdroje z určité zeměpisné či jazykové oblasti mimo
anglicky mluvící země, můžete se spolehnout na kterýkoliv z největších celosvětových
vyhledávacích strojů. Pokud byste ovšem chtěli tyto lokální zdroje hledat prostřednictvím předmětového katalogu, raději dejte přednost nástroji, který je orientován na registrování informací v dané zeměpisné oblasti.
Budete-li tedy chtít vyhledávat klíčovými slovy české zdroje (tj. metodou typickou pro hledání prostřednictvím vyhledávacího stroje), použijte například AllTheWeb nebo Google –
většinou vám totiž poskytnou kvalitnější výsledky než fulltextové vyhledávače českých služeb.
Budete-li však chtít použít pro hledání českých zdrojů předmětový katalog (tj. procházet
postupně jednotlivé kategorie), obraťte se na Seznam, nikoliv na službu Yahoo!.
21
Jakou strategii byste používat neměli
Chcete-li hledat úzce specializované téma (případně konkrétní dokument, o jehož existenci
předem víte) nepoužívejte hledání postupným prohlížením (angl. browsing) menu předmětově orientovaných služeb.
Procházení od hierarchicky nejvýše uvedeného termínu dále až po nejnižší úroveň ke
stránkám obsahujícím odkazy na konkrétní dokumenty zahrnuje nutnost odhadnout, kam bylo
hledané téma (hledaný dokument) v rámci hierarchické struktury zařazeno. Navíc tyto služby
zpravidla registrují webové zdroje do šířky, nikoliv do hloubky. Také celková struktura i jednotlivé kategorie se (bohužel) u jednotlivých služeb liší, pokud ovšem jejich tvůrci „neopisovali“. (V tomto případě na tom není nic špatného, pro uživatele by naopak jednotnost byla
přínosem!) Někdy může být procházení jednotlivých kategorií zbytečně zdlouhavé i proto, že
se pomalu zobrazují stránky s velkým množstvím odkazů, jindy zdržují reklamní pruhy. Raději proto použijte buď některý vyhledávací stroj nebo alespoň možnost prohledávání zdrojů
v předmětovém katalogu klíčovými slovy.
Nástroje pro formulaci vyhledávacího dotazu
Vyhledávací služby nabízejí tyto nástroje, jejichž pomocí můžete zformulovat vyhledávací
dotaz:
• booleovské operátory,
• distanční operátory,
• možnost vytváření složitých dotazů,
• používání znamének + a – ,
• vyhledání fráze,
• vyhledávání podle pole nebo dalších specifických funkcí,
• krácení podle slovních kořenů,
• používání zástupných znaků pro maskování,
• používání velkých písmen.
Booleovské operátory
Booleovské operátory (angl. Boolean operators) – AND, OR a NOT (případně AND NOT)
– spojují slova do logických vztahů, které odpovídají požadované formulaci konkrétního dotazu.
Operátor AND zužuje dotaz.
Operátor OR dotaz rozšiřuje.
Operátor NOT odstraňuje nežádoucí dokumenty.
Příklad použití operátoru AND: knihy AND časopisy
Systém vyhledá jen ty dokumenty, ve kterých se vyskytují obě uvedená klíčová slova současně. Nevyskytuje-li se některé ze slov v databázi, je výsledkem prázdná množina, není tedy
nalezen žádný odpovídající odkaz.
Pokud vyhledávací služby umožňují zvolit spojení klíčových slov v dotazu výběrem příslušné funkce z pull-down menu, pak operátoru AND odpovídá položka all of the words
(všechna slova).
Příklad použití operátoru OR: knihy OR časopisy
22
Systém vyhledá všechny dokumenty, ve kterých se vyskytuje alespoň jedno ze dvou uvedených klíčových slov. Výsledkem hledání jsou tedy odkazy na zdroje, ve kterých se vyskytuje
buď slovo knihy nebo slovo časopisy nebo obě slova současně. Mějte na paměti, že použití
operátoru OR vede k nárůstu počtu vyhledaných informací.
Použití operátoru OR pro formulaci vztahu mezi slovy má význam hlavně v tom případě,
když je nezbytné do dotazu vložit synonyma, příbuzné výrazy a různé pravopisné formy slov.
Pokud vyhledávací služby umožňují zvolit spojení klíčových slov v dotazu výběrem příslušné položky z menu, pak operátoru OR odpovídá položka any of the words (kterékoliv ze
slov).
Příklad použití operátoru NOT: knihy NOT časopisy
Systém vyhledá všechny dokumenty, ve kterých se vyskytuje první slovo, ale nikoliv slovo
druhé. Výsledkem hledání budou odkazy na zdroje, v nichž se vyskytuje slovo knihy, avšak
současně s ním nikoliv slovo časopisy. Znamená to, že jsou z výsledku hledání vyloučeny
všechny dokumenty, v nichž se vyskytují obě uvedená slova současně.
Operátor NOT byste tedy měli používat velmi opatrně, jen v opravdu odůvodněných
případech, protože jeho zařazení do dotazu může způsobit, že se zbytečně připravíte o užitečné dokumenty.
Operátor NOT můžete použít tehdy, stojí-li za to odstranit z výsledků hledání odkazy obsahující homonyma. Budete-li například hledat informace o zámcích (stavbách, historických
památkách), mohou se vám mezi vyhledané odkazy dostat i dokumenty, které se věnují zámkům u dveří. V tomto případě se můžete pokusit tyto dokumenty odstranit z výsledků hledání
například podobným příkazem:
zamky NOT ((zabezpecovaci AND zarizeni) OR uzamykaci OR FAB OR vstup OR
dvere OR dverni OR skrine OR klice)
Musíte si ovšem uvědomit, že databáze vyhledávacích strojů obsahují slova z textů dokumentů publikovaných na Webu. Nepracují tedy s řízeným slovníkem, takže vaše fantazie by
musela být takřka bezmezná, abyste opravdu vyloučili všechny nežádoucí odkazy. Je s tím
spojeno rovněž nebezpečí, že byste se zároveň mohli připravit o užitečné zdroje. Nezapomeňte proto na to, že operátor NOT sice zpravidla významně zmenšuje velikost vyhledané
množiny, ale často na úkor ztráty určitého množství relevantních informací.
Některé vyhledávací služby používají pro odstranění nežádoucích dokumentů operátor
AND NOT, dotaz pak vypadá takto: knihy AND NOT časopisy. Tento způsob formulace
dotazu vyžaduje například AltaVista.
Distanční operátory
Distanční operátory (angl. proximity operators) – NEAR, ADJACENT(ADJ)
a FOLLOWED BY – specifikují posloupnost a vzdálenost mezi dvěma vyhledávacími výrazy. Umožňují nalézt dokumenty, v nichž se hledaná slova vyskytují nedaleko sebe nebo
v těsném sousedství. Vyskytují-li se slova v textu blízko sebe, je větší pravděpodobnost, že
se dokument hledaným tématem zabývá, než kdyby tato slova sice obsahoval, ale na místech
od sebe hodně vzdálených.
U webových vyhledávacích nástrojů se v současnosti můžete setkat takřka bez výjimky
jen s možností zformulovat dotaz s operátorem NEAR, i když v počátcích rozvoje vyhledávacích služeb byly podporovány také oba další distanční operátory. Jejich funkce jsou
v současnosti zajištěny jiným způsobem, například umístěním slov mezi uvozovky při hledání
fráze.
23
Operátor ADJACENT, zkráceně ADJ, se používá k hledání slov, která se v textu dokumentu nacházejí vedle sebe, tj. sousedí spolu, ovšem nezávisle na pořadí, zatímco operátor
FOLLOWED BY bývá používán, je-li nutné zajistit vyhledání slov v přesném pořadí.
Spojení dvou výrazů operátorem NEAR znamená, že se hledaná slova musí vyskytovat
v textu dokumentu v určité vzdálenosti od sebe. Použití tohoto operátoru je u různých služeb
odlišné. Někde si může uživatel sám nastavit přijatelnou vzdálenost mezi slovy, někde je tato
vzdálenost standardní a nelze ji změnit.
Například u služby AltaVista jde o vzdálenost 10 slov, takže příkaz web NEAR design
vyhledá dokumenty, v nichž se uvedená klíčová slova vyskytují ve vzdálenosti max. 10 slov
od sebe.
Použití distančních operátorů při formulaci dotazu je výhodné například při hledání vlastních jmen nebo názvů. Totéž vyhledávání lze sice zpravidla zajistit příkazem, který umožňuje
vyhledat zadaná slova jako frázi, někdy je však účinnější formulace dotazu právě pomocí operátoru NEAR. U fráze totiž musíte uvést pouze hledaná slova v odpovídajícím pořadí.
Dejme tomu, že byste měli zájem o informace o Karlu Havlíčkovi Borovském. Občas
bývá jeho jméno chybně uváděno takto: Karel H. Borovský. Pokud byste si chtěli vyhledat
všechny odkazy, bez ohledu na to, jak je v dokumentech jméno uvedeno, máte několik možností. Buď byste museli v dotazu uvést všechny varianty jména a spojit je logickým operátorem OR, nebo můžete použít právě operátor NEAR. V dotazu s tímto operátorem je vhodné
uvést ta slova, která se s největší pravděpodobností budou vyskytovat všude. V tomto případě:
Karel NEAR Borovský.
Složité dotazy
Ze slov nebo frází vyjadřujících hledané téma můžete pomocí logických operátorů
a kulatých závorek (angl. parentheses) vytvářet složité dotazy (angl. complex queries, nested queries).
Příklad:
Dejme tomu, že byste chtěli získat informace o tom, jakým způsobem se na amerických univerzitách organizují distanční online kursy matematiky a fyziky. V zájmu vyčerpávajícího
hledání je možné použít složitý dotaz, který zahrne také synonyma, příbuzné výrazy a různé
pravopisné tvary.
Například v rozhraní pro pokročilé hledání (angl. advanced search) u služby AltaVista
můžete dotaz položit takto (nejdůležitější slova uvádějte vždy na začátku dotazu):
distance AND (learning OR teaching OR education) AND mathemat* AND physics
(course OR courses) AND (online OR net OR Internet OR Web OR electronic) AND
(academic OR university OR edu) AND ((United AND States) OR USA OR
America*) AND NOT com
Vzhledem k tomu, že se všechna uvedená klíčová slova zcela jistě vyskytují na Internetu ve
velkém počtu (i současně), neboť jde o poměrně obecné a frekventované termíny, vyplatí se u
služby AltaVista uvést, na které slovo má být kladen důraz při třídění výsledků hledání
(angl. sort by) – v tomto případě jde o slovo distance.
Poznámka: Dotaz byl takto zformulován pouze s cílem uvést příklad složitého dotazu. Pokud by hledal podobné informace odborník na danou problematiku, zřejmě by jej zformuloval jinak, konkrétněji.
Výsledkem takto zformulovaného dotazu je příliš velké množství nalezených odkazů. Výsledky by
bylo možné použít spíše jako zdroj informací pro zpřesnění a zúžení vyhledávacího dotazu.
24
Obecně platí, že by se uživatel bez hlubších zkušeností s hledáním informací (nejen na Internetu) neměl do složitých formulací dotazů pouštět. Tyto možnosti jsou sice užitečné pro informační profesionály, pro naprostou většinu běžných uživatelů Internetu – a zvlášť pro začátečníky – je zpravidla zbytečné ztrácet čas přemýšlením o tom, jak komplikovaný
kombinovaný dotaz zformulovat tak, aby jeho použití vedlo opravdu k žádoucímu výsledku.
Vyplývá to mj. i z povahy internetových zdrojů, z jejich obrovského množství i ze způsobu,
jakým jsou vytvářeny. Pokud se přesto pokusíte této možnosti využít, nepoužívejte příliš složité dotazy obsahující hodně slov. Zvolte jedinečné výrazy a vyjádřete hledané téma co nejpřesněji. Nepoužívejte tento způsob pro hledání obecných témat. A nezapomeňte přitom na
správné použití závorek! Při hledání lze sice použít i dotaz s různými operátory, aniž byste
seskupili hledané výrazy odpovídajícím způsobem pomocí závorek, museli byste však ještě
vědět, jakým způsobem daný vyhledávací nástroj jednotlivé operátory vyhodnocuje.
Používání znamének + a –
Většina vyhledávacích nástrojů všech typů podporuje používání znamének + (plus)
a - (minus) pro rychlé a jednoduché vyjádření toho, že hledané dokumenty musí (angl. must
contain) nebo naopak nesmí obsahovat (angl. must not contain) slova nebo fráze, před nimiž
se znaménko vyskytuje. Jinak řečeno, výrazy se znaménkem + jsou požadovány (angl. require), naopak výrazy se znaménkem - mají být vyloučeny (angl. exclude).
Jde vlastně o obdobu booleovských operátorů AND a NOT, proto se také v angličtině pro
tuto funkci používají termíny implied Boolean operators, případně pseudo-Boolean operators.
Použijete-li znaménka při formulaci dotazu, nezapomeňte na to, že mezi slovem a znaménkem nesmí být mezera. Znaménka plus a minus můžete použít u vyhledávacích strojů
pouze v jednoduchém režimu hledání. U některých předmětových katalogů (např. u Yahoo!
nebo u Open Directory) je můžete využít i v rozhraní pro pokročilé hledání.
Hledání fráze
Hledání fráze (angl. phrase searching) je velice užitečnou funkcí, jejíž použití zvyšuje pravděpodobnost, že vyhledané odkazy budou odpovídat hledané tematice. Tuto funkci podporují
snad všechny vyhledávací nástroje. Je možné ji použít v jednoduchém i v pokročilém režimu
vyhledávání.
Fráze je řetězec slov, které se v textu dokumentu musí vyskytovat v přesně stanoveném
pořadí vedle sebe. Výhodné je použití této funkce při hledání vlastních jmen nebo názvů. Aby
byla slova vyhledána jako fráze, je třeba je dát do dvojitých uvozovek (angl. double quotation marks). U některých služeb (například u AltaVisty) lze pro vyhledání fráze použít mezi
hledanými slovy také spojovník (angl. hyphen), středník (angl. semicolon), dvojtečku (angl.
colon) nebo čárku (angl. comma). Mezi slovy a spojovníkem (středníkem, dvojtečkou, čárkou) nesmí být mezera. Frázi zde tedy můžete vyjádřit takto:
"John Lennon"
John-Lennon
John;Lennon
John:Lennon
John,Lennon
25
Nabízí-li vyhledávací služba pokročilé hledání, je možné pro vyhledání fráze zvolit v pulldown menu příslušnou nabídku. Volba Exact phrase říká systému, že slova mají být vyhledána ve specifikovaném pořadí a tvarech jako fráze.
Hledání podle pole
Vyhledávací stroje nabízejí také možnost prohledávání své databáze podle pole (angl. field
nebo fielded searching). Znamená to, že lze omezit hledání pouze na ty zdroje, v nichž se hledané výrazy vyskytují v určité části dokumentu nebo informace o něm. Na tento způsob
hledání jsou zvyklí uživatelé knihovních katalogů nebo bází dat. Pole (autor, název, nakladatel, rok vydání apod.) je zde podmnožinou strukturovaného záznamu. Uživatel může omezit
prohledávání databáze podle jmen autorů, roku vydání, typu publikace, podle jazykového hlediska nebo dalších kritérií. Je to jedna z možností, jak dosáhnout co nejpřesnějších výsledků
vyhledávání.
HTML dokumenty jsou vlastně také určitým způsobem strukturované dokumenty, a tak
lze alespoň některých možností, které nabízí zdrojový kód, využít i při jejich indexování a
vyhledávání. Většina vyhledávacích nástrojů proto standardně umožňuje určitý typ hledání
dokumentů podle polí. Je možné omezit hledání podle názvu dokumentu nebo podle jeho adresy (URL nebo jeho části, například podle domény nejvyšší úrovně). Některé vyhledávací
služby však poskytují podstatně širší nabídku. Omezit prohledávání podle polí je možné (v
závislosti na konkrétní nabídce dané služby) buď volbou příslušného kritéria z menu nebo
přímým zápisem v dotazu.
Například AltaVista umožňuje hledání WWW dokumentů podle těchto polí: anchor,
applet, domain, host, image, like, link, text, title, url. Zadáte-li příkaz image:beatles,
měla by vám služba vyhledat odkazy na dokumenty, v nichž se vyskytují fotografie skupiny
Beatles, přičemž výraz „Beatles“ by měl být součástí názvu souboru (například beatles.gif).
I když jde o metodu formulace příkazu, která patří k pokročilému hledání, je možné použít
hledání podle pole u služby AltaVista ve všech úrovních vyhledávání. Zároveň můžete toto
hledání kombinovat s klíčovými slovy do složitějšího dotazu (viz příklad u hledání podle domény).
Další příklady hledání podle pole:
• anchor:text
příkaz vyhledá odkazy na zdroje, v nichž se v textu, který je hypertextovým odkazem, vyskytuje dané slovo nebo fráze – anchor:meta-hledace
• applet:class
příkaz vyhledá odkazy na dokumenty, které obsahují java-applety s uvedeným názvem –
•
•
•
•
applet:kecafon
domain:domainame
příkaz vyhledá odkazy na dokumenty z dané domény – domain:cz +knihovna
+katalog
host:hostname
vyhledá odkazy na webové dokumenty umístěné na počítači s uvedeným názvem –
host:knihovna
image:filename
příkaz vyhledá odkazy na dokumenty, v nichž se vyskytuje obrázek s uvedeným názvem –
image:pelisky.jpg
like:URLtext
26
•
•
•
•
příkaz vyhledá odkazy na dokumenty, které jsou podobné dokumentům s uvedenou adresou – like:http://knihovna.vsb.cz/
link:URLtext
příkaz vyhledá odkazy na dokumenty, z nichž vedou odkazy na uvedenou adresu – link:
knihovna.vsb.cz
text:text
příkaz vyhledá odkazy na dokumenty, kde se zadaná slova vyskytuj přímo v jejich textu
(nikoliv v polích image, link a URL) – text:"katalog knihovny"
title:text
příkaz vyhledá odkazy na zdroje, v jejichž názvu se vyskytuje uvedené slovo nebo fráze –
title:vyhledavaci nastroje
url:text
příkaz vyhledá odkazy na zdroje, v jejichž URL se vyskytuje zadaný výraz – url:hledace
Krácení podle slovních kořenů
Pro souběžné vyhledání různých tvarů slov můžete využít funkci krácení podle slovních kořenů (angl. truncation). Jde o vynechávání počátečních nebo koncových částí slov a jejich
nahrazení znakem hvězdička * (angl. asterisk). Tímto znakem můžete u příbuzných slov nahradit předpony (angl. prepositions) a koncovky (angl. endings). V praxi je častěji používán
pro nahrazení koncovek. Například místo několika výrazů retrieval, retrieving, retrieve
a retrieved je možné v dotazu uvést pouze jediný výraz: retriev*. Systém vyhledá všechna
slova začínající výrazem retriev. Tento způsob zápisu zjednodušuje a usnadňuje formulaci
dotazu. Jinak byste totiž pro zajištění podobného hledání museli vzít v úvahu všechny tvary
hledaných slov a spojit je v dotazu operátorem OR.
Některé vyhledávací služby však samy automaticky vyhledají všechna příbuzná slova,
dokonce i takové výrazy, pro jejichž současné vyhledání by vám použití hvězdičky nestačilo.
Pokud například v dotazu uvedete výraz think (myslet), najde vám taková služba automaticky
i dokumenty, v nichž se vyskytuje výraz thought (příčestí minulé slovesa think nebo podstatné jméno myšlenka, nápad) a samozřejmě i další příbuzné výrazy nebo gramatické tvary.
Této funkci se anglicky říká stemming. Znamená to, že bez ohledu na to, jaký tvar slov uvedete v dotazu, systém v databázi sám vyhledá možné další variace. Tuto funkci používá
služba HotBot jen v rozhraní pro pokročilé hledání, kde si ji můžete přepínačem zvolit, pokud
to budete považovat za užitečné (viz funkce: Enable Word Stemming, umožnit krácení
slov). Zatímco Yahoo! zkracuje slova automaticky, při práci se službou Google tuto funkci
nelze použít vůbec.
Pokud je tato funkce používána automaticky (aniž byste o tom sami rozhodli), nemusí být
vždy výhodná, neboť rozšiřuje množinu vyhledaných odkazů, často o nežádoucí (irelevantní)
dokumenty. Naštěstí je možné ji obejít tím, že se požadovaný výraz vloží do uvozovek jako
fráze. Stejně je nutné se dívat i na funkci umožňující zkrátit slova pomocí hvězdičky. Má
smysl ji použít tehdy, když budete hledat úzce specializované téma a bude potřebovat zajistit,
aby vám systém opravdu něco vyhledal. Krácení slov vede k nárůstu počtu vyhledaných odkazů a zvyšuje pravděpodobnost, že se mezi výsledky budou vyskytovat odkazy na zdroje, jež
s hledanou problematikou nesouvisejí.
Používání zástupných znaků
Další funkcí, kterou nabízejí vyhledávací služby, je používání zástupných znaků (angl. wild
cards). Mezi ně patří kromě hvězdičky také otazník ? (angl. question mark), dolar $ nebo
27
procento % (angl. percent). Způsob používání zástupných znaků pro maskování je nutné si
zjistit v nápovědě vyhledávacích služeb, neboť takřka každá z nich používá pro tuto funkci
jiné znaky. U některých služeb však maskování nelze použít vůbec (například u Google). Zástupné znaky lze použít pro nahrazení písmen (jednoho nebo více) uprostřed slov. Například
zápisem wom*n říkáme systému, že chceme vyhledat jak slovo woman, tak women (tedy
jednotné i množné číslo).
Pro používání této funkce při formulaci dotazu platí totéž, co bylo uvedeno u funkce předchozí (krácení podle slovních kořenů). Využijte ji jen tehdy, pokud budete hledat úzce specializované téma a budete chtít hledáním zajistit vyčerpávající průzkum.
Používání velkých písmen
Ovlivnit výsledky hledání můžete také používáním VELKÝCH písmen (angl. capital letters,
upper case), pokud ovšem daný systém rozlišuje mezi malými a velkými písmeny (angl. case
sensitivity). Jejich použití může zpřesnit výsledky hledání při vyhledávání vlastních jmen
nebo názvů. Většina vyhledávacích služeb však velká písmena nerozeznává (angl. case
insensitivity). Týká se to i českých fulltextových vyhledávacích nástrojů.
Znamená to tedy, že je úplně jedno, zda v dotazu (například u vlastních jmen) použijete
malá nebo velká písmena. Budete-li do výrazu zařazovat vlastní jména nebo názvy, můžete
používat malá písmena (angl. lower case) i na začátku slov (jmen, názvů), neboť systém vám
vyhledá jak odkazy, v nichž se vyskytují hledaná slova s malými písmeny, tak s písmeny velkými. Nemusíte si tedy pamatovat, u kterých služeb je velká písmena pro hledání možné použít. Občas se ovšem vyplatí zúžit vyhledanou množinu a zpřesnit hledání (zvlášť hledáte-li
dokumenty, kde jsou výrazy ve jménech a názvech i běžnými, hodně se vyskytujícími slovy)
a tedy omezit hledání použitím správného pravopisu. V tomto případě můžete využít toho, že
ji v rozhraní pro pokročilé hledání podporuje služba AltaVista.
Co jsou to stop-slova
Jsou to slova, která jsou při indexování databáze ignorována na základě předem stanoveného
slovníku stop-slov (ten může být samozřejmě upravován – doplňován – o další výrazy). Bývají jimi zpravidla členy, spojky, předložky, booleovské operátory, číslovky, velmi obecné a
často se opakující výrazy nebo hodně používané internetové výrazy (například slova jako
search, Web, http nebo HTML). Důvodem pro používání stop-slov je jednak úspora místa,
jednak snaha o urychlení procesu vyhledávání.
Je-li některé ze stop-slov součástí fráze, pak je ovšem možné je pro hledání použít. Identifikuje-li indexační program části textů jako fráze, zařadí je v databázi do slovníku frází (nebo
informace o jejich výskytu v dokumentech propojí s převzatým slovníkem frází), a tak se mohou použít v dotazu i členy, spojky, předložky nebo číslovky (například v názvech organizací
apod.). A samozřejmě i často používaná slova. Bohužel, každá ze služeb má vlastní seznam
stop-slov, který navíc nebývá uživatelům Internetu k dispozici. Přitom výsledkem použití některého z takových slov může být třeba podobná zpráva: Sorry-- your search yielded no results (Vaše hledání bohužel nepřineslo žádné výsledky). Z takto formulované odpovědi se
ovšem nedozvíte, co bylo příčinou nulového výsledku hledání.
Je-li standardním (skrytým) logickým operátorem použité služby AND nebo použijete-li
tento operátor v dotazu vy sami, pak právě přítomnost stop-slova v něm může vést
k nulovému výsledku hledání. Některé vyhledávací služby (například Google) však stop-slova
samy vyřadí z uživatelova dotazu, a tím podobnou situaci vyloučí. Je-li vyřazené slovo pro
28
výsledek hledání významné, pak nezbývá než dotaz přeformulovat: například vložit před
slovo znaménko + nebo je spojit s dalším výrazem do fráze (pomocí dvojitých uvozovek).
Google vyhledává stop-slova automaticky, rozpozná-li je jako součást fráze.
Stop-slova do svých databází nezařazují AltaVista (pouze u jednoduchého hledání,
u pokročilého hledání lze tato slova ve vyhledávacím dotazu použít), Inktomi (tj. např.
HotBot) a Google. Naopak stop-slova nepoužívají – indexují všechna slova z dokumentů –
AllTheWeb a NorthernLight Research.
Vyhledávání podle časových údajů
Jednou z možností, jež vyhledávací nástroje nabízejí, je omezení prohledávané databáze podle
časového hlediska. Problémem ovšem je, co je datem míněno: datum vytvoření dokumentů,
data aktualizace nebo datum, kdy byl odkaz do databáze zařazen (či v databázi aktualizován)?
Datum vytvoření a aktualizace webových dokumentů často ve zdrojovém kódu schází, proto
pokud budete časové omezení využívat, počítejte s tím, že se tento údaj spíše než k vlastnímu
obsahu dokumentů vztahuje k datu, kdy daná služba odkaz do své databáze zařadila nebo
k datu, kdy byl dokument naposledy navštíven jejím robotem. Proto volte toto kritérium
pouze v případě, že hledáte opravdu jen nejnovější informace k danému tématu, nebo tehdy,
pokud nepotřebujete provést vyčerpávají hledání.
Jak si poradit s diakritikou
Při hledání informačních zdrojů se jistě setkáte také s problémem diakritických znamének
(netýká se samozřejmě jen češtiny). Použít ve vyhledávacím dotazu diakritiku nebo ne?
Máte dvě možnosti: buď použijete pro zápis slov správný pravopis s diakritikou nebo diakritická znaménka nepoužijete. Buď vám služba informace vyhledá nebo bude výsledkem hledání chybová zpráva. Podle výsledku hledání se můžete rozhodnout, jak dále. To je samozřejmě ten nejjednodušší přístup k dané problematice.
Nejčastěji zřejmě budete hledat české zdroje. Opět máte dvě možnosti: buď je můžete hledat prostřednictvím celosvětových vyhledávacích služeb (AllTheWeb, AltaVista, Google,
HotBot, NorthernLight Research aj.) nebo použijete vyhledávací nástroje specializované na
český Internet Atlas.cz, Centrum, Seznam aj.). Můžete přitom použít vyhledávací rozhraní
předmětových katalogů nebo fulltextové vyhledávače.
Vyhledávání českých zdrojů v celosvětových vyhledávacích strojích
Budete-li chtít například hledat české zdroje prostřednictvím klíčových slov v celosvětové
vyhledávací službě – Google, AllTheWeb, AltaVista apod., hledejte je samozřejmě česky,
nikoliv např. anglicky. Můžete si nejdříve vyzkoušet hledání bez diakritických znamének.
Vyhledávací služba vám (pokud ovšem existují zdroje, v nichž se hledaná slova vyskytují)
najde odkazy na dokumenty se správným kódováním a dovede vás na stránky s českou diakritikou i s kódováním odpovídajícím nastavení vašeho prohlížeče (nebo si ve vyhledaném zdroji odpovídající kódovou stránku najdete sami).
Můžete také zkusit zadat dotaz správně česky bez jakéhokoliv předchozího nastavování
parametrů dané služby. Na základě odpovědi systému se pak rozhodnete, jak dál. Zadáte-li
například službě Google dotaz rešeršní služby, aniž byste upravovali volbu jazyka pro prohledávání, tato služba vám vyhledá zdroje, v nichž se zadaná slova vyskytují. To, že možná
výsledky svého hledání zobrazí s chybami (v kódové stránce neodpovídající nastavení vašeho
prohlížeče), pravděpodobně vadit nebude. Důležité je, že vám našla zdroje, které potřebujete.
29
Pokud ovšem stejný příkaz zadáte „správně česky“ službě HotBot, její odpovědí bude, že nic
nenalezla (Sorry, your search yielded no results. ) a že jste se patrně při psaní spletli. Pokud
tedy budete chtít tuto službu přesto pro hledání českých zdrojů využít, odstraňte ze slov diakritická znaménka. Na příkaz resersni sluzby už bude HotBot reagovat a zdroje na dané téma
v češtině vám najde.
Některé vyhledávací služby umožňují nastavit parametry pro hledání informačních zdrojů
v jiných jazycích než je angličtina. Například u služby AltaVista si můžete nastavit její parametry pro vyhledávání dokumentů v češtině (Tools > Search Settings > Languages to
search in: > Czech).
U služby Google si můžete nastavit češtinu v nabídce Preferences (vyhledá vám však
české zdroje se správnou diakritikou i tehdy, pokud v dotazu použijete slova bez diakritických
znamének). Pokud si ovšem nastavíte parametry služby na hledání v češtině, nezapomeňte, že
vám toto nastavení ovlivní i vyhledávání zdrojů daným systémem v jiných jazycích. Vhodnější je po vyhledání českých zdrojů opět změnit funkce dané služby na její standardní nastavení (pokud ji ovšem nebudete používat výhradně na vyhledávání zdrojů v češtině). Službou
NorthernLight Research můžete hledat česky s diakritikou, aniž byste museli cokoliv
nastavovat, je však vhodnější hledat české zdroje bez diakritických znamének, neboť jinak
vám služba vyhledá větší množství nerelevantních odkazů.
Výsledky hledání klíčových slov se správnou diakritikou a současným nastavením vyhledávacího nástroje podle vaší volby a výsledky hledání se standardním nastavením dané služby
a bez diakritických znamének se budou s největší pravděpodobností lišit. Záleží tedy na tom,
co hledáte a zda potřebujete provést vyčerpávající hledání.
Pokud tedy budete chtít hledat české zdroje prostřednictvím zahraničních celosvětových
služeb, použijte nejdříve jejich standardní nastavení a hledané české výrazy v dotazu zapište
bez diakritických znamének. V závislosti na odpovědi systému na takto zadaný dotaz se rozhodněte, zda se vám vyplatí hledat ještě jednou se správným českým pravopisem. Pokud odpovědí systému na váš dotaz bude sdělení, že nic nebylo nalezeno, pak buď vyzkoušejte hledání s korektní češtinou a s odpovídajícím nastavením parametrů dané služby nebo zkuste
rovnou hledat jinou vyhledávací službou (opět jednoduše bez diakritiky a beze změn v jejím
standardním nastavení). Počítejte však s tím, že pro opravdu vyčerpávající nebo co nejpřesnější hledání bude vždy vhodnější u zahraniční služby podporu korektního vyhledávání
v českém jazyce nastavit, pokud to daná služba umožňuje.
Diakritika a české vyhledávací služby
Při práci s českými vyhledávacími nástroji pro fulltextové vyhledávání si starosti se správným nastavením češtiny nemusíte dělat. Dotazy můžete zadávat s diakritikou i bez ní. Výsledky hledání by se měly v obou případech shodovat, použijete-li stejný způsob formulace
dotazu. Je však zřejmé, že je značný rozdíl např. mezi významem slov kleč a klec. Zatímco
výše zmíněný český fulltextový vyhledávač vám na dotaz kleč vyhledá dokumenty, v nichž se
většinou píše o klecích, americká služba Google vám spolehlivě (pokud si nastavíte správné
vyhledávání češtiny) na prvních místech výsledků hledání nabídne zdroje, v nichž se
vyskytuje hledaný výraz kleč (ve významu kosodřevina, nejen formálně slovo kleč, například
jméno Kleč). Velkou výhodou zahraničních celosvětových vyhledávacích nástrojů (kromě
jejich rozsahu a aktuálnosti – i ve vztahu ke zdrojům z českého Internetu) oproti českým
službám je, že z výsledků hledání odstraní odkazy na tytéž dokumenty v různých
kódových stránkách.
Pokud chcete použít pro vyhledání českých webových zdrojů některý z předmětových
katalogů, pak v českých předmětových katalozích (Atlas.cz, Centrum, Seznam apod.),
používejte výrazy s diakritikou či bez ní, záleží na tom, co pro vás bude výhodnější. Tento
30
způsob vyhledávání můžete použít i pro hledání v zahraničních předmětových katalozích
(Open Directory, Yahoo! apod.), ovšem nezapomeňte na to, že tyto služby registrují české
zdroje v podstatně menším rozsahu, než české předmětové katalogy a nejsou tedy samy
o sobě pro podobný způsob vyhledávání českých zdrojů vhodné (pokud ve své databázi hledané zdroje nenajdou, „pověří“ ovšem zpravidla zpracováním dotazu partnerskou službu,
takže výsledky hledání zprostředkovaně obdržíte, například místo Yahoo! vám je poskytne
Google.)
Vyhledávací rozhraní vyhledávacích služeb
Předmětové katalogy jsou určeny především k vyhledávání informací procházením hierarchicky uspořádaných předmětových hesel. Současně tyto služby nabízejí jednoduché rozhraní pro hledání klíčovými slovy jako alternativní způsob prohledávání databáze registrovaných zdrojů. Některé ze služeb tohoto typu umožňují přejít také na rozhraní pro pokročilé
hledání, v tomto případě jde však většinou o poměrně jednoduchou nabídku několika dalších
kritérií (například prohledávání vybrané kategorie místo celého katalogu, výběr logického
operátoru pro spojení klíčových slov apod.), zpravidla volbou příslušné funkce z menu.
Oproti tomu standardní funkcí vyhledávacích strojů je průzkum jejich databáze na základě jednoduchého dotazu v přirozeném jazyce. K tomuto účelu slouží jednoduché rozhraní na jejich vstupní domovské stránce. Použijete-li jednoduché hledání, ponecháváte
průběh zpracování výsledků hledání danému systému.
Možnost ovlivnit výsledky hledání v závislosti na vašich konkrétních potřebách vám poskytují další funkce vyhledávacích strojů, které umožňují využít metod pokročilého hledání.
Současné vyhledávací nástroje používají pro pokročilé hledání především možnost výběru
požadovaných funkcí z připraveného menu.
Jednoduché hledání
Jednoduché hledání (angl. simple search) představuje:
• vyhledávací formulář (angl. search box, query box) na vstupní obrazovce pro zápis
jednoduchého dotazu klíčovými slovy v přirozeném jazyce s možností jejich spojení do
logického vztahu pomocí znamének (plus nebo minus, uvozovky), lze použít také hvězdičku pro pravostranné zkrácení slov (potřebujete-li vyhledat různé tvary slov se stejným
základem),
• pull-down menu pro volbu jazyka hledaných dokumentů,
• možnost nastavit parametry, především pro zobrazení výsledků hledání (angl. customize
settings).
Rozhraní pro jednoduché hledání je standardní nabídkou nejen u všech vyhledávacích
strojů, ale také u předmětově orientovaných vyhledávacích služeb. Proto je také najdete vždy
na jejich vstupní stránce. Interakce mezi uživatelem a vyhledávacím nástrojem se děje
prostřednictvím „příkazového řádku“, který je v tomto případě představován velmi
jednoduchým formulářem. Do okénka formuláře lze vepsat jednoduchý dotaz tvořený
několika klíčovými slovy, které je možné spojit do vzájemných vztahů pomocí znamének plus
a minus nebo uvozovkami. Uživatelům je občas ještě nabídnuta možnost (volbou v pull-down
menu nebo přepínačem) ovlivnit počet zobrazených odkazů na jedné stránce s výsledky nebo
zvolit oblast, jež má být dotazem prohledávána, například omezit hledání jen na dokumenty
v určitém jazyce. Poklepání myší na příslušné tlačítko (search, go, hledej apod.) odešle dotaz
systému ke zpracování.
31
Hledání prostřednictvím jednoduchého rozhraní vás dovede zpravidla k velmi dobrému
výsledku, a proto se ve většině případů nemusíte příliš zatěžovat přemýšlením nad možnostmi
využití pokročilých metod hledání.
Někdy je však výsledkem jednoduchého způsobu hledání příliš rozsáhlá množina vyhledaných dokumentů. Dokonce se vám občas bude zdát, že snad systém ani nepoužil pro hledání vámi zadaná klíčová slova. Použijete-li pro hledání pouze jeden obecný či frekventovaný
výraz, je to celkem pochopitelné. Ani zadání více slov pro hledání vyjadřujících podrobněji
vaše potřeby však občas nepovede k žádoucímu výsledku. Vyhledávací služby vás přitom
k takové jednoduché formulaci dotazu vyzývají. V čem je tedy problém? Jednou z příčin je
skryté standardní nastavení pro logické spojování zadaných slov operátorem OR.
Standardní operátor OR
Při jednoduchém hledání vkládáte do formuláře klíčová slova v přirozeném jazyce. Zpravidla
nepoužijete pro vyjádření jejich vzájemného vztahu žádný operátor. Ovšem systém, aniž byste
si to uvědomovali, to provede za vás v souladu s tím, jaký je tzv. předem určený (default)
operátor konkrétní vyhledávací služby. Zpočátku používala naprostá většina vyhledávacích
nástrojů standardně operátor OR, v současnosti však již převládá nastavení na operátor AND.
Například jednoduše zformulovaný dotaz vyhledávací nástroje může být v různých službách interpretován odlišným způsobem:
vyhledávací OR nástroje
vyhledávací AND nástroje
vyhledávací NEAR nástroje
"vyhledávací nástroje"
Spojení slov operátorem OR způsobí, že budou nalezeny jak odkazy na dokumenty, v nichž
budou informace o vyhledávacích nástrojích, tak také na dokumenty vztahující se
k nejrůznějším nástrojům dalším.
I z tohoto jednoduchého příkladu je zřejmé, že se výsledky vyhledávání v závislosti na
interpretaci dotazu systémem nemusí vždy shodovat s vašimi představami. Je proto užitečné
vědět předem, jaký je standardní operátor použité služby. Můžete tím předejít možné
dezinterpretaci vašeho dotazu daným systémem. Budete-li znát standardní funkce
vyhledávacích nástrojů, můžete se lépe rozhodnout, kterou ze služeb použít. Buď si zvolíte
službu, která nejlépe vyhovuje pro formulaci dotazu v přirozeném jazyce, nebo budete vědět,
kdy se vyplatí použít znaménka plus nebo minus, případně hledání fráze (vložením slov do
dvojitých uvozovek), abyste zajistili, že vyhodnotí vzájemný vztah zadaných slov způsobem,
jaký potřebujete.
Použití booleovských operátorů AND, OR a NOT nebo distančního operátoru NEAR při
jednoduchém hledání většina vyhledávacích nástrojů neumožňuje).
Standardní (default) operátor vyhledávacích nástrojů při jednoduchém hledání:
• operátor AND – AllTheWeb, Google, HotBot, NorthernLight Research, LookSmart,
Overture
• operátor OR – AltaVista (pokud výrazy nerozpozná jako frázi), Atlas.cz, Centrum,
NAJDI.TO, Seznam (při hledání v předmětovém katalogu i fulltextem)
Vyhledávací program služby AltaVista nejdříve předpokládá, že jste pro hledání použili frázi.
Pokud zadaná slova ve svém slovníku frází nenalezne, spojí je operátorem OR.
32
Nejste-li si jisti, jaký standardní operátor vyhledávací služba používá, můžete si to rychle
zjistit sami i bez nápovědy (zde se zpravidla tyto informace také nedozvíte). Stačí zadat jednoduchý dotaz se dvěma klíčovými slovy, z nichž jedno je nesmyslné, například: dogs
xhjfglllmnopk. Nebo česky: psi xhjfglllmnopk. Pokud vám systém odpoví, že nic nenalezl,
jde o nástroj se standardním operátorem AND. Pokud vám služba vyhledá odkazy na zdroje,
ve kterých najdete zmínku o psech, pak jde o službu se skrytým operátorem OR.
Proč je používán standardní operátor OR
Budete-li pro své hledání používat dotaz vyjádřený v podstatě přirozeným jazykem (tak jak
vám to ostatně služby doporučují), budete tedy chtít, aby se ve vyhledaných dokumentech vyskytovala všechna slova současně. To vám zajistí operátor AND spolehlivě, operátor OR jen
někdy. Proč tedy některé služby používají standardně operátor OR?
Poněkud zjednodušeně řečeno, při hodnocení relevance vyhledaných odkazů vycházejí
některé služby ze statisticko-pravděpodobnostních metod. Na prvních místech výsledků hledání jsou zobrazeny odkazy na dokumenty s nejvyšším výskytem použitých klíčových slov.
Často jsou opravdu v dokumentech zařazených ve výsledcích výše obsažena všechna hledaná
slova. Teprve se snižující se relevancí nalezených odkazů můžete pozorovat, že v nich některé
z použitých klíčových slov chybí. Hledáte-li nějaké frekventované téma nebo příliš obecně,
nemáte možnost uvědomit si, že jste se při formulaci dotazu vlastně dopustili chyby, protože
se zřejmě spokojíte jen s prvními vyhledanými odkazy. Jestliže vám systém vyhledá a na prvních místech výsledků nabídne odkazy, které vám budou vyhovovat, pak je to sotva možné
považovat za chybu. Pokud vám ovšem systém nic nenajde, pak to může být způsobeno právě
standardním operátorem OR.
Při prezentaci výsledků se vám může zdát – zvlášť při použití obecných výrazů nebo při
hledání nějakého frekventovaného tématu, že systém vámi zadané výrazy spojil operátorem
AND, tedy tak, jak jste si to nejspíš přáli. Vzhledem k tomu, že všechny vyhledávací služby
umožňují použít alespoň znaménka plus nebo minus jako podmínku pro výskyt nebo vyloučení slov z hledání, a také dvojitých uvozovek pro vyhledání fráze, můžete tedy jejich pomocí
částečně „obejít“ nežádoucí standardní operátor a zajistit si tak určitou kontrolu nad tím, jak
má být váš dotaz systémem interpretován. Zvlášť výhodné (a nijak komplikované) je spojení
slov do frází pomocí dvojitých uvozovek. Budete-li hledat například informace o vyhledávacích nástrojích, pak použijte pro hledání výraz "vyhledávací nástroje". Vyhnete se tak nejsnáze odkazům na dokumenty, které se zabývají jinými nástroji.
Pokročilé hledání
Pokročilé hledání (angl. advanced search) vychází vstříc méně zkušeným uživatelům, kteří
však mají zájem hledat informace takovým způsobem, aby mohli ovlivnit proces vyhledávání.
Toto rozhraní nabízí zpravidla:
• vyhledávací formulář pro zápis dotazu je doplněn o další možnosti výběrem z pull-down
menu, případně volbou příslušného kritéria přepínačem,
• hledání podle polí – uživatel může určit, ve kterých prvcích ve zdrojovém kódu dokumentů se mají hledaná klíčová slova vyskytovat,
• dále lze výběrem položek z menu omezit prohledávání databáze podle kritérií, jako jsou
datum, jazyk dokumentů, umístění dokumentů (zeměpisně nebo podle domény apod.),
možnost určit konkrétní webové sídlo, jež má být prohledáváno, zvolit počet zobrazených
odkazů (= výsledků hledání) na jedné stránce a rozhodnut, zda má být v případě vyhledání
více odkazů z jednoho webového sídla zařazen do výsledků hledání jen jeden nalezený
dokument.
33
Uživatel má možnost využít všech nabídek podle své konkrétní potřeby, pokud některou
z nabízených funkcí nevyužije, systém zpracuje dotaz podle svého standardního nastavení.
Součástí rozhraní pro pokročilé hledání může být i pole pro vložení (složitého) dotazu
zformulovaného prostřednictvím logických operátorů (např. AltaVista Advanced Search).
Použití rozšířených možností pro vyhledávání (oproti jednoduchému standardnímu nastavení většiny vyhledávacích služeb) usnadňuje prohledávání obrovského informačního prostoru Internetu, šetří čas při vyhodnocování výsledků hledání a především zpřesňuje výsledky hledání. V závislosti na konstrukci dotazu získáte tímto hledáním zpravidla přiměřenou množinu vyhledaných odkazů, v níž je snadné lokalizovat nejvhodnější informační zdroje
odpovídající vašim potřebám. Použití pokročilejších vyhledávacích technik díky výběrům z
menu není nijak složité, musíte však respektovat některé odlišnosti u jednotlivých služeb,
abyste skutečně dospěli k požadovaným výsledkům. Díky změnám vyhledávacího rozhraní
(přechod od původní přímé formulace dotazu k výběru z menu), je situace mnohem jednodušší.
Rozdíly mezi nabídkou jednotlivých služeb se týkají spíše některých specializovaných
funkcí, zvláště tehdy, pokud je nutné zformulovat příkaz pro určitou funkci přímo v dotazu
(například u AltaVisty při hledání podle polí).
Kdy použít jednoduché a kdy pokročilé rozhraní pro hledání
Při jednoduchém hledání využíváte výhod standardního nastavení vyhledávacího mechanismu
dané služby. Rozhodnutí o tom, které webové stránky jsou relevantní vašemu dotazu, tedy
ponecháváte na vyhledávacím nástroji.
Pokročilé metody vyhledávání vám poskytují možnost převzít určitou kontrolu nad vyhledáváním a vyhodnocením nalezených zdrojů. Při práci s nimi máte možnost použít vlastní
znalosti vyhledávacích technik i znalost jazyka a hledané problematiky pro co nejpřesnější
vyhledání potřebných informačních zdrojů.
Rozhodnutí o tom, které rozhraní použít, záleží na tom, co v daném okamžiku hledáte. Je
závislé na povaze dotazu, ale také na vašich schopnostech využít v maximální míře možností,
jež dané vyhledávací rozhraní (použitého vyhledávacího nástroje) nabízí. Jde-li o obecný dotaz, kdy se dá očekávat, že výsledkem průzkumu bude více relevantních zdrojů, než jste
schopni zpracovat (a než potřebujete), pak je vhodné zvolit jednoduché hledání.
Pro ostatní potřeby je možné doporučit v podstatě stejný postup s tím, že prvotní výsledky
hledání můžete použít jako určitý zdroj informací, buď pro úpravu dotazu nebo pro další hledání s využitím rozšířeného hledání (především pro zúžení dotazu podle určitých kritérií – jazyk, zeměpisná oblast, prvky ve zdrojovém kódu, datum apod.). Nejdůležitější totiž není použité rozhraní, ale vaše schopnost vybrat ty nejvhodnější termíny pro vyjádření hledaného
tématu.
Každý zkušený uživatel (a zvlášť to platí pro informační profesionály) by měl znát pokročilé metody hledání dostatečně, aby byl schopen je účinně využít pro hledání zdrojů na Internetu. měl by umět ocenit i další možnosti, jež mu vyhledávací nástroje nabízejí. Méně zkušený uživatel, především začátečník, by se měl raději spolehnout na vyhledávací mechanismy
dané služby, případně využít určitých možností, které jsou mu nabídnuty prostřednictvím
menu.
Jak postupovat při práci s jednoduchým hledáním
Pokud se rozhodnete využít standardních funkcí vyhledávacích strojů, tedy jednoduché hledání, začněte nejdříve výběrem vhodných klíčových slov. Zvolená slova použijte pro hledání
v přirozeném jazyce. Na prvních místech v dotazu uveďte slova, jež mají pro výsledek hledání
34
největší význam. Některé vyhledávací služby totiž přikládají slovům na začátku dotazu větší
váhu při hodnocení výsledků vyhledávání. Pokud je to nutné, použijte v dotazu synonyma a
příbuzné výrazy, ale ne ve velkém množství, neboť to může vést ke zkreslení výsledků hledání. (Raději proveďte několik samostatných hledání, je-li to nezbytné.) Pokud výsledek neodpovídá vašemu očekávání, změňte pořadí slov v dotazu. Užitečné je použití znamének plus
a minus, případně uvozovek pro označení fráze. Znaménka plus a minus však nepotlačí standardní operátor. Je-li standardním operátorem OR, pak to neznamená, že znaménko plus
změní tuto standardní funkci na operátor AND. Použití znaménka však ovlivní způsob setřídění výsledků vyhledávání. Pokud výsledky hledání nebudou odpovídat vašemu záměru, pak
zkuste přeformulovat dotaz nebo použít rozhraní pro pokročilé vyhledávání. Samozřejmě
zvažte, zda se nevyplatí vyzkoušet hledání prostřednictvím některé další vyhledávací služby.
Po získání určitých zkušeností s hledáním informací na Webu opravdu zjistíte, že dotaz
zformulovaný v podstatě v přirozeném jazyce a skládající se jen z několika klíčových slov vystihujících hledanou problematiku je překvapivě tou nejrychlejší a nejjednodušší cestou
k nalezení potřebných informací. Musíte si ovšem umět zvolit vhodný nástroj pro hledání,
znát některé jeho standardní funkce a také dokázat vybrat vhodná klíčová slova.
Výběr klíčových slov souvisí hlavně se znalostí hledané problematiky a způsobu, jakým
jsou vytvářeny webové dokumenty. Při výběru vhodných slov nezapomeňte na to, že je důležité vybrat jedinečné výrazy a vyjadřovat se co nejpřesněji. Obecné formulace vedou
k výsledkům, ve kterých se obtížně identifikují odkazy vedoucí opravdu na stránky s hledaným tématem.
Zobrazení výsledků vyhledávání
Pro zhodnocení výsledků vyhledávání má velký význam i způsob zobrazení nalezených odkazů. Každá z vyhledávacích služeb má své vlastní standardní nastavení pro zobrazování výsledků hledání (angl. results, hits), uživatel má však možnost je změnit volbou zobrazení
(angl. display options) podle vlastní potřeby. Zpravidla jde o volbu počtu vyhledaných odkazů
zobrazených na jedné straně (standardně 10 nalezených odkazů, možnost zvýšení zpravidla
na 25, 50, 75 a 100) a o výběr rozsahu popisných údajů o vyhledaných odkazech.
Pro zkušeného uživatele může být výhodná například kombinace velkého počtu odkazů na
jedné straně pouze se zobrazením adres (URL) dokumentů, neboť takový uživatel dokáže již
z adresy zdroje odhadnout užitečnost a vhodnost nalezených odkazů. Zobrazení většího počtu
odkazů na jedné straně navíc šetří čas, ovšem za předpokladu kvalitního připojení k Internetu.
Naopak méně zkušenému uživateli mohou pomoci stručné anotace nebo shrnutí, jež bývají
součástí zobrazených výsledků. Někdy totiž nelze z pouhého názvu dokumentu rozpoznat
(zvlášť když se mezi nalezenými odkazy vyskytnou i takové, u nichž tvůrci dokumentů zapomněli názvy ve zdrojovém kódu uvést), zda jeho obsah skutečně odpovídá tematice, kterou
hledáte.
Například u služby HotBot můžete zvolit v menu Return Results (v Advanced Search)
kromě počtu zobrazených odkazů na jedné straně také rozsah informací o nalezených odkazech: full descriptions (úplné popisy), brief descriptions (krátké popisy), URLs only (pouze
URL).
AltaVista Advanced Query umožňuje ovlivnit způsob seřazení (angl. sorting, sort by)
nalezených výsledků hledání podle určitých slov. Odkazy na nalezené dokumenty pak budou
seřazeny sestupně podle největšího počtu výskytu těchto slov. Slova, na něž má být při řazení
kladen důraz, mohou být slova z dotazu nebo je možné použít další termíny upřesňující dotaz.
V rozhraní pro rozšířené hledání (zde angl. Power Search) u NorthernLight Research si
můžete vybrat zobrazení výsledků podle relevance nebo podle data.
35
Nápovědy k vyhledávacím službám
Většina vyhledávacích služeb poskytuje poměrně podrobné návody, jak s nimi pracovat,
takže není problémem si tyto informace při vlastní práci s jednotlivými službami zjistit. Zpravidla je najdete pod nabídkou help (nápověda). Užitečné mohou být rovněž informace, které
lze nalézt v dokumentech typu FAQs (angl. Frequently Asked Questions – často kladené dotazy). Výhodné je vytisknout si stránky s nápovědou a mít je po ruce vždy, když se do nějakého hledání budete chtít pustit. Zvlášť užitečná pomůcka to pro vás bude při komplikovanějším hledání, budete-li nuceni použít složitější formulaci dotazu.
Díky neustálým změnám, kterými procházejí i nejpoužívanější vyhledávací nástroje, je
udržování přehledu o aktuálních vyhledávacích technikách jednotlivých služeb dosti náročnou
záležitostí. Změny jsou zpravidla vedeny snahou o zkvalitnění a rozšíření nabídky služeb.
Mnohdy tyto novinky doprovázejí změnu majitele nebo sloučení několika služeb. Jakákoliv
změna designu oblíbeného a odzkoušeného vyhledávacího nástroje by pro vás měla být signálem k opětovnému prozkoumání návodu pro práci s ním. Jinak se při dalším hledání můžete
zbytečně ochudit o případné novinky usnadňující přístup k informacím na Internetu. Můžete
se ovšem také dopustit chyby při formulaci dotazu a tím se rovněž připravit o odkazy na dokumenty k tématu, které hledáte.
Hodnocení výsledků vyhledávání
Hodnocení výsledků vyhledávání bývá často ovlivněno subjektivními představami uživatele.
V případě nulového výsledku hledání nejdříve zvažte, zda jste správně zformulovali dotaz
nebo se nedopustili pravopisné chyby. Zkusíte-li dotaz přeformulovat a výsledek bude přesto
shodný s původním výsledkem hledání, pokuste se ještě o hledání prostřednictvím některé
další vyhledávací služby.
Ohromný rozvoj Internetu ani zdaleka neznamená, že na něm lze opravdu nalézt cokoliv
na jakékoliv téma. Čím více budete mít předchozích zkušeností se zdroji na Internetu
i s hledáním, tím snadněji budete moci posoudit, zda nulový výsledek hledání skutečně znamená, že na Internetu na dané téma opravdu nic (dosud) není publikováno.
Hledáte-li nějaké obecné téma, zpravidla získáte více odkazů, než budete moci využít.
Může se samozřejmě stát, že nalezené dokumenty budou obsahovat zadaná slova
v požadovaném vztahu, ale kvalita nalezených dokumentů bude ve skutečnosti velmi nízká.
Bohužel se to stává často, ale z hlediska kvality obsahu si musí vždy každý uživatel nalezené
odkazy vyhodnotit sám. V tom vám v naprosté většině případů samy vyhledávací nástroje
příliš nebudou nápomocny, protože ty mohou většinou vyhodnotit jen formální relevanci dokumentů. Určité hodnocení kvality sice nabízejí recenzované zdroje ve virtuálních knihovnách, ale ty registrují relativně malé množství zdrojů, buď populárních v celosvětovém měřítku nebo v určité oblasti, na kterou jsou specializovány, a proto je stěží můžete využít pro
úzce specializované hledání nebo pro vyhledávání zdrojů dostupných na českém Internetu.
Jak ovlivňují výsledky hledání vyhledávací služby
Vzhledem k tomu, že služby založené na fulltextovém indexování pracují s rozsáhlými texty
dokumentů v přirozeném jazyce, musí se uživatelé při hodnocení výsledků vyhledávání
v určitých případech sami vyrovnat s některými jazykovými problémy ovlivňujícími výsledky hledání. Používané statisticko-pravděpodobnostní metody vyhledávacích systémů totiž
při zpracování takového množství zdrojů nemohou vždy uspokojivě vyřešit některé jazykové
problémy, jako jsou například polysémie, synonymie, dvojznačnost apod. Takže se občas
36
nejspíš stane, že se hledaná slova skutečně v textu budou vyskytovat a vyjadřovat dokonce
hlavní téma dokumentu. Sám dokument se přesto bude zabývat něčím jiným, než vámi hledaným tématem. Řada slov má totiž dva nebo dokonce více významů. Kromě toho záleží význam slov i na tom, v jakém kontextu jsou použita.Vyhledávací nástroj by měl tedy porozumět významu slov, nejen hledat pravopisně shodné termíny. Očekávat něco podobného od
webových vyhledávacích služeb však není možné. Tyto služby jsou založeny především na
tom, že určují relevanci na základě výskytu slov uvedených v dotazu v textech dokumentů. Předpokládá se tedy:
Čím vyšší počet výskytů těchto slov dokument obsahuje, tím je větší pravděpodobnost, že se zabývá hledaným tématem.
Jestliže při formulaci svého dotazu použijete přirozený jazyk, pak nejjednodušší postup
systému spočívá v tom, že vyhledávací program spojí klíčová slova v dotazu operátorem OR
nebo AND podle toho, jaké je standardní nastavení dané vyhledávací služby.
Pokud použijete sami určité možnosti pro logické spojení zadaných slov (znaménka plus, minus, dvojité uvozovky) podle vlastního uvážení, částečně tím obejdete standardní algoritmus
daného systému. Můžete tím získat větší kontrolu nad zpracováním svého dotazu. Bude
ovšem záležet na tom, zda máte dostatečné zkušenosti a znalosti, aby tento postup vedl
k lepšímu výsledku, než jaký vám nabídne standardní vyhledávací algoritmus a třídící mechanismus systému.
Jak probíhá setřídění výsledků hledání
V první fázi zpracování dotazu systém vyhledá dokumenty, jež obsahují zadaná klíčová slova
v požadovaném vztahu. Další postup spočívá zpravidla v tom, že systém setřídí výsledky tak,
aby odkazy zobrazené ve výsledcích na prvních místech co nejvíce odpovídaly dotazu. Program se tedy snaží odhadnout, které dokumenty jsou nejvhodnější. Vyhledávací algoritmy si
ovšem služby přísně střeží, ačkoliv (nebo snad právě proto?) z pohledu uživatele jde o jednu
z nejdůležitějších funkcí vyhledávacích nástrojů. Lze se tedy jen dohadovat, na základě čeho,
jsou vlastně odkazy setřiďovány.
K faktorům, které na seřazení mají vliv, patří především kombinace těchto kritérií:
• četnost výskytu slov z dotazu v dokumentu (čím více, tím lépe),
• počet výrazů v dotazu, jež se shodují s nalezeným dokumentem (u těch služeb, jež používají standardně operátor OR),
• váha podle pole, v němž se ve zdrojovém kódu výrazy vyskytují (například slovům
v názvech dokumentů je přikládán větší význam),
• vzájemná blízkost slov v dokumentech,
• současný výskyt příbuzných slov a různých pravopisných variant,
• pořadí slov v dotazu uživatele apod.
Při vyhodnocování nalezených odkazů hraje roli také oblíbenost a vysoká návštěvnost
zdrojů, berou se v úvahu i způsoby chování uživatelů, kteří kladli podobné nebo stejné dotazy. Do hry občas vstupují i komerční zájmy apod.
Hlavní zásady při vyhledávání informací
Při hledání byste neměli zapomenout na několik zásad:
• Věnujte pozornost správné volbě klíčových slov a frází. V tomto případě pro vás budou
užitečné především předchozí zkušenosti z práce s internetovými zdroji, ale nejen s nimi.
37
•
•
•
•
•
•
•
•
•
•
Všímejte si proto, jaké výrazy v dokumentech nejlépe vystihují vaše potřeby a představy o
tom, co chcete hledáním nalézt.
Při formulaci dotazu používejte synonyma, příbuzné výrazy i různé pravopisné
tvary slov. Například: colour OR color, sulphur OR sulfur apod. Vyhledávací služby
pracují s obsahem dokumentů vytvářených přirozeným jazykem a ten pochopitelně není
nijak lexikálně řízen. Použitá slovní zásoba zcela závisí na autorech dokumentů.
Pečlivě zkontrolujte správnost pravopisu použitých klíčových slov i správnost
formulace dotazu. Před zadáním příkazu k hledání, tj. před kliknutím na tlačítko hledej
nebo search (nebo také submit, seek apod.) pečlivě zkontrolujte správnost pravopisu
u všech slov, jež jste vepsali do formuláře. Pozornost věnujte také správnosti dotazu, pokud pro hledání použijete složitější formulaci (zápis booleovských nebo distančních operátorů, použití závorek a dalších možností konstrukce dotazu v souladu s pravidly dané
vyhledávací služby). Pravopisné chyby nebo nesprávná formulace dotazu bývají častou
příčinou neúspěšného hledání.
Vyvarujte se používání stop-slov. Při formulaci dotazu pamatujte na to, že není vhodné
používat pro hledání některé obecné výrazy a slova, tzv. stop slova. Pokud je odpovědí na
váš dotaz nulový výsledek, pak v případě, že hledáte téma, o němž víte, že se na Internetu
vyskytuje, a pokud jste se nedopustili chyby v pravopisu nebo ve formulaci dotazu, zkontrolujte, zda váš dotaz neobsahoval právě některé z nejpravděpodobnějších stop-slov. Pokud ano, vyřaďte je z dotazu a zkuste příkaz k hledání zadat znovu. Pokud se váš dotaz, na
který jste obdrželi nulový výsledek, skládal z více klíčových slov, můžete si jednoduše
vyzkoušet, zda některé z nich není právě stop slovem. Použijte každé z nich jako samostatný dotaz. Nulový výsledek jako odpověď na některé ze slov s největší pravděpodobností znamená, že jste narazili právě na stop-slovo. Je proto nezbytné dotaz přeformulovat.
Pokud byl stop-slovem některý frekventovaný výraz, který je ovšem nezbytný pro vyjádření tématu vašeho dotazu, je vhodné jej použít ve frázi.
Pro hledání českých zdrojů nepoužívejte jen české vyhledávací služby, ale také velké
celosvětové vyhledávací stroje.
Dávejte pozor na standardní nastavení vyhledávacích služeb. Při hledání si vždy
ověřte, jakou standardní funkci pro spojování zadaných výrazů v základní nabídce jednotlivé služby používají.
Používejte pokročilých metod vyhledávání a rozhraní pro pokročilé hledání. Při
formulaci vyhledávacího dotazu je vhodné využívat všech možností, které vyhledávací
služby nabízejí pro spojení klíčových slov nebo frází do vztahů odpovídajících cíli hledání.
Nespokojte se jen s jediným hledáním. Vyzkoušejte různé formulace dotazu i různé
služby.
Poznejte velmi dobře několik nejvýznamnějších vyhledávacích nástrojů a ty pro hledání používejte. Nezapomeňte však na to, že se i vyhledávací nástroje vyvíjejí a mění a
že se může objevit i zcela nová kvalitní vyhledávací služba. Sledujte proto občas novinky
i z této oblasti.
Nejste-li zkušenými uživateli Internetu, raději se vyhněte metahledačům. Hlavním
problémem při práci s meta-hledači je, že musíte poměrně jednoduše zformulovat svůj
dotaz vzhledem k tomu, že je rozeslán ke zpracování vyhledávacím službám s rozdílnou
syntaxí dotazu a někdy také s odlišnou interpretací shodných vyhledávacích prvků.
Buďte opatrní při posuzování nalezených zdrojů. Nezapomeňte na to, že byste je měli
hodnotit stejně (spíše však více) kriticky jako tištěné dokumenty.
38
Jak mohou autoři HTML dokumentů ovlivnit jejich vyhledání
Tvorba webových dokumentů souvisí také s problémem jejich hledání a nalézání. Proto
by jejich autoři měli využívat všech možností, které jim nabízí jazyk HTML.
Jednou z cest je odpovídajícím způsobem použitý prvek dokumentu – jeho název (ve
zdrojovém kódu párová značka – tag – TITLE). Budete-li pozorně sledovat webové dokumenty, všimnete si asi často, že jejich tvůrci buď úplně zapomínají názvy dokumentů vytvořit
nebo je formulují nevhodným způsobem (například Home Page, Welcome, Vítejte, Domovská stránka…, New Page apod.). Názvy dokumentů by měly být stručné, jednoduché a
měly by vystihovat obsah konkrétního dokumentu. Každý dokument, který je součástí
webového sídla (angl. website), by měl mít vlastní název, který ho odlišuje od ostatních
stránek, jež jsou spolu s ním součástí daného webového sídla. Název dokumentu je totiž
významným prvkem nejen pro vyhledávací nástroje, ale je důležitý také pro práci
s oblíbenými položkami, pro offline prohlížení, ukládání webových dokumentů apod.
Velmi důležitou roli hrají také názvy hypertextových odkazů, které jsou součástí webových dokumentů, ať už jde o odkazy, jež jsou hlavními navigačními prvky pro pohyb po celé
struktuře webového sídla, nebo další odkazy, jež jsou součástí informací obsažených
v dokumentech. Názvy těchto odkazů by neměly být zbytečně dlouhé, protože mohou mj.
zhoršit čitelnost textu. Hypertextovým odkazem by tedy měly být pouze nejdůležitější výrazy,
které jsou nositeli informace o tom, kam – k jakým dalším informacím – odkaz vede. Názvy
odkazů by samozřejmě měly být výstižné – nejen proto, aby přitáhly pozornost uživatele,
který stránky právě navštívil. Na názvech odkazů by si autoři webových dokumentů měli dát
záležet také proto, že jde o prvek dokumentu, který má velký význam při hledání informací
prostřednictvím vyhledávacích služeb. Názvy odkazů patří totiž mezi ty části dokumentu, jež
se načítají do databází vyhledávacích služeb. Z tohoto pohledu je zřejmé, jak nesmyslné jsou
odkazy typu „klikněte zde“, „jděte tudy“ apod. Takovéto výrazy mají pro hledání informací,
ke kterým odkaz vede, nulovou hodnotu. Navíc v případě prvního z uvedených odkazů je to
dvojnásobný nesmysl: poklepáním myší se přece po Webu nepohybují ani zdaleka všichni
uživatelé.
Význam pro hledání informací na Internetu mají samozřejmě i další prvky v dokumentech,
například nadpisy (angl. headings) nebo značka META. Tento prvek je součástí zdrojového
kódu dokumentu HTML a informace v něm uvedené se v prohlížeči nezobrazují. Na rozdíl od
standardních značek HTML nemá prvek META ani vliv na způsob zobrazení dokumentu
v prohlížeči, nýbrž poskytuje doplňující informace o dokumentu a o jeho obsahu prostřednictvím klíčových slov.
Závěr
Při práci se síťovými zdroji je nutné nezapomínat na to, že Internet je jen jedním z mnoha
prostředí, kde lze hledat a nalézat informace. Pro určitý účel mohou být zdroje na Internetu
velmi užitečné, zatímco pro jiný naprosto bezcenné. Při hledání informací na určité téma je
proto vhodné kombinovat zdroje na Internetu s ostatními (klasickými) zdroji. Nejen proto, že
informace na Internetu mohou být pochybné kvality, ale především proto, že v síti není ani
zdaleka vše k dispozici.
Chcete-li hledat a úspěšně nalézat zajímavé a užitečné zdroje, musíte se tedy nejdříve alespoň s některými z nesčetných možností, které orientaci v záplavě dokumentů a služeb usnadňují, seznámit. Nejjednodušším způsobem je začít hledat – nejlépe témata, která jsou vám
blízká. Při jejich hledání budete schopni nejsnáze posoudit nejen to, zda jste hledali správně,
ale zároveň i možnosti, které vám pro vaši práci (nebo zábavu) Internet nabízí.
39

ve formátu PDF pro off

Transkript

Podobné dokumenty

Www poprvé - Masarykovo gymnázium Plzeň

Zde - Od rozvoje znalostí k inovacím

Skripta Informatika pro veřejnou správu 2

Výroční zpráva Národní Technické Knihovny 2011

bizers vize svět

Úvod do Maplu 7

stav drogové problematiky v evropě

Satisfakce 04/2008 - Unie pro rozhodčí a mediační řízení ČR

děkujeme vám za účast - Od rozvoje znalostí k inovacím

Netfilter

Reportáže Historie Auto roku a další zajímavosti ze světa

První kroky