Vyhledávací stroje

Transkript

Vyhledávací stroje
VYHLEDÁVÁNÍ NA INTERNETU
vyhledávací stroje a strategie vyhledávání
Název projektu: Od rozvoje znalostí k inovacím
Registrační číslo projektu: CZ.1.07./2.3.00/09.0009
Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky
Knihovna UTB ve Zlíně, 31.3.2010
.
Internet a informace
Animovaná prezentace „Něco málo o internetu“: http://prezi.com/i_tzbombs1y1/
• Na Internetu jsou dostupné 2 typy informační zdrojů:
• Dostupné přímo
• Mají veřejný charakter, jsou bezplatné a lokalizovatelné pomocí vyhledávače.
• Dostupné zprostředkovaně
• Zejména profesionální a komerční databázová centra
• Internet je metodou přístupu
• Mimo pak stojí tzv. Neviditelný web (většinová část webu, která je jen
obtížně vyhledatelná pomocí vyhledávačů)
Knihovna UTB ve Zlíně, 31.3.2010
Vyhledávací služby na internetu
•
Z funkčního hlediska rozlišujeme 2 druhy vyhledávacích služeb:
a.
b.
•
Vyhledávací stroje
•
Indexují slova a termíny, které se vyskytují ve WWW dokumentech.
Předmětové katalogy
•
Klasifikují dokumenty nebo celé servery
podle předem dané předmětové klasifikace.
Mnohé vyhledávací stroje nabízejí také katalog a naopak.
U mnohých vyhledávačů se tak tyto dva typy vyhledávacích
služeb prolínají. Vznikají tak hybridní stroje.
Knihovna UTB ve Zlíně, 31.3.2010
CC Danard Vincente
Vyhledávací stroje
• Systém, který na základě zadaného klíčového slova hledá v databázi
nebo indexu a uživateli pak nabídne výsledek hledání.
• Stěžejní pro použití vyhledávacího stroje je
klíčové slovo = vyhledávací termín = vyhledávací výraz
• Správně zvolený vyhledávací výraz je základ spěchu
• Z jednoho nebo více vyhledávacích výrazů se skládá dotaz (úplný
vyhledávací požadavek, vyhledávací výrazy se spojují operátory)
• Dokument, který vyhovuje zadanému dotazu se jmenuje hit
Knihovna UTB ve Zlíně, 31.3.2010
Kdy použijeme vyhledávací stroj?
1. Předmět zájmu je úzký (konkrétní) nebo obsahuje neobvyklé termíny
2. Hledáme zvláštní sídlo
3. Chceme prohledávat maximální možnou část webu (Pozor! Včetně
nerelevantních dokumentů.)
4. Chceme, aby byl výsledek vyhledávání co nejobsáhlejší
5. Chceme hledat určité typy dokumentů, souborů, jazyků, chceme nastavit
upřesňující filtry
6. Chceme využít výhody těchto strojů jako je pojmové shlukování, řazení
dokumentů dle popularity apod.
Knihovna UTB ve Zlíně, 31.3.2010
Příklady vyhledávacích strojů
Zahraniční vyhledávací stroje:
České vyhledávací stroje:
Knihovna UTB ve Zlíně, 31.3.2010
Jak fungují vyhledávací stroje
Animovaná prezentace „Jak fungují vyhledávací stroje?“ http://prezi.com/ey31dkhsc8yt/
Prezentace o fungování vyhledávacích strojů. Jak prohledávají web, vytváří databáze
a starají se o to, abyste dostali relevantní výsledek. Pozornost je zaměřena také
na Google PageRank.
Knihovna UTB ve Zlíně, 31.3.2010
Problémy vyhledávacích strojů
• Databáze vyhledávacích strojů vytváří roboti (=automaticky), proto je
indexováno i mnoho stránek nevalné kvality.
• Roboti nejsou schopni vyhledat a indexovat vše (problém
neviditelného webu) a nezvládají dynamicky se měnící stránky,
obrázkové mapy apod.
• Některé stránky jsou chráněny heslem.
• Mnoho vyhledávacích strojů má omezení na počet indexovaných
stránek z určité domény.
Knihovna UTB ve Zlíně, 31.3.2010
Předmětové katalogy
• Pokrývají menší část webového prostoru.
• Výhodou je přesná hierarchická struktura a dělení na kategorie a
podkategorie.
• Předpokladem vyhledávání v katalogu je, že uživatel ví, co hledá a do
které předmětové kategorie téma patří.
• Katalogy plní jednak tvůrci webových stránek a jednak informační
pracovníci.
• Umožňuje postupovat kategoriemi a podkategoriemi od obecných věcí k
těm specifickým.
Knihovna UTB ve Zlíně, 31.3.2010
Kdy použijeme předmětový katalog?
1. V případě, že naše téma je široké
2. Nemáme konkrétní představu o hledané informaci a chceme se nechat
navézt nabízenými podkategoriemi
3. Chceme získat seznam webových sídel
4. Hledáme informace o firmě
5. Vyhledáváme ve výrobcích
6. Hledáme nejnovější zprávy
7. Chceme se vyhnout nekvalitním stránkám, které indexují roboti
vyhledávacích strojů
Knihovna UTB ve Zlíně, 31.3.2010
Příklady předmětových katalogů
Zahraniční předmětové katalogy:
České předmětové katalogy:
Knihovna UTB ve Zlíně, 31.3.2010
Výhody a nevýhody předmětového katalogu
•
•
•
Největší výhodou je záruka kvality, která je dána zejména tím, že jsou katalogy vytvářeny
„ručně“.
Většina katalogů navíc informační zdroje hodnotí a anotuje.
Nevýhody:
• Mají omezený rozsah
• Používají se různé struktury kategorií a jiná schémata
• Procházení podkategorií je časově náročné
• Problém s platností odkazů
• Méně častá aktualizace katalogu
• Subjektivita při hodnocení zdrojů a jejich zařazování do kategorií
• Obecné popisy vznikající na základě zevrubného prozkoumání informačního zdroje
Knihovna UTB ve Zlíně, 31.3.2010
Metavyhledávací stroje
• Umožňují vyhledávání ve více než jednom vyhledávacím stroji nebo
katalogu.
• Při vyhledávání kombinují výsledky vyhledávání a odstraňují duplicitní
záznamy.
• Mohou být také seznamem vyhledávacích strojů, do kterých lze vstoupit
z jednoho místa.
• Problém s tím, že každý vyhledávač má jiná pravidla vyhledávání, takže
metavyhledávače umožňují efektivně vyhledávat pouze pomocí klíčových
slov a nepoznáme všechny možnosti při rozšířeném vyhledávání.
• Za zmínku stojí také tzv. „vyhledávací centrály“, které do jednoho místa
sdružují vyhledávání ve vámi vybraných vyhledávačích
Knihovna UTB ve Zlíně, 31.3.2010
Příklady metavyhledávačů
Zahraniční metavyhledávače:
Odskok
České metavyhledávače (vyhledávací centrály):
Knihovna UTB ve Zlíně, 31.3.2010
Princip fungování metavyhledávacího stroje
CC Simiezzz
ROZESÍLACÍ MECHANISMUS
Algoritmus (dotazovací přístup), který
určuje výběr vyhledávacích systémů,
kterým bude dotaz zaslán.
AGENT ROZHRANÍ
Program, který ví, jak se navazuje spojení
s určitým vyhledávacím systémem. Umí
konvertovat dotaz do formátu různých
vyhledávacích systémů a interpretuje
získané výsledky.
ZOBRAZOVACÍ MECHANISMUS
Odstraňuje duplicitní výsledky, řadí je
dle míry relevance, provádí konverzi z
interního formátu do podoby vhodné
pro uživatele a zašle je k zobrazení
klientovi.
Existují i metavyhledávače se zjednodušeným přístupem. Jsou rychlejší, ale kvalita zobrazování výsledků je nízká.
Knihovna UTB ve Zlíně, 31.3.2010
Výhody a nevýhody metavyhledávačů
•
Výhody:
• Při vyhledávání používáte pouze jedinou stránku.
• Je nutné se naučit práci pouze s jedním rozhraním.
• Není nutné sledovat novinky mezi vyhledávači a nové vyhledávací stroje
• Dotaz zadáváte více vyhledávačům pouze jednou
• Vyšší úplnost vyhledávání
•
Nevýhody:
• Odtržení od rozhraní jednotlivých vyhledávačů (není tak možné využít speciální schopnosti
těchto strojů)
• Přicházíme o informace reklamního charakteru (které nejsou vždy jen otravné)
• Někdy dochází k nízké výkonnosti metavyhledávačů
• Metavyhledávače limitují počet záznamů z jednoho vyhledávacího stroje
Knihovna UTB ve Zlíně, 31.3.2010
Portály
• Integrace služeb do jediného uživatelského rozhraní, nabízí svým uživatelům
komplexní služby:
• Vyhledávání v katalogu, Fulltextové vyhledávání, Zpravodajství´, Online zábavu, Diskusní
fóra, Možnost personalizace stránky, Email, Kalendář, Bezplatný webhosting, Burzovní
zprávy apod.
• Portály dělíme na vertikální a horizontální. Horizontální portály jsou obecně
zaměřené a patří mezi ně např. Yahoo a Seznam. Vertikálním portálům se
také říká „community portals“ a jsou zaměřené na užší skupinu lidí se
stejným zájmem. Patří mezi ně např. Linux Online nebo PHP developer.
Knihovna UTB ve Zlíně, 31.3.2010
Neviditelný web
•
•
•
Vyhledávací stroje jsou schopné indexovat pouze velmi malou část webu, tzv.
„povrchový web“.
Tzv. „neviditelný web“ (hluboký web) je těmto službám nedostupný. Je 550x větší než
povrchový web. 4
Obr. č. 1
V neviditelném webu se nachází:
• Informace uložené v placených a soukromých
databázích
• Adresáře
• Specializované vyhledávače
• Dokumenty v jiných formátech než je html
• Tzv. „samotáři“ = stránky, které nejsou s dalšími
propojeny odkazy
• Dynamicky generované stránky (katalogy knihoven,
kalkulačky)
• Stránky chráněné heslem
Knihovna UTB ve Zlíně, 31.3.2010
Vyhledávací služby neviditelného webu
Vyhledávačů v hlubokém webu je mnoho, každý z nich prohledává jiné části.
Pro více příkladů se podívejte např. na online college blog
Knihovna UTB ve Zlíně, 31.3.2010
Adresáře vyhledávačů
• Vyhledávačů je v dnešní době velmi mnoho a každý má svá specifika a
silné stránky. Velmi užitečné jsou tedy tzv. „adresáře vyhledávačů“, které
vám umožní se rozhodnout, jaký vyhledávač použít. Najdete zde také
informace o nových vyhledávacích funkcích a srovnávací studie.
Knihovna UTB ve Zlíně, 31.3.2010
Google a?
CC Toprankonlinemarketing
Google je dominantním vyhledávačem v celosvětovém měřítku. Je Google
to pravé? V čem je tak dobrý a proč je tolik používaný? Prohlédněte si
naši animovanou prezentaci: http://prezi.com/gqgwwh66oxkh/pan-google/
Google je vyhledávací stroj a ne vždy je dobré jej použít.
Mnohdy vám lépe poslouží katalogy nebo specializované vyhledávače.
Dokonce i české vyhledávače jsou velmi kvalitní. Podívejte se na jejich
přehled: http://vyhledavac.oblibena.net/ nebo http://www.vyhledavace.cz/
Anatomie vyhledávání na Googlu:
http://www.youtube.com/watch?v=LMN9btsoPqk
Knihovna UTB ve Zlíně, 31.3.2010
Stavba klíčového slova
•
•
•
Vyhýbejte se tzv. „stopslovům“ (předložky, spojky), z hlediska vyhledávání nemají
informační přínos
Těžištěm vyhledávání jsou
podstatná jména
S přísudky, přídavnými jmény
a slovesy je problém
(vícejazyčnost, zaměnitelnost)
– výjimkou jsou přídavná jména
sloužící k jednoznačné
identifikaci
(např. Pythagorova věta)
Knihovna UTB ve Zlíně, 31.3.2010
CC Stefán
Určení vztahu mezi pojmy
• Operátory AND (+), OR a NOT (-)
Vyhledá jen ty dokumenty, které
obsahují oba termíny.
Vyhledá ty dokumenty, které
obsahují alespoň jeden
z uvedených termínů.
Vyhledá jen ty dokumenty, které
neobsahují termín uvedený vlevo.
• Operátor OR se používá pro spojení synonym a příbuzných pojmů
• Operátor AND a používá pro spojení významově odlišných pojmů (v Googlu
je možné jej nahradit znaménkem +)
• Operátor NOT se v Googlu nahrazuje znaménkem -
Knihovna UTB ve Zlíně, 31.3.2010
Google: zpřesňování dotazu
• „psychologický slovník“
– Najde přesnou frázi
• * Habsburský
– Nahrazuje libovolné slovo
• ~copyright
– Hledá termín včetně synonymních výrazů (platí pouze v angličtině)
• Použití speciální „příkazů“ Googlu ve tvaru příkaz:zadání k vyhledávání
(mezera) další termín
Knihovna UTB ve Zlíně, 31.3.2010
Google: zpřesňování dotazu
•
•
•
•
•
•
•
•
•
•
filetype:pdf „marketing research“ omezení na určitý formát dokumentu
intitle:webdesign flash najde „webdesign“ v názvu stránky a „flash“ kdekoliv
allintitle:hosting design e-shop najde všechna slova v názvu stránky
related:http://www.seminarky.cz najde tematicky podobné stránky
link:http://www.mvcr.cz najde stránky obsahující odkaz na web mvcr.cz
inurl:medicine najde uvedené slovo v URL adrese
site:www.uoou.cz registrace kamerového systému najde zadaný výraz „registrace
kamerového systému“ na zadané stránce „www.uoou.cz“
define:signatura najde definici pojmu
info:www.knihovna.utb.cz vypíše informace o stránce
Všechny tyto příkazy můžete snadno realizovat také pomocí „Pokročilého vyhledávání“
Knihovna UTB ve Zlíně, 31.3.2010
Užitečné služby Googlu
•
•
•
•
•
Google Scholar
Google Books
Google Patents, Google reader, Google street
view, Youtube, Google SketchUp, Google Apps
– Nevěříte, že i tyto služby vám mohou pomoci
najít užitečné informace nebo jinak pomoci ve
zpracování informací?
– Ale o tom až někdy příště.
Sociální sítě a soft information, vyhledávání na
Twitteru, učící se komunity na Ningu
Parisian Love – Google film (pro oddechnutí):
http://www.youtube.com/watch?v=nnsSUqgkDwU
Knihovna UTB ve Zlíně, 31.3.2010
Úkoly
1.
2.
3.
4.
5.
6.
7.
8.
9.
Jaké patenty registrovala firma Tatra mezi lety 1920 až 1930? Zjistěte, kdy byly přihlášeny a od jakého data
jsou chráněny.
Najděte libovolný dokument ve finštině a po přeložení do jazyka, kterému rozumíte zjistěte, zda je relevantní.
Najděte jakýkoliv dokument na téma monomery a polymery v lotyštině ve formátu PDF.
Najděte fén, jehož cena je nejblíže k 500 Kč. (hledejte na českém trhu)
Která jihlavská firma se zabývá měřením radonu?
Citovali jste nedávno z knihy VEBER, Jaromír. Řízení jakosti a ochrana spotřebitele. Knihu jste ale vrátili do
knihovny a teď vám chybí údaj o lokaci citace v dokumentu. Zkuste dohledat, na které straně se nachází tato
citace: „Na postupu PDCA je cenná bezpochyby jednoduchost a zvýraznění nepřetržitosti, dané opětovným
opakováním cyklu.“
Najděte dokument pojednávací o dermální farmakologii, který vyšel v časopise Toxicology and Applied
Pharmacology.
Která studentská asociace odkazuje ze svého webu na International association of physics students a
zároveň na zubní pastu Colgate.
Zkuste vyhledat nejnovější zprávy (za posledních 7 dní) na téma velký třesk, které vyšly ve Velké Británii.
(Použijte jiný vyhledávač než-li Google.)
Knihovna UTB ve Zlíně, 31.3.2010
Výsledky úkolů
1.
2.
3.
4.
5.
6.
7.
8.
9.
Našla jsem si stránky Úřadu průmyslového vlastnictví, který provozuje (nejen) databázi patentů. Vyplnila jsem dotaz, upřesnila rozpětí
let (včetně dne a měsíce, jinak to nefunguje). Našla jsem 2 registrované patenty: Uspořádání motoru pro elektricky poháněná motorová
vozidla a Úpravu převodu a uložení pro zadní kolo motorových vozidel (oba přihlášeny 23.ledna 1930, chráněny od 15.července 1934).
Vybrala jsem si slovo „bezdrátová technologie“ a přeložila jej přes angličtinu do finštiny pomocí Google Translator (nabízí kvalitnější
překlad z angličtiny do jiného cizího jazyka,). Dané slovo jsem vyhledala v Googlu a relevanci dokumentu ověřila tak, že jsem si celý
dokument opět nechala přeložit s pomocí Google Translator.
Opět jsem pomocí Google Translator přeložila daný výraz přes angličtinu do lotyštiny. Zadala jsem si daný výraz do Googlu a v
pokročilém vyhledávání specifikovala, že chci výsledek v lotyštině a ve formátu PDF. Překlad pomocí Google Translator z PDF je
rozhozený, ale dá se z něj alespoň trochu vyčíst obsah dokumentu.
Použila jsem www.jyxo.cz (možné i Zboží na Seznamu), specifikovala jsem cenu od 450 do 550 Kč a řazení výsledků od nejlevnějšího
po nejdražší .
Použila jsem vyhledávání Firmy na Seznamu. Vyhledala výraz „měření radonu“ a následně specifikovala kraj, okres a město.
Výsledkem je firma Geomin, družstvo.
Vyhledala jsem si knihu v Google Books, kde byl dostupný omezený náhled. V informacích o knize a zevrubným „prolistováním“ jsem
zjistila, zda se jedná o stejnou knihu a následně vyhledala citaci v plném textu knihy. Citace se nachází na straně 126.
Hledala jsem v Google Scholar, použila jsem pokročilé vyhledávání, kde jsem jako klíčové slovo zadala „dermal farmacology“ a
omezila vyhledávání na dokumenty z časopisu Toxicology and Applied Pharmacology.
Na Googlu jsem nejdříve našla přesné URL stránky asociace International association of physics students. Následně jsem zadala
tento dotaz: „student association AND colgate link:(vyhledané www)“
Hledala jsem ve vyhledávači www.altavista.com (možné i např. www.alltheweb.com), který má přehledné vyhledávání ve zprávách.
Knihovna UTB ve Zlíně, 31.3.2010
Použité zdroje (prezentace vychází z materiálů zpracovaných Knihovnou UTB)
1.
2.
3.
4.
5.
Vyhledávací nástroje na internetu II [online]. Copyright neuveden [cit. 2010-02-24]. Dostupné z:
<http://is.muni.cz/elportal/estud/ff/js07/informace/materialy/pages/internet2_opora.pdf>.
Vyhledávací nástroje na internetu I [online]. Copyright neuveden [cit. 2010-02-24]. Dostupné z:
<http://is.muni.cz/elportal/estud/ff/js07/informace/materialy/pages/internet_opora.pdf>.
Meta-hledače [online]. c1998–2010 , Poslední aktualizace 2010-02-19 [cit. 2010-02-24]. Dostupné z:
<http://knihovna.vsb.cz/internet/meta-hledace.htm>.
JEP: The journal of electronic publishing [online]. copyright neuveden [cit. 2010-02-27]. The Deep Web: Surfacing Hidden
Value. Dostupné z: <http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451.0007.104>.
Obr. č. 1: Invisible web [online]. c2004-2006 [cit. 2010-02-27]. Dostupné z: <http://www.juanico.co.il/Main%20frame%20%20English/Issues/Information%20systems.htm>.
Knihovna UTB ve Zlíně, 31.3.2010
DĚKUJEME VÁM ZA ÚČAST
Bc. Olga Biernátová, [email protected]
Název projektu: Od rozvoje znalostí k inovacím
Registrační číslo projektu: CZ.1.07./2.3.00/09.0009
Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky
Knihovna UTB ve Zlíně, 31.3.2010
.

Podobné dokumenty

Zde - Od rozvoje znalostí k inovacím

Zde - Od rozvoje znalostí k inovacím Google mi nenabídl relevantní výsledky, neumím španělsky a oficiální vládní stránky Kuby se moc svým dluhem nechlubí. Jaká organizace by mohla mít dostupné relevantní informace o všech zemích světa...

Více

děkujeme vám za účast - Od rozvoje znalostí k inovacím

děkujeme vám za účast - Od rozvoje znalostí k inovacím jednotlivce. Jedná se o kvantitativní ohodnocení kvality vědeckých článků publikovaných jedním vědeckým pracovníkem. Graf h indexu.

Více

mauál IDX Tuning - Dokument aplikace Microsoft Word

mauál IDX Tuning - Dokument aplikace Microsoft Word praktických tipu, rad jak vybírat detektory kovu, popis duležitých funkcí a jejich vysvetlení a mnoho doplnujících fotografií. Tuto knihu jsem napsal pro zacínající i pokrocilé hledace, v podobe kn...

Více

Vyhledávání na internetu

Vyhledávání na internetu metavyhledávače umožňují efektivně vyhledávat pouze pomocí klíčových slov. Za zmínku stojí také tzv. „vyhledávací centrály“, které do jednoho místa sdružují vyhledávání ve vámi vybraných vyhledávač...

Více

Vztah ke zvířatům v judaismu a křesťanství

Vztah ke zvířatům v judaismu a křesťanství slona indického, je třeba brát vážně fakt, že oba druhy se oddělily cca před 5 miliony lety a celá věc je podobná jako kdybychom chtěli zkřížit člověka a šimpanze.  velkým problémem je také získán...

Více

Vyhledávání na internetu

Vyhledávání na internetu bychom myslet na to, že každý vyhledávací nástroj poskytuje jiné služby (které také mohou zanikat nebo naopak mohou vznikat nové), prostředky vyhledávání, rozsah a obsah prohledávané databáze. Měli...

Více

IKT2/47-48 - Vyhledávací nástroje na Internetu II

IKT2/47-48 - Vyhledávací nástroje na Internetu II – Seznam – http://www.seznam.cz – Atlas – http://www.atlas.cz – Centrum – www.centrum.cz – Quick – www.quick.cz Metavyhledávací stroje – Nám umožňují současné vyhledávání ve více než v jednom vyhle...

Více

výpočetní technika a specializované programy pro podporu vav

výpočetní technika a specializované programy pro podporu vav Ohromná dynamika s jakou se Internet vyvíjí i jeho hypertextová struktura klade na uživatele obrovské nároky jak po straně technologické, tak i po stránce řekněme osobnostní. Dokumenty, které jsou ...

Více

sekunda_zemepis_mexiko_DUM (PDF, 0 bytes)

sekunda_zemepis_mexiko_DUM (PDF, 0 bytes) to devítistupňová pyramida se čtvercovým půdorysem. Na vrchol vedou 4 schodiště, lemované hadím tělem. Ve dnech jarní a podzimní rovnodennosti, 21. března a 21. září, dopadají sluneční paprsky na h...

Více