pdf, 650 kB

Transkript

pdf, 650 kB
Využití WWW jako efektivního
informačního zdroje
Jiří Jelínek
[email protected]
Fakulta managementu VŠE, J. Hradec
Efektivní vyhledávání
„
„
nacházení požadovaného s minimem úsilí a
nákladů
v knihovně:
„
„
„
„
„
procházet dokud něco nenajdete
procházet dokud zapomenete co chcete
procházet dokud neprojdete všechno
použití katalogu knihovny
využití služeb někoho (něčeho), kdo ví, jak na to
„
„
potřebné vybavení
příprava a znalosti
„
„
© Jiří Jelínek, 2004
vyhledávací systémy
jak se ptát
Knihovny v pavučině spolupráce, J. Hradec 24.6.2004
1
World Wide Web
„
obsáhlost
„
„
dokumenty, data,
obrázky, video, atd.
dynamika obsahu i
stránek
„
„
„
nespolehlivost
nízká strukturovanost
„
„
obsahová i formátová
pestrost
„
„
6. 2004 cca 52 000 000
WWW serverů
„
„
neuspořádanost
nevhodné pro strojové
zpracování včetně
vyhledávání
dostupnost
nejúspěšnější
publikační medium
všech dob
absence sémantického
popisu
© Jiří Jelínek, 2004
Knihovny v pavučině spolupráce, J. Hradec 24.6.2004
Vyhledávací strategie
„
přímý odkaz
„
odvození URL z běžných zvyklostí
„
„
online databáze
„
„
oborové
použití vyhledávacích systémů
„
„
„
„
http://www.firma.com
indexové systémy
adresáře a předmětové katalogy
integrované systémy
výsledek do 12 minut
© Jiří Jelínek, 2004
Knihovny v pavučině spolupráce, J. Hradec 24.6.2004
2
Vyhledávací systémy
© Jiří Jelínek, 2004
Knihovny v pavučině spolupráce, J. Hradec 24.6.2004
Indexové systémy
„
stejně jako adresáře a katalogy se snaží
vytvářet obraz WWW prostoru
„
„
obraz (index) většinou tvořen automaticky
„
„
„
jsou data strukturována, uspořádána,
indexována a centrálně spravována
roboti
větší chybovost
základem klíčová slova
© Jiří Jelínek, 2004
Knihovny v pavučině spolupráce, J. Hradec 24.6.2004
3
Indexové systémy
„
vhodné
„
„
„
„
netypické a specifické
zvláštní nebo málo
frekventovaná témata
témata na pomezí obvyklých
oblastí či spadající do více
oblastí
vyhledávání specifických
WWW stránek
© Jiří Jelínek, 2004
Centrální index
Knihovny v pavučině spolupráce, J. Hradec 24.6.2004
Problémy
„
„
„
„
„
definice dotazu
aktualizace indexu
hodnocení důležitosti a
relevance stránek
rozšiřitelnost
rozdíly mezi systémy
„
„
„
„
konstrukce a
optimalizace WWW
stránek
schopnost ohodnotit
nalezené výsledky
funkce, velikost
pay-per-click (PPC)
Získáno
K věci
Použitelný
výstup
WWW Prostor
© Jiří Jelínek, 2004
Knihovny v pavučině spolupráce, J. Hradec 24.6.2004
4
Adresáře a předmětové katalogy
„
vyhledávání podle témat
„
„
většinou konstruovány experty
„
„
„
„
hierarchická navigace
selektivnější, přesnější, spolehlivější (nefunkční URL)
méně stránek, důraz na kvalitu před kvantitou
není jednotné uspořádání v hierarchických
strukturách
vhodné
„
„
„
zkoumání tématu
zkoumání logicky svázaných stránek
důraz na kvalitu stránek
© Jiří Jelínek, 2004
Knihovny v pavučině spolupráce, J. Hradec 24.6.2004
Integrované systémy
„
„
„
podobná struktura jako u meta vyhledávačů
přímá práce s WWW zdroji
e-business
Rozhraní
Sběrač
Zdroj 1
© Jiří Jelínek, 2004
Sběrač
Sběrač
Zdroj 2
Zdroj n
Knihovny v pavučině spolupráce, J. Hradec 24.6.2004
5
Problémy
„
heterogenní zdroje
„
„
různé datové modely: relační, objektový
různá schémata a formy zobrazení
„
„
omezené schopnosti vyhledávání
„
„
“Keanu Reeves” nebo “Reeves, K.” atd.
méně schopností než indexové systémy
vliv rozhraní
„
paměť na dotazy
© Jiří Jelínek, 2004
Knihovny v pavučině spolupráce, J. Hradec 24.6.2004
Vyhledávací systémy
„
indexové systémy
„
„
„
„
„
„
„
Google (www.google.com)
Alltheweb
(www.alltheweb.com)
HotBot (www.hotbot.com)
AltaVista
(www.altavista.com)
Yahoo (www.yahoo.com)
Seznam (www.seznam.cz)
Atlas (www.atlas.cz)
„
indexové metasystémy
„
„
„
předmětové katalogy
„
„
„
„
About (www.about.com)
Yahoo (www.yahoo.com)
Quick (www.quick.cz)
integrované systémy
„
„
© Jiří Jelínek, 2004
Metacrawler
(www.metacrawler.com)
DogPile (www.dogpile.com)
MySimon
(www.mysimon.com)
BizRate (www.bizrate.com)
Knihovny v pavučině spolupráce, J. Hradec 24.6.2004
6
Zvláštní schopnosti
„
shlukování výstupů
„
„
důsledné užití logických
operátorů
„
„
„
Vivisimo (vivisimo.com)
GigaBlast (gigablast.com)
„
„
„
„
„
„
WebLogs > Daypop
(www.daypop.com)
maillists > Topica
(www.topica.com)
životopisy > Biography
(www.biography.com)
věda > Scirus
(www.scirus.com)
Soople (www.soople.com)
práce s přirozeným
jazykem
„
„
Teoma (teoma.com)
variantní rozhraní
„
hledání ve zvláštních
strukturách
„
„
přibližné hledání
možnosti upřesňování
Ask Jeeves (www.ask.com)
speciální nástroje
„
KartOO (www.kartoo.com)
© Jiří Jelínek, 2004
Knihovny v pavučině spolupráce, J. Hradec 24.6.2004
Hodnocení výstupů
„
autoritativnost
„
„
„
„
„
identifikace autora
kvalifikace autora a vztah k
tématu
vazba na renomovanou
instituci (URL)
„
„
„
„
datum vytvoření
poslední aktualizace
funkčnost odkazů
„
„
„
„
„
0,6
0,5
com
netorg
edu
gov
0,3
0,2
nové poznatky
korektnost a přesnost
citace a odkazy na jiné
zdroje (i klasické)
kdo stránku navštěvuje
meta popis
„
0,4
kolekce odkazů (rozcestník)
nebo autoritativní stránka
hloubka a pokrytí tématu
„
aktuálnost
„
obsah
„
„
struktura URL (TLD)
název stránky
META data
struktura stránky
0,1
0
1day
© Jiří Jelínek, 2004
1day1week
1week1month
1month4months
4months
Knihovny v pavučině spolupráce, J. Hradec 24.6.2004
7
Neviditelný Web
„
WWW prostor nezachycený ve vyhledávačích a
proto pro většinu uživatelů neviditelný
„
„
„
indexováno max. cca 40% WWW prostoru
„
„
„
neúmyslně – rozsah WWW, neexistence odkazu
úmyslně – obecný či „závadný“ obsah, dynamický web,
eliminace podle nastavených pravidel
cca 2 – 3 krát větší než viditelný Web
Google k 23.6. 2004 indexuje 4 285 199 774 stránek
Search Engine Optimization (SEO)
© Jiří Jelínek, 2004
Knihovny v pavučině spolupráce, J. Hradec 24.6.2004
Podpora koncového uživatele
„
Web Mining - shromažďování a zpracování dat
dostupných na WWW nebo dat generovaných v
průběhu užívání webu
„
„
Web Content Mining
„
„
zpracování obsahu WWW stránek
Web Structure Mining
„
„
predikce chování a zájmů uživatele založená na předem
naučených pravidlech a uživatelských profilech
získávání informací ze struktury WWW prostoru
Web Usage Mining
„
analýza chování uživatele (clickstream analýza)
© Jiří Jelínek, 2004
Knihovny v pavučině spolupráce, J. Hradec 24.6.2004
8
Sémantické vyhledávání
„
„
význam stránek vs. klíčová slova
zasazení pojmu (URL) do struktury podle
významu
„
„
„
„
nutno popsat obsah stránek tak, aby nám
stroje byly schopné pomoci v orientaci v nich
„
„
definice vazeb
taxonomie
ontologie
metadata a XML
multimediální sémantika
© Jiří Jelínek, 2004
Knihovny v pavučině spolupráce, J. Hradec 24.6.2004
Problémy
„
existence jednotných a dostatečně obsáhlých
pojmových ontologií
„
„
„
„
„
ontologický popis současného WWW prostoru
„
„
„
ručně vs. učení
WordNet (www.cogsci.princeton.edu/~wn/)
doménové ontologie (medicína)
Dublin Core Metadata Initiative (www.dublincore.org)
ekonomická náročnost a motivace pro úpravy
sémantický popis stránek vs. sémantické vyhledávání
nástroje pro vytváření sémantického popisu
© Jiří Jelínek, 2004
Knihovny v pavučině spolupráce, J. Hradec 24.6.2004
9
Úloha knihoven
„
orientace v heterogenním prostředí
„
„
výběr vhodných nástrojů
vyhledání relevantního obsahu
obsahu do vhodné podoby
ti,konverze
kdo
vědí (kde a jak)
služby integrace obsahu (rešerše)
„
„
„
„
individuální služby uživatelům
správa a tvorba ontologií
„
tvorba meta popisu
© Jiří Jelínek, 2004
Knihovny v pavučině spolupráce, J. Hradec 24.6.2004
Děkuji za pozornost
Tato prezentace byla vytvořena s pomocí následujících materiálů:
„
„
„
„
„
„
„
„
„
„
„
„
„
„
Search Engine Watch, Tips About Internet Search Engines & Search Engine Submission,
http://searchenginewatch.com/
Search Engine Showdown, The Users' Guide to Web Searching, http://www.searchengineshowdown.com
Netcraft: Growth in Hostnames, IP Addresses and Web Facing Servers 1999-2004,
http://news.netcraft.com/archives/2004/06/15/growth_in_hostnames_ip_addresses_and_web_facing_serv
ers_19992004.html
Search Strategies, http://www.searchengineshowdown.com/strat/
Invisible-web.net - Searchable databases and specialized search engines, http://www.invisible-web.net/
KartOO visual meta search engine, http://www.kartoo.com/
Tempelman-Kluit N.: Searching the Web, http://www.nyu.edu/library/resources/instruct/searchingweb.ppt
Search Engine Watch: Tips About Internet Search Engines & Search Engine Submission,
http://searchenginewatch.com/
Cho J.: Searching the Web, UCLA Computer Science, http://oak.cs.ucla.edu/~cho/talks/2001/CS201.ppt
Williamson J.: Sure-Fire Surfing: A Crash Course in Search Techniques, King Faisal School and Brown
University Partnership,
http://www.brown.edu/Departments/IESE/KFS/resource/InternetSearchingforKFS.ppt
Levene M.: Searching the Web, School of Computer Science and Information Systems, Birkbeck
University of London, http://www.dcs.bbk.ac.uk/~mark/download/lec4_searching_the_web.ppt
Bocher B.: Searching the Web – Basic and Advanced www.dpi.state.wi.us/dltcl/pld/searching.html
MacColl J.: What is the Semantic Web?, HILT Workshop, University of Strathclyde, 2001,
http://hilt.cdlr.strath.ac.uk/Dissemination/Presentations/John%20McColl.ppt
Mazzocchi S.: Enabling Semantic Searching, http://www.betaversion.org/~stefano/papers/semanticsearching.ppt
© Jiří Jelínek, 2004
Knihovny v pavučině spolupráce, J. Hradec 24.6.2004
10

Podobné dokumenty

Univerzita Karlova v Praze Ústav informační studií a knihovnictví

Univerzita Karlova v Praze Ústav informační studií a knihovnictví 2.1 Vrstvový model TCP/IP ..................................................................................................... 10 2.2 Dokumenty k Internetu............................................

Více

Informační zdroje pro HR, koučování a Pre

Informační zdroje pro HR, koučování a Pre červen 1999 – 900 milionů www stránek červen 2000 – 2,1 miliardy www stránek červen 2001 – 4,5 miliardy www stránek červen 2002 – 8 miliard www stránek dnes již přes 10 miliard www stránek, 15.000 ...

Více

Learning about the Internet is not something one can complete in an

Learning about the Internet is not something one can complete in an 2.1 Vrstvový model TCP/IP ..................................................................................................... 10 2.2 Dokumenty k Internetu............................................

Více

Levhart

Levhart zadržuje i kořist. Připadalo jí, že cítí jeho tělesné teplo. Na co ten člověk čeká? Opět začala dýchat. A ve stejném okamžiku ucítila na zátylku cizí dech. Bleskurychle se otočila, udeřila, zasáhla...

Více

7 Marketingové koncepty e-commerce

7 Marketingové koncepty e-commerce − Postoje k online nákupu − Představy o kontrole webového prostředí − Funkce webu • Clickstream analýza - evidenci transakcí spotřebitele, jak postupoval od vyhledávače (vyhledávání zboží) až ke ko...

Více

Vyhledávání na internetu

Vyhledávání na internetu poskytovány zpravidla bezplatně, vyhledatelné skrze různé vyhledávací služby) 2. informační zdroje dostupné nepřímo (např. profesionální a komerční databáze) Vyhledávací služby dělíme na 2 základní...

Více

Pořádání netextových objektů – problémy a řešení

Pořádání netextových objektů – problémy a řešení ztratila, kdyby byla prezentována pouze ve form ě nápisu americká vlajka. Blíže k tématu viz McLUHAN, Marshall. Jak rozumět médiím: extenze člověka. 1. vyd. Praha: Odeon, 1991. 348 s. ISBN 80-207-0...

Více

Bibliografické citace

Bibliografické citace Institucionální repozitáře Autor zpřístupňuje článek nejen v časopise, ale i v institucionálním repozitáři Možnost uložení preprintu nebo postprintu The Directory of Open Access Repositories OpenD...

Více

Vyhledávání-operátory: Meta vyhledávání

Vyhledávání-operátory: Meta vyhledávání domain: domain:cz site: site:www.cuni.cz link: link:altavista.com inurl: / allinurl: inurl:altavista

Více