Automatic Searching of WEB Pages II

Transkript

INTERNETOVÉ TECHNOLOGIE
326
A U T O M A T I Z A C E
•
R O Č N Í K
4 7
Automatické prohledávání
webových stránek II
PrvnÌ dÌl Ël·nku (Automatizace Ë. 4/2004)
byl zamÏ¯en p¯ev·ûnÏ na Ëinnost robot˘,
jejichû ˙kolem je stahovat a analyzovat
webovÈ str·nky. Tento dÌl objasnÌ, jak
vyhled·vaËe vyuûÌvajÌ v˝sledky jejich pr·ce.
V z·vÏru jsou pak uvedena i nÏkter· doporuËenÌ pro psanÌ webov˝ch str·nek, aby se
dob¯e prohled·valy.
Google vznikl v roce 1998 na StandfordskÈ univerzitÏ, kde v poË·tcÌch i hostoval.
SvÈ jmÈno obdrûel podle ËÌsla googolplex,
jehoû z·pis se skl·d· z jedniËky n·sledovanÈ
Uloûn˝ server
Archiv
URL analyz·tor
IndexovaË
Lexikon
B a r e l y
Index
dokument˘
Google ñ p¯ÌsnÏ tajnÈ
Jak funguje Google
Robot
Robot
Anchors
Odkazy
⁄vodem je t¯eba poznamenat, ûe provozovatelÈ vyhled·vaË˘ nemajÌ z·jem zve¯ejÚovat
cokoliv konkrÈtnÏjöÌho, ËÌm by konkurenci
usnadnili cestiËku ke stvo¯enÌ jinÈho jeötÏ
˙spÏönÏjöÌho vyhled·vaËe, p¯ÌpadnÏ poskytli
podklady pro moûnÈ domnÏnky o protÏûov·nÌ nÏjak˝ch str·nek. Proto nelze û·dnÈmu
zasvÏcenÈmu pojedn·nÌ o struktu¯e nÏkterÈho
z popul·rnÌch vyhled·vaË˘, jako t¯eba
o Google, beze zbytku vÏ¯it (tedy ani tomu,
kter˝ pr·vÏ Ëtete). Vyhled·vaËe si dnes osvojily roli jak˝chsi internetov˝ch reklamnÌch
agentur se vöemi dopady, kterÈ z podobnÈho
postavenÌ vypl˝vajÌ, vËetnÏ kritik ze strany
ve¯ejnosti. Pouh· ˙prava algoritmu pouûitÈho
pro ohodnocenÌ str·nek ñ Google Dance
(popsan˝ v p¯edchozÌm dÌlu Ël·nku) ñ vyvol·v· obËas tak bou¯livÈ reakce, ûe se nÏkdy
pÌöe i o firm·ch jÌm poökozen˝ch, jako kdyby
p¯iöla ûiveln· pohroma. A moûn· jeötÏ nÏco
horöÌho, neboù proti povodnÌm je moûnÈ se
pojistit, ale proti Google Dance nikoliv,
aspoÚ ne v dneönÌ dobÏÖ
P¯esnou strukturu a algoritmy vyhled·vaË˘ halÌ peËlivÈ mlËenÌ, a tak je nutnÈ spokojit se s pouh˝mi n·znaky. Pro Google lze
najÌt nÏjakÈ informace v dokumentaËnÌm
projektu [1], kter˝ napsali jeho tv˘rci Sergey
Brinem a Lawrence Page. V nÏm ale popisujÌ pouze sv˘j prvotnÌ n·vrh ñ souËasn˝ stav
se vöak m˘ûe v˝raznÏ liöit. DalöÌ informace
lze posbÌrat po rozliËn˝ch Ël·ncÌch a debatnÌch fÛrech vÏnovan˝ch problematice vyhled·vaË˘, kde r˘znÌ nadöenci zve¯ejÚujÌ svÈ
experimenty nebo teoretickÈ studie. Podle
tÏchto zdroj˘ sestaven· struktura vyhled·vaËe Google jen velmi pravdÏpodobn· moûnost
z mnoha dalöÌch a jinÌ auto¯i se mohou klonit
k jin˝m n·zor˘m.
Roboti
URL server
T¯ÌdiË
Page rank
HledaË
Obr. 1 Náznak struktury vyhledávače Google
googol nulami, p¯iËemû googol se rovn·
100
(n·zvy obou ËÌsel zavedl matematik
10
Edward Kasner, 1878ñ1955). »Ìslo googol
p¯evyöuje svou velikostÌ i poËet vöech Ë·stic
72
v celÈm vesmÌru, odhadovan˝ mezi 10 aû
87
10 . JeötÏ vÏtöÌ ËÌslo googolplex, rovnajÌcÌ se
googol
, se pak uû zcela vymyk· jak˝mkoliv
10
lidsk˝m p¯edstav·m.
Vyhled·vaË Google se svou aktivitou
˙spÏönÏ blÌûÌ tÏmto nesmÌrnÏ vysok˝m ËÌsl˘m, neboù odpovÌd· uû na vÌce jak 200 milion˘ dotaz˘ dennÏ, Ëili v pr˘mÏru vy¯ÌdÌ p¯es
2 300 û·dostÌ kaûdou sekundu. Pracuje pro
nÏj vÌce neû 10 000 server˘, vybaven˝ch
operaËnÌm systÈmem Linux a umÌstÏn˝ch ve
vÌce neû t¯in·cti v˝poËetnÌch centrech. P¯i
generov·nÌ odpovÏdÌ vych·zÌ z podklad˘ zÌskan˝ch anal˝zou vÌce neû 3,3 miliardy webov˝ch str·nek. K jejich p¯eËtenÌ by jeden ËlovÏk pot¯eboval asi 20 000 let, avöak Google
je pr˝ prohled· za 0,5 sekundy.
Z·kladnÌ struktura Google, naznaËen· na
obr. 1, nenÌ nikterak sloûit·. Server URL
adres p¯ed·v· tyto adresy robot˘m (crawlers) a jimi zÌskanÈ webovÈ str·nky se potÈ
posÌlajÌ ˙loûnÈmu serveru (StoreServer), kter˝ je komprimuje pomocÌ metody Zlib
a ukl·d· do archivu (Repository). Kaûd·
str·nka p¯i ukl·d·nÌ obdrûÌ sv˘j identifik·tor
(docID) a obsah archivu pro danou str·nku
lze zobrazit, kdyû se ve v˝pisu vyhled·vaËe
zvolÌ odkaz archiv.
ArchivujÌ se kompletnÌ kÛdy str·nek
HTML, ale pouze do omezenÈ velikosti.
Google v souËasnÈ dobÏ, a to podle ˙daj˘ jÌm
ned·vno potvrzen˝ch, omezuje data z bÏûnÈ
str·nky na 101 kB, z toho se zhruba 1 kB
p¯edpokl·d· pro hlaviËku HTTP a 100 kB
pro text vlastnÌ str·nky bez obr·zk˘. Pokud
vöak Google vyhodnotÌ dokument jako zajÌ-
•
Č Í S L O
5
•
K V Ě T E N
2 0 0 4
mav˝, zpracuje se cel· str·nka, zejmÈna
v p¯ÌpadÏ soubor˘ PDF. OdliönÏ se p¯istupuje i ke katalog˘m, Ëili seznam˘m odkaz˘
vytv·¯en˝ch uûivateli katalogu ve spolupr·ci
s jeho spr·vci. Katalogy se sice neukl·dajÌ do
archivu celÈ, ale vûdy se zpracov·vajÌ vöechny odkazy na nich uvedenÈ.
IndexovaË (indexer) zajiöùuje ¯adu funkcÌ.
VybÌr· jednotlivÈ str·nky z archivu a zpracov·v· je. Z naËtenÈ str·nky vytvo¯Ì mnoûinu
slov a u kaûdÈho slova zjistÌ poËet jeho
v˝skyt˘, jeho umÌstÏnÌ v textu a d˘leûitost
odvozenou podle prvku (nap¯. element
HTML), kde bylo slovo pouûitÈ. Tyto ˙daje
majÌ spoleËn˝ n·zev HIT a schraÚujÌ se
v mnoûinÏ barel˘ (barrels).
IndexovaË zjiöùuje rovnÏû informace
o odkazech v danÈ str·nce. Google v·ûe
odkazy nejen ke str·nce, na nÌû se vyskytuje,
ale i k tÈ, na kterou smÏ¯uje, coû se naz˝v·
anchor (kotva, zar·ûka) a ukl·d· je do speci·lnÌch soubor˘. SpojenÌ odkazu s cÌlovou
str·nkou p¯in·öÌ ËetnÈ v˝hody. Popisky
u odkaz˘, zejmÈna u tÏch, kterÈ vytvo¯ila
nÏjak· nez·visl· strana, d·vajÌ Ëasto mnohem v˝stiûnÏjöÌ informaci o v˝znamu cÌlovÈ
str·nky a jejÌm obsahu neû str·nka samotn·.
KromÏ toho existujÌ i pro dokumenty, kterÈ
nelze z technick˝ch d˘vod˘ prozkoumat textovÏ orientovan˝mi prohled·vaËi, nap¯Ìklad
obr·zky, programy a multimedi·lnÌ soubory.
NicmÈnÏ anchor umoûnÌ, aby vyhled·vaË
vracel referenci na tyto soubory, aËkoliv
nebyly v˘bec prohledanÈ.
Analyz·tor URL (URLResolver) p¯etv·¯Ì
relativnÌ odkazy URL na absolutnÌ a tÏm p¯i¯azuje jedineËnÈ identifik·tory. D·le generuje seznam dokument˘ a podklady pro v˝poËet page rank probÌranÈho minule. Nakonec
t¯ÌdiË (Sorter) vybÌr· data z barel˘, set¯ÌdÏn·
podle identifik·toru dokument˘, a ¯adÌ je
podle slov. Generuje tak invertovan˝
seznam, uloûen˝ v lexikonu, kter˝ dovoluje
rychle najÌt dokumenty, v nichû se slovo
vyskytuje.
Jak vypad· takov· odpovÏÔ na dotaz sloûen˝ z jednotliv˝ch slov a logick˝ch spojek?
Jeho vyhodnocenÌ proch·zÌ n·sledujÌcÌmi
kroky. Nejprve se rozloûÌ na jednotliv· slova, pro ta se zjistÌ jedineËnÈ identifik·tory
a urËÌ se zaË·tky seznam˘ HIT v barelech.
Jejich postupn˝m prohled·nÌm se najdou
dokumenty vyhovujÌcÌ celÈmu dotazu. Kdyû
se nÏkter˝ takov˝ nalezne, je vypoËtena jeho
relevance, Ëili d˘leûitost vzhledem k danÈmu
dotazu. Podle tÈ jsou nakonec v˝sledky ut¯ÌdÏny, a to sestupnÏ, od dokumentu s nejvyööÌ relevancÌ dol˘.
Pokud se uûivatel zajÌm· o pojem, kter˝
se vyskytuje p¯Ìliö Ëasto, vyhled·vaË nezkoum· vöechny reference, ale p¯eruöÌ p·tr·nÌ,
jakmile zÌsk· dostateËnÈ mnoûstvÌ relevantnÌch referencÌ. Z tÏch odhadne, kolik dokument˘ by asi mohlo najÌt p¯i ˙plnÈm prohled·nÌ ñ vûdyù vÏtöinou lidÈ stejnÏ p¯eËtou jen
p·r prvnÌch str·nek v˝sledk˘.
•
R O Č N Í K
4 7
Zapeklit· sÈmantick· anal˝za
ObecnÏ zn·m· struktura vyhled·vaËe
Google ned·v· odpovÏÔ na ¯adu klÌËov˝ch
ot·zek. Ty z˘st·vajÌ tajemstvÌmi. Pominemeli vöechny realizaËnÌ problÈmy, tzn. problÈmy spojenÈ s efektivitou pr·ce a distribucÌ
problÈmu vyhled·v·nÌ na vÌce poËÌtaËÌch,
z˘st·vajÌ takÈ nejasnosti ohlednÏ ohodnocenÌ
str·nek a urËenÌ jejich relevance v˘Ëi dotazu,
Ëili stanovenÌ vhodnÈho po¯adÌ ve v˝pisu tak,
aby str·nky pro tazatele zajÌmavÈ byly na
p¯ednÌch mÌstech. Pr·vÏ toto totiû rozhoduje
o kvalitÏ vyhled·vaËe.
Zhruba se vÌ, ûe relevanci dokumentu
ovlivÚuje to, kolikr·t se na nÏm vyskytuje
hledanÈ slovo, v p¯ÌpadÏ vÌceslovnÈho dotazu pak vzd·lenost mezi v˝skyty jednotliv˝ch
slov dotazu, a d·le ohodnocenÌ str·nek (page
rank), pro kter˝ je zn·m z·kladnÌ vzorec,
avöak nikoliv p¯esn˝ ñ ten tv˘rci vyhled·vaËe Google peËlivÏ tajÌ. Odhaduje se jen, ûe
jeho vzorec zahrnuje r˘znÈ penalizace
a detekce podvodn˝ch pokus˘ o zv˝öenÌ relevance a takÈ novÏ zav·dÏn˝ tematick˝ page
rank, kter˝ upravuje ohodnocenÌ str·nky
podle odkaz˘ z hodnovÏrn˝ch externÌch
katalog˘. V˝sledn· relevance je pak v·ûen˝m souËtem vöech tÏchto dÌlËÌch kritÈriÌ.
Ale ani takto sloûit˝ vzorec nestaËÌ
k nalezenÌ dokument˘ zajÌmav˝ch pro tazatele. Kdo chce skuteËnÏ nÏco vyhledat,
nem˘ûe zad·vat p¯Ìliö obecnÈ dotazy. Nap¯Ìklad slovo ÑPIDì vede k z·plavÏ referencÌ,
z nichû jen zlomek souvisÌ s zam˝ölenou PID
regulacÌ. Zkratka PID se totiû pouûÌv· pro
dalöÌ pojmy: oznaËuje i jednu nemoc, za¯ÌzenÌ na sbÏrnici, program pro identifikaci
a praûsk˝ dopravnÌ integrovan˝ systÈm.
Z˙ûÌme-li vöak dotaz, t¯eba na vazbu PID
regulace, pak prost˝m porovn·nÌm slov by se
nenaöly dokumenty obsahujÌcÌ spojenÌ ÑPID
regul·torì nebo ÑPID regulov·nÌì, eventu·lnÏ pouûÌvajÌcÌ synonymum ÑPID ¯ÌzenÌì.
Vyhled·v·nÌ by tak snadno mohlo jednu
neurËitost nahradit jinou ñ bylo by sice moûnÈ vyp·trat, kde se poûadovan˝ ˙daj nach·zÌ,
ale jedinÏ p¯i znalosti p¯esnÈ ot·zky. ModernÏjöÌ vyhled·vaËe se proto snaûÌ zadan˝
v˝raz analyzovat, odhadnout obor, o kter˝ se
tazatel zajÌm·, a vypoËÌtat relevanci dokument˘ nejen z poËtu v˝skyt˘ hledanÈ fr·ze,
ale vzÌt v ˙vahu i jejÌ ekvivalenty, v naöem
p¯ÌpadÏ ÑPID regul·torì a ÑPID ¯ÌzenÌì.
Webov· str·nka se kv˘li tomu musÌ
bÏhem indexov·nÌ zpracov·vat jeötÏ sÈmanticky (obr. 2). Nejprve se prov·dÌ jeho lexik·lnÌ anal˝za, p¯i nÌû se text dÏlÌ na jednotliv· slova, ËÌsla nebo speci·lnÌ znaky.
ProblÈmy nast·vajÌ s interpretov·nÌm urËit˝ch slovnÌch spojenÌch. Nap¯Ìklad pouhÈ
ruöenÌ rozdÏlujÌcÌch znamÈnek v textu nenÌ
v˘bec jednoduchÈ. Pokud se t¯eba ve slovÏ
Ñsci-fiì odstranÌ pomlËka, vzniknou dvÏ slova se zcela odliön˝m v˝znamem. ObdobnÈ
problÈmy nast·vajÌ v reprezentaci telefonnÌch ËÌsel a letopoËt˘. Zvl·ötnÌ p¯Ìstupy
•
Č Í S L O
5
•
K V Ě T E N
327
2 0 0 4
vyûadujÌ i speci·lnÌ entity (X)HTML jako
Ñ , &, ©ì a jinÈ.
V˝sledek lexik·lnÌ anal˝zy m˘ûe postoupit do sekce zvanÈ eliminace stop slov, kde se
ze seznamu slov eliminujÌ slova (p¯edevöÌm
spojky nebo p¯edloûky), kter· se vyskytujÌ
ve vÏtöinÏ dokument˘. Jejich vynech·nÌm se
zmenöÌ velikost ukl·dan˝ch dat, ale ztÏûuje se
hled·nÌ podle fr·zÌ. Google nap¯Ìklad v anglick˝ch dokumentech vynech·v· p¯Ìliö Ëast·
slova jako nap¯Ìklad ÑIì, Ñofì, Ñforì, Ñwithì
a dalöÌ. A p¯i z˙ûenÌ hled·nÌ jen na ËeskÈ
str·nky se zase vylouËÌ spojky Ñaì a Ñiì.
Slova d·le proch·zejÌ lemmatizÈrem, tzn.
modulem zab˝vajÌcÌm se p¯evodem slov na
slovnÌkovÈ tvary, jehoû z·kladnÌ Ë·st tvo¯Ì
stemmer (stem ñ ko¯en slova). Pro p¯evod na
z·kladnÌ tvar lze pouûÌt tabulkov˝ model
nebo metody zaloûenÈ na odstraÚov·nÌ p¯Ìpon ñ Porter˘v algoritmus [2] a v neposlednÌ
¯adÏ program ispell. Ten ve svÈ podstatÏ
p¯edstavuje slovnÌk obsahujÌcÌ vöechna slova
spolu s p¯Ìznaky, podle kter˝ch se zjistÌ
vöechny dalöÌ moûnÈ tvary. SlovnÌk ispell
pro vÏtöinu jazyk˘ lze nalÈzt na [3].
P¯i anal˝ze se d·le hodnÏ vyuûÌv· thesaurus, kter˝ obsahuje synonyma dan˝ch slov.
Matematick˝ popis lze nalÈzt na [4]. V˝slednÈ ohodnocenÌ dokumentu pak m˘ûe z·viset
nejen na poËtu nalezen˝ch v˝skyt˘ vazby
ÑPID regulaceì a p¯Ìsluön˝ch vyskloÚovan˝ch a odvozen˝ch tvarech, jako ÑPID regulacemiì, ÑPID regul·torì apod., ale souËasnÏ
i na v˝skytu synonym, t¯eba Ñ¯ÌzenÌì, Ëi oborovÏ blÌzk˝ch pojm˘, jako t¯eba Ñtermoregulaceì a Ñstabilizaceì.
Velmi d˘leûit˝m modulem je rovnÏû
detektor trik˘. Jiû v prvnÌm dÌlu Ël·nku byly
pops·ny podvodnÈ snahy o lepöÌ ohodnocenÌ
str·nek (page rank) pomocÌ farem odkaz˘.
Podv·dÌ se pochopitelnÏ i v oblasti v˝skytu
slov. Vöechny nÌûe zmÌnÏnÈ triky jsou jiû
zn·mÈ a vyhled·vaË podobnÈ str·nky penalizuje snÌûenÌm jejich relevance.
»ast˝m trikem b˝vajÌ hlavnÏ bezv˝znamnÈ texty, kterÈ nejsou vidÏt p¯i zobrazenÌ
str·nky v prohlÌûeËi, ale obsahujÌ pojmy zvyöujÌcÌ hodnocenÌ. Sem pat¯Ì t¯eba bÌlÈ pÌsmo
na bÌlÈm pozadÌ, eventu·lnÏ text öikovnÏ p¯ekryt˝ jin˝mi prvky, nebo zamaskovan˝ kresbou, kterou generuje JavaScript. Jinou moûnost p¯edstavuje umÌstÏnÌ faleön˝ch text˘ aû
na konec str·nky a jejich oddÏlenÌ od informacÌ v˝znamn˝ch pro n·vötÏvnÌka velkou
pr·zdnou mezerou nebo vhodnou znaËkou,
kter· vzbuzuje dojem, ûe uû nen·sleduje nic
zajÌmavÈho. Detektory trik˘ musÌ proto br·t
v ˙vahu nejen v˝skyty slov, ale i jejich viditelnost pro uûivatele.
Mnohem problematiËtÏji se zjiöùuje opaËn· situace ñ tajenÌ nevhodnÈho obsahu. Vöe,
co mÏlo uniknout robot˘m, se vloûÌ jako
obr·zky, k nimû se uvedou jinÈ textovÈ
popisky, neû uûivatel skuteËnÏ uvidÌ, aby
str·nka zÌskala jinÈ ohodnocenÌ, neû by si
zaslouûila.
JakÈ str·nky se dob¯e vyhled·vajÌ?
Z·sady pro tvorbu webov˝ch str·nek,
kterÈ se budou dob¯e vyhled·vat, se Ëasto
oznaËujÌ pojmem SEO (Search Engine Optimization). Vöechny tyto z·sady nelze vyjmenovat, uû proto, ûe mnohÈ se rychle mÏnÌ.
Jak jiû bylo uvedeno v p¯edeölÈ Ë·sti Ël·nku,
Google dlouhou dobu ignoroval parametr id
u dynamicky generovan˝ch str·nek ñ bral jej
jako unik·tnÌ oznaËenÌ n·vötÏvnÌka, tzv. sessions ñ a teprve ned·vno ho zaËal zpracov·vat. HojnÏ uv·dÏnÈ pravidlo ÑnepouûÌvat idì
tak ztratilo sv˘j v˝znam doslova ze dne na
den.
I uzn·van· z·sada, ûe prohled·vacÌ roboti neproch·zejÌ JavaScript, m˘ûe brzy padnout, protoûe Google zaËÌn· ˙dajnÏ jiû experimentovat s jeho anal˝zou. V n·sledujÌcÌch
statÌch se proto zmÌnÌme jen o hlavnÌch pravidlech, u nichû lze p¯edpokl·dat dlouhodobÏjöÌ platnost.
Zve¯ejÚujte na str·nk·ch zajÌmavÈ informace, a to i v textovÈ formÏ. Pr·vÏ informace p¯itahujÌ n·vötÏvnÌky. Vzhled je sice takÈ
d˘leûit˝, avöak je t¯eba mÌt na pamÏti, ûe grafickÈ prvky, jako obr·zky, Flash Ëi kresby
generovanÈ jazykem JavaScript, nejsou viditelnÈ pro textovÈ prohled·vajÌcÌ roboty ñ pro
nÏ neexistujÌ. Ke kaûdÈmu grafickÈmu prvku
by proto mÏla existovat jeho textov· analogie. U obr·zk˘ je vhodnÈ vûdy vyplÚovat
atribut alt. Pokud jsou na str·nce prezentov·ny d˘leûitÈ informace pomocÌ program˘
Macromedia Flash Ëi JavaScript, je t¯eba
k nim vytvo¯it i textovou analogii, t¯eba pod
nabÌdkou Ñtextov· verzeì.
Nevytv·¯ejte p¯Ìliö velkÈ str·nky. Architektu¯e vyhled·vaËe Google vyhovujÌ str·nky menöÌ neû 101 KB. Mezi v˝jimky mohou
pat¯it pouze soubory PDF, resp. katalogy
odkaz˘.
Vyh˝bejte se r·m˘m, jelikoû nedovolujÌ
zadat libovolnou sestavu zobrazen˝ch str·nek. BlÌûe se o problÈmech s jejich prohled·v·nÌm psalo v minulÈm dÌlu.
UveÔte v˝stiûnÈ titulky str·nek definovanÈ v (X)HTML v elementu <title>. Mnohdy
titulek chybÌ nebo mÌv· shodnou hodnotu na
vöech str·nk·ch, takûe potencion·lnÌ z·jemce vidÌ v seznamu odkaz˘ vyhled·vaËe jen
nic ne¯ÌkajÌcÌ reference, jako t¯eba pouh˝
n·zev firmy. M·-li b˝t n·zev firmy uveden
v titulcÌch, je vhodnÈ jej p¯ipojit aû na
konec, na zaË·tek je lepöÌ uv·dÏt popis obsahu str·nky.
Dbejte na sv˘j page rank. PomocÌ vyhled·vaËe je moûnÈ zjistit, z kolika str·nek vede
odkaz na sledovanou str·nku. Ve vyhled·vaËi Google je doporuËeno vyhled·vat odkazy
p¯Ìkazem Ñlink:http://example.com/ì, kde se
text napsan˝ kurzÌvou nahradÌ jmÈnem
domÈny sledovanÈ str·nky. Tento p¯Ìkaz
vöak nevracÌ vöechny odkazy smÏ¯ujÌcÌ na
sledovanou str·nku, ale jen ty z v˝znamn˝ch
str·nek. Zde nejlÈpe pom˘ûe prostÈ vyhled·nÌ jmÈna danÈ domÈny. Je nutnÈ vzÌt p¯itom
328
l·tory!!!
mikro-reguPID a PSD
AplikovanÈ
konverze
form·tu
detekce
trik˘
AplikovanÈ
PID a PSD
mikro-regul·tory!!!
lexik·lnÌ
anal˝za
aplikovanÈ PID a PSD
mikroregul·tory
eliminace
stop slov
aplikovanÈ PID PSD
mikroregul·tory
lemmatizÈr
- ko¯eny slov
thesaurus
- synonyma,
p¯ÌbuznÈ
pojmy
aplikovat PID PSD
mikro/regul·tor
aplikovat|nasadit|pouûÌt...
mikro/regulace|¯ÌzenÌ...
poËty
v˝skyt˘
slov
fin·lnÌ ohodnocenÌ
Obr. 2 Analýza dokumentu
v ˙vahu nejen poËet nalezen˝ch odkaz˘, ale
i jejich kvalitu. Pokud na sledovanou str·nku
ukazuje jin· str·nka, kter· m· sice extrÈmnÏ
vysokÈ ohodnocenÌ (page rank), ale sama
odkazuje na mnoho dalöÌch str·nek, pak to
sledovanÈ str·nce p¯Ìliö neprospÏje. Mnohem
v˝hodnÏjöÌ je, kdyû na ni ukazuje str·nka,
kter· m· sice nÌzkÈ ohodnocenÌ, ale ukazuje
pouze na ni.
DalöÌ d˘leûitou vÏcÌ je i umisùov·nÌ
odkaz˘ smÏ¯ujÌcÌch mimo str·nky. Zde je
v˝hodnÈ domluvit se o vz·jemnÈ v˝pomoci,
kdy si dvÏ firmy nebo jednotlivci umÌstÌ na
svÈ str·nky odkazy jeden na druhÈho. Vz·jemnÈ odkazy majÌ prohled·vacÌ roboti r·di,
protoûe dokazujÌ, ûe se nejedn· o pochybnÈ
techniky popsanÈ v p¯edchozÌm dÌlu. Pozor
Webmapa http://example.com - 3 ˙rovnÏ
SloûenÌ str·nky - typ souboru, celkem kB, poËet
appl/pdf, 549 kB, #2
appl/zip, 13806 kB, #11
image/gif, 306 kB, #28
appl/program, 1801 kB, #3
text/html, 193 kB, #32
image/jpeg, 893 kB, #18
e Str. 1 P¯Ìklad webmapy
N·vod k pouûitÌ
PDF
Adobe
e
Str. 1.1 - O p¯Ìkladu
P¯Ìkladn˝ GIF obr.
e
Str. 1.19 - Webmapa p¯Ìkladu
P¯Ìkladn˝ program
PoËty soubor˘:
# 11
# 28
#2#3
# 32
# 18
Obr. 3 Webmapa usnadní orientaci návštěvníkům
i prohledávacím robotům
•
R O Č N Í K
4 7
ale, aby roboti umÏli prohled·vat odkaz
umÌstÏn˝ protistranou a sluûba nebyla jednostrann·.
Vyuûijte robots.txt, soubor obsahujÌcÌ
pokyny pro prohled·vacÌ roboty. HodÌ se v
p¯ÌpadÏ, je-li na str·nce pouûito p¯esmÏrov·nÌ, nebo pokud nemajÌ b˝t urËitÈ str·nky
indexov·ny. BliûöÌ popis form·tu souboru
lze nalÈzt nap¯Ìklad v [7].
Zaregistrujte str·nku v seriÛznÌch katalozÌch. Odkaz˘m, kterÈ se v nich vyskytujÌ,
mohou vyhled·vaËe p¯ikl·dat vÏtöÌ v·hu,
protoûe se p¯edpokl·d·, ûe uvedenÈ ˙daje
aspoÚ Ë·steËnÏ ovÏ¯ujÌ spr·vci katalog˘.
Piöte validnÌ str·nky, tedy syntakticky
spr·vnÈ a vyhovujÌcÌ norm·m, coû si lze
snadno p¯ekontrolovat t¯eba bezplatnou sluûbou [5]. Bezchybn· syntaxe (X)HTML dokument˘ tvo¯Ì z·kladnÌ p¯edpoklad pro jejich
spr·vnÈ indexov·nÌ. NavÌc upozornÌ na
z·kladnÌ proh¯eöky, jako nap¯Ìklad chybÏjÌcÌ
atributy alt u obr·zk˘ Ëi vynechanÈ specifikov·nÌ normy, podle nÌû byl dokument napsan˝,
takûe jejÌ kontrola se v¯ele doporuËuje. Je t¯eba takÈ pouk·zat na problematickou konverzi
z nÏkter˝ch textov˝ch editor˘, nejzn·mÏjöÌ
jsou potÌûe s dokumenty napsan˝mi v editoru
MS Word a uloûen˝mi jako soubory HTML ñ
v jejich luötÏnÌ se Ëasto vyzn· jedinÏ MS
Explorer. TakovÈ dokumenty je vhodnÈ vûdy
p¯ekontrolovat valid·tory.
Na str·nky p¯idejte ˙daje d˘leûitÈ pro
prohled·vacÌ roboty. Prohled·v·nÌ je proces
plnÏ automatick˝ a roboti pot¯ebujÌ rozhodnÏ
zn·t jazykovou verzi str·nky a kÛdov·nÌ, ve
kterÈm je uloûena. KromÏ toho je nutnÈ definovat i hlavnÌ uûivatelskÈ meta atributy,
jejich popis najdete t¯eba v [6]. DoporuËuje
se hlavnÏ popisek str·nky, meta atribut
<meta name="description" Ö>, kterÈmu vyhled·vaËe p¯ikl·dajÌ vÏtöÌ v·hu neû jinÈmu textu. NÏkdy se p¯id·v· i meta atribut s klÌËov˝mi slovy <meta name="keywords" Ö>. Jejich
seznam by nemÏl b˝t delöÌ neû 1 000 znak˘
a souËasnÏ je t¯eba db·t na to, aby se uveden· klÌËov· slova hojnÏ vyskytovala v textu
p¯ÌsluönÈ str·nky. Je-li mezi klÌËov˝mi slovy
pojem, kter˝ se na nÌ v˘bec neobjevÌ, m˘ûe
naopak hrozit snÌûenÌ hodnocenÌ str·nky.
Seznamy klÌËov˝ch slov se totiû v minulosti
aû p¯Ìliö Ëasto zneuûÌvaly.
PouûÌv·te-li dynamicky generovanÈ
str·nky, v prvnÌch t¯ech parametrech p¯ed·vejte podstatnÈ informace urËujÌcÌ odliön˝
obsah str·nky. MajÌ-li webovÈ prezentace
sloûitÏjöÌ strukturu, je pro jistotu vhodnÈ
vytvo¯it jejÌ statickou webmapu, Ëili jakousi
analogii obsahu knihy. StaËÌ pouh˝ seznam
odkaz˘ na webovÈ str·nky. Webmapa m˘ûe
b˝t samoz¯ejmÏ i mnohem podrobnÏjöÌ
s vyuûitÌm grafick˝ch prvk˘ (obr. 3).
Podobn· webmapa nejen usnadnÌ orientaci n·vötÏvnÌk˘m, ale p¯edevöÌm zaruËÌ, ûe
roboti prohledajÌ vöechny str·nky. M˘ûe rovnÏû poslouûit i jako n·hradnÌ reference pro
oöet¯enÌ chyby 404 (str·nka nenalezena), na
•
Č Í S L O
5
•
K V Ě T E N
2 0 0 4
kterou se Ëasto neopr·vnÏnÏ zapomÌn·. Problematika automatickÈho generov·nÌ webmap
je podrobnÏji pojedn·na v [10 a 11].
Co ¯Ìci na z·vÏr?
Vöechna uveden· doporuËenÌ pro psanÌ
webov˝ch str·nek p¯edstavujÌ opravdu jen
z·kladnÌ pravidla, pouhou kapku v oce·nu
problÈm˘ optimalizace pro automatickÈ prohled·v·nÌ str·nek. Kdo chce mÌt opravdu dobrÈ webovÈ str·nky, musÌ zajistit, aby jejich
spr·vce neust·le sledoval novinky t˝kajÌcÌ se
problÈm˘ se SEO, kterÈ jsou uvedeny nap¯. na
domÈnÏ v [6] Ëi na nÏkterÈm diskusnÌm fÛru
vÏnovanÈm tomuto tÈmatu, t¯eba na [8].
Ing. Richard äusta, Ph.D.,
Ing. Martin ÿimn·Ë,
Ing. Ji¯Ì éivn˘stka
L I T E R AT U R A
[1] BRIN, S. ñ PAGE, L.: The Anatomy of
a Large-Scale Hypertextual Web
Search Engine. www.internet-marketing-branding.com/Google/Googlesecret.html
[2] Internet: http://sourceforge.org/ ñ
projekt Snowball popisujÌcÌ Porter˘v
algoritmus
[3] Dictionaries for International Ispell.
http://fmg-www.cs.ucla.edu/fmg-members/geoff/ispell-dictionaries.html
[4] P¡NEK, K.: Jehla v kupce sena: Thesaurus. www.lupa.cz/clanek.php3?sho
w=2213.
[5] Internet: http://validator.w3.org/ ñ
ovÏ¯enÌ syntaktickÈ spr·vnosti str·nky
[6] Internet: www.jakpsatweb.cz/meta_tagy.htm ñ popis kÛd˘ HTML str·nek
[7] Internet: www.robotstxt.org/wc/norobots.html ñ popis form·tu souboru
robots.txt
[8] Internet: http://seo.nawebu.cz ñ diskusnÌ SEO fÛrum
[9] Internet: www.webpronews.com/insiderreports/searchinsider/wpn-4920040406GoogleIndexesDocumentsFirst101k.html
[10] ÿIMN¡», M.: Mapa webovÈ sÌtÏ.
Dipl. pr·ce. Praha, »VUT FEL 2004.
http://dce.felk.cvut.cz/dolezilkova/dip
lomky.htm
[11] éIVNŸSTKA, J.: PHP rozhranÌ pro
vyhled·v·nÌ a spr·vu mapy sÌtÏ. Dipl.
pr·ce. Praha, »VUT FEL 2004. http://
dce.felk.cvut.cz/dolezilkova/diplomky.htm

Automatic Searching of WEB Pages II

Transkript

Podobné dokumenty

04 05 obsah e.cdk

I`d**-

Žebříček dospělých OSST 1983/1984

Slovníček k učebnici Start with Click new 1

PDF

Věrný a rozvážný otrok - vedoucí sbor, nebo příklad pro naši bdělost