Automatic Searching of WEB Pages II
Transkript
Automatic Searching of WEB Pages II
INTERNETOVÉ TECHNOLOGIE 326 A U T O M A T I Z A C E • R O Č N Í K 4 7 Automatické prohledávání webových stránek II PrvnÌ dÌl Ël·nku (Automatizace Ë. 4/2004) byl zamϯen p¯ev·ûnÏ na Ëinnost robot˘, jejichû ˙kolem je stahovat a analyzovat webovÈ str·nky. Tento dÌl objasnÌ, jak vyhled·vaËe vyuûÌvajÌ v˝sledky jejich pr·ce. V z·vÏru jsou pak uvedena i nÏkter· doporuËenÌ pro psanÌ webov˝ch str·nek, aby se dob¯e prohled·valy. Google vznikl v roce 1998 na StandfordskÈ univerzitÏ, kde v poË·tcÌch i hostoval. SvÈ jmÈno obdrûel podle ËÌsla googolplex, jehoû z·pis se skl·d· z jedniËky n·sledovanÈ Uloûn˝ server Archiv URL analyz·tor IndexovaË Lexikon B a r e l y Index dokument˘ Google ñ p¯ÌsnÏ tajnÈ Jak funguje Google Robot Robot Anchors Odkazy ⁄vodem je t¯eba poznamenat, ûe provozovatelÈ vyhled·vaˢ nemajÌ z·jem zve¯ejÚovat cokoliv konkrÈtnÏjöÌho, ËÌm by konkurenci usnadnili cestiËku ke stvo¯enÌ jinÈho jeötÏ ˙spÏönÏjöÌho vyhled·vaËe, p¯ÌpadnÏ poskytli podklady pro moûnÈ domnÏnky o protÏûov·nÌ nÏjak˝ch str·nek. Proto nelze û·dnÈmu zasvÏcenÈmu pojedn·nÌ o struktu¯e nÏkterÈho z popul·rnÌch vyhled·vaˢ, jako t¯eba o Google, beze zbytku vϯit (tedy ani tomu, kter˝ pr·vÏ Ëtete). Vyhled·vaËe si dnes osvojily roli jak˝chsi internetov˝ch reklamnÌch agentur se vöemi dopady, kterÈ z podobnÈho postavenÌ vypl˝vajÌ, vËetnÏ kritik ze strany ve¯ejnosti. Pouh· ˙prava algoritmu pouûitÈho pro ohodnocenÌ str·nek ñ Google Dance (popsan˝ v p¯edchozÌm dÌlu Ël·nku) ñ vyvol·v· obËas tak bou¯livÈ reakce, ûe se nÏkdy pÌöe i o firm·ch jÌm poökozen˝ch, jako kdyby p¯iöla ûiveln· pohroma. A moûn· jeötÏ nÏco horöÌho, neboù proti povodnÌm je moûnÈ se pojistit, ale proti Google Dance nikoliv, aspoÚ ne v dneönÌ dobÏÖ P¯esnou strukturu a algoritmy vyhled·vaˢ halÌ peËlivÈ mlËenÌ, a tak je nutnÈ spokojit se s pouh˝mi n·znaky. Pro Google lze najÌt nÏjakÈ informace v dokumentaËnÌm projektu [1], kter˝ napsali jeho tv˘rci Sergey Brinem a Lawrence Page. V nÏm ale popisujÌ pouze sv˘j prvotnÌ n·vrh ñ souËasn˝ stav se vöak m˘ûe v˝raznÏ liöit. DalöÌ informace lze posbÌrat po rozliËn˝ch Ël·ncÌch a debatnÌch fÛrech vÏnovan˝ch problematice vyhled·vaˢ, kde r˘znÌ nadöenci zve¯ejÚujÌ svÈ experimenty nebo teoretickÈ studie. Podle tÏchto zdroj˘ sestaven· struktura vyhled·vaËe Google jen velmi pravdÏpodobn· moûnost z mnoha dalöÌch a jinÌ auto¯i se mohou klonit k jin˝m n·zor˘m. Roboti URL server T¯ÌdiË Page rank HledaË Obr. 1 Náznak struktury vyhledávače Google googol nulami, p¯iËemû googol se rovn· 100 (n·zvy obou ËÌsel zavedl matematik 10 Edward Kasner, 1878ñ1955). »Ìslo googol p¯evyöuje svou velikostÌ i poËet vöech Ë·stic 72 v celÈm vesmÌru, odhadovan˝ mezi 10 aû 87 10 . JeötÏ vÏtöÌ ËÌslo googolplex, rovnajÌcÌ se googol , se pak uû zcela vymyk· jak˝mkoliv 10 lidsk˝m p¯edstav·m. Vyhled·vaË Google se svou aktivitou ˙spÏönÏ blÌûÌ tÏmto nesmÌrnÏ vysok˝m ËÌsl˘m, neboù odpovÌd· uû na vÌce jak 200 milion˘ dotaz˘ dennÏ, Ëili v pr˘mÏru vy¯ÌdÌ p¯es 2 300 û·dostÌ kaûdou sekundu. Pracuje pro nÏj vÌce neû 10 000 server˘, vybaven˝ch operaËnÌm systÈmem Linux a umÌstÏn˝ch ve vÌce neû t¯in·cti v˝poËetnÌch centrech. P¯i generov·nÌ odpovÏdÌ vych·zÌ z podklad˘ zÌskan˝ch anal˝zou vÌce neû 3,3 miliardy webov˝ch str·nek. K jejich p¯eËtenÌ by jeden ËlovÏk pot¯eboval asi 20 000 let, avöak Google je pr˝ prohled· za 0,5 sekundy. Z·kladnÌ struktura Google, naznaËen· na obr. 1, nenÌ nikterak sloûit·. Server URL adres p¯ed·v· tyto adresy robot˘m (crawlers) a jimi zÌskanÈ webovÈ str·nky se potÈ posÌlajÌ ˙loûnÈmu serveru (StoreServer), kter˝ je komprimuje pomocÌ metody Zlib a ukl·d· do archivu (Repository). Kaûd· str·nka p¯i ukl·d·nÌ obdrûÌ sv˘j identifik·tor (docID) a obsah archivu pro danou str·nku lze zobrazit, kdyû se ve v˝pisu vyhled·vaËe zvolÌ odkaz archiv. ArchivujÌ se kompletnÌ kÛdy str·nek HTML, ale pouze do omezenÈ velikosti. Google v souËasnÈ dobÏ, a to podle ˙daj˘ jÌm ned·vno potvrzen˝ch, omezuje data z bÏûnÈ str·nky na 101 kB, z toho se zhruba 1 kB p¯edpokl·d· pro hlaviËku HTTP a 100 kB pro text vlastnÌ str·nky bez obr·zk˘. Pokud vöak Google vyhodnotÌ dokument jako zajÌ- • Č Í S L O 5 • K V Ě T E N 2 0 0 4 mav˝, zpracuje se cel· str·nka, zejmÈna v p¯ÌpadÏ soubor˘ PDF. OdliönÏ se p¯istupuje i ke katalog˘m, Ëili seznam˘m odkaz˘ vytv·¯en˝ch uûivateli katalogu ve spolupr·ci s jeho spr·vci. Katalogy se sice neukl·dajÌ do archivu celÈ, ale vûdy se zpracov·vajÌ vöechny odkazy na nich uvedenÈ. IndexovaË (indexer) zajiöùuje ¯adu funkcÌ. VybÌr· jednotlivÈ str·nky z archivu a zpracov·v· je. Z naËtenÈ str·nky vytvo¯Ì mnoûinu slov a u kaûdÈho slova zjistÌ poËet jeho v˝skyt˘, jeho umÌstÏnÌ v textu a d˘leûitost odvozenou podle prvku (nap¯. element HTML), kde bylo slovo pouûitÈ. Tyto ˙daje majÌ spoleËn˝ n·zev HIT a schraÚujÌ se v mnoûinÏ barel˘ (barrels). IndexovaË zjiöùuje rovnÏû informace o odkazech v danÈ str·nce. Google v·ûe odkazy nejen ke str·nce, na nÌû se vyskytuje, ale i k tÈ, na kterou smϯuje, coû se naz˝v· anchor (kotva, zar·ûka) a ukl·d· je do speci·lnÌch soubor˘. SpojenÌ odkazu s cÌlovou str·nkou p¯in·öÌ ËetnÈ v˝hody. Popisky u odkaz˘, zejmÈna u tÏch, kterÈ vytvo¯ila nÏjak· nez·visl· strana, d·vajÌ Ëasto mnohem v˝stiûnÏjöÌ informaci o v˝znamu cÌlovÈ str·nky a jejÌm obsahu neû str·nka samotn·. KromÏ toho existujÌ i pro dokumenty, kterÈ nelze z technick˝ch d˘vod˘ prozkoumat textovÏ orientovan˝mi prohled·vaËi, nap¯Ìklad obr·zky, programy a multimedi·lnÌ soubory. NicmÈnÏ anchor umoûnÌ, aby vyhled·vaË vracel referenci na tyto soubory, aËkoliv nebyly v˘bec prohledanÈ. Analyz·tor URL (URLResolver) p¯etv·¯Ì relativnÌ odkazy URL na absolutnÌ a tÏm p¯i¯azuje jedineËnÈ identifik·tory. D·le generuje seznam dokument˘ a podklady pro v˝poËet page rank probÌranÈho minule. Nakonec t¯ÌdiË (Sorter) vybÌr· data z barel˘, set¯ÌdÏn· podle identifik·toru dokument˘, a ¯adÌ je podle slov. Generuje tak invertovan˝ seznam, uloûen˝ v lexikonu, kter˝ dovoluje rychle najÌt dokumenty, v nichû se slovo vyskytuje. Jak vypad· takov· odpovÏÔ na dotaz sloûen˝ z jednotliv˝ch slov a logick˝ch spojek? Jeho vyhodnocenÌ proch·zÌ n·sledujÌcÌmi kroky. Nejprve se rozloûÌ na jednotliv· slova, pro ta se zjistÌ jedineËnÈ identifik·tory a urËÌ se zaË·tky seznam˘ HIT v barelech. Jejich postupn˝m prohled·nÌm se najdou dokumenty vyhovujÌcÌ celÈmu dotazu. Kdyû se nÏkter˝ takov˝ nalezne, je vypoËtena jeho relevance, Ëili d˘leûitost vzhledem k danÈmu dotazu. Podle tÈ jsou nakonec v˝sledky ut¯ÌdÏny, a to sestupnÏ, od dokumentu s nejvyööÌ relevancÌ dol˘. Pokud se uûivatel zajÌm· o pojem, kter˝ se vyskytuje p¯Ìliö Ëasto, vyhled·vaË nezkoum· vöechny reference, ale p¯eruöÌ p·tr·nÌ, jakmile zÌsk· dostateËnÈ mnoûstvÌ relevantnÌch referencÌ. Z tÏch odhadne, kolik dokument˘ by asi mohlo najÌt p¯i ˙plnÈm prohled·nÌ ñ vûdyù vÏtöinou lidÈ stejnÏ p¯eËtou jen p·r prvnÌch str·nek v˝sledk˘. INTERNETOVÉ TECHNOLOGIE A U T O M A T I Z A C E • R O Č N Í K 4 7 Zapeklit· sÈmantick· anal˝za ObecnÏ zn·m· struktura vyhled·vaËe Google ned·v· odpovÏÔ na ¯adu klÌËov˝ch ot·zek. Ty z˘st·vajÌ tajemstvÌmi. Pominemeli vöechny realizaËnÌ problÈmy, tzn. problÈmy spojenÈ s efektivitou pr·ce a distribucÌ problÈmu vyhled·v·nÌ na vÌce poËÌtaËÌch, z˘st·vajÌ takÈ nejasnosti ohlednÏ ohodnocenÌ str·nek a urËenÌ jejich relevance v˘Ëi dotazu, Ëili stanovenÌ vhodnÈho po¯adÌ ve v˝pisu tak, aby str·nky pro tazatele zajÌmavÈ byly na p¯ednÌch mÌstech. Pr·vÏ toto totiû rozhoduje o kvalitÏ vyhled·vaËe. Zhruba se vÌ, ûe relevanci dokumentu ovlivÚuje to, kolikr·t se na nÏm vyskytuje hledanÈ slovo, v p¯ÌpadÏ vÌceslovnÈho dotazu pak vzd·lenost mezi v˝skyty jednotliv˝ch slov dotazu, a d·le ohodnocenÌ str·nek (page rank), pro kter˝ je zn·m z·kladnÌ vzorec, avöak nikoliv p¯esn˝ ñ ten tv˘rci vyhled·vaËe Google peËlivÏ tajÌ. Odhaduje se jen, ûe jeho vzorec zahrnuje r˘znÈ penalizace a detekce podvodn˝ch pokus˘ o zv˝öenÌ relevance a takÈ novÏ zav·dÏn˝ tematick˝ page rank, kter˝ upravuje ohodnocenÌ str·nky podle odkaz˘ z hodnovÏrn˝ch externÌch katalog˘. V˝sledn· relevance je pak v·ûen˝m souËtem vöech tÏchto dÌlËÌch kritÈriÌ. Ale ani takto sloûit˝ vzorec nestaËÌ k nalezenÌ dokument˘ zajÌmav˝ch pro tazatele. Kdo chce skuteËnÏ nÏco vyhledat, nem˘ûe zad·vat p¯Ìliö obecnÈ dotazy. Nap¯Ìklad slovo ÑPIDì vede k z·plavÏ referencÌ, z nichû jen zlomek souvisÌ s zam˝ölenou PID regulacÌ. Zkratka PID se totiû pouûÌv· pro dalöÌ pojmy: oznaËuje i jednu nemoc, za¯ÌzenÌ na sbÏrnici, program pro identifikaci a praûsk˝ dopravnÌ integrovan˝ systÈm. Z˙ûÌme-li vöak dotaz, t¯eba na vazbu PID regulace, pak prost˝m porovn·nÌm slov by se nenaöly dokumenty obsahujÌcÌ spojenÌ ÑPID regul·torì nebo ÑPID regulov·nÌì, eventu·lnÏ pouûÌvajÌcÌ synonymum ÑPID ¯ÌzenÌì. Vyhled·v·nÌ by tak snadno mohlo jednu neurËitost nahradit jinou ñ bylo by sice moûnÈ vyp·trat, kde se poûadovan˝ ˙daj nach·zÌ, ale jedinÏ p¯i znalosti p¯esnÈ ot·zky. ModernÏjöÌ vyhled·vaËe se proto snaûÌ zadan˝ v˝raz analyzovat, odhadnout obor, o kter˝ se tazatel zajÌm·, a vypoËÌtat relevanci dokument˘ nejen z poËtu v˝skyt˘ hledanÈ fr·ze, ale vzÌt v ˙vahu i jejÌ ekvivalenty, v naöem p¯ÌpadÏ ÑPID regul·torì a ÑPID ¯ÌzenÌì. Webov· str·nka se kv˘li tomu musÌ bÏhem indexov·nÌ zpracov·vat jeötÏ sÈmanticky (obr. 2). Nejprve se prov·dÌ jeho lexik·lnÌ anal˝za, p¯i nÌû se text dÏlÌ na jednotliv· slova, ËÌsla nebo speci·lnÌ znaky. ProblÈmy nast·vajÌ s interpretov·nÌm urËit˝ch slovnÌch spojenÌch. Nap¯Ìklad pouhÈ ruöenÌ rozdÏlujÌcÌch znamÈnek v textu nenÌ v˘bec jednoduchÈ. Pokud se t¯eba ve slovÏ Ñsci-fiì odstranÌ pomlËka, vzniknou dvÏ slova se zcela odliön˝m v˝znamem. ObdobnÈ problÈmy nast·vajÌ v reprezentaci telefonnÌch ËÌsel a letopoËt˘. Zvl·ötnÌ p¯Ìstupy • Č Í S L O 5 • K V Ě T E N 327 2 0 0 4 vyûadujÌ i speci·lnÌ entity (X)HTML jako Ñ , &, ©ì a jinÈ. V˝sledek lexik·lnÌ anal˝zy m˘ûe postoupit do sekce zvanÈ eliminace stop slov, kde se ze seznamu slov eliminujÌ slova (p¯edevöÌm spojky nebo p¯edloûky), kter· se vyskytujÌ ve vÏtöinÏ dokument˘. Jejich vynech·nÌm se zmenöÌ velikost ukl·dan˝ch dat, ale ztÏûuje se hled·nÌ podle fr·zÌ. Google nap¯Ìklad v anglick˝ch dokumentech vynech·v· p¯Ìliö Ëast· slova jako nap¯Ìklad ÑIì, Ñofì, Ñforì, Ñwithì a dalöÌ. A p¯i z˙ûenÌ hled·nÌ jen na ËeskÈ str·nky se zase vylouËÌ spojky Ñaì a Ñiì. Slova d·le proch·zejÌ lemmatizÈrem, tzn. modulem zab˝vajÌcÌm se p¯evodem slov na slovnÌkovÈ tvary, jehoû z·kladnÌ Ë·st tvo¯Ì stemmer (stem ñ ko¯en slova). Pro p¯evod na z·kladnÌ tvar lze pouûÌt tabulkov˝ model nebo metody zaloûenÈ na odstraÚov·nÌ p¯Ìpon ñ Porter˘v algoritmus [2] a v neposlednÌ ¯adÏ program ispell. Ten ve svÈ podstatÏ p¯edstavuje slovnÌk obsahujÌcÌ vöechna slova spolu s p¯Ìznaky, podle kter˝ch se zjistÌ vöechny dalöÌ moûnÈ tvary. SlovnÌk ispell pro vÏtöinu jazyk˘ lze nalÈzt na [3]. P¯i anal˝ze se d·le hodnÏ vyuûÌv· thesaurus, kter˝ obsahuje synonyma dan˝ch slov. Matematick˝ popis lze nalÈzt na [4]. V˝slednÈ ohodnocenÌ dokumentu pak m˘ûe z·viset nejen na poËtu nalezen˝ch v˝skyt˘ vazby ÑPID regulaceì a p¯Ìsluön˝ch vyskloÚovan˝ch a odvozen˝ch tvarech, jako ÑPID regulacemiì, ÑPID regul·torì apod., ale souËasnÏ i na v˝skytu synonym, t¯eba ѯÌzenÌì, Ëi oborovÏ blÌzk˝ch pojm˘, jako t¯eba Ñtermoregulaceì a Ñstabilizaceì. Velmi d˘leûit˝m modulem je rovnÏû detektor trik˘. Jiû v prvnÌm dÌlu Ël·nku byly pops·ny podvodnÈ snahy o lepöÌ ohodnocenÌ str·nek (page rank) pomocÌ farem odkaz˘. Podv·dÌ se pochopitelnÏ i v oblasti v˝skytu slov. Vöechny nÌûe zmÌnÏnÈ triky jsou jiû zn·mÈ a vyhled·vaË podobnÈ str·nky penalizuje snÌûenÌm jejich relevance. »ast˝m trikem b˝vajÌ hlavnÏ bezv˝znamnÈ texty, kterÈ nejsou vidÏt p¯i zobrazenÌ str·nky v prohlÌûeËi, ale obsahujÌ pojmy zvyöujÌcÌ hodnocenÌ. Sem pat¯Ì t¯eba bÌlÈ pÌsmo na bÌlÈm pozadÌ, eventu·lnÏ text öikovnÏ p¯ekryt˝ jin˝mi prvky, nebo zamaskovan˝ kresbou, kterou generuje JavaScript. Jinou moûnost p¯edstavuje umÌstÏnÌ faleön˝ch text˘ aû na konec str·nky a jejich oddÏlenÌ od informacÌ v˝znamn˝ch pro n·vötÏvnÌka velkou pr·zdnou mezerou nebo vhodnou znaËkou, kter· vzbuzuje dojem, ûe uû nen·sleduje nic zajÌmavÈho. Detektory trik˘ musÌ proto br·t v ˙vahu nejen v˝skyty slov, ale i jejich viditelnost pro uûivatele. Mnohem problematiËtÏji se zjiöùuje opaËn· situace ñ tajenÌ nevhodnÈho obsahu. Vöe, co mÏlo uniknout robot˘m, se vloûÌ jako obr·zky, k nimû se uvedou jinÈ textovÈ popisky, neû uûivatel skuteËnÏ uvidÌ, aby str·nka zÌskala jinÈ ohodnocenÌ, neû by si zaslouûila. JakÈ str·nky se dob¯e vyhled·vajÌ? Z·sady pro tvorbu webov˝ch str·nek, kterÈ se budou dob¯e vyhled·vat, se Ëasto oznaËujÌ pojmem SEO (Search Engine Optimization). Vöechny tyto z·sady nelze vyjmenovat, uû proto, ûe mnohÈ se rychle mÏnÌ. Jak jiû bylo uvedeno v p¯edeölÈ Ë·sti Ël·nku, Google dlouhou dobu ignoroval parametr id u dynamicky generovan˝ch str·nek ñ bral jej jako unik·tnÌ oznaËenÌ n·vötÏvnÌka, tzv. sessions ñ a teprve ned·vno ho zaËal zpracov·vat. HojnÏ uv·dÏnÈ pravidlo ÑnepouûÌvat idì tak ztratilo sv˘j v˝znam doslova ze dne na den. I uzn·van· z·sada, ûe prohled·vacÌ roboti neproch·zejÌ JavaScript, m˘ûe brzy padnout, protoûe Google zaËÌn· ˙dajnÏ jiû experimentovat s jeho anal˝zou. V n·sledujÌcÌch statÌch se proto zmÌnÌme jen o hlavnÌch pravidlech, u nichû lze p¯edpokl·dat dlouhodobÏjöÌ platnost. Zve¯ejÚujte na str·nk·ch zajÌmavÈ informace, a to i v textovÈ formÏ. Pr·vÏ informace p¯itahujÌ n·vötÏvnÌky. Vzhled je sice takÈ d˘leûit˝, avöak je t¯eba mÌt na pamÏti, ûe grafickÈ prvky, jako obr·zky, Flash Ëi kresby generovanÈ jazykem JavaScript, nejsou viditelnÈ pro textovÈ prohled·vajÌcÌ roboty ñ pro nÏ neexistujÌ. Ke kaûdÈmu grafickÈmu prvku by proto mÏla existovat jeho textov· analogie. U obr·zk˘ je vhodnÈ vûdy vyplÚovat atribut alt. Pokud jsou na str·nce prezentov·ny d˘leûitÈ informace pomocÌ program˘ Macromedia Flash Ëi JavaScript, je t¯eba k nim vytvo¯it i textovou analogii, t¯eba pod nabÌdkou Ñtextov· verzeì. Nevytv·¯ejte p¯Ìliö velkÈ str·nky. Architektu¯e vyhled·vaËe Google vyhovujÌ str·nky menöÌ neû 101 KB. Mezi v˝jimky mohou pat¯it pouze soubory PDF, resp. katalogy odkaz˘. Vyh˝bejte se r·m˘m, jelikoû nedovolujÌ zadat libovolnou sestavu zobrazen˝ch str·nek. BlÌûe se o problÈmech s jejich prohled·v·nÌm psalo v minulÈm dÌlu. UveÔte v˝stiûnÈ titulky str·nek definovanÈ v (X)HTML v elementu <title>. Mnohdy titulek chybÌ nebo mÌv· shodnou hodnotu na vöech str·nk·ch, takûe potencion·lnÌ z·jemce vidÌ v seznamu odkaz˘ vyhled·vaËe jen nic ne¯ÌkajÌcÌ reference, jako t¯eba pouh˝ n·zev firmy. M·-li b˝t n·zev firmy uveden v titulcÌch, je vhodnÈ jej p¯ipojit aû na konec, na zaË·tek je lepöÌ uv·dÏt popis obsahu str·nky. Dbejte na sv˘j page rank. PomocÌ vyhled·vaËe je moûnÈ zjistit, z kolika str·nek vede odkaz na sledovanou str·nku. Ve vyhled·vaËi Google je doporuËeno vyhled·vat odkazy p¯Ìkazem Ñlink:http://example.com/ì, kde se text napsan˝ kurzÌvou nahradÌ jmÈnem domÈny sledovanÈ str·nky. Tento p¯Ìkaz vöak nevracÌ vöechny odkazy smϯujÌcÌ na sledovanou str·nku, ale jen ty z v˝znamn˝ch str·nek. Zde nejlÈpe pom˘ûe prostÈ vyhled·nÌ jmÈna danÈ domÈny. Je nutnÈ vzÌt p¯itom INTERNETOVÉ TECHNOLOGIE 328 A U T O M A T I Z A C E l·tory!!! mikro-reguPID a PSD AplikovanÈ konverze form·tu detekce trik˘ AplikovanÈ PID a PSD mikro-regul·tory!!! lexik·lnÌ anal˝za aplikovanÈ PID a PSD mikroregul·tory eliminace stop slov aplikovanÈ PID PSD mikroregul·tory lemmatizÈr - ko¯eny slov thesaurus - synonyma, p¯ÌbuznÈ pojmy aplikovat PID PSD mikro/regul·tor aplikovat|nasadit|pouûÌt... mikro/regulace|¯ÌzenÌ... poËty v˝skyt˘ slov fin·lnÌ ohodnocenÌ Obr. 2 Analýza dokumentu v ˙vahu nejen poËet nalezen˝ch odkaz˘, ale i jejich kvalitu. Pokud na sledovanou str·nku ukazuje jin· str·nka, kter· m· sice extrÈmnÏ vysokÈ ohodnocenÌ (page rank), ale sama odkazuje na mnoho dalöÌch str·nek, pak to sledovanÈ str·nce p¯Ìliö neprospÏje. Mnohem v˝hodnÏjöÌ je, kdyû na ni ukazuje str·nka, kter· m· sice nÌzkÈ ohodnocenÌ, ale ukazuje pouze na ni. DalöÌ d˘leûitou vÏcÌ je i umisùov·nÌ odkaz˘ smϯujÌcÌch mimo str·nky. Zde je v˝hodnÈ domluvit se o vz·jemnÈ v˝pomoci, kdy si dvÏ firmy nebo jednotlivci umÌstÌ na svÈ str·nky odkazy jeden na druhÈho. Vz·jemnÈ odkazy majÌ prohled·vacÌ roboti r·di, protoûe dokazujÌ, ûe se nejedn· o pochybnÈ techniky popsanÈ v p¯edchozÌm dÌlu. Pozor Webmapa http://example.com - 3 ˙rovnÏ SloûenÌ str·nky - typ souboru, celkem kB, poËet appl/pdf, 549 kB, #2 appl/zip, 13806 kB, #11 image/gif, 306 kB, #28 appl/program, 1801 kB, #3 text/html, 193 kB, #32 image/jpeg, 893 kB, #18 e Str. 1 P¯Ìklad webmapy N·vod k pouûitÌ PDF Adobe e Str. 1.1 - O p¯Ìkladu P¯Ìkladn˝ GIF obr. e Str. 1.19 - Webmapa p¯Ìkladu P¯Ìkladn˝ program PoËty soubor˘: # 11 # 28 #2#3 # 32 # 18 Obr. 3 Webmapa usnadní orientaci návštěvníkům i prohledávacím robotům • R O Č N Í K 4 7 ale, aby roboti umÏli prohled·vat odkaz umÌstÏn˝ protistranou a sluûba nebyla jednostrann·. Vyuûijte robots.txt, soubor obsahujÌcÌ pokyny pro prohled·vacÌ roboty. HodÌ se v p¯ÌpadÏ, je-li na str·nce pouûito p¯esmÏrov·nÌ, nebo pokud nemajÌ b˝t urËitÈ str·nky indexov·ny. BliûöÌ popis form·tu souboru lze nalÈzt nap¯Ìklad v [7]. Zaregistrujte str·nku v seriÛznÌch katalozÌch. Odkaz˘m, kterÈ se v nich vyskytujÌ, mohou vyhled·vaËe p¯ikl·dat vÏtöÌ v·hu, protoûe se p¯edpokl·d·, ûe uvedenÈ ˙daje aspoÚ Ë·steËnÏ ovϯujÌ spr·vci katalog˘. Piöte validnÌ str·nky, tedy syntakticky spr·vnÈ a vyhovujÌcÌ norm·m, coû si lze snadno p¯ekontrolovat t¯eba bezplatnou sluûbou [5]. Bezchybn· syntaxe (X)HTML dokument˘ tvo¯Ì z·kladnÌ p¯edpoklad pro jejich spr·vnÈ indexov·nÌ. NavÌc upozornÌ na z·kladnÌ proh¯eöky, jako nap¯Ìklad chybÏjÌcÌ atributy alt u obr·zk˘ Ëi vynechanÈ specifikov·nÌ normy, podle nÌû byl dokument napsan˝, takûe jejÌ kontrola se v¯ele doporuËuje. Je t¯eba takÈ pouk·zat na problematickou konverzi z nÏkter˝ch textov˝ch editor˘, nejzn·mÏjöÌ jsou potÌûe s dokumenty napsan˝mi v editoru MS Word a uloûen˝mi jako soubory HTML ñ v jejich luötÏnÌ se Ëasto vyzn· jedinÏ MS Explorer. TakovÈ dokumenty je vhodnÈ vûdy p¯ekontrolovat valid·tory. Na str·nky p¯idejte ˙daje d˘leûitÈ pro prohled·vacÌ roboty. Prohled·v·nÌ je proces plnÏ automatick˝ a roboti pot¯ebujÌ rozhodnÏ zn·t jazykovou verzi str·nky a kÛdov·nÌ, ve kterÈm je uloûena. KromÏ toho je nutnÈ definovat i hlavnÌ uûivatelskÈ meta atributy, jejich popis najdete t¯eba v [6]. DoporuËuje se hlavnÏ popisek str·nky, meta atribut <meta name="description" Ö>, kterÈmu vyhled·vaËe p¯ikl·dajÌ vÏtöÌ v·hu neû jinÈmu textu. NÏkdy se p¯id·v· i meta atribut s klÌËov˝mi slovy <meta name="keywords" Ö>. Jejich seznam by nemÏl b˝t delöÌ neû 1 000 znak˘ a souËasnÏ je t¯eba db·t na to, aby se uveden· klÌËov· slova hojnÏ vyskytovala v textu p¯ÌsluönÈ str·nky. Je-li mezi klÌËov˝mi slovy pojem, kter˝ se na nÌ v˘bec neobjevÌ, m˘ûe naopak hrozit snÌûenÌ hodnocenÌ str·nky. Seznamy klÌËov˝ch slov se totiû v minulosti aû p¯Ìliö Ëasto zneuûÌvaly. PouûÌv·te-li dynamicky generovanÈ str·nky, v prvnÌch t¯ech parametrech p¯ed·vejte podstatnÈ informace urËujÌcÌ odliön˝ obsah str·nky. MajÌ-li webovÈ prezentace sloûitÏjöÌ strukturu, je pro jistotu vhodnÈ vytvo¯it jejÌ statickou webmapu, Ëili jakousi analogii obsahu knihy. StaËÌ pouh˝ seznam odkaz˘ na webovÈ str·nky. Webmapa m˘ûe b˝t samoz¯ejmÏ i mnohem podrobnÏjöÌ s vyuûitÌm grafick˝ch prvk˘ (obr. 3). Podobn· webmapa nejen usnadnÌ orientaci n·vötÏvnÌk˘m, ale p¯edevöÌm zaruËÌ, ûe roboti prohledajÌ vöechny str·nky. M˘ûe rovnÏû poslouûit i jako n·hradnÌ reference pro oöet¯enÌ chyby 404 (str·nka nenalezena), na • Č Í S L O 5 • K V Ě T E N 2 0 0 4 kterou se Ëasto neopr·vnÏnÏ zapomÌn·. Problematika automatickÈho generov·nÌ webmap je podrobnÏji pojedn·na v [10 a 11]. Co ¯Ìci na z·vÏr? Vöechna uveden· doporuËenÌ pro psanÌ webov˝ch str·nek p¯edstavujÌ opravdu jen z·kladnÌ pravidla, pouhou kapku v oce·nu problÈm˘ optimalizace pro automatickÈ prohled·v·nÌ str·nek. Kdo chce mÌt opravdu dobrÈ webovÈ str·nky, musÌ zajistit, aby jejich spr·vce neust·le sledoval novinky t˝kajÌcÌ se problÈm˘ se SEO, kterÈ jsou uvedeny nap¯. na domÈnÏ v [6] Ëi na nÏkterÈm diskusnÌm fÛru vÏnovanÈm tomuto tÈmatu, t¯eba na [8]. Ing. Richard äusta, Ph.D., Ing. Martin ÿimn·Ë, Ing. Ji¯Ì éivn˘stka L I T E R AT U R A [1] BRIN, S. ñ PAGE, L.: The Anatomy of a Large-Scale Hypertextual Web Search Engine. www.internet-marketing-branding.com/Google/Googlesecret.html [2] Internet: http://sourceforge.org/ ñ projekt Snowball popisujÌcÌ Porter˘v algoritmus [3] Dictionaries for International Ispell. http://fmg-www.cs.ucla.edu/fmg-members/geoff/ispell-dictionaries.html [4] P¡NEK, K.: Jehla v kupce sena: Thesaurus. www.lupa.cz/clanek.php3?sho w=2213. [5] Internet: http://validator.w3.org/ ñ ovϯenÌ syntaktickÈ spr·vnosti str·nky [6] Internet: www.jakpsatweb.cz/meta_tagy.htm ñ popis kÛd˘ HTML str·nek [7] Internet: www.robotstxt.org/wc/norobots.html ñ popis form·tu souboru robots.txt [8] Internet: http://seo.nawebu.cz ñ diskusnÌ SEO fÛrum [9] Internet: www.webpronews.com/insiderreports/searchinsider/wpn-4920040406GoogleIndexesDocumentsFirst101k.html [10] ÿIMN¡», M.: Mapa webovÈ sÌtÏ. Dipl. pr·ce. Praha, »VUT FEL 2004. http://dce.felk.cvut.cz/dolezilkova/dip lomky.htm [11] éIVNŸSTKA, J.: PHP rozhranÌ pro vyhled·v·nÌ a spr·vu mapy sÌtÏ. Dipl. pr·ce. Praha, »VUT FEL 2004. http:// dce.felk.cvut.cz/dolezilkova/diplomky.htm