PageRank

Transkript

PageRank
PageRank
1
PageRank
PageRank je algoritmus pro ohodnocení důležitosti webových stránek, navržený Larry Pagem a Sergeyem Brinem,
tvořící základ vyhledávače Google. (Jméno algoritmu je přeložitelné jako “hodnocení stránky” nebo též “Pageovo
ohodnocení”. Podle vyjádření společnosti Google byl algoritmus pojmenován právě po Pageovi.)
Algoritmus využívá strukturu hypertextových odkazů jako vzájemné “doporučování” stránek, ne nepodobné
hodnocení vědeckých prací podle počtu citací. Na rozdíl od sledování počtu citací ale dovádí tento princip ještě dál:
hodnocení stránky se nepočítá z prostého počtu odkazů, které na ni vedou, ale bere se v úvahu i hodnocení
odkazujících stránek.
Chceme-li tedy spočítat PageRank R(a) stránky a, můžeme použít vzorec, který vypadá asi takto:
kde
je množina všech stran, které odkazují na a, a
je počet odkazů, které vedou z u. Každá stránka tak své
hodnocení v podstatě předává dál skrze odkazy.
Rovnice se ještě upravuje normalizujícím
faktorem c tak, aby součet všech hodnocení
byl konstantní:
Hodnoty PageRanku se dají spočítat pomocí
přiřazení libovolných hodnot, a následným
iterováním výpočtu, dokud hodnoty
nezačnou konvergovat.
Problémem při výpočtu PageRanku jsou
uzavřené struktury stránek, u nichž vedou
odkazy dovnitř, ale už ne ven.
Distribuce PageRanku mezi provázanými stránkami
Například dvě vzájemně propojené strany, s odkazem vedoucím zvenku na jednu z nich, by při výpočtu PageRank
akumulovaly, ale nic by nepouštěly ven (protože není kudy). Tím vzniká jakási past, kterou Page a Brin nazývají
rank sink.
Rank sinky lze vyřešit přidáním zdroje ranku: výchozí hodnoty,
kterou má každá stránka sama od sebe. Pak lze upravený
PageRank definovat jako zobrazení, které splňuje rovnici
kde c je pokud možno kladná konstanta a norma R' je rovna jedné.
E potom označuje zdroj ranku.
V
maticovém
zápisu zapíšeme uvedenou rovnici jako
(A je přitom matice, kde na pozici [a,b] je
, vede-li odkaz z b do a, v ostatních případech 0).
Stabilní přiřazení PageRanku v uzavřené struktuře
stránek
PageRank
2
Protože norma R' je 1, můžeme rovnici přepsat jako
R' je vlastní vektor
(kde 1 je jednotkový vektor). Tudíž
.
Výpočet PageRanku
Jak již bylo zmíněno, PageRank lze spočítat postupnou iterací:
1. Zvolme počáteční vektor hodnocení S (například můžeme použít E)
2.
3. Cyklus:
1.
2.
3.
4.
4. Opakujeme cyklus, dokud
Faktor d ovlivňuje rychlost konvergence a zachovává celkovou normu výsledku.
Neznámým prvkem ve výpočtu jsou “visící odkazy”: odkazy na stránky, z nichž už nic nevede. V praxi se často jedná
o odkazy na stránky, které ještě nejsou v databázi vyhledávače nebo odkazy na stránky, ze kterých už žádný odkaz
nevede (typicky např. některé fotogalerie). Problém se může řešit jednoduše tak, že se tyto odkazy při výpočtu
PageRanku zanedbají, nebo složitěji tak, že se na takovou stránku přidá virtuální odkaz zpětný.
Přizpůsobení PageRanku
Při výpočtu PageRanku se používá vektor zdroje ranku E. Kromě řešení problému “rank sinks” je to i mocný nástroj
k hodnocení stránek z “různých perspektiv” – při použití upraveného vektoru E lze například označit vybranou
množinu stránek za důležité pro uživatele, a hodnocení stránek ostatních bude určeno jejich relativním postavením v
síti odkazů vůči těmto vybraným stránkám.
Tímto způsobem je teoreticky možné vytvořit vyhledávač přizpůsobený pro konkrétního uživatele – stačí zvolit
vektor E, který bude vysoko hodnotit třeba obsah složky jeho složky “oblíbené”. Potom například dotaz “baterie”
vrátí elektrotechnikovi stránky o elektrickém článku, zatímco fanouškovi vojenství informace o dělostřelbě.
Vzhledem k výpočetní náročnosti přepočítávání PageRanku pro každého uživatele zvlášť se tento postup ovšem
nepoužívá.
Externí odkazy
• Google PageRank [1] - vysvětlení na stránkách Dušana Janovského (česky)
• Toolbarový PageRank [2] - vysvětlení zeleného měřítka zobrazovaného Google Toolbarem (česky)
• The PageRank Citation Ranking: Bringing Order to the Web [3] (PDF); Lawrence Page, Sergey Brin, Rajeev
Motwani, Terry Winograd; Stanford University, November 1999 (anglicky)
• PageRank Uncovered [4] (PDF)
Chris Ridings, Mike Shishigin; version 3.0, September 2002 (anglicky)
PageRank
Reference
[1]
[2]
[3]
[4]
http:/ / www. jakpsatweb. cz/ seo/ pagerank. html
http:/ / www. lupa. cz/ clanky/ zahadny-google-toolbar-pagerank/
http:/ / www. voelspriet2. nl/ PageRank. pdf
http:/ / dbpubs. stanford. edu:8090/ pub/ 1999-66
3
Zdroje článků a přispěvatelé
Zdroje článků a přispěvatelé
PageRank Zdroj: http://cs.wikipedia.org/w/index.php?oldid=8203699 Přispěvatelé: Beren, Che, Danny B., Harold, Ioannes Pragensis, Jj14, Jklir, Kavalír Kaviár, Kozuch, Ludek, Lusas, McFly,
Mercy, Minnetonka, Mormegil, Paxik, Sajacz, Slady, Tchoř, TradeCZ, X7q, Yuhů, ZK001, Zacatecnik, 32 anonymní úpravy
Zdroje obrázků, licence a přispěvatelé
Soubor:Pagerank1.png Zdroj: http://cs.wikipedia.org/w/index.php?title=Soubor:Pagerank1.png Licence: Creative Commons Attribution-Sharealike 2.5 Přispěvatelé: Che at cs.wikipedia
Soubor:Pagerank2.png Zdroj: http://cs.wikipedia.org/w/index.php?title=Soubor:Pagerank2.png Licence: Creative Commons Attribution-Sharealike 2.5 Přispěvatelé: Che at cs.wikipedia
Licence
Creative Commons Attribution-Share Alike 3.0 Unported
//creativecommons.org/licenses/by-sa/3.0/
4

Podobné dokumenty

Vyhledávání na webu - Střední průmyslová škola a Vyšší odborná

Vyhledávání na webu - Střední průmyslová škola a Vyšší odborná • indexace webových stránek • nalezené nové stránky nebo změny zaznamenává – indexuje a ukládá do obrovské databáze vyhledávače

Více

6. SEO – úvod do problematiky, terminologie, principy

6. SEO – úvod do problematiky, terminologie, principy Prochází jednotlivé dokumenty umístěné na webu, hledá v nich odkazy na nové stránky, indexuje obsah zpracovávaných stránek a umožňuje jejich následné prohledávání Stránky by měly být uzpůsobeny tak...

Více

Charakteristika Google Book Search

Charakteristika Google Book Search partnerskému programu sám (nebo naopak zakázat indexaci). Pokud by se měl Google spolehnout jen na tyto partnery, odhaduje, že by nezískal více než 15 % ze všech světových publikací. Jediný údaj, k...

Více

Katalog referencí

Katalog referencí TA E ue KAEFER R Catalog reference of

Více

Informace

Informace Zatímco účelem analogového přenosu informace je pouze přeměna hlasu nebo obrazu na elektrický signál, jeho věrný (nezkreslený) přenos a opačná změna na zvuk nebo obraz, už v telegrafii se objevila ...

Více

Optimalizace pro vyhledávače - SEO

Optimalizace pro vyhledávače - SEO vyhledávače (Jyxo1, Morfeo) automaticky indexují na základě registrace do některého z katalogů (například pokud je www.example.com registrován v Atlasu, tak ho Jyxo považuje za českou stránku a pro...

Více

Happy Hill Sochor guide 2011

Happy Hill Sochor guide 2011 n klienti jsou rozdělováni do skupin podle svých schopností přímo na svahu Začátečníci začínají na mírném svahu, vždy někde mimo hlavní sjezdovky. Po zvládnutí základních oblouků a jízdy na vleku ...

Více