Vyhľadávanie a sémantický web

Transkript

Vyhľadávanie a sémantický web
X36WWW
Vyhledávání na webu
a sémantický web
12. přednáška
LS 2007
X36WWW: 11. přednáška
1 / XX
1. ČÁST: VYHLEDÁVÁNÍ NA WEBU






úvod
způsoby vyhledávání
webové vyhledávače
katalogy stránek
neviditelný web
SEO – optimalizace stránek s ohledem na vyhledávače
X36WWW: 11. přednáška
2 / XX
Vyhledávání na webu
 web je obrovský informační prostor, X miliárd dokumentů  dokumenty jsou spojeny hypertextovými odkazy
 web neustále roste a mění se
 nejestvuje centrální správa
 dokumenty nejsou indexovány ani kategorizovány
Důsledky:
 problematické hledání relevantních informácí
 vyhledávání je vždy neúplné
X36WWW: 11. přednáška
3 / 30
Způsoby vyhledávání
 webové vyhledávače (search engines)
– Google, Yahoo, ...
 katalogy stránek (subject directories)
– Yahoo!, DMOZ...
 vyhledávání v neviditelném webu
X36WWW: 11. přednáška
4 / 30
Webové vyhledávače 1
Vlastnosti:
 dokumenty indexovány na základě obsahu (full­text)
 vyhledávání podle klíčových slov
 index tvoří stroje (robots, spiders)
 různý rozsah – až do 90% obsahu indexovatelného webu
X36WWW: 11. přednáška
5 / 30
Webové vyhledávače 2
Princip:
 robot (crawler, spider) prochází stránky, následuje odkazy
 indexování, hodnocení
 uložení do databázy
 uživatel prohledává index pomocí klíčových slov
 časový cyklus
– 1 měsíc (google deepbot)
– niektoré stránky navštevuje častejšie (google freshbot)
– důsledek: „měsíc staré“ výsledky v cache
X36WWW: 11. přednáška
6 / 30
Webové vyhledávače 3
 únor 2007: 6.9 mld hledání v USA
 Google 47% http://www.google.com
 Yahoo 28% http://www.yahoo.com/
 Microsoft 10% http://www.live.com/
 Ask.com
 Time Warner
X36WWW: 11. přednáška
7 / 30
Google
 největší (10mld dokumentů, cca. 100tis. PC – rok 2005)
 indexuje HTML, PDF, PS, PPT...
 hodnotící algoritmus PageRank (nepodplatitelný)
 služby: Images, News, Froogle, Scholar, Answers, mapy...
 nejpoužívanější vyhledávací služba, mnoho lidí používá jako slovník, adresář, telefónny seznam
 hrozba zneužití
– Google je komerční společnost
– cenzura, placené odkazy, manipulace s veřejností
X36WWW: 11. přednáška
8 / 30
Google PageRank
 určuje pořadí nalezených výsledků
PR(A) = ( PR(T1)/C(T1) + ... + PR(Tn)/C(Tn) )
 množství dalších faktorů
 demokrace a žádné platby (reklama je vedle výsledků)
 faktory jsou tajné: základní know­how a záruka kvality
 pokusy o reverse engineering
 každé 3 měsíce se PageRank přepočítá
X36WWW: 11. přednáška
9 / 30
Problémy vyhledávačů
Problémy vyhledávání:
 klíčová slova ořezávájí přehledávaný prostor
(mnoho vs. málo výsledků)
 přesnost (function in math, programming...)
 pokrytí (motor, engine...)
 národné jazyky (skloňování) Jyxo, morfeo.centrum.cz
– indexují víc dokumentů v doméně .cz jako Google ???
– od začátku roku 2007: www.google.cz
X36WWW: 11. přednáška
10 / 30
Vertical search
 vertical, local, topical search
 vertical search je v protikladu k broad­based search (google, yahoo)
 vyhledávače, zaměřené na jednu speciání oblast
 uživatelé jsou specialisti v dané oblasti
X36WWW: 11. přednáška
11 / 30
Metavyhledávače
Metavyhledávače (MetaSearch Engines)
 vyhledávají v několika vyhledávačích a katalogech
 výsledky spojí a prezentují uživateli
 obvykle jsou neefektivní
 příklady: vivisimo, answers.com
 seznam:
– http://dmoz.org/Computers/Internet/Searching/Metasearch/
X36WWW: 11. přednáška
12 / 30
Katalogy stránek 1
 odkazy na zdroje rozdělené do kategorií
 uživatel prochází katalog, nebo hledá klíčové slova v názvech a popisech položek
 kategorie nejsou standardizovány
 katalogy vytvářejí lidi
 různý rozsah a zaměření (obecné vs. specializované)
X36WWW: 11. přednáška
13 / 30
Katalogy stránek 2 – DMOZ
Open Directory Project (www.dmoz.org):
 open­source katalog budovaný komunitou
 čím větší web tím víc možných editorů
 databáze je volně přístupná ve formátu RDF
 Google používá DMOZ jako svůj katalog
X36WWW: 11. přednáška
14 / 30
Neviditeľný web 1
 invisible, deep, dark web
 na webu zveřejněné databáze
 knihovny, muzea,...
 5x víc informací jako viditelný web (jiné zdroje: 500x víc)
 nejsou dostupné indexovacím robotům
– stránky jsou dynamicky generovány
– přístup prostřednictvím formulářů
– potřebný výběr z formuláře nebo vyplnění textového pole
– přístup pomocí hesla
X36WWW: 11. přednáška
15 / 30
Neviditeľný web 2
Kde hledat?
 v katalogech a vyhledávačech (slovo database)
 speciální vyhledávače pro neviditelný web
 speciální katalogy pro neviditelný web
 http://oedb.org/library/college­basics/research­beyond­
google
X36WWW: 11. přednáška
16 / 30
SEO – Návrh webu s ohledem na vyhledávání 1
 ak stránka není v Google nebo v katalogech, tak neexistuje
 vyšší PageRank = úspešnější stránka
 obsah a struktura stránek může ovlivnit PageRank  SEO (Search Enging Optimalization)
– vytváření stránek s ohledem na vyhledávače
 techniky SEO:
– legální:
• onpage
• offpage
– nelegální
X36WWW: 11. přednáška
17 / 30
Návrh webu s ohledem na vyhledávání 2
 legální techniky:
– struktura obsahu pomocí sémantických značek: title, h1­h6, em, strong...
– meta tagy: keywords, desctiption
– každá stránka by měla být dostupná (aj bez sessionId)
– text odkazů: slova s významem a NE „klikni zde!“
– nenahradzovat text obrázkami, vyplnené title a alt atributy
– http://www.example.com/clanek/nazevclanku/ vs. http://www.example.com/clanek.php?id=1234
– sitemap (do 100 odkazů)
– robots.txt
– registrujte stránky ve vyhledávačech
X36WWW: 11. přednáška
18 / 30
On Page: V hlavičce <head>
 tag <title>
– nejdůležitější
– každá stránka výstižný titul
– ne jeden titul pro celý portál
 <meta name="description" content="Popis stránky">
– důležité, každá stránka jiné
 <meta name="keywords" content="klícová slova">
– ne tak důležité
X36WWW: 11. přednáška
19 / 30
On Page: Struktura obsahu
 Takhle ano:
<h1>Nadpis</h1>
<p>text <em>keyword</em>
<strong>keyword</strong> text</p>
<h2>Podnadpis</h2>
 Takhle ne:
<div id=”nadpis”>Nadpis</div>
<div class=”odstaved”>text
<b>keyword</b> <i>keyword</i>
text</div>
X36WWW: 11. přednáška
20 / 30
On Page: Obrázky
 obrázky by neměli nahrazovat text
 atribut alt v elementu img by měl být vyplněn
 textový odkaz je lepší jako obrázkový
X36WWW: 11. přednáška
21 / 30
On Page: Klíčová slova a URL
 takhle ano: – http://www.example.com/clanek/nazev_clanku/  takhle ne:
– http://www.example.com/clanek.php?id=1234
X36WWW: 11. přednáška
22 / 30
On Page: Dostupnost stránek
 stránky by měli být dostupné pro vyhledávač
 problematické oblasti:
– duplicitní URL
– ImageMaps
– dynamické menu
– JavaScript redirection
– Flash
– frames
– nutnost session id v URL
– měnící se URL
– velikost stránky (Google do 100KB)
X36WWW: 11. přednáška
23 / 30
On Page: Mapa webu
 hodí se, když může být problém při indexování robotem
 do 100 odkazů
X36WWW: 11. přednáška
24 / 30
Anchor text – interní a externí odkazy
 Takhle ano:
Clanek o <a
href=”http://www.audi.com”>Audi
A3</a> vas urcite zaujme.
 Takhle ne:
Jestli chcete cist clanek o Audi A8,
<a href=”http://www.audi.com
”>kliknete zde</a>.
X36WWW: 11. přednáška
25 / 30
Postup SEO kampaně
 analýza webu
 analýza klíčových slov
 optimalizace webu (onpage techniky)
 získávání zpětných odkazů
– spřizněné weby (výměna)
– marketingová kampaň
– registrace v katalogech
 analýza SEO kampaně
X36WWW: 11. přednáška
26 / 30
Nelegální techniky
 nelegální techniky:
– skryté texty a odkazy, nerelevantné texty
– cloaking (jiný obsah pro lidi a jiný pro vyhledávače)
– door­way stránky (množství klíčových slov na vstupní stránce)
– link­farms
– tajné přesměrování (roboti JavaScript nevidí)
– odkazy v diskusních příspevcích na webe
– automatické programy
X36WWW: 11. přednáška
27 / 30
SEO - závěr
Shrnutí:
 legální techniky:
Vytvářejte stránky pro lidí, ne pro vyhledávací roboty.
Vyhledávací roboti to ocení.
 nelegální techniky:
Jestli vyhledávač podvody odhalí, může úplně vyřadit doménu ze svého indexu.
X36WWW: 11. přednáška
28 / 30
2. ČASŤ: SÉMANTICKÝ WEB
 úvod
 technológie
 RDF (dátový model)
 ontológie (slovné zásoby)
 použitie sémantického webu
X36WWW: 11. přednáška
29 / 30
Čo je sémantický web?
Sémantický web je rozšírenie súčasného webu, v ktorom sú dáta popísané tak, aby ich významu rozumeli aj počítače.
•
Sémantický web nie je oddelený od toho súčasného, je jeho rozšírením.
•
Mal by umožniť lepšiu spoluprácu medzi ľuďmi a strojmi. X36WWW: 11. přednáška
30 / 30
Web z pohľadu strojov
Súčasný web
link
zdroj
zdroj
link
link
link
zdroj
link
link
zdroj
X36WWW: 11. přednáška
31 / 30
Web z pohľadu strojov
Súčasný web
link
Sémantický web
hasAddress
zdroj
placeP
zdroj
schoolS
link
livesAt
link
studiesAt
link
zdroj
link
hasAuthor
personX
knows
personY
hasAge
link
zdroj
documentD
X36WWW: 11. přednáška
32 / 30
26
Technológie Sémantického webu
X36WWW: 11. přednáška
33 / 30
Koncept RDF
Dátový model je graf
 informácia sa vyjadruje tvrdením (statement)  tvrdenie je vo forme tripletu (triple)
 triplet má formu jednoduchej vety – podmet, prísudok, predmet
podmet
prísudok
predmet
X36WWW: 11. přednáška
34 / 30
Koncept RDF
Dátový model je graf
 informácia sa vyjadruje tvrdením (statement)  tvrdenie je vo forme tripletu (triple)
 triplet má formu jednoduchej vety – podmet, prísudok, predmet
personX
hasAge
66
X36WWW: 11. přednáška
35 / 30
Koncept RDF
Dátový model je graf
 informácia sa vyjadruje tvrdením (statement)  tvrdenie je vo forme tripletu (triple)
 triplet má formu jednoduchej vety – podmet, prísudok, predmet
personX
hasAge
66
hasFriend
personY
X36WWW: 11. přednáška
36 / 30
hasAge
Koncept RDF
Dátový model je graf
 informácia sa vyjadruje tvrdením (statement)  tvrdenie je vo forme tripletu (triple)
 triplet má formu jednoduchej vety – podmet, prísudok, predmet
personX
hasAge
66
hasFriend
hasAge
...
personY
 predmet môže byť ďalším podmetom a tak vzniká sieť významov
X36WWW: 11. přednáška
37 / 30
...
Ontológie - definícia
Ontológia je formálne, jednoznačné vymedzenie zdieľaných pojmov.
(Gruber, 1993)
●
●
●
Ontológia poskytuje zdieľaný slovník, ktorý popisuje vybranú doménu.
Popisuje typy objektov a/alebo pojmy, ich vlastnosti a vzťahy medzi nimi.
Používajú hierarchiu tried.
X36WWW: 11. přednáška
38 / 30
Ontológie - príklad OWL
<rdfs:Class rdf:about="Person" rdfs:label="Person">
<rdfs:subClassOf rdf:resource="Human"/> </rdfs:Class>
<rdf:Property rdf:about="hasFriend">
<rdfs:domain rdf:resource="Person"/>
<rdfs:range rdf:resource="Person"/>
<rdfs:subPropertyOf rdf:resource="knows"/>
<rdf:type rdf:resource="&owl;SymmetricProperty"/>
</rdf:Property>
X36WWW: 11. přednáška
39 / 30
Ontológie - odvodzovanie
Ak personX je inštancia triedy Person
a má priateľa (hasFriend) personY...
<Person>
<Name>personX</Name>
<hasFriend>personY</hasFriend>
<Person>
... potom odvodzovací mechanizmus dokáže zistiť, že personX
aj personY sú z triedy Human a že personX pozná (knows)
personY .
X36WWW: 11. přednáška
40 / 30
Výhody Sémantického webu
 počítače „rozumejú“ významu informácií
 komunikácia na základe tohoto porozumenia
 spolupráca medzi strojmi
 spolupráca medzi ľuďmi a strojmi Využitie:
 vyhľadávanie
 správa znalostí
 Enterprise Application Integration
 B2B, webservices, inteligentní agenti
X36WWW: 11. přednáška
41 / 30
Súčasný stav Sémantického webu
 technológia je považovaná za veľmi perspektívnu
 sú hotové základné štandardy (RDF, OWL...)
 vzniklo niekoľko pomerne rozšírených ontológií:
– RSS, FOAF, DublinCore...
 sú vytvorené základné aplikácie
 existujú jednoduché príklady použitia
 do výskumu sa investuje (EU, HP, NASA, Microsoft...)
Sémantický web zatiaľ nie je masovo rozšírený
X36WWW: 11. přednáška
42 / 30
Děkuji za pozornost /
Ďakujem za pozornosť
Martin Švihla
[email protected]
X36WWW: 11. přednáška
43 / 30

Podobné dokumenty

Sociální média jako nástroj pro firmy

Sociální média jako nástroj pro firmy status, zaslat soukromou zprávu, odmítnou přátelství, atd.). V první části je také obsaženo nutné minimum teorie k pochopení chování uživatelů na sociálních sítích v České republice, se zaměřením n...

Více

Informace a Internet

Informace a Internet World Wide Web – WWW .......................................................................................... 28 3.6 Elektronické konference a diskusní skupiny.......................................

Více

CENÍK PRODUKTŮ

CENÍK PRODUKTŮ 150,Redukční bylinný čaj Otylka 100 g 66,NUTREND - T-MEAL Fruity 400 g 256,-

Více

ŠVP oboru 18-20-M/01 – Informační technologie

ŠVP oboru 18-20-M/01 – Informační technologie do malých skupin. Žáci a žákyně tak postupně získají základní přehled o elektrotechnice, přes její základy, elektrotechnické součástky, stroje a zařízení, jejich navrhování, instalaci až po měření ...

Více

Školní vzdělávací program - Vyšší odborná škola a Střední odborná

Školní vzdělávací program - Vyšší odborná škola a Střední odborná do malých skupin. Žáci a žákyně tak postupně získají základní přehled o elektrotechnice, přes její základy, elektrotechnické součástky, stroje a zařízení, jejich navrhování, instalaci až po měření ...

Více

Petr Nevrlý seznam.cz>

Petr Nevrlý seznam.cz> • Lemma = základní tvar slova • Věta: „Jeden z nejlepších zdrojů o německých tancích.“ • Lemmatizováno: Jedna/Jíst z dobrý zdroj o německý tank/tanec. • Disambiguace = vyloučení nejednoznačnosti ww...

Více

prezentace

prezentace Pozice < Návštěvnost < Celková Konverze

Více

Google AdWords II.-první online kampaň

Google AdWords II.-první online kampaň Zakoupením obou kurzů,Google AdWords I. - základy online reklamy + Google Adwords II. - moje první online kampaň, získáte kupón v hodnotě 50€, na realizaci vlastní online kampaně

Více

Dea GaNTRY liNe

Dea GaNTRY liNe umožňující otáčení kolem dvou os v 5° přírůstcích, což představuje celkem 2 952 možných poloh. Zvláštní asymetrický tvar indexovatelného ramene a možnost stranového indexování umožňují využití plné...

Více