Petr Nevrlý seznam.cz>

Transkript

Petr Nevrlý seznam.cz>
Fulltextové vyhledávání
Petr Nevrlý <[email protected]>
www.seznam.cz
… najdu tam, co neznám !
Obsah přednášky
•
•
•
•
•
Cíl vyhledávání
Architektura
Vyhledávání
Robot
Údaje z provozu
www.seznam.cz
… najdu tam, co neznám !
Cíl fulltextového vyhledávání
• Poskytnutí odpovědi na dotaz uživatele
www.seznam.cz
… najdu tam, co neznám !
Cíl fulltextového vyhledávání
• Poskytnutí odpovědi na dotaz uživatele
– Shromažďování
• Rychlý robot
• Spolehlivá indexace
• Zakládání „správných“ dokumentů
– Zpracování
• Vhodná struktura DB
– Vydání (řazení)
•
•
•
•
www.seznam.cz
Výkon (rychlost)
Dostupnost
Konzistence
Kvalita
… najdu tam, co neznám !
Typy fulltextů
• Vyhledávače jsou si velmi
podobné, liší se jen v detailech
• Jako…
www.seznam.cz
… najdu tam, co neznám !
Část 1 – Architektura
1.
2.
3.
4.
www.seznam.cz
Hlavní části
Redundance v provozu
Blokové schéma
Hardware
… najdu tam, co neznám !
Hlavní části
www.seznam.cz
… najdu tam, co neznám !
Redundance v provozu
www.seznam.cz
… najdu tam, co neznám !
Blokové schéma
www.seznam.cz
… najdu tam, co neznám !
Hardware - vyhledávání
• Vyhledávání
>40 serverů x 2 serverovny
• Většina:
2 x quad core 2 GHz
16 GB RAM
6x140 GB 15k RPM HDD
www.seznam.cz
… najdu tam, co neznám !
Hardware - robot
• Robot + příprava databáze
– cca 10 serverů
• různé konfigurace:
2x quad core 2 – 3 GHz
4 - 32 GB RAM
1x70 GB – 6x300 GB HDD
www.seznam.cz
… najdu tam, co neznám !
Část 2 – Vyhledávání
1. Zadávané dotazy
2. Lemmatizace
3. Hodnocení stránek
www.seznam.cz
… najdu tam, co neznám !
Zadávané dotazy (1)
• 10 náhodných dotazů
– posilovna
– plné hry ke stažení zdarma
– plemena koní
– planovac tras
– petra němcová fotky
– paragrafy a zákony
– papírové vystřihovánky
– panenka chou chou
– paintball bazar
– oplocení
www.seznam.cz
… najdu tam, co neznám !
Zadávané dotazy (2)
• Forma dotazů:
Nejedná se přímo o otázky
– přídavná a podstatná jména
– 1. pád
– jednotné i množné číslo
– občas bez diakritiky
www.seznam.cz
… najdu tam, co neznám !
Lemmatizace
• Lemma = základní tvar slova
• Věta:
„Jeden z nejlepších zdrojů o německých
tancích.“
• Lemmatizováno:
Jedna/Jíst z dobrý zdroj o německý tank/tanec.
• Disambiguace = vyloučení nejednoznačnosti
www.seznam.cz
… najdu tam, co neznám !
Hodnocení stránek (1)
• Titulek !!
• Obsah stránky
• URL
www.seznam.cz
… najdu tam, co neznám !
Hodnocení stránek (2)
Citační analýza pro
dotaz „Ostrava“
www.seznam.cz
… najdu tam, co neznám !
Hodnocení stránek (3)
•
Pagerank = statická „důležitost“ stránky
založená na citační analýze
•
Předpoklad: statisticky náhodné chování
•
SPAM - blackSEO
www.seznam.cz
… najdu tam, co neznám !
Část 3 – Robot
1. Hledání nových stránek
2. Reindexace stránek
3. Ne-HTML formáty
www.seznam.cz
… najdu tam, co neznám !
Hledání nových stránek (1)
• Před 4 lety start na www.seznam.cz
• Od té doby procházení nalezených odkazů
• Domény .cz, .sk, .com, .org, .net, .info, …
• Hledá stránky v českém jazyce
• Alternativní zdroje: RSS, články.cz, apod.
www.seznam.cz
… najdu tam, co neznám !
Hledání nových stránek (2)
• Robots.txt – standardní protokol pro zakázání
přístupu robotů (www.robotstxt.org)
• Textový soubor http://example.com/robots.txt
# comment
User-Agent: *
Disallow: /statistiky
User-Agent: Bot
Disallow: /
www.seznam.cz
… najdu tam, co neznám !
Hledání nových stránek (3)
• Sitemap.xml
• http://example.com/sitemap.xml
… <url>
<loc>http://www.example.com/</loc>
<lastmod>2007-10-30T16:31:04+00:00</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url> …
www.seznam.cz
… najdu tam, co neznám !
Reindexace stránek (1)
• Každý den se vybere množina stránek pro
reindexaci
• Při výběru se hodnotí
– Datum poslední návštěvy
– Rank
– Frekvence změn
www.seznam.cz
… najdu tam, co neznám !
Reindexace stránek (2)
• Přetěžování webserverů
– Shapování podle IP adresy
– Omezení max počet URL / sec
www.seznam.cz
… najdu tam, co neznám !
Ne-HTML formáty
• PDF
• DOC (MS Word)
• RTF
• Operátor filetype:
www.seznam.cz
… najdu tam, co neznám !
Část 4 – Údaje z provozu
www.seznam.cz
… najdu tam, co neznám !
Velikost databáze (1)
• Počet dokumentů
www.seznam.cz
… najdu tam, co neznám !
Velikost databáze (2)
www.seznam.cz
Počet dokumentů
250 miliónů
Indexy
1,3 TB
Obsah dokumentů (texty)
1 TB
Průměrný text
6 kB / dokument
… najdu tam, co neznám !
Zátěž během týdne
• 1/4 zátěže
• až 320 dotazů/s
www.seznam.cz
… najdu tam, co neznám !
Doba odezvy během týdne
• Doba odezvy v msec
www.seznam.cz
… najdu tam, co neznám !
Úspěšnost query cache
• Úspěšnost cache v %
www.seznam.cz
… najdu tam, co neznám !
Výkon robota
www.seznam.cz
Rychlost stahování
> 400 stránek / sec
Průměrná stránka
~10 kB (zdojový kód)
Denní objem
>30 miliónů dokumentů
cca 300 GB dat
… najdu tam, co neznám !
Stáří dokumentů ve dnech
www.seznam.cz
Minimální
1
Maximální
125
Průměr
7,4
Nejčastěji
1,3 – 10,4
… najdu tam, co neznám !
Konec
Děkuji za pozornost
http://fulltext.sblog.cz
http://vyvojari.seznam.cz
www.seznam.cz
… najdu tam, co neznám !

Podobné dokumenty

Petr Nevrlý seznam.cz>

Petr Nevrlý seznam.cz> • 10 náhodných dotazů – posilovna – plné hry ke stažení zdarma – plemena koní – planovac tras – petra němcová fotky – paragrafy a zákony – papírové vystřihovánky – panenka chou chou – paintball baz...

Více

Load balancing

Load balancing 10 GigE po optice (IEEE 802.3ae) 1 GigE po optice (IEEE 802.3z) a metalice (IEEE 802.3ab) link aggregation (IEEE 802.3ad) dynamické směrování OSPF, IS-IS

Více

Autorské pokyny pre príspevky do zborníku KUŽI VI1

Autorské pokyny pre príspevky do zborníku KUŽI VI1 slovy, včetně synonymie, antonymie, generalizace, lokalizace a specifikace. Jednotlivé pojmy jsou hierarchicky reprezentované (hyperonyma a hyponyma) a také sdružovány podle sémantických vlastností...

Více

Počítadlo přístupů v PHP - 3. část

Počítadlo přístupů v PHP - 3. část Autor: Qark Datum: 31. 07. 2005 17:30 URL: http://www.qark.net/clanek/pocitadlo-pristupu-v-php-3-cast Předchozí díly

Více

6. mezinárodní konference doktorského studia

6. mezinárodní konference doktorského studia Konference bude setkáním studentů doktorského studia z České republiky a ze Slovenska, uspořádaným za účelem vzájemné výměny zkušeností a poznatků mezi výzkumnými pracovišti a mladými výzkumníky. U...

Více

Vytváření souborů Sitemap

Vytváření souborů Sitemap RSS, mRSS a Atom 1.0: Google přijímá zdroje RSS (Real Simple Syndication) 2.0 a Atom 1.0. Pokud máte blog se zdrojem RSS nebo Atom, odešlete jako soubor Sitemap adresu URL tohoto zdroje. Většina so...

Více

Google

Google directory.google.com

Více

Library of Congress Classification pro Národní technickou knihovnu

Library of Congress Classification pro Národní technickou knihovnu originální katalogizací. Každý nově přistupující člen LCC týmu byl zapracováván vždy stejným způsobem, který začíná ukládáním přebíraných kódů se současným vyhledáváním až k samostatné práci. Velký...

Více

Alternativní metriky

Alternativní metriky Alternativní metriky Měření dopadu výzkumu PRÁVĚ TEĎ

Více