Posílení možností taxonomie pro přesnější vyhledávání s pomocí

Transkript

Posílení možností taxonomie pro přesnější vyhledávání s pomocí
®
IBM Software Group
Posílení možností taxonomie pro přesnější
vyhledávání s pomocí klasifikačního modulu
Miroslav Cink
IBM Česká republika
© 2005 IBM Corporation
IBM Software Group
Agenda
Úvod
Vyhledávání a jeho omezení
Klasifikační technologie IBM
IBM Classification modul ICM – architektura a vlastnosti
Příklady použití klasifikačních řešení
Závěr
2
2
IBM Software Group
IR a Open Access
„.......... Institucionální repositáře jsou součástí širších národních,
regionálních a globálních systémů repositářů s volným přístupem,
které jsou standardním způsobem indexovány a jsou prohledávatelné
z jediného rozhraní. ...........“
“Hnutí Open Access usiluje o transformaci vědecké komunikace tak,
aby díky volné a ničím neomezené on-line dostupnosti bylo pro
výzkumníky snazší vyhledávat a sdílet výsledky. .........
„Open access není ani publikování vlastní produkce, ani způsob, jak
obejít proces recenzování a publikování, ani nejde o náhradní
publikační kanál nízké kvality. Je to prostě cesta, jak on-line volně
zpřístupnit kopie výsledků výzkumu celé vědecké obci
3
3
IBM Software Group
Hledání obsahu
V posledních letech i ve vědecké sféře exponenciálně narůstá objem
nestrukturovaných i semi-strukturovaných dat – emaily, webové
stránky, blogy, články, komentáře, XML, databáze apod.
Vysoká míra změn obsahu jak v datech tak ve struktuře
Narůstá objem neformálních, nestandardních dat - wikipedie
Naopak ještě více se umocňuje potřeba vyhledat obsah rychle a v
kontextu z mnoha zdrojů dat
Potřeba maximální automatizace
Potřeba výkonných a přesných nástrojů na hledání obsahu
Potřeba účinných metod na vyhledání
relevantního obsahu
4
4
IBM Software Group
Struktura sdíleného institucionálního repositáře
Zpřístupnění,
formátování,
Relevance atd.
Klíčová slova, fulltext,
báze dat atd....
Portál,
prohledávání.
filtrování
Původce obsahu
Klasifikace,
katalogizace
Systémy třídění
(mezinárodní desetinné, Dowey,
slovníky, tezaury, synonyma
atd.....)
Katalogizační
pracovník
Indexy, atributy,
metadata,
taxonomie
ECM DBMSFilyste
mes
ECM DBMSFilyste
mes
Sjednocení obsahu
(migrace, archivace, kontrola integrity atd.)
Fyzické úložiště dokumentů
ECM DBMSFilyste
mes
Původce obsahu
Původce obsahu
5
5
IBM Software Group
Standardní nástroje pro vytvoření taxonomie
Vytvoření taxonomie
Vlastní vytvořené nástroje, xls
Použité komponenty
standardních knihovních balíků
Funkce:
Modelování struktur a informačních
závislostí
Vytvořit klasifikační schémata
Řídit a spravovat změny
Publikovat do „subscribe“ systémů
Spolupracovat při rozšiřování a
udržování báze
Integrace, vhodnost použití
Subscribe/publish mód
Distribuovaná i centralizovaná
správa
Škálovatelnost
Technická architektura – XML,
API
6
6
IBM Software Group
Integrace taxonomie s vyhledávačem
Taxonomie na základě pravidel
Lingvistické slovníky – pro jemné vyladění výsledků
Slovník synonym – synonyma, zkratky, akronyma
Slovník klíčových slov – pro možnost ovlivnění %relevance výsledku
Slovník omezujících slov – pro následné vymazání z výběru (např. u
potenciálně velkého množství špatných výsledků)
7
7
IBM Software Group
Příklad vyhledávání
8
8
IBM Software Group
Integrace vyhledávání a taxonomie - příklad
9
9
IBM Software Group
Nicméně tradiční vyhledávání má svá omezení a je
stále úzkým místem v efektivitě
Velmi obtížně použitelné pro automatizaci
Příliš mnoho či příliš málo výsledků
Mnoho výsledků není relevantních
Zátěž s kontrolou a porovnáváním přesouvá na uživatele
1010
IBM Software Group
Možnosti zlepšení vyhledávání – pomáhají ale
neřeší původní problém
Čištění dat a oprava překlepů
Adaptivní dynamické zobrazování
Řízený obsah – zobrazení navigačních nástrojů, proaktivní pomoci, interaktivní
formát který usndaní konečnému uživateli požadovanou akci
Navigace a fazetové vyhledávání (dynamická kombinace vyhledávání a
taxonomie)
Nástroje k pochopení kontextu vyhledávání
Určení „záměru“ vyhledávání
Rozšíření dotazů
Použití sémantických a kontextových anotací (UIMA)
synonyma, acronyma, použití ontologií
Anotace telefonních čísel, adres, předdefinovaných dat
Akcelerátory
Oborové slovníky, konfigurovatelná logika, inteligentní aplikace atd....
1111
IBM Software Group
Adaptivní zobrazování, porozumění kontextu
Pochopení záměru uživatele obdržet co
nejrelevantnější odpověď
Facetová navigace
– rychlé hledání
výsledků které mě
zajímají nějvíc
Dynamická pravidla a
informace podle rozpoznání
uživatele
1212
IBM Software Group
Anotace
Dotaz vrací anotaci s požadovaným obsahem
Pokročilý dotaz s omezením lokality
Anotace telefonního čísla
1313
IBM Software Group
Techniky zlepšení přesnosti vyhledávacích nástrojů
Manuální specifikace výsledků
Např.., top 100 na IBM Intranetu, top 1000 na IBM Intternetu
Analýza prohledávaných linků
Počet nalezených dokuemntů
Omezení na datové zdroje co je prohledáváno a na jaké datové zdroje
provedli designéři linky
„Social tagging“
Omezení na to co uživatelé nejčastěji prohledávají, na co se dívají
Sémantické označování(klasifikace)
Počet dokumentů
1414
IBM Software Group
“chci si uložit peníze na bankovní účet s termínovaným
vkladem s kontrolou návratnosti”
vyhledávač poskytne výsledky (mnoho) pro výrazy „peníze”, “účet”,
“termínovaný vklad” atd.
Klasifikace na základě pravidel – nebude schopna rozeznat rozdíl mezi
„termín“ a „termínovaný“
Sémantické modelování — použije kontextové vazby pro určení správného
významu
Klasifikační modul přesně porozumí požadavku a poskytne několik
přesných odpovědí (kategorií) které mohou být použity pro směrování a
další automatické akce
1515
IBM Software Group
Řešením může být automatická klasifikace
IBM Classification Module
1616
IBM Software Group
Agenda
Úvod
Vyhledávání a jeho omezení
Klasifikační technologie IBM
IBM Classification Modul (ICM) – architektura a vlastnosti
Příklady použití klasifikačních řešení
Závěr
1717
IBM Software Group
Definice
Definice
Klasifikace a kategorizace dokumentů je problém informační vědy. Jde o
přiřazení dokumentu do jedné nebo více kategorií na základě jeho obsahu.
Úlohy klasifikace dokumentů mohou být rozděleny do dvou typů:
Ověření klasifikace dokumentů tak kde nějaký externí mechanismus (např.
člověk) poskytl informace o správné klasifikaci pro dokument
Klasifikace dokumentů kde musí být provedena kalsifikace bez jakékoli
reference na externí informace.
Typy klasifikace
Na základě definovaných pravidel
Sémantické modelování
1818
IBM Software Group
IBM technologie pro klasifikaci a zvýšení efektivity
Textová analýza
Data Mining
Search
UIMA
IBM unstructered
data modeling
IBM Language Ware
OmniFind
IBM
Classification
Module
Faceted Navigation
Browsing
Taxonomie
Metadata Management
SchemaLogic, DataLogic,
Unicorn
1919
IBM Software Group
IBM vize práce s informacemi
Připravit informace, ne data
Klasifikace obsahu
IBM Classification Module
bility
Visi ght
w
Ne Insi
&
Přístup k obsahu
IBM OmniFind Search
Smysluplný obsah
a použití obsahu
u
aos
Z chořádku
kp
podpora činnosti organizace
Organizovaný obsah
v repository
Vyhledávací & Analytické
nástroje
IBM Content Analyzer
IBM eDiscovery Manager
IBM eDiscovery Analyzer
Neorganizovaný či
ztracený obsah
2020
IBM Software Group
IBM technologie pro klasifikaci
IBM Classification Module (ICM)
(demo ukázka)
2121
IBM Software Group
Základy IBM Classification Module (ICM)
Technologie je na základě vlastního unikátního výzkumu IBM
Samostatné řešení, lze napojit na běžné moduly (např. vyhledávání či
taxonomie) na základě API
Technologie je založena na naivních Bayesiánských klasifikátorech, ale s
množstvím změn a rozšířením základních vzorců
Ve fázi výzkumu byly provedeny benchmarky s několika jinými algoritmy IBM klasifikační algoritmus a workflow poskytuje nejlepší výsledky při
adaptaci na reálné situace, např. :
Chybná textová data (chyby, nesprávné věty, nejasný text apod.)
Malé množství chyb při klasifikaci během ladění
Malé sady souborových dat úpro vyladění taxonomie (search – velké statické sady)
Klasifikace nového textu který měří „jak blízko“ je profil k profilu nového
dokumentu
„učení“ v reálném čase = rozšiřování znalostní báze
RME – optimální vyvážení mezi rozptylem a zkreslením
2222
IBM Software Group
Základy ICM
Na rozdíl od Bayesiánských modelů nepotřebuje velké a statické vzorky dat pro snížení
odchylky vuči přesnému významu
Využívá jednak sémantické analýzy a jednak NLP (natural language processing) pro
interpretaci různých částí textu a jeho kontextu vůči taxonomii
Kombinuje textově analytické nástroje a definovaná pravidlaI – přiřezuje metadata na
základě pocrozumění obsahu
Výstup této logiky je automatizace dříve výhradně lidských činností – kategorizace,
filtrování, směrování, notifikace, odpovědi na dokumenty, maily či vzájemné interakce
Schopnost porozumět významu nestrukturovaného textu a adaptovat ho na prostředí
probíhá v reálném čase – v tom je ICM unikátní
Technologie umí porozumět nejen použitým slovů, ale i kontextu jazyka, jakož i přidruženým
metadaům
Na rozdíl od jiných technologií je „samoučící“ vytváří sám nové klasifikace a návrhy
zařazení do stávající taxonomie (malé zapojení člověka)
Z pohledu správy taxonomií umí ICM provést i ověření katalogizovaného obsahu a
doporučit nové skupiny a kategorie do existující taxonomie či vytvořit novou taxonomii
2323
IBM Software Group
Vyhledávání vs. IBM Klasifikace
Search engine
Klasifikační modul
Velmi krátké texty (nejvíce několik
výrazů)
Dlouhé texty (např. dokumenty,
zprávy, maily)
Query = seznam výrazů
Query = Výrazy, otázky, dokumenty,
email...
Ověřování na dokumentech
Ověřování na reálných příkladech z
okolí
Uživatel „odhaduje“ výrazy které se
mohou vyskytovat v dokumentu
Uživatel používá běžné výrazy
(skutečné příklady)
Pro zlepšení vyhledávání musí
administrátor proaktivně ladit
manuálně vyhledávač
Automatické ladění na základě reálně
zpětné vazby z okolí
Ladění pomocí „uměle“ spjatých
výrazů (přidání synonym) a výsldeků
(např. pravidla) na základě intuice
administrátora
Ladění na základě reálné zpětné
vazby z okolí (automaticky nevržen
koncept vazeb)
2424
IBM Software Group
V čem je rozdíl?
Poměr změn
(ve složení a
výrazech
použitých
výrazů)
Zákaznické
interakce
IBM
Classification
Module
Alternativní technologie
výrazy
Formální
Neformální
(transakce, novinové články, dokumenty) (webové formuláře, e-maily,
chaty, poznámky, wikipedie)
2525
IBM Software Group
IBM klasifikační modul vs alternativy
Vlastnost
Definování
klasifikace dle
pravidel a
zkušeností
Bayesiánské sítě,
Statistiky
Přizpůsobuje se a učí se v
reálném čase
Neurální sítě
RME
Klasifikační modul
x
x
Učí se napříč všemi
kanály
x
Učí se v reálném čase od
agentů a klientů
x
Automaticky přebírá
doménová specifika
x
x
Učí se nové výrazy
x
x
Vysoká přesnost výsledků
x
Efektivní při použití
neformálních výrazů,
slangu, překlepech či
zkratek
x
2626
IBM Software Group
IBM klasifikační modul vs alternativy
Vlastnost
Snadno adaptabilní
na nové jazyky
Definování klasifikace
dle pravidel a
zkušeností
Bayesiánské sítě,
Statistiky
x
Neurální sítě
RME
Klasifikační modul
x
Nezávislé na
kanálu
x
Jednoduchá
implementace
x
Adaptuje se na
nové typy
komunikace
x
Uchovává si
přesnost i v
dynamickém
prostředí
x
2727
IBM Software Group
IBM klasifikační modul vs alternativy
Vlastnost
Definování
klasifikace dle
pravidel a
zkušeností
Bayesiánské sítě,
Statistiky
Neurální sítě
Black box
x
Enormní rozsah
učení
x
Obtížné vyladit
x
x
x
Vyžaduje znalého
odborníka na údržbu
x
x
x
Drahé a náročné na
údržbu
x
x
x
RME
Klasifikační modul
2828
IBM Software Group
Kritéria shody, úspěšného nalezení
Prevděpodobnost
RME přidává ke každé kategorii výsledke statistickéhho měření (skóre) které
říká jak moc výsldek odpovídá profilu v znalostní bázi (taxonomii)
Vysoká shoda vs. přesnost výsůledků
Vysoká přesnost – Málo „chyb“ (málo položek automaticky přiřazených
nesprávně)
Vysoké procento nalezení výlsedku – málo „opomenutí“
2929
IBM Software Group
Příklad: Klasifikace v reálném čase
Aplikace
Vstup
Výstup
Zpětná vazba
“Před 3 týdny jsem posílal
anotaci své přednášky a
zatím nemám potvrzení zda
dorazila v pořádku.
Konference se koná již za
10 dní a stále nemám
informaci o datu a čase mé
přednášky. Prosím o
telefonickou konzultaci . Mé
telefonní číslo je 123 456
789. Děkuji, Mirek Cink“
TERMÍN
PŘEDNÁŠKY(92%)
CASLIN 2009(82%)
UPŘESNĚNÍ (32%)
Záměr = TERMÍN
PŘEDNÁŠKY
3030
IBM Software Group
Struktura sdíleného institucionálního repositáře
Zpřístupnění,
formátování,
Relevance atd.
nestrukturovaná data
Portál,
prohledávání.
filtrování
Původce obsahu
Klasifikace,
katalogizace
Katalogizační
pracovník
ICM
ECM DBMSFilyste
mes
ECM DBMSFilyste
mes
Sjednocení obsahu
(migrace, archivace, kontrola integrity atd.)
Fyzické úložiště dokumentů
Původce obsahu
nestrukturovaná data
ECM DBMSFilyste
mes
Původce obsahu
nestrukturovaná data
3131
IBM Software Group
Pokročilá klasifikace
Automatizace rozhodování o klasifikaci na základě plného kontextu
3232
®
IBM Software Group
IBM Classification Module - architektura
© 2005 IBM Corporation
IBM Software Group
Classification Module – hlavní komponenty
Klasifikační modul (RME) = Relationship Modeling Engine
RME je obalen serverovými procesy které akceptují SOAP požadavky na:
klasifikaci
Zpětnou vazbu
Nahrání a úpravu klasifikačního modelu
IIS (Win32) a Apache poskytují HTTP konektivitu pro procesy serveru
API v různých jazycích – pro komunikaci se serverem
Management Console – klientská GUI aplikace pro administraci serveru
Podporované platformy:
Win32: NT, 2000, XP
UNIX: Solaris, AIX, Linux
Classification Workbench: Windows tool pro RME rozšiřování, správu,
analýzu a ladění
3434
IBM Software Group
RME = Relationship Modelling Engine – jádro
systému
A
A
A
A
Import
B
B
RME
RME
(KB)
(KB)
C
C
Feedback
Corpus
(Categorized)
A
A
Lorem
Loremipsum
ipsum
dolor
dolorsit
sitamet,
amet,
consectetuer
consectetuer
adipiscing
adipiscingelit.
elit.
Vivamus
Vivamusull
ull
Audit
vyhodnocení
Lorem
Loremipsum
ipsum
dolor
dolorsit
sitamet,
amet,
Lorem
consectetuer
Loremipsum
ipsum
consectetuer
dolor
sit amet,
adipiscing
elit.
dolor
adipiscing
elit.sit amet,
Lorem
consectetuer
Vivamus
ull
Loremipsum
ipsum
Vivamusconsectetuer
ull
dolor
adipiscing
elit.
dolor
sitamet,
amet,
adipiscing
elit.sit
Vivamus
ull
consectetuer
Vivamusconsectetuer
ull Lorem ipsum
Lorem
ipsum
adipiscing
elit.
adipiscing
elit.
dolor
sit
dolor
sitamet,
amet,
Vivamus
ull
Vivamus
ull
consectetuer
consectetuer
adipiscing
adipiscingelit.
elit.
Vivamus
Vivamusull
ull
Lorem
Loremipsum
ipsum
dolor
dolorsit
sitamet,
amet,
consectetuer
consectetuer
adipiscing
adipiscingelit.
elit.
Vivamus
Vivamusull
ull
Kategorie – seznam
Relevantnost (skóre)
A:
A: 0.97,
0.97,
B:
B: 0.54,
0.54,
C:
0.12,
C: 0.12,
LL
Lorem
Loremipsum
ipsum
dolor
dolorsit
sitamet,
amet,
consectetuer
consectetuer
adipiscing
adipiscingelit.
elit.
Vivamus
Vivamusull
ull
3535
IBM Software Group
RME Application Data Flow
Application /
Workbench
Corpus
(categorized texts)
Posílá
nezpracovaná data
Aplikace
Run-time
Build-time
Parameters
NLP
Profily
NLP
SML
NVPs
Učení se
vyhodnocení
RME KB
Testovací
Knowledge Base
Kategorie a
relevantnost
Učení se
updatovaná
Knowledge Base
Zpětná
vazba
3636
IBM Software Group
Jak RME pracuje – o úroveň níže
Dvoufázový proces – NLP a Sémantické modelování
identifikace jazyka
A
A
Lorem
Loremipsum
ipsum
dolor
dolorsit
sitamet,
amet,
consectetuer
consectetuer
adipiscing
adipiscingelit.
elit.
Vivamus
Vivamusull
ull
Identifikace
jazyka
Text Processing
(NLP)
výsledky
výsledky
SML
SML
Document
Document
Statistical Processing
Lorem
Loremipsum
ipsum
dolor
dolorsit
sitamet,
amet,
consectetuer
consectetuer
adipiscing
adipiscingelit.
elit.
Vivamus
Vivamusull
ull
3737
IBM Software Group
Natural Language Processing (NLP)
NLP sestává z mnoha operací, včetně:
Identifikace jazyka a konverze kódování – identifikace na specifickém
textu, následně s možností převodu ASCII do Unicodu
Tokenizace – proces identifikace slov, frází, e-mail adres apod.v rámci
delších textů
Čištění textu – eliminace částí které nejsou relevantní ke klasifikaci
Korekce chyb
Morfologická analýza – odvozování od základu slov
Jiné typy proprietárních analýz
Klíčová slova a extrakce konceptu
3838
IBM Software Group
Sémantické modelování
Analyzuje SML textu v porovnání s modely pro každou kategorii KB
Kalkuluje relevantní skóre pro každý text
Čím vyšší skóre tím přesnější odkaz
Kalibruje výsůedky a skóre relevantnosti
Vrací jména kategorií a skóre relevantnosti
3939
IBM Software Group
Jazyková podpora
Classification multilingual support features include:
Identifikace jazyka a znakových sad
Jazykově specifické NLP
Podpora ASCII, Unicode support (conversion)
KB – podporované ve více jazycích
Podporované jazyky (UTF-16): Dutch, English, French, German, Spanish,
Italian, Portuguese, Chinese (Traditional), Chinese (Simplified), Japanese,
Korean
jazyky:
ASCII: Arabic (Windows-1256), Chinese_Simplified (csISO58GB231280),
Chinese_Traditional (Big5), Czech (Windows-1250), Danish
(Windows-1252),
English (Windows-1252), French (Windows-1252), German (Windows-1252), Hebrew
(Windows-1255), Italian (Windows-1252), Japanese (EUC-JP, Shift_JIS), Korean
(korean), Norwegian (Windows-1252), Polish (ISO-8859-2)
UNICODE (UTF-16): Arabic, Chinese_Simplified, Chinese_Traditional, Czech, Danish,
Dutch, English, French, German, Hebrew, Italian, Japanese, Korean
Pokud vstupní text nneí v UTF-16, Classification modul resp. API poskytne
funkci na konverzi do UTF-16
4040
IBM Software Group
Struktura znalostních bází (KB) pro RME
Síť uzlů
Vnitřní uzly a koncové uzly
Koncové uzly reprezentují kategorie
Rozšiřovatelné uzly
Uzly s definovanými pravidly na uzlech jako např.
Jazyk
NVP logika (NVP Equals, NVP Contains)
Je/není prázdný text
Vždy
Jinak
Sesterské skupiny musí být stejného typu: uzly s pravidly nebo
rozšiřovatelné uzly
4141
IBM Software Group
Aplikační architektura klasifikačního modulu - příklad
Departments
Contact Us
Web Server
Responses
SOAP
Contact Us
Web
Database Templates
Queues
Internet
Classify
Workbench
Tuning/Config
SOAP
Classification Server
Inbound
SMTP Mail
Web
Forms
Corporate
Mail Server
Outbound
SMTP Mail
4242
IBM Software Group
ICM Workbench- nástroj na analýzu RME
This point indicates that for
this KB, the RME can
automatically answer
incoming texts with an overall
precision of 80%, and overall
recall of 50% (assuming an
appropriate threshold is set for
each category).
This point indicates that for
93% of all corpus items, the
correct category is among the
first four categories
suggested.
4343
IBM Software Group
Agenda
Úvod
Vyhledávání a jeho omezení
klasifikační technologie IBM
IBM Classification modul – architektura a vlastnosti
Příklady použití klasifikačních řešení
Závěr
4444
IBM Software Group
UKde jsme použili klasifikační modul v aplikacích
Klasifikace dokumentů (digital repository) – knihovny, informační spol.
Vyhodnocování informací (nemocnice )
Klasifikace hlasových záznamů (telekomunikace)
Emailová odpověď
návrh odpovědi pro zaměstnance/agenta
Auto-reply s odpovědí na mail
směrování k nejlepšímu pracovníkovi dle odbornosti a znalostí
Detekce spamu
Filtrování a prioritizace mailu, přesun do složek
Archivace emailu
Filtrování zpráv se speciálním obsahem (risk and compliance)
Inteligentní FAQ web self service
Data mining
Směrování požadavku na základě odbornosti pracovníka
4545
IBM Software Group
Interní IBM řešení – zlepšení inovací
Klasifikace + textová analytika + BI
IBM Research
Odkud jdou data
Patenty
Abstrakty výzkumných projektů
Internet
Jaké informace patenty obsahují?
Jaké jsou důsledky
Příklady
Porovnávání portfolia společností
Výzkum nových produktů
Učelnost vynaložených nákladů
na vývoj produktu
Přístup konkurentů
Vnímavost trhu
4646
IBM Software Group
Nejvýznamnější zákazníci
Bloomberg
Associated Press
Wells Fargo Bank
Royal Bank of Canada
Dell
VeriSign
Siebel
Kana
Nintendo
Talisma
IBM
4747
IBM Software Group
Jamming
Případová studie – IBM Innovation Jam
V roce 2006 spolupracovalo navzájem přes 150.000 účastníků ze 104 zemí v online akci s
cílem identifikovat nové příležitosti pro byznys a pro společnost. Partcipovali IBM
zaměstnanci, partneři, rodinní příslušníci, zákazníci.
Solution: 2 brainstormingy, každý po 72 hodinách na předem definovaná témata (doprava, zdravotnictví,
životní prostředí, digitální zábava)
účastníci prezentovali nové nápady, technologie, nápady, business modely apod...
Celosvětová spolupráce
• Více než 150,000 účastníků ze 104 zemí
• 70účastníků firemních – univerzity, výzkumné instituce,
společnosto....
• Přes 46.000 nápadů generovaných během těchto jam
sessions
Globální řešení
– Vyhodnocení nápadů pomocí klasifikací a data miningu
– Vyrbráno TOP10 nápadů, rozhodnuto o investicích $100
mld.během příštích dvou let
4848
IBM Software Group
Agenda
Úvod
Vyhledávání a jeho omezení
klasifikační technologie IBM
IBM Classification modul – architektura a vlastnosti
Příklady použití klasifikačních řešení
Závěr
4949
IBM Software Group
Automatická klasifikace je technologie příští generace
v oblasti vyhledávání obsahu
IBM má připravený a ověřený produkt
Pomocí něj řešíme skutečné složité problémy
Může být použit pro automatizaci práce s texty
Podpora institucionálních repositářů a Open Access
= snadné, přesné a efektivní vyhledávání
5050
IBM Software Group
Další nástroje
IBM OmniFind – komplexní vyhledávání
IBM OmniFind Yahoo! Edition – open source
IBM LanguageWare – indexing, , segmentace textu, sémantické
vyhledávání pokročilé odstraňování chyb v textu atd....
IBMUnstructured Information Modeler
IBM Informatin Analyzer
IBM Text Analytics
....
5151
IBM Software Group
Vybrané odkazy
Odkazy
eDiscovery: http://www.ibm.com/software/data/content-management/ediscovery.html
Classification: http://www.ibm.com/software/data/enterprise-search/classification/
Content Analyzer: http://www.ibm.com/software/data/content-management/contentanalyzer/
Search: http://www.ibm.com/software/data/enterprise-search/omnifind-enterprise/
5252
IBM Software Group
Děkuji za pozornost.
Miroslav Cink
mob. +420 731 435 543
[email protected]
5353

Podobné dokumenty

2/10 - ACRI

2/10 - ACRI ké výstavby této potencionálně velmi Dalšímspecifikemjeito,žecelkováalozástavby a možnosti výkupů pozemků je vý znamné investiční akce. kaceOperačního programu dopravy pro totojistěotázkavelmikompl...

Více

ukázat článek - Cigler Marani Architects

ukázat článek - Cigler Marani Architects omezuje vznik světelného smogu v nočních hodinách. Projekt byl také pozitivně hodnocen za vytvoření vnitroblokového náměstí. O nejvyšší hodnocení Florentina se zasloužily především úspory v hodnoti...

Více

Portal - Enable

Portal - Enable K aplikaci se přitupuje přes uživatelské rozhraní, které zastřešuje Engine. Data bývají uložena nejčastěji v relační databázi.

Více

zde

zde nabízíme

Více

high efficiency

high efficiency pozornosti na rozumné využívání zdrojů a účinnost energetických systémů pro budovy a systémy. Pozornost, kterou Clivet energetické účinnosti věnoval, se dnes odráží v řadě WDH-3. vodou chlazených c...

Více

Pravděpodobnost

Pravděpodobnost Uvažujme prostor elementárních jevů Ω = [0, 1] ⊆ R. Náhodný pokus: „Je vybráno jedno číslo z Ω, přitom všechna čísla mají stejnou šanci být vybrána.ÿ Pokud je náhodný jev (otevřený) interval (a, b)...

Více

IBM Intranet Experience Suite Stručná úvodní příručka

IBM Intranet Experience Suite Stručná úvodní příručka Software s produktem lze získat z disku DVD nebo obrazu, obojí lze získat prostřednictvím programu Passport Advantage. Při stahování produktu v rámci programu Passport Advantage postupujte podle po...

Více

IBM Customer Experience Suite Stručná úvodní příručka

IBM Customer Experience Suite Stručná úvodní příručka webových zkušeností, včetně správy webového obsahu web Content Management, bohatých sociálních funkcí a funkcí komunikace v reálném čase, vyhledávání, komerční a analytické podpory, přizpůsobení, b...

Více