Prezentace aplikace PowerPoint

Transkript

Prezentace aplikace PowerPoint
Department
of Informatics
Natural Language Processing and Text
Mining Group
František Dařena
[email protected]
Představení
• skupina založena asi před pěti lety
• tři akademičtí pracovníci, několik
doktorských, magisterských a bakalářských
studentů
• kontakty – Argentina, ČR, Indie, Irsko, Itálie,
Kanada, Qatar, Rumunsko, Rusko, Řecko,
Srbsko, Španělsko, Tunis, UK, USA
• http://ui.pefka.mendelu.cz/en/NLP
Zaměření skupiny
• odhalování informací a znalostí ukrytých
v rozsáhlých kolekcích textových dat
• aplikace zejména metod strojového učení a
jejich kombinací
– supervised (klasifikace)
– unsupervised (shlukování, hledání asociací)
– semi-supervised
Výzkumná témata řešená v minulosti
• hledání dokumentů na základě podobnosti,
včetně vhodného výběru vzorků
• extrakce mínění (významná slova, fráze)
z označených (labeled) zákaznických recenzí
• extrakce mínění a témat z neoznačených
(unlabeled) dat
• paralelizace úloh text miningu
• předzpracování (preprocessing) textových dat
a jeho vliv na proces a výsledky text miningu
Hledání mínění v zákaznických
recenzích – významná slova
Hledání mínění v zákaznických
recenzích – významná slova
Hledání mínění v zákaznických
recenzích – významná slova
Hledání mínění v zákaznických
recenzích – významné fráze
Hledání mínění v zákaznických
recenzích – významné fráze
Hledání mínění v zákaznických
recenzích – významné fráze
Zpracovávaná data
• standardní kolekce dat – 20 News Groups,
Reuters
• sociální sítě – Twitter
• novinové články – iDnes
• zákaznické recenze – Amazon, Booking.com,
wellness.com, masquemedicos.com,
heureka.cz
Vývoj aplikace pro převod textových
dokumentů do vektorového formátu
• převede surová data do formátu
vyžadovaného běžnými aplikacemi pro data
mining
• grafické a řádkové rozhraní
• implementováno v Perlu – přenositelné,
snadný vývoj a modifikace
Vývoj aplikace pro převod textových
dokumentů do vektorového formátu
• výstupní formáty: C5, arff, sparse, cluto, svmlight,
csv, yale
• lokální váhy: Binary (Term Presence), Term
Frequency, Thresholded TF, Logarithm, Alternate
Logarithm, Normalized Logarithm, Augumented
Normalized TF (optional K), Okapi's TF factor
• globální váhy: IDF, probabilistic IDF, normal,
GFIDF, entropy
• normalizace: cosine, sum of weights, max weight,
fourth normalization
• typ logaritmu: natural, common
Vývoj aplikace pro převod textových
dokumentů do vektorového formátu
• vstup: všechna data, náhodně vybraný počet
dokumentů, dokumentu určitých tříd, věty,
obsah elementů
• výstup: unigramy/n-gramy, upravené textu,
slovník volitelně s frekvencemi (i pro třídy)
• filtrace atributů: délka slov, min/max
lokální/globální frekvence
• odstranění stopslov, zachování zkratek, čísel,
emotikonů, symbolů
Budoucnost
• práce s velkými objemy dat, aktualizovatelnými
algoritmy, datovými toky
• práce s více přirozenými jazyky
• využití latentní sémantické analýzy
• aplikace semi-supervised metod
• aplikace constrained clustering
• analýza závislostí mezi textovými daty (zprávy,
ekonomické přehledy, příspěvky na sociálních
sítích…) a ekonomickými jevy (vývoj ceny akcií…)

Podobné dokumenty

Pokročilé analýzy dat a textů / Data mining, text/web mining

Pokročilé analýzy dat a textů / Data mining, text/web mining instituce, mobilní operátor, Národní technická knihovna) Obchodním cílem je rozčlenění zákazníků do určitého počtu hlavních skupin (obvykle 5–15)

Více

Název příspěvku na konferenci

Název příspěvku na konferenci Zídek Karel, Kabelka Petr Uživatelské testování aplikačních systémů rozšířené reality Semrád Petr, Dařena František Automatická oprava textu v různých jazycích Krupník Jiří Automatizace generování ...

Více

Sociální pozice/status, sociální role

Sociální pozice/status, sociální role 3/ Co je to sociometrie? a)Nauka o zkoumání sociálních vztahů a o vnitřní struktuře sociální skupin b)Způsob ke kvantifikaci (změření velikosti) sociálních skupin c)Nauka o sociální patologii skupi...

Více

Manuál odborných praxí

Manuál odborných praxí 3. vyplnění a) registračního formuláře na www.pefka.mendelu.cz/crpraxe b) dotazníku o přístupu studenta a průběhu praxe (dodáme po absolvování

Více

Rozvaha - DSO 2012

Rozvaha - DSO 2012 5 Pěstilělsks Ěslky trve*ýr}l p*rort* $ Dr*bný df**h*ď*h1 *ín{í*iý$fiJ€{$k 7 sstétni *Ís*h$s*bý hr**tný {asj*ť*k s t'i*rj*k***gný d!**bo***irý hťť}*trrý r$*j*{gt{ 9 lJ$p*ř*sásit}isti€ťit*i*k6lr*al"...

Více

archív dokumentů

archív dokumentů ARCHÍV DOKUMENTŮ uživatelská dokumentace 1. Účel. Archív dokumentů je nadstandardním doplňkem aplikace Nugget v prostředí Windows. Slouží k archivaci dokumentů různého typu (naskenovaných ale i jin...

Více

Automatizace generování stopslov

Automatizace generování stopslov shluků podobných dokumentů (clustering). Uvedené výsledky (Tabulky II–IV) ilustrují, jak jsou jednotlivé metody navrženy. Seznamy pro některé metody jsou dost podobné (např. CHI a NGL), jiná obsahu...

Více

ALEA sportswear katalog

ALEA sportswear katalog ATLETIKA/ATHLETICS

Více

Workshop biomedicínského inženýrství a informatiky 2013. 2013

Workshop biomedicínského inženýrství a informatiky 2013. 2013 České vysoké učení technické v Praze Technická 2 166 27 Praha 6

Více