Lingvistické aplikace

Transkript

Lingvistické aplikace
Inovace studia obecné
jazykovědy a teorie
komunikace ve spolupráci s
přírodními vědami
reg. č.: CZ.1.07/2.2.00/28.0076
Lingvistické aplikace
Kateřina Veselovská
[email protected]
po 16:45 – 18:15
Kateřinská 17, 1.16
Kateřina Veselovská
vědecká pracovnice + doktorandka ÚFAL
On the Linguistic Structure of Emotional Meaning
in Czech
produktová manažerka pro textovou analytiku
Co budeme dělat
Lingvistické aplikace = kde všude lze lingvistické znalosti
uplatnit prakticky
Co budeme dělat
• lingvistická analýza textu (k čemu a jak)
• rozpoznávání mluvené řeči (dialogové systémy a spol.)
• rozpoznávání jazyka (strojový překlad apod.)
• „dolování informací“ (automatická detekce emocí atd.)
• neuro a psycholingvistické aplikace…
Co budu chtít
• aktivní účast v semináři
• esej na vybrané téma
• heslo v encyklopedii
Co za to
• zápočet
Lingvistické aplikace
Aplikovaná lingvistika = VŠECHNO…
Aplikovaná lingvistika
a) „humanitní“ = didaktika jazyka, teorie překladu,
jazyková terapie…
b) „komputační“ = umělá inteligence, automatizace,
strojový překlad…
Aplikovaná lingvistika
c) „narativní věda“ = vězměte jakákoliv data
(zákaznické e-maily, fotbalové statistiky,
bankovní účty) a proměňte je v příběh.
Lingvistická analýza textu – motivace
Samotná data vám řeknou JAK se lidé chovají.
Lingvistická analýza vám řekne PROČ.
Příklady zdrojů dat
Lingvistická analýza textu – motivace
• lepší pochopení zákaznických potřeb
– o čem zákazníci mluví, co si myslí, jak se cítí atp.
• zefektivnění práce zaměstnanců
– úspora času, inteligentní plánování
• obeznámenost s konkurencí
– co plánují, na čem pracují, o čem se baví ostatní
• integrace výše zmíněného
– přizpůsobení procesů
Lingvistická analýza textu ‒ jak
• automatická kategorizace
• sémantické technologie
• shluková analýza
• extrakce entit
• automatická sumarizace
• question answering
• analýza sentimentu
• strojový překlad atd.
Příprava dat
• segmentace na věty
• tokenizace
• spell-checking
• lemmatizace
• Part-of-speech tagging
• parsing
Automatická kategorizace
• obsahová analýza
• přiřazuje k textu některou z předem daných kategorií
- na základě četnosti výskytů
- na základě strojového učení
Automatická kategorizace
Také jsem se o tuhle hypotéku trochu zajímal. Přišla mi až
podezřele výhodná a bez skrytých drobných částek
placených kolem, které ve finále hypotéku celkem přidraží.
Problém je, když něco najdou (nějaký dluh nebo nějakou
nesrovnalost). To prý žádost o hypotéku zamítnou, zapíše se
to do databáze a je potom složitější získat hypotéku u jiné
instituce.
 kategorie hypotéka
Shluková analýza
• obsahová analýza
• rozděluje texty do skupin
- na základě podobností
- sémantické sítě
- hierarchické/nehierarchické klastrování
Shluková analýza
Sumarizace textu
• summary extraction – výběr podstatných vět
(heuristika, statistika, latentní
sémantická analýza)
• summary abstraction – hlubší sémantická analýza
Sumarizace textu
Každý už ví, že dovolenou je nutno kupovat jen u CK pojištěné proti
úpadku. Ale kterou CK vybrat. Kam jít koupit svou vysněnou dovolenou.
Možností je hodně. I já jsem zpočátku obíhala cestovní kanceláře ve městě.
Nyní ale využívám mnohem rychlejší a pohodlnější způsob. Vybírám si
dovolenou na internetových stránkách. Jsou zde zájezdy všech velkých
cestovních kanceláří a více než sta dalších ck. Do celého světa a za stejnou
cenu jako u cestovní kanceláře. Navíc dostávám dárek - pojištění
stornopoplatků v hodnotě 600Kč zdarma. To vše rychle a z pohodlí domova
- internetem.
Každý už ví, že dovolenou je nutno kupovat jen u CK pojištěné proti
úpadku. Do celého světa a za stejnou cenu jako u cestovní kanceláře. To
vše rychle a z pohodlí domova - internetem.
Analýza sentimentu
• automatická extrakce názorů a postojů z textu
- pozitivní a negativní sentiment
- extrakce cílů hodnocení
• jednoduché hlasování
• strojové učení – pravděpodobnostní modely
Analýza sentimentu
[Pochvala pro callcentrum Reiffeisenbank, když jsem si
vyřizoval tu KK Style, aspoň že mají vstřícný zaměstnance,
což jinde bejvá někdy problém.]+
- hlasování s prostou většinou na základě slovníku
Analýza sentimentu
Sémantické technologie
• získávání informací ze sémantického webu např. pomocí
běžných ontologií
• extrakce faktů
auto = dopravní prostředek, má řidiče = člověka, který má
řidičský průkaz
Petr jel autem do práce = Petr pravděpodobně má řidičský průkaz.
Extrakce entit
• určení entit zmíněných v textu
- známé i neznámé entity
- eventy atp.
• katalogy variant
• pravidlová extrakce
• desambiguace
Extrakce entit
„Paris Hilton je jednou z největších superstar současného
Hollywoodu. Prosadila se před necelými čtyřmi lety v lehce
skandální televizní live-show The Simple Life, kterou
produkovala stanice Fox. Dále se objevila v televizních
sériích Las Vegas nebo Veronica Mars.“
Question answering
• systémy pro automatické odpovědi
- na základě korpusu
- filtrování false positives aj.
Q: Co je to aplikovaná lingvistika?
A: Narativní věda.
Lingvistická analýza textu - proč
• customer churn analysis
• customer loyalty analysis
• customer risk analysis
• customer feedback analysis
• analýza sociálních sítí
Customer churn analysis
„Blahopřeju vám k anti-péči o zákazníka. Jsem u vás od
roku 2002 a jediné co mi umíte nabídnout jsou běžné −
a stále dost nevýhodné − tarify. Člověk si aspoň
uvědomí, jak moc potřebujeme Evropskou unii (jejíž
instituce jako jediná z relevantních subjektů tlačí ceny
dolů). Po špatných zkušenostech hodlám přejít ke
konkurenci.“
• analýza sentimentu, kategorizace
Customer loyalty analysis
„Produkt této společnosti používám na několika PC už
několik let a zatím jsem neobjevil žádné vady. Vzhledem
k mé naprosté spokojenosti ani do budoucna nehodlám
měnit.“
• analýza sentimentu, kategorizace
Customer risk analysis
• Detekce lži:
kratší věty, krátká slova, více výrazů vyjadřujících
pozitivní emoce… (+ další dimenze)
• Detekce spamu, detekce falešných profilů aj.
• obsahová analýza, analýza sentimentu
Customer feedback analysis
„Koupit si tento fotoaparát a spoléhat na jméno firmy se
mi vůbec nevyplatilo. Např. proti mému stařičkému
fotoaparátu je toto naprostý propadák. Průměrný
telefon s fotoaparátem udělá stejné, ne-li lepší
fotografie. Ani komunikace s centrem podpory nestojí
za nic. Výrobek mě zklamal a víckrát už si žádný
produkt této firmy bezpochyby nekoupím.“
 cílený marketing
Analýza sociálních sítí
personalizovaný marketing, individuální
interakce se zákazníkem
Lingvistická analýza textu - shrnutí
• žijeme ve věku „velkých dat“, která stále přibývají
Lingvistická analýza textu - shrnutí
• rozvoj Webu 2.0 => obsah generovaný uživateli
=> potřeba třídění
a vytěžování informací
=> potřeba kvalifikovaných lingvistů
Příště – témata
• exkurze na ÚFAL
• dialogové systémy
Příště – úkoly
• popovídejte si s Petrou:
• popovídejte si s Alex:
800 899 998

Podobné dokumenty

metodický pokyn pro popis přestupků

metodický pokyn pro popis přestupků zda-li při přestupku došlo ke zranění soupeře (případně k jakému) a zda-li soupeř utkání dohrál, či byl nucen v důsledku utrpěného zranění střídat vyjádření R by mělo obsahovat, zda-li vyloučený hr...

Více

pokyny k popisu přestupků

pokyny k popisu přestupků tresty příslušníkům družstva (vyloučení a vykázání z TZ) se stručným popisem přestupku. 4) Vedoucí družstev jsou povinni po vyplnění zápisu o utkání a uvedení uložených trestů dle odstavce 3 na výz...

Více

Analýza sentimentu textu - Machine Learning Meetups

Analýza sentimentu textu - Machine Learning Meetups že je nejlepší, co jsem kdy viděla. Obsazení herců je dobré, tedy až na Froda, v některých částech mi už docela lezl na nervy.]?

Více

Dear fellow Czechs and friends of the Czech

Dear fellow Czechs and friends of the Czech Pult  stojí  na  desce,  na  níž  jsou  slova  Milady  Horákové,  které  napsala  ve  svém  posledním   dopise  před  popravou:  „Padám,  padám,  tento  bo...

Více

zde - Anopress

zde - Anopress Pojmy uvedené jako parametry jednotlivých operátorů mohou obsahovat libovolné znaky včetně mezer, ale nesmí obsahovat řetězce mající význam operátoru a speciální znaky. Při zápisu pojmů obsahujícíc...

Více