Zpracování řeči

Transkript

Zpracování řeči
Vı́ceznačnost a jejı́ odstraněnı́
aneb proč je strojové porozuměnı́ jazyku težké
Lexikálnı́ vı́ceznačnost
hot
horký
back
go back (přı́slovce)
kořeněný
back door (přı́d. jméno)
sexy
back up your files (sloveso)
kradený
the back of the room (podst. jméno)
...
Syntaktická (strukturálnı́) vı́ceznačnost
I smelled a wumpus in 2,2.
• Wumpus na 2,2.
• Byl jsem na 2,2 a cı́til wumpuse.
Sémantická vı́ceznačnost
Obě předchozı́, navı́c:
A coast road
• cesta k pobřežı́
• pobřežnı́ cesta
lexikálně i syntakticky je ”A coast road” jednoznačné.
Vı́ceznačnost odkazů
it
Pragmatická vı́ceznačnost
I will meet you next Friday.
• zı́tra
• za týden a den – myslı́ Angličan.
Posluchač a mluvčı́ majı́ jiné představy aktuálnı́ situace.
Vágnost
Venku je horko.
• 20 stupňů
• 30 stupňů?
Nejednoznačnost typu řeči
Nevı́te, kolik je hodin?
• Vı́m.
• Půl jedné.
Řešenı́ nejednoznačnosti
Ideálně
• Řečnı́k mı́nı́ výrok P a formuluje ho tak, že řeč může mı́t vı́ce
interpretacı́, ale za daného kontextu je nejlepšı́ způsob
interpretace P.
• Posluchač to zjistı́ a proto řeč interpretuje jako P.
Tj. k řešenı́ nejednoznačnosti pomůže model světa, řečnı́ka,
jazykový či akustický model.
Chris saw the Grand Canyon flying to New York.
Pomůže model světa.
Howard does not keep his money in the bank. (břeh či banka?)
Pomůže model řečnı́ka.
Lee asked Kim to tell Toby to leave on Saturday.
Co se stalo/má stát v sobotu? Nenı́–li jiná evidence, přiřadı́me
nejbližšı́ před, tj. leave.
Lee positioned the dress on the rack.
Kim wanted the dress on the rack.
Syntaktická vı́ceznačnost vyřešená lexikálnı́ evidencı́ (subkategoriı́
slovesa).
Nejednoznačnost řešená sémantickou
evidencı́
I ate spagetti with meatballs.
I ate spagetti with salad.
I ate spagetti with fork.
I ate spagetti with a friend.
Řešenı́ nejednoznačnosti
Ideálně
• Řečnı́k mı́nı́ výrok P a formuluje ho tak, že řeč může mı́t vı́ce
interpretacı́, ale za daného kontextu je nejlepšı́ způsob
interpretace P.
• Posluchač to zjistı́ a proto řeč interpretuje jako P.
... a jsme zase u pravděpodobnosti ...
Zpracovánı́ řeči
• Nejmenšı́ jednotka: foném
• Lišı́ se podle způsobu a mı́sta tvořenı́, artikulujı́cı́ho orgánu nebo
sluchového dojmu (fonologie). Celkem ve svět. jazycı́ch jen cca.
12 diferenciálnı́ch přı́znaků.
• Počet fonémů v jazycı́ch je 12 až 60. (ČJ 36, AJ 42, RJ 40).
• Fonémy se spojujı́ co posloupnostı́. Ty lze dělit na slabiky,
slabiky tvořı́ slova. Slovanské jazyky cca. 2500–3000 slabik,
45000 – 50000 slov.
• Člověk při hovoru vyslovı́ 80–130 slov za minutu, tj. cca 10
fonémů za sekundu. Při informaci 3–4 bity na foném je přenos
informace 30–40 bit/s; člověk je schopen zpracovat informaci o
rychlosti maximálně 50 bit/s.
• V češtině je fonologicky funkčnı́ symbol pauza pro hranici mezi
slovy, v angličtině ne.
Zpracovánı́ signálu
• Snı́máme v určité frekvenci (sampling) 8–20 kHz
• kvantovánı́ – diskretizujeme velikost signálu 12–14 bitů
• přı́znaky (features) – např. krátkodobá energie či častěji
krátkodobá intenzita, krátkodobá funkce střednı́ho poštu
průchodů signálu nulou, autokorelačnı́ funkce, a Fourierovy
transformace pro frekvenčnı́ oblast.
• vektorová kvantizace – hodně kombinacı́ přı́znaků reprezentuji
jednı́m kódem, tı́m zmenšı́m prostor, ve kterém pak budu
pracovat (např. 256 kódů).
Pravděpodobnostnı́ přı́stup
• Skryté Markovské procesy
• základ – Vintsyuk – každé slovo vlastnı́ model, 40–50 stavů,
odpovı́dajı́cı́ch pruměrnému počtu mikrosegmentů ve slově
• těžko by se trénovalo obecně, proto se učı́ modely pro jednotlivé
fonémy; z modelů pro fonémy složı́m slovo (transkripce slova
pro češtinu celkem snadná)
Viterbiův algoritmus
Skrytý Markovský model P( S1 ), P( St+1 | St ), P(Ot | St )
S má stavy i = 1, . . . , N
hledám maximálně pravděpodobný průchod.
1. Inicializace: δ1 (i ) ← P( S1 = i ) · P(O1 = o1 | S1 = i )
ψ1 = 0
2. Rekurze v čase t = 2, . . . , T a nový stav j = 1, . . . , N
δt ( j) ← maxi δt−1 (i ) · P( St+1 = j| St = i ) · P(Ot = ot | St = j)
ψt = argmaxi [δt−1 (i ) · P( St+1 = j| St = i )]
3. Výsledná pravděpodobnost a index maximálně
pravděpodobného stavu v čase T jsou:
P∗ = maxi [δ T (i )]
i∗ = argmaxi [δ T (i )] O nejpravděpodobnějšı́ průchod zpětně
vystopujeme z ψ, it∗ = ψt+1 (it∗+1 )
Pozn: nejpravděpodobnějšı́ průchod nenı́ to samé co
nejpravděpodobnějšı́ posloupnost fonémů.
Učenı́ modelu
• Baum-Welchův algoritmus
• v zásadě EM algoritmus, klasická metoda učenı́ modelu se
skrytými parametry ve Strojovém učenı́.
Jazykový model – bigramy, trigramy
• Z velké databáze textů naučı́m pravděpodobnost každého slova
dáno dvě předchozı́ slova.
• Bigram odhalı́ J ášli Ihas, trigram i trochu vı́ce, vı́ce–gram už má
přı́liš mnoho parametrů, takže je často roven (blı́zko) nule a
špatně se učı́ a s nı́m pracuje.
Složı́me to dohromady
• Pro všechny možné posloupnosti slov umı́me provést
transkripci do fonémů; složit modely fonémů do modelů slov a
modely slov spojit jazykovým modelem do modelu věty.
• Vybereme ”nejpravděpodobnějšı́” větu – aspoň skoro.
• např. A∗ dekodér – bigramový model, cena hrany
−logP(wi |wi−1 ), musı́me přidat heuristiku odhadu do konce a
prohledávat.
Strojový překlad
Na různých úrovnı́ch:
• hloubková struktura
• sémantická úroveň
• syntaktická úroveň
• slova za slova
Čı́m vyššı́, tı́m lepšı́, ale obtı́žnějšı́ překlad.
Statistický strojový překlad
• Model jazyka: P(wordi |wordi−1 )
• Fertility model: P( Fertility = n|word F ) – česká podstatná jména
budou mı́t fertility 2, prvnı́ se přetvořı́ na člen, druhý se přeložı́
• Překlad slow: P(word E |word F )
• Offset model: P(O f f set = o| pos, len E , len F ) – jazyky majı́ různý
slovosled, např. francouzština dává přı́davná jména ZA
podstatná, němčina zas hodı́ přı́čestı́ sloves na konec atd.
Zkoušky – v 9:00 v S303
• čt 2.5., pá 10.5., 24.5., (1.6.)
• jeden termı́n v zářı́, prozatı́mně 5.9., termı́n proto, abych měla
sbı́rku zájemců, komu poslat e–mail.
Témata
co bylo předneseno, zejména:
• bayesovské sı́tě
• influenčnı́ diagramy
• markovské rozhodovacı́ procesy
• zpětnovazebné učenı́
• prohledávánı́ stavového prostoru
• (doplňkově PAC–learning, učenı́ bayesovských sı́tı́)
• zpracovánı́ obrazu, detekce hran, analýza scény pro zobecněné
hranoly
• zpracovánı́ jazyka (BKG plus sémantika), zpracovánı́ řeči (skrytý
Markovský model)

Podobné dokumenty

Markovské rozhodovací procesy, zpětnovazebné učení

Markovské rozhodovací procesy, zpětnovazebné učení Markovské rozhodovacı́ procesy Zpětnovazebné učenı́ • Předpokládáme, že se množina možných stavů S neměnı́ v průběhu času • Markovská vlastnost stav v čase t + 1 je nezávislý na...

Více

Jak správně na hubnutí

Jak správně na hubnutí odbornou pomoc. Nabídka je široká a snad v každém městě naleznete alespoň jednoho výživového poradce. Důležitá je i  podpora rodiny, tak-

Více

Polovodiče – základní pojmy, vlastnosti. Přechody, diody, jejich

Polovodiče – základní pojmy, vlastnosti. Přechody, diody, jejich číslo a výstupem je také komplexní číslo. Zaměříme-li se v komplexní rovině vstupního parametru p pouze na oblast σ = 0, získáme tím hodnoty Fourierovy transformace (to je komplexní funkce reálné p...

Více

multiagentní systémy nail106 - Department of Theoretical Computer

multiagentní systémy nail106 - Department of Theoretical Computer • V mnoha situacích je intencionální postoj jednodušší než alternativy. • Z hlediska informatiky je to abstrakce za účelem zvládnutí složitosti problému. • Pro mnoho informatiků je programování pro...

Více

Drug design - Racionální návrh léčiv - Biotrend

Drug design - Racionální návrh léčiv - Biotrend © Karel Berka, Václav Bazgier, 2015 © Univerzita Palackého v Olomouci, 2015 Neoprávněné užití tohoto díla je porušením autorských práv a může zakládat občanskoprávní,

Více