Zpracování řeči

Transkript

Zpracování řeči

Vı́ceznačnost a jejı́ odstraněnı́
aneb proč je strojové porozuměnı́ jazyku težké
Lexikálnı́ vı́ceznačnost
hot
horký
back
go back (přı́slovce)
kořeněný
back door (přı́d. jméno)
sexy
back up your files (sloveso)
kradený
the back of the room (podst. jméno)
...
Syntaktická (strukturálnı́) vı́ceznačnost
I smelled a wumpus in 2,2.
• Wumpus na 2,2.
• Byl jsem na 2,2 a cı́til wumpuse.
Sémantická vı́ceznačnost
Obě předchozı́, navı́c:
A coast road
• cesta k pobřežı́
• pobřežnı́ cesta
lexikálně i syntakticky je ”A coast road” jednoznačné.
Vı́ceznačnost odkazů
it
Pragmatická vı́ceznačnost
I will meet you next Friday.
• zı́tra
• za týden a den – myslı́ Angličan.
Posluchač a mluvčı́ majı́ jiné představy aktuálnı́ situace.
Vágnost
Venku je horko.
• 20 stupňů
• 30 stupňů?
Nejednoznačnost typu řeči
Nevı́te, kolik je hodin?
• Vı́m.
• Půl jedné.
Řešenı́ nejednoznačnosti
Ideálně
• Řečnı́k mı́nı́ výrok P a formuluje ho tak, že řeč může mı́t vı́ce
interpretacı́, ale za daného kontextu je nejlepšı́ způsob
interpretace P.
• Posluchač to zjistı́ a proto řeč interpretuje jako P.
Tj. k řešenı́ nejednoznačnosti pomůže model světa, řečnı́ka,
jazykový či akustický model.
Chris saw the Grand Canyon flying to New York.
Pomůže model světa.
Howard does not keep his money in the bank. (břeh či banka?)
Pomůže model řečnı́ka.
Lee asked Kim to tell Toby to leave on Saturday.
Co se stalo/má stát v sobotu? Nenı́–li jiná evidence, přiřadı́me
nejbližšı́ před, tj. leave.
Lee positioned the dress on the rack.
Kim wanted the dress on the rack.
Syntaktická vı́ceznačnost vyřešená lexikálnı́ evidencı́ (subkategoriı́
slovesa).
Nejednoznačnost řešená sémantickou
evidencı́
I ate spagetti with meatballs.
I ate spagetti with salad.
I ate spagetti with fork.
I ate spagetti with a friend.
Řešenı́ nejednoznačnosti
Ideálně
• Řečnı́k mı́nı́ výrok P a formuluje ho tak, že řeč může mı́t vı́ce
interpretacı́, ale za daného kontextu je nejlepšı́ způsob
interpretace P.
• Posluchač to zjistı́ a proto řeč interpretuje jako P.
... a jsme zase u pravděpodobnosti ...
Zpracovánı́ řeči
• Nejmenšı́ jednotka: foném
• Lišı́ se podle způsobu a mı́sta tvořenı́, artikulujı́cı́ho orgánu nebo
sluchového dojmu (fonologie). Celkem ve svět. jazycı́ch jen cca.
12 diferenciálnı́ch přı́znaků.
• Počet fonémů v jazycı́ch je 12 až 60. (ČJ 36, AJ 42, RJ 40).
• Fonémy se spojujı́ co posloupnostı́. Ty lze dělit na slabiky,
slabiky tvořı́ slova. Slovanské jazyky cca. 2500–3000 slabik,
45000 – 50000 slov.
• Člověk při hovoru vyslovı́ 80–130 slov za minutu, tj. cca 10
fonémů za sekundu. Při informaci 3–4 bity na foném je přenos
informace 30–40 bit/s; člověk je schopen zpracovat informaci o
rychlosti maximálně 50 bit/s.
• V češtině je fonologicky funkčnı́ symbol pauza pro hranici mezi
slovy, v angličtině ne.
Zpracovánı́ signálu
• Snı́máme v určité frekvenci (sampling) 8–20 kHz
• kvantovánı́ – diskretizujeme velikost signálu 12–14 bitů
• přı́znaky (features) – např. krátkodobá energie či častěji
krátkodobá intenzita, krátkodobá funkce střednı́ho poštu
průchodů signálu nulou, autokorelačnı́ funkce, a Fourierovy
transformace pro frekvenčnı́ oblast.
• vektorová kvantizace – hodně kombinacı́ přı́znaků reprezentuji
jednı́m kódem, tı́m zmenšı́m prostor, ve kterém pak budu
pracovat (např. 256 kódů).
Pravděpodobnostnı́ přı́stup
• Skryté Markovské procesy
• základ – Vintsyuk – každé slovo vlastnı́ model, 40–50 stavů,
odpovı́dajı́cı́ch pruměrnému počtu mikrosegmentů ve slově
• těžko by se trénovalo obecně, proto se učı́ modely pro jednotlivé
fonémy; z modelů pro fonémy složı́m slovo (transkripce slova
pro češtinu celkem snadná)
Viterbiův algoritmus
Skrytý Markovský model P( S1 ), P( St+1 | St ), P(Ot | St )
S má stavy i = 1, . . . , N
hledám maximálně pravděpodobný průchod.
1. Inicializace: δ1 (i ) ← P( S1 = i ) · P(O1 = o1 | S1 = i )
ψ1 = 0
2. Rekurze v čase t = 2, . . . , T a nový stav j = 1, . . . , N
δt ( j) ← maxi δt−1 (i ) · P( St+1 = j| St = i ) · P(Ot = ot | St = j)
ψt = argmaxi [δt−1 (i ) · P( St+1 = j| St = i )]
3. Výsledná pravděpodobnost a index maximálně
pravděpodobného stavu v čase T jsou:
P∗ = maxi [δ T (i )]
i∗ = argmaxi [δ T (i )] O nejpravděpodobnějšı́ průchod zpětně
vystopujeme z ψ, it∗ = ψt+1 (it∗+1 )
Pozn: nejpravděpodobnějšı́ průchod nenı́ to samé co
nejpravděpodobnějšı́ posloupnost fonémů.
Učenı́ modelu
• Baum-Welchův algoritmus
• v zásadě EM algoritmus, klasická metoda učenı́ modelu se
skrytými parametry ve Strojovém učenı́.
Jazykový model – bigramy, trigramy
• Z velké databáze textů naučı́m pravděpodobnost každého slova
dáno dvě předchozı́ slova.
• Bigram odhalı́ J ášli Ihas, trigram i trochu vı́ce, vı́ce–gram už má
přı́liš mnoho parametrů, takže je často roven (blı́zko) nule a
špatně se učı́ a s nı́m pracuje.
Složı́me to dohromady
• Pro všechny možné posloupnosti slov umı́me provést
transkripci do fonémů; složit modely fonémů do modelů slov a
modely slov spojit jazykovým modelem do modelu věty.
• Vybereme ”nejpravděpodobnějšı́” větu – aspoň skoro.
• např. A∗ dekodér – bigramový model, cena hrany
−logP(wi |wi−1 ), musı́me přidat heuristiku odhadu do konce a
prohledávat.
Strojový překlad
Na různých úrovnı́ch:
• hloubková struktura
• sémantická úroveň
• syntaktická úroveň
• slova za slova
Čı́m vyššı́, tı́m lepšı́, ale obtı́žnějšı́ překlad.
Statistický strojový překlad
• Model jazyka: P(wordi |wordi−1 )
• Fertility model: P( Fertility = n|word F ) – česká podstatná jména
budou mı́t fertility 2, prvnı́ se přetvořı́ na člen, druhý se přeložı́
• Překlad slow: P(word E |word F )
• Offset model: P(O f f set = o| pos, len E , len F ) – jazyky majı́ různý
slovosled, např. francouzština dává přı́davná jména ZA
podstatná, němčina zas hodı́ přı́čestı́ sloves na konec atd.
Zkoušky – v 9:00 v S303
• čt 2.5., pá 10.5., 24.5., (1.6.)
• jeden termı́n v zářı́, prozatı́mně 5.9., termı́n proto, abych měla
sbı́rku zájemců, komu poslat e–mail.
Témata
co bylo předneseno, zejména:
• bayesovské sı́tě
• influenčnı́ diagramy
• markovské rozhodovacı́ procesy
• zpětnovazebné učenı́
• prohledávánı́ stavového prostoru
• (doplňkově PAC–learning, učenı́ bayesovských sı́tı́)
• zpracovánı́ obrazu, detekce hran, analýza scény pro zobecněné
hranoly
• zpracovánı́ jazyka (BKG plus sémantika), zpracovánı́ řeči (skrytý
Markovský model)

Zpracování řeči

Transkript

Podobné dokumenty

Markovské rozhodovací procesy, zpětnovazebné učení

Jak správně na hubnutí

Polovodiče – základní pojmy, vlastnosti. Přechody, diody, jejich

multiagentní systémy nail106 - Department of Theoretical Computer

Drug design - Racionální návrh léčiv - Biotrend

Program konference

prezentace

KYBERNETIKA A UMEL´A INTELIGENCE 2. Entropie a Informace

Umělá inteligence I Roman Barták, KTIML

Agentura - Společnost B2B MEDIA

Matematika 1 - wiki skripta fjfi

4IZ631 INTELIGENTNÍ SYSTE´ MY

4IZ410 TEORIE INFORMACE A INFERENCE

Základní tón, kódování a dekódování reci

Dokazování v predikátové logice

Problémy recyklován´ı systému automatického pˇrekladu

ˇsachy, backgammon, poker

velké

Stanovení vlastností elektroakustických soustav pomocí

Chemoinformatická úloha 3

Měření zpoždění mezi signály EEG