disertační práce opravená verze - Department of Cybernetics, UWB

Transkript

FAKULTA APLIKOVANÝCH VĚD
DISERTAČNÍ PRÁCE
OPRAVENÁ VERZE
PLZEŇ, 2006
Ing. Petr Císař
Fakulta aplikovaných věd
DISERTAČNÍ PRÁCE
k získání akademického titulu doktor
v oboru
kybernetika
Ing. Petr Císař
Využití metod odezírání ze rtů pro podporu
rozpoznávání řeči
Školitel: Dr. Ing. Vlasta Radová
Datum státní doktorské zkoušky: 2005
Datum odevzdání práce: 2006
V Plzni, 2006
Poděkování
Děkuji panu Ing. Miloši Železnému PhD. za jeho vedení a odborné konzultace. Za odborné konzultace
také děkuji Ing. Zdeňku Krňoulovi. Dále bych chtěl poděkovat své rodině a všem mým blízkým za
podporu a porozumění.
-i-
Prohlášení
Disertační práci jsem vypracoval samostatně pouze s použitím literatury a konzultací. Tato práce
vznikla v rámci mé činnosti na projektu Grantové agentury akademie věd ČR s názvem “Multimodální
zpracování lidské znakové a mluvené řeči počítačem pro komunikaci člověk-stroj“ číslo
1ET101470416.
- ii -
Anotace
Využití metod odezírání ze rtů pro podporu rozpoznávání řeči
Disertační práce se zabývá problematikou vizuálního a audiovizuálního rozpoznávání řeči. Protože
je tato oblast velmi široká je práce zaměřena především na návrh nové vizuální parametrizace a její
otestování na rozsáhlé audiovizuální databázi. Motivací k řešení této části problematiky je
nedostatečné probádání popisu vizuální složky řeči. Proto je cílem práce prostudovat tvorbu vizuální
řeči a metody odezírání ze rtů člověkem a využít těchto poznatků k vytvoření nové parametrizace
vizuální složky řeči.
Aby mohl být splněn hlavní cíl disertace musely být realizovány jednotlivé pod úkoly nutné pro
vytvoření celého systému vizuálního a audiovizuálního rozpoznávání řeči. Nejprve byly tedy
nastudovány možnosti parametrizace vizuální řeči a postupy vedoucí k získání těchto parametrizací a
vybrány nejlepší metody, které jsou popsány v kapitole 2. Na základě těchto poznatků byla nahrána
audiovizuální databáze pro český jazyk, která slouží ke studiu vizuální složky a experimentům pro
ověření úspěšnosti navržené parametrizace. Databáze a její zpracování je popsáno v kapitole 3.2.
Po získání databáze vhodné pro jednoduché získání obrazových i tvarových parametrizací, byl
prostudován princip tvorby vizuální řeči a metod odezírání ze rtů. Informace byly čerpány nejen
z dostupné literatury, ale i z osobních konzultací se specialistkami v daných oborech. Na základě
studia bylo vybráno několik především tvarově orientovaných příznaků , které by měli zachycovat
odlišnosti mezi jednotlivými základními řečovými jednotkami a měli by být nezávislé na řečníkovi.
Tyto příznaky byly dále upraveny tak, aby bylo možné je získat nějakou automatickou metodou.
Parametrizace popisuje jak tvar rtů (vnitřní i vnější kontura) tak okolí a především vnitřek úst. Celý
proces návrhu vizuálních příznaků je popsán v kapitole 3.1.
Pro získání navržené parametrizace muselo být vytvořeno několik metod zpracování vizuální
složky řeči. Jako první byla vytvořena metoda pro nalezení vnitřní a vnější kontury rtů, založená na
metodě ACM (aktivní tvarový model), která byla kombinována s metodou automatického prahování.
Kombinace těchto dvou metod zajistily získání popisu tvaru vnitřní a vnější kontury rtů pomocí 10
příznaků. Druhá z metod zpracování vizuální složky měla za úkol určit pozici objektů vnitřku úst (
jazyk, horní zuby, dolní zuby a mezera). Kvalitní určení pozic těchto objektů je velmi důležité pro
odlišení souhlásek. Metoda byla založena na barevné analýze úzkého proužku uprostřed rtů.
Výsledkem metody je procentní zastoupení jednotlivých objektů vnitřku úst. Aby bylo možné
realizovat obě metody musel být nejprve vizuální záznam předzpracován metodou nalezení pozice
oblasti zájmu v obraze (oblast kolem úst). Díky vlastnostem scény audiovizuální databáze mohl být
použit jednoduchý postup nalezení hlavy pomocí metody eliminace pozadí a následné nalezení pozic
očí a úst.Pomocí výstupů popsaných metod je možné získat všechny navržené vizuální příznaky.
Jednotlivé metody jsou popsány v kapitole 3.3. V rámci této kapitoly je popsán postup získání
základních řečových jednotek pro vizuální složku řeči tzv. vizémů.
V poslední části práce jsou popsány provedené experimenty na třech různých audiovizuálních
databázích. V těchto experimentech je porovnána nově navržená parametrizace s běžně používanou
obrazově orientovanou parametrizací. Přínos navržené parametrizace je ověřena na české i na anglické
databází pro úlohu vizuálního a audiovizuálního rozpoznávání. Z výsledků experimentů je zřejmé, že
navržená parametrizace zlepšuje úspěšnost rozpoznávání řeči oproti běžně používané parametrizaci.
Přednost navržené parametrizace je především v popisu vnitřku úst a tvaru vnitřní a vnější kontury rtů.
V závěru je konstatováno, že cíle disertační práce byly splněny.
- iii -
Obsah:
1
2
Úvod................................................................................................................................................ 1
1.1
Vizuální a audiovizuální rozpoznávání řeči........................................................................................... 1
1.2
Struktura audiovizuálního rozpoznávání řeči ........................................................................................ 3
1.3
Cíle disertační práce.............................................................................................................................. 5
Stav poznání................................................................................................................................... 6
2.1
Vizuální parametrizace .......................................................................................................................... 6
2.1.1 Obrazově orientovaná parametrizace................................................................................................. 6
2.1.1.1
Kosinová, Fourierova, vlnková transformace ........................................................................... 6
2.1.1.2
Analýza hlavních komponent (PCA) ........................................................................................ 7
2.1.1.3
Lineární diskriminační analýza (LDA) ..................................................................................... 7
2.1.2 Tvarově orientovaná parametrizace................................................................................................... 8
2.1.2.1
Geometrické příznaky............................................................................................................... 8
2.1.2.2
Příznaky vycházející z modelu rtů ............................................................................................ 9
2.1.3 Kombinace tvarových a obrazových.................................................................................................. 9
2.2
Metody používané pro předzpracování obrazu.................................................................................... 10
2.2.1 Headtracking a lokalizace ROI ........................................................................................................ 10
2.2.1.1
Skin-color ............................................................................................................................... 12
2.2.2 Liptracking ...................................................................................................................................... 13
2.2.2.1
Klasické metody zpracování obrazu bez využití modelu rtů .................................................. 13
2.2.2.2
Deformovatelné vzory ............................................................................................................ 13
2.2.2.3
Snakes ..................................................................................................................................... 14
2.2.2.4
Aktivní tvarový model ............................................................................................................ 15
2.2.2.5
Aktivní vzhledový model........................................................................................................ 17
2.2.2.6
3D liptracking ......................................................................................................................... 18
2.3
Následné zpracování............................................................................................................................ 19
2.4
Rozpoznávání ....................................................................................................................................... 20
2.4.1 Vizuální rozpoznávání ..................................................................................................................... 21
2.4.2 Audio-vizuální rozpoznávání........................................................................................................... 22
2.4.2.1
Kombinace příznaků ............................................................................................................... 23
2.4.2.2
Kombinace rozhodnutí............................................................................................................ 24
2.4.2.3
Nastavování vah...................................................................................................................... 27
2.4.3 Adaptace na řečníka......................................................................................................................... 27
2.5
Databáze .............................................................................................................................................. 28
2.6
Výsledky metod na různých úlohách a srovnávací výsledky parametrizací ......................................... 29
2.6.1 Vizuální ASR................................................................................................................................... 30
2.6.2 Audio-vizuální ASR ........................................................................................................................ 30
2.6.3 Experimenty na databázi IBM ViaVoice......................................................................................... 31
2.6.3.1
Popis systému ......................................................................................................................... 31
2.6.3.2
Výsledky ................................................................................................................................. 33
2.6.3.3
Adaptace na řečníka................................................................................................................ 35
2.6.4 Shrnutí ............................................................................................................................................. 35
3
Vlastní přínos............................................................................................................................... 36
3.1
Parametrizace ...................................................................................................................................... 36
3.1.1 Popis problémů stávajících parametrizací ....................................................................................... 36
3.1.1.1
Obrazově orientované parametrizace...................................................................................... 36
3.1.1.2
Tvarově orientované parametrizace ........................................................................................ 36
3.1.1.3
Kombinovaná parametrizace .................................................................................................. 37
3.1.2 Výběr tvarově orientovaných příznaků............................................................................................ 37
3.1.2.1
Tvorba řeči.............................................................................................................................. 37
3.1.2.2
Odezírání řeči.......................................................................................................................... 40
3.1.2.3
Popis vybraných příznaků....................................................................................................... 44
- iv -
3.2
Audiovizuální databáze........................................................................................................................ 47
3.2.1 Prvotní experimenty ........................................................................................................................ 47
3.2.2 Databáze pro určení vizémových skupin pro český jazyk ............................................................... 49
3.2.3 Laboratorní audiovizuální databáze................................................................................................. 50
3.3
Zpracování databáze............................................................................................................................ 52
3.3.1 Nalezení oblasti zájmu ROI............................................................................................................. 52
3.3.2 Liptracking ...................................................................................................................................... 53
3.3.3 Nalezení vnitřku úst......................................................................................................................... 61
3.3.4 Výpočet obrazových příznaků DCT ................................................................................................ 67
3.3.5 Výpočet akustických příznaků......................................................................................................... 69
3.4
4
Databáze pro určení vizémů ................................................................................................................ 69
Experimenty................................................................................................................................. 71
4.1
Experimenty na databázi XM2VTSDB ................................................................................................. 71
4.2
Experimenty na ruské databázi ............................................................................................................ 73
4.3
Experimenty na databázi UWB-05-HSCAVC ...................................................................................... 74
4.4
Zhodnocení experimentů ...................................................................................................................... 76
4.5
Možná vylepšení................................................................................................................................... 78
5
Závěr............................................................................................................................................. 80
6
Seznam publikovaných prací ..................................................................................................... 82
6.1
Publikace ve sbornících ....................................................................................................................... 82
6.2
Rigorózní práce.................................................................................................................................... 83
6.3
Diplomová práce.................................................................................................................................. 83
7
Literatura..................................................................................................................................... 84
8
Seznam zkratek ........................................................................................................................... 88
9
Přílohy .......................................................................................................................................... 89
-v-
Seznam obrázků:
Obrázek 1. Schéma audiovizuálního rozpoznávání ................................................................................ 3
Obrázek 2. Obrazové příznaky. Dva po sobě jdoucí snímky, jejich rozdílový obraz a příznaky
optického toku, přejato z [27] ......................................................................................................... 6
Obrázek 3. Geometrické příznaky. Vlevo – parametry šířka a výška rtů pro nalezenou hranici rtů.
Uprostřed – Původní hranice a její rekonstrukce při použití 1, 2, 3 a 20 Fourierových koeficientů.
Vpravo – Průběhy parametru výška rtů pro dvě různá slova (řádky) a různé řečníky (sloupce),
přejato z [68] ................................................................................................................................... 9
Obrázek 4. Headtracking použitím vzorových modelů a jejich vyhledávání v neznámém obraze,
převzato z [85]............................................................................................................................... 10
Obrázek 5. Headtracking pomocí přímého vyhledávání významných bodů. Nalezení hlavy a rtů,
použití modelu rozložení pro nalezení očí, nalezené body, převzato z [81] ................................. 11
Obrázek 6. Extrakce ROI. Nalezení významných bodů v databázi IBM Via VoiceTM pomocí [77],
odpovídající oblasti úst pro jednotlivé řečníky, převzato z [61] ................................................... 12
Obrázek 7. Vlevo – Histogram bodů kůže pro složku CR a CG, Vpravo – Výsledek nelezení hlavy
pomocí metody skin-color............................................................................................................. 12
Obrázek 8. Extrakce rtů pomocí barvy a informace o změně jasu mezi následujícími snímky. Složka I,
složka H, naprahovaná složka H, rozdílový obraz složek I, výsledný tvar nalezených rtů, převzato
z [47] ............................................................................................................................................. 13
Obrázek 9. Extrakce rtů pomocí vzorů. Model vzoru tvořený 6 body, šedotónový obraz rtů, detekce
hran v obraze pro levou stranu modelu, výsledky nalezení rtů, převzato z [80] ........................... 14
Obrázek 10. Snakes. Model řízený body definovanými uživatelem, výsledky vyhledávání, převzato z
[4] .................................................................................................................................................. 15
Obrázek 11. Extrakce rtů pomocí ASM. Rozložení bodů v trénovací množině, určení změny polohy
bodu modelu vzhledem k danému obrazu, přizpůsobení celého modelu, tvar modelu pro změnu
prvních tří parametrů vektoru b, převzato z [15]........................................................................... 16
Obrázek 12. Vlevo – Deformace středního tvaru modelu při použití jednotlivých parametrů 1- 4,
vpravo – přechod ret-kůže pro daný bod modelu, převzato z [49]................................................ 16
Obrázek 13. Extrakce hlavy řečníka pomocí AAP. Obraz trénovací množiny s označenými 122 body
modelu, výsledný model pro změnu prvních 4 parametrů vektoru c (± 3 sd), převzato z [14].... 17
Obrázek 14. Vyhledávání 3D modelu. Původní obraz, mapa objektů v chromatických barvách,
nasazení středního modelu, směry deformací modelu, výsledný model, model při natočení hlavy,
projekce modelu do roviny xy, převzato z [5]............................................................................... 19
Obrázek 15. Schéma extrakce 3 druhů příznaků následované interpolací příznaků na 100 Hz,
normalizací přes celou promluvu, získáním dynamické informace o řeči řetězením vektorů a
úpravou příznakového vektoru pomocí LDA a MLLT, převzato z [69] ...................................... 19
Obrázek 16 Strom zaměnitelností pro souhlásky a samohlásky, převzato z [61] ................................. 21
Obrázek 17. Schéma kombinace informací pomocí kombinací příznaků. Pospojování příznaků - AV
pospojování, Hierarchická lineární diskriminační extrakce – AV HiLDA, změna audio příznaků
AV enhancement, převzato z [69]................................................................................................. 23
Obrázek 18. Schéma kombinace rozhodnutí, převzato z ...................................................................... 25
Obrázek 19. Model HMM pro střední integraci. Vlevo – více proudové HMM synchronní pro
jednotlivé třídy a asynchronní pro jednotlivé stavy. Vpravo – odpovídající smíšené HMM,
převzato z ...................................................................................................................................... 26
Obrázek 20. Příklady audio-vizuálních databází. Zleva doprava – XM2VTSDB, Huang (infračervená
kamera), CUAVE, ViaVoiceTM, převzato z [57],[32],[62],[69].................................................... 28
Obrázek 21. Schéma systému audio-vizuálního rozpoznávání použitého pro experimenty s databází
ViaVoiceTM, převzato z [69].......................................................................................................... 32
Obrázek 22. Výsledky rozpoznávání pomocí různých druhů kombinace informace pro úlohy
zašuměných dat pro LVCSR a Číslice. Metody AV-enh, AV pospoj a AV-HiLDA představují
kombinaci příznaků a metoda AV-MS-joint kombinaci rozhodnutí. Ukazatelem úspěšnosti metod
je SNR gain, který je vztažen vždy k hodnotě WER pro audio podmínky 10 db. Všechny metody
využití audio-vizuální kombinace vylepšují rozpoznávání při zašuměném audio signálu, převzato
z [65] ............................................................................................................................................. 34
Obrázek 23. Řečový trakt, převzato z [41]............................................................................................ 38
- vi -
Obrázek 24. Změna tvaru rtů pří výslovnosti samohlásek od zaostřených po zaokrouhlené, převzato z
[41] ................................................................................................................................................ 39
Obrázek 25. Zobrazení překážky výdechového proudu v průběhu výslovnosti vytvořené jazykem.
Černá barva představuje místa dotyku jazyka a horního patra, převzato z [41]............................ 39
Obrázek 26. Postavení jazyka při tvorbě samohlásek, převzato z [41] ................................................. 40
Obrázek 27. Vybrané příznaky popisující vizuální složku řeči............................................................ 46
Obrázek 28. Ukázka vizuální databáze pro rozpoznávání izolovaných slov ........................................ 47
Obrázek 29. Ukázka audiovizuální databáze promluv řidiče automobilu............................................. 48
Obrázek 30. Vlevo – Stereo pohled na řečníka s nalepenými body odpovídajícími bodům modelu rtů,
nalezené pozice bodů v obraze, rekonstruované 3D souřadnice bodů, vpravo – výsledky nalezení
vnější a vnitřní kontury rtů pomocí 3D modelu a její projekce do bočního pohledu .................... 49
Obrázek 31. Vlevo – schéma snímacího zařízení, vpravo – dva pohledy na řečníka složené do jednoho
snímku, na obličeji jsou nalepeny reflexní body........................................................................... 50
Obrázek 32. Ukázka audiovizuální databáze UWB-05-HSCAVC ....................................................... 50
Obrázek 33. Rozložení celého snímku na sudý a lichý půlsnímek, na půlsnímcích vpravo je znatelný
pohyb rtů během sejmutí půlsnímků a to se projevuje na složeném snímku vlevo....................... 51
Obrázek 34. Vlevo – ukázka nahrávání AV databáze, vpravo nahoře – vzory očí, vpravo dole – ručně
vybrané body kůže pro stanovení barvy kůže ............................................................................... 51
Obrázek 35. Nalezení oblasti zájmu, 1 – výběr vzoru pro pozadí, 2 – naprahovaný objekt hlavy, 3 –
ořez podle šířky středu objektu, 4 – nalezení očí pomocí vzorů, výběr oblasti výskytu úst a jejich
nalezení ......................................................................................................................................... 53
Obrázek 36. Ukázka ROI, 1 – velmi malý horní ret, 2 – přesvětlení některých částí rtů, 3 – podobná
barva horního rtu a kůže, 4 – vousy .............................................................................................. 54
Obrázek 37. Ukázka histogramů a zobrazení ROI pro různé reprezentace obrazu (R, G, B, Hue,
chromatická červená, chromatická zelená, šedotónová, R/G)....................................................... 55
Obrázek 38. Ukázka nalezení vnitřní a vnější kontury rtů: 1 – ROI, 2 – naprahovaný obraz, 3 – vybrání
největšího objektu, 4 – přidání objektů pomocí tvaru rtů z předchozího kroku, 5 – rozšířený
konvexní obal vnější kontury rtů, 6 – obraz upravený pomocí vyprahování vnitřku úst a
odstranění děr pod a nad hranicí vnitřku úst, 7 – získání vnitřku úst obarvením okolí úst, 8 –
hranice vnitřku rtů, 9 –konvexní obal vnitřku úst, 10 – výsledný hrubý tvar rtů, 11 – výsledný tvar
rtů upravený pomocí modelu......................................................................................................... 56
Obrázek 39. Nalezení prahu JV a hranic vnitřku úst, 1 – výběr části rtů pro nalezení hranic vnitřku
(žlutá čára = hranice vnitřku), 2 – průběh součtů šedi pro jednotlivé řádky výběru, červená =
nalezená maxima, modrá = nalezená minima, šedivá = pozice hranic vnitřku úst........................ 57
Obrázek 40. Ukázka rozmístění bodů modelu rtů, 1 – rozmístění bodů na vzorovém tvaru rtů,
2 – umístění bodů vnitřní kontury nezávislé na vnější kontuře, 3 – umístění bodů vnitřní kontury
závislé na vnější kontuře ............................................................................................................... 58
Obrázek 41. Ukázka vzorových tvarů rtů obsažených v trénovací množině. Vnější kontura je označena
bíle a vnitřní černě......................................................................................................................... 59
Obrázek 42. Ukázka deformace tvaru rtů při změně jednotlivých parametrů řídícího vektoru. ........... 60
Obrázek 43. Ukázka opravy tvaru rtů pomocí modelu, černo – bílý obraz – binární obraz nalezených
rtů upravený pomocí konvexního obalu, barevný obraz – výsledný tvar trů po použití modelu rtů
....................................................................................................................................................... 61
Obrázek 44. Nalezení objektů vnitřku úst: 1 – výběr úzkého proužku vnitřku úst, 2 – průběh
šedotónových hodnot vybraného proužku s nalezenými extrémy, 3 – nalezené extrémy zanesené
do obrazu (zelený křížek = odhad pozice dolních zubů, červený křížek = odhad pozice horních
zubů, bílý křížek = nový odhad pozice horních zubů po jejich nalezení), 4 – binární obraz rtů
z modelu, 5 – naprahovaný obraz jazyka a mezery (bílá = jazyk, šedivá = mezera), výběr oblastí
pro dohledání jazyka (červená) a mezery (žlutá), 6 – nalezené středy a rozměry objektů (bílá =
horní zuby, zelená = jazyk, modrá = dolní zuby).......................................................................... 62
Obrázek 45. Nalezení středu úst jako bodu uprostřed vzdálenosti středů horní a dolní vnitřní kontury.
....................................................................................................................................................... 63
Obrázek 46. Ukázka zpracování ROI pomocí DCT transformace, 1 – původní ROI, 2 – ROI zmenšený
na velikost 64*64 bodů v šedotónové reprezentaci, 3 – ROI po zpětné Kosinové transformaci (15
DCT) ............................................................................................................................................. 68
- vii -
Obrázek 47. Ukázka zpracování vnitřku úst pomocí DCT transformace, 1 – původní ROI, 2 – vybraná
oblast vnitřku úst, 3 – normalizace na velikost 64*64 bodů v šedotónové reprezentaci, 4 – obraz
vnitřku po zpětné Kosinové transformaci (4 DCT)....................................................................... 69
Obrázek 48. Vzdálenost tvarů reprezentujících fonémy vykreslená pomocí dendrogramu.................. 69
Obrázek 49 Ukázka databáze XM2VTSDB, 1 – původní videozáznam, 2 – nalezení očí a středu úst, 3
– nalezení vnitřní a vnější kontury rtů........................................................................................... 72
Obrázek 50. Ukázka ruské databáze ..................................................................................................... 73
Obrázek 51. Ukázka nalezení vnitřní a vnější kontury rtů .................................................................... 91
Obrázek 52. Ukázka chybného nalezení vnitřní a vnější kontury rtů.................................................... 92
Obrázek 53. Ukázka nalezení objektů vnitřku úst, bílá – horní zuby, modrá – dolní zuby, zelená –
jazyk, černá – mezera .................................................................................................................... 92
Obrázek 54. Ukázka chybného nalezení objektů vnitřku úst, bílá – horní zuby, modrá – dolní zuby,
zelená – jazyk, černá – mezera...................................................................................................... 92
Obrázek 55. Ukázka zpracování databáze pro nalezení vizuálních řečových jednotek. ...................... 93
- viii -
Seznam tabulek:
Tabulka 1. Typy kombinace příznaků a jejich další možnosti .............................................................. 23
Tabulka 2. Shrnutí metod V ASR. ........................................................................................................ 30
Tabulka 3. Výsledky metod A-V ASR. Výsledky rozpoznávání jednotlivých metod jsou uvedeny ve
formátu nezašuměná data / podmínky pro zašuměná data / výsledky pro zašuměná data v daných
podmínkách. .................................................................................................................................. 31
Tabulka 4. Audio-vizuální databáze a její rozdělení na jednotlivé části. Části představují trénovací,
held-out, adaptační, testovací množiny (vždy je uveden počet promluv, délka trvání celé množiny
v hodinách, počet řečníků). Pro úlohu rozpoznávání spojité řeči s velkým slovníkem (LVCSR) a
pro úlohu rozpoznávání pospojovaných číslic (Číslice) byla pořízen normální a poškozený
záznam. Pro úlohu normální Číslice je množina Held-out a adaptační množina identická. Pro
úlohu rozpoznávání z poškozených dat byla z důvodu nedostatku použitelných dat použita
metoda adaptace modelů HMM natrénovaných pomocí dat z normální části databáze................ 32
Tabulka 5. Porovnání výsledků rozpoznávání pro různé vizuální příznaky pro úlohu LVCSR
nezávislého na řečníkovi. Výsledky rozpoznávání jsou uvedeny jako chyba rozpoznávání v %.
Pro rozpoznávání je použita modifikovaná mřížka, která byla předem získána pouze pomocí
MFCC příznaků získaných ze zašuměných audio dat (8.5 dB SNR). Pro možnost porovnání je
uvedena WER pro charakteristické mřížky (Oracle, Anti-oracle, LM nejlepší cesta založené
pouze na jazykovém modelu)........................................................................................................ 33
Tabulka 6. Výsledky audio-vizuálního rozpoznávání pro úlohu LVCSR pro různé metody kombinace
informace....................................................................................................................................... 34
Tabulka 7. Výsledky rozpoznávání pro úlohu LVCSR a Číslice pro různé metody na části databáze
ViaVoiceTM Poškozené. Výsledky jsou uvedeny v % WER pro rozpoznávání využitím audio (A),
vizuální (V) a audio vizuální informace (AV). Metody využívají modelů HMM natrénovaných
pomocí Normální části databáze a poté provedou adaptaci pomocí části Poškozené. Metody
MLLR a MAP provádí adaptaci modelů HMM, metoda Mat provádí adaptaci celého systému
ASR. .............................................................................................................................................. 35
Tabulka 8. Rozdělení hlásek z hlediska místa tvoření, převzato z [43] ................................................ 40
Tabulka 9. Příslušnost fonému k jednotlivým vizémových třídám....................................................... 70
Tabulka 10 Výsledky vizuálního a audiovizuálního rozpoznávání pro obrazově orientované
parametrizace. ............................................................................................................................... 75
Tabulka 11. Výsledky vizuálního a audiovizuálního rozpoznávání pro mnou navržené parametrizace
kombinující tvarově a obrazově orientované příznaky. ................................................................ 76
Tabulka 12. Výsledky vizuálního rozpoznávání s použitím vizémů a audiovizuálního rozpoznávání při
zašuměném akustickém řečovém signálu (0dB). .......................................................................... 76
Tabulka 13. Popis uplatnění zubů, jazyka a tvaru rtů při tvorbě jednotlivých vizémů, 0 = objekt není
přítomen ........................................................................................................................................ 90
Tabulka 14. Hodnoty frekvencí u a v pro vybrané DCT příznaky získané z trénovací množiny pro
popis ROI. ..................................................................................................................................... 90
Tabulka 15. Hodnoty frekvencí u a v pro vybrané DCT příznaky získané z trénovací množiny pro
popis vnitřku úst............................................................................................................................ 90
- ix -
Úvod
1
Úvod
1.1
Vizuální a audiovizuální rozpoznávání řeči
S rozvojem výpočetní techniky a počítačových algoritmů jsme dospěli do bodu v němž bylo nutné
začít řešit otázky komunikace mezi strojem a jeho uživatelem, tedy člověkem. Jednou z oblastí
komunikace stroj a člověk se stalo automatické rozpoznávání řeči (angl. automatic speech recognition,
ASR). Úloha ASR je řešena již od šedesátých let minulého století až do dnešních dnů. Během těchto
let došlo k posunu od rozpoznávání řeči na úlohách izolovaných slov s jedním řečníkem přes
rozpoznávání spojité řeči s malým a středním slovníkem až po úlohy automatického rozpoznávání řeči
s velkým slovníkem (deseti tisíce slov) nezávislé na řečníkovy (angl. large vocobulary continuous
speech recognition, LVCSR). Nejlepší metody ASR dosahují v současnosti velmi vysokých úspěšností
rozpoznávání. Je však třeba podotknout, že takto vysoká úspěšnost rozpoznávání je často podmíněna
dodržením omezujících podmínek pro danou úlohu. Mezi nejčastější omezující podmínky systémů
ASR a tím i slabiny těchto metod patří závislost na kanálu, prostředí a typu řeči (rozdíly mezi
řečníky). Vlivem prostředí je myšlena úroveň šumu, který degraduje řečový akustický signál. Bylo
navrženo mnoho postupů pro eliminaci vlivu kanálu, pozadí a řečníka jako např. filtrace akustického
signálu, použití vybraných frekvenčních pásem či kombinace rozhodnutí více klasifikátorů pracujících
s odlišnými parametrizacemi. Všechny tyto metody však pracovaly se stále stejným akustickým
signálem a proto je jejich využití omezené. Jako další možnost vylepšení výsledků ASR především
v prostředí zatíženém šumem se ukázalo využití vizuální složky řeči.
Vizuální řečová informace je tvořena viditelnou částí artikulačních orgánů člověka. Mezi tyto
orgány patří především rty, tváře, částečně zuby a jazyk a zprostředkovaně i hlasivky (pohyb hlasivek
je viditelný na krku pohybem ohryzku). Do vizuální složky je však nutné zahrnout i mimiku obličeje,
pohyb hlavy a celého těla řečníka (tato část vizuální informace je však více spjata s prozodií řeči než
s informací o promlouvaném textu). Vizuální složka zahrnuje informace o řečové promluvě, informace
o řečníkovi a informace o prostředí. Je obecně známo, že člověk pro komunikaci využívá nejen
akustickou , ale i vizuální složku řeči. U normálně slyšících osob se využití vizuální složky řeči
projevuje především v hlučných prostředích. U lidí s poruchou sluchu či úplně hluchých se využití
vizuální složky zdůrazňuje i v prostředích bez akustického šumu. Schopnost člověka rozpoznávat řeč
pomocí vizuální složky je nazývána odezírání ze rtů (angl. lipreading1).
Příspěvek vizuální složky řeči k porozumění řeči ověřil Sumby již v roce 1954. To, že vizuální
složka ovlivňuje výsledné porozumění promluvě , ukazuje tzv. McGurg efekt (McGurk 1976). Důkaz
je založen na předkládání odlišné vizuální složky řeči (promluva ga) a akustické složky řeči (promluva
ba) posluchači. Posluchač v tomto případě celkový vjem vyhodnotí jako promluvu da. Tím je
demonstrováno, že vizuální složka ovlivňuje porozumění řeči. Základní přínos vizuální složky pro
rozpoznávání řeči je možné rozdělit do tří oblastí. Jedná se o možnost lokalizace řečníka (pohyb rtů
řečníka), informaci o jednotlivých řečových segmentech (slova, fonémy) a informaci o poloze
viditelných částí artikulačních orgánů.
Při strojovém rozpoznávání řeči z vizuální složky je tato představována většinou videozáznamem
řečníka pomocí komerčně používané videokamery. Snímanou scénu představuje čelní pohled na
řečníka, kdy je zabírána především jeho hlava. Vizuální informace, jak již bylo zmíněno, je tvořena
pouze viditelnou částí artikulačních orgánů, a proto obsahuje méně informace o promluvě než
akustická složka řeči. Dosavadní experimenty toto tvrzení potvrzují, neboť rozpoznávání z vizuální
složky nedosahuje takové úspěšnosti jako rozpoznávání z akustické složky v prostředí bez šumu
[21][58][86]. Vizuální složka není ovlivněna akustickým šumem, a proto se využívá především jako
podpora akustického rozpoznávání řeči v hlučných prostředích. První ASR systém využívající obou
informací byl vyvinut v roce 1984 [63]. Další postup se soustředil na porozumění zpracování vizuální
1
označení lipreading (čtení ze rtů) není přesné, neboť pro rozpoznávání řeči je využívána celá oblast tváře
a proto je vhodnější označení speechreading
-1-
Úvod
složky řeči a kombinace vizuální a akustické řečové informace člověkem a aplikace těchto poznatků
pro ASR. Bohužel se doposud podařilo porozumět těmto procesům pouze částečně. Mezi hlavní
neznámé v úloze audiovizuálního rozpoznávání řeči patří výběr vhodné parametrizace vizuální složky
a proces kombinace akustické a vizuální informace. Poznatky z oblasti vizuálního rozpoznávání řeči je
možné aplikovat i v oblastech rozpoznávání řečníka, komprese řečového signálu či rekonstrukce
akustického řečového signálu.
Hlavní motivací této práce je, že stávající metody vizuálního rozpoznávání řeči většinou využívají
tzv. obrazovou parametrizaci vizuální složky. Tato parametrizace nejčastěji popisuje obrazové body
určité oblasti zájmu (angl. region of interest, ROI) obsahující ústa a okolí pomocí malé množiny
příznaků získaných některou z metod komprese obrazu či redukce dimenze příznakového vektoru.
Metody nepracují s poznatky z oblasti tvorby řeči či s poznatky expertů na odezírání řeči. U tohoto
druhu parametrizace není zřejmé s jakou částí vizuální řečové informace pracuje, neboť z vypočtené
parametrizace toto není možné určit. Hluší lidé přitom využívají odezírání ze rtů jako jediný
prostředek pro rozpoznání řeči a jejich dovednost odezírat je založena právě na znalosti procesu tvorby
řeči z pohledu vizuální složky. To zahrnuje především znalost tvarů rtů, postavení zubů a jazyka či
pohyb brady pro danou promluvu. Další motivací je, že systémy vizuálního rozpoznávání řeči jsou
vyvíjeny především pro anglický jazyk. Audiovizuálním rozpoznáváním češtiny se v České republice
zabývá pouze katedra Kybernetiky fakulty aplikovaných věd na Západočeské univerzitě v Plzni a
pracoviště v Liberci. Cílem disertační práce je proto prostudovat zákonitosti tvorby řeči z hlediska
vizuální složky řeči a metody lidského odezírání řeči. Pomocí těchto znalostí navrhnout novou
parametrizaci vizuální složky řeči a experimentálně vyzkoušet přínos této parametrizace na úlohách
vizuálního a audiovizuálního rozpoznávání řeči.
Disertační práci jsem rozdělil do pěti základních kapitol: Úvod, Stav poznání, Vlastní přínos,
Experimenty a Závěr. V kapitole Úvod je čtenář seznámen s problematikou audiovizuálního
rozpoznávání a cíli disertační práce. Část Stav poznání přibližuje metody využívané pro audiovizuální
rozpoznávání a uvádí přehled používaných databází a výsledků dosažených v posledních 10 letech
výzkumu ve světě. Kapitola Vlastní přínos popisuje mnou navržené či použité metody pro nalezení
hlavy řečníka, nalezení vnitřní a vnější kontury rtů a analýzu vnitřku úst, dále kapitola popisuje
poznatky získané studiem tvorby vizuální řeči a metod odezírání. Nejdůležitější částí je představení
vlastní parametrizace vizuální složky řeči založené především na tvarovém popisu. Kapitola s názvem
Experimenty obsahuje popis a výsledky jednotlivých úloh vizuálního a audiovizuálního rozpoznávání
porovnávající moji parametrizaci s obvykle používanými parametrizacemi pro různé podmínky.
V poslední kapitole Závěr jsou shrnuty hlavní výsledky disertační práce. Tyto výsledky jsou
konfrontovány s definovanými předpoklady a je zde proveden rozbor dalších možných vylepšení
celého systému audiovizuálního rozpoznávání.
-2-
Úvod
1.2
Struktura audiovizuálního rozpoznávání řeči
Obrázek 1. Schéma audiovizuálního rozpoznávání
Celý proces audiovizuálního rozpoznávání řeči lze rozdělit na 3 základní časti: výpočet akustických
příznaků , výpočet vizuálních příznaků a kombinace akustické a vizuální informace plus proces
rozpoznávání . Schéma AV rozpoznávání řeči je znázorněno na obrázku 1. Výpočet akustických
a vizuálních příznaků probíhá odděleně, jestliže tedy nechceme provádět AV rozpoznávání, ale pouze
rozpoznávání řeči z vizuální složky řeči, pak stačí ignorovat akustické příznaky a k rozpoznávání
použít pouze vizuální a naopak.
Audiovizuální rozpoznávání využívá k výpočtu akustických příznaků poznatků z oblasti
rozpoznávání řeči z akustické složky. Tyto postupy jsou osvědčené a je možné je pouze přejmout,
neboť výpočet akustických příznaků probíhá odděleně od výpočtu vizuálních příznaků. Blok výpočet
akustických příznaků může obsahovat některé další pod bloky jako je například potlačení šumu či
kanálu. Akustické příznaky je však možné vypočítat i bez těchto předzpracování. Nejčastěji
používaným typem akustických příznaků jsou PLP nebo MFCC koeficienty. Výstupem tohoto bloku
je příznakový vektor popisující akustický řečový signál.
Vstupem bloku výpočet vizuálních příznaků je videozáznam promluvy řečníka. Obvykle tento
záznam obsahuje celou hlavu řečníka z čelního pohledu. Takovýto pohled na řečníka je nejvíce
používaný [54][31][47][76]. Vizuální příznaky se snaží popsat viditelnou část artikulačních orgánů
během promluvy a čelní pohled obsahující oblast úst a jejich okolí (tváře, brada, krk) toto umožňuje.
Existují i jiné možnosti pohledu na řečníka. Například v článku [93] je použit boční pohled. Abychom
mohli provést samotný výpočet vizuálních příznaků potřebujeme v každém snímku videozáznamu
nalézt oblast zájmu, která již většinou obsahuje artikulační orgány (nejčastěji rty a jejich nejbližší
okolí) [45][18][88]. Krok nalezení ROI je založen na metodě sledování hlavy člověka ve
videozáznamu (angl. headtracking). Základní metody headtrackingu jsou popsány v kapitole 2.2.1.
Nalezení ROI je velice složitou úlohou vezmeme-li v úvahu že hlava řečníka se pohybuje v 3D
prostoru, kde se jas a pozadí může měnit velmi rychle. Krok nalezení ROI lze vyřešit i vhodným
výběrem pohledu na řečníka, který již obsahuje pouze ROI. V článku [33] je využita kamera upevněná
na hlavě řečníka, která snímá pouze oblast úst. Toto zjednodušení zpracování ovšem přináší omezení
uživatele takového systému rozpoznávání řeči. Výstupem metody headtracking je tedy nalezená oblast
ROI. Další zpracování vizuálního signálu již závisí na typu vizuálních příznaků. Vizuální příznaky je
možné rozdělit do tří základních skupin. Jsou to obrazově orientované příznaky [76][89][27][48]
(angl. pixel based features), tvarově orientované příznaky [28][18][36] (angl. shape based features)
a kombinace obou typů příznaků [21].
-3-
Úvod
Obrazově orientované příznaky popisují jas popřípadě barvu každého obrazového bodu v ROI.
Získání těchto příznaků je výpočetně nenáročné neboť nevyžaduje žádné předzpracování ROI. Takto
získaný příznakový vektor má ovšem většinou velmi velkou dimenzi a není vhodný pro klasifikaci.
Jestliže rozlišení ROI bude 80*60 obrazových bodů pak příznakový vektor má dimenzi 4800. Proto
dalším krokem při výpočtu obrazově orientovaných příznaků je snížení dimenze příznakového
vektoru. Nejčastěji používanými metodami snížení dimenze jsou analýza hlavních komponent (angl.
principal component analysis, PCA), diskrétní Kosinova transformace (angl. discrete cosine
transform, DCT) či lineární diskriminační analýza (angl. linear discriminant analysis, LDA). Použitím
některé z těchto metod dojde ke snížení dimenze příznakového vektoru a odstranění určité části
informace. Bohužel však není možné interpretovat takto získané příznaky tak, abychom mohli přesně
říci jakou část vizuální složky řeči příznaky popisují. Nemůžeme například říci, že po redukci dimenze
příznakový vektor popisuje pouze pohyb levého koutku.
Tvarově orientované příznaky se snaží popsat geometrické vlastnosti artikulačních orgánů jako jsou
například šířka či výška rtů, okrouhlost rtů či pohyb tváří řečníka. K jejich výpočtu je většinou
zapotřebí dalšího předzpracování ROI. Tímto předzpracováním je nalezení vnitřní, vnější nebo obou
kontur rtů (angl. liptracking). Liptracking je opět velmi náročná úloha, která musí řešit problémy jako
je změna osvětlení, variabilita tvarů a barvy rtů pro různé řečníky či změna tvaru rtů během promluvy.
Existuje několik základních typů metod nalezení kontury rtů jako jsou deformovatelné vzory (angl.
deformable templates) 2.2.2.2, Snakes 2.2.2.3, active shape model ASM 2.2.2.4, či active appearance
model AAM 2.2.2.5. Výhoda tvarově orientovaných příznaků je možnost určit co daný příznak
popisuje a určit jakou část artikulačních orgánů postihuje.
Poslední typ příznaků, kombinace obou předchozích přístupů, se snaží využít výhod obou metod.
Vizuální informaci obtížně popsatelnou pomocí tvarově orientované parametrizace popisuje obrazově
orientovanou např. pohyb tváří.
Výstupem bloku extrakce vizuálních příznaků je tedy vizuální příznakový vektor.
Vstupem posledního bloku kombinace akustického a vizuálního popisu a rozpoznávání je akustický
a vizuální příznakový vektor. Abychom mohli pro rozpoznání řeči využít obou složek řeči (akustické
a vizuální) musí tento blok provést jejich kombinaci. Existují dva základní přístupy kombinace těchto
dvou složek řeči. Metody se liší v místě sloučení řečové informace (před klasifikací, po klasifikaci).
První metoda nazývaná kombinace příznaků (angl. feature fusion, FF) 2.4.2.1. Metoda nejprve
provede spojení akustického a vizuálního příznakového vektoru. Tento pospojovaný audiovizuální
příznakový vektor je poté použit pro klasifikaci jejímž výstupem je rozpoznaný text. Druhá metoda
nejprve provede dvě oddělené klasifikace použitím akustického a vizuálního příznakového vektoru.
Kombinace řečové informace probíhá až na úrovni výstupů klasifikátorů, tak že se kombinují jejich
rozhodnutí. Tato metoda se nazývá kombinace rozhodnutí (angl. decision fusion, DF) 2.4.2.2. Pro
klasifikaci se nečastěji používají přístupy používané v rozpoznávání řeči z akustické složky jako jsou
HMM či neuronové sítě.
Experimenty bylo prokázáno že využití vizuální složky přináší do rozpoznávání řeči novou na
akustickém šumu nezávislou informaci o řeči. Největšího přínosu vizuální složky řeči pro
rozpoznávání bylo také dosaženo pro úlohy kde je akustický řečový signál degradován šumem. Toto
zlepšení se pohybuje kolem 43% WER [61] pro úlohu rozpoznávání spojité řeči kde je odstup šum/řeč
1.5 dB. Výsledky samotného vizuálního ASR (89.2% WER) však zůstávají pozadu za výsledky
akustického ASR (13.65% WER) pro stejnou úlohu bez šumu (rozpoznávání spojité řeči). Dosavadní
výzkum v oblasti vizuálního ASR ukazuje, že stěžejní body jsou vytvoření vhodné parametrizace
a metody kombinace vizuální a akustické složky řeči. Tyto body patří mezi dovednosti člověka, které
nebyly doposud dostatečně objasněny a proto lze z těchto poznatků čerpat jen velmi málo. Možným
zdrojem informace o využití vizuální složky řeči člověkem jsou zkušenosti sluchově postižených lidí
odezírajících z úst či poznatky z oblasti logopedie.
-4-
Úvod
Oblast vizuálního ASR je zatím velmi otevřenou, neboť dosavadní výzkum probíhá většinou na
úlohách laboratorních, kde se rozpoznávání řeči omezuje na rozpoznávání izolovaných slov a jsou
dodržovány příhodné podmínky osvětlení či pohybu hlavy řečníka. Tyto omezující podmínky
souvisejí se složitostí metod headtrackingu a liptrackingu. Z tohoto pohledu se vizuální ASR jeví jako
složitější než akustické ASR. Ať se již jedná o malé množství či velké paměťové nároky
audiovizuálních databází či využívání metod zpracování obrazu pro výpočet vizuální příznaků.
Malé množství audiovizuálních databází vede k problémům srovnávání výsledků jednotlivých
přístupů vizuálních ASR. Mezi nejrozsáhlejší databáze patří audiovizuální databáze ViaVoice
obsahující promluvy spojité řeči pro 290 řečníků v rozsahu 50 hodin. Existuje několik prací
provádějících srovnání obrazově orientovaných příznaků a tvarově orientovaných příznaků a různých
druhů kombinací vizuální a akustické informace. Nejlepších výsledků rozpoznávání bylo zatím
dosaženo s obrazově orientovanou parametrizací založenou na DCT a DF kombinací [61]. Bohužel
doposud se jen velmi málo prací zabývalo vytvořením vizuální parametrizace, která by vycházela
z poznatků tvorby řeči z pohledu vizuální složky a využití poznatků expertů na odezírání. Důvodem
byla zřejmě velká složitost výpočtu takovýchto příznaků.
1.3
Cíle disertační práce
Cílem mé disertační práce je prozkoumání problematiky popisu vizuální složky řeči pro
rozpoznávání řeči se zaměřením na vytvoření a otestování nové parametrizace vizuální složky řeči
založené především na tvarovém popisu, která by dosahovala lepších výsledků v úlohách vizuálního
a audiovizuálního rozpoznávání řeči něž běžně používané parametrizace. Při tvorbě parametrizace
budu využívat poznatky získané studiem tvorby vizuální řeči a problematiky odezírání řeči. Hlavní
motivací vytvoření takovéto parametrizace je nedostatečné prozkoumání vizuálních parametrizací
založených na tvarovém popisu. Úspěšnost celé parametrizace chci ověřit pomocí srovnávacích testů
nové parametrizace a běžně používaného typu vizuální parametrizace (DCT) na úloze vizuálního
a audiovizuálního rozpoznávání spojité řeči. Mezi další cíle patří vytvoření audiovizuální databáze pro
český jazyk vhodné pro návrh a otestování vizuální parametrizace a vytvoření efektivního algoritmu
(z hlediska rychlosti a přesnosti) pro získání navržené parametrizace.
- prozkoumání tvorby vizuální řeči a metod odezírání ze rtů
- návrh vizuální parametrizace založené na získaných znalostech
- vytvoření audiovizuální databáze spojitých promluv pro český jazyk vhodné pro návrh a testování
vizuálních parametrizací
- návrh a implementace algoritmu pro nalezení vnitřní a vnější kontury rtů
- návrh a implementace algoritmu pro nalezení pozic objektů (zubů, jazyka, mezery) vnitřku úst
- vytvoření základního srovnávacího systému audiovizuálního rozpoznávání využívajícího nejčastěji
používanou parametrizaci
- porovnání mnou navržené parametrizace a srovnávacího systému na úloze rozpoznávání spojité řeči
-5-
Stav poznání
2
Stav poznání
2.1
Vizuální parametrizace
2.1.1 Obrazově orientovaná parametrizace
Získání obrazově orientovaných příznaků většinou nevyžaduje žádné další zpracování nalezené
ROI, neboť příznakový vektor získáme tak, že jednotlivé body obrazu poskládáme za sebe.
Příznakový vektor tedy obsahuje informace o jasech popřípadě barvách všech bodů ROI. Tento
příznakový vektor má však příliš velkou dimenzi pro použití v klasifikaci například pomocí HMM. Při
použití ROI o velikost 80*80 bodů bude dimenze vektoru 6400. Proto musíme provést jeho redukci
a jako příznakový vektor pro rozpoznávání použijeme vypočítaný vektor s dimenzí výrazně menší
(např. 45).
Obrazově orientované příznaky nemusí vždy tvořit pouze jas jednotlivých pixelů ROI. Příznakový
vektor může být sestaven z bodů rozdílového obrazu nebo z bodů reprezentujících optický tok [27].
Rozdílový obraz vznikne tak, že odečteme hodnoty jasů sobě odpovídajících bodů ve dvou po sobě
jdoucích snímcích, viz obrázek 2. Metoda optického toku je velmi podobná metodě rozdílového
obrazu ovšem k informaci o změně jasu nám udává i směr změny pro každý bod ROI.
Obrázek 2. Obrazové příznaky. Dva po sobě jdoucí snímky, jejich rozdílový obraz a příznaky optického
toku, přejato z [27]
Po získání příznakového vektoru připadá v úvahu hned několik metod pro snížení jeho dimenze.
Movellan [59] použil filtraci obrazu ROI dolní propustí s následným snížením rozlišení. Matthews
[52] představil vlastní metodu redukce dimenze použitím nelineární dekompozice obrazu nazvanou
„image sieves“. Jiným velmi rozšířeným druhem transformace příznakového vektoru jsou metody
vycházející z teorie komprese obrazu, kde se předpokládá, že tento postup redukuje pouze ty
informace, které jsou pro rozpoznávání řeči nadbytečné. Jedná se o diskrétní kosinovou, Fourierovu,
vlnkovou nebo další transformace obrazu. Tyto metody nepracují s příznakovým vektorem, ale pracují
s celým obrazem ROI z kterého se vypočítávají příslušné parametry. Další možností je transformace
příznakového vektoru z dimenze D do dimenze d (D>>d) pomocí transformační matice P o dimenzi
D*d. Matici P je možné získat z L trénovacích dat reprezentovaných vektory x l l = 1 .. L.
Transformace příznakového vektoru potom vychází ze vzorce (1), kde x je střední hodnota získaná
z množiny měření.
xl = x + P * yl
(1)
Nejpoužívanější metody využívající tento přístup jsou metody LDA a PCA.
2.1.1.1 Kosinová, Fourierova, vlnková transformace
Metody transformace obrazu jsou používány i pro kompresy obrazu. Mezi nepoužívanější metody
patří diskrétní kosinová transformace (angl. discrete cosine transform, DCT), diskrétní vlnková
transformace (angl. discrete wavelet transform, DWT) , diskrétní Fourierova transformace (angl.
discrete Fourier tranform, DFT), Hadamarova a Haarova transformace. Použití těchto metod pro
získání vizuálních příznaků je stejné jako při klasickém zpracování obrazu.
-6-
Stav poznání
V práci [20] je použita Fourierova transformace podobně jako v případě výpočtu MFCC
koeficientů. Jednotlivé příznaky jsou počítány z kruhových oblastí z obrazu převedeného pomocí
DFT pro M (k1,k2) podle (2).
∑ M (k , k
mi =
1
2
)
(2)
k1 ,k 2 ∈Ri
kde Ri představuje prstencovou oblast okolo středu o poloměru qi a šířce qi-1. Tím je vlastně získána
hodnota reprezentující jednotlivé frekvence v obraze. Jako příznaky jsou poté použity hodnoty z této
banky filtrů.
Výhodou metod založených na kompresi obrazu je možnost jejich rychlé implementace, kde velikost
obrazu musí být mocnina dvou (obvykle 16, 32, 64).
2.1.1.2 Analýza hlavních komponent (PCA)
Analýza hlavních komponent je hned po DCT jednou z nejpopulárnějších metod pro získávání
obrazově orientovaných příznaků pro ASR [20],[27]. PCA zajišťuje lineární transformaci, která
1
umožňuje rekonstruovat transformované vektory ~xl s minimální chybou ε =
2
l
∑x
l
−~
xi
2
, kde
i =1
~
x l = P T * y l . Jestliže máme trénovací množinu {x1 ,.., x l } obsahující L pozorování v prostoru dimenze
D pak metodou PCA získáme matici P, jejíž pomocí můžeme vektor x transformovat na vektor y
s dimenzí d<<D. Nejprve je vypočítána střední hodnota trénovacích vektorů
x=
1
L
L
∑ (x )
(3)
i =1
a poté kovarianční matice R dimenze D*D.
R =
1
L
L
∑ (x
i
− x ) * (x i − x )T
(4)
i =1
Nyní provedeme rozklad kovarianční matice R podle vzorce R = A V AT, kde A = [a1 …. ad]
představuje matici vlastních vektorů R a V je diagonální matice, která má na diagonále vlastní čísla
matice R. Matici P získáme tak, že vybereme D největších vlastních čísel j1..jD z matice V a jim
odpovídající vlastní vektory aj1..ajD. Matice P vznikne složením těchto vektorů P=[aj1, .. , ajD]T .
Vektor nižší dimenze poté získáme ze vzorce
y = P T * (x − x )
(5)
2.1.1.3 Lineární diskriminační analýza (LDA)
Lineární diskriminační analýza je založena na transformaci prostoru pozorování do nového
prostoru pomocí lineární transformace (diskriminační funkce), tak aby transformovaný prostor
zajišťoval lepší diskriminaci než prostor originální. Diskriminační funkce je hledána tak, aby
maximalizovala poměr mezi variancí mezi třídami a variancí uvnitř tříd. Transformace způsobuje
projekci os stávajícího prostoru do prostoru, kde jsou osy rotovány tak, aby zajistili co největší
odchylky mezi třídami.
Nejprve je zapotřebí rozdělit trénovací vektory xl do C tříd podle zvolených klasifikačních
jednotek. Matice P je určena tak, aby projekce trénovacích vektorů P xl maximalizovala kritérium (6)
-7-
Stav poznání
Q (P ) =
(
det (P
)
SwP )
det P T SbP
T
(6)
kde Sw je rozptyl uvnitř tříd a Sb je rozptyl mezi jednotlivými třídami v prostoru dimenze d určeném
vektory y l . Tyto matice vypočítáme jako (7)
Sw =
∑ Pr(c )∑(c )
a
c∈C
kde Pr (c ) = Lc / L
Sb =
∑ Pr (c )(m(c ) − m )(m(c ) − m)
T
(7)
c∈C
představuje empirickou pravděpodobnost výskytu jednotlivých tříd, kde
L
Lc = ∑ δ c (l ),c a δ i, j = 1, když i = j jinak 0 , m(c) a ∑(c) představují střední hodnotu a kovarianci
l =1
vektorů jednotlivých tříd, m =
∑ Pr (c )m(c )
je celková střední hodnota pro všechny trénovací
c∈C
vektory. Pro výpočet matice P musíme provést výpočet vlastních vektorů a vlastních čísel dvojice
matic (Sb,Sw) z rovnice SbA = SwAV . Matice A = [ a1 … ad] představuje matici vlastních vektorů
a V je diagonální matice, která má na diagonále vlastní čísla. Matici P získáme tak, že vybereme D
největších vlastních čísel j1..jD z matice V a jim odpovídající vlastní vektory aj1..ajD. Matice P potom
vznikne jako P=[aj1, .. , ajD]T .
2.1.2 Tvarově orientovaná parametrizace
Tvarový popis předpokládá, oproti obrazově orientovanému, že je schopen z vizuálních dat získat
informaci o řeči a potlačit informaci irelevantní pro vizuální řeč jako je osvětlení scény, informace o
řečníkovy, pozici hlavy řečníka atd. Do této skupiny popisů spadají dva možné typy příznaků a to
geometrické příznaky a příznaky vycházející z modelu rtů. Oba typy mohou popisovat vnější a/nebo
vnitřní hranici rtů, nebo konturu celého obličeje. Pro nalezení těchto kontur je zapotřebí dalšího
zpracování ROI. To je zásadní rozdíl ve zpracování oproti obrazovým příznakům. Mezi základní
metody vyhledávání hranic objektů patří jednoduché prahování na základě znalosti barvy rtů a využití
metod zpracování obrazu [47], metoda Snakes [39],[4], metoda Templates [78], Active shape model
[15] a Active appearance model [14]. Jednou z nejnovějších metod vyhledávání je metoda používající
tracking 3D modelu rtů ze záznamu jedné kamery [5].
2.1.2.1 Geometrické příznaky
Tím že provedeme extrakci kontury rtů můžeme na ní měřit vysoko úrovňové příznaky, které jsou
snadno srozumitelné člověku. Vysoko úrovňovými příznaky rozumíme příznaky, které popisují tvar
pomocí parametrů jako jsou šířka, výška, délka hranice rtů, výstřednost atd. Jestliže vykreslíme průběh
těchto parametrů v čase, pak je zřejmé, že pro stejné promluvy jsou tyto průběhy velice podobné.
Naopak pro různé promluvy jsou dostatečně odlišné, viz obrázek 3. Z toho lze usuzovat, že
geometrické příznaky nesou určitou informaci o dané promluvě. Proto není překvapující, že velké
množství prací používá právě tyto příznaky [1],[2],[11],[34],[73],[86],[31].
-8-
Stav poznání
Obrázek 3. Geometrické příznaky. Vlevo – parametry šířka a výška rtů pro nalezenou hranici rtů.
Uprostřed – Původní hranice a její rekonstrukce při použití 1, 2, 3 a 20 Fourierových koeficientů. Vpravo
– Průběhy parametru výška rtů pro dvě různá slova (řádky) a různé řečníky (sloupce), přejato z [68]
Velkým problémem geometrických příznaků je značná závislost na řečníkovi. Šířka a výška rtů se
totiž liší pro jednotlivé řečníky již u rtů v základní poloze (nepohybující se zavřené rty). Abychom tuto
závislost částečně potlačili je možné použít dynamické příznaky odvozené právě z geometrických
příznaků. Dynamické příznaky již nepopisují rozměry, ale změny velikostí parametrů či pouze typ
změny parametrů mezi sousedními snímky.
Geometrický popis vychází z kontury rtů. Jestliže ji definujeme jako binární obraz, pak je možné
tento obraz popsat pomocí obrazových momentů [18] nebo pomocí Fourierových popisovačů [66].
Normalizované momenty nebo koeficienty Fourierových popisovačů je možné použít jako samostatné
vizuální příznaky. Jejich výhodou je nezávislost na natočení, poloze nebo změně měřítka.
2.1.2.2 Příznaky vycházející z modelu rtů
Příznaky vycházející z modelu rtů můžeme použít pouze za předpokladu, že jsme pro vyhledávání
rtů použili některou z metod používajících právě model rtů (Snakes, Templates, ASM, AAM).
Příznaky vycházející z modelu rtů potom závisí právě na použité metodě vyhledávání. Chiou [37]
používá jako vizuální příznaky radiální vektory Snakes, Silsbee [79] používá parametry jednotlivých
Templates. V dalších pracích [49],[54] jsou jako vizuální příznaky použity přímo jednotlivé body
modelu dané vektorem x z rovnice (13).
2.1.3 Kombinace tvarových a obrazových
Obrazové a tvarové příznaky představují dva různé druhy vizuální informace o řeči (nízko
a vysoko úrovňové informace). Z tohoto důvodu se velmi často používá jejich kombinace. Otázkou je,
jak tyto dva typy informace kombinovat.
První možností je použít jednu z metod extrakce obrazových a tvarových příznaků a tyto
příznakové vektory spojit do jednoho, který poté použijeme pro rozpoznávání. Luettin a Dupont
[51],[21] používají kombinaci ASM příznaků a PCA parametrů pro oblast kolem nalezených úst. Chen
[36] kombinuje geometrické příznaky s PCA parametry podmnožiny bodů uvnitř úst.
Druhou možností je vytvoření takového modelu, který kombinuje tvarové a obrazové příznaky
přímo ve své struktuře. Takovým přístupem je aktivní vzhledový model AAM. Tento přístup provádí
výpočet PCA koeficientů pouze z oblasti, která představuje právě rty, nebo celou tvář. Koeficienty
nejsou počítány z bodů okolí a tím se celý přístup stává robustnějším. Příkladem použití této
kombinace jsou práce [61],[54].
-9-
Stav poznání
Kombinace obrazových a tvarových příznaků nahrazuje nedostatky současných systémů trackingu.
Doposud nebyl představen žádný použitelný systém vyhledávání zubů a jazyka, neboť tato úloha je
velmi složitá. Je známo, že právě zuby a jazyk poskytují další použitelnou informaci o dané promluvě.
Informaci o tvaru rtů získáme jednou z metod vyhledávání a informaci o postavení zubů a jazyka
získáme z parametrů PCA, která je aplikována právě na tuto oblast.
2.2
Metody používané pro předzpracování obrazu
2.2.1 Headtracking a lokalizace ROI
Vstupem metody headtracking je videozáznam, který může obsahovat libovolný počet tváří
řečníků (v případě AV rozpoznávání většinou jen jednu) a jeho úkolem je lokalizovat jednotlivé
obličeje popřípadě vrátit obraz odpovídající pouze bodům tváře. V případě AV rozpoznávání je ještě
nutné aby algoritmus nalezl pozici ROI. Výstup vyhledávání hlavy řečníka lze použít i v jiných
oblastech, jako je vizuální syntéza řeči, identifikace a verifikace osob či lokalizace řečníka. Existují
zhruba dva základní typy metod pro headtracking. Prvním typem jsou metody založené na
vyhledávání parametrického modelu hlavy v daném obraze. Druhý typ metod většinou využívá tzv.
metody skin-color viz 2.2.1.1 pro nalezení kůže (bodů hlavy) a poté pomocí metod zpracování obrazu
dohledává významné body obličeje (oči, nosní dírky či ústa).
Obrázek 4. Headtracking použitím vzorových modelů a jejich vyhledávání v neznámém obraze, převzato
z [85]
Typický příklad algoritmu využívajícího parametrický model hlavy je popsán v [85]. Pro
funkčnost algoritmu je nejprve třeba vytvořit vzor obličeje a vzor pozadí z trénovací množiny která
obsahuje n tváří. Poté se pouze tyto vzory porovnávají s částmi neznámého obrazu a zjišťuje se jejich
podobnost viz obrázek 4. Výsledkem je tedy pravděpodobnost, že daná část obrazu je tvář.
Parametrický model je tvořen příznakovým vektorem, který popisuje buď tvář či pozadí. Tento vektor
je většinou výsledkem některé z metod redukce dimenze příznakových vektorů (DCT, PCA).
Neredukovaný příznakový vektor je tvořen všemi body vybrané oblasti. Snížení dimenze vektoru
zajistí, že jsou zachovány významné vlastnosti obličeje (rozložení tmavých a světlých oblastí, oči
a ústa jsou tmavší než kůže) a potlačeny rozdíly mezi obličeji různých řečníků. Největším úskalím
metody je velikost vyhledávaného obličeje a jeho natočení. Vzor obličeje je totiž vytvořen pro určitou
velikost a natočení. Problém velikosti je možné řešit změnou velikosti porovnávané oblasti. Jestliže
však chceme vyhledávat i obličeje s různým natočením pak je nutné pro tato natočení vytvořit nové
vzory a ty použít při porovnávání. Tím se samozřejmě zvyšuje časová náročnost metody. Celý postup
je možné zjednodušit, jestliže vstupní obraz obsahuje informaci o barvě. Využije se metody skin-color
viz 2.2.1.1 pro nalezení oblastí podobných kůži a poté jsou se vzory porovnávány pouze tyto oblasti.
- 10 -
Stav poznání
Obrázek 5. Headtracking pomocí přímého vyhledávání významných bodů. Nalezení hlavy a rtů, použití
modelu rozložení pro nalezení očí, nalezené body, převzato z [81]
Druhý typ metod využívá pro nalezení hlavy metodu skin-color viz 2.2.1.1. Metoda využívá
specifické barvy kůže v chromatické reprezentaci barev. Jejím výstupem jsou oblasti, které svou
barvou odpovídají barvě kůže. Dalším krokem je nalezení významných bodů na obličeji (oči, nosní
dírky, ústa) pomocí metod zpracování obrazu. Často se využívá model rozložení významných bodů na
obličeji. Tento model je představován vzájemnými vzdálenostmi jednotlivých významných bodů. Pro
nalezení bodů se také využívá jejich umístění vzhledem k pozici obličeje. Ze znalosti pozic
nalezených oblastí kůže se určí oblasti výskytu jednotlivých významných bodů. Oči, nosní dírky,
špička nosu či ústa jsou poté přesně lokalizovány buď pomocí metod srovnávání se vzorem nebo je
využito jejich jasových a barevných vlastností vzhledem ke kůži obličeje či jejich specifického tvaru
(špička nosu je většinou nejsvětlejší, nosní dírky jsou tmavé, v barvě úst převládá červená).
Příkladem algoritmu založeného na vyhledávání významných bodů je [81]. Výhodou této metody je
že není příliš závislá na velikosti a natočení hlavy řečníka.
Výstupem metody tedy může být pozice, velikost a natočení oblasti zájmu ROI viz obrázek 6.
Mluvíme-li o natočení, je tím myšleno natočení v rovině xy. Jestliže nás zajímá natočení hlavy řečníka
v ostatních rovinách pak je nutné pracovat s 3D modelem hlavy. Informace o natočení hlavy ve všech
rovinách je pro rozpoznávání velmi důležitá, neboť pohled na řečníka je většinou čelní a proto při
rotaci dochází ke změně tvaru rtů. Ve většině případů AV rozpoznávání je však pracováno se záznamy
kde je rotace v ose z zanedbatelná.
Velikost a tvar oblasti zájmu je doposud předmětem výzkumu a ROI nemusí obsahovat
obdélníkové okolí rtů. Existuje řada prací, které zkoumají vliv volby ROI na úspěšnost rozpoznávání.
Například práce [18][66] ukazují, že jestliže se do ROI zahrne nejen oblast rtů, ale celá spodní část
hlavy, zvýší to úspěšnost rozpoznávání, v [53] je použito jako ROI celé oblasti hlavy řečníka a v [20]
má ROI tvar kruhového okolí rtů. Některé práce používají netradiční ROI jako pohled ze strany [93]
nebo oblast úst osvětlenou pomocí infračerveného zdroje [32]. Samozřejmě platí, že čím větší oblast
zpracováváme tím náročnější bude výpočet.
- 11 -
Stav poznání
Obrázek 6. Extrakce ROI. Nalezení významných bodů v databázi IBM Via VoiceTM pomocí [77],
odpovídající oblasti úst pro jednotlivé řečníky, převzato z [61]
2.2.1.1 Skin-color
Metoda skin color využívá specifické barvy kůže v chromatické reprezentaci barev CR, CB, CG.
Přepočet mezi RGB reprezentací a chromatickou je dán vztahem (8). Metoda je založena na tom, že
CR =
R
R+G+B
CG =
G
R+G+B
C R + CG + C B = 1
(8)
v chromatické reprezentaci je pro různé osoby i rasy barva kůže podobná a její rozptyl je velmi malý
viz obrázek 7 . Z trénovací množiny, která je definovaná ručně, je vypočtena střední hodnota a rozptyl
většinou pro složky CR a CG a pomocí těchto hodnot je poté prahován neznámý obraz. Výsledek
prahování je znázorněn na obrázku 7.
Obrázek 7. Vlevo – Histogram bodů kůže pro složku CR a CG, Vpravo – Výsledek nelezení hlavy pomocí
metody skin-color.
- 12 -
Stav poznání
2.2.2 Liptracking
Metoda liptracking se používá jako předzpracování pro výpočet tvarově orientovaných příznaků.
Jejím vstupem je většinou obraz rtů a jejich okolí a metoda se snaží nalézt tvar rtů, reprezentovaný
vnější, vnitřní nebo oběma konturami rtů. Metody je možné rozdělit zhruba na dvě skupiny. Na
metody využívající model rtů a na metody bez jeho využití. Model rtů je soubor informací buď o tvaru
rtů a jeho možných deformacích doplněný barvou rtů či informacemi o barevném rozložení přechodu
mezi rtem a kůží pro každý bod modelu. Všechny metody využívají specifické barvy či jasu rtů oproti
kůži obličeje. Rty jsou většinou tmavší než kůže a jsou více červenější. Největším úskalím metod je
velká variabilita tvaru rtů mezi řečníky i během promluvy, osvětlení scény a jazyk. Jazyk má totiž
velmi podobnou barvu jako rty a při hledání vnitřní kontury rtů způsobuje nemalé problémy. Mezi
nejpoužívanější metody patří klasické metody zpracování obrazu bez využití modelu rtů [47],
deformovatelné vzory (angl. deformable templates) [78], Snakes [39],[4], aktivní tvarový model (angl.
Active shape model, ASM) [15] a aktivní vzhledový model (angl. Active appearance model, AAM)
[14]. Jednou z nejnovějších metod vyhledávání je metoda používající 3D modelu rtů [5].
2.2.2.1 Klasické metody zpracování obrazu bez využití modelu rtů
Nejjednoduššími metodami pro nalezení rtů jsou metody využívající pouze metod zpracování
obrazu. Tyto metody jsou velmi rychlé, ovšem méně robustní než metody využívající model.
Základním principem je využití specifické barvy rtů a rozdílových obrazů mezi dvěma snímky.
V práci [47] je pro nalezení rtů stanovena reprezentace obrazu HI.
H = 256 *
G
R
a
I=
R+B+G
3
(9)
Obrázek 8. Extrakce rtů pomocí barvy a informace o změně jasu mezi následujícími snímky. Složka I,
složka H, naprahovaná složka H, rozdílový obraz složek I, výsledný tvar nalezených rtů, převzato z [47]
Prahováním pomocí ručně definovaných prahů jsou ze složky H vybrány body odpovídající rtům.
Složka I slouží k získání rozdílového obrazu. Rozdílový obraz je získán odečtením po sobě jdoucích
snímků. Nyní je každému bodu obrazu přiřazena jedna ze čtyř konstant podle hodnoty rozdílového
obrazu a prahovaného H. Body, které se pohybují a mají barvu rtů jsou nejlepšími kandidáty na
výsledný objekt rtů, viz obrázek 8.
Další přístupy využívají informací o směru a velikosti hran v obraze či jiných speciálních
reprezentací obrazu pro snadné odlišení barvy rtů a barvy pozadí. Největším úskalím těchto metod je
nutnost definovat konstanty, které rozhodují o výběru objektu rtů. Tyto konstanty však mohou být
závislé na osvětlení či pozadí dané scény a proto je nejlepším řešením jejich automatická inicializace.
2.2.2.2 Deformovatelné vzory
Vzory je možné definovat jako parametrizovanou množinu bodů, křivek a povrchů s množinou
parametrů S a penalizační funkcí, která definuje, jak dobře odpovídá množina parametrů danému
- 13 -
Stav poznání
obrazu, viz obrázek 9. Vzor je buď vytvořen ručně nebo z trénovací množiny. Penalizační funkce je
funkcí parametrů S a obrazu. Energetická funkce nabývá nízkých hodnot, jestliže všechny body vzoru
leží na nebo v okolí maxim pole definovaného pro obraz a reprezentujícího příznaky jako hrany,
vrcholy nebo údolí objektu v daném obraze a případě, že tvar deformovaného vzoru se blíží tvaru
předdefinovanému. Metoda se snaží deformovat vzor podle tohoto pole tak, aby model měl co
nejmenší penalizaci. K tomuto účelu lze využít metody sledování gradientu nebo jiné techniky
optimalizace. Jestliže nalezneme minimum energetické funkce pak vzor nejlépe popisuje tvar objektu.
Obrázek 9. Extrakce rtů pomocí vzorů. Model vzoru tvořený 6 body, šedotónový obraz rtů, detekce hran
v obraze pro levou stranu modelu, výsledky nalezení rtů, převzato z [80]
Pro zvýšení robustnosti metody mohou být aplikována jistá omezení s ohledem na geometrické
uspořádání modelu. Velké odchylky od základního tvaru jsou penalizovány úpravou energetickou
funkce. K získání obrazového pole můžeme použít několika metod. V práci [80] je model složený ze 6
bodů a je rozdělen na 4 části, viz obrázek 9. Obrazové pole je pak definováno pro každou tuto část.
Jedná se vždy o výpočet hran v obraze v daném směru a jejich vyhlazení. Je možné použít i informaci
o změně obrazu mezi dvěma sousedními snímky. Pro vylepšení výsledků je místo jednoho vzoru
používána banka vzorů popisujících možné tvary objektu [12],[35]. K určení nejlepšího vzoru se
používá inicializační funkce, která porovnává obraz s obrazy definovanými pro jednotlivé vzory
a zjišťuje jejich podobnosti využitím pyramidové techniky vyhledávání.
Největším nedostatkem metody Templates je, že se vzory deformují libovolně podle daného
obrazového pole. Vzor postihuje pouze základní tvar objektu, ale ne jeho možné změny a závislosti
mezi jednotlivými body modelu. Problémy vznikají i při natočení či změně velikosti objektů.
2.2.2.3 Snakes
Metoda Snakes představuje využití modelu, který je tvořen křivkou, pro nalezení objektu v obraze
*
pomocí minimalizace speciální funkce E snake
. Model je tvořen ručně definovanou množinou bodů
v (s ) = (x (s ), y (s )) . Tato množina musí co nejlépe popisovat tvar vyhledávaného objektu. Po umístění
modelu do blízkosti hranice hledaného objektu se model deformuje tak aby dosáhl lokálního minima
*
*
energetické funkce E snake
. Funkce E snake
je tvořena třemi různými druhy energií (10)
1
1
∫
∫
0
0
*
E snake
= E snake (v (s ))ds = E int (v (s ))ds + E obraz (v (s ))ds + E con (v (s ))ds
(10)
kde v(s) představuje křivku tvořenou body (x(s), y(s)), kde s jde od 0 do 1 přes celý obvod křivky.
Funkce E int reprezentuje interní energii modelu v průběhu deformace a snaží se model vyhlazovat.
Funkce E obraz představuje deformační síly vyvolané daným obrazem. Tyto síly se snaží deformovat
model tak, aby se přiblížil významným tvarům v obraze jako jsou přímky, hrany, nebo významné části
- 14 -
Stav poznání
objektů. Funkce E con představuje externí síly, které mohou reprezentovat interaktivní požadavky
uživatele na deformaci modelu. Interní energie je funkcí první a druhé derivace křivky v s (s ) a v ss (s )
podle vzorce (11)
(
E int = α (s ) v s (s )
2
+ β (s ) v ss (s )
2
)2
(11)
kde koeficienty α (s ) a β (s ) určují chování modelu. Koeficient α(s) odpovídá elasticitě modelu a β(s)
odpovídá tuhosti modelu. Obrazová energie se skládá ze tří různých typů energií podle vzorce
E image = w primky E primky + whrany E hrany + wukonč E ukonč
(12)
kde w je váhová funkce přičemž E primky zajišťuje, že model se bude snažit postihnout nejsvětlejší nebo
nejtmavší kontury objektů, E hrany nutí model zaujmout pozici bodů s největším gradientem a E ukonč
postihuje konce přímek a rohy významných objektů v obraze. Jestliže chceme Snakes použít pro
tracking pak změna tvaru mezi sousedními snímky musí být dostatečně malá, aby model nezaujal jiné
lokální minimum než v předchozím snímku, což představuje spolu s inicializací modelu největší
nedostatek metody.
Obrázek 10. Snakes. Model řízený body definovanými uživatelem, výsledky vyhledávání, převzato z [4]
2.2.2.4 Aktivní tvarový model
Aktivní tvarový model se snaží řešit nedostatky předchozích přístupů používajících ručně
vytvořený model. Metoda vychází z toho, že model by mělo být možné deformovat pouze tak, aby
odpovídal vzorovým tvarům z trénovací množiny.
Pro vytvoření takového modelu je zapotřebí mít trénovací množinu vzorových tvarů daného
objektu, která zahrnuje nejběžnější deformace tohoto objektu. V každém obrazu musí být označeny
významné body popisující příslušný objekt. Byly zvoleny tři základní typy bodů podle toho jakou část
objektu popisují.
1.
body závislé na konkrétním objektu. V případě, že vyhledáváme rty, tak body 1 budou
koutky úst, střed horního a dolního rtu.
2.
body nezávislé na konkrétním objektu. Jsou to nejvyšší místa objektů pro danou orientaci
či extrémy křivek.
3.
ostatní body. Body, které je možné získat z prvních dvou typů bodů. Tyto body jsou
pravidelně rozloženy na spojnicích předchozích bodů.
Pro každý obraz je tedy definována množina bodů xi = (xi ,0 , y i ,0 , x i ,1 , y i ,1 ,....., xi ,n −1 , y i ,n −1 ) kde n je počet
bodů. Aby bylo možné získat charakteristické vlastnosti trénovací množiny musíme nejprve
transformovat všechny obrazy tak, aby objekty měli stejnou orientaci, rotaci a měřítko. Tím nám
vznikne množina kde jednotlivé mraky bodů představují možné tvary hledaného objektu, viz obrázek
11.
- 15 -
Stav poznání
Obrázek 11. Extrakce rtů pomocí ASM. Rozložení bodů v trénovací množině, určení změny polohy bodu
modelu vzhledem k danému obrazu, přizpůsobení celého modelu, tvar modelu pro změnu prvních tří
parametrů vektoru b, převzato z [15]
Nyní spočítáme střední hodnotu x z vektorů xi a odchylku dxi = xi − x pro každý vektor.
Vypočítáme kovarianční matici S těchto odchylek. Matice S má rozměry 2n*2n. Máme tedy 2n
parametrů, které mohou ovlivnit tvar modelu. Z trénovací množiny je zřejmé, že určité body se mohou
pohybovat více než ostatní a tím i více přispívat ke změně tvaru. Proto použijeme metodu PCA
popsanou v 2.1.1.2, která zredukuje počet proměnných jen na ty nejdůležitější podle toho, jak hodně
ovlivňují tvar objektu. Získanou matici P využijeme k výpočtu nového tvaru podle rovnice (13) kde b
udává odchylku od středního tvaru.
− 3 λk ≤ bk ≤ 3 λk
x = x + Pb
(13)
Pomocí vektoru b který má dimenzi t << 2n můžeme ovlivňovat tvar modelu, jak je vidět na obrázku
12. Velikost koeficientů b je omezena podle (13), což zajistí, aby se tvar modelu měnil pouze podle
trénovacích dat. Čím větší dimenzi má vektor b tím jemněji dokážeme měnit tvar modelu ovšem
vzrůstá časová náročnost výpočtu a klesá schopnost modelu opravovat případné chyby nalezeného
tvaru.
Obrázek 12. Vlevo – Deformace středního tvaru modelu při použití jednotlivých parametrů 1- 4, vpravo –
přechod ret-kůže pro daný bod modelu, převzato z [49]
- 16 -
Stav poznání
Na je ukázán model rtů získaný z trénovací množiny, který je složen z N bodů. Dále je zde
ukázáno jak změna jednotlivých komponent vektoru získaného pomocí metody PCA ovlivňuje tvar
modelu.
Samotné nalezení rtů pomocí modelu probíhá tak, že v prvním kroku je nutné model umístit
někam do prohledávaného obrazu a stanovit jeho velikost. Toto umístění a stanovení velikosti se
provádí buď na základě informace o pozici a velikosti modelu z předchozího snímku či z informací
z headtrackingu. Dále se snažíme zjistit jak změnit tvar modelu tak aby co nejlépe odpovídal tvaru
hledaných rtů v obraze. Pro tento krok je možné použít různé metody. Nejčastěji se body modelu
vztahují k největším hranám nalezeným v obraze, které se nacházejí na normále daného bodu
vzhledem k hranici modelu. Máme tedy model X = M (s, θ )[x ] + X c kde Xc představuje pozici středu
modelu. Pro každý bod zjistíme velikost posunutí tohoto bodu a z těchto informací vytvoříme vektor
dX = (dX 0 , DY0 ,......, dX n −1 , dYn −1 )T , viz obrázek 11. Nyní spočítáme, jak se má změnit rotace, velikost a
střed modelu popsané parametry θ, s a x c tak, aby se model co nejvíce přiblížil novým bodům.
Vypočítáme nový vektor dx, který udává odchylku bodů v obraze od nového modelu. Abychom body
modelu co nejvíce přiblížili bodům obrazu musíme změnit tvar modelu. Z dx spočítáme db = P T dx .
Nový tvar modelu poté vypočítáme jako x = x + P (b + Wb db ) , kde Wb představuje matici vah. Celý
proces opakujeme do té doby, dokud dochází ke změně modelu.
V porovnání s metodou Snakes je obtížnější vytvořit model objektu neboť pro Snakes
nepotřebuje označkovanou trénovací množinu. Ovšem oproti metodě Snakes model ASM může
nabývat pouze tvarů, které byly obsaženy v trénovací množině, a proto je proces více robustní.
2.2.2.5 Aktivní vzhledový model
Aktivní vzhledový model je ve svém principu velmi podobný aktivnímu tvarovému modelu. Jak
však napovídá jeho název model neobsahuje jen informaci o tvaru, ale je v něm zahrnuta i informace
o jasu jednotlivých bodů modelu. Přístup tedy vychází z toho, že objekt nacházející se v neznámém
obraze má jednak specifický tvar a že tomuto tvaru odpovídá specifický jas nebo barva jednotlivých
bodů.
Obrázek 13. Extrakce hlavy řečníka pomocí AAP. Obraz trénovací množiny s označenými 122 body
modelu, výsledný model pro změnu prvních 4 parametrů vektoru c (±
± 3 sd), převzato z [14]
Způsob vytvoření modelu je stejný jako v případě ASM. Máme trénovací množinu, ve které
musíme jednotlivé objekty označkovat skupinou řídících bodů x obrázek 13. Pomocí metody z ASM
získáme matici Ps . Změnou vektoru bs a dosazením do (13) potom můžeme generovat nové tvary .
Nyní musíme model natrénovat pro jasy jednotlivých objektů. Abychom vůbec mohli modely
porovnávat podle jasu musíme každý objekt transformovat do středního tvaru x , vypočítaného
z trénovací množiny, pomocí označených bodů. Z důvodu možného různého osvětlení scény
jednotlivých obrazů musíme provést normalizaci jasu. Jeden ze vzorků je zvolen jako referenční, jeho
jas se vezme jako základní, a poté je pomocí iterativní metody normalizována hodnota jasu vždy vůči
nově vypočtené střední hodnotě.
- 17 -
Stav poznání
Na takto upravená data opět aplikujeme PCA a získáme matici Pg a vektor bg . Dosazením do
vzorce (14) a změnou bg můžeme vytvořit nové jasové hodnoty pro tvar daný x .
g = g + Pg bg
(14)
Vektor g představuje hodnoty jasů modelu poskládané za sebe do vektoru o velikosti D (počet bodů
modelu).
Nyní vytvoříme vektor b jehož pomocí můžeme měnit jak tvar tak i hodnotu jasu modelu.
T
W s bs  Ws Ps (x − x )
=
b = 

T
 bg   Pg (g − g ) 
(15)
Pro každý prvek trénovací množiny můžeme získat vektor b a opětnou aplikací metody PCA na tyto
vektory získáme matici Q a vektor c. Jejich dosazením do rovnice (16) můžeme generovat nové tvary
a jim odpovídající jasy modelu viz obrázek 13.
b = Qc
x = x + PsW s Q s c , g = g + Pg Q g c
kde
 Qs 
Q =  
 Qg 
(16)
Nový model je vytvořen tak, že vypočítáme jasy g pro tvar x a tento obraz transformujeme do tvaru
daného x.
Jestliže chceme pomocí modelu nalézt objekt v neznámém obraze musíme provést minimalizaci
∆ = (δI )2 kde δI = I i − I m . I i představuje skutečný obraz a I m je generovaný model. Minimalizace
takovéto funkce je velmi složitý problém, a proto je použita lineární závislost mezi diferencí obrazu
a modelu a změnou vektoru c. Vychází se z toho, že máme daný obraz a jemu nejlépe odpovídající
model. Změníme-li vektor c o δc změní se i model a rozdíl obrazu a modelu představuje δg . Tyto
změny jsou generovány automaticky a z daných vektorů δc a δg odvodíme matici A podle vzorce
(17).
(17)
δc = Aδg
Samotné vyhledávání objektu se provádí tak, že stanovíme odchylku modelu a obrazových bodů jako
δg . Pomocí (17) vypočítáme δc a provedeme změnu c o δc . Podle (16) vypočítáme nový model
a celý postup opakujeme tak dlouho dokud se chyba E = (δg )2 mění.
Aktivní vzhledový model má vyšší výpočetní složitost než aktivní tvarový model, ale díky postihnutí
jasů objektu se stává robustnějším.
2.2.2.6 3D liptracking
Všechny předchozí metody vyhledávání rtů předpokládají, že hlava řečníka se může otáčet pouze
v rovině xy (většinou je hlava snímána z čelního pohledu). Je však zřejmé, že v reálných úlohách není
možné tuto podmínku dodržet a hlava řečníka se bude pohybovat v 3D prostoru, čímž se bude měnit
její velikost, poloha i orientace. Jestliže se na tento video záznam použije jedna z předchozích metod,
pak budou nalezeny rty, ale jejich tvar nebude odpovídat skutečnému tvaru rtů řečníka. Proto se
pracuje na vývoji metod vyhledávání rtů pomocí 3D modelu z videozáznamu jedné kamery. Právě zde
se uplatňuje informace o orientaci a pozici hlavy, kterou je možno získat metodou headtrackingu
popsanou v sekci 2.2.1.
- 18 -
Stav poznání
Obrázek 14. Vyhledávání 3D modelu. Původní obraz, mapa objektů v chromatických barvách, nasazení
středního modelu, směry deformací modelu, výsledný model, model při natočení hlavy, projekce modelu
do roviny xy, převzato z [5]
V práci [5] je popsán 3D model rtů složený z jednotlivých povrchů tvořících rty a jejich okolí
a vazeb mezi nimi. Barva segmentů a vztahy mezi body modelu jsou získány pomocí označené
trénovací množiny. Samotné vyhledávání rtů poté probíhá tak, že se nejprve získají modely pro barvu
kůže a barvu rtů v chromatické reprezentaci obrazu Cr a Cb. Každému povrchu modelu, v závislosti na
tom jaké části odpovídá, je přidělena chromatická barva z trénovací množiny. Pro každý neznámý
obraz je vytvořena mapa oblastí, které odpovídají rtům a tváři podle natrénovaných modelů. V této
mapě je nalezen objekt, který nejlépe odpovídá rtům. Tím je určena informace o pozici rtů. Nyní je
využito informace o natočení rtů v 3D tak jako v [10] prostoru a základní model rtů je transformován
a promítnut do obrazu. Pomocí iterativní metody deformace modelu podle mapy oblastí je určena
deformace modelu nejlépe popisující danou pózu. Protože známe natočení modelu a i jeho tvar
můžeme ho promítnout do jakékoliv pozice v 3D prostoru. Celý postup je znázorněn na obrázku 14.
Výstupem metody tedy můře být skutečný tvar rtů z čelního pohledu, ale i pohyb rtů v z-ové
souřadnici (tento pohyb během řeči projevuje při vyslovování č,š,ř,ů). Většina experimentů AV
rozpoznávání je však prováděna na datech kde je pohyb hlavy řečníka velmi omezen a proto lze použít
pouze 2D model rtů.
2.3
Následné zpracování
Obrázek 15. Schéma extrakce 3 druhů příznaků následované interpolací příznaků na 100 Hz, normalizací
přes celou promluvu, získáním dynamické informace o řeči řetězením vektorů a úpravou příznakového
vektoru pomocí LDA a MLLT, převzato z [69]
Jestliže pracujeme s audio-vizuálním rozpoznáváním řeči, pak se musíme zajímat i o akustické
příznaky, které jsou extrahovány z akustického záznamu řeči. Nejčastějším typem příznaků jsou
Melovské kepstrální koeficienty (MFCC) nebo lineární prediktivní kepstrální koeficienty (LPCC).
Akustické příznaky jsou obvykle získávány s frekvencí 100 Hz [65][61][60]. Oproti tomu vizuální
- 19 -
Stav poznání
příznaky jsou závislé na snímací frekvenci video kamery, která je obvykle 25 nebo 30 Hz. Jestliže
kamera pracuje v prokládaném režimu, pak můžeme pracovat s frekvencí dvojnásobnou, samozřejmě
na úkor polovičního rozlišení obrazu. Maximální možná frekvence je tedy 60Hz. Většina aplikací
audio-vizuálního ASR požaduje, aby pro každý akustický vektor existoval vizuální vektor
synchronizovaný s akustickým pro všechny vzorky promluvy. Frekvenci je možné vyrovnat buď
interpolací vizuálních příznaků na frekvenci akustických příznaků, nebo opakováním snímků ještě
před jejich zpracováním. Vyrovnání frekvence snížením frekvence akustických příznaků se
nepoužívá.
Dalším krokem úpravy příznakových vektorů je normalizace vizuálních příznaků. V případě
klasického audio ASR se často používá normalizace pomocí střední kepstrální hodnoty, což vede ke
zvýšení robustnosti v případě závislosti na řečníkovi nebo pozadí [94]. Použití jednoduché
normalizace pomocí střední hodnoty příznakového vektoru přes celou promluvu je demonstrováno
v pracích [68],[66] pro vizuální ASR. Provede se výpočet střední hodnoty příznaků přes celou
zpracovanou promluvu a tímto středem se normalizují všechny příznakové vektory. Zvýší se tím
nezávislost na řečníkovi a prostředí. Další možností, kterou použil Vanegas [88] je lineární
kompenzace intenzity každého snímku ještě před extrakcí obrazových příznaků.
Jednou z nejdůležitějších částí po zpracování příznakových vektorů je zachycení dynamické
informace vizuální složky řeči. Informace o dynamice řeči pomáhá člověku při rozpoznávání
z vizuální složky řeči [75]. Dynamické příznaky zachycují specifický sled pohybů rtů pro jednotlivé
řečové jednotky a proto by měly být méně závislé na řečníkovi než například geometrické příznaky.
Získávání dynamických příznaků je opět odvozeno z audio ASR. Jednou z možností je rozšíření
příznakového vektoru o jeho první a druhou derivaci [94]. Nebo můžeme sestavit nový příznakový
vektor x t tak, že pospojujeme J příznakových vektorů yt podle (18) , kde t je čas, J je šířka okénka,
y(t) příznakový vektor v čase t a x(t) nový příznakový vektor.
[
x t = y tT−( J / 2 ) ,..., y tT ,..., y tT+ (J / 2 )−1
]
(18)
Na tento nový příznakový vektor použijeme jednu z metod redukce dimenze, nejčastěji LDA
[61],[66].
Posledním krokem před kombinací audio a vizuálních příznaků může být MLLT (Maximum
likelihood linear transform). Metoda MLLT se snaží nalézt matici PMLLT pro rotaci dat, která
maximalizuje pravděpodobnost pozorování dat v prostoru původních příznaků, za předpokladu
diagonálních kovariancí dat v transformovaném prostoru. Matici rotace získáme řešením

PMLLT = arg max det (P )L
det diag P ∑ (c ) P T
P

c∈C
∏( ( (
)))
−
Lc
2



(19)
, kde jsou definovány třídy C do kterých chceme klasifikovat a trénovací množina vektorů xl , kde l =
1..L. Každý z těchto vektorů je přiřazen do jedné z C tříd c(l) ∈ C. Proměnná Σ kovarianci dané třídy
c a LC =
∑
L
l =1
δ c (l ),c kde δ i , j je 1 jestliže i=j jinak 0. Metoda MLLT společně s metodou LDA
provádí transformaci dat ve smyslu vylepšení klasifikace a pravděpodobnostního modelování dat.
Proces MLLT lze použít v jakékoliv část systému ASR.
2.4
Rozpoznávání
Využití vizuální informace o řeči lze rozdělit na dva základní přístupy. Tyto přístupy se odlišují
jak dalším zpracováním informace, tak i oblastí použití. V prvním případě použijeme pro úlohu ASR
pouze vizuální řečovou informaci. V druhém případě využijeme jak vizuální tak akustickou složku
řeči.
- 20 -
Stav poznání
Rozpoznávání řeči pouze z vizuální informace je úlohou jednodušší. Tento postup nevyžaduje
další zpracování příznakového vektoru. Jak je ovšem zřejmé, vizuální složka řeči obsahuje méně
informací o promluvě než složka akustická. Proto se tato metoda zaměřuje většinou na rozpoznávání
izolovaných slov, neboť při rozpoznávání plynulé řeči je dosahováno špatných výsledků. Metodu
rozpoznávání řeči pouze z vizuální informace je však třeba použít všude tam, kde dochází
k drastickému poškození akustického signálu vlivem šumu.
Rozpoznávání řeči kombinací akustické a vizuální informace dosahuje dobrých výsledků
i v úlohách rozpoznávání spojité řeči nezávislém na řečníkovi. Ovšem jakmile chceme kombinovat
dva různé druhy informace musíme použít další metody pro zpracování a kombinaci akustického
a vizuálního příznakového vektoru.
2.4.1 Vizuální rozpoznávání
Problémem vizuálního ASR obecně je volba základních řečových jednotek (řečových tříd, do
kterých budeme klasifikovat) a volba metody rozpoznávání. I zde se vychází z poznatků získaných pro
úlohu audio ASR. Pro americkou angličtinu existuje 42 základních jednotek (fonémů) [19]. Tyto
jednotky byly odvozeny tak, aby postihovaly specifické pozice artikulačních orgánů řečového traktu.
Ovšem pouze část těchto orgánů je viditelná a právě ty poskytují vizuální informaci o řeči. Z toho
vyplývá, že vizuálních řečových jednotek by mělo být méně než akustických. Tyto základní řečové
jednotky jsou nazývány vizémy [82],[8]. Pro získávání vizémů a jejich mapování na fonémy se
můžeme držet prací pojednávajících o lidském odezírání ze rtů [36], nebo se můžeme dát cestou
statistického shlukování jako Rogozan [74].
Rogozan provedl rozdělení fonémů na vizémy tak, že využil transkripci audio-vizuální trénovací
množiny. Pomocí Viterbiho algoritmu stanovil akustické hranice fonémů a ručně je poupravil. Poté
byly vzaty v úvahu pouze středy jednotlivých fonémů a jejich okolí o velikosti 140 ms. Tento krok byl
proveden proto, že vizuální a akustická složka řeči mohou být asynchronní. Velikost okolí 140 ms
modeluje i částečné koartikulace mezi jednotlivými vizémy. Informace o jednotkách byla vzata jako
vstup samo-organizující se sítě, která byla trénována pomocí Kohonenova algoritmu. Bylo definováno,
že vizém nesmí osahovat zároveň souhlásku i samohlásku. Výsledné rozdělení do vizémových třídy
vidíme na obrázku 16.
Obrázek 16 Strom zaměnitelností pro souhlásky a samohlásky, převzato z [61]
Třináct tříd je nejčastěji používaný počet vizémových tříd pro vizuální ASR [61]. Do těchto tříd se
přiřazují jednotlivé hlásky právě podle podobnosti jejich vizuální odezvy. Volba řečových jednotek
samozřejmě závisí na úloze pro kterou jsou vybírány. Jestliže budeme provádět rozpoznávání
izolovaných slov nad malých slovníkem, pak bude možné jako vizémy použít celá tato slova nebo
jejich časti. Avšak pro rozpoznávání spojité řeči bude zapotřebí využít kontextově závislých jednotek
(např. trivizémů) vycházejících ze základních vizémových tříd.
- 21 -
Stav poznání
Nejpoužívanějším klasifikátorem pro ASR jsou skryté Markovské modely (angl. hidden Markov
model, HMM) a jejich nejrůznější modifikace [79],[84]. Mezi další možné přístupy patří použití
dynamického borcení času (angl. dynamic time warping, DTW) [63], neuronových sítí (angl. artificial
neuron network, ANN) [44], kombinace ANN a DTW [7] nebo kombinace ANN a HMM [31].
Protože většina klasifikátorů je koncipována na základě HMM, bude zde uveden popis typického
single-stream HMM. Sekvenci vizuálních nebo akustických příznaků představuje ots s dimenzí ds,
kde s = A nebo V podle typu příznaků. Emisní pravděpodobnosti jsou modelovány pomocí
Gausovských směsí daných
Ksc
[
] ∑w
Pr ots | c =
sck ℵDs
(o ; m
s
t
sck , s sck
)
(20)
k =1
pro všechny třídy c∈C, zatímco pravděpodobnost přechodů mezi jednotlivými třídami je dána jako
rs = [Pr [c ′' c ′′] , c ′, c ′′ ∈ C ]T
(21)
Vektor parametrů HMM představuje
[
],
[
T
T
bs =  wsck , m sck
, s Tsck

] , k = 1,..., K
T

(22)
sc , c ∈ C 

V rovnicích (20), (21), (22) představuje parametr c kontextově závislé stavy, wsck vyjadřují váhy
a s = rsT , bsT
kde
T
jednotlivých směsí, K sc představuje počet směsí a ℵD (o; m, s ) je normální rozložení se střední
hodnotou m a diagonální kovarianční maticí s.
Pro zajištění maximální pravděpodobnosti (22) se používá EM algoritmus. EM algoritmus provádí reestimaci parametrů HMM vektoru
a s( j +1) = arg max Q a sj , a | O s
(23)
(
)
a
kde O s představuje pozorování na trénovacích datech o L promluvách Ols , l=1,…,L. Alternativou EM
algoritmu pro natrénování parametrů HMM může být metoda diskriminativního trénování.
Rozpoznávání je prováděno pomocí Viterbiho algoritmu, který počítá nejpravděpodobnější sekvenci
stavů, která generuje dané pozorování.
2.4.2 Audio-vizuální rozpoznávání
Audio-vizuální rozpoznávání se řídí obdobnými pravidly a předpoklady jako vizuální
rozpoznávání řeči. Pro klasifikaci se používají obdobné metody (HMM, AAN), obdobná je i volba
základních řečových jednotek. Akustické příznaky většinou představují MFCC nebo LPCC. Vizuální
příznaky jsou dodány jednou z metod extrakce vizuální příznaků. Největším problémem je jak sloučit
informace z dvou rozdílných zdrojů. Oba zdroje se totiž liší jak v řečových jednotkách, tak v rozsahu
jednotlivých příznaků.
Dalším velmi významným úkolem rozpoznávání je adaptace rozpoznávače na daného řečníka.
Tato technika přináší zlepšení výsledků rozpoznávání, neboť stejně jako v úloze akustického ASR je
vizuální informace pro stejné promluvy u různých řečníků odlišná. Většina prací se snaží vytvořit
klasifikátor co nejméně závislý na řečníkovi, ovšem adaptace vždy poskytuje zlepšení.
Integrace dvou odlišných typů informace pro klasifikaci je obecným problémem. Existuje mnoho
možností jak spojení dvou různých informací provést [7],[68],[74],[86],[21],[61],[36]. Jednotlivé
techniky se odlišují jak v samotném designu, tak i v použité terminologii. Některé z metod [86]
vycházejí z modelu vnímání řeči člověkem. Existuje základní rozdělení kombinace informačních
zdrojů na kombinaci příznaků FF a kombinaci rozhodnutí DF. V prvním případě dochází
Typ kombinace
Kombinace příznaků:
Audio-vizuální příznaky
1. pospojované příznaky
- 22 -
Úroveň klasifikace
Sub-fonetická (brzká)
Stav poznání
Jeden klasifikátor, FF
2. transformované příznaky
3. změněné audio příznaky
Kombinace rozhodnutí:
Dva klasifikátory, DF
1. sub-fonetická (brzká)
2. fonetická, slovní (střední)
3. promluvová (pozdní)
Oddělené příznaky
Tabulka 1. Typy kombinace příznaků a jejich další možnosti
k pospojování, nebo určité transformaci, audio a vizuálních příznaků do jednoho příznakového
vektoru, který je poté použit pro klasifikaci jedním klasifikátorem jako v případě vizuálního
rozpoznávání [86],[65]. V druhém případě jsou pro rozpoznávání použity dva klasifikátory pro každý
příznakový vektor jeden. Rozhodnutí těchto klasifikátorů se poté kombinuje do jednoho. Nejčastěji se
obě rozhodnutí kombinují pomocí lineární kombinace pravděpodobnosti pozorování pro dané třídy
každého z klasifikátorů s využitím vah, které představují určitou informaci o zpracovávané promluvě
[68],[73],[21],[61]. Pro každou ze dvou základních kombinačních technik existuje několik možností
provedení závisejících na tom, jak chceme kombinovat vizuální a akustickou část informace.
2.4.2.1 Kombinace příznaků
Kombinace příznaků je jednodušším způsobem kombinace dvou informačních zdrojů. K realizaci
je zapotřebí pouze jeden klasifikátor a jeden příznakový vektor, který vznikne sloučením akustického
a vizuálního vektoru. Tento přístup předpokládá že akustický i vizuální projev řeči probíhá zcela
synchronně. To znamená, že jednotlivé řečové jednotky si vzájemně odpovídají délkou i umístěním
v čase. Jestliže máme k dispozici nějakou informaci o degradaci informací v jednotlivých kanálech,
pak můžeme využít přístup vážení příznakových vektorů [86],[36]. Pospojováním obou vektorů
vznikne nový vektor, jehož dimenze je součet dimenzí jednotlivých vektorů. Pro zmenšení dimenze
tohoto nového vektoru lze použít metody extrakce příznaků pomocí metod snížení dimenze
příznakového vektoru (angl. Hierarchical discriminiat feature fusion, HiLDA) [69], nebo změnu audio
příznaků pomocí audio-vizuálních příznaků (angl. Audio feature enhancement) [3],[24].
Obrázek 17. Schéma kombinace informací pomocí kombinací příznaků. Pospojování příznaků - AV
pospojování, Hierarchická lineární diskriminační extrakce – AV HiLDA, změna audio příznaků AV
enhancement, převzato z [69]
2.4.2.1.1
Pospojování příznaků
Máme-li dány vektory otA a oVt o dimenzích d A a dV , představující příznakové vektory pro audio
a video signál pak pospojováním získáme audio-vizuální vektor
[
]
T
(24)
s dimenzí d c = d A + dV . Proces generování sekvencí těchto příznakových vektorů je modelován
pomocí single-stream HMM s emisní pravděpodobností
otAV = w AotA , wV oVt
- 23 -
∈ R dc
Stav poznání
[
Kc
] ∑w
Pr otAV | c =
ck ℵD
(o
AV
t
; mck , s ck
)
(25)
k =1
pro všechny třídy c∈C. Parametry w A a wV představují váhy pro jednotlivé příznakové vektory
pomocí nichž lze nastavit vliv video a audio kanálu na výsledné rozpoznávání. Váhy jsou nastavovány
v rozmezí 0-1 kde 0 znamená žádný vliv. Tento postup použije jestliže víme, že audio signál je
degradován okolním šumem a zhoršil by tak výsledky rozpoznávání.
2.4.2.1.2
Transformace příznaků
Jak je ukázáno v práci [69], vizuální příznaky mají menší schopnost klasifikace řeči než akustické
příznaky, mimo případ vlivu šumu na audio záznam. Proto můžeme očekávat, že snížení dimenze
pospojovaného příznakového vektoru povede ke stejným nebo lepším výsledkům rozpoznávání než
pro použití vektoru vysoké dimenze. Pro snížení dimenze je v článku [69] použita metoda LDA, která
provede transformaci z původního prostoru do prostoru nižší dimenze (počet tříd do kterých budeme
klasifikovat). Tato metoda je následována metodou MLLT pro vylepšení vlastností jednotlivých tříd
pro rozpoznávání. Kombinace těchto metod je nazývána HiLDA. Nové příznaky získáme použitím
(26)
AV
AV AV
ötHiLDA = PMLLT
PLDA
ot
(26)
AV
AV
kde matice PMLLT
a PLDA
jsou získány z trénovací množiny označených dat.
2.4.2.1.3
Zvýhodnění audio příznaků
Tento přístup vychází z předpokladu, že vizuální a akustická informace jsou vzájemně korelovány,
protože jsou produkovány stejným hlasovým ústrojím. Proto jestliže máme k dispozici poškozený
akustický signál a nepoškozený vizuální signál, lze pomocí vizuálního [3] nebo audiovizuálního [24]
signálu opravit poškozenou akustickou informaci. Výsledný příznakový vektor otAEnh o dimenzi
původního akustického příznakového vektoru lze získat pomocí lineární transformace
AV
otAEnh = PENH
otAV
(27)
AV
s dimenzí d c * d A získáme tak, že se snažíme najít vztah otAEnh ≈ otAclean podle daného
Matici PENH
měření vzdálenosti. Vektor otAclean představuje nepoškozený akustický příznakový vektor. Matice
AV
PENH
je určena tak, aby původní poškozená data transformovala na otAclean .
2.4.2.2 Kombinace rozhodnutí
V předchozí sekci jsme se zabývali kombinací informace na úrovni pospojování příznaků. Tento
přístup vychází z toho, že oba signály (akustický a vizuální) jsou vždy synchronní. Ukazuje se však, že
vztah mezi oběma signály se velmi mění v závislosti na promlouvané větě, akustickém šumu pozadí,
degradaci video záznamu a charakteristikách jednotlivých řečníků. K modelování těchto změn se
používá kombinace informace pomocí kombinace rozhodnutí, které nám umožňuje postihnout
asynchronnost obou signálů.
- 24 -
Stav poznání
Obrázek 18. Schéma kombinace rozhodnutí, převzato z
Metoda kombinace rozhodnutí opět vychází z poznatků z audio ASR, kde se tento postup používá
např. ke kombinaci příznaků z bank filtrů. Technika kombinace rozhodnutí se může lišit v několika
bodech: použitá architektura (paralelní, kaskádová, hierarchická kombinace), trénování (statické,
adaptivní), množství zpracovávaných hypotéz (všechny kombinace, n-nejlepších). Nejpoužívanější
architekturu představuje použití paralelní architektury s adaptivním nastavováním vah a N-nejlepšími
hypotézami. Tento postup odvozuje nejpravděpodobnější sekvenci slov pomocí lineární kombinace
pravděpodobností pro dva oddělené HMM klasifikátory použitím příslušných vah, viz obrázek 18
[67],[86],[21],[61],[31]. Tento postup je někdy nazýván oddělenou identifikací (angl. separate
identification, SI).
Přístup DF je možné rozdělit do tří základních podoblastí v závislosti na tom na jakém stupni
rozpoznávání je informace kombinována viz tabulka 1. Jsou to „brzká integrace“ (angl. early
integration, EI) [67],[21],[58],[60], „střední integrace“ (angl. intermediate integration, II)
[87],[61],[26] a „pozdní integrace“ (angl. late integration, LI) [84],[17],[61].
Pro kombinaci rozhodnutí existují i přístupy, které místo HMM používají neuronových sítí. Pracují
na velice podobném principu. Pro každý informační proud existuje jedna neuronová síť, která nám
poskytne informaci o zařazení do příslušné třídy a další neuronová síť provede spojení obou
rozhodnutí. Třídy do kterých je klasifikován mezivýsledek, mohou být samozřejmě odlišné
[7],[16],[20],[56]. Jinou možností je použití kombinace neuronových sítí a HMM [74] nebo použití
master-slave HMM [2], kde vrstva master poskytuje částečnou informaci o promluvě získanou
z vizuální složky pro vrstvu slave a omezuje tím prostor tříd, do kterých lze klasifikovat. V případě DF
stejně jako v případě FF nemusí informační proudy představovat pouze akustická a vizuální složka
řeči. Můžeme je různě kombinovat a použít tak např. pospojované audio-vizuální příznaky a audio
příznaky jako dva informační zdroje [73].
2.4.2.2.1
Brzká integrace : Stavově synchronní multi-stream HMM
Brzká integrace dvou informačních zdrojů představuje kombinaci rozhodnutí na úrovni stavů
jednotlivých modelů. Minimalizuje se tím možnost postihnutí asynchronnosti mezi akustickým
a vizuálním signálem. Pro modelování se používá dvou proudové HMM kde výsledná
pravděpodobnost je dána součinem pravděpodobností pro jednotlivé komponenty, které jsou
ovlivněny pomocí příslušných vah. Výslednou pravděpodobnost stavu dvouproudového HMM pro
pozorování otAV získáme z (28).
Pr
[
otAV
 K sc
c =
 wsck ℵDs ots ; m sck , s sck
s∈{A,V } 
 k =1
] ∏ ∑
(



)
λsct
(28)
V rovnici (28) přestavuje λ sct váhy, jejichž hodnota je kladná a jsou funkcí typu informace s, HMM
stavu c ∈ C a času t. Právě použitím těchto vah lze postihnout změnu vlivu akustické a vizuální složky
v průběhu promluvy či pro jednotlivé třídy na úspěšnost rozpoznávání. Váhy se často volí jako
λ Act + λVct = 1. Pro získání všech parametrů modelů HMM je třeba určit hodnoty a AV ze vztahu (22)
a váhy. Pro řešení tohoto problému se používá diskriminační metody trénování [67].
- 25 -
Stav poznání
2.4.2.2.2
Střední integrace : Product HMM
Je známo [6], že pro některé případy aktivita viditelné části řečového ustrojí předchází akustický
signál až o 120 ms, což je skoro průměrné trvání fonému. Použití postupu střední integrace nám
dovoluje modelovat asynchronnost uvnitř modelu a synchronní chování na hranicích jednotlivých
modelů. Pravděpodobnost modelu je dána jako lineární kombinace pravděpodobností na hranici
modelu pomocí příslušných vah podobně jako (28) jak je vidět na obrázku 18.
Obrázek 19. Model HMM pro střední integraci. Vlevo – více proudové HMM synchronní pro jednotlivé
třídy a asynchronní pro jednotlivé stavy. Vpravo – odpovídající smíšené HMM, převzato z
Rozpoznávání založené na střední integraci zajišťuje výpočet nejlepší posloupnosti stavů pro
akustický a vizuální proud uvnitř modelu. Pro zjednodušení výpočtu může být takovýto HMM model
reprezentován pomocí smíšeného HMM. Smíšený model je složen ze stavů c ∈ C × C kde výslednou
pravděpodobnost modelu vypočítáme jako
Pr
[
otAV
 K scs
 w sc k ℵDs ots ; m sc k , s sc k
c =
s
s
s
s∈{A,V } 
 k =1
] ∏ ∑
(




)
λsc s t
(29)
kde c = [c A , cV ]T . Emisní pravděpodobnosti pro jednotlivé stavy získáme z původního modelu tak, že
pravděpodobnosti pro jednotlivé stavy rozložíme do sloupců a řádků tak, jak je to znázorněno na
obrázku 19. Parametry modelu mohou být trénovány buď odděleně, pro audio a vizuální, nebo
společně. Váhy pro jednotlivé proudy musejí být trénovány odděleně.
2.4.2.2.3
Pozdní integrace : Diskriminační kombinační model
Nejvíce používaným typem kombinace rozhodnutí je pozdní kombinace. V případě malých
slovníků nebo rozpoznávání izolovaných slov je problém kombinace řešen výpočtem kombinované
pravděpodobnosti pro každý model slova ze slovníku podle akustického a vizuálního pozorovaní
[84],[17]. Takovýto výpočet pravděpodobností pro všechny prvky slovníku nelze provést pro úlohu
rozpoznávání pospojovaných slov nebo LVCSR, protože zde existuje velmi mnoho možných
kombinací. Řešením je omezit výpočet kombinované pravděpodobnosti pouze pro N-nejlepších
hypotéz. N-nejlepších hypotéz může představovat výběr z audio ASR, pospojovaného
audio-vizuálního vektoru, nebo sjednocení výsledků audio ASR a vizuálního ASR. Pro rozhodnutí je
nejprve vypočteno N-nejlepších hypotéz pro dané promluvy {h1 ,...h N } představovaných sekvencí
fonémů hi {ci ,1 ,...ci , N i } pro audio HMM a vizuální HMM. Hranice jednotlivých fonémů ci , j označíme
[
]
jako tiza, jč,s , tikonec
pro s ∈ {A,V } , kde j = 1,.., N i a i = 1,.., n . Výsledná kombinovaná pravděpodobnost je
, j,s
vypočítána jako (30).
- 26 -
Stav poznání
Pr[hi ] ≈ PrLM (hi )λLM
Ni
∏
∏ Pr (o , t ∈ [t
{ }
s
t
s∈ A,V
zač
konec
i , j ,s , ti , j ,s
]c )
i, j
λsci , j
(30)
j =1
PrLM (hi ) představuje pravděpodobnost hypotézy hi danou jazykovým modelem.
2.4.2.3 Nastavování vah
Jak bylo uvedeno v předchozích odstavcích váhy λ sct je třeba nastavit z trénovací množiny. Pro
zjednodušení jejich trénování se váhy často nastavují konstantní pro všechny stavy jednotlivých tříd či
pro všechny třídy. Audio vizuální váhy jsou trénovány tak, aby dané modely co nejlépe postihovaly
trénovací množinu. Problém nastává při použití takovéhoto systému na reálná data. Jestliže totiž
pracujeme s reálnými daty, pak se může velmi měnit kvalita audio-vizuálního záznamu a tím
i množství informace obsažené v akustické nebo vizuální složce řeči. Jestliže tedy používáme systém
s konstantními váhami, bude úspěšnost rozpoznávání velmi kolísat s měnící se kvalitou záznamu. Ke
kompenzaci této závislosti se používá metoda odvození vah v závislosti na kvalitě signálu. Existují
dvě základní metody: zjistit kvalitu signálu a poté přepočítat váhy získané z trénovací množiny, nebo
nalézt funkční závislost mezi kvalitou signálu a hodnotou vah.
V prvním případě musí být nalezeny hodnoty vah z trénovací množiny nebo z held-out dat. Řešení
této úlohy je velmi složité a provádí se pomocí metody diskriminačního trénování. Jestliže problém
omezíme a používáme globální váhy stejné pro všechny třídy, pak se řešení redukuje na jedno
dimenzionální optimalizaci a může být použita metoda „simple grid search“ [25]. Pro natrénování vah
rozdílných pro jednotlivé třídy se používá „downhill simplex method“ [61].
Jestliže chceme postihnout kvalitu jednotlivých informačních zdrojů musíme postihnout závislost
vah na této kvalitě. Nejvíce rozšířenou metodou je odvození vah z kvality audio kanálu a to
v závislosti na hodnotě poměru signál-šum (angl. signal-to-noise ratio, SNR). Předpokládá se znalost
SNR pro každou promluvu, nebo je tato hodnota odvozena z audio kanálu [17]. Poté jsou upraveny
váhy pro celou tuto promluvu.
Techniky nastavení vah podle audio kanálu nepostihují možnost degradace vizuální složky řeči,
která může vzniknout při záznamu či při kompresi dat. Modelování této závislosti je poměrně obtížné
neboť metoda přímého zjištění degradace obrazu neexistuje. Neti [61] používá měření entropie
a odchylky výsledků audio a vizuálního rozpoznávání jako důvěryhodnosti audio a vizuálního
rozpoznávače.
2.4.3 Adaptace na řečníka
Adaptace na řečníka je velmi často využívána v klasických systémech audio ASR pro vylepšení
nezávislosti systému na řečníkovi, jestliže je k dispozici malá množina dat o promluvě daného řečníka.
V případě audio-vizuálního ASR je tento problém velmi důležitý, neboť audio-vizuální korpusy jsou
často nevyhovující a jejich záznam je drahý. Základní princip metody je v tom, že máme
audio-vizuální data potřebná k adaptaci a známé řečníkově nezávislé modely HMM, které se snažíme
upravit podle charakteristik získaných z dat tak, aby nové HMM modely lépe postihovaly daného
řečníka. Pro adaptaci na řečníky byly vyvinuty dvě základní metody. Metoda „maximum likelihood
linear regresion“ (MLLR) a „maximum-a-posteriori“ (MAP). Metoda MLLR pracuje na principu
transformace středních hodnot HMM modelů, ovšem kovarianční matice, váhy směsí
a pravděpodobnosti přechodů zůstávají stejné. Metoda pracuje pouze s malým množstvím dat
o řečníkovi (rapid adaptation). Metoda MAP pak mění jak střední hodnoty, tak hodnoty přechodových
pravděpodobností. Nejčastěji se používá kombinace obou metod MLLR a MAP. Tyto metody jsou
používány jak v případech kombinace příznaků [65], tak v kombinaci rozhodnutí [70]. Adaptace na
řečníka může být provedena již na úrovni po zpracování příznaků a to úpravou matic pro LDA
a MLLT a v případě použití kombinace příznaků použitím HiLDA mechanizmu [65].
- 27 -
Stav poznání
2.5
Databáze
Ve světě existuje velmi mnoho korpusů pro audio ASR, které obsahují velké množství řečníků,
různé druhy promluv a degradací signálů. V oblasti audio-vizuálního rozpoznává existuje takovýchto
korpusů jen velmi málo. Je to způsobeno tím, že oblast audio-vizuálního ASR je poměrně mladá, ale
také tím, že vytváření audio vizuálních databází sebou přináší větší problémy při pořizování,
skladování a distribuci dat, které se u audio databází nevyskytují. Získávání vizuálních dat s velkým
rozlišením, počtem snímků a kvalitou synchronizovaných s audio daty vyžaduje drahý hardware
a vyřešení skladování a distribuce. Největším problémem je, že tyto korpusy právě s ohledem na
finanční náročnost jejich pořizování vznikají v rámci jednotlivých projektů na jednotlivých
univerzitách či u jednotlivých výzkumníků. Takové podmínky negativně ovlivňují kvalitu těchto
korpusů. Korpusy nejčastěji obsahují malé množství řečníků, což znemožňuje vyvinout metody
spolehlivě fungující pro širokou populaci. Délka promluv je velmi omezená, a to představuje problém
nenatrénování statisticky založených modelů či nemožnost odlišit rozdíly mezi jednotlivými přístupy
zpracování. V poslední řadě se tyto korpusy používají pro jednoduché úlohy jako je rozpoznávání
izolovaných nebo pospojovaných slov s malým slovníkem. Samostatným parametrem databází je
variabilita pozadí vizuálního záznamu, změna polohy hlavy řečníka, změna osvětlení scény či
přítomnost více osob.
Obrázek 20. Příklady audio-vizuálních databází. Zleva doprava – XM2VTSDB, Huang (infračervená
kamera), CUAVE, ViaVoiceTM, převzato z [57],[32],[62],[69]
První databáze použití pro audio-vizuální ASR byla vytvořena Petajanem v roce 1984. Obsahovala
100 izolovaných anglických slov, písmena a číslice, které byly 2-10 opakovány jedním řečníkem při
neměnném osvětlení a poloze hlavy řečníka.
Velké množství databází se zaměřuje na úlohu rozpoznávání samohlásek (angl. vowels,V),
souhlásek (angl. consonants, C) nebo přechody mezi nimi. Například Adjoudani (Adjoudani 1996)
představil korpus s jedním řečníkem a 54 promluvami V1CV2CV1 pro Francouzštinu. Su [84]
vytvořil jedno-řečníkový korpus aCa pro rozpoznávání 22 anglických souhlásek. Tessier [86]
zkompletoval databázi pro rozpoznávání francouzských samohlásek pro jednoho řečníka. Czap [18]
provádí rozpoznávání maďarských souhlásek a samohlásek na korpusu s jedním řečníkem a V1CV1,
C1VC1 slovech.
Dalším typem databází jsou databáze pro rozpoznávání izolovaných či pospojovaných číslic.
Databáze Tulip 1 [59] obsahuje nahrávky 12 řečníků promlouvajících číslice 1-4. Databáze M2VTS
sestává z číslic 0-9 pro 37 řečníků převážně ve francouzštině [64]. Rozšířená verze této databáze je
XM2VTS obsahující promluvy od 295 řečníků kompletně v anglickém jazyce [57]. Dalším korpusem
obsahujícím trojice číslic od jednoho řečníka je NATO RSG10. Nejnovější databáze obsahující velké
množství řečníků a pospojované číslice byly vytvořeny na Univerzitě v Illinois (100 řečníků) a na
Clemsonské univerzitě (36 řečníků, databáze CUAVE) [62].
Rozpoznávání izolovaných či pospojovaných písmen představuje další typ databází. Bregler [7]
sestavil databázi německých pospojovaných písmen od šesti řečníků. Krone [44] pracoval na databázi
s jedním řečníkem a izolovanými německými písmeny. Jedno nebo dvou řečníkové promluvy
- 28 -
Stav poznání
pospojovaných francouzských písmen se objevují v pracích [1],[2],[74]. V pracích [52],[17] se
objevuje databáze 10 řečníků a izolovaných anglických písmen. Pospojovaná anglická písmena od 49
řečníků obsahuje práce [68].
Posledním typem rozpoznávání izolovaných jednotek je rozpoznávání izolovaných slov. Silsbee
[79] sestavil databázi s jedním řečníkem a pěti sty izolovanými slovy. Izolovaná slova od jednoho
řečníka z oblasti ovládání rádia obsahuje databáze v práci [37]. Databáze v článku [36] obsahuje 10
řečníků a izolovaná slova se slovníkem 78 slov. Jedno-řečníková databáze japonských izolovaných
slov je použita v [60]. S databází německých izolovaných slov od jednoho řečníka pracuje Kober [40].
Pro rozpoznávání spojité řeči existuje pouze několik málo databází, které jsou omezeny použitím
malého slovníku. Databáze TIMIT obsahuje nahrávky od jednoho řečníka, který promlouvá třikrát 150
vět (Goldschen 1996). Chan [34] vytvořil databázi s jedním řečníkem a 400 větami obsahujícími
vojenské příkazy. Rozšířená verze této databáze pro více řečníků a slovníkem o 101 slovech je
popsána v práci [38].
Další možné dělení audio-vizuálních databází představuje pohled na podmínky video záznamu.
Většina prací používá nahrávky v laboratorním prostředí s neměnnou polohou hlavy, kdy je zabírán
právě obličej řečníka či pouze rty řečníka při neměnném osvětlení a pozadí scény [6],[59].
Významným kritériem vizuálních dat je zastoupení různých řečníků (barva pleti, brýle, vousy, vlasy)
a podpůrná informace, kterou lze využít při rozpoznávání či vyhledávání rtů.
Databáze vytvořená Pattersonem [62] představuje řečníky různé barvy pleti, více řečníků
v jednom záznamu, více pozadí pro stejné řečníky a promluvy a ručně vybrané vzorky lidské kůže či
rtů. Databáze XM2VTSDB [57] obsahuje nahrávky řečníků pro různé pozice hlavy. Cosi [16] používá
databázi obsahující vizuální nahrávky ze dvou různých kamer pro získání prostorové informace.
Databáze popsaná v článku [95] představuje nahrávky promluv řidiče automobilu při změnách polohy
hlavy a osvětlení. Chan [33] používá kameru umístěnou pevně na hlavě řečníka snímající pouze oblast
rtů řečníka. Databáze vytvořená Yoshinagou [93] obsahuje promluvy řečníka snímané z bočního
pohledu a databáze z práce [32] používá k záznamu kameru zachycující infračervené záření umístěnou
pevně na hlavě řečníka.
Nejvýznamnější a nejrozsáhlejší databází je databáze IBM ViaVoiceTM. Tato databáze je určena
pro rozpoznávání spojité řeči nezávislém na řečníkovi. Databáze představuje záznam celé tváře 290
řečníků z čelního pohledu, kteří promlouvají věty z ViaVoiceTM skriptu, což představuje spojitě čtenou
řeč. Video záznam má rozlišení 704*480 pixelů, prokládaně s frekvencí 30 Hz (poloviční počet řádků
pro 60 Hz). Barevný záznam je uložen s kompresí Mpeg2 s relativně velkou kompresí. Audio záznam
synchronní z video záznamem má parametry 16 Khz a 19.5 SNR. Délka záznamu je 50 hodin
a obsahuje 24 325 přepsaných vět se slovníkem o velikosti 10 403 slov. Doplněk databáze představují
nahrávky 50 řečníků promlouvajících pospojované číslice. Tato část obsahuje 6689 promluv sedmi či
deseti pospojovaných číslic.
2.6 Výsledky metod na různých úlohách a srovnávací výsledky
parametrizací
Úspěšnost metod použitých pro audio-vizuální rozpoznávání řeči lze porovnat pomocí dosažených
výsledků. Jak bylo uvedeno v 2.5, existuje jen velmi málo kvalitních korpusů pro audio-vizuální ASR.
Většina prací vytváří databáze specializované pouze na ověření úspěšnosti vyvíjeného přístupu. Jen
velmi málo prací se zabývá porovnáním jednotlivých metod výběru a pospojování příznaků na stejném
korpusu. Když už je korpus použit v různých pracích, pak jsou často provedeny odlišné typy
experimentů. To vede k velmi složitému porovnávání úspěšnosti jednotlivých přístupů.
V následujících podkapitolách budou uvedeny výsledky odlišných přístupů na odlišných typech
- 29 -
Stav poznání
databází jak pro vizuální, tak pro audio-vizuální rozpoznávání. Z těchto výsledků je možné určit pro
jakou úlohu je možné využít daný postup.
Největší prostor pro porovnání přístupů audio-vizuálního ASR poskytuje databáze ViaVoiceTM,
proto byla vybrána pro provedení srovnávacích testů během Johns Hopkins summer 2000 workshop.
Výsledky jednotlivých testů pro vizuální a audio-vizuální rozpoznávání jsou srovnány v kapitole 2.6.1
a 2.6.2 a byly přejaty z prací [61],[23],[50],[54],[69],[66],[24],[25].
2.6.1 Vizuální ASR
Úloha
Poč.
řeč.
Klasif.
Příznaky
Výsledky
%
28
20.2
44
(WER)
Spec.
Odkazy
Izolovaná slova
(78)
10
HMM/10
DCT dyn.
Stat+dyn
Porovnání DCT,
Haar, Hadamar
[76]
M2VTS
37
HMM/39
[49]
17*10 slov
1
HMM/8
Tvarové
87
Použití fourierových
popisovačů
[28]
50
HMM/36
DCT
54.04
Obměna DCT
[45]
1
AAN
DCT
28
(WER)
Obměna DCT
[30]
Tulip1
12
HMM/6
Obrazové
+tvarové
90.62
Člověk trén. 95.49
Netrénovaný 89.93
[51]
Izolovaná slova
(10)
1
HMM/8
ASM+PCA
94
Modifikace PCA
[37]
M2VTS
37
GMM
Obrazové
90
Obrazové příznaky z
tvaru
[89]
Izolovaná
písmena (A-J)
1
-
Eigensequence
95
Tulip1
12
HMM/5
DCT
94.8
CVC (54)
1
ANN
Tvarové
81
Tulip1
12
HMM
Low-pass +delta
90.6
Izolovaná slova
(22)
Spojité číslice
(10)
708 promluv
[22]
[46]
Normalizace jasu a
pozice
Popis rtů pomocí
elips
Porovnání
obrazových příznaků
[88]
[18]
[27]
Tabulka 2. Shrnutí metod V ASR.
2.6.2 Audio-vizuální ASR
Úloha
Poč.
řeč.
Klasif.
Příznaky
Kombinace
Izolovaná
lsova (78)
10
HMM
Tvarové (3),
LPCC
FFpospojování
M2VTS
-
HMM/
3-9
[49], PLP
DF-střední
- 30 -
Výsledky %,
čisté/SNR dB
/zašuměné
A-81 AV-82 /
16 / A-9 AV-37
A-3.4 AV-2.6 /
10 / A-54 AV-
Odkazy
[33]
[22]
Stav poznání
Izolovaná
slova (10)
1
HMM/8
Tvarové,
MFDWC
DF-pozdní
Spojité číslice
(10)
1
NN
DCT, PLP
DF
Izolovaná
písmena
10
HMM/
A4 V9
PCA, MFCC
DF-pozdní
Pospojovaná
písmena(3-8)
6
MLP/
HMM
ACM, RASTA
PLP
DF-střední
Samohlásky
(10)
1
HMM
Tvarové,
MFCC
aCa (C-22)
1
HMM
Tvarové,
RASTA PLP
HMM/5
Tvarové,
MFCC
Pospojované
číslice (11)
100
Porovnání
3*DF a FF
Porovnání
DF a FF
Výsledky DF
DF-střední
23 (WER)
A-100 AV-100
/ 6 / A-31 AV92
A-4 AV-4 / 3 /
A-31 AV-15
(WER)
A-90 AV-87 / 5
/ A-52 AV-65
A-11 AV-10.1 /
5 / A-56.1 AV48 (WER)
[28]
[30]
[48]
[6]
-
[86]
A-89 AV-91 / 5
/ A-16 AV-33
[84]
A-95.6 AV97.2 / 5 / A24.2 AV-53.3
[38]
Tabulka 3. Výsledky metod A-V ASR. Výsledky rozpoznávání jednotlivých metod jsou uvedeny ve
formátu nezašuměná data / podmínky pro zašuměná data / výsledky pro zašuměná data v daných
podmínkách.
2.6.3 Experimenty na databázi IBM ViaVoice
2.6.3.1 Popis systému
Schéma celého systému je zobrazeno na obrázku 21. Jako vizuální příznaky je možné použít buď
obrazové nebo vzhledové příznaky. Jako první krok je provedeno nalezení středu a velikosti rtů ve
videozáznamu promluvy řečníka s frekvencí 60 Hz pomocí algoritmu popsaného v článku [77]. Tento
postup nalezne normalizovanou oblast ROI o dané velikosti. Poté je proveden výpočet příznaků z této
oblasti použitím některé z metod popsané v sekci 2.1.1. Na vybrané příznaky je aplikováno několik
metod po zpracování příznaků. Nejprve je provedena interpolace z 60Hz na 100 Hz, poté normalizace
podle střední hodnoty, která zlepší robustnost při změnách jasu a umístění rtů. Pomocí metod LDA
a MLLT se redukuje počet příznaků a následuje zachycení dynamických příznaků řeči pomocí
pospojování 15-ti po sobě jdoucích příznakových vektorů. Opětné použití LDA a MLLT opět sníží
počet příznaků vizuálního vektoru oVt a zlepší vlastnosti tříd pro statistické modelování dat.
Vzhledové příznaky byly pořizovány pomocí metody AAM s frekvencí 30 Hz ze stejného video
záznamu promluvy. Tento příznakový vektor obsahuje 6000 obrazových bodů a 134 bodů popisujících
tvar modelu. Použitím PCA je snížena dimenze na 86 a následným použitím po zpracování , stejným
jako pro obrazové příznaky, na 41 prvků.
Pro akustickou část je použito klasických audio příznaků MFCC extrahovaných s frekvencí
100 Hz. Získaný vektor s dimenzí 24 popisuje statické příznaky. Stejně jako pro vizuální příznaky je
použita normalizace podle střední hodnoty a pospojování vektorů pro získání dynamické informace.
Použitím LDA a MLLT upravíme vektor otA na dimenzi 60. Získaný vizuální a akustický příznakový
vektor je nyní možné libovolně kombinovat pomocí metod popsaných v sekci 2.4.2.
Podmínky
Úloha
Normální
LVCSR
Číslice
Trénovaní množina
poč.
čas
řeč.
17111 34:55 239
5490
8:01
50
Held-out množina
poč. čas řeč.
2277 4:47 25
670 0:58 50
- 31 -
Adaptační množina
poč.
čas
řeč.
855 2:03
26
670 0:58
50
Testovací množina
poč.
čas řeč.
1038 2:29 26
529 0:46 50
Stav poznání
Poškozené
LVCSR
Číslice
N/A
N/A
N/A
N/A
50
80
0:11
0:08
1
1
50
60
0:11
0:06
1
1
Tabulka 4. Audio-vizuální databáze a její rozdělení na jednotlivé části. Části představují trénovací,
held-out, adaptační, testovací množiny (vždy je uveden počet promluv, délka trvání celé množiny
v hodinách, počet řečníků). Pro úlohu rozpoznávání spojité řeči s velkým slovníkem (LVCSR) a pro úlohu
rozpoznávání pospojovaných číslic (Číslice) byla pořízen normální a poškozený záznam. Pro úlohu
normální Číslice je množina Held-out a adaptační množina identická. Pro úlohu rozpoznávání
z poškozených dat byla z důvodu nedostatku použitelných dat použita metoda adaptace modelů HMM
natrénovaných pomocí dat z normální části databáze.
Obrázek 21. Schéma systému audio-vizuálního rozpoznávání použitého pro experimenty s databází
ViaVoiceTM, převzato z [69]
Pro srovnávací experimenty byla použita již zmíněná ViaVoiceTM databáze. Tato databáze byla
rozdělena na několik částí tak, aby bylo možné natrénovat a přizpůsobit modely jednotlivým
podmínkám. Rozdělení databáze je znázorněno v tabulce 4. V případě LVCSR i Číslice je pro výpočet
matic pro LDA a MLLT a pro natrénování modelů HMM použita trénovací množina. Část Held-out je
použita pro vyladění parametrů vztahujících se k audio vizuální kombinaci a dekódování (nastavení
vah pro více proudové HMM a jazykový model. Pro zajištění natrénování modelů HMM je použita
testovací množina. Adaptační množina může být použita pro nastavení parametrů HMM nebo celého
systému tak, aby postihl charakteristiky jednotlivých řečníků. V případě LVCSR úlohy jsou pro části
trénovací, Held-out a testovací použita data od různých řečníků a to dovoluje rozpoznávání nezávislé
na řečníkovi. V úloze Číslice jsou pro tyto množiny použita data od všech 50 řečníků, a proto se jedná
o úlohu více-řečníkových experimentů. V případě Poškozených nahrávek je délka promluv příliš
krátká pro úspěšné natrénování HMM modelů a proto se použijí HMM modely natrénované z dat pro
normální úlohy LVCSR a Číslice a poté se provede adaptace použitím adaptační množiny
poškozených dat.
Aby bylo možné zjistit přínos vizuální složky pro audio-vizuální rozpoznávání řeči v hlučných
prostředích, byla data uměle zašuměna použitím přídavného nestálého šumu „bubble“ s proměnným
SNR. Výsledky mohou být poté prezentovány pro rozsahy [-1.5,19.5] dB pro LVCSR a [-3.5,15.5] dB
pro Číslice. Všechna potřebná trénovaní a výpočty matic se provádí pro daná zašuměná data. Oproti
audio složce zůstává vizuální kanál nezašuměn. V praxi se však může vyskytnout velké množství
různých druhů degradace jako přídavný šum, rozmazání, snížení frekvence snímání a vysoká
- 32 -
Stav poznání
komprese obrazu. Některé práce se snaží určit závislost metod Lipreadingu právě na těchto
vlastnostech [68],[90].
Pro ASR experimenty byla použita metoda, kdy je nejprve pomocí IBM research dekodéru (Hark)
rozpoznána mřížka (lattice) z HMM natrénovaných IBM a ta je poté modifikována použitím
trifónových kontextově nezávislých HMM pro rozdílné typy příznaků použitím HTK. Pro tyto potřeby
byly vygenerovány tři skupiny mřížek, které jsou založeny na čistých audio (19.5 dB), zašuměných
audio a zašuměných audio-vizuálních (8.5 dB) příznacích získaných pomocí HiLDA kombinace.
Pro případ LVCSR je použito úplného slovníku (10 403 slov) a trigramového jazykového modelu.
Rozpoznávání pospojovaných číslic používá slovník jedenácti číslic („zero“ až „nine“ včetně „oh“).
2.6.3.2 Výsledky
2.6.3.2.1
Vizuální rozpoznávání
Pro rozpoznávání řeči pouze z vizuální složky byla použita audio mřížka, která byla upravena
pomocí HMM modelů natrénovaných pomocí několika druhů vizuálních příznaků. Pro rozpoznávání
byla použita kombinace tvarových příznaků (AAM příznaky) s příznakovým vektorem o dimenzi 86
a tři druhy obrazových příznaků s příznakovým vektorem dimenze 24: DCT, PCA a DWT. Na
všechny vektory byly aplikovány operace následného zpracování viz obrázek 21. Pro DWT příznaky
byl použit Daubechian class wavelet filter. Výsledky rozpoznávání pro úlohu LVCSR jsou znázorněny
v tabulce 5. Nejlepších výsledků bylo dosaženo použitím DCT příznaků. Je nutné poznamenat, že
výsledky nemohou být reprezentovány pouze jako vizuální rozpoznávání, neboť postup využívá audio
rozpoznávání následovaného přepočtem sítě rozpoznaných hypotéz pomocí vizuální složky. Všechny
obrazové příznaky mají nižší chybu rozpoznávání (angl. word error rate, WER) (max 59.4%) než
použití samotného jazykového modelu pro LM nejlepší cestu (62%). Příznaky AAM dosáhly hodnoty
WER 64 % což je více než pro jazykový model a mělo by to být způsobeno pod trénováním modelu
pro AAM.
Forma
Metoda
WER
Metoda WER
DCT
58.1 Akustická
MFCC(šum)
55.0
DWT
58.8
Oracle
31.2
Vizuální
PCA
59.4
Žádná
Anti-Oracle
102.6
AAM
64.0
LM nejlepší cesta 62.0
Forma
Tabulka 5. Porovnání výsledků rozpoznávání pro různé vizuální příznaky pro úlohu LVCSR nezávislého
na řečníkovi. Výsledky rozpoznávání jsou uvedeny jako chyba rozpoznávání v %. Pro rozpoznávání je
použita modifikovaná mřížka, která byla předem získána pouze pomocí MFCC příznaků získaných ze
zašuměných audio dat (8.5 dB SNR). Pro možnost porovnání je uvedena WER pro charakteristické
mřížky (Oracle, Anti-oracle, LM nejlepší cesta založené pouze na jazykovém modelu).
Výsledky čistě vizuálního rozpoznávání, kdy bylo provedeno přímé rozpoznávání bez použití
přepočtu mřížky jsou samozřejmě mnohem horší. WER pro úlohu LVCSR založené na MLLT
adaptaci na řečníka dosahuje hodnoty 89.2 % pro použití DCT příznaků [66]. Použitím vetší oblasti
pro ROI a více vektorů pro získání dynamické informace lze dosáhnout zlepšení WER na 82.3 %.
Výsledky pro úlohu Číslice jsou však mnohem lepší než pro úlohu LVCSR, neboť tato úloha je řádově
jednodušší. Nejlepšího výsledku pro tuto úlohu bylo dosaženo použitím MLLT adaptace na řečníka.
Chyba rozpoznávání slov byla poté 16.8 %.
2.6.3.2.2
Audio-vizuální rozpoznávání
Všechny experimenty pro audio-vizuální ASR používají systém popsaný v sekci 2.6.3.1 s DCT
vizuálními příznaky. Pro určení úspěšnosti audio-vizuálního rozpoznávání byly provedeny dvě sady
testů. První pracuje pouze s dvěma druhy audio signálu, a to s čitým audio (19.5 dB SNR)
a zašuměným (8.5 dB SNR). Pro čistá data byl použit přístup přepočítání mřížky vygenerované na
- 33 -
Stav poznání
základě čistých akustických dat. Pro případ zašuměných dat byla použita mřížka určená z HiLDA
příznaků. Výsledky jednotlivých přístupů jsou shrnuty v tabulce 6. Všechny metody využití vizuální
informace dosahují lepších výsledků v případě zašuměných dat než samotné audio ASR
(Audio-48.1 %, nejhorší AV-40.0 %). V případě rozpoznávání čistých dat došlo ke zlepšení pouze u 4
metod kombinace informace. V případě pospojování vektorů došlo ke zhoršení ze 14.44 % u audio
rozpoznávání na 16 %. Použití kombinace rozhodnutí s kombinovaným HMM (AV-MS-PROD) se
společně trénovanými audio-vizuálními komponenty vylepšilo rozpoznávání na 14.19 %. Použití
kombinace rozhodnutí pomocí více proudového HMM, kde se váhy získávaly pomocí metody
průměrného zastoupení hlasu v každé promluvě (AV-MS-UTTER) dosáhlo 13.47 % WER. Metodu
pozdní integrace představuje metoda (AV-DMC) s hodnotou 13.65 % WER. Jestliže porovnáme
přístupy kombinace příznaků a kombinace rozhodnutí, pak nejlepší výsledek FF je horší než nejlepší
výsledek DF.
Metoda
Bez šumu Zašuměné
Metoda
Bez šumu Zašuměné
AUDIO
14.44
48.10
AV-MS-joint(DF)
14.62
36.61.
AV-pospoj(FF)
16.00
40.00
AV-MS-Sep(DF)
14.92
38.38
AV-HiLDA(FF)
13.84
36.99
AV-MS-PROD(DF)
14.19
35.21
AV-DMC (DF)
13.65
-----AV-MS-UTTER(DF)
13.47
35.27
Tabulka 6. Výsledky audio-vizuálního rozpoznávání pro úlohu LVCSR pro různé metody kombinace
informace.
Druhý typ experimentů byl proveden pro plné rozpoznávání pro jednotlivé přístupy kombinace
informace (není použita předem rozpoznaná mřížka) pro úlohu LVCSR a Číslice. Pro tento experiment
bylo použito několik stupňů zašuměného signálu tak jak to popisuje sekce 2.6.3.1 Všechny tři metody
kombinace příznaků jsou porovnány s metodou kombinace rozhodnutí, kterou reprezentuje metoda
AV-MS-joint. Výsledky experimentů jsou zobrazeny na obrázku 22. Z grafů je zřejmé, že použití
HiLDA kombinace příznaků je lepší než použití pospojování příznaků či audio-enhancement. Pro
případ čistého audia je WER pro HiLDA 11.59 % oproti pospojován příznaků 12.76 %. WER pro
audio rozpoznávání je v tomto případě 12.37 %. V případě zašuměných dat (-1.5 dB SNR) jsou
výsledky pro HiLDA 48.63 %, audio 92.16 %, pospojování 50.76 % a audio-enh. 63.45 %. Podobné
výsledky jsou prezentovány i pro úlohu Číslice. Při porovnání výsledků rozpoznávání FF a DF
vychází lépe metoda kombinace rozhodnutí, kdy pro zašuměná data LVCSR (-1.5 db SNR) je
výsledná WER 46.28 %. Jako ukazatel úspěšnosti jednotlivých metod je možné použít SNR gain,
který udává hodnotu SNR, o kterou se zlepší podmínky signálu při použití dané metody. Je měřen od
hodnoty WER pro audio rozpoznávání pro zašuměná data 10dB. Metoda DF poskytuje zisk 7dB pro
úlohu LVCSR a 7.5dB pro úlohu Číslice.
Obrázek 22. Výsledky rozpoznávání pomocí různých druhů kombinace informace pro úlohy zašuměných
dat pro LVCSR a Číslice. Metody AV-enh, AV pospoj a AV-HiLDA představují kombinaci příznaků
a metoda AV-MS-joint kombinaci rozhodnutí. Ukazatelem úspěšnosti metod je SNR gain, který je vztažen
- 34 -
Stav poznání
vždy k hodnotě WER pro audio podmínky 10 db. Všechny metody využití audio-vizuální kombinace
vylepšují rozpoznávání při zašuměném audio signálu, převzato z [65]
2.6.3.3 Adaptace na řečníka
Pro ověření metody adaptace na řečníka byly provedeny testy s částí databáze ViaVoiceTM
Poškozené. Tato data byla namluvena jedním řečníkem a jejich množství nepostačuje k natrénování
HMM modelů. Proto na nich lze vyzkoušet metody adaptace na řečníka. Výsledky jednotlivých metod
jsou shrnuty v tabulce 7. Rozpoznávání v případě úlohy LVCSR bylo provedeno pouze s omezeným
slovníkem 537 slov.
Jako první byly implementovány metody MLLR a MAP pro adaptaci HMM modelů. Adaptace
byly provedeny pro akustické, vizuální a audio-vizuální příznaky. Metody MAP a MLLR dosahují
podobných výsledků. Jestliže je použita metoda MLLR následovaná metodou MAP, pak dojde
ke zlepšení z 106.014% pro neadaptované na 41.2% WER pro LVCSR a z 24.801% na 0.99% WER
pro Číslice. Jako poslední metoda byla implementována adaptace celého procesu audio-vizuálního
rozpoznávání. Kombinace metody změny HMM a matic pro metody LDA a MLLT dosahuje hodnot
41.657% pro LVCSR a 0.99% WER pro Číslice.
Úloha
Metoda
Informace
Neadaptované
MLLR
MAP
MAP+MLLR
Mat+MAP
Mat+MAP+MLLR
LVCSR
A
116.022
52.044
52.376
47.624
52.928
50.055
V
136.359
110.166
101.215
95.027
98.674
93.812
AV
106.015
42.873
44.199
41.216
46.519
41.657
Číslice
A
52.381
3.770
3.373
2.381
3.968
2.381
V
48.016
16.667
12.103
10.516
8.730
8.531
AV
24.801
0.992
1.190
0.992
1.190
0.992
Tabulka 7. Výsledky rozpoznávání pro úlohu LVCSR a Číslice pro různé metody na části databáze
ViaVoiceTM Poškozené. Výsledky jsou uvedeny v % WER pro rozpoznávání využitím audio (A), vizuální
(V) a audio vizuální informace (AV). Metody využívají modelů HMM natrénovaných pomocí Normální
části databáze a poté provedou adaptaci pomocí části Poškozené. Metody MLLR a MAP provádí adaptaci
modelů HMM, metoda Mat provádí adaptaci celého systému ASR.
2.6.4 Shrnutí
Jestliže chceme provést srovnání jednotlivých druhů příznaků, narážíme na problémy. Z tabulek
v 2.6.3.2.1 a v 2.6.3.2.2 můžeme říci že nejčastější úlohou vizuálního nebo audiovizuálního
rozpoznávání je rozpoznávání izolovaných slov (10-100) pro jednoho až dvanáct řečníků, kde se
úspěšnost vizuálního rozpoznávání pohybuje kolem 85%. Úspěšnost audiovizuálního rozpoznávání
v úlohách bez šumu je maximálně o jedno procento lepší než rozpoznávání z akustické složky. Pro
úlohu (6 dB) je úspěšnost audiovizuálního rozpoznávání zhruba o 30 procent lepší než rozpoznávání
bez využití vizuální informace. Nejčastějším typem vizuálních příznaků jsou obrazově orientované
příznaky založené na DCT.
Porovnání příznaků stejného typu je dostupné z mnoha prací [27],[68],[54]. Porovnání příznaků
různých typů je problematické neboť vyžaduje implementaci algoritmů pro jejich extrakci. V práci
[53] je porovnán přístup AAM s ASM. Aktivní vzhledový model poskytuje lepší výsledky při
vizuálním rozpoznávání. Potamianos [68] porovnává několik druhů obrazových příznaků
s geometrickými příznaky. Nejlepší výsledky poskytují obrazové příznaky založené na vlnkové
transformaci. Tyto experimenty však většinou pracují s malou množinou dat a řečníků a soustřeďují se
na problém rozpoznávání izolovaných slov. Matthews [54] porovnává několik druhů obrazových
příznaků s AAM na databázi IBM-ViaVoice, která bude popsána dále. Výsledek však nedopadl podle
očekávání a všechny obrazové příznaky byly lepší než AAM. Zdůvodněním bylo nedostatečné
natrénování modelu pro AAM. Z těchto experimentů je zřejmé, že nelze provést jednoznačné
rozhodnutí jaké příznaky jsou nejlepší. Abychom byli schopni rozhodnout, musel by se provést test
všech možných přístupů na kvalitní databázi.
- 35 -
Vlastní přínos
3
Vlastní přínos
3.1
Parametrizace
Jak již bylo uvedeno v kapitole 2.1, vizuální parametrizace se rozdělují na tři druhy. Na obrazově
orientované, tvarově orientované a kombinaci obou předchozích. Poslední typ (kombinace) je pouze
složením parametrizací předchozích dvou druhů. Tyto dva odlišné typy parametrizací vznikly na
základě odlišného pohledu na popis vizuální složky řeči. Bez ohledu na typ parametrizace by však
popis vizuální složky měl splňovat základní předpoklady jako je nezávislost na řečníkovi,
diskriminativnost základních řečových jednotek, nezávislost na změně řečových jednotek vlivem
koartikulace2. Dalším kritériem na vizuální parametrizaci je samozřejmě i rychlost výpočtu a závislost
parametrizace na osvětlení či nepřesném výběru ROI. Protože cílem disertační práce je návrh nové
parametrizace vizuální složky řeči je třeba se seznámit s výhodami a nevýhodami obou metod popisu.
3.1.1 Popis problémů stávajících parametrizací
3.1.1.1 Obrazově orientované parametrizace
Tento typ popisu vizuální řečové složky se odvíjí od popisu celé oblasti ROI získané pomocí
metody headtracking. Existuje celá řada typů obrazových parametrizací, které se liší pouze metodou
výběru N příznaků z M bodů oblasti ROI. Tento výběr nebo také redukce dimenze příznakového
vektoru pracuje se šedotónovými nebo barevnými hodnotami všech bodů ROI. Například metoda
používající DCT kompresi obrazu provádí frekvenční popis scény obrazu. Výsledkem metody DCT je
dvourozměrné frekvenční spektrum, které popisuje danou scénu. Výsledný příznakový vektor je poté
vytvořen např. z N koeficientů popisujících frekvence s největší energií. Tyto příznaky většinou
odpovídají nízkým frekvencím, které zjednodušeně řečeno popisují souvislé plochy v obraze.
Z uvedeného je zřejmé, že jestliže oblast zájmu bude vybírána chybně a bude obsahovat i jiné objekty
než pouze ty podle nichž byly příznaky vybrány, bude tento chybný výběr ROI ovlivňovat samotnou
parametrizaci. Další vliv na příznakový vektor bude mít i osvětlení scény, které způsobí změnu jasu či
barvy popisovaných objektů. Poslední nevýhodou metody je, že není možné určit co přesně jednotlivé
příznaky ve vstupním obraze popisují a není tedy možné využít poznatků o tvorbě a rozpoznání
vizuální složky řeči u člověka. Na druhou stranu velmi velkou výhodou obrazově orientovaných
parametrizací je rychlost jejich výpočtu a to že nepotřebují další předzpracování obrazu ve formě
nalezení kontury rtů. V poslední době se začínají objevovat práce, které se soustředí na výběr
obrazově orientovaných příznaků tak, aby co nejlépe popisovaly řečovou informaci [76].
3.1.1.2 Tvarově orientované parametrizace
Tvarově orientované příznaky vycházejí z popisu geometrického uspořádání viditelných částí
orgánu přispívajících k tvorbě řeči (rty, jazyk, zuby, brada). Jejich výpočet je vždy podmíněn
nalezením tvaru a pozice těchto objektů (liptracking). Samotný výpočet parametrizace je již pouze
popis pozice či tvaru nalezeného objektu. Metody nalezení tvaru jako liptracking pracují opět s celou
oblastí ROI, ovšem jejich úkolem je nalézt jeden vybraný objekt, tak aby jejich funkce nebyla závislá
na změnách osvětlení ani na chybném výběru ROI. Popis vycházející z takovéto metody
předzpracování je na těchto věcech nezávislý, a to je velkou výhodou. Další výhodou je, že přesně
víme co dané příznaky reprezentují, a je proto možné vybrat takové, které nejlépe popisují odlišnosti
mezi jednotlivými fonémy a jsou nezávislé na řečníkovi. Pro výběr příznaků je možné využít poznatků
z fonetiky a odezírání ze rtů. Není však vždy možné vybrat příznaky tak, aby popisovaly námi
požadovaný objekt např. nafukování tváří při výslovnosti fonému b. Velkou nevýhodou tohoto typu
parametrizace je právě nutnost dalšího předzpracování obrazu. Toto předzpracování je většinou velmi
komplikované a výpočetně náročné. I přesto existují metody nalezení kontury rtů, které pracují
2
vzájemné ovlivňování hlásek během promluvy
- 36 -
Vlastní přínos
v reálném čase. Při popisu tvarově orientovaných parametrizací je třeba zmínit, že i když je možné
využít znalostí z tvorby řeči a dalších, je většinou výběr příznaků prováděn nepodloženě.
Nejpoužívanějšími příznaky jsou šířka a výška vnější či vnitřní kontury rtů. Důraz při návrhu
parametrizace je kladen především na jednoduchost metody předzpracování obrazu. Doposud nebyla
prezentována práce, která ve vizuální parametrizaci popisovala objekty uvnitř úst, tedy jazyk a horní či
spodní zuby.
3.1.1.3 Kombinovaná parametrizace
Kombinovaná parametrizace v sobě slučuje obrazově i tvarově orientované příznaky.
Kombinovaná parametrizace je pro rozpoznávání používána jen velmi zřídka [21]. Použití tohoto typu
parametrizace s sebou přináší výhody i nevýhody jednotlivých popisů. Největším kladem jejího
použití je možnost kombinace přesně definovaných tvarových příznaků a jednoduše vypočtených
obrazových příznaků. Někdy totiž není možné vytvořit dostatečně spolehlivou metodu, která by
zajistila výpočet určitého příznaku. Jestliže bychom chtěli například jako příznak využít pohyb okolí
úst, především tváří pak by bylo velmi složité získávat tento pohyb pomocí tvarového popisu. Pomocí
obrazové parametrizace však můžeme popsat toto okolí rtů velmi jednoduše. Dalším příkladem může
být popis vnitřku úst (jazyk, zuby a mezera), kde se velmi mění jasové podmínky vlivem pohybu rtů,
a proto je nalezení pozic jednotlivých částí vnitřku úst velmi obtížné.
3.1.2 Výběr tvarově orientovaných příznaků
Pro vytvoření vlastní parametrizace popisující vizuální složku řeči jsem se rozhodl využít
poznatků z oblasti artikulační fonetiky a zkušeností lidí, kteří dokáží a jsou nuceni odezírat. Od tohoto
přístupu jsem očekával, že parametrizace bude obsahovat příznaky, které eliminují závislost na
řečníkovi a budou dostatečně odlišovat jednotlivé fonémy. Toto byly také základní faktory výběru
jednotlivých příznaků. Pro získání informací o tvorbě řeči je nutné seznámit se základy funkce
řečového traktu, především jeho viditelné části. Při získávání informací o odezírání řeči jsem
spolupracoval s Mgr. Věrou Strnadovou, která je sama neslyšící a ke komunikaci využívá odezírání
řeči, o jehož metodice publikuje knihy.
3.1.2.1 Tvorba řeči
Obor zabývající se procesem vzniku řeči, fyziologií artikulačních orgánů a jejich funkcí se nazývá
artikulační fonetika. Jak je uvedeno v [41], na artikulaci, neboli koordinované činnosti mluvidel
vedoucí k výslovnosti, se podílí vždy všechny artikulační orgány. Souhra artikulačních pohybů
potřebných k vyslovení hlásek, slabik a celých fonetických slov i výpovědí je charakteristická pro
jednotlivé jazyky. Z toho vyplývá, že vizuální složka řeči je závislá na konkrétním jazyce.
Vlastní řečový trakt je tvořen třemi základními skupinami mluvních orgánů. Jsou to ústrojí dýchací,
ústrojí hlasové a ústrojí modifikační (artikulační). Ústrojí dýchací zajišťuje proud vzduchu
procházející celým řečovým traktem a tím zajišťuje trvalý tlak v hrtanu, což je důležité pro vznik
hlasu. K tvorbě řeči pak dochází při výdechu. Hlasové ústrojí je uloženo v hrtanu a jeho hlavní částí
jsou hlasivky. Hlasivky zajišťují vytvoření základního hlasivkového tónu a určují znělost či neznělost
dané hlásky. Bohužel činnost hlasivek je viditelná pouze prostřednictvím pohybu ohryzku, který lze
jen velmi obtížné popsat, a proto z vizuální informace nelze určit zda se jedná o hlásku znělou či
neznělou. Artikulační ústrojí je uloženo nad hrtanem a skládá se ze tří dutin. Jedná se o dutinu hrdelní,
dutinu nosní a dutinu ústní viz obrázek 23.
Dutina hrdelní se rozkládá nad hlasivkami a končí v místech kde je jazyk při artikulaci nejblíže
hornímu patru. Z hlediska vizuální složky řeči je pohyb této dutiny nepozorovatelný. Dutina nosní se
uplatňuje při vyslovování nosních hlásek m, n, ň a slouží jako rezonanční prostor. Pro odezírání řeči
nelze využít ani dutinu nosní. Nejdůležitější dutinou pro vizuální složku řeči je dutina ústní a její
- 37 -
Vlastní přínos
pasivní a aktivní mluvní orgány. Dutina ústní je ohraničena rty a přechází do dutiny hrdelní. Mezi
aktivní mluvní orgány patří rty, jazyk, dolní čelist a měkké patro, které je ovšem nepozorovatelné při
běžné řeči. Pasivní mluvní orgány představují především zuby a rty viz obrázek 23.
Obrázek 23. Řečový trakt, převzato z [41]
Nyní uvedu základní vlastnosti jednotlivých aktivních mluvních orgánů při tvorbě řeči.
Velikost čelistního úhlu má převážně doprovodný charakter, a to hlavně při tvorbě samohlásek kde
„a“ je vždy otevřenější než „i“ nebo „u“. Větší čelistní úhel představuje menší napětí artikulačních
orgánů. Zavřené samohlásky jsou tedy i napjatější. Velikost čelistního úhlu je velmi dobře
pozorovatelná prostřednictvím pohybu brady (např. vzdálenost brady a středu očí).
Vliv rtů na tvorbu řeči je dvojí. Díky tomu, že dokáží měnit svůj tvar, mohou ovlivňovat rezonanci
ústní dutiny to se projevuje především při tvorbě samohlásek, kdy dokreslují jejich charakteristický
zvuk. Při výslovnosti samohlásek dochází buď k zaokrouhlování rtů, kdy se otvor rtů zmenšuje
(výslovnost u, ú, o, ó), nebo k zaostřování rtů, při němž se koutky roztahují do stran (výslovnost e, é, i,
í). Tvar rtů se mění i při vyslovování souhlásek. Při výslovnosti sykavek (s, z) jsou rty zaostřené a při
výslovnosti (š, ž, č) jsou zaokrouhlené viz obrázek 24. Doprovodným jevem zaokrouhlování rtů je
i jejich vyšpulení. Druhým vlivem rtů na tvorbu řeči je vytváření překážky proudu vzduchu. Tento jev
se projevuje při vytváření některých souhlásek. Při výslovnosti se pak uplatňují oba rty (jedná se
o hlásky obouretné b, p, m), nebo pouze spodní dohromady s horními řezáky (hlásky retozubné v, f).
Z hlediska vizuální složky je možné určit tvar téměř dokonale. Jestliže ovšem pracujeme pouze
s čelním pohledem na řečníka pak není možné určit vyšpulení rtů.
- 38 -
Vlastní přínos
Obrázek 24. Změna tvaru rtů pří výslovnosti samohlásek od zaostřených po zaokrouhlené, převzato z [41]
Jazyk je nejpohyblivějším mluvním orgánem a je aktivní při výslovnosti všech hlásek. Jazyk se
rozděluje na několik částí, přičemž artikulace se mohou aktivně účastnit jen tyto části nebo jazyk jako
celek. Části jazyka jsou koneček, hřbet a kořen. Jazyk funguje různě při výslovnosti samohlásek
a souhlásek. Při tvorbě samohlásek funguje jazyk jako modifikátor tvaru ústní dutiny. Celá hmota
jazyka se posunuje v ústní dutině a tím deformuje rezonační prostor ústní dutiny. Při tvorbě souhlásek
je jazyk používán k vytvoření překážky výdechového proudu. Existují 4 typy překážek tvořených
jazykem. Prvním typem je závěr (okluze). Při závěru dochází k úplnému přerušení výdechového
proudu (výslovnost t, g, b). Dalším typem je úžina (konstrikce). Jazyk v tomto případě vytváří
neúplnou překážku a výdechový proud může procházet po celou dobu výslovnosti (výslovnost s, ch,).
Úžina může být vytvořena buď v ose jazyka nebo napříč ose jazyka (výslovnost l) viz obrázek 25.
Obrázek 25. Zobrazení překážky výdechového proudu v průběhu výslovnosti vytvořené jazykem. Černá
barva představuje místa dotyku jazyka a horního patra, převzato z [41]
Třetím typem je polo závěr (semiokluze), který při výslovnosti nejprve vytvoří závěr a v průběhu
vyslovování přechází do úžiny (výslovnost c, č). Posledním typem je překážka zvaná kmity (vibrace).
V průběhu výslovnosti tvořené kmity dochází ke změně tvaru úžiny a to tak, že se zmenšuje a zvětšuje
(výslovnost r).
Funkce jednotlivých aktivních mluvních orgánů již byly popsány. Můžeme tedy přejít k rozdělení
hlásek podle místa tvoření, které udává jaké aktivní prvky se na promluvě hlásky podílejí a v jakém
místě řečového traktu k němu dochází. Základním rozdělením hlásek z hlediska artikulace je rozdělení
na samohlásky a souhlásky. Toto rozdělení vychází z principu tvorby těchto skupin hlásek.
Zjednodušeně řečeno samohlásky vznikají při otevřeném mluvním ústrojí a souhlásky jsou převážně
tvořeny pomocí překážek výdechového proudu.
Všechny samohlásky vznikají na stejném základě, kterým je fonace neboli hlas vzniklý
v hlasivkách. K rozlišení jednotlivých samohlásek dochází až v dutině ústní pomocí postavení jazyka
viz obrázek 26 a tvaru rtů viz obrázek 24. Na výsledné promluvě se podílí i napjatost mluvních
orgánů a délka celé artikulace. Právě princip tvoření samohlásek umožňuje jejich velkou variabilitu.
Do skupiny samohlásek je nutné zařadit i dvojhlásky jako ou. Z artikulačního hlediska je možné
dvojhlásku rozdělit na dvě složky (promluva o + promluva u) ovšem jedna z promluv již ztrácí
charakter čisté samohlásky.
- 39 -
Vlastní přínos
Obrázek 26. Postavení jazyka při tvorbě samohlásek, převzato z [41]
Podstatou tvorby souhlásek je vytvoření překážky výdechového proudu. Podle místa a typu
překážky se určují jednotlivé skupiny souhlásek. V tabulce 8. je uvedeno rozdělení souhlásek podle
místa artikulace, znělosti a způsobu artikulace. Místo artikulace určuje podíl jednotlivých mluvních
orgánů na tvorbě souhlásky. Jednotlivá čísla označují následující : 1 - rty proti sobě, 2 - spodní ret
proti horním řezákům, 3 - špička jazyka horní plochou proti přední části alveolárního výstupku,
4 - přední část hřbetu jazyka proti zadní části alveolárního výstupku, 5 - střední část hřbetu jazyka
proti tvrdému patru, 6 - zadní část hřbetu jazyka proti měkkému patru, 7 – hlasivky.
1
Místo
artikulace
2
3
retozubné
přední
retné
obouretné
Znělost (+), Neznělost (–)
–
+
5
6
7
hrtanové
zadní
tvrdopatrové
zadopatrové
hlasivkové
–
–
+
–
k
g
dásňové
–
+
–
m
nosní
4
+
–
Patrové
+
n
+
+
ň
závěrové
ústní
p
b
t
c
Způsob artikulace
polozávěrové
středové
d
f
v
ť
ď
č
s
z
ř
ř
š
ž
ch
h
kmitavé
r
úžinové
bokové
l
klouzavé
(approximativní)
j
Tabulka 8. Rozdělení hlásek z hlediska místa tvoření, převzato z [43]
3.1.2.2 Odezírání řeči
Odezírání řeči je název pro činnost rozpoznávání řeči, pouze pomocí zraku. Odezírání řeči je tedy
činností, při níž není využíván sluch, a proto je rozšířená jako komunikační prostředek mezi slyšící
a neslyšící osobou, kdy se neslyšící snaží porozumět slyšícímu. Odezírání není pouze dominantou
neslyšících, neboť je využíváno v běžné komunikaci i slyšícími lidmi. V této komunikaci se jedná
o podpůrný prvek porozumění řeči, který se uplatňuje především v hlučném prostředí. Všechny
poznatky o odezírání řeči jsem získal především na základě studia knihy “Hádej co říkám aneb
odezírání je nejisté umění“ od autorky Věry Strnadové [83].
- 40 -
Vlastní přínos
Při dobrých podmínkách pro odezírání je z řeči viditelných asi 30-40% celkové řečové informace
[83]. To vede k tomu, že úspěšnost odezírání se pohybuje okolo 50%. Jestliže odezírající člověk může
využívat zbytky sluchu pak se úspěšnost takovéhoto rozpoznávání řeči pohybuje v rozmezí 76-90%
[83]. O takových úspěšnostech odezírání je však možné hovořit pouze v případě dobrých podmínek
pro odezírání řeči. Mezi nejdůležitější podmínky pro odezírání patří celkový stav odezírajícího,
osvětlení a kompozice scény, znalost jazyka, dobrá artikulace mluvčího a rychlost řeči.
Základní metodou odezírání je pozorování tváře řečníka, kde se odezírající snaží zachytit
charakteristické tvary a pohyby při výslovnosti promluvy. Tyto obrazy jsou přiřazovány již viděným
vzorům a kombinovány mozkem na základě znalosti gramatiky. Sledování řeči neprobíhá na základě
vyhodnocování jednotlivých hlásek, ale většinou na základě větších jednotek jako jsou slova, neboť
řeč je velmi rychlá a odezírající není schopen zachytit všechny pohyby artikulačních orgánů. Při
rozpoznávání je velmi důležitá znalost kontextu promluvy, neboť velkou část odezírání tvoří právě
přiřazování viděné promluvy již viděným vzorům.
Odezírající člověk se tedy snaží pozorovat viditelnou část artikulačních orgánů. Při běžném
sledování řeči zrakem je velká část mluvních pohybů skryta. Viditelná je pouze vnější část mluvidel,
která zahrnuje především pohyb spodní čelisti, pohyb rtů a zřídka viditelný pohyb jazyka či pozice
zubů. U některých řečníků je možné pozorovat pouze rty a spodní čelist, neboť jejich artikulace
neumožňuje viditelnost zubů ani jazyka (malé mluvní pohyby, rty příliš u sebe). Avšak právě pozice
jazyka hraje velkou roli při tvorbě řeči viz 3.1.2.1. Kdyby bylo možné pozorovat jazyk uvnitř ústní
dutiny, pak by se odezírání velmi zjednodušilo. Aby bylo zřejmé, jaká část artikulačních orgánů se
uplatňuje při odezírání, byly provedeny testy [18], kde bylo k odezírání postupně využito celé tváře,
oblasti úst, pouze rtů a elips reprezentujících rty. Každá redukce vizuální složky snížila úspěšnost
odezírání zhruba o 10 procent. Je tedy zřejmé, že při odezírání se nelze spoléhat pouze na tvar rtů.
Byly provedeny i experimenty s minimální vzorkovací frekvencí videozáznamu. Zde bylo zjišťováno
při jaké minimální frekvenci zobrazované promluvy ještě nedochází k zhoršení rozpoznávání [1].
Ukázalo se, že minimální hranice snímkovací frekvence pro rozpoznávání izolovaných skupin hlásek
je 5Hz a pro spojitou řeč je to minimálně 15Hz. Při snížení frekvence pod tuto hranici dochází
k rapidnímu poklesu úspěšnosti rozpoznávání. Během testů se prokázalo, že komprese obrazu není tak
velkou překážkou rozpoznávání jako snímací frekvence.
Jak již bylo zmíněno, odezírající člověk se snaží v promluvě zachytit mluvní obrazy reprezentující
jednotlivé hlásky. Některé hlásky jako například P nebo V jsou identifikovatelné i pomocí tzv.
mluvního pohybu. Protože vizuální složka obsahuje méně informací o promluvě než složka
akustická, jsou mluvní obrazy některých hlásek velmi podobné. Takovéto hlásky tvoří skupiny
označované jako vizémy. Je tedy možné odlišit jednotlivé vizémy od sebe navzájem, ovšem je velmi
obtížné odlišit fonémy spadající do jednoho vizému. Jestliže se budeme zabývat izolovanými
hláskami, pak lze definovat 14 základních vizémů. Jedná se o následující vizémové skupiny:
- (B, M, P)
Souhlásky B, M, P vznikají zablokováním výdechového proudu
vzduchu pomocí semknutí rtů. Při odblokování proudu vzduchu vzniká
charakteristický pohyb pro výslovnost těchto hlásek, a proto patří tyto
hlásky k nejlépe zřetelným. Existují i drobné rozdíly mezi výslovností
B, M a P. Při vyslovování B dochází k mírnému nafouknutí tváří. Při
výslovnosti P se tváře nenafukují a odblokování je velmi prudké. Při
výslovnosti M dochází k většímu semknutí rtů.
- (V, F)
Viditelnost mluvního obrazu V a F je velmi dobrá, neboť hlásky
vznikají tak, že je hrana spodního rtu přitisknuta na horní řezáky
a v průběhu promluvy je spodní ret oddálen. Tím vzniká
charakteristický mluvní pohyb i mluvní obraz. Rozdíl v promluvě
- 41 -
Vlastní přínos
V a F je především v napětí rtů, které je jen obtížně pozorovatelné. Při promluvě F jsou rty více
napjaté než při V.
- (Č, Š, Ř, Ž)
Promluvu této skupiny hlásek provází svalové napětí, které
způsobuje charakteristické vyšpulení rtů při obvyklém elipsovitém tvaru
rtů. Souhlásky proto mají charakteristický mluvní obraz ovšem nemají
mluvní pohyb. Rozdíly mezi hláskami jsou prakticky nepozorovatelné.
- (C, S, Z)
V průběhu promluvy C, S, Z jsou čelisti sevřené, rty mírně
roztažené a pootevřené. Charakteristický je tedy tvar, kdy jsou
viditelné skoro se dotýkající horní a dolní zuby. Rozdíl mezi
hláskami je v délce jejich výslovnosti. Nejdelší výslovnost má Z
potom S a nakonec C.
- (L, R)
Pro hlásky L a R je charakteristický pohyb jazyka. Při výslovnosti L
dochází k pohybu jazyka opřeného o horní patro, ke spodním zubům. R
je tvořeno kmitáním jazyka uvnitř úst, a proto je tento pohyb často skryt.
- (D, T, N)
Pro výslovnost této skupiny jsou nejcharakterističtější uvolněné
a mírně pootevřené rty. Při dobré výslovnosti T se jazyk opírá o horní
i dolní řezáky a v tomto okamžiku je viditelný. Mluvní obraz této
skupiny však není příliš výrazný.
- (Ď, Ť, Ň, J)
Při výslovnosti nedochází k přílišnému napětí svalů rtů. Mluvní
obraz je nenápadný. Jestliže jsou hlásky vyslovovány pečlivě, pak jsou
viditelné především horní zuby a pod nimi jazyk, který se v případě
výslovnosti J nedotýká horního patra a svaly rtů jsou více napjaté.
- (G, H, CH, K)
Mluvní obraz těchto hlásek není nápadný. Rty jsou uvolněné, mírně
pootevřené a nedochází k viditelnému pohybu mluvidel. Při běžné řeči
jsou tyto hlásky neviditelné.
- Samostatnou skupinu vizémů tvoří samohlásky. Toto dělení je zdůvodněno odlišností při tvorbě
samohlásek a souhlásek. Při vyslovování samohlásek se neuplatňuje žádná překážka v dutině ústní.
Hláska je modifikována až velikostí a tvarem otvoru rtů. Při pečlivém vyslovování samohlásek jsou
velmi dobře odlišitelné právě díky dobře zřetelnému mluvnímu obrazu.
- 42 -
Vlastní přínos
- (A)
Pro A je typické největší otevření úst ze všech vyslovovaných
hlásek. Většinou jsou viditelné horní i dolní zuby a částečně jazyk.
- (E)
Při výslovnosti E jsou ústa otevřena méně než pro A, avšak šířka
úst je větší. Jazyk je však více zřetelný, neboť se opírá o spodní zuby.
Většinou jsou dobře viditelné horní zuby.
- (I)
Pro výslovnost I je charakteristické největší roztažení rtů ze
všech vyslovovaných hlásek. Dobře viditelné jsou horní i spodní zuby.
- (O)
Vizém O je tvořen zaokrouhlením rtů. Otvor uvnitř rtů je větší
než při výslovnosti U. Uvnitř úst je občas viditelný jazyk. Zuby zpravidla
viditelné nejsou.
- (U)
Pro vytvoření vizému U platí stejná pravidla jako pro O ovšem ústa
jsou ještě více stažena. Otvor uvnitř úst je nejmenší ze všech
vyslovovaných hlásek. Uvnitř otvoru není pozorovatelný žádný objekt.
Z uvedených příkladů vizémových skupin je zřejmé, že existují vizémy, které je relativně
jednoduché odlišit pomocí specifického mluvního pohybu a obrazu od ostatních vizémů. Bohužel
existují i vizémy, pro něž neexistuje specifický mluvní pohyb a jejich mluvní obraz je nezřetelný.
Všechny předchozí ukázky vizémů platí při izolované výslovnosti jednotlivých hlásek. Při běžné řeči
jsou ovšem charakteristické mluvní obrazy jednotlivých vizémů zkresleny díky vlivu okolních hlásek.
Tento jev, kdy jedna hláska ovlivňuje mluvní obraz jiné hlásky se nazývá koartikulace. V průběhu
promluvy dochází díky koartikulaci k ovlivňování všech vizémů. Některé vizémy jsou však
ovlivňovány více a jiné méně. Koartikulace je dosud jen velmi málo prozkoumaný jev, a proto
neexistují žádná pravidla pro deformaci mluvních obrazů pro určitý kontext hlásek. Doposud nebylo
ani určeno jaké hlásky jsou spíše ovlivňující a jaké ovlivňované. Koartikulace představuje problém
nejen při rozpoznávání řeči, ale i při opačném procesu, při úloze syntézy. Databáze popsaná v sekci
3.2.2 byla navržena i pro studium jevu koartikulace pro úlohu počítačové syntézy. Kdybychom znali
zákonitosti ovlivňování jednotlivých vizémů během promluvy, mohli bychom těchto poznatků využít
při rozpoznávání. Při rozpoznávání se problém koartikulace částečně řeší použitím trivizémů jako
základních řečových jednotek, neboť nejvíce ovlivněny jsou sousední hlásky.
- 43 -
Vlastní přínos
Dalším problémem při odezírání je tzv. řečový šum. Řečový šum představují mluvní obrazy
odpovídající přechodům mezi jednotlivými vyslovovanými hláskami. Odezírání řeči by se velmi
zjednodušilo, kdyby vizuální složka obsahovala pouze pospojované mluvní obrazy odpovídající
izolovaným vizémům. Řečový šum bohužel tvoří značnou část promluvy a mluvní obrazy vzniklé při
přechodu mezi hláskami mohou být zaměněny s mluvním obrazem jednotlivých vizémů.
Strnadová ve své knize ukazuje, že rozpoznání promluvy pomocí odezírání je relativně
jednoduché, jestliže má člověk k dispozici celou posloupnost mluvních obrazů odpovídajících pouze
mluvním obrazům vizémů bez mluvního šumu, má dostatek času pro jejich rozpoznání a může
porovnávat jednotlivé mluvní obrazy mezi sebou. Samozřejmostí jsou dobré pozorovací podmínky.
3.1.2.3 Popis vybraných příznaků
Pro návrh vizuální parametrizace vycházející z poznatků tvorby vizuální řeči a zkušeností
odezírajících lidí je důležité nejen studium této problematiky, ale také vhodná volba příznaků
z hlediska jejich realizovatelnosti. Kapitoly 3.1.2.1 a 3.1.2.2 popisují poznatky, které jsem získal
studiem dostupné literatury. Bohužel oblasti odezírání a tvorba řeči poskytují dobrý popis vizuální řeči
pro izolované hlásky, ovšem nikoliv pro spojitou řeč. Úloha rozpoznávání izolovaných hlásek je
ovšem velmi omezující. Protože vizuální parametrizace má sloužit především pro úlohu rozpoznávání
spojité řeči, musel jsem se zaměřit na studium vizuální složky spojitých promluv. Poznatky, které
uvádím dále, jsem získal při konzultacích s paní Věrou Strnadovou a paní Ivou Jirutkovou (logopedka)
a studiem audiovizuální databáze popsané v 3.2.3.
Základním předpokladem rozpoznávání řeči z vizuální složky je dostatečná snímkovací frekvence,
kvalitní rozlišení a osvětlení celé scény. Všechny tyto požadavky jsou v případě databáze UWB-05HSCAVC splněny, neboť snímkovací frekvence je 50 Hz, rozlišení připadající pouze na rty je
přibližně 80*80 bodů a celá databáze byla pořízena v laboratorních podmínkách. Z poznatků
získaných studiem metod odezírání a tvorby řeči a studiem audiovizuální databáze, jejíž výsledky jsou
shrnuty v tabulce 13, jsem se snažil vytvořit vizuální příznaky, které co nejlépe popisují viditelnou
část řečového traktu z hlediska odezírání. Při výběru příznaků byl brán zřetel na to, aby každý příznak
popisoval nějakou charakteristickou vlastnost některého z vizémů. Například výška rtů je rozhodující
pro rozpoznání A. Dotyk horních zubů a dolního rtu určuje promluvu V. Kulatý a malý otvor úst
určuje promluvu U. Za nejdůležitější poznatek studia vizuální složky řeči považuji zjištění, že tvar
vnitřní hranice rtů a vnitřek úst vypovídají o dané promluvě více než tvar vnější hranice rtů a jejich
okolí. Tento poznatek je zřejmý především z pravidel tvorby řeči. Řeč totiž vzniká pomocí tvarování
otvoru úst, kudy prochází výdechový proud vzduchu a nebo vytvořením překážek tohoto proudu uvnitř
úst. Jestliže se podíváme na pohyb vnější hranice rtů během promluvy, pak zjistíme, že často kopíruje
tvar vnitřní hranice rtů ovšem s menšími změnami tvaru. Například šířka vnější hranice rtů se během
promluvy mění mnohem méně než šířka vnitřní hranice rtů. Při rozpoznávání řeči je většinou používán
tvar vnější hranice rtů nebo příznaky z něj odvozené (výška, šířka), neboť jeho získání je jednodušší
než získání vnitřní hranice rtů. Vnitřek úst, který představují zuby, jazyk a zprostředkovaně i mezera
uvnitř rtů, nám dává alespoň částečnou informaci o průchodu výdechového proudu skrze ústní dutinu,
která je velmi důležitá při rozpoznávání souhlásek. Tuto informaci není možné získat z jiné části
vizuální složky než z oblasti vnitřku úst. Proto je nutné zahrnout do parametrizace příznaky, které
budou popisovat objekty uvnitř úst.
Vybrané příznaky jsou následující :
- tvar rtů – šířka, výška, zaokrouhlení atd. , tvar rtů (vnitřní a vnější kontura) nejlépe vystihuje
specifický mluvní obraz, je tedy důležitý především pro rozpoznávání samohlásek a určitých
souhlásek
- 44 -
Vlastní přínos
- viditelnost, pozice a vzájemná pozice horních a dolních zubů a jazyka – uplatňuje se především při
popisu souhlásek, roli hraje nejen viditelnost, ale právě vzájemný vztah jednotlivých objektů, dotyk
spodního rtu a horních zubů (v,f), skousnutí jazyka (t)
- pozice brady – pozice brady vypovídá o velikosti čelistního úhlu, tento parametr se uplatňuje
především u samohlásek, důležitý je také proto, že spodní ret se nemusí pohybovat při výslovnosti ve
stejném směru jako brada
- napětí rtů – důležitý parametr pro rozpoznávání vizémů Ď a Č, neboť při jejich výslovnosti
dochází k vyšpulení rtů a jejich většímu napětí,
- vyšpulení rtů – tímto příznakem je možné určovat vizémy při jejichž výslovnosti dochází k zúžení
ústního otvoru (u,o) nebo k vyšpulení rtů (Ď, Č)
- tvar tváří – tvar tváří by měl odlišovat výslovnost fonémů p, b a m, ovšem změna tvaru tváří
především v oblasti spodního rtu je spojena s napětím rtů (v)
- změna pozice či tvaru všech předchozích parametrů – pohyb je velmi důležitým parametrem,
neboť pro některé vizémy je definován právě specifický mluvní pohyb
Předchozí příznaky byly vybrány bez ohledu na možnost jejich automatického získání z vizuální
složky řeči. Jestliže však chceme provádět automatické rozpoznávání řeči pomocí počítače, pak se
musíme touto otázkou zabývat. Dalším omezením na výběr příznaků je nezávislost na řečníkovi.
Tento problém se projevuje především ve velikosti rtů a mluvních pohybů řečníka. Příznaky, které by
tedy měly být nejvíce závislé na řečníkovi jsou všechny geometrické popisy rtů. Tento problém je
však možné redukovat normalizací geometrických rozměrů podle velikosti rtů. V případě databáze
UWB-05-HSCAVC je možné provést tuto normalizaci (normalizace přes celou promluvu), neboť
promluva téměř vždy obsahuje fonémy a, i, p či jim podobné. Tyto fonémy představují maximální
a minimální hodnoty geometrických rozměrů rtů pomocí nichž je možné provést normalizaci a je tedy
možné tyto geometrické popisy použít. Po zvážení předchozích předpokladů jsem vybral následující
příznaky popisující vizuální složku řeči:
- tvar rtů – tvar rtů postihuje pouze tvar vnitřní a vnější kontury, tento příznak není závislý na
velikosti rtů a měl by být tedy nezávislý na řečníkovi, tvar rtů je reprezentován pomocí řídícího
vektoru b (10 koeficientů PCA) viz 3.3.2.
- výška a šířka vnitřku a vnějšku úst – tyto příznaky zachycují především otevření a roztažení rtů,
které se uplatňuje při rozpoznání samohlásek, jejich závislost na řečníkovi částečně odstraňuje
normalizace
- procentuální zastoupení horních zubů, mezery, jazyka a dolních zubů v ústní dutině – procentuální
zastoupení jednotlivých objektů určuje nejen viditelnost, ale i vzájemnou pozici jednotlivých objektů.
Při tvorbě řeči se neuplatňuje pohyb těchto objektů do stran, a proto je zajímavá pouze jejich vertikální
pozice. Předpokládám, že jestliže jsou viditelné všechny objekty, pak jediné jejich pořadí může být
horní zuby, mezera, jazyk a spodní zuby, jestliže nějaký z objektů není vidět, pak je jeho procentní
zastoupení 0, procentní zastoupení je počítáno vzhledem k výšce vnitřku úst. Jestliže jsou rty
zavřené, pak je procentní zastoupení všech objektů 0, to že jsou objekty vyjádřeny procentním
zastoupením částečně odstraňuje vliv řečníka, vnitřek rtů a jeho objekty je možné reprezentovat také
pomocí DCT parametrů získaných pouze z vnitřku úst.
- pozice brady – pozice brady reprezentovaná jako vzdálenost brady k bodu s neměnnou pozicí,
v našem případě se jedná o vzdálenost k nosu řečníka
- 45 -
Vlastní přínos
Obrázek 27. Vybrané příznaky popisující vizuální složku řeči
- výška horního a spodního rtu (vyšpulení rtů) – parametry napětí a vyšpulení rtů jsou jen velmi
těžko měřitelné, u vyšpulení rtů je to způsobeno tím, že máme k dispozici pouze čelní pohled na
řečníka, tyto dva parametry jsou však spojené s výškou horního a spodního rtu. Jestliže dojde
k vyšpulení rtů, pak se z čelního pohledu projeví tím, že dojde ke zmohutnění objektu rtů, jako příznak
je tedy použita výška rtu měřená ve středu mezi koutky rtů, příznak je reprezentován jako součet obou
hodnot
- změna pozice – abychom zachytily změnu pozice či tvaru (charakteristický pohyb) používáme
jako příznaky výpočet rychlost a zrychlení změny jednotlivých příznaků, tedy výpočet první a druhé
derivace, tímto krokem se ztrojnásobí počet vizuálních příznaků
- tvar tváří či okolí úst je velmi těžko zachytitelný, a proto jsem se rozhodl pro jeho nevyužívání
Pomocí výše popsaných příznaků (tvarových a obrazových) byl sestaven příznakový vektor, který
popisuje vizuální složku řeči a který je použit pro automatické rozpoznávání řeči. V rámci
experimentů byly provedeny testy pomocí příznakových vektorů sestavených z různých množin
popsaných příznaků. Ukázalo se, že některé příznaky popisují vizuální řeč velmi dobře a jiné vnášejí
spíše dezinformaci. Výsledky provedených testů jsou uvedeny v kapitole 4.
Jedním z poznatků, které jsem získal studiem vizuální složky řeči, ale doposud jsem ho nevyužil, je
nutnost nastavit specifický mluvní obraz a chvíli v něm setrvat pro určité hlásky během promluvy.
Jestliže například vyslovujeme slovo ahoj, pak je jako první nastaven mluvní obraz pro A. Rty se
postupně otvírají až dosáhnou maxima, kde probíhá výslovnost A. Poté se rty přenastavují do pozice
pro vyslovení O přes nezřetelné H. Při výslovnosti O jsou rty velmi stažené a vyšpulené až dosáhnou
minima a pak se přesouvají do pozice pro vyslovená J a tím se více otevírají a zatahují zpět. Jestliže
bychom sledovali pouze příznak výška rtů pak je vykreslena křivka v jejíchž extrémech dochází
k výslovnosti jednotlivých hlásek A O J. Protože příznaky byly navrženy tak, aby postihovaly
specifické vlastnosti promluv jednotlivých hlásek, pak by měl popsaný poznatek platit i pro ostatní
příznaky. Pomocí nalezení extrémů v jednotlivých příznacích by tedy bylo možné určit místa
charakteristických mluvních obrazů. Bohužel extrémy průběhů nezachycují jednotlivé fonémy.
Extrémy zachycují buď fonémy s výrazným mluvním obrazem O,A,V atd.. nebo mluvní obraz celé
slabiky. Pomocí nalezení extrém v příznacích by tedy bylo možné částečně se zbavit mluvního šumu.
Tomuto kroku by však musela následovat další analýza příznaků, která by určila zda mluvní obraz
odpovídá jen jedné hlásce či jestli se v okolí nachází ještě jiná hláska. Tento problém by bylo možné
řešit při využití znalostí deformace mluvního obrazu vlivem koartikulace. Tyto poznatky však dosud
nebyly získány.
- 46 -
Vlastní přínos
3.2
Audiovizuální databáze
Jak je zřejmé z 2.5, existuje velmi omezené množství kvalitních AV řečových korpusů, na kterých
se dají provádět experimenty s audiovizuálním rozpoznáváním řeči. Většina databází byla pořízena
pro angličtinu nebo francouzštinu a neexistovala jediná audiovizuální databáze pro český jazyk.
Dalším problémem databází je jejich dostupnost pro nekomerční i komerční využití. K úspěšnému
návrhu parametrizace je nezbytně nutná dobrá znalost jazyka pro který je tato navrhována, a proto
bylo nutné vytvořit vlastní českou databázi pro ověření navržených algoritmů. Na katedře kybernetiky
Západočeské univerzity v Plzni byla vytvořena již řada řečových databází jak pro rozpoznání řeči, tak
pro rozpoznávání řečníka [71][72]. Tyto zkušenosti byly uplatněny i při tvorbě audiovizuálních
řečových korpusů, především pro výběr vhodného textu a záznam akustické složky řeči. Na záznam
vizuální složky řeči však byly tyto zkušenosti aplikovatelné pouze částečně. Z tohoto důvodu muselo
pro cíle disertační práce vzniknout hned několik řečových databází, které se vyvíjeli spolu s vývojem
celého systému audiovizuálního rozpoznávání řeči. Jako první byla nahrána malá databáze
izolovaných slov pro vyzkoušení prvního systému vizuálního rozpoznávání [11]. Na databázi byly
porovnány statické a dynamické vizuální příznaky. Poté byla vytvořena audiovizuální databáze
promluv řidiče automobilu, která měla ověřit systém audiovizuálního rozpoznávání v reálném
prostředí [95]. Pro vizuální parametrizaci těchto nahrávek byl vyvinut 3D model rtů, který by dokázal
eliminovat chyby výpočtu vizuální parametrizace způsobené pohybem hlavy řečníka v 3D prostoru
[12]. Ukázalo se že pro návrh a testování nové parametrizace je tato databáze nevhodná, a proto byla
pořízena rozsáhlá audiovizuální databáze v laboratorních podmínkách. Tato databáze byla použita pro
provedení experimentů srovnávajících výsledky nové parametrizace a standardně používaných
parametrizací [13]. Poslední důležitou databází, která byla vytvořena ve spolupráci s Ing. Zdeňkem
Krňoulem, je databáze pro určení vizémových skupin pro český jazyk viz [42].
3.2.1 Prvotní experimenty
Pro účely vytvoření a otestování prvního systému vizuálního rozpoznávání pro český jazyk, byla
nahrána vizuální databáze pěti izolovaných slov. Databáze obsahuje 500 promluv od 10 řečníků.
Snímána byla pouze spodní část obličeje viz obrázek 28, aby bylo možné vynechat krok nalezení
hlavy řečníka, čímž se celý postup získání příznaků zjednodušil. Vizuální parametrizaci tvořily pouze
dva příznaky: výška a šířka vnější kontury rtů. Pro nalezení kontury byla použita jednoduchá metoda
prahování obrazu ze složky G/R, neboť osvětlení scény bylo neměnné [11]. Na databázi byly
porovnány statické a dynamické příznaky a jejich závislost na řečníkovi. Statické příznaky
představovala šířka a výška rtů. Dynamické příznaky byly vypočítány ze statických tak, aby
postihovaly pouze jejich výraznější změny v čase. Ukázalo se že dynamické příznaky jsou méně
závislé na řečníkovi, ovšem nejsou vhodné pro rozpoznávání kratších řečových jednotek než jsou celá
slova. Nejlepší výsledek vizuálního rozpoznávání izolovaných slov pro 10 řečníků bylo 9% WER.
Obrázek 28. Ukázka vizuální databáze pro rozpoznávání izolovaných slov
Po ověření funkčnosti systému vizuálního rozpoznávání na úloze rozpoznávání izolovaných jsem
se rozhodl vytvořit audiovizuální databázi spojité řeči pro reálné prostředí. Na této databázi jsem chtěl
navrhnout novou vizuální parametrizaci a otestovat ji na úloze AV rozpoznávání spojité řeči. Jako
- 47 -
Vlastní přínos
reálné prostředí bylo vybráno prostředí automobilu. V prostředí automobilu je dostatek reálného
akustického šumu, který je vhodný pro otestování AV rozpoznávání v hlučném prostředí. Databáze
obsahuje promluvy 12 řidičů automobilu. Každý řečník promlouval 200 vět, 15 příkazů pro ovládání
navigace, 15 názvů měst a 15 číslovek. Řidič byl zabírán z mírně bočního pohledu a videozáznam
obsahoval celou hlavu řečníka viz obrázek 29. Videozáznam byl pořizován s rozlišením 360*288
bodů, s frekvencí 50 Hz.
Obrázek 29. Ukázka audiovizuální databáze promluv řidiče automobilu.
Z ukázek na obrázku 29 je zřejmé, že bylo nutné vytvořit algoritmus pro nalezení hlavy řečníka
v obraze a vylepšit stávající metodu nalezení rtů, neboť hlava řečníka se mohla pohybovat v 3D
prostoru a velmi se měnilo osvětlí a pozadí scény. Protože se hlava řečníka pohybovala v 3D prostoru
přistoupil jsem k vytvoření 3D modelu rtů s jehož pomocí je možné vypočítat tvarové příznaky i při
rotaci rtů ve 3D prostoru.
Jako první jsem vytvořil metodu headtrackingu založenou na metodě skin-color viz 2.2.1.1.
Metoda pracovala spolehlivě pro běžné podmínky osvětlení, ovšem měla problémy nalézt objekt hlavy
při přesvětlení snímků, ke kterému docházelo poměrně často v důsledku intenzivního slunečního svitu.
Metoda ovšem musela umět určit i natočení hlavy v 3D prostoru, neboť tuto informaci využívala
metoda liptrackingu pro umístění 3D modelu rtů. Pro určení 3D orientace hlavy z 2D snímku musely
být nejprve nalezeny pozice středů úst a očí. Ústa byla nalezena pomocí prahování, popsaného
v následujícím odstavci, ovšem při čtvrtinovém rozlišení obrazu kvůli urychlení celého procesu.
Pomocí známé pozice středu rtů a oblasti hlavy byly určeny přibližné výskyty očí. Pomocí postupného
prahování těchto oblastí v šedotónové reprezentaci, pomocí prahů n až m, byly nacházeny objekty,
které mohly představovat oči řečníka. Zda se jedná skutečně o oči bylo ověřováno pomocí modelu
rozmístění očí a rtů na obličeji řečníka. Model postihoval vzdálenosti očí a rtů člověka a tvar a velikost
těchto objektů. Pro určení 3D orientace hlavy bylo použito vypočtu 5 parametrů popisujících umístění
a rotaci očí a úst na obličeji člověka. Tyto parametry byly porovnány s parametry, které popisovaly
ručně vybrané natočení hlavy v 3D prostoru. Podle shody parametrů bylo určeno natočení hlavy
řečníka, které odpovídalo definovanému vzoru viz [10].
Aby bylo možné aplikovat 3D model pro nalezení kontury rtů, musela být vnitřní a vnější kontura
rtů nalezena alespoň přibližně. Pro tento úkol jsem využil osvědčené metody z experimentů na
databázi izolovaných slov. Metoda musela ovšem být upravena tak, že hodnota prahu se stanovovala
na základě analýzy histogramu složky G/R. Histogram většinou obsahoval dvě maxima, která
představovala body kůže a body rtů. Algoritmus nalezl minimum mezi těmito maximy a to se použilo
jako hodnota prahu pro nalezení rtů viz [12]. Poté jsem již využil tvar rtů a informaci o 3D orientaci
rtů k nasazení 3D modelu jehož výsledek je zobrazen na obrázku 30.
Samotný 3D model je reprezentován pomocí 16 bodů se souřadnicemi x,y,z. Vždy osm a osm
bodů popisuje vnitřní a vnější konturu rtů. Pro získání tvaru modelu bylo nahráno 20 foneticky
vyvážených vět pomocí systémů zrcadel a kamery tak, abychom získaly dva různé pohledy na řečníka
viz obrázek 30. Body modelu představovaly modré kuličky nalepené na obličej řečníka. Pomocí
prahování byly tyto body nalezeny pro každý snímek všech promluv. Poté byly pro každý bod
spočítány jeho prostorové souřadnice a tím byl pro každý snímek reprezentován tvar modelu.
Shlukováním těchto tvarů bylo určeno základních 20 tvarů rtů. Zpracováním po sobě jdoucích snímků
bylo určeno z jakého do jakého základního tvaru může model přecházet během promluvy. Při hledání
- 48 -
Vlastní přínos
vhodného modelu bylo nejprve všech 20 modelů natočeno podle informace o natočení hlavy
a porovnáno s tvarem rtů získaným z prahování. Zvýhodněny byly ty modely do kterých mohl přejít
model z předchozího snímku. Tak byl určen tvar rtů pro neznámý snímek.
Úspěšnost celého algoritmu nalezení hlavy řečníka a nalezení vnitřní a vnější kontury rtů nebyla
příliš vysoká. Bylo to způsobeno především nedokonalostí metody headtrackingu a určením
prostorového natočení hlavy. Algoritmus selhával díky velkým změnám osvětlení celé scény. Při
ručním určení orientace hlavy v 3D prostoru již pracoval algoritmus liptrackingu uspokojivě. Bohužel
nebylo možné ručně definovat rotaci hlavy pro každou promluvu, a proto byl celý systém nepoužitelný
pro úlohu AV rozpoznávání. Dalším problémem bylo nedostatečné rozlišení videozáznamu ve smyslu
rozlišení připadajícího na ústa. Rozlišení bylo nedostatečné pro účely návrhu nové tvarově orientované
parametrizace, neboť z video záznamu nebyla příliš patrná pozice zubů a jazyka uvnitř rtů. Z těchto
důvodů jsem se rozhodl pro vytvoření nové databáze, která by vyžadovala co nejjednodušší
předzpracování a zároveň umožňovala studium vizuální řeči.
Obrázek 30. Vlevo – Stereo pohled na řečníka s nalepenými body odpovídajícími bodům modelu rtů,
nalezené pozice bodů v obraze, rekonstruované 3D souřadnice bodů, vpravo – výsledky nalezení vnější
a vnitřní kontury rtů pomocí 3D modelu a její projekce do bočního pohledu
3.2.2 Databáze pro určení vizémových skupin pro český jazyk
Tato malá databáze vznikla za účelem studia podobnosti výslovnosti českých fonémů z vizuální
složky řeči. Primárním cílem bylo určení vizémových skupin pro český jazyk a nalezení vhodných
řídících parametrů pro artikulaci tzv. mluvicí hlavy.
Databázi tvoří promluvy tří řečníků (dva muži a jedna žena). Jako promluvy byly vybrány
samostatné izolované fonémy, krátká slova tvořená třemi fonémy (souhláska samohláska souhláska
nebo samohláska souhláska samohláska) a spojitá řeč v rozsahu jedné hodiny. Pro snímání scény bylo
využito systému 4 zrcadel a jedné kamery, který je popsán v článku [95]. Tento systém zajišťuje
složení dvou pohledů na řečníka do jednoho snímku. Aby bylo možné přesně zjišťovat tvar vnější
kontury rtů bylo využito reflexních bodů a infračerveného zdroje osvětlení scény. Na obličej řečníka
bylo nalepeno 12 bodů pokrytých reflexním materiálem. Osm bodů bylo nalepeno na vnější konturu
rtů, dva body na tváře, jeden bod na bradu a jeden na krk řečníka v oblasti ohryzku. Další tři reflexní
body byly umístěny na čelo řečníka. Tyto body sloužily k určení pozice a orientace hlavy. Celá scéna
byla osvětlena infračerveným zdrojem světla a snímání bylo prováděno v temné místnosti. Použití
reflexního materiálu velmi zjednodušilo nalezení bodů pomocí metod zpracování obrazu. Obraz byl
snímán digitální kamerou s rozlišením 720*576 bodů s frekvencí 25 Hz. Současně s video záznamem
byl pořizován i akustický záznam pomocí stolního mikrofonu a záznam činnosti hlasivek získávaný
pomocí laryngografu. Z vizuálního záznamu byly pomocí metod zpracování obrazu (prahování)
a metody stereo vidění vypočítány 3D souřadnice všech reflexních bodů pro každý snímek a tím byl
také určen prostorový tvar rtů. Dále byla provedena segmentace akustického záznamu jejíž výsledkem
bylo nalezení časových hranic jednotlivých fonémů. Detailnější popis databáze je proveden v článku
[42].
- 49 -
Vlastní přínos
Obrázek 31. Vlevo – schéma snímacího zařízení, vpravo – dva pohledy na řečníka složené do jednoho
snímku, na obličeji jsou nalepeny reflexní body
3.2.3 Laboratorní audiovizuální databáze
Audiovizuální databáze, pojmenovaná UWB-05-HSCAVC (University of West Bohemia - 2005 hunderd speakers Czech audiovizual corpus). Ukázky získaného korpusu a jeho předzpracování je
dostupné
na
http://www.kky.zcu.cz/cs/research-fields/audio-visual-corpus-UWB-05-HSCAVC.
Databáze byla navržena tak, aby vyžadovala co nejjednodušší předzpracování video záznamu
promluvy a splňovala předpoklady pro návrh a výpočet tvarově orientované parametrizace především
vnitřní části úst (jazyk a zuby). Aby byly splněny tyto podmínky, byla databáze pořízena
v laboratorním prostředí. To znamená, že scéna měla konstantní osvětlení, řečník byl požádán o
minimální pohyb hlavy během promluvy, bylo použito jednotné pozadí neodrážející světlo, hlava
řečníka byla snímána z čelního pohledu tak, aby vyplňovala co největší plochu obrazu. Z toho důvodu
byla digitální kamera natočena o 90°, neboť její vertikální rozlišení je větší než horizontální a hlava
člověka je vyšší než širší vizobrázek 32.
Obrázek 32. Ukázka audiovizuální databáze UWB-05-HSCAVC
Jako obrazové snímací zařízení byla použita DV kamera s rozlišením 720*576 bodů se
snímkovací frekvencí 25 Hz. Videozáznam byl ukládán bez další komprese v DV formátu. DV kamera
pracuje v tzv. prokládaném režimu záznamu, což znamená že snímá nejprve liché řádky a potom sudé
řádky a výsledný obraz vznikne jejich složením. Rty se při řeči pohybují velmi rychle, a proto při
snímání obrazu v režimu prokládání vznikají chyby v řádcích, jestliže se snímaný objekt pohne
v intervalu mezi sejmutím sudého a lichého půlsnímku viz obrázek 33. Protože rozlišení připadající na
rty bylo v případě databáze dostatečně velké (160*80 bodů), mohli jsme si dovolit zvýšit snímací
frekvenci tím, že jsme celé snímky rozdělili na liché a sudé a ty byly zpracovávány odděleně jako by
šlo o samostatné snímky. Snímkovací frekvence se tak zvýšila na 50 Hz ovšem snížilo se horizontální
rozlišení, tedy šířka rtů. Průměrné rozlišení připadající na rty se snížilo na 80*80 bodů. Rozlišení
- 50 -
Vlastní přínos
každého půlsnímku je tedy 720*288 bodů. Pro získání akustických dat byly použity dva mikrofony.
Jeden stolní a jeden klopový mikrofon viz obrázek 34. Akustická data byla uložena jako soubor wav
ve formátu PCM se vzorkovací frekvencí 44kHz a rozlišením 16 bitů. Pro synchronizaci akustického
a vizuálního záznamu byla použita klapka.
Obrázek 33. Rozložení celého snímku na sudý a lichý půlsnímek, na půlsnímcích vpravo je znatelný pohyb
rtů během sejmutí půlsnímků a to se projevuje na složeném snímku vlevo.
AV korpus obsahuje promluvy 100 řečníků (39 mužů, 61 žen). Pro každého řečníka bylo vybráno
200 vět. Prvních 50 vět bylo totožných pro všechny řečníky a ostatních 150 bylo odlišných. Obě
skupiny vět byly vybírány tak, aby obsahovaly vyvážené množství fonémů a aby jejich počet byl co
největší.
V rámci předzpracování korpusu byly ručně přepsány všechny promluvy. Dále byly pro každého
řečníka ručně vytvořeny tři vzory. Jednalo se o vzor levého, pravého oka a o snímek kde bylo
odstraněno vše kromě kůže obličeje viz obrázek 34. Vzory očí slouží pro přesná nalezení očí při
vyhledání ROI a snímek s kůží obličeje je použit pro výpočet prahu pro metodu skin-color pro
nalezení hlavy řečníka.
Obrázek 34. Vlevo – ukázka nahrávání AV databáze, vpravo nahoře – vzory očí, vpravo dole – ručně
vybrané body kůže pro stanovení barvy kůže
- 51 -
Vlastní přínos
3.3
Zpracování databáze
Aby bylo možné získat parametrizaci vizuální složky řeči popsanou v 3.1.2.3, je nutné provést
zpracování videozáznamů z databáze UWB-05-HSCAVC. Zpracování bylo rozděleno do tří
navazujících kroků. Prvním z nich je nalezení oblasti zájmu. Druhým krokem je získání vnitřní
a vnější kontury rtů a v posledním třetím kroku je zpracován vnitřek rtů a určena pozice zubů, jazyka
a mezery.
Těmto krokům, které již provádějí zpracování obrazu, musely předcházet úpravy videozáznamů
a akustických nahrávek. Bylo nutné provést rozdělení záznamů na jednotlivé věty, synchronizovat
akustický záznam a videozáznam a srovnat délky těchto nahrávek pro pozdější kombinaci akustických
a vizuálních příznaků.
3.3.1 Nalezení oblasti zájmu ROI
Vstupem metody nalezení oblasti zájmu je videozáznam promluvy řečníka, s rozlišením 720*288
bodů a frekvencí 50 Hz. Osvětlení scény by mělo být konstantní ovšem nahrávání databáze probíhalo
v místnosti, kde nebylo možné eliminovat vnější osvětlení, a proto se osvětlení scény částečně mění.
Pozadí scény je stejné pro všechny nahrávky a bylo tvořeno modrým papírem. Řečníci byli požádáni
o minimální pohyby hlavy v průběhu snímání. I když byl mluvčí opřen hlavou o stěnu, nebyl schopen
se vyvarovat drobnějších pohybů (v některých případech značných pohybů). Analýza videozáznamů
ukázala, že pohyby jsou představovány především nakláněním a rotacemi hlavy do stran. Z uvedených
znalostí byla pro detekci ROI vybrána velmi jednoduchá, a jak se ukázalo spolehlivá, metoda založená
na vyhledávání významných bodů viz 2.2.1. Metoda pracuje ve třech krocích: nalezení hlavy pomocí
eliminace pozadí, nalezení očí pomocí metody srovnávání se vzorem a v posledním kroku nalezení
středu rtů pomocí prahování. Po získání pozic těchto významných bodů byl určen střed a velikost
oblasti zájmu a tyto informace představují výstup metody.
Základem metody nalezení pozice ROI je nalezení hlavy řečníka v každém snímku. Existuje
několik typů metod pro řešení tohoto problému. Protože databáze pro kterou byla metoda vyvinuta
byla pořízena v laboratorních podmínkách, bylo možné vybrat velmi jednoduchou metodu nalezení
hlavy založenou na odstranění konstantního pozadí. Než byla vybrána tato metoda, byla pro nalezení
hlavy řečníka vyzkoušena tzv. metoda skin-color viz 2.2.1.1. Pro každého řečníka byla ručně
definována oblast kůže pro jeden snímek videozáznamu. Z těchto snímků byla spočítána střední
hodnota a rozptyl barvy kůže pro složky Cr a Cb chromatické reprezentace barev. Pomocí Střední
hodnoty a rozptylu byly poté vybírány oblasti, které odpovídají kůži člověka. Metoda pracovala
poměrně dobře. V databázi se ovšem vyskytují nahrávky, kde se chybou obsluhy nahrávání, velmi
odlišuje osvětlení scény. Na takovýchto nahrávkách tato metoda selhávala. Proto byla použita metoda
odstranění pozadí. Metoda vychází z předpokladu, že na každém prvním snímku každého
videozáznamu je v levém horním rohu oblast obsahující pouze pozadí viz obrázek 35-1. Pro každou
nahrávku byla z této oblasti o velikosti 10*10 bodů spočítána střední hodnota MP a rozptyl VP pro
složku Cr. Tím jsme získali barvu pozadí. Barva pozadí byla vypočítána pouze pro první snímek
každého videozáznamu. Poté byla tato hodnota použita pro prahování tohoto snímku S v reprezentaci
Cr podle rovnice (31), kde P je výsledný naprahovaný obraz. Vztah byl získán pomocí experimentů na
databázi UWB-05-HSCAVC.
0
P(i, j ) = 
255
pro S (i, j ) > M P − VP α S (i, j ) < M P + VP
jinak
(31)
Výsledkem operace bylo nejen odstranění pozadí, ale velmi často i tmavých vlasů a oděvů. Problém
však představovaly světlé části oblečení, které se označily jako hlava. Bylo proto provedeno vybrání
největšího nalezeného objektu a ten byl prohlášen za hlavu. Abych se zbavil chybně nalezených částí
ve spodní části obrazu provedl jsem ořez celého objektu podle šířky hlavy. Šířka hlavy byla
- 52 -
Vlastní přínos
vypočtena, jako šířka nalezeného objektu uprostřed výšky objektu. Výsledný objekt hlavy je zobrazen
na obrázku 35-3. Nalezení hlavy řečníka bylo nutné provést pouze pro první snímek videozáznamu,
protože v dalších snímcích se již vyhledávaly pouze významné body. Za významné body byly zvoleny
středy očí a úst člověka. Jako první byly nalezeny středy očí. Po nalezení hlavy byla z rozměrů tohoto
objektu odhadnuta oblast výskytu levého a pravého oka. Levé oko se nachází v levé horní čtvrtině
obdélníku opsaného kolem hlavy a pravé oko v pravé čtvrtině viz obrázek 35-4. V databázi je pro
každého řečníka uložen vzor levého a pravého otevřeného oka viz obrázek 34. Střed očí byl určen
pomocí metody srovnávání se vzorem. Vzor oka i oblast výskytu oka byly převedeny do chromatické
reprezentace a pro vyhledání očí byla použita složka Cr. Jako střed oka bylo považováno místo
s největší shodou vzoru a obrazu. Tato metoda pracuje velmi spolehlivě neboť oko řečníka se
v průběhu nahrávání neměnilo. Jediným problémem, kdy vzor neodpovídal oku řečníka bylo mrknutí.
Obrázek 35. Nalezení oblasti zájmu, 1 – výběr vzoru pro pozadí, 2 – naprahovaný objekt hlavy, 3 – ořez
podle šířky středu objektu, 4 – nalezení očí pomocí vzorů, výběr oblasti výskytu úst a jejich nalezení
V tomto okamžiku byla shoda vzoru a obrazu velmi malá. Byl proto stanoven práh shody (0.8) pro
detekci mrknutí. Jestliže maximální shoda vzoru a obrazu klesla pod tento práh, byl střed oka převzat
z předchozího snímku. Tato úprava je možná, neboť mrknutí je velmi krátké a změna pozice středu očí
je velmi malá. Je nutné dodat, že se vyskytly případy kdy byla pozice středu oka během mrknutí
určena špatně právě díky pohybu hlavy. Těchto případů bylo ovšem jen velmi málo a byly opraveny
ručně. Pro všechny ostatní snímky, než první snímek, byla předpokládaná oblast výskytu oka určena
ze známé předchozí pozice středu a velikosti vzoru oka. Tato oblast odpovídala obdélníku se středem
v předchozí pozici středu oka a velikosti dvakrát větší než velikost vzoru. Velmi se tím snížila velikost
prohledávané oblasti oproti prvnímu snímku, čímž se algoritmus zrychlil. Současně s nalezením středů
očí byl pro každý snímek nalezen i střed úst. V prvním snímku byla určena vzdálenost středu očí, která
je uložena do souboru s popisem videozáznamu. Podle této vzdálenosti je pro celou promluvu určena
velikost ROI. Oblast výskytu úst byla určována pomocí pozice a vzdáleností středů očí. Střed oblasti
výskytu úst leží na kolmici sestrojené v polovině spojnice očí ve vzdálenosti 1,5krát vzdálenost očí.
Velikost této čtvercové oblasti je 1,5*vzdálenost očí. Samotný střed úst je nalezen jako průměrná
pozice bílých bodů získaných prahováním oblasti v barevné reprezentaci G/R pomocí prahu P, jehož
určení je popsáno níže viz 3.3.2. Nyní známe pozici středu úst a velikost ROI. Jako doplňující údaj je
do souboru s popisem videozáznamu uložen ještě úhel natočení hlavy vypočítaný jako úhel natočení
středů očí vůči horizontální ose. Soubor s popisem videozáznamu je výstupem metody nalezení oblasti
zájmu.
3.3.2 Liptracking
Vstup metody nalezení kontury rtů byl videozáznam s rozlišením 720*288 bodů a frekvencí 50 Hz.
Z kroku nalezení ROI je k dispozici informace o jeho pozici a velikosti. Průměrná velikost oblasti
- 53 -
Vlastní přínos
zájmu je 113*65 bodů. Oblast zájmu zahrnuje rty a jejich nejbližší okolí viz obrázek 36. V oblasti
zájmu se vždy vyskytuje nadpoloviční většina bodů, které náleží kůži. V oblasti se jen velmi zřídka
vyskytují body náležející pozadí. Po analýze oblastí zájmu pro různé řečníky bylo zjištěno, že rty
některých řečníků odrážejí umělé osvětlení scény a jsou tudíž přesvětleny. Tento jev se projevoval
u lidí s vlhkými rty a při použití rtěnky. Rty v tomto případě ztrácejí svou typickou barvu. Dále bylo
konstatováno, že barva rtů a barva tváře je dostatečně odlišná, a proto bylo rozhodnuto použít pro
jejich vyhledávání právě barevnou odlišnost. Rty jsou vždy více červené než kůže. V oblasti zájmu se
však v průběhu promluvy nevyskytují pouze dva objekty (rty a kůže). Vyskytují se zde i zuby, jazyk,
mezera uvnitř úst a zřídka i vousy viz obrázek 36. Zuby, mezera a vousy se také dostatečně odlišují
svou barvou od rtů. Problém nastává při viditelnosti jazyka. Při osvětlení má totiž jazyk velmi
podobnou barvu jako rty, a je proto velmi obtížné ho od rtů odlišit. Dalším problémem je samotný tvar
rtů některých řečníků. Variabilita tvaru rtů pro různé řečníky je velmi velká a existují i ústa jejichž
horní ret je skoro neznatelný, protože jeho výška je velmi malá viz obrázek 36. Uvedené poznatky
však neplatí pro všechny řečníky. U některých řečníků je odlišnost barvy kůže a rtů jen velmi malá
a to znesnadňuje určení hranice rtů. Aby bylo možné vypočítat stanovené geometrické příznaky
musela být dostatečně přesně nalezena vnitřní i vnější kontura rtů. Tvar obou kontur musel být poté
popsán tak, aby bylo možné ho přesně rekonstruovat pro poslední krok zpracování (zpracování vnitřku
úst). Po zvážení získaných informacích byla pro nalezení rtů zvolena jednoduchá metoda prahování na
základě analýzy histogramu. Tento postup se bohužel ukázal jako nedostatečný. Ve většině případů
sice byly nalezeny rty, ale jejich tvar neodpovídal příliš skutečnosti. Zlepšení poté nepřinesla ani
úprava tvaru rtů pomocí morfologických operací. Proto byla hledána jiná metoda, která by dokázala
lépe nalézt celý tvar rtů. Jako nejlepší řešení se ukázalo vylepšení metody nalezení prahu pomocí
shlukování a následné použití modifikované metody ASM, která pracuje s definovaným modelem rtů
viz 2.2.2.4. Kombinace těchto dvou metod přinesla uspokojivé výsledky nalezení obou kontur
a metoda ASM ještě poskytla kvalitní popis tvaru nalezených rtů.
Obrázek 36. Ukázka ROI, 1 – velmi malý horní ret, 2 – přesvětlení některých částí rtů, 3 – podobná barva
horního rtu a kůže, 4 – vousy
Jak již bylo zmíněno, je metoda nalezení tvaru rtů rozdělena na dvě části. V první části dochází
k hrubému nalezení tvaru pomocí prahování a druhá část upravuje tento tvar pomocí modelu rtů.
Nejdůležitějším úkolem první části metody bylo stanovení barevné reprezentace pro kterou dochází
k nejlepšímu odlišení bodů rtů a bodů tváře. Byly provedeny experimenty s několika barevnými
reprezentacemi (RGB, HSV či chromatická reprezentace) a nejlepších výsledků bylo dosaženo pro
reprezentaci pomocí jedné složky definované vzorcem G/R, kde G a R jsou složky barevné
reprezentace RGB. Analýza probíhala pomocí vyhodnocování histogramu ROI pro různé barevné
reprezentace viz obrázek 37. Analýza spočívala ve sledování průběhu histogramu. Čím více byl
histogram bimodální a jednotlivá lokální maxima představující objekty rtů a kůže se od sebe
vzdalovala a prohlubovalo se údolí mezi těmito maximy, tím byla daná reprezentace z hlediska
oddělení objektů lepší. Po konečném výběru barevné reprezentace bylo nutné vytvořit metodu, která
by určovala hodnotu prahu pro získání objektu rtů. V reprezentaci G/R jsou rty představovány vždy
nižším maximem, které je umístěno více vlevo než maximum představující kůži.
- 54 -
Vlastní přínos
Obrázek 37. Ukázka histogramů a zobrazení ROI pro různé reprezentace obrazu (R, G, B, Hue,
chromatická červená, chromatická zelená, šedotónová, R/G)
Pro nalezení prahu byla zvolena metoda analýzy histogramu. Jako ideální práh se ukázalo právě
minimum oddělující maxima, která reprezentují jednotlivé objekty. Tato metoda sice nacházela objekt
rtů, ale jeho tvar byl velmi nepřesný. Části rtů chyběly a naopak některé oblasti kůže byly označeny
jako rty. Největší problém nastával jestliže v histogramu nedošlo k vytvoření dostatečně hlubokého
minima a vysokého maxima. Metoda poté určila nesmyslný práh a rty byly nalezeny špatně. Proto
byla metoda nalezení prahu změněna. Místo analýzy histogramu byla použita shlukovací metoda
založená na GMM a EM algoritmu. Tato metoda byla převzata od kolegů zabývajících se
rozpoznáváním řečníka. Metoda provede rozdělní bodů ROI do dvou tříd (rty, kůže) pomocí
shlukování založeném na kombinaci metod DB (distance based) a EM (expectation maximization).
Nejprve jsou všechny body rozděleny do dvou tříd. Pomocí binárního dělení a kritéria nejbližšího
souseda jsou tyto shluky postupně přeskupovány, až získáme dvě množiny reprezentující rty a kůži.
Poté je použita metoda EM pro úpravu rozptylů obou shluků, které jsou použity k výpočtu prahu.
Protože metoda je výpočetně náročná byly provedeny testy s množstvím vstupních dat. Vstupní data
představují všechny body ROI v reprezentaci G/R. Jestliže však použijeme pouze každý šestý bod
ROI, je výsledek metody zanedbatelně odlišný oproti použití všech bodů, ovšem rychlost výpočtu se
několikanásobně zvýší. Výsledkem shlukování jsou střední hodnoty MR, MK (představují hodnoty
v reprezentaci G/R) a rozptyly VR, VK pro objekt rtů a kůže. Výpočet prahu P byl proveden pomocí
rovnice (32). Vztah pro práh P byl získán z experimentálních výsledků. Výpočet hledá práh mezi
hodnotami MR, MK pomocí poměru rozptylu jednotlivých tříd. Hodnoty MR a VR odpovídají střední
hodnotě a rozptylu třídy obsahující body rtů získané shlukováním v reprezentaci G/R, hodnoty MK a
VK reprezentují třídu obsahující body kůže.
- 55 -
Vlastní přínos
P = M R + (M K − M R ) ∗
VK
VR + VK
(32)
V neznámém obrázku byly jako rty označeny všechny body s nižší hodnotou než je hodnota P.
Výsledek prahování představuje binární obraz, kde bílá znamená rty a černá ostatní viz obrázek 38.
Stávalo se, že jako rty byly označeny i části kůže, které se nedotýkaly rtů. Tyto části představují
poruchy kůže, kdy je pokožka načervenalá a barva těchto míst se blíží barvě rtů. Proto byl jako objekt
rtů vybrán největší objekt v binárním obraze. Nevýhodou tohoto kroku je občasné odstranění horního
rtu, neboť se stává, že horní ret je oddělen od spodního v oblasti nad koutky. Tato oblast je
problémová a často jsou zde rty označeny jako kůže. Jestliže je horní ret úplně oddělen, pak metoda
výběru největšího objektu vybere pouze spodní ret viz obrázek 38-3.
Obrázek 38. Ukázka nalezení vnitřní a vnější kontury rtů: 1 – ROI, 2 – naprahovaný obraz, 3 – vybrání
největšího objektu, 4 – přidání objektů pomocí tvaru rtů z předchozího kroku, 5 – rozšířený konvexní
obal vnější kontury rtů, 6 – obraz upravený pomocí vyprahování vnitřku úst a odstranění děr pod a nad
hranicí vnitřku úst, 7 – získání vnitřku úst obarvením okolí úst, 8 – hranice vnitřku rtů, 9 –konvexní obal
vnitřku úst, 10 – výsledný hrubý tvar rtů, 11 – výsledný tvar rtů upravený pomocí modelu
Abychom mohli tento získaný tvar rtů použít pro vylepšení pomocí modelu rtů musíme získat
vnitřní a vnější konturu. Bohužel metoda prahování většinou označí jazyk jako objekt rtů, takže vnitřní
kontura nemá správný tvar. Vnější kontura je většinou nalezena správně, ovšem je porušená dírami,
které měly být označeny jako rty, ale byly označeny jako kůže. Pro zlepšení tvaru vnější kontury bylo
použito konvexního obalu. Využívá se toho, že nejčastější chybou vnějšího tvaru jsou právě díry.
Nejprve je provedena eroze s binárním obrazem rtů a tento obraz je odečten od původního obrazu rtů
a tím je získán obraz obsahující pouze hranici rtů. Tento obraz je použit jako vstup metody
vypočítávající konvexní obal. Po výpočtu konvexního obalu je obal zakreslen do původního obrazu
a všechny body uvnitř obalu jsou označeny jako bílé.
Po získání vnější kontury musíme opravit tvar vnitřní kontury. Nejčastější chybou jsou opět díry
vzniklé nenalezením rtů. Jedny jsou způsobeny přesvětlením rtů a nacházejí se většinou uvnitř
spodního rtu. Ostatní díry jsou způsobeny podobností barvy rtů a kůže viz obrázek 38-2. Protože pro
úpravu tvaru opět používáme konvexní obal, musíme zaplnit díry, které spojují vnitřek rtů s okolím
rtů. To provedeme s využitím konvexního obalu vnější kontury. Na tento obal, který je tvořen čárou
tloušťky 1 použijeme dilataci se strukturním elementem [7, 9] pro rozšíření obalu viz obrázek 38-5.
Provedeme operaci OR s tímto obrazem a původním obrazem rtů. Výsledný obraz by již neměl
obsahovat žádné spojení vnitřku rtů a okolí rtů pomocí černých bodů (občas se stává, že vnitřní černé
body jsou propojeny s okolím rtů). Dalším problémem vnitřního tvaru rtů je občasné označení jazyka
jako objekt rtů. Jestliže se jazyk nedotýká rtů a je pouze označen bílými body uvnitř rtů pak je snadné
tento objekt odstranit a nemá tak vliv na tvar vnitřní kontury (odstranění všech bílých objektů uvnitř
úst). Jestliže se však dotýká rtů pak odstranit nelze a právě tato situace byla řešena. Jazyk má velmi
podobnou barvu jako rty a proto je velmi obtížné ho odlišit pomocí prahování. Využijeme však toho,
že i když se jazyk dotýká rtů pak mezi rtem a jazykem zůstává místo které je tmavší než oba objekty.
Je tedy třeba určit jas JV tohoto místa. Vycházíme tedy z požadavku nalézt místo, kde končí vnitřní ret
a začíná vnitřek úst. Pro vyřešení tohoto problémů postačí analyzovat slabý výřez úst nacházející se ve
středu úst, který začíná na horní vnější a končí na spodní vnější hranici rtů viz obrázek 39. Řez je
- 56 -
Vlastní přínos
široký 7 bodů a jeho pozice je určena tak, že jsou nalezeny nejpravější, nejlevější, nejhornější,
a nejspodnější bod binárního obrazu rtů. Tyto body jsou nalezeny prostým procházením obrazu
a kontrolou pozic jednotlivých bodů. Výřez rtů V je převeden do šedotónové reprezentace. Jeho
dimenze je 7*N bodů, kde N je výška rtů. Poté je výřez upraven na vektor VP o velikosti N, kde každý
jeho prvek je definován pomocí rovnice (33) (součet hodnot pro každý sloupec).
VP ( x ) =
∑V ( y, x ),
kde
x ∈ {1.. N }
(33)
y =1..7
Po vyhodnocení průběhu vektoru VP pro různé řečníky a promluvy, bylo zjištěno, že přechod vnitřní
ret a vnitřek rtů představuje bod mezi prvním lokálním maximem a prvním lokálním minimem a bod
mezi posledním lokálním maximem a posledním lokálním minimem viz obrázek 39. Průchodem
vektoru 1..N a porovnáváním hodnot sousedních prvků jsou nalezeny lokální maxima a minima,
přičemž první nalezený extrém nemůže být maximum. Po nalezení lokálních extrému jsou vybrány
dva z nich. Úplně první minimum MH a poslední minimum následované maximem MD. Protože
přechod ret vnitřek úst neleží přímo v bodech minim musíme jejich pozice dohledat. Mohou se
vyskytnout dva případy. V prvním případě je pozice MD shodná s pozicí MH a znamená to, že rty jsou
buď zavřeny a nebo vnitřek úst vyplňuje pouze mezera. V tomto případě je pozice přechodu
definována jako pozice prvního bodu s hodnotou větší než číslo P definované rovnicí (34). Kde M1
a M2 jsou hodnoty prvního a posledního prvku vektoru VP, které odpovídají bodům rtů.
P = hodnota M H +
P = hodnota M D
(M 1 − hodnota M H ) pro horní ret
(M N
+
2
− hodnota M D )
pro spodní ret
2
(34)
V druhém případě je pozice MD a MH odlišná. Pro pozice přechodů platí stejné podmínky ovšem číslo
P je získáno pomocí rovnic (35).
P = hodnota M H +
(M 1 − hodnota M H ) pro horní ret
2
(M N − hodnota M D ) pro spodní ret
P = hodnota M D +
2
(35)
Tím jsme získali pozici nejhornějšího a nejspodnějšího bodu vnitřku úst. Nyní již zbývá pouze určit
hodnotu jasu JV. JV je definována jako menší z obou hodnot vektoru VP na nalezených pozicích
horního a dolního přechodu. JV je ještě nutné podělit hodnotou 7 (šířka vektoru V), aby jsme dostali
šedotónovou hodnotu.
Obrázek 39. Nalezení prahu JV a hranic vnitřku úst, 1 – výběr části rtů pro nalezení hranic vnitřku (žlutá
čára = hranice vnitřku), 2 – průběh součtů šedi pro jednotlivé řádky výběru, červená = nalezená maxima,
modrá = nalezená minima, šedivá = pozice hranic vnitřku úst
Popsaný proces stanovil hodnotu prahu JV. Všechny body ROI nacházející se uvnitř rtů a které
mají hodnotu šedi menší než JV jsou označeny jako bílé body a ostatní jako černé. Výsledek prahování
(tmavé části vnitřku úst) je odečten od původního obrazu po upravení vnějšího tvaru rtů. Všechny
černé body nacházející se uvnitř rtů představují buď vnitřek rtů nebo přesvětlené oblasti rtů (většinou
- 57 -
Vlastní přínos
spodní ret). Protože ale vedlejší efekt určení prahu JV je nalezení nejspodnějšího bodu vnitřku
úst, můžeme odstranit všechny černé body, které se nacházejí pod tímto bodem viz obrázek 38-6.
Jestliže byly hranice vnitřku nalezeny špatně, pak by mohly být odstraněny i černé body, které
odpovídají vnitřku úst. Proto platí pravidlo, že díry, které leží na spojnici vnějších koutků se
neodstraňují. Abychom mohli nalézt konvexní obal vnitřku úst musíme ještě obarvit body vně rtů na
bílo a provést inverzi obrazu. Body vně rtů jsou všechny černé body, které sousedí s rohy obrazu
pouze přes černé body. Po inverzi obrazu jsou body vnitřku bílé a ostatní černé. Jazyk je většinou
označen černými body což ovšem nevadí, neboť jsme nalezli přechod mezi jazykem a rtem. Po
vytvoření konvexního obalu kolem bílých bodů obarvíme celý vnitřek konvexního obalu a tím
získáme tvar vnitřku rtů. Výsledný obraz Ovnitřku je zobrazen na obrázku 38-9. Nyní je ukončena část
nalezení hrubého tvaru rtů pomocí prahování. Výstupem metody je obraz, který získáme operací AND
s obrazy Ovnějšku a invertovaného obrazu Ovnitřku viz obrázek 38-10.
Tím se dostáváme k druhému kroku algoritmu nalezení kontury rtů. Hlavním úkolem druhé části
metody je vylepšení tvaru vnější a vnitřní kontury. Pro vyřešení tohoto problému nebylo možné použít
jednoduchých metod popisu objektů, neboť tvar rtů se v průběhu promluvy velmi mění. Proto
jednoduché metody vyhodnocování zda část objektu představuje rty či nikoliv selhávaly. Byla
vyzkoušena metoda založená na popisech jako podlouhlost, kulatost atd., které měla určit jestli
nalezený objet dostatečně představuje rty či nikoliv. Když nebyl nalezený objekt vyhodnocen jako
rty, pak se upravil práh a došlo k znovu nalezení objetu rtů dokud nebylo rozhodnuto, že se jedná
o rty. Tato metoda byla velmi citlivá na nastavení rozhodovacích prahů její výsledky byly velmi
nespolehlivé. Proto byla vybrána jiná metoda popisu objektů, která dokáže zachytit tvar objektů
obsažených v trénovací množině a zpětně je rekonstruovat. Tato metoda se nazývá aktivní tvarový
model 2.2.2.4. Metoda dokáže opravit chybnou část tvaru objektu, jestliže jiná část objektu je správná.
Opravou je myšlena úprava tvaru podle vzoru z trénovací množiny. Jestliže je tedy část vnitřní kontury
nalezena špatně, ale vnější kontura je nalezena správně pak dojde k vylepšení špatně nalezené části
vnitřní kontury. Aby bylo možné metodu využít je třeba navrhnout model rtů a poté vytvořit trénovací
množinu.
Obrázek 40. Ukázka rozmístění bodů modelu rtů, 1 – rozmístění bodů na vzorovém tvaru rtů,
2 – umístění bodů vnitřní kontury nezávislé na vnější kontuře, 3 – umístění bodů vnitřní kontury závislé
na vnější kontuře
V našem případě je model tvořen třiceti dvěma body. Pospojováním těchto bodů přímkami
vznikne vnější a vnitřní kontura rtů. Vnitřní i vnější kontura je popsána pomocí šestnácti bodů viz
obrázek 40. Každý bod je reprezentován pomocí jeho souřadnic x,y. Celkový model tedy představuje
vektor VK = [ x1, x2,.., x64, y1, y2,.., y64] který obsahuje 64 souřadnic. Počet bodů a jejich rozmístění je
vybráno tak, aby po pospojování bodů přímkami tyto dostatečně popisovaly tvar rtů, ale zároveň bylo
bodů co nejméně. Při tvorbě modelu jsem vycházel z poznatku, že metoda nalezení hrubého tvaru
velmi dobře nachází vnější koutky úst. Proto byly koutky úst zvoleny jako body, podle nichž se určuje
pozice všech ostatních bodů modelu. Hlavním úkolem modelu je popsat tvar rtů. Model již nemusí
popisovat velikost rtů a proto je možné použít vnější koutky rtů jako pevné body modelu, které mají
normalizovanou vzdálenost (normalizace na 1). Kdyby měl model ještě popisovat velikost rtů pak
nastávají problémy, neboť velikost rtů se nemění jen v průběhu řeči, ale i mezi řečníky. Velikost rtů
v klidové poloze (zavřená ústa) je velmi odlišná pro odlišné řečníky. Model byl tedy navržen tak, že
- 58 -
Vlastní přínos
ostatní body vnější kontury mají pevnou x-ovou pozici vzhledem k vnějším koutkům. Vzdálenost
koutků je rozdělena na 8 stejných částí a na jejich hranicích se nacházejí body vnější kontury rtů.
Jejich y-ová pozice je daná tvarem rtů. Uspořádání bodů vnitřní kontury je podobné. Y-ové pozice
bodů jsou definovány opět osmi intervaly, na které je rozdělena vzdálenost vnitřních koutků. Pozice
vnitřních koutků je proto nalezena jako první a k ní jsou vztaženy pozice ostatních bodů vnitřní
kontury. Rozmístění bodů ukazuje obrázek 40-1. To že pozice vnitřních koutků není přesně
definovaná podle pozice vnějších koutků umožňuje přesnější popis vnitřní kontury. Jak by model
vypadal při pevné pozici vnitřních koutků ukazuje obrázek 40-3. Model rtů ovšem není popsán pouze
vektorem VK. Tento vektor popisuje pouze střední tvar rtů. Model dále popisují tzv. transformační
matice P a deformační matice DEF, které budou popsány později.
Abychom mohli definovat všechny prvky modelu rtů je zapotřebí vybrat trénovací množinu.
Prvky trénovací množiny musí obsahovat tvary rtů pro různé řečníky a pro různé promluvy, aby model
mohl tyto případy popsat. Trénovací množinu tvoří 228 vzorů. Nejprve bylo náhodně vybráno 2000
tvarů rtů. Poté došlo k užšímu výběru tak, aby trénovací množina zahrnovala co největší spektrum
běžných tvarů rtů jaké se vyskytují při promluvě. Každý vzor představuje obraz odpovídající ROI,
v němž byla ručně označena vnitřní a vnější kontura rtů. Vnější kontuře odpovídá bílá barva a vnitřní
černá barva viz obrázek 41. Obrázky byly ještě před zanesením kontur upraveny tak, aby se v nich
nevyskytovaly žádné čistě černé nebo bílé body.
Obrázek 41. Ukázka vzorových tvarů rtů obsažených v trénovací množině. Vnější kontura je označena
bíle a vnitřní černě.
Po vytvoření trénovací množiny již bylo možné spočítat střední tvar ms, transformační matici P
a deformační vektor DEF. Pro každý obraz trénovací množiny byly určeny souřadnice bodů modelu.
Pro jejich nalezení stačilo pouze obraz naprahovat, tak aby zůstaly pouze černé nebo bílé body. Po
získání kontur byly nalezeny koutky a podle nich souřadnice ostatních bodů, které jsou pevně
rozmístěny mezi nimi. X-ová souřadnice je určena právě tvarem rtů. Pro každý vzor byl tedy získán
vektor VK obsahující souřadnice nalezených bodů. Nyní bylo nutné provést normalizaci celého modelu
podle vnějších koutků podle rovnic (36), kde vektor VK obsahuje souřadnice bodů modelu rtů, Vš
představuje vzdálenost vnějších koutků, YVně představuje y-ovou souřadnici středu vnějších koutků,
XVně představuje x-ovou souřadnici středu vnějších koutků a XVni představuje x-ovou souřadnici středu
vnitřních koutků. Po normalizaci byla pozice levého vnějšího koutku [-0.5, 0] a pravého vnějšího
koutku [0.5, 0]. Všechny body jsou tedy normalizovány tak, aby střed vnějších koutků ležel v bodě
[0,0] a vzdálenost všech ostatních bodů byla vydělena vzdáleností vnějších koutků od jejich středu.
VK (i ) − X Vně
pro
Vš
V (i ) − X Vni
VK (i ) = K
pro
Vš
V (i ) − YVně
VK (i ) = K
pro
Vš
V (i ) − YVně
VK (i ) = K
pro
Vš
VK (i ) =
i ∈ {1..16}
i ∈ {17..32}
i ∈ {33..48}
i ∈ {49..64}
- 59 -
(36)
Vlastní přínos
Výstupem normalizace je tedy 288 vektorů VK. Pomocí metody PCA jsou nyní vypočteny vektory ms,
DEF a matice P. Jako první je vypočtena střední hodnota ms podle vzorce (3) a kovarianční matice R
podle vzorce (4). Poté je proveden SVD rozklad matice R na matici vlastních čísel V a vlastních
vektorů A tak, jak je popsáno v 2.1.1.2. Pro popis modelu bylo vybráno 10 vlastních vektorů
odpovídajících 10 největším vlastním číslům. Z nich byla vytvořena transformační matice P.
Deformační vektor DEF je určen pomocí rovnice (13) (výpočet bk). Vektor ms představuje průměrný
tvar rtů, k němuž je počítána odchylka od nalezeného tvaru rtů (velikost [64,1]). Transformační matice
P zajišťuje výpočet tvaru rtů z 10 řídících koeficientů. Matice PT zajišťuje převod tvaru rtů na řídící
vektor. Matice tedy slouží ke změně dimenze. Vektor DEF omezuje maximální deformace modelu při
přepočtech mezi tvarem rtů a řídícím vektorem. Pro řízení tvaru modelu bylo vybráno 10 řídících bodů
(PCA). Bohužel nebylo provedeno nalezení optimálního množství řídících bodů tak, aby jejich počet
byl co nejmenší, ale aby model dostatečně postihoval tvar rtů. Na obrázku 42 je znázorněno jak se
deformuje tvar rtů při změně jednotlivých řídících bodů.
Obrázek 42. Ukázka deformace tvaru rtů při změně jednotlivých parametrů řídícího vektoru.
Úprava tvaru nalezených rtů funguje následovně. Jako první jsou nalezeny body modelu na
přibližně nalezeném tvaru rtů. Z pozic nalezených bodů je sestaven vektor VK a je spočítána odchylka
VS tohoto modelu od vektoru středního tvaru ms. Poté je spočítán vektor řídících bodů b podle rovnice
(37).
b = P T * VS
(37)
Prvky vektoru b jsou omezeny tak, aby jejich hodnota nebyla větší než hodnota definovaná ve vektoru
DEF čímž zajistíme, že tvar rtů se nebude deformovat více než bylo uvedeno v trénovací množině. Po
omezení vektoru b provedeme zpětnou transformaci řídícího vektoru na tvar rtů VKN popsaný pomocí
bodu modelu podle rovnice (38).
VKN = ms + P * b
(38)
Vektor VKN představuje nový upravený tvar rtů.
V předchozích odstavcích byl popsán postup vytvoření modelu rtů. Můžeme tedy pokračovat ve
druhé fázi nalezení kontury rtů, a tou je úprava tvaru. Abychom mohli využít model rtů musíme
nejprve nasadit model na nalezený tvar rtů. Proto jsou jako první nalezeny vnější koutky a podle nich
jsou určeny pozice ostatních bodů modelu. Určení pozic bodů modelu probíhá stejně jako při
vytváření modelu. Místo označených kontur pomocí bílé a černé máme k dispozici nalezený tvar.
Nalezení vnějších bodů z tvaru rtů je jednoduché. Postupujeme vždy od kraje obrazu, dokud
- 60 -
Vlastní přínos
nenarazíme na bílý bod. Nalezení bodů vnitřní kontury se provádí po úpravě obrazu stejným
způsobem. Úprava obrazu spočívá v tom, že okolí rtů je obarveno na bílo a obraz je invertován. Po
nalezení bodů je provedena normalizace. Poté je spočítána odchylka od středního tvaru a provedena
transformace do prostoru nižší dimenze a zpět. Výsledný tvar je od normalizován a zakreslen do
původního obrazu ROI. Tímto postupem jsme získali tvar rtů definovaný pomocí modelu. Ukázky
opravy nalezeného tvaru rtů pomocí modelu jsou zobrazeny na obrázku 43.
Během celého procesu nalezení kontury rtů je možné vylepšit či zjednodušit některé kroky
vyhledávání. V popisu první části (nalezení hrubého tvaru), bylo uvedeno, že v některých případech
dochází k odstranění objektů patřících rtům, díky označení největšího objektu jako rty. Nejčastěji
dochází ke ztrátě horního rtu. Tento problém je možné odstranit použitím získaného tvaru rtů
z předchozího snímku. Po vybrání největšího objektu je do naprahovaného obrazu (všechny nalezené
objekty) zanesena kontura rtů z předchozího snímku podle nalezených koutků v aktuálním snímku.
Všechny objekty jejichž část leží uvnitř rtů jsou vybrány jako objekty rtů. Tuto operaci lze provést
neboť změna tvaru rtů je dostatečně pomalá.
Obrázek 43. Ukázka opravy tvaru rtů pomocí modelu, černo – bílý obraz – binární obraz nalezených rtů
upravený pomocí konvexního obalu, barevný obraz – výsledný tvar rtů po použití modelu rtů
Celý proces nalezení rtů je možné urychlit výpočtem prahu pro nalezení rtů pouze v prvním
snímku. Metoda shlukování pro nalezení prahu je totiž časově náročná. Při použití prahu nalezeného
v prvním snímku dochází jen k velmi malé chybě nalezení tvaru v ostatních snímcích. V případě, že
výpočetní čas nehraje roly, pak je lepší provést výpočet prahu pro každý snímek znovu. Výsledkem
části nalezení kontury rtů je tedy vektor VKN, který obsahuje pozice bodů modelu popisující tvar rtů.
Popsaný postup nalezení oblasti ROI a nalezení vnitřní a vnější kontury rtů s urychlením v podobě
nalezení prahu pouze v prvním snímku byl realizován v programovacím jazyce C. Program pracuje
v reálném čase na počítači s konfigurací Pentium4, 3GHz, 1GB RAM. Program byl testován za
různých podmínek a pro různé řečníky a vykazuje velkou robustnost a spolehlivost.
3.3.3 Nalezení vnitřku úst
Cílem metody nalezení vnitřku úst bylo určení horizontálních pozic jazyka, horních zubů, dolních
zubů a mezery. Problémem určení pozic těchto objektů během promluvy se bohužel nezabývá žádná
publikovaná práce. Musel jsem proto provést analýzu vnitřku rtů a následně určit postup nalezení
jazyka, zubů a mezery. Jako výstup metody jsem požadoval určení horizontálních pozic objektů.
Vertikální pozice objektů není důležitá, neboť v průběhu promluvy by se všechny objekty měly
pohybovat pouze nahoru a dolů. Pohyb jazyka či spodních zubů do stran se při tvorbě hlásek
- 61 -
Vlastní přínos
neuplatňuje. Tento předpoklad není pro reálné podmínky splněn, ovšem můžeme ho brát jako
pravdivý, neboť pohyby objektů do stran jsou minimální.
Při analýze vnitřku úst pro různé řečníky a různé promluvy byly zjištěny následující poznatky:
jazyk má velmi podobnou barvu jako rty v barevné reprezentaci RGB ve složce R. Horní zuby se
nepohybují vlivem promluvy, ale pouze vlivem pohybu hlavy řečníka. Pozici spodních zubů je možné
přibližně určit podle pozice brady. Jas mezery je vždy menší než jas rtů. Jestliže vybereme úzký
proužek rtů viz obrázek 44-1 a vykreslíme součet šedotónových hodnot jeho řádků, pak hranice
jednotlivých objektů leží v extrémech této křivky. Všechny tyto poznatky byly zjištěny
experimentálně sledováním změn vnitřku rtů pro různé promluvy a různé barevné reprezentace. Je
nutné zdůraznit, že u některých snímků nebylo možné přesně určit jaké části jsou právě viditelné,
neboť zuby občas mají červený nádech a je těžké je odlišit od jazyka a jazyk občas vlivem osvětlení
ztrácí červenou barvu a vypadá proto jako mezera. Pozice horních zubů se nemění během promluvy,
neboť jsou umístěny v horní čelisti. Proto je možné přibližně určit jejich pozici pomocí nějakého
pevného bodu na hlavě řečníka. Když je tento bod viditelný, pak je možné určit pozici horních zubů
i při zavřených rtech ze znalosti vzdálenosti horních zubů a tohoto bodu. Jako pevný bod na hlavě,
který lze snadno vyhledávat pomocí metody srovnávání se vzorem byl určen nos. Takto je možné určit
i přibližnou pozici spodních zubů. Spodní zuby jsou totiž zasazeny ve spodní čelisti a pohyb spodních
zubů je proto spjat s pozicí brady. V případě, kdy by byla v každém snímku přesně určena pozice ROI,
mohly by být přibližné pozice zubů určovány z předchozích snímků. Můj algoritmus pro nalezení ROI
však nedokáže tento předpoklad dostatečně splnit. Dalším poznatkem je, že barva jazyka ve složce R
je velmi podobná barvě rtů. Tento poznatek byl zřejmý již při hledání tvaru rtů. Jestliže je jazyk
dostatečně vystrčen (je dostatečně osvětlen), pak je tento poznatek pravdivý. Jestliže je ale jazyk
zastrčen v ústech, pak tmavne a ztrácí červenou barvu (způsobuje to nedostatek světla). Posledním
poznatkem je, že průběh součtu šedotónových hodnot proužku vnitřku určuje pozice hranic
jednotlivých objektů. K výběru slabého proužku uprostřed rtů mě vedl poznatek, že není důležitý
pohyb objektů do stran, ale pouze nahoru a dolů. Proto stačí analyzovat slabý proužek uprostřed rtů,
který obsahuje všechny objekty jestliže jsou viditelné. Jestliže tedy naleznu maxima a minima průběhu
zmiňované křivky, mohu určit přechody jednotlivých objektů. Bohužel však z průběhu křivky nelze
jednoznačně určit o jaké objekty se jedná a proto je pro jejich identifikaci použito předchozích
poznatků z analýzy vizuální složky řeči.
Obrázek 44. Nalezení objektů vnitřku úst: 1 – výběr úzkého proužku vnitřku úst, 2 – průběh
šedotónových hodnot vybraného proužku s nalezenými extrémy, 3 – nalezené extrémy zanesené do obrazu
(zelený křížek = odhad pozice dolních zubů, červený křížek = odhad pozice horních zubů, bílý křížek =
nový odhad pozice horních zubů po jejich nalezení), 4 – binární obraz rtů z modelu, 5 – naprahovaný
obraz jazyka a mezery (bílá = jazyk, šedivá = mezera), výběr oblastí pro dohledání jazyka (červená)
a mezery (žlutá), 6 – nalezené středy a rozměry objektů (bílá = horní zuby, zelená = jazyk, modrá = dolní
zuby)
Ještě před popisem samotného postupu nalezení objektů vnitřku rtů uvedu pokus o jejich nalezení
použitím modelu rtů spojeného s modelem vnitřku úst. Tento model byl vytvořen stejnou metodou
jako samotný model rtů. K modelu byly přidány další čtyři souřadnice, které představovaly pozice
jazyka, zubů a mezery. Jestliže nebyl některý z objektů viditelný, pak byla jeho pozice mimo rty.
Použití tohoto modelu však nedávalo dobré výsledky. Zhoršila se samotná část nalezení tvaru rtů a ani
určení pozic objektů vnitřku nepracovalo správně a proto jsem od metody upustil.
Jako vstup metody nalezení pozic objektů vnitřku jsem použil nalezený tvar rtů a oblast ROI.
Z tvaru rtů je možné určit hranice vnitřku úst a tím i vybrat slabý proužek OV vnitřku rtů. Pro nalezení
pozic objektů využívám i přibližných pozic zubů určených z pozice nosu a brady, a proto je potřeba
tyto pozice určit před analýzou prvního snímku. Pozice nosu a brady je určena podle středu
- 62 -
Vlastní přínos
nalezených rtů, velikosti ROI a vnější šířky úst. Pro pozici nosu platí: x = střed rtů x , y = střed rtů
y - velikost ROI/3, pro velikost vzoru nosu platí: šířka a výška = šířka úst. Pro pozici brady platí: x =
střed rtů x , y = střed rtů y + velikost ROI/3, pro velikost vzoru brady platí : šířka = šířka úst/2, výška
= šířka úst * 0,8. Podle těchto pozic a velikostí jsou z prvního snímku získány vzory pro nos a bradu.
Podle těchto vzorů je určována pozice nosu a brady pomocí metody srovnávání se vzorem
(v šedotónové reprezentaci) pro další snímky. V prvním snímku je nutné určit i předpokládanou pozici
zubů. Jestliže jsou rty zavřené, což je možné určit z vnitřní kontury rtů (horní a spodní vnitřní kontura
se dotýkají), pak pozici zubů určíme pomocí nalezení středu rtů. Je možné vyjít z předpokladu, že při
zavřených rtech jsou zuby člověka těsně u sebe a spodní hranice horních zubů se nachází v úrovni
místa, kde se rty dotýkají. Místo kde se rty dotýkají je také nejtmavší místo rtů. Určíme ho jako
minimum řezu rtů v šedotónové reprezentaci. Jestliže jsou ovšem rty otevřené, pak je jako pozice zubů
určen střed vzdálenosti středu horní a dolní vnitřní kontury rtů viz obrázek 45. Ze znalosti pozice
horních a dolních zubů určíme vzdálenost horních zubů a nosu a spodních zubů a brady. Tyto
vzdálenosti jsou zpřesňovány po nalezení skutečné pozice horních a dolních zubů.
Obrázek 45. Nalezení středu úst jako bodu uprostřed vzdálenosti středů horní a dolní vnitřní kontury.
Přibližné pozice zubů jsou také vstupem metody samotného nalezení objektů vnitřku úst. Prvním
krokem metody je výběr úzkého proužku vnitřku rtů. Proužek je určen pomocí vnitřních koutků a platí
pro něj: střed: x = střed pozic vnitřních koutků x, y = střed pozic vnitřních koutků y, velikost: výška =
vnitřku úst + 10 bodů na každou stranu, šířka = 6 bodů. Tento proužek je převeden do šedotónové
reprezentace a jsou sečteny hodnoty v jednotlivých řádcích. Dostáváme tedy vektor VV, který má
velikost = výška vnitřku + 20 bodů, jehož průběh je znázorněn na obrázku 44-2. Při takovéto volbě
vektoru VV je splněno, že první bod vektoru představuje bod horního rtu řečníka. Proto je tento bod
označen jako první extrém (extrém(0), extrém(0).x představuje pozici extrému a extrém(0).y jeho
velikost). Vyhledávání dalších extrému se provádí průchodem vektoru od začátku a sledováním změny
směru průběhu. Takto jsou určena lokální maxima a minima celé křivky. Algoritmus hledá pouze
prvních 7 extrémů, neboť ty představují možné přechody mezi objekty. Ostatní extrémy jsou
ignorovány. Pro extrémy přibližně platí, že zuby jsou představovány maximy, mezera minimy a jazyk
může být představován obojím. Při hledání extrému jsou brány v potaz pouze dostatečně velké
extrémy. Podmínkou pro akceptování extrému extrém(i) je splnění podmínky (39).
 extrém (i ). y extrém (i − 1). y 
ABS 
−
 > 0.052
extrém (0 ). y 
 extrém (0 ). y
(39)
Jestliže algoritmus vynechává tyto malé extrémy, pak se může stát, že po sobě následují dvě maxima
či dvě minima. Proto je toto kontrolováno a je ponechán pouze extrém s větší hodnotou (minimum
menší, maximum větší).
Dalším krokem po nalezení extrémů je výpočet vektoru určujícího přítomnost jazyka či
mezery uvnitř rtů. Pro určení tohoto vektoru je využita střední hodnota barvy a jasu rtů, jak vyplývá
z předpokladů určených pozorováním vnitřku úst. Pro nalezení objetu jazyka a mezery nejprve
vytvoříme binární obraz rtů pomocí nalezeného tvaru viz obrázek 44-4. Vynásobením tohoto obrazu
s obrazem ROI získáme obraz rtů v reprezentaci RGB. Poté spočítáme střední hodnotu M a rozptyl V
výsledného obrazu pro reprezentaci RGB složku R (MR, VR), reprezentaci HSV složku S (MS,
VS) a šedotónovou reprezentaci (MG, VG). Naprahováním původního obrazu ROI podle rovnic (40)
získáme obraz tvaru jazyka a mezery uvnitř úst OVP. Výsledek prahování je zobrazen na obrázku 44-5.
- 63 -
Vlastní přínos
OVP (i, j ) = 255 když
OVP (i, j ) = 0
(R (i, j ) > M R − VR * 1.5) & (R (i,j ) < M R ) & (S (i, j ) > M S − VS * 0.5)
(40)
jinak
OVP (i, j ) = 100 když
(G (i, j ) < M G − VG * 2 )
Po získání tvaru rtů a mezery pomocí prahování jsou vybrány dva úzké proužky z OVJ (jazyk) a OVM
(mezera) viz obrázek 44-5. Výška obou odpovídá výšce vnitřku úst. Šířka prvního je polovina šířky
vnitřku a šířka druhého je šířka vnitřku/5*2. Následně je vytvořen vektor VJ, který udává výskyt
jazyka a vektor VM, který udává výskyt mezery. Vektor VM je konstruován tak, že jeho prvek nabývá 1
jestliže se v příslušném řádku v obraze OVM nachází bod s hodnotou 100. Pro konstrukci vektoru VJ
jsou nejprve počítány výskyty bodů s hodnotou 255 pro každý řádek. Hodnota prvku vektoru je 1
jestliže četnost bodů 255 pro příslušný řádek je větší než šířka vnitřku/4 nebo příslušný prvek vektoru
VM je rovem jedné.
Po nalezení extrémů a výskytu jazyka a mezery je možné provést určení pozic objektů vnitřku úst
podle počtu nalezených extrémů. Jestliže je počet extrému 1, pak se může jednat pouze o mezeru.
Jestliže extrém(1).y/extrém(0).y<0.5 nebo VM(extrém(1).x)==1, pak se jedná o mezeru. Všechny další
podmínky pro rozhodování o typu objektu, jako pro určení mezery, byly určeny experimentálně.
V následujícím popisu je poziceZubuHor a poziceZubuDol přibližnou pozicí horních a dolních zubů
nalezenou pomocí pozic nosu a brady.
Jestliže je počet extrémů 2, pak se vyhodnocují následující vztahy:
if (extrém(1).x>poziceZubuHor & ((extrém(1).y/extrém(0).y)<0.5) | VM (extrém)(1).x)=1)
- extrém(1) je mezera, nachází se za horními zuby
- určení druhého extrému (spodní zuby či jazyk)
if (VJ(extrém(2).x)=0 | extrém(0).y<extrém(2).y | (extrém(0).y>extrém(2).y & VJ(extrém(2).x)=0))
- jedná se o spodní zuby, horní to být nemohou podle polohy
- horní zuby nejsou vidět, extrém(2) jsou spodní zuby, jazyk není vidět
jinak
if (extrém(2).x<poziceZubuDol)
- extrém je před spodními zuby a jedná se tedy o jazyk
- horní zuby nejsou vidět, spodní zuby nejsou vidět, extrém(2) je jazyk
jinak
- horní zuby nejsou vidět, extrém(2) jsou spodní zuby, jazyk není vidět
jinak
první extrém není mezera
mezera není vidět
if (VJ (extrém(2).x)=0 | extrém(2).x<poziceZubuHor)
- jedná se o horní zuby
- jazyk není vidět
if (extrém(2).x<poziceZubuHor)
- extrém(2) jsou horní zuby podle pozice
- je třeba zkontrolovat, jestli se v okolí maxima nevyskytuje ještě nějaké malé
maximum, které se zahodilo při hledání extrémů a které představuje spodní zuby
- maximum hledám od extrém(2).x do konce vnitřku úst
- jestliže se nalezlo pak spodní zuby představuje toto maximu, jinak nejsou spodní zuby
vidět
jinak
- jedná se o spodní zuby podle pozice
- je třeba zkontrolovat jestli se v okolí maxima nevyskytuje ještě nějaké malé maximum,
které se zahodilo při hledání extrémů a které představuje horní zuby
- maximum hledám od extrém(2).x do začátku vnitřku úst
- 64 -
Vlastní přínos
- jestliže se nalezlo pak horní zuby představuje toto maximu, jinak nejsou spodní zuby
vidět
jinak
-maximum by měl být jazyk, ale je třeba to zkontrolovat podle pozice
if (extrém(2).x+<poziceZubuDol)
- jedná se o jazyk, horní a spodní zuby nejsou vidět
jinak
- jedná se o spodní zuby, horní zuby ani jazyk nejsou vidět
Jestliže je počet extrémů 3, pak se vyhodnocují následující vztahy:
if ((extrém(1).y/extrém(0).y)<0.5 | VM (extrém)(1).x)=1)
- musíme zkontrolovat jestli minimum leží za předpokládanou hranicí horních zubů
if (extrém(1).x>=poziceZubuHor )
- extrém(1) je mezera
if (VJ(extrém(2).x)=1 & extrém(2).x<poziceZubuDol)
- extrém(2) je jazyk podle pozice, horní ani dolní zuby nejsou vidět
jinak
- extrém(2) jsou dolní zuby, horní zuby ani jazyk nejsou vidět
jinak
- stává se že pozice zubů je odhadnuta špatně a potom se mezera nenajde kvůli tomu
- musíme se podívat jestli mezi odhadnutou pozicí zubů a maximem není VM =1 jestliže ano
pak tento bod prohlásíme za mezeru
- vektor VM prohledáváme od poziceZubuHor až po extrém(2).x
- jestliže narazíme na hodnotu 1 pak tento bod je mezera a pokračuje v určování dalších
extrémů
- extrém(2) je jazyk podle pozice, horní ani dolní zuby nejsou vidět
jinak
- extrém(2) jsou dolní zuby, horní zuby ani jazyk nejsou vidět
jestliže se mezera nenašla pak
- zjištění jestli maximum je jazyk
if (extrém(2).x>poziceZubuHor & VJ(extrém(2).x)=1)
if (VM (extrém(2).x)=1)
- jedná se o mezeru
jinak
if (extrém(2).x<poziceZubuDol)
- jedná se o jazyk podle pozice
jinak
- jedná se o horní zuby
jinak
- je třeba zkontrolovat jestli se v okolí maxima nevyskytuje ještě nějaké malé maximum, které
se zahodilo při hledání extrémů a které představuje jiný objekt
- jestliže je extrém(2).x>poziceZubuHor pak hledáme od extrém(1).x do extrém(2).x jinak od
extrém(2).x do extrém(3).x
- jestliže se maximum nalezne, uloží se jeho pozice jako extrémPom
if (extrém(2).x<=poziceZubuHor)
- extrém(2) jsou horní zuby
if ( VJ(extrémPom)=1 & extrémPom<poziceZubuDol)
- extrémPom je jazyk, dolní zuby nejsou vidět
jinak
-extrémPom jsou dolní zuby a jazyk není vidět
jinak
- extrém(2) jsou dolní zuby podle pozice
- 65 -
Vlastní přínos
if ( VJ(extrémPom)=1 & extrémPom>poziceZubuHor)
if (extrémPom<poziceZubuDol)
- extrémPom je jazyk, horní zuby nejsou vidět
jinak
- horní zuby ani jazyk nejsou vidět
jinak
if (extrémPom<poziceZubuHor)
- extrémPom jsou horní zuby
jinak
- horní zuby nejsou vidět
- musíme zjistit jestli druhé minimum je mezera
if VM(extrém(3).x)=1 & VM(extrém(3).x-1)=1 ) & dolní zuby ani mezera se nenašly
Jestliže je počet extrémů 4 nebo 5 pak se vyhodnocují následující vztahy:
if (extrém(1).x>poziceZubuHor & ((extrém(1).y/extrém(0).y)<0.5) | VM (extrém)(1).x)=1)
- extrém(1) je mezera, nachází se za horními zuby
if (VJ(extrém(2).x]=1)
- extrém(2) je jazyk
jinak
- horní zuby nejsou vidět, extrém(4) jsou dolní zuby
jinak
- extrém(1) není mezera
if ((extrém(2).x<poziceZubuHor) | VJ(extrém(2).x)=0)
-*** kontrola prostoru od středu mezi extrém(3) a extrém(4) až do extrém(4) jestli se tam
nenachází zuby, stává se že se zuby v extrém(4) zamění za jazyk, ale již o bod před jde o zuby
- hledáme jestli se VJ v této oblasti rovná 0
- jestliže ano pak
- extrém(4) jsou dolní zuby
- musíme ověřit jestli se mezi zuby nenachází jazyk
- mezera ani jazyk nejsou vidět
- procházíme úzký proužek OVM od extrém(2) do extrém(4) (pozice zubů)
- pro každý řádek nasčítáme počet bodů s hodnotou 255 do vektoru VJpom a počet bodů
s hodnotou 100 do vektoru VMpom
- po průchodu celého proužku procházíme vektory VJpom a VMpom
if (VJpom(j)>2 | VMpom(j)>2)
if (VJpom(j)>=VMpom)
- jazyk převažuje nad mezerou
Jazyk++ počítáme kolik místa zabírá jazyk
jinak
- mezera převažuje nad jazykem
Mezera++;
if ((Jazyk>1 | Mezera>1) & Jazyk>=Mezera)
- extrém(3) je jazyk, mezera není vidět
jinak
if ((Jazyk>1 || Mezera>1) & Jazyk<Mezera){
- extrém(3) je mezera, jazyk není vidět
jinak
- jazyk ani mezera nejsou vidět
- 66 -
Vlastní přínos
-***
if (Jazyk=0 & Mezera=0 && (extrém(2).y)-extrém(1).y))/(extrém(2).x)-extrém(3).y)<1.2)
nalezení mezery porovnáním minim
jinak
- extrém(4) je jazyk
jinak
jinak
- extrém(2) je jazyk, extrém(4) jsou dolní zuby, horní zuby nejsou vidět
Jestliže je počet extrémů 6 nebo 7, pak se vyhodnocují následující vztahy:
if (VJ(extrém(6).x)=0)
-extrém(6) jsou dolní zuby
- musíme ověřit jestli prostřední maximum jsou zuby nebo jestli došlo k chybě
- je použit stejný postup jako při počtu extrémů 4 nebo 5 v úseku *** až ***, místo prohledávání do
extrém(4) se prohledává do extrém(6)
Tím jsme vyčerpali všechny možnosti počtu nalezených extrémů. Nyní je ještě možné
zkontrolovat nalezení horních zubů. Jestliže nebyly horní zuby nalezeny, ale prostor mezi
poziceZubuHor a horní hranicí vnitřku je větší než 4 obrazové body, pak by zde měly být horní zuby
a jsou sem doplněny. Toto doplnění je možné provést, neboť přibližná pozice horních zubů je velmi
přesná. Posledním krokem určení pozic objektů vnitřku úst je zpřesnění přibližných pozic horních
a dolních zubů. Jestliže tedy byly horní nebo dolní zuby nalezeny, pak se zprůměruje přibližná pozice
s nově nalezenou a tato se považuje za novou přibližnou pozici zubů. Pozice jednotlivých objektů je
ovšem třeba ještě upravit. Nalezené pozice zhruba odpovídají středům objektů. Při hledání jejich
hranic je nutné hledat střed mezi pozicemi jejich středů. Jestliže spolu sousedí zuby nebo zuby a jazyk,
pak se pokouším nalézt minimum mezi těmito objekty, které představuje jejich předěl (pokles jasu na
hranici objektů). Tímto postupem získám nejen výskyt, ale i procentní zastoupení jednotlivých objektů
uvnitř úst. Úspěšnost metody nalezení pozic objektů vnitřku byla ověřena na ručně označené testovací
množině. Množina obsahuje 882 obrazů rtů pro různé řečníky a různé promluvy. Ke každému obrazu
byl vytvořen soubor, který určuje, jaké objekty (horní dolní zuby, jazyk, mezera) se v obraze
vyskytují. Tyto obrazy jsou poté zpracovány pomocí navržené metody a její výsledky jsou porovnány
s ručně vytvořeným popisem daného obrazu. Při ručním vyhledáváním jednotlivých objektů vnitřku
úst se stávalo, že ani člověk nedokázal přesně rozhodnout jaké objekty příslušný obraz obsahuje.
Takovéto případy nastávaly především při určování viditelnosti jazyka mezi zuby, či překryvu horních
a dolních zubů. Výsledná úspěšnost metody byla při tomto testu 71%. Jako správný výsledek byl brán
případ, kdy se nalezené objekty plně shodovaly s objekty určenými člověkem.
3.3.4 Výpočet obrazových příznaků DCT
Pro porovnání výsledků mé parametrizace se standardně používanými obrazově orientovanými
parametrizacemi jsem použil nejpoužívanější parametrizaci založenou na DCT. Vstupem výpočtu
DCT příznaků je oblast zájmu. Pro výpočet obrazově orientovaných příznaků je dobré, když jsou
umístění a velikost rtů stále stejné. V mnou získaném ROI by tyto předpoklady měly platit, neboť ve
středu ROI je střed rtů a velikost ROI je určena na základě vzdálenosti očí. Prvním krokem při
výpočtu DCT příznaků je normalizace ROI na jednotnou velikost. V našem případě byla zvolena
velikost ROI 64*64 obrazových bodů. Transformovaný obraz je převeden do šedotónové reprezentace.
Výsledný obrázek OŠ je znázorněn na obrázku 46. Samotné DCT příznaky jsou vypočítány podle
vzorce (41).
- 67 -
Vlastní přínos
F (u , v ) =
c(u )c(v ) N −1 N −1
1

c(k ) =  1
 2

 π (2m + 1)u   π (2n + 1)v 
 cos
, 0 ≤ u , v ≤ N − 1
2N
2N
 

∑ ∑ O(m, n)cos
N n = 0 m =0
k =0
(41)
1 ≤ k ≤ N −1
Proměnné u a v představují frekvence, pro které je transformace počítána, O(m,n) jas obrazu na
souřadnicích m, n, konstanta N představuje rozměr obrazu v našem případě 64. Výsledných DCT
příznaků je tedy 64*64. Takovéto množství příznaků je pro rozpoznávání nepoužitelné, neboť dimenze
příznakového vektoru je příliš velká. Je proto nutné provést výběr vhodných příznaků. Kritérií pro
výběr příznaků je několik. Nejpoužívanějším je však výběr podle velikosti energie E definované
vzorcem (42). Jako vhodné příznaky je vybráno S prvků F(u,v) s největší energií.
2
E (u, v ) = F (u, v )
(42)
Pro výběr vhodných příznaků, které budou dobře popisovat daný obraz (rty), je třeba vytvořit
trénovací množinu. Trénovací množina by měla obsahovat možné tvary rtů během promluvy od
různých řečníků. V našem případě bylo vybráno 10000 obrazů, z nichž byla vypočítána Kosinová
transformace. Pro každý obraz byla spočítána energie E. Pro všechny frekvence u a v byla spočítána
střední hodnota energie E přes všechny obrazy. Tím jsme získali střední hodnotu energie pro
jednotlivé prvky F(u,v). S prvků F(u,v) s největší energií je poté použito k vytvoření příznakového
vektoru. Výsledkem nalezení vhodných příznaků jsou pozice u,v koeficientů DCT. Při samotném
výpočtu příznakového vektoru již stačí vypočítat pouze F(u,v) pro souřadnice získané z trénovací
množiny a tím získáme příznakový vektor založený na DCT. Hodnoty frekvencí u,v pro vybrané
koeficienty DCT jsou uvedeny v tabulce 14.
Obrázek 46. Ukázka zpracování ROI pomocí DCT transformace, 1 – původní ROI, 2 – ROI zmenšený na
velikost 64*64 bodů v šedotónové reprezentaci, 3 – ROI po zpětné Kosinové transformaci (15 DCT)
Stejný postup jako při získání příznaků pomocí DCT transformace z ROI je použit i pro výpočet
příznaků vnitřku úst. Jediný rozdíl je v předkládaném vstupním obraze. Při výpočtu DCT popisujících
celé rty jsem používal jako vstupní obraz obdélníkové okolí rtů. Při výpočtu DCT pro vnitřek úst
používám obdélníkový výřez vnitřku úst. Tento výřez je definován pomocí vnitřní a vnější hranice rtů.
Obdélník vnitřku úst je ohraničen následovně: horní hranice leží ve středu středního horního bodu
vnitřní a vnější kontury, dolní hranice leží ve středu středního dolního bodu vnitřní a vnější kontury,
levá hranice leží ve středu levého vnitřního a vnějšího koutku a pravá hranice leží ve středu pravého
vnitřního a vnějšího koutku viz obrázek 47. Jako trénovací množina bylo použito 13000 náhodně
vybraných oblastí vnitřku úst. Hodnoty frekvencí u,v pro vybrané koeficienty DCT jsou uvedeny
v tabulce 15.
- 68 -
Vlastní přínos
Obrázek 47. Ukázka zpracování vnitřku úst pomocí DCT transformace, 1 – původní ROI, 2 – vybraná
oblast vnitřku úst, 3 – normalizace na velikost 64*64 bodů v šedotónové reprezentaci, 4 – obraz vnitřku po
zpětné Kosinové transformaci (4 DCT)
3.3.5 Výpočet akustických příznaků
Pro popis akustické složky řeči byla využita standardně používaná PLP parametrizace. Příznakový
vektor má dimenzi 36 a tvoří ho 13 PLP koeficientů, 13 delta a 13 akceleračních koeficientů. Celý
příznakový vektor byl vždy normalizován na střední hodnotu přes celou promluvu .
3.4
Databáze pro určení vizémů
Určení vizémových skupin pro český jazyk byl velmi důležitý úkol z hlediska rozpoznávání řeči
z vizuální složky. Pro rozpoznávání je totiž nutné určit jednotky, které budeme rozpoznávat. Tyto
jednotky by měly být dobře odlišitelné právě pomocí informací, které budeme pro rozpoznávání
využívat. Jak již bylo uvedeno, vizuální složka zahrnuje méně informací o řeči než akustická složka.
Z toho vyplývá, že vizuálních řečových jednotek bude méně než akustických. Volba jednotek
samozřejmě záleží na typu úlohy. V případě rozpoznávání izolovaných slov mohou základní jednotky
tvořit celá slova. V našem případě rozpoznávání spojité řeči však bylo nutné najít jednotky menší
tak, aby odpovídaly akustickým jednotkám. Pro rozpoznávání řeči z akustické složky je pro český
jazyk definováno 43 fonémů. Jejich ekvivalent pro vizuální složku tzv. vizémy bohužel oficiálně
definovány nejsou. Strnadová ve své knize [83] rozděluje hlásky z hlediska odezírání zhruba do 14
skupin. Nalezením vizémových skupin jsem chtěl ověřit správnost rozdělení hlásek do těchto skupin
na malé množině promluv. Při analýze vizémů jsem vycházel z předpokladu, že vizémy by měly být
dobře odlišitelné na základě tvaru rtů. Jestliže tedy nalezneme tvar rtů pro jednotlivé fonémy
v různých kontextech, budeme moci tyto tvary porovnat. Ty fonémy, které budou příliš podobné
(odchylka ve tvaru rtů) by měly tvořit jednu vizémovou třídu.
Obrázek 48. Vzdálenost tvarů reprezentujících fonémy vykreslená pomocí dendrogramu.
Prvním krokem při zpracování databáze popsané v sekci 3.2.2 bylo určení 3D pozic bodů
umístěných na rtech řečníka. Tento problém byl vyřešen nalezením pozic bodů v obou pohledech
pomocí jednoduché metody prahování. Následně byla využita metoda pro výpočet 3D souřadnic
z dvou kalibrovaných pohledů pro osm bodů umístěných na vnější kontuře rtů . Tím jsme získali tvar
vnější kontury rtů pro každý snímek video záznamu promluvy. Dále bylo zapotřebí určit hranice
- 69 -
Vlastní přínos
jednotlivých fonémů v každé promluvě. Proto byla provedena segmentace řeči na základě akustického
záznamu a záznamu z laryngografu. Bližší postup je popsán v článku [42]. Výsledkem segmentace je
řetěz fonémů a informace o jejich začátku a konci pro každou promluvu. Po rozdělení vizuálních dat
do získaných intervalů jsme obdrželi 1-n tvarů rtů reprezentujících daný foném v dané promluvě.
Protože akustická a vizuální složka řeči jsou asynchronní, bylo nutné určit, jak daná segmentace
odpovídá hranicím fonémů ve vizuální složce řeči. Pro vizuální popis fonémů mohlo být vybráno
několik možností. Jako nejlepší reprezentant daného tvaru rtů mohl být vybrán první, prostřední,
poslední nebo průměrný tvar rtů příslušející danému intervalu. Jak se ukázalo při studiu hranic
nalezených fonémů a vizuální složky řeči, tak nejlépe vizuální složku řeči popisuje první nalezený tvar
rtů v daném intervalu viz obrázek 55. Abychom mohli rozhodnout o počtu vizémových tříd, museli
jsme spočítat střední tvar každého fonému přes všechny jeho výskyty pro jednoho řečníka. Střední
hodnoty nebyly počítány přes všechny řečníky, protože tvar rtů pro jednotlivé řečníky se liší a
ovlivnilo by to určení vizémových tříd. Po získání středních hodnot pro všechny fonémy byly
vypočítány vzdálenosti mezi těmito tvary a zobrazeny formou dendrogramu viz obrázek 48. Souhlásky
a samohlásky byly zpracovávány odděleně. Ze vzdáleností jednotlivých tvarů bylo určeno 13
vizémových tříd jejichž přehled je uveden v tabulce 9.
vizém
fonémy p,b,m
v,f
č,š,ř,ž
c,s,z
l,r
d,t,n
ď,ť,ň g,h,k,ch
a
e
Tabulka 9. Příslušnost fonému k jednotlivým vizémových třídám.
- 70 -
i
o
u
Experimenty
4
Experimenty
V kapitole 3.1.2.3 byly představeny vizuální příznaky vybrané pro popis vizuální složky řeči. Jedná
se o tvarově i obrazově založené příznaky. Pomocí těchto příznaků bylo sestaveno několik
příznakových vektorů, které popisují odlišné části vizuální složky řeči. Abych byl schopen porovnat
kvalitu jednotlivých příznakových vektorů z hlediska obsahu informace o řeči, musím provést
srovnávací experimenty na úlohách vizuálního a audiovizuálního rozpoznávání řeči. Abych mohl určit
kvalitu mé vlastní parametrizace, musel jsem provést porovnání výsledků rozpoznávání se standardně
používanou parametrizací na úloze, kde již byla tato standardní parametrizace použita. V průběhu
vývoje parametrizace a získávání nových poznatků o vizuální složce řeči byly provedeny experimenty
celkem na třech různých audiovizuálních databázích. První experimenty byly provedeny na ruské AV
databázi za účelem prvotního srovnání jednoduché tvarově orientované parametrizace s obrazově
orientovanými parametrizacemi a ověření přínosu použití vizémů při vizuálním rozpoznávání řeči.
Druhá sada experimentů byla provedena na databázi XM2VTSBD. V těchto experimentech byla
použita běžná obrazově orientovaná parametrizace (DCT) a mnou navržená parametrizace. Cílem bylo
vytvořit základní systém audiovizuálního rozpoznávání řeči (BSL), který je založen na DCT vizuální
parametrizaci a dosahuje výsledků popsaných v článku [91]. Druhým cílem bylo zjistit jestli mnou
navržená parametrizace dosahuje lepších výsledků než základní systém. Poslední skupina experimentů
byla provedena na databázi popsané v kapitole 3.2.3. Cílem těchto experimentů bylo sestavení
nejlepšího příznakového vektoru pomocí příznaků popsaných v kapitole 3.1.2.3 a porovnání výsledků
tohoto popisu vizuální složky s výsledky základního systému.
Ve všech dále popsaných experimentech, kromě experimentů na ruské databázi, je jako kombinace
akustické a vizuální řečové složky použito jednoduché pospojování příznakových vektorů EF.
Pospojování příznaků bylo zvoleno pro její jednoduchost. Tato kombinace řečových složek je
dostačující, neboť cílem práce není nalezení nové metody kombinace, ale vytvoření nové vizuální
parametrizace řeči. Metoda pospojování příznakových vektorů je popsána v kapitole 2.4.2.1.1.
Problémem, který bylo nutné vyřešit před samotnou kombinací akustického a vizuálního
příznakového vektoru, byl různý počet měření pro vizuální a akustickou složku řeči. Akustický
příznakový vektor byl získáván s frekvencí 100 Hz a vizuální příznakový vektor v s frekvencí 50Hz.
Pro srovnání frekvence byl zvolen postup interpolace vizuálních příznakových vektorů na frekvenci
100 Hz pomocí lineární funkce. Takto získaný vizuální příznakový vektor byl podroben ještě dalšímu
zpracování. Nejprve byla provedena normalizace příznakového vektoru podle střední hodnoty
a rozptylu přes celou promluvu. Tento postup je používán i při úpravě akustického příznakového
vektoru a má za cíl odstranit z popisu informaci o dlouhodobých charakteristikách v našem případě se
jedná o informaci o řečníkovi. Jak již bylo zmíněno v sekci 3.1.2.3 touto normalizací jsou odstraněny
rozdíly ve velikosti rtů a síla artikulace pro jednotlivé řečníky. Po normalizaci již mohli být spočítány
delta a akcelerační koeficienty. Dimenze příznakového vektoru se díky výpočtu těchto příznaků
ztrojnásobila.
Systém vizuálního a audiovizuálního rozpoznávání byl realizován pomocí skrytých Markovských
modelů a HTK toolkitu sloužícího pro trénování i rozpoznávání. Rozpoznávání bylo realizováno pro
základní řečovou jednotku monofón nebo monovizém. Jako model těchto jednotek byl využit tří
stavový model běžně používaný při akustickém rozpoznávání.
4.1
Experimenty na databázi XM2VTSDB
Cílem této skupiny experimentů bylo vytvoření základního systému audiovizuálního rozpoznávání
založeném na nejčastěji používané vizuální parametrizaci a porovnání tohoto systému se systémem
používajícím mnou navrženou parametrizaci na audiovizuální databázi, na níž již byly provedeny
audiovizuální experimenty. Nejpoužívanější parametrizací je obrazově orientovaná parametrizace
založená na DCT transformaci. Požadavek na audiovizuální databázi byl, aby na ní již byly provedeny
- 71 -
Experimenty
experimenty s obrazově orientovanou parametrizací, aby obsahovala dostatečný počet řečníků a aby
byla databáze dostupná. První podmínku splňovala většina databází popsaných v kapitole 2.5. Druhou
podmínku splňuje již jen několik málo databází a třetí podmínka se ukázala jako velký problém.
Většina databází není volně ani komerčně dostupných. Jako nejlepší volba se proto ukázalo zakoupení
databáze XM2VTSDB.
Audiovizuální databáze XM2VTSDB obsahuje nahrávky promluv 10 anglických číslovek (0-9) od
295 řečníků. Číslovky jsou promlouvány spojitě v pořadí 0-9 a poté neuspořádaně. Řečník je snímán
z čelního pohledu s rozlišením 720*576 obrazových bodů s frekvencí 25 Hz. Hlava řečníka se
v průběhu promluvy nepohybuje a zabírá zhruba třetinu snímku. Fakt, že velikost rtů ve snímku se
pohybuje okolo 80*50 bodů nám neumožňovala zvýšit frekvenci záznamu tak jako u databáze UWB05-HSCAVC, jak je popsáno v kapitole 3.2.3. Scéna má konstantní osvětlení a jednotné modré pozadí
viz obrázek 49. Vzorkovací frekvence akustického záznamu byla 32kHz a rozlišení 16 bit. Bližší popis
databáze je proveden v článku [57].
Obrázek 49 Ukázka databáze XM2VTSDB, 1 – původní videozáznam, 2 – nalezení očí a středu úst, 3 –
nalezení vnitřní a vnější kontury rtů
V článku [91] jsou popsány experimenty s vizuálním a audiovizuálním rozpoznáváním provedeném
na této databázi. Vizuální parametrizace použitá v článku je získána ze šedoténového ROI
obsahujícího ústa a jejich okolí. Pomocí metody PCA je získáno 32 příznaků jejichž množství je
redukováno na 13 pomocí metody LDA. Pro parametrizaci akustické složky bylo použito 13 MFCC
koeficientů. Trénovací množina obsahuje promluvy 200 řečníků a testovací množina obsahuje
promluvy 95 řečníků. Výsledky vizuálního rozpoznávání uvedené v článku jsou 43% WER. Dále je
v článku uvedeno srovnání čistě akustického rozpoznávání a audiovizuálního rozpoznávání pro různou
úroveň zašumění akustické složky řeči. Výsledek rozpoznávání řeči z akustické složky pro úroveň
šumu 0dB je 80%WER, výsledek audiovizuálního rozpoznávání je 24%WER.
Náš základní systém byl vytvořen tak, aby pracoval s vizuální parametrizací DCT, kde příznakový
vektor má dimenzi 10. Jako akustické příznaky bylo zvoleno 13 PLP koeficientů. Trénovací množina
obsahovala promluvy od 245 řečníků a testovací množina promluvy od 50 řečníků. Úloha byla
definována jako rozpoznávání spojitých promluv, které byly představovány za sebou promlouvanými
číslovkami. Promlouvány byly dvě věty, které byly čtyřikrát opakovány. První věta obsahovala
číslovku od 0 do 9 vzestupně a druhá věta ty samé číslovky neuspořádaně. Počet slov byl tedy 10
(číslovky 0-9). Jako základní řečová jednotka byl zvolen foném. Při rozpoznávání byl použit 0gramový jazykový model a tudíž nebyla uplatněna žádná informace o výskytu slov. Pro výpočet
akustických a vizuálních příznaků byly použity postupy popsané v kapitolách 3.3.4 a 3.3.5. Při
vizuálním rozpoznávání se základním systémem bylo dosaženo úspěšnosti rozpoznávání 51%.
Má vlastní parametrizace vizuální složky řeči byla tvořena příznakovým vektorem s dimenzí 18.
Příznakový vektor byl sestaven z 10 PCA koeficientů popisujících tvar rtů, 4 koeficientů
odpovídajících výšce a šířce vnitřní a vnější hranice rtů a 4 DCT koeficientů popisujících vnitřek úst.
Místo popisu vnitřku úst pomocí tvarových příznaků byl zvolen popis pomocí DCT, protože velikost
vnitřku úst v databázi XM2VTSDB není příliš velká a metoda popsaná v kapitole 3.3.3 selhává a proto
nebyli použity příznaky popisující pozici zubů a jazyka. Při použití této parametrizace bylo dosaženo
úspěšnosti vizuálního rozpoznávání 70%. Takto vysokých úspěšností rozpoznávání řeči pouze
z vizuální složky bylo dosaženo díky malému počtu rozpoznávaných slov. Při porovnání tohoto
výsledku s výsledkem rozpoznávání základního systému jsem dospěl k závěru, že použití tvarově
- 72 -
Experimenty
orientovaných příznaků a popisu vnitřku dosahuje lepších výsledků než standardně používaná DCT
parametrizace a má proto smysl se dále zabývat studiem vizuální složky řeči.
Při provedení rozpoznávání pouze s akustickou složkou řeči bylo zjištěno, že při nezašuměném
signálu bylo dosaženo úspěšnosti 99.26%. Takto vysokou úspěšnost rozpoznávání již nebylo možné
vylepšit využitím vizuální složky řeči. Proto byl akustický signál degradován pomocí akustického
šumu a porovnání výsledků rozpoznávání z akustické složky a audiovizuálního rozpoznávání bylo
provedeno na tomto signálu. Pro degradaci signálu na odstup šum signál 0 dB byl použit bílý šum.
Rozpoznávání řeči pouze z akustické složky dosáhlo v tomto případě úspěšnosti 92.39%. Při použití
kombinace akustické a vizuální složky (vlastní parametrizace) pro rozpoznávání bylo dosaženo
úspěšnost 96.36%. Kombinace akustické a vizuální složky byla provedena pomocí pospojování
příznakových vektorů. Akustické příznaky byly získávány s frekvencí 100 Hz, vizuální příznaky
s frekvencí 25Hz. Vizuální příznaky musely být aproximovány lineární aproximací na frekvenci 100
Hz tak, aby bylo možné provést kombinaci stejně dlouhých příznakových vektorů. Využití vizuální
složky řeči tedy vylepšilo úspěšnost rozpoznávání při zašuměném akustickém signálu. Pomoc vizuální
složky při rozpoznávání v hlučném prostředí simulovaném v tomto případě bílým šumem není příliš
velké, neboť samotné akustické rozpoznávání dosáhlo vysoké úspěšnosti rozpoznávání.
4.2
Experimenty na ruské databázi
Na experimentech na ruské databázi jsem pracoval se svým kolegou s Alexeyem Karpovem
z institutu informatiky a automatizace v Petrohradě v Rusku. Databáze byla vytvořena podle vzoru
databáze UWB-05-HSCAVC a obsahuje promluvy od 10 řečníků. Každý řečník promlouvá 200
frází, které odpovídají maximálně čtyř-slovním spojením názvů rubrik ruských zlatých stránek.
Celkový počet slov v databázi je 102. Podmínky nahrávání jsou podobné jako podmínky popsané
v kapitole 3.2.3. Trénovací množina obsahuje 80% promluv každého řečníka a testovací množina
obsahuje zbytek. Vizuální složka databáze byla předzpracovánu způsobem, který je popsán v kapitole
3.3.1. Byla tedy nalezena hlava řečníka a lokalizována oblast zájmu ROI.
Obrázek 50. Ukázka ruské databáze
Na databázi bylo provedeno několik experimentů. Prvním z nich bylo porovnání výsledků
jednoduché tvarově orientované vizuální parametrizace a obrazově orientované parametrizace.
K jejímu získání byl použit postup popsaný v kapitole 3.3.2. Tvarově orientovaná parametrizace
původně obsahovala 4 příznaky. Výšku a šířku vnitřní a vnější hranice rtů. Při studiu průběhu
jednotlivých příznaků během promluvy se ukázalo, že parametr šířka vnější kontury se s promluvou
mění jen minimálně a nepopisuje tedy danou promluvu. Šířka vnější hranice byla tedy z parametrizace
vyloučena a příznakový vektor měl dimenzi 3. Jako obrazově orientovaná parametrizace byla vybrána
parametrizace založená na PCA koeficientech. Příznakový vektor byl vypočten pomocí metody PCA,
která redukovala dimenzi původního šedotónového obrazu ROI na 32 příznaků. Příznaky byly
počítány z obrazu o velikost 64*64 bodů pomocí metody popsané v kapitole 3.3.4. V případě
experimentů na ruské databázi bylo místo kombinace akustické a vizuální složky pomocí pospojování
- 73 -
Experimenty
příznakových vektorů použito pozdní kombinace příznaků pomocí multi-streamového modelu. To
znamená, že výsledná pravděpodobnost rozpoznané promluvy je počítána jako vážená kombinace
pravděpodobností rozpoznávání pomocí akustické a vizuální složky. Váhy jednotlivých složek řeči
byly voleny experimentálně. Experimenty byly prováděny pro úlohu rozpoznávání frází se slovníkem
102 slov. Jako základní řečová jednotka byl zvolen foném a vizém. Prvním experimentem bylo
ověření zlepšení vizuálního rozpoznávání při použití vizémů místo fonémů jako základní řečové
jednotky. Jako parametrizace byla použita tvarově orientovaná parametrizace. Při použití 45 fonémů
byla úspěšnost vizuálního rozpoznávání 20%. Při použití 13 vizémů se úspěšnost zvýšila na 48%.
V obou případech se jednalo o rozpoznávání celých slov. Je nutné říci, že úspěšnost audiovizuálního
rozpoznávání se zhoršila z 92% při použití fonémů na 56% při použití vizémů. Druhým experimentem
bylo audiovizuální rozpoznávání řeči při zašuměném akustickém signálu, kde SNR bylo 10dB. Při
rozpoznávání bylo použito jako základních řečových jednotek fonémů a rozpoznávání probíhalo na
úrovni celých frází (200 různých frází). Úspěšnost rozpoznávání z akustické složky byl 90.1%.
Výsledek kombinovaného audiovizuálního rozpoznávání při použití obrazové vizuální parametrizace
byl 92% a při použití tvarové vizuální parametrizace 92.3%. Bylo tedy dosaženo zlepšení úspěšnosti
rozpoznávání při použití vizuální složky řeči při zašuměné akustické složce řeči. Z výsledků je zřejmé,
že použitím obrazově a tvarově orientované vizuální parametrizace bylo dosaženo podobných
výsledků. Porovnání obou typů parametrizací tedy ukazuje, že v tomto případě by bylo vhodnější
využít obrazově orientovanou parametrizaci, neboť nevyžaduje použití výpočetně náročné metody
nalezení kontury rtů.
4.3
Experimenty na databázi UWB-05-HSCAVC
Poslední a největší skupina experimentů byla provedena na nahrané audiovizuální databázi UWB05-HSCAVC. Díky využití celé plochy snímku pro záznam hlavy řečníka (natočení kamery o 90°)
bylo možné realizovat algoritmus pro nalezení pozic objektů uvnitř úst (zuby, jazyk, mezera) a využít
tyto informace při parametrizaci. Celá databáze byla rozdělena na trénovací a testovací množinu.
Trénovací množina obsahovala promluvy 51-200 od všech řečníků (tyto promluvy jsou odlišné pro
každého řečníka) a testovací množina obsahovala promluvy 1-50 od všech řečníků (stejné pro všechny
řečníky). Všechny experimenty byly provedeny pro úlohu rozpoznávání slov, která jsou promlouvána
ve spojitých větách. Slovník pro rozpoznávání obsahoval 344 slov. Jako jazykový model byl použit
0-gramový jazykový model. Znamená to tedy, že pro rozpoznávání slov nebyl využit slovní kontext a
pravděpodobnost výskytu slov byla nastavena rovnoměrně pro všechna slova. Jako základní řečová
jednotka byl použit foném a vizém.
Kombinace informace z akustické a vizuální složky byla kombinována pomocí pospojování
akustického a vizuálního příznakového vektoru. Akustické příznaky byly získávány s frekvencí 100
Hz, vizuální příznaky s frekvencí 50Hz. Vizuální příznaky musely být aproximovány lineární
aproximací na frekvenci 100 Hz tak, aby bylo možné provést kombinaci stejně dlouhých příznakových
vektorů. Pro fázi trénování modelů a rozpoznávání byl použit HTK toolkit. Pro rozpoznávání byla
využita metoda běžně používaná pro rozpoznávání řeči z akustické složky řeči založená na skrytých
Markovských modelech. Jako model základní řečové jednotky byl zvolen nejčastěji používaný tří
stavový model. Pro jednotlivé rozpoznávací experimenty byl vždy použit stejný postup trénování a
rozpoznávání ovšem odlišné příznakové vektory.
Experimenty jsem rozdělil do čtyř částí. První skupina experimentů představovala zjištění
úspěšnosti samotného akustického rozpoznávání pro čistou (původní) řeč a pro řečový signál
s přidaným šumem. Pro zašumění akustického signálu byl použit bílý šum s odstupem signál šum 0dB.
Pro rozpoznávání z akustické složky řeči byla použita parametrizace popsaná v kapitole 3.3.5.
Příznakový vektor má dimenzi 36 a je tvořen PLP koeficienty. Frekvence získávání příznaků byla
100Hz. Původní nezašuměný akustický signál byl použit i pro druhou a třetí část experimentů pro
audiovizuální rozpoznávání. Úspěšnost akustického rozpoznávání pro nezašuměný signál je 81.47%
a úspěšnost rozpoznávání pro zašuměný signál je 60.79%.
- 74 -
Experimenty
Druhá část zahrnuje experimenty s vizuálním a audiovizuální rozpoznáváním při použití DCT
parametrizace pro vizuální složku řeči. Cílem těchto experimentů bylo nalézt optimální dimenzi
obrazově orientovaného příznakového vektoru z hlediska úspěšnosti vizuálního a audiovizuálního
rozpoznávání. Pro tyto účely byly použity příznakové vektory s dimenzí 10, 15, 20 a 30. Příslušné
frekvence u a v prvků DCT koeficientů pro jednotlivé příznaky jsou uvedeny v tabulce 14. Příznakový
vektor byl vypočten metodou popsanou v kapitole 3.3.4. Dimenze příznakového vektoru byla voleno
s ohledem na předchozí experimenty provedené na databázi XM2VTSDB. Výsledky experimentů jsou
uvedeny v tabulce 10. Nejlepších výsledků vizuálního i audiovizuálního rozpoznávání bylo dosaženo
pro dimenzi vizuálního příznakového vektoru 15.
Označení
Počet příznaků
Úspěšnost vizuálního
rozpoznávání v %
DCT10
DCT15
DCT20
DCT30
10
15
20
30
12.79
13.35
13.16
10.27
Úspěšnost
audiovizuálního
rozpoznávání v %
80.15
83.88
82.79
77.37
Tabulka 10 Výsledky vizuálního a audiovizuálního rozpoznávání pro obrazově orientované
parametrizace.
Třetí část experimentů zahrnovala testování příznakových vektorů sestavených pomocí různých
příznaků odvozených v kapitole 3.1.2.3 na úloze vizuálního a audiovizuálního rozpoznávání. V
kapitole 3.1.2 byl proveden výběr vizuálních příznaků na základě studia tvorby řeči a odezírání. Pro
ověření toho, jak daný příznak popisuje vizuální řeč byly postupně prováděny rozpoznávací
experimenty pro různé kombinace těchto příznaků. V příznakových vektorech byly kombinovány
příznaky popisující jednotlivé části vizuální složky řeči, například tvar rtů či objekty uvnitř rtů.
Postupně bylo otestováno 8 příznakových vektorů. Během testování docházelo k vyhodnocování toho,
jaké příznaky popisují informaci o řeči lépe a jaké hůře a podle toho byl volen další postup
sestavování příznakových vektorů. Jednotlivé příznakové vektory jsou popsány v tabulce 11.
Jako první byla vyzkoušena kombinace všech určených příznaků. Poté byly k této parametrizaci
přidány příznaky DCT popisující ROI a vnitřek úst. Přidání DCT příznaků zlepšilo úspěšnost
rozpoznávání. Jako další krok byla provedena redukce tvarových příznaků. Byly vynechány příznaky
šířka vnější kontury, vyšpulení rtů, pohyb brady, zavření úst a viditelnost horních zubů a počet PCA
koeficientů popisujících tvar rtů byl zmenšen na 8. Toto vynechání některých příznaků opět přispělo
k zvýšení úspěšnosti rozpoznávání. Jestliže však porovnáme parametrizaci využívající pro popis
vnitřku úst DCT a tvarové příznaky, pak parametrizace s DCT příznaky dosahuje lepších výsledků.
Posledním krokem tedy byla kombinace všech popisů s vynecháním popisu vnitřku. Tato
parametrizace dosahuje nejlepších výsledků.
Označení
Počet
příznaků
Popis příznaků
Pv
21
PvDv
25
šířka vnitřku,šířka vnějšku, výška vnitřku,
výška vnějšku, 10 PCA modelu, 4 vnitřek
úst, zavření úst, pohyb brady, vyšpulení rtu,
viditelnost horních zubů
přidání DCT
Pv + 4DCT vnitřku
PvDvne
25
Pv + 4DCT vnějšku
- 75 -
Úspěšnost
vizuálního
rozpoznávání v %
Úspěšnost
audiovizuálního
rozpoznávání v %
10.54
77.55
12.56
76.68
77.3
10.48
Experimenty
PDv
18
Pmvm
15
PmvmDv
19
PmvmDvne
19
PmDvDvne
19
šířka vnitřku,šířka vnějšku, výška vnitřku,
výška vnějšku, 10 PCA modelu, 4 DCT
vnitřku
zmenšení tvarových příznaků
šířka vnitřku,výška vnitřku, výška vnějšku, 8
PCA modelu, 4 vnitřek úst
PCA modelu, 4 vnitřek úst, 4 DCT vnitřku
PCA modelu, 4 vnitřek úst, 4 DCT vnějšku
vynechání popisu vnitřku
PCA modelu, 4 DCT vnitřku, 4 DCT vnějšku
13.40
84.20
9.89
83.13
12.69
81.97
13.55
82.76
17.31
84.86
Tabulka 11. Výsledky vizuálního a audiovizuálního rozpoznávání pro mnou navržené parametrizace
kombinující tvarově a obrazově orientované příznaky.
Poslední skupinou experimentů bylo ověření přínosu použití vizémů jako základních řečových
jednotek místo fonémů při vizuálním rozpoznávání řeči a vylepšení výsledků akustického
rozpoznávání řeči v hlučném prostředí použitím vizuální složky řeči. Tyto experimenty již byly
provedeny pouze pro parametrizaci, která dosáhla nejlepších výsledků při vizuálním a audiovizuálním
rozpoznávání v předchozích dvou částech a nejlepší obrazovou parametrizaci. Jednalo se
o parametrizaci s označením PmDvDvne a DCT15. Při testování vizuálního rozpoznávání s použitím
vizémů byly použity vizémy, které jsou popsány v kapitole 3.4. Test proběhl stejně jako při použití
fonémů jen se zmenšil počet základních řečových jednotek. Pro porovnání výsledků akustického
a audiovizuálního rozpoznávání jsem použil zašuměný akustický řečový signál popsaný v první části
experimentů. Výsledky rozpoznávání těchto dvou úloh jsou uvedeny v tabulce 12.
Označení
PmDvDvne
DCT15
Úspěšnost vizuálního
rozpoznávání s použitím
vizémů
12.90
12.12
Úspěšnost audiovizuálního
rozpoznávání při zašuměné
akustické složce řeči
74.31
70.12
Tabulka 12. Výsledky vizuálního rozpoznávání s použitím vizémů a audiovizuálního rozpoznávání při
zašuměném akustickém řečovém signálu (0dB).
4.4
Zhodnocení experimentů
Hlavním výsledkem experimentů popsaných v předchozí kapitole je, že mnou navržená
parametrizace dosáhla lepších výsledků z hlediska úspěšnosti rozpoznávání než nejčastěji používaná
parametrizace založená pouze na DCT příznacích. Tohoto výsledku bylo dosaženo jak na úloze
vizuálního rozpoznávání řeči, tak na úloze audiovizuálního rozpoznávání řeči. Při použití
parametrizace PmDvDvne, na úloze vizuálního rozpoznávání byla dosažena úspěšnost 17.31% a na
úloze audiovizuálního rozpoznávání 84.86%. Při použití parametrizace DCT15 byla dosažena
úspěšnost 13.35% na úloze vizuálního rozpoznávání řeči a úspěšnost 83.88% na úloze audiovizuálního
rozpoznávání řeči. Použití parametrizace PmDvDvne tedy zlepšilo úspěšnost rozpoznávání pro úlohu
vizuálního rozpoznávání o 3.96% a pro úlohu audiovizuálního rozpoznávání o 0.98% oproti použití
parametrizace DCT15. Podobného rozdílu úspěšnosti rozpoznávání bylo dosaženo pro při
experimentech s audiovizuálním rozpoznáváním, kde byla akustická složka řeči degradována pomocí
šumu. Úspěšnost rozpoznávání při použití parametrizace DCT15 byla 70.12% a při použití
PmDvDvne 74.31%. Při použití mnou navržené parametrizace došlo k nárůstu úspěšnosti o 4.19%.
Dalším úkolem bylo porovnání použití vizémů a fonémů při úloze vizuálního a audiovizuálního
rozpoznávání. Na ruské databázi bylo dosaženo lepších výsledků vizuálního rozpoznávání při použití
vizémů (úspěšnost 48%) než při použití fonémů (úspěšnost 20%). Pro databázi UWB-05-HSCAVC
- 76 -
Experimenty
však byl pozorován opačný efekt. Při použití vizémů došlo k zhoršení úspěšnosti rozpoznávání ze
17.31% (PmDvDvne), 13.35% (DCT15) při použití fonémů na 12.90% (PmDvDvne) , 12.12%
(DCT15) při použití vizémů. Očekával jsem, že při použití vizémů dojde k zvýšení úspěšnosti
rozpoznávání. To, že došlo k poklesu, může být zapříčiněno špatnou volbou vizémových skupin, či
nevhodností parametrizace k takovému popisu. Tento rozpor bude jedním z cílů dalších prací při
návrhu vizuální parametrizace. Testy na ruské databázi ukázaly, že jestliže se použijí vizémy pro
úlohu audiovizuálního rozpoznávání při kombinaci informace pospojování příznakových vektorů
dochází k zhoršení úspěšnosti rozpoznávání. Bylo by tedy vhodnější využít jiný způsob kombinace
informace. Jako nejlepší metoda se z hlediska využití vizémů jeví pozdní kombinace, tedy kombinace
rozhodnutí odděleného akustického a vizuálního rozpoznávače.
Vytvoření parametrizace, která dosahuje lepších výsledků než běžně používaná parametrizace bylo
možné pouze díky vyhodnocování výsledků experimentů, které byly prováděny s příznakovými
vektory, které byly složeny z příznaků popsaných v kapitole 3.1.2.3. Postupně se totiž ukazovaly klady
a zápory jednotlivých příznaků z hlediska popisu vizuální složky řeči. Z experimentů na anglické
databázi bylo zřejmé, že použití popisu tvaru rtů a vnitřku úst (v tomto případě pomocí DCT) dosahuje
lepších výsledků než základní systém rozpoznávání používající parametrizaci založenou na DCT
příznacích. První parametrizací, která byla testována na databázi UWB-05-HSCAVC, byla
parametrizace Pv, která používala všechny mnou navržené tvarově orientované příznaky. Výsledky
rozpoznávání však ukazovaly, že parametrizace nepopisuje vizuální složku řeči zrovna nejlépe.
Z experimentů na ruské databázi se ukázalo, že příznak šířka vnější kontury rtů není pro popis řeči
příliš přínosný. Při analýze příznaků pozice brady, vyšpulení rtů, viditelnost horních zubů jsem zjistil,
že mnou navržený algoritmus pro jejich výpočet nepracuje příliš spolehlivě a proto jsem tyto příznaky
z parametrizace vyloučil. Jak se ukázalo, tak úspěšnost rozpoznávání se tím zlepšila. Vynechané
příznaky byly chybné a proto zhoršovaly výsledky rozpoznávání. Samostatné testy byly prováděny
s parametrizací používají popis tvaru rtů a část DCT příznaků popisujících celý ROI. Ukázalo se, že
použití příznaků DCT popisujících oblast zájmu přináší vylepšení úspěšnosti rozpoznávání. DCT
příznaky tedy popisují část vizuální složky řeči, která není podchycena popisem tvaru rtů. Proto byly
tyto příznaky použity ve výsledné parametrizaci. V dalším zhodnocení příznaků jsem se zaměřil na
vnitřek rtů. Využití tvarového popisu vnitřku rtů vedlo k parametrizaci, která dosáhla vyšší úspěšnosti
rozpoznávání než parametrizace DCT15 a ukazuje tedy, že využití vizuální informace o vnitřku úst je
prospěšné. Jestliže jsem ovšem místo popisu vnitřku použil popis založený na DCT (4 příznaky, počet
příznaků byl zvolen a budou provedeny další testy s optimálním počtem koeficientů DCT vnitřku)
byla úspěšnost rozpoznávání ještě lepší. To ukazuje, že DCT příznaky dokáží vnitřek úst zatím popsat
lépe než mnou navržené tvarové příznaky. Problém ovšem spočívá spíše v nízké úspěšnosti nalezení
objektů vnitřku a určení jejich pozic než ve špatně zvoleném popisu. Úspěšnost algoritmu nalezení
objektů vnitřku je 70%, přičemž vyhodnocení úspěšnosti je obtížné viz kapitola 3.3.3. Nejlepší
parametrizace je tedy parametrizace používající jak tvarově orientované, tak obrazově orientované
příznaky.
Mnou navržená parametrizace PmDvDvne dosahuje lepších výsledků při vizuálním
i audiovizuálním rozpoznávání řeči než parametrizace DCT15. Je to způsobeno tím, že moje
parametrizace využívá mimo vybraných DCT příznaků popisujících ROI také příznaky popisující tvar
vnitřní a vnější kontury rtů a příznaků popisujících objekty uvnitř úst (jazyk, horní a dolní zuby,
mezera). Mnou navržená parametrizace PmDvDvne dosahuje lepších výsledků než parametrizace
DCT15. Je však nutno podotknout, že výpočet parametrizace DCT15 je časově méně náročný.
Výpočetní náročnost parametrizace PmDvDvne je způsobena především nutností nalezení vnitřní
a vnější kontury rtů, s jejíž pomocí jsou poté vypočítávány jednotlivé příznaky. Cílem práce však bylo
prozkoumání možností vizuálních parametrizací z hlediska úspěšnosti rozpoznávání bez ohledu na
náročnost jejich výpočtu. Se vzrůstajícím výkonem výpočetní techniky lze i tvarově orientované
parametrizace počítat v dostatečně krátkém čase. Metodu nalezení vnitřní a vnější kontury rtů jsem
ovšem dokázal implementovat tak, aby pracovala v reálném čase a výpočet celé parametrizace je tedy
možné realizovat také v reálném čase.
- 77 -
Experimenty
Poslední úlohou, na které byl ověřen přínos vizuální složky řeči pro rozpoznávání řeči bylo
audiovizuální rozpoznávání řeči při zašuměné akustické složce. Tyto experimenty již byly provedeny
pouze pro dvě nejlepší parametrizace DCT15 a PmDvDvne. Akustický signál byl degradován bílým
šumem s odstupem signál-šum 0dB. Výsledky samostatného akustického rozpoznávání ukazují, že při
zašumění dochází k velkému poklesu úspěšnosti rozpoznávání z 81.47 % bez šumu na 60.79% při
zašuměném signálu. Jestliže pro rozpoznávání využijeme i vizuální složku řeči dochází k vylepšení
úspěšnosti na 74.31% pro PmDvDvne a na 70.12% pro DCT15. Nárůst úspěšnosti je tedy o 14%. I na
této úloze dosáhla kombinovaná vizuální parametrizace PmDvDvne lepších výsledků než běžně
používané parametrizace DCT15. Výsledek audiovizuálního rozpoznávání zde velmi závisí na metodě
kombinace informace. Pro kombinaci by měla být použita metoda, která co nejlépe umožňuje nastavit
důvěryhodnost vizuální či akustické složky řeči. Tento experiment prokazuje, že využití vizuální
složky řeči pro rozpoznávání se nejvíce uplatňuje v prostředí s degradovaným akustickým signálem.
Mé výsledky rozpoznávání je možné porovnat s výsledky systému vyvinutém na vysoké škole
v Liberci. Je to jediný systém pro audiovizuální rozpoznávání českého jazyka. Jeho výsledky jsou
prezentovány pro úlohu rozpoznávání izolovaných slov. Experimenty byly provedeny pro obrazově
orientovanou parametrizaci založenou na DCT příznacích (15 příznaků) a tvarově orientovanou
parametrizaci, kde byly jako příznaky zvoleny šířka, výška, počet bodů a okrouhlost rtů. Úspěšnost
vizuálního rozpoznávání pro obrazově založenou parametrizaci je 34.8%, pro tvarově orientovanou
45.2%. Úspěšnost audiovizuálního rozpoznávání pro obrazově založenou parametrizaci je 64%, pro
tvarově orientovanou 64%. Z publikovaných výsledků nelze jednoznačně říci jaká z použitých
parametrizací je vhodnější, protože při vizuálním rozpoznávání dosáhla lepších výsledků obrazová
parametrizace ovšem při audiovizuálním rozpoznávání je úspěšnost rozpoznávání stejná. Protože však
jako tvarově orientované příznaky byly použity pouze 4 parametry popisující vnější konturu rtů, dá se
tedy předpokládat, že při použití mnou navržených příznaků by se úspěšnost rozpoznávání vylepšila.
Hlavním zhodnocením provedených experimentů, které plyne z předchozích odstavců, tedy je, že
využití popisu tvaru rtů (vnitřní a vnější kontury) a popisu vnitřku úst je vhodné pro využití v úlohách
vizuálního a audiovizuálního rozpoznávání, protože zvyšuje úspěšnost rozpoznávání. Nevýhoda
využití těchto příznaků je vyšší výpočetní náročnost celé parametrizace.
4.5
Možná vylepšení
Mezi nejdůležitější body vylepšení celého navrženého systému audiovizuálního rozpoznávání patří
vylepšení algoritmu pro určení pozic objektů uvnitř rtů a výpočet příznaků jako pozice brady či
vyšpulení rtů. Úspěšnost algoritmu pro nalezení pozic objektů vnitřku úst je 70%. Algoritmus by mohl
být vylepšen využitím znalostí o pozicích objektů uvnitř úst z předchozího snímku pro nalezení pozic
ve snímku současném. Výpočet příznaku pozice brady řečníka selhával především v problémovém
určení pozice brady a nosu řečníka. Řešením tohoto problému by mohlo být rozšíření modelu rtů
o body popisující pozice očí, nosu a hranici spodní čelisti. Takovýto model by dovoloval přesněji určit
pozici brady a zlepšoval by i určení pozice a tvaru rtů, neboť pohyb brady je částečně korelován
s pohybem spodního rtu.
Mezi vylepšení parametrizace by mělo patřit provedení testů, které by určili optimální počet DCT
příznaků popisujících vnitřek úst.
Nalezení vnitřní a vnější kontury rtů by mohlo být vylepšeno využitím znalosti tvaru rtů
z předchozího kroku. S tímto postupem již byly prováděny experimenty a ukázalo se, že změny tvaru
rtů jsou příliš velké, než aby mohlo být použito univerzální pravidlo, že rty se mohou deformovat
pouze o určitou konstantní vzdálenost od tvaru rtů v předchozím kroku. Algoritmus by musel brát
v úvahu rychlost změny tvaru rtů a podle ní upravovat i možnost deformace modelu oproti
předchozímu tvaru. Dalším možným zlepšením algoritmu by mohla být metoda určující přechod rty
a kůže a rty a vnitřek úst pomocí jiné metody než je prahování. Metoda by mohla být založena
- 78 -
Experimenty
například na vytvoření vzorů těchto přechodů a připívala by k zlepšení nasazení modelu rtů na
nalezený objekt rtů pomocí prahování.
Zlepšení celkového systému audiovizuálního rozpoznávání řeči by jistě vylepšilo použití jiné
metody kombinace informace než pouhé pospojování příznakových vektorů. V kapitole 4.3 bylo
ukázáno, že pro rozpoznávání řeči z vizuální složky může být vhodnější použít jako základní řečové
jednotky vizémy místo fonémů, ovšem při použití vizémů pro rozpoznávání řeči z akustické složky
dochází ke zhoršení úspěšnosti rozpoznávání. Proto by systém měl využívat kombinace rozhodnutí
dvou oddělených klasifikátorů, vizuálního a akustického.
V kapitole 3.1.2.3 bylo naznačeno, že plynulá řeč obsahuje kromě charakteristických obrazů
reprezentujících vizémy také velké množství mluvního šumu. Při odstranění tohoto šumu by se
rozpoznávání velmi usnadnilo. Charakteristické obrazy by bylo možné alespoň částečně detekovat
pomocí extrémů v časovém vývoji jednotlivých tvarově orientovaných příznaků. Pro ověření tohoto
postupu bude nutné provést podrobnou analýzu vývoje jednotlivých příznaků a ověřit zda je detekce
charakteristických obrazů vizémů pomocí extrému spolehlivá.
- 79 -
Závěr
5
Závěr
Hlavním cílem disertační práce bylo prostudování vizuální složky řeči z hlediska tvorby řeči
a odezírání a využití těchto znalostí pro vytvoření nové parametrizace vizuální složky řeči, která by
dosahovala vyšší úspěšnosti rozpoznávání v úlohách vizuálního a audiovizuálního rozpoznávání řeči
než běžně používaná parametrizace. Tento cíl byl splněn, protože jsem navrhl vizuální parametrizaci
využívající jak tvarově tak obrazově orientované příznaky s označením PmDvDvne, která dosahuje
vyšší úspěšnosti rozpoznávání o 3.96% na úloze vizuálního rozpoznávání řeči a o 0,98% na úloze
audiovizuálního rozpoznávání než nejpoužívanější parametrizace založená na DCT příznacích.
Pro dosažení hlavního cíle byly realizovány jednotlivé pod-úkoly, nutné pro návrh a ověření nové
vizuální parametrizace. Nejprve jsem prostudoval dostupnou literaturu o oblasti audiovizuálního
rozpoznávání a zjistil jsem, že oblast tvorby vizuální parametrizace je velmi otevřená. Dalším krokem
bylo nastudování problematiky tvorby vizuální řeči a technik odezírání řeči, kdy jsem jednotlivé
postupy konzultoval se specialisty daných oborů paní Strnadovou (odezírání) a paní Jirutkovou
(logopedie). Pro praktické ověření teoretických poznatků a pro účely ověřovacích experimentů byla
vytvořena audiovizuální databáze pro český jazyk, která svými parametry (počet řečníků, rozlišení,
osvětlení, počet promluv) splňuje předpoklady pro testování nové vizuální parametrizace. Jako další
databáze byla vytvořena speciální databáze pro nalezení základních řečových jednotek, tzv. vizémů.
Pomocí všech získaných poznatků jsem navrhl vizuální příznaky, které umožňují popis a odlišení
jednotlivých vizémů a jsou nezávislé na řečníkovi.
Aby bylo možné získat navržené příznaky, musel jsem vytvořit algoritmus pro nalezení vnitřní
a vnější kontury rtů a pro určení pozic objektů vnitřku úst (zuby, jazyk a mezera). Algoritmus pro
nalezení vnitřní a vnější kontury rtů byl implementován tak, aby pracoval v reálném čase. V reálném
čase tedy může být vypočtena i výsledná parametrizace PmDvDvne.
Pro ověření kvality navržené parametrizace musel být vytvořen základní systém využívající běžně
používanou obrazově orientovanou parametrizaci a provedeny srovnávací experimenty mé
parametrizace a základního systému. Základní systém byl navržen tak, aby dosáhl podobných
výsledků na anglické databázi XM2VTSDB jako systém audiovizuálního rozpoznávání řeči testovaný
na této databázi. Tím, že základní systém dosáhl podobných výsledků jsme získali systém, který
reprezentuje výsledky audiovizuálního rozpoznávání s běžně používanou parametrizací. Poté byly
provedeny dvě sady experimentů. První na ruské databázi, kde byl testován vliv použití vizémů pro
vizuální rozpoznávání. Ukázalo se, že použití vizémů místo fonémů přineslo zlepšení úspěšnosti
rozpoznávání o 28%. Tento experiment byl proveden i na české databázi UWB-05-HSCAVC, kde
bylo ovšem dosaženo výsledků opačných, tedy snížení úspěšnosti rozpoznávání o 4.41%. Poslední
sada experimentů byla provedena na české databázi a měla za úkol sestavit vizuální příznakový vektor
z navržených příznaků, který dosáhne nejvyšší úspěšnosti rozpoznávání. Postupnou analýzou kvality
jednotlivých příznaků jsem došel až k výsledné parametrizaci PmDvDvne, která využívá jak obrazově
tak tvarově orientovaných příznaků a popisuje tvar vnitřní i vnější kontury, okolí rtů i vnitřek úst. Tím,
že je úspěšnost této parametrizace vyšší než úspěšnost základního systému, byl splněn hlavní cíl
disertační práce.
Mé výsledky rozpoznávání mohly být bohužel porovnány pouze s jedinou prací, protože ostatní
práce prováděly experimenty na databázích, které nebylo možné získat. Použití vizuální parametrizace
PmDvDvne dosahuje lepších výsledků než použití parametrizace popsané v článku [91]. Jestliže
bychom chtěli srovnat výsledky s nějakým audiovizuálním systémem rozpoznávání českého
jazyka, pak by to musel být systém vyvinutý na vysoké škole v Liberci. Je to jediný systém pro
audiovizuální rozpoznávání českého jazyka. Jeho výsledky jsou prezentovány pro úlohu rozpoznávání
izolovaných slov a není tedy možné přímo porovnávat výsledky s mým systémem. Systém dosahuje
podobných úspěšností rozpoznávání řeči při použití obrazově i tvarově orientované parametrizace.
- 80 -
Závěr
Hlavní i všechny dílčí cíle disertační práce byli splněn, ovšem systém audiovizuálního
rozpoznávání je možné dále rozvíjet. Jako nejdůležitější cíl je vylepšení algoritmu pro nalezení
objektů vnitřku úst, aby bylo možné ověřit zda je takovýto popis lepší než popis pomocí DCT
příznaků, a výběr optimálního počtu DCT příznaků popisujících vnitřek rtu. Dále je nutné ověřit
přínos použití jiné metody kombinace informace než pospojování příznaků a využít toho, že pro
vizuální rozpoznávání je lepší použít vizémy místo fonémů.
- 81 -
Seznam publikovaných prací
6
6.1
Publikace ve sbornících
• Železný, M., Krňoul, Z., Císař, P., Matoušek, J.: Design, Implementation and Evaluation of the
Czech Realistic Audio-Visual Speech Synthesis. Signal Procesing, vol. 86, no.12, December 2006,
Elsevier, str. 3657-3673. (ISSN0165-1684)
• Císař, P., Zelinka, J., Železný, M., Karpov, A., Ronzhin, A.
Audio-visual Speech Recognition for Slavonic Languages
SPECOM2006, St. Petersburg, Russia, 2006
• Císař P., Železný M., Krňoul Z., Kanis J., Zelinka J., Müller L.
Design and Recognition of Czech Speech Corpus for Audio-Visual countinuous Speech Recognition
Auditory-Visual Speech Processing International Conference 2005, Vancouver Island, British
Columbia, Canada, 2005
• Železný M., Císař P., Krňoul Z., Ronzhin A., Li I., Karpov A.
Design of Russian audio-visual speech corpus for bimodal speech recognition
SPECOM 2005, Wire Communication Laboratory, University of Patras, Greece, 2005
• Krňoul Z., Železný M., Císař P., Holas J.
Viseme Analysis for Speech-Driven Facial Animation for Czech Audio-Visual Speech Synthesis
SPECOM 2005, Wire Communication Laboratory, University of Patras, Greece, 2005
• Císař P., Železný M.
Detection of Face Position and 3D Orientation in 2D image
SPECOM'2004; Saint-Petersburg Institute for Informatics and Automation of the Russian Academy of
Sciences, Speech Informatics Group, 2004
• Krňoul Z., Železný M., Císař P.
Face Model Reconstruction for Czech Audio-Visual Speech Synthesis
SPECOM'2004; Saint-Petersburg Institute for Informatics and Automation of the Russian Academy of
Sciences, Speech Informatics Group, 2004
Using of Lip-Reading for Speech Recognition in Noisy Environments
Proceedings of the 13th Czech - German Workshop on Speech Processing. Praha : ÚRE AVČR, 2003.
ISBN 80-86269-10-8, 2004
• Císař P., Železný M., Krňoul Z.
3D Lip-tracking for Lip-reading in Real Applications
Proceedings of the ICSLP 2004, Jeju, Republic of Korea, 2004
• Železný M., Císař P.
Czech audio-visual speech corpus of a car driver for in-vehicle audio-visual speech recognition
Proceedings of AVSP 2003. - Grenoble : Université Stendhal, 2003. - ISSN 1680-8908. - S. 169-173,
2003
- 82 -
Feature selection for the Czech speaker independent automatic lip-reading
ECMS 2003 : 6th international workshop on electronics, control, measurement and signals. - Liberec :
Technical University, 2003. - ISBN 80-7083-708-X. - S. 12-16, 2003
• Císař P., Krňoul Z., Novák J., Železný M.
Approach to an audio-visual speech synthesis using concatenation-based method.
The Proceedings of the 11th Czech-German Workshop on Speech Processing. Prague 2002. (ISBN 8086269-09-4), 2002
• Železný M., Císař P., Krňoul Z., Novák J.
Design of an Audio-Visual Speech Corpus for the Czech Audio-Visual Speech Synthesis.
The 7th International Conference on Spoken Language Processing ICSLP2002. Denver, U.S.A. 2002.
pp. 1941-1944. (ISBN 1 876346 43 4), 2002
6.2
Rigorózní práce
• Císař P.
Využití metod odezírání ze rtů pro podporu rozpoznávání řeči
2004
6.3
Diplomová práce
• Císař P.
Modul automatické segmentace obrazu pro projekt “mluvící hlava“
2002
- 83 -
Literatura
7
Literatura
[1]
Alissali, M., Deleglise, P., Rogozan, A. (1996). Asynchronous Integration of Visual
Information in An Automatic Speech Recognition System, In Proc. ICSLP 96, Philadephia,
PA,USA.
André-Obrecht, R., Jacob, B., Parlangeau, N. (1997). Audio Visual Speech Recognition and
Segmental Master Slave HMM, In Proc. AVSP'97 workshop, Rhodos (Greece), Sept. 26-27.
Barker, J. P., Berthommier, F. (1999). Estimation of Speech Acoustics from Visual Speech
Features: A Comparison of Linear and Non-Linear Models, In Proc AVSP, Santa Cruz, CA,
USA.
Barnard, M., Holden, E. J., and Owens, R. (2002). Lip tracking using pattern matching snakes,
In Proc. ACCV2002, Melbourne, Australia.
Basu, S., Oliver, N., Pentland, A. (1998). 3D Modeling and Tracking of Human Lip Motion,
In Proc. ICCV98, Bombay, India, January 4-7.
Bregler, C., and Konig, Y. (1994). Eigenlips for robust speech recognition, In Proc. ICASSP,
pp. II--669--II--672, Adelaide, Australia.
Bregler, C., Hild, H., Manke, S., Waibel, A. (1993). Improving connected letter recognition by
lipreading, In Proc ICASSP, Minneapolis, USA.
Campbell, R., Dodd, B.J., Burnham, D. (1998). Hearing by eye II. Hove, United Kingdom:
Psychology Press Ltd.
Císař, P., Zelinka, J., Železný, M., Karpov, A., Ronzhin, A., (2006) Audio-visual Speech
Recognition for Slavonic Languages, In Proc SPECOM2006, St. Petersburg, Russia.
Císař, P., Železný, M.. (2004) Detection of Face Position and 3D Orientation in 2D Image, In
Proc. SPECOM 2004, St. Petersburg, Russia.
Císař, P., Železný, M. (2003) Selection for the Czech speaker independent lip-reading, In
Proc. ECMS 2003, Liberec, Czech republic.
Císař, P., Železný, M., Krňoul, Z. (2004) 3D Lip-tracking for Audio-Visual Recognition in
Real Application, In Proc. ICSPL 2004, Jeju Island, Korea.
Císař, P., Železný, M., Krňoul, Z., Kanis, J., Zelinka, H., Müller, L. (2005). Design and
recording of chzech speech corpus for audio-visual continuous speech recognition, In Proc.
AVSP 2005, Canada, Vancouver Island
Cootes, T. F., Edwards, G.J., and Taylor, C.J. (1998). Active Appearance Models, In Proc.
ECCV 1998 , Vol. 2, pp. 484-498, Freaiburg, Germany.
Cootes, T. F., Taylor, C.J., Cooper, D.H, and Graham, J. (1995). Active Shape Models - Their
Training and Application, Computer Vision and Image Understanding, 61(1): 38-59,
SanDiego, Canada.
Cosi, P., Caldogenetto, E.M., Ferrero, F., Dugatto, M., Vagges, K. (1996). Speaker
Independent Bimodal Phonetic Recognition Experiments, In Proc. ICSLP 96, Philadephia,
PA,USA.
Cox, S., Matthews , I., and Bangham, J.A. (1997). Combining noise compensation with visual
information in speech recognition, In Proc. AVSP, pp 53-56. Rhodes, Greece.
Czap, L. (2000). Lip Representation by Image Ellipse, Proc. ICSLP 2000, Beijing, China, vol
4, pp. 93-96.
Deller, J., Proakis, J., and Hansen, J. (1993). Discrete-time Processing of Speech Signals.
Duchnowski, P., Meier, U., Waibel, A. (1996). See me, hear me: integrating automatic speech
recognition and lip-reading, In Proc. ICSLP, Jokohama, Japan.
Dupont, S., and Luettin, J. (2000). Audio-visual speech modeling for continuous speech
recognition, IEEE Transactions on Multimedia, vol. 2, no. 3, pp. 141–151.
Dupont, S., and Luettin, J. (1998). Using the Multi-Stream Approach for Continuous AudioVisual Speech Recognition: Experiments on the M2VTS Database, In Proc. ICSLP, Sydney,
Australia.
Glotin, H., Vergyri, D., Neti, C., Potamianos, G., Luettin, J. (2001). Weighting schemes for
audio-visual fusion in speech recognition, ICASSP, Salt Lake City, USA.
Goecke, R., Potamianos, G., and Neti, C. (2002). Noisy audio feature enhancement using
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
[20]
[21]
[22]
[23]
[24]
- 84 -
Literatura
[25]
[26]
[27]
[28]
[29]
[30]
[31]
[32]
[33]
[34]
[35]
[36]
[37]
[38]
[39]
[40]
[41]
[42]
[43]
[44]
[45]
[46]
[47]
[48]
[49]
[50]
[51]
audio-visual speech data, In Proc. ICASSP, Orlando, USA.
Gravier, G., Axelrod, S., Potamianos, G., and Neti, C. (2002a). Maximum entropy and MCE
based HMM stream weight estimation for audio-visual ASR, In Proc ICASSP, Orlando, USA.
Gravier, G., Potamianos, G., and Neti, C. (2002b). Asynchrony modeling for audio-visual
speech recognition, In Proc. HLT-NAACL, San Diego, USA.
Gray, M. S., Movellan, J. R., and Sejnowski, T. J. (1997). Dynamic features for visual
speechreading: A systematic comparison, Advances in Neural Information Processing
Systems Volume 9, 751-757.
Gurbuz, S., Patterson, E., Tufekci, Z., and Gowdy, J. (2001). Lip-reading from parametric lip
contours for audio-visual speechrecognition, In Proc. EuroSpeech, Aalborg, Denmark.
Hartley, R., Zisserman, A. (2001). Multiple view geometry in computer vision, Cambridge:
Cambridge University Press.
Heckmann, M., Kroschel, K., Savariaux, C., and Berthommier, F. (2002). DCT-based Video
Features for Audio-visual Speech Recognition, In Proc. ICSLP’02, Denver, pp. 1925-1928.
Heckmann, M. B., F., and Kroschel, K. (2001). A hybrid ANN/HMM audio-visual speech
recognition system, In Proc. AVSP, Alborg, Denmark, pp 190-195.
Huang, J., Potamianos, G., and Neti, C. (2003). Improving audio-visual speech recognition
with an infrared headset, In Proc. AVSP, pp. 175-178, St. Jorioz, France.
Chan, M. T. (2001). HMM-based audio-visual speech recognition integrating geometric- and
appearance-based visual features, In Proc. MMSP, pp. 9-14, Cannes, France.
Chan, M. T., Zhang Y., and Huang, T.S. (1998). Real-time lip tracking and bimodal
continuous speech recognition., In Proc.MMSP, pp. 65-70, Los Angeles, CA.
Chandramohan, D., and Silsbee, P.L. (1996). A Multiple Deformable Template for Visual
Speech Recognition, In Proc. ICSLP 96, volume 1, pages 50-53, Philadephia,USA.
Chen, T., and Rao, R.R. (2001). Audiovisual speech processing, IEEE Signal Processing
Magazine, Vol. 18, pp. 9 - 21.
Chiou, G. I., Hwang, J.N., (1997). Lipreading from color motion video, In Proc. ICASSP96 ,
pp. 1192-1195.
Chu, S. a. H., T. (2000). Bimodal Speech recognition using coupled hidden Markov Models,
In Proc. ICSPL 2000, Beijing, China, vol 2, pp. 747-750.
Kass, M., Witkin, A., and Terzopoulos, D (1987). Snakes: Active contour models, In IJCV
1(4):321-331.
Kober R., H. U., Schiffers J (1997). Fusion of Visual and Acoustic Signals for CommandWord Recognition, In Proc. ICASSP-97, Munich, Germany.
Krčnová, M. ,http://www.phil.muni.cz/jazyk/krcmova/fon/ucebnitext/5.htm
Krňoul, Z., Císař, P., Železný, M., Holas, J., (2005). Viseme Analysis for Speech-Driven
Facial Animation for Czech Audio-Visual Speech Synthesis, In Proc. SPECOM, Patra,
Greece.
Křivan, J., Principy tvoření českých souhlásek, http://bohemistika.xf.cz/fonetik/fonetik.htm
Krone, G., Talle, B., Wichert, A., Palm, G. (1997). Neural Architectures for Sensorfusion in
Speechrecognition, In Proc. AVSP, Rhodes, Greece.
Lee, J., Kim, J. (2002). An Efficient Lipreading Method Using the Symmetry of Lip,
EUROSPEECH2001, pp1019-1022, Aalborg, Densmark.
Li, N., Dettmer, S., and Shah, M. (1995). Lipreading Using Eigensequences, In Proc.
Workshop on Automatic Face and Gesture Recognition, pages 30--34, Zutich, Switzerland.
Liévin, M., and Luthon, F. (1998). Lip Features Automatic Extraction, In Proc. ICIP'98, vol.
3, pages 168-172, Chicago, USA.
Lucey, S., Sridharan, S., and Chandran, V. (2001). An Investigation of HMM Classifier
Combination Strategies for Improved Audio-Visual Speech Recognition, EUROSPEECH2001, pp 1185-1188, Aalborg, Densmark.
Luettin, J., and Thacker, N.A. (1997). Speechreading using Probabilistic Models, In Proc.
Computer Vision and Image Understanding, Volume 65.
Luettin, J., Potamianos, G., Neti, C. (2001). Asynchronous stream modeling for largevocabulary audio-visual speech recognition, In Proc. ICASSP, Salt Lake City, USA.
Luettin, J., Thacker, N.A., and Beet, S.W (1996). Speechreading using shape and intensity
- 85 -
Literatura
[52]
[53]
[54]
[55]
[56]
[57]
[58]
[59]
[60]
[61]
[62]
[63]
[64]
[65]
[66]
[67]
[68]
[69]
[70]
[71]
[72]
[73]
information, In Proc. ICSLP 96, Philadephia, PA,USA.
Matthews, I., Bangham, J.A., and Cox, S. (1996). Audio-visual speech recognition using
multiscale nonlinear image decomposition, In Proc. ICSLP., pp. 38-41, Philadelphla, USA.
Matthews, I., Cootes, T., Cox, S., Harvey, R., Bangham, J.A. (1998). Lipreading using shape,
shading and scale, In Proc. AVSP98, pp. 73-78, Sydney, Australia.
Matthews, I., Potamianos, G., Neti, C., and Luettin, J. (2001). A comparison of model and
transform-based visual features for audio-visual LVCSR, In Proc. ICME01, Tokyo, Japan.
McGurk, H. a. MacDonald., J. (1976). Hearing lips and seeing voices. Nature, 264, 746-748.
Meier, U., Hurst, W., and Duchnowski, P (1996). Adaptive bimodal sensor fusion for
automatic speechreading, In Proc. ICASSP, volume 2, pages 833-837, Atlanta, USA.
Messer, K., Matas, J., Kittler, J., Luettin, J., and Maitre, G. (1999). XM2VTSDB: The
Extended M2VTS Database, In Proc. AVBPA99, pp. 72-77, Washington D.C, USA.
Miyajima, C., Tokuda, K., Kitamura, T. (2000). Audio-visual speech recognition using MCEbased hmms and model-dependent stream weights. In Proc. ICSLP-2000, vol.2, 1023-1026,
Beijing, China.
Movellan, J. R., and Chadderdon, G. (1996). Channel separability in the audio visual
integration of speech: A bayesian approach. in Speachreading by Man and Machine: Models,
Systems and Applications, D.G. Stork and M.E. Hennecke, Eds., Berlin, 1996, NATO ASI
Series, pp. 473--487, Springer.
Nakamura, S., Ito, H., and Shikano, K. (2000). Stream weight optimization of speech and lip
image sequence for audio-visual speech recognition, In Proc. ICSLP2000, vol.3, pp.20-24,
Beijing, China.
Neti, C., Potamianos, G., Luettin, J., Matthews, I., Glotin, H., Vergyri, D., Sison, J., Mashari,
A., and Zhou, J. (2000). Audio-Visual Speech Recognition, Final Workshop 2000 Report,
Center for Language and Speech Processing, The Johns Hopkins University, Baltimore, MD
(Oct. 12, 2000).
Patterson, E. K., Gurbuz, S., Tufekci, K., and Gowdy, J.N. (2002). CUAVE: A new audiovisual database for multimodal human-computer interface research, In Proc. ICASSP02., pp.
2017–2020, Orlaando, USA.
Petajan, E. D. (1984). Automatic lipreading to enhance speech recognition, In Proc. Global
Telecommunications Conference, pp. 265-272, Atlanta, USA
Pigeon, S. a. Vandendorpe, L. (1997). The M2VTS multimodal face database, In Bigun, J.,
Chollet, G., and Borgefors, G., (Eds.), Audio-and Video-based Biometric Person
Authentication, Berlin, Germany: Springer, pp 403-409.
Potamianos, G., and Neti, C. (2001a). Automatic speechreading of impaired speech, In Proc.
AVSP01., Aalborg, Densmark.
Potamianos, G., and Neti, C. (2001b). Improved ROI and within frame discriminant features
for lipreading, In Proc. ICIP01., Thessaloniki, Greece.
Potamianos, G., Graf, H.P., Cosatto, E. (1998a). Discriminative training of HMM stream
exponents for audio-visual speech recognition, In Proc. ICASSP, vol. 6, pp. 3733-3736,
Seattle, ISA.
Potamianos, G., Graf, H.P., Cosatto, E. (1998b). An image transform approach for HMM
based automatic lipreading., In Proc. ICIP98, vol. 111 pp. 173-177, Chicago, USA.
Potamianos, G., Luettin, J., Neti, C. (2001c). Hierarchical discriminant features for audiovisual LVCSR, In Proc. ICASSP, Salt Lake City, USA.
Potamianos, G., Potamianos, A. (1999). Speaker adaptation for audio-visual automatic speech
recognition, In Proc. EUROSPEECH99, vol. 3, pp.1291-1294, Budapest, Germany.
Psutka, J., Radová, V., Müller, L., Matoušek, J., Ircing, P., Graff, D. (2001) Large Broadcast
News and Read Speech Corpora of Spoken Czech, In Proc. EUROSPEECH 2001, pp. 20672070, Aalborg, Dennmark.
Radová, V., Psutka J. (2000) UWB_S01 Corpus: A Czech Read-Speech Corpus, In Proc
ICSLP2000, Volume IV., pp.732-735., Beijing, China.
Rogozan, A., and Deléglise, P. (1998). Adaptive Fusion of Acoustic and Visual Sources for
Automatic Speech Recognition, In Speech Communication Journal, Vol. 26 Iss. 1-2, pages
149-161.
- 86 -
Literatura
[74]
[75]
[76]
[77]
[78]
[79]
[80]
[81]
[82]
[83]
[84]
[85]
[86]
[87]
[88]
[89]
[90]
[91]
[92]
[93]
[94]
[95]
Rogozan, A., and Deléglise, P. (1999). Discriminative Learning of Visual Data for
Audiovisual Speech Recognition, In International Journal on Artificial Intelligence Tools
(World Scientific Publisher), Vol. 8 No. 1, pages 43-52.
Rosenblum, L. D., Dood, B., Burnaham, D. (1998). Time-varying information for visual
speech perception. In R. Campbell,B. Dodd, D. Burnham (Eds.), Hearing by Eye: Part 2, The
Psychologyof Speechreading and Audiovisual Speech. Earlbaum: Hillsdale,NJ.
Scanlon, P., Reilly, R.B., Chazal, P. D. (2003). Visual feature analysis for Automatic
Speechreading, In Proc. AVSP03., St. Jorioz, France.
Senior, A. W. (1999). Face and Feature Finding for a Face Reccognition System, Audio and
Video based Biometric Person Authentication '99. Washington D.C. March 22-24.
Silsbee, P. L., and Bovik, A.C. (1994). Motion in deformable templates, In Proc. ICIP'94, pp.
323 - 327, Austin, USA.
Silsbee, P. L., and Bovik, A.C. (1996). Computer lipreading for improved accuracy in
automatic speech recognition, In IEEE Trans. Speech and Audio Processing, vol. 4, pp. 337 351, September 1996.
Silsbee, P. L., and Bovik, A.C. (1999). Motion in deformable templates, Proc. ICIP'94, pp.
323 - 327, Austin, USA.
Smith, P., Shah, M., and Lobo, N. da Vitoria (2000). Monitoring Head/Eye Motion for Driver
Alertness with One Camera, International Conference on Pattern Recognition, In Proc.
ICPR00, Volume 4, Barcelona, Spain.
Stork, D. G. A. Hennecke, M.E. (1996). Speechreading by Humans and Machines. Berlin,
Germany: Springer.
Strnadová, V., (2001). Hádej, co říkám aneb odezírání je nejisté umění. GONG, Praha
Su, Q., Silsbee. P.L. (1996). Robust Audiovisual Integration using Semicontinuous Hidden
Markov Models, in Proc. ICSLP, Philadelphia, USA.
Sung, K., Poggio, T (1999). Example-based learning for view-based human face detection,
IEEE Transaction on Pattern Analysis and Machine Intelligence 20, 39--51.
Teissier, P., Robert-Ribes, J., Schwartz, J., and Gu´erin-Dugu´e, A. (1999). Comparing
models for av fusion in a noisy-vowel recognition task, IEEE Transactions on Speech, and
Audio Processing, vol. 7, no. 6, 1999.
Tomlinson, M. J., Russell, M.J., and Brooke, N.M. (1996). Integrating audio and visual
information to provide highly robust speech recognition, In Proc. ICSLP 96, Philadephia,
PA,USA.
Vanegas, O., Tanaka, A., Tokuda, K., Kitamura, T. (1998). HMM-based Visual Speech
Recognition Using Intensity and Location Normalization, In Proc. ICSPL98, pp. 289-292,
Sydney, Australia.
Wark, T., and Sridharan, S. (1998). A Syntactic Approach to Automatic Lip Feature
Extraction for Speaker Identification, In ICASSP98, pages 3693–3696, Seattle, USA.
Williams, J. J., Rutledge, J.C., Garstecki, D.C., and Katsaggelos, A.K. (1998). Frame Rate and
Viseme Analysis for Multimedia Applications, Journal of VLSI Signal Processing Systems,
vol. 23, nos. 1/2, pp. 7-23.
Xiaoxing, L., Zhao, Y., Xiaobo, P., Luhong, L., Ara, V., N., (2002) Audio-visual continuous
speech recognition using a coupled hidden Markov model, In Proc. ICSLP02, pp. 213–216,
Denver, USA.
Yang, T., Wu, F.Ch., Ouhyoung, M. (1998). Real-time 3-D Head Motion Estimation in Facial
Image Coding, In Proc. Multimedia Modeling 98, Oct. 12-15, 1998, pp. 50-51, Lausanne,
Switzerland.
Yoshinaga, T., Tamura, S., Iwano, K., and Furui, S. (2003). Audio-Visual Speech Recognition
Using Lip Movement Extracted from Side-Face Images, In Proc. AVSP03, pp.117-120, St.
Jorioz, France
Young, S., Kershaw, D., Odell, J., Ollason, D., Valtchev, V., and Woodland, P. (1999). The
HTK Book. Cambridge University Engineering Department, 1999.
Železný, M., Císař, P. (2003) Czech audio-visual speech corpus of a car driver for in-vehicle
audio-visual
speech
recognition,
In
Proc.
AVSP03,
St
Jorioz,
France.
- 87 -
Seznam zkratek
8
Seznam zkratek
Zkratka
anglicky
AAM
AAN
ACM
ASR
AV
DCT
DF
DFT
DTW
DV
DWT
EM
FF
GMM
LDA
LVCSR
active appearance model
aktivní vzhledový mode
artificial neuron network
neuronová síť
active contour model
aktivní tvarový model
automatic speech recognition
automatické rozpoznávání řeči
audiovisual
audiovizuální
discrete cosine tranform
diskrétní Kosinova transformace
decision fusion
spojení rozhodnutí
discrete Fourier tranform
diskrétní Fourierova transformace
dynamic time warping
dynamické borcení času
digital video
digitální video
discrete wavelet transform
diskrétní vlnková transformace
expectation maximization
feature fusion
spojení příznaků
gausian mixture model
model gausovských směsí
linear discriminant analysis
lineární diskriminační analýza
large vocobulary continuous speech recognition rozpoznávání spojité řeči s velkým
slovníkem
maximum-a-posteriori
Mel frequency cepstral coefficients
Melovské frekvenční kepstrální
koeficienty
principal component analysis
analýza hlavních komponent
MAP
MFCC
PCA
PCM
PLP
RGB
ROI
SNR
SVD
WER
česky
perceptual linear prediction
red, green, blue - color representation
region of interest
signal-to-noise ratio
singular value decomposition
word error rate
- 88 -
reprezentace barev
oblast zájmu
odstup signál-šum
chyba rozpoznávání na slovech
Přílohy
Jazyk
Zuby
Rty
A
a
jazyk na
spodním
patře,mohl
by být vidět
dolní zuby jsou
vidět málo
horní více
ústa jsou úplně
otevřená
au
au
jazyk na
spodním
patře,mohl
by být vidět
horní i dolní
zuby jsou vidět
ústa jsou úplně
otevřená a postupně se
zaokrouhlují
b
b
e
e
eu
eu
f
f
g
g
i
i
l
l
o
o
ou
ou
jazyk na
spodním
patře
většinou nejsou
vidět zakrývají
je rty
s
s
špička
jazyka se
dotýká
zuby blízko u
sebe
0
jazyk na
spodním
patře,mohl
by být vidět
jazyk na
spodním
patře,mohl
by být vidět
0
horní i dolní
zuby jsou vidět
Popis
Vizém
Přílohy
Foném
9
horní a dolní ret se
úplně dotýkají, není
mezi nimi žádná
mezera
ústa se přivírají a
koutky se rozšiřují
horní i dolní
zuby jsou vidět
0
hřbet jazyka
se dotýká
horního
patra
jazyk na
spodním
patře,mohl
by být vidět
jazyk musí
kmitnout z
pozice za
horními
řezáky až za
dolní řezáky
jazyk na
spodním
patře
horní zuby se
skoro dotýkají
spodního rtu,
spodní zuby
nejsou vidět
vůbec
jsou ovlivněny
rty hodně od sebe ale i hodně
široké, viditelné horní zuby i jazyk
na spodním patře, jedná se o
nejotevřenější hlásku a dá se
podle toho detekovat
přechod z a do u
rty zcela u sebe, mírně nafouklé
tváře
rty středně od sebe ale hodně
široké, jazyk na spodním patře,
většinou nejsou vidět spodní zuby
přechod z e do u
horní ret mírně
zdvižen,spodní ret se
skoro dotýká horních
řezáků
spodní ret se dotýká horních
zubů, rty jsou jen málo
pootevřené a málo široké,
většinou jsou viditelné pouze
řezáky
jsou ovlivněny
otevřená ústa, jazyk na spodním
patře, neviditelná hláska
horní i dolní
zuby jsou vidět
ústa se přivírají a
koutky jsou maximálně
rozšířeny, více než při e
rty středně od sebe, nejširší
hláska, zuby skoro u sebe, není
vidět jazyk
jsou ovlivněny
jsou ovlivněny
rty středně otevřené, jazyk
prokmitne od horního patra dolů
většinou nejsou
vidět zakrývají
je rty
rty se zaokrouhlují
horní i dolní ret se
vysunují, rty jsou spíše
stáhnuté
stáhnuté
jsou ovlivněny
rty mají kruhovitý tvar, rty se
vyšpulují dopředu a zvětšuje se
jejich mohutnost, otvor je větší
než pro u a je kulatější
přechod z o na u
- 89 -
rty mírně od sebe, zuby zcela u
sebe
Přílohy
spodních
zubů
š
š
t
t
ť
ť
u
u
0
jazyk na
spodním
patře
horní zuby
malinko
překrývají dolní
nebo jsou velmi
blízko
většinou nejsou
vidět zakrývají
je rty
rty se zaokrouhlují,
vysouvají více než u
u,o a spíše se oddalují
od sebe než aby se
přibližovali
stáhnuté ještě více než
uo
vyšpulené rty více než u s, honí i
dolní zuby dobře viditelné,
elipsovitý tvar
zuby mírně od sebe, jazyk mezi
zuby, ale vidět jsou většinou jen
horní, jazyk je užší než u ť
rty mírně od sebe více vyšpulené
než t , jazyk mezi zuby, jazyk je
širší než u t
rty velice blízko sebe, štěrbina
nejmenší ze všech hlásek je
podlouhlejší než o
Tabulka 13. Popis uplatnění zubů, jazyka a tvaru rtů při tvorbě jednotlivých vizémů, 0 = objekt není
přítomen
DCT 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
u
0 0 4 1 4 2 0 0 2 0 0 2 4 2 2 0 2 4 4 2 0 2 2
v
0 2 0 0 2 0 1 4 2 5 3 5 4 3 4 6 1 3 1 6 7 7 8
DCT 24 25 26 27 28 29 30
u
0 4 4 0 2 1 2
v
8 5 6 9 9 2 10
Tabulka 14. Hodnoty frekvencí u a v pro vybrané DCT příznaky získané z trénovací množiny pro popis
ROI.
DCT vnitřku úst :
DCT 1 2 3 4
u
0 0 0 2
v
0 2 3 0
Tabulka 15. Hodnoty frekvencí u a v pro vybrané DCT příznaky získané z trénovací množiny pro popis
vnitřku úst.
- 90 -
Přílohy
Obrázek 51. Ukázka nalezení vnitřní a vnější kontury rtů
- 91 -
Přílohy
Obrázek 52. Ukázka chybného nalezení vnitřní a vnější kontury rtů
Obrázek 53. Ukázka nalezení objektů vnitřku úst, bílá – horní zuby, modrá – dolní zuby, zelená – jazyk,
černá – mezera
Obrázek 54. Ukázka chybného nalezení objektů vnitřku úst, bílá – horní zuby, modrá – dolní zuby, zelená
– jazyk, černá – mezera
- 92 -
Přílohy
Obrázek 55. Ukázka zpracování databáze pro nalezení vizuálních řečových jednotek.
- 93 -

disertační práce opravená verze - Department of Cybernetics, UWB

Transkript

Podobné dokumenty

Pokro čilé metody rozpoznávání řeči