Vizua´lnı syntéza recˇi

Transkript

Vizua´lnı syntéza recˇi
FAKULTA APLIKOVANÝCH VĚD
KATEDRA KYBERNETIKY
Vizuálnı́ syntéza řeči - Mluvı́cı́ Hlava
Odborná práce ke státnı́ doktorské zkoušce
Ing. Zdeněk Krňoul
Plzeň
2004
Obsah
1 Animace tváře
2
1.1
Video založené syntézy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.2
Modelově založené syntézy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.2.1
Interpolace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.2.2
Animace přı́mou parametrizacı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.2.3
Svalové a fyziologické modely . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.2.4
Daty řı́zené návrhy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
1.2.5
Řečově orientované animace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
1.2.6
Detailnı́ animace úst . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
1.2.7
Fyziologické podmı́nky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
1.2.8
Parametrizace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
2 Zdroje dat pro mluvı́cı́ hlavy
2.1
2.2
2.3
30
Statické metody . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
2.1.1
Vnějšı́ statické měřenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
2.1.2
Vnitřnı́ statické měřenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
Dynamické metody . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
2.2.1
Video založené metody . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
2.2.2
Systémy optického trasovánı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
2.2.3
Vnitřnı́ dynamické měřenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
2.2.4
Korelace dat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
Řečové korpusy pro dynamické měřenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
3 Strategie řı́zenı́ animacı́
39
3.1
Vznik řeči a odezı́ránı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
3.2
Audio-vizuálnı́ vnı́mánı́ a „McGurk efekt“ . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
3.3
Koartikulace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
3.4
Syntéza z textu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
3.4.1
Modely řı́zenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
Syntéza z akustického signálu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
3.5
4 Způsoby ohodnocenı́ mluvı́cı́ch hlav
52
ii
OBSAH
4.1
Objektivnı́ ohodnocenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
4.2
Subjektivnı́ ohodnocenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
4.3
Výsledky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
5 Aplikace
57
5.1
Kumunikace s počı́tačem - agenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
5.2
Systémy pro nedoslýchavé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
5.2.1
58
Výuka řeči . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6 Závěr
60
6.1
60
Cı́le disertačnı́ práce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iii
Seznam obrázků
1.1
a) Cosatto a Graf (1998) rozdělili obraz zaznamenané tváře na 7 podoblastı́. b) Oblast čela, očı́ a oblast
kolem úst. c) Výběr zubů a brady. d) Složenı́ oblasti kolem rtů. e) Syntetizovaný obrázek složený z vhodně
vybrané kombinace těchto částı́. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
Vlevo: způsob měřenı́ rtů použitý pro výběr vhodné oblasti rtů. Vpravo: rozšı́řenı́ 2D video založené
syntézy o jednoduchý 3D model. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
3D model hlavy s 2D syntetizovaným obrázkem úst, který je promı́tnut na model, (Brooke a
Scott, 1998) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
a) Transformace prvnı́ho klı́čového snı́mku na druhý. b) Zpětná transformace druhého snı́mku na prvnı́.
c) Vážený součet obou transformacı́. d) Výsledná vyhlazená animace. . . . . . . . . . . . . . . . .
6
Originálnı́ Parkeův model a jeho modifikace. a) Drátěný a stı́novaný původnı́ tvar, b) jeho modifikace
„Baldi“ a c) finská mluvı́cı́ hlava (Olives a kol., 1999) . . . . . . . . . . . . . . . . . . . . . . . .
8
1.6
Rozmı́stěnı́ svalů kolem úst. Svaly nakreslené vlevo jsou umı́stěné nad svaly nakreslenými vpravo. . .
9
1.7
a) Závislost napnutı́ pokožky na působı́cı́ sı́le. Vpravo: model svalu z (Platt a Badler, 1981): b) svalové
vlákno a c) celý sval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
a) Detail třı́vrstvého spojenı́. Každý uzel o určité hmostnosti je spojen pružnými vazbami. b) Ukázka
cekového modelu tváře. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
Rozmı́stěnı́ svalů v modelu (Lucero a Munhall, 1999). a) Sval atakujı́cı́ kost, b) sval Orbicularis oris
atakujı́cı́ pouze podkožnı́ vrstvu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
1.10 Model pokožky z (Thalmann a kol., 2002): a) mladá pokožka, b) modelovánı́ vrásek. . . . . . . . . .
13
1.2
1.3
1.4
1.5
1.8
1.9
1.11 Čelnı́ a bočnı́ pohled na maximálnı́ pohyb bodů při promluvě, které jsou pevně spojené s povrchem tváře. 14
1.12 Schéma výpočtu parametrů, které popisujı́ stupeň ovlivněnı́ nevýrazového bodu P třemi výrazovými
body F P1 , F P2 a F P3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
1.13 Definice deformačnı́ch oblastı́ pro italskou mluvı́cı́ hlavu. a) Jednotlivé regiony tváře, b) řı́dı́cı́ body a
jejich oblast ovlivňovánı́, c) funkčnı́ závislost hodnoty váhy na vzdálenosti od řı́dı́cı́ho bodu a d) ukázka
modelované deformace. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
1.14 3D model rtů definovaný pomocı́ kontur rtů, (Guiard-Marigny a kol., 1996) . . . . . . . . . . . . . .
20
1.15 a) Model rtů řı́zený třemi spline funkcemi, (Revéret a kol., 2000). b) Částečný model tváře a model
čelisti u mluvı́cı́ hlavy „Mother“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
1.16 a) Rozdělenı́ modelu jazyka na oblasti a parametrizace vrcholů, pohled zhora. b) Bočnı́ pohled na kostru,
model tvrdého patra a hornı́ řady zubů a c) bočnı́ pohled na model jazyka. d) Výsledné zobrazenı́ jazyka
při různých deformacı́ch. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
1.17 Vlevo: modelovánı́ sagitálnı́ kontury jazyka pomocı́ B-spline funkce. Uprostřed: model tvrdého patra a
zubů. Vpravo: výsledná animace ústnı́ dutiny, kterou nalezneme v modelu „Baldi“ . . . . . . . . . .
21
1.18 Ukázka 6 parametrů, které byly zı́skány z PCA. Vlevo je vždy minimálnı́ a vpravo maximálnı́ možná
hodnota daného parametru. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
iv
SEZNAM OBRÁZKŮ
1.19 10 parametrů pro popis rtů z čelnı́ho pohledu, (Masuko a kol., 1998) . . . . . . . . . . . . . . . . .
25
1.20 6 parametrů řı́dı́cı́ polohu a tvar jazyka: a) vertikálnı́ poloha, b) horizontálnı́ pohyb, c) plochost či
klenutost, d) pohyb špičky, e) popis zbývajı́cı́ch zvarových změn a f) šı́řka. Vlevo je vždy minimálnı́ a
vpravo pak maximálnı́ hodnota parametru. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
1.21 Vliv hodnoty akčnı́ jednotky AU43 na mı́ru zavřenı́ obou očı́. . . . . . . . . . . . . . . . . . . . .
26
1.22 Parametrizace podle standardu MPEG-4. Vlevo nahoře můžeme vidět definici FAPU, zbytek obrázku
ukazuje FAP parametrizaci kompletnı́ tváře. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
1.23 6 základných výrazů tváře zahrnutých v MPEG-4. . . . . . . . . . . . . . . . . . . . . . . . .
29
2.1
Ručnı́ nastavenı́ modelu rtů tvořeného interpolacı́ kontur. . . . . . . . . . . . . . . . . . . . . . . .
31
2.2
Elisei a kol. (1997) použil záznam 197 barevných korálků přilepených na tváři a s pomocı́ zrcadla provedl
ručnı́ 3D rekonstrukci každého bodu pro artikulaci několika hlásek. Uprostřed můžeme vidět i speciálnı́
pomůcku pro měřenı́ polohy čelisti. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
Složený čelnı́ a bočnı́ pohled na tvář s označenými rty. Dvě speciálnı́ značky jsou použity pro detekci
pohybu čelisti a celé hlavy. Vpravo pak můžeme vidět obrázek převedený do chromatických barev. . .
34
Ukázka systému optického trasovánı́. V tomto přı́padě je použit Qualisys systém a 4 kamery. Vpravo
pak můžeme vidět 28 značek na tváři řečnı́ka. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
3.1
„McGurk efekt“. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
3.2
Na prostřednı́ křivce můžeme pozorovat průběh druhého formantu pro hlásku /g/ v různém samohláskovém kontextu. Můžeme pozorovat odlišný /CV/ předchod způsobený počátečnı́mi samohláskami. . . .
41
a) Odlišná artikulačnı́ poloha jazyka pro hlásku /d/ v samohláskvém konextu /u/ (plná čára) a /a/
(přerušovaná čára). b) Samotná artikulace hlásky /u/ a /a/. . . . . . . . . . . . . . . . . . . . . . .
43
3.4
Syntéza trajektorie podle Öhmanova modelu. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
3.5
Löfqvistova definice řečového segmentu. Vpravo pak vidı́me dva stupně překrývánı́ sousedı́cı́ch segmentů při řetězenı́ řeči. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
Definice segmentu je provedena zvlášt’pro každý artikulátor. Segmenty pak mohou mı́t různou intenzitu
a tvar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
3.7
Složenı́ a postupné oddělenı́ segmentů podle rychlosti řeči. . . . . . . . . . . . . . . . . . . . . . .
45
3.8
Model koartikulace (Cohen a Massaro, 1993). Nahoře můžeme vidět průběh dominančnı́ funkce pro dva
řečové segmenty a dole pak výslednou trajektorii. . . . . . . . . . . . . . . . . . . . . . . . . . .
46
Ukázka regresnı́ho stromu. Určenı́ artikulace nějaké hlásky je provedeno podle jejı́ho kentextu. . . . .
47
3.10 Vlevo: definice řı́zenı́ animace v MPEG-4 standardu pro FAP6 a FAP23. Vpravo pak vidı́me počástech
lineárnı́ aproximaci výsledné trajektorie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
3.11 Schéma syntézy vizuálnı́ řeči pomocı́ HMM. Vlevo vidı́me trénovacı́ fázi. Vpravo je pak část rozpoznávánı́ a část pro generovánı́ vizuálnı́ch parametrů. . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
3.12 Schéma systému pro akustické řı́zenı́ animace pomocı́ neuronové sı́tě. . . . . . . . . . . . . . . . .
51
2.3
2.4
3.3
3.6
3.9
4.1
5.1
V grafu můžeme vidět čtyři závislosti úspěšnosti pozozuměnı́ promluvě na různém stupni akustického
šumu. Nejmešı́ přı́spěvek má animaci poute rtů. Lepšı́ch výsledků je dosaženo pro nějakou mluvı́cı́ hlavu,
ale nejlepšı́ch výsledků bývá dosahováno testy s přirozenou tvářı́. Z grafu je vidět, že mluvı́cı́ hlava měla
přı́spěvek porozuměnı́ většı́ než 40%. Studie je převzata z (Goff a kol., 1994) . . . . . . . . . . . . .
54
Aplikace vizuálnı́ syntézy vyvı́jené na KTH. Vlevo je ukázka projektu „Vaxholm“, uprostřed mluvı́cı́
hlava „August“ a vpravo pak nejnovějšı́ systém „AdApt“ . . . . . . . . . . . . . . . . . . . . . . .
58
v
SEZNAM OBRÁZKŮ
5.2
Základnı́ myšlenka projektu „Teleface“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
5.3
Výuka řeči a rozšiřovánı́ slovnı́ zásoby s mluvı́cı́ hlavou „Baldi“. . . . . . . . . . . . . . . . . . . .
59
vi
Seznam tabulek
1.1
Parametrizace mluvı́cı́ hlavy „Baldi“
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
1.2
MPEG-4 FAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
2.1
Souhrn použı́vaných metod pro zı́skávánı́ statických a dynamických dat pro mluvı́cı́ hlavy. . . . . . .
31
2.2
Pozorované korelace signálů. Korelace popisuje mı́ru závislosti mezi vnějšı́mi pohyby tváře, akustickým
signálem a pohyby jazyka. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
4.1
Mı́ry úspěšnosti rekonstrukce měřených dat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
4.2
Výsledky subjektivnı́ch testů na animaci řeči mluvı́cı́ hlavou, chronologické uspořádánı́. . . . . . . .
56
vii
Úvod
Lidská tvář je jen malou částı́ člověka, ale hraje zásadnı́ roli v komunikaci. Člověk použı́vá svoji tvář
jako prostředek vizuálnı́ komunikace. Tvář je silným výrazovým prostředkem a v mnoha přı́padech je jejı́
viditelnost neocenitelnou komponentou vnı́mánı́ řeči. Každý z nás se setkává s různými tvary lidské tváře a
s jejı́mi pohyby již od samého narozenı́. Pozorovánı́m tváře se učı́me znát významy gest, které hrajı́ významnou
roli v každodennı́ komunikaci. Gesta tváře jsou někdy doplněna o gesta rukou či celého těla a jako celek sloužı́
k neverbálnı́ komunikaci. V mezilidském komunikačnı́m procesu existuje mnoho výrazů tváře. Snad jeden
z nejdůležitějšı́ch je výraz tváře pro projevy emocı́. Pro člověka, jakožto lidskou bytost, je právě tvář prostředkem
k vyjádřenı́ svých emocı́ a nálad. Těmito emocemi jsou napřı́klad štěstı́, smutek, vystrašenı́, rozzlobenost apod.
Rysy těchto základnı́ch emocı́ jsou na tváři každého z nás snadno rozpoznatelné. Je samozřejmostı́, že tyto
emočnı́ projevy patřı́ i do řečové komunikace, utvářı́ formulaci, důraz sdělenı́ a neverbálnı́ výměnu informacı́.
Patřı́ tedy do našeho jazyka stejně jako hlásky či slova. Výrazy jsou tedy vzájemně vztažené a často intonaci
hlasu. Při promluvě tvář, včetně krku, odkrývá vizuálnı́ aspekty řečové produkce a také je důležité, že nese
informaci o fonetickém obsahu promluvy. Za vizuálnı́ řečové informace můžeme označit okem pozorovatelné
změny tváře, ale také viditelné pohyby v ústnı́ dutině. Viditelnost našı́ tváře tak může značně zvýšit porozuměnı́
našemu sdělenı́. V tomto přı́padě jde o běžné situace komunikace v prostředı́ch s akustickým šumem nebo jiné
degradace akustického signálu řeči. Degradacı́ můžeme označit i sluchové postiženı́.
Ve světě je prováděno mnoho technologických i vědeckých postupů, které zkoumajı́ možnosti věrného
počı́tačového vytvořenı́ a animovánı́ lidské tváře a hlavy. Tyto postupy jsou kombinovány s postupy z oblasti
řečové komunikace člověka s počı́tačem, a tak se zpřı́stupňuje tak zvaná komunikace z očı́ do očı́. Takto
zaměřené aplikace jsou použı́vány v dialogových systémech, ale také pro jiné komunikačnı́ cı́le. Zkoušı́ se
použı́t jako nástroj k výuce jazyka. Mimo jiné je možné využitı́ v počı́tačových hrách, v aplikacı́ch na „elearning“ a ve virtuálnı́m světě, ale také v každodennı́ch situacı́ch vzájemného působenı́ člověka a počı́tače.
Z těchto důvodů je v poslednı́ch třech desetiletı́ch vedeno mnoho výzkumů v oblasti nazývané často jako
„Talking Head“, což můžeme přeložit jako „Mluvı́cı́ Hlava“. Tato práce prezentuje část celosvětového úsilı́
vynakládaného na vývoj systémů, které v sobě obsahujı́ komunikačnı́ sı́lu lidské tváře a smysluplné použitı́
vedoucı́ k systémům vı́ce přátelštějšı́m, vı́ce intuitivnı́m, majı́cı́ jednoduché použitı́ a stejně tak zpřı́stupňujı́cı́
nové možnosti v komunikaci.
Tato práce detailně shrnuje a popisuje techniky, které jsou využı́vány pro systémy syntetických mluvı́cı́ch
hlav a jejich ohodnocovánı́. Jsou zde zmı́něné problematiky, které zahrnujı́ zı́skávánı́ dat, datovou reprezentaci,
zpracovánı́ signálů, modelovánı́ a animaci hlavy, ale také jejich souvislost s několika aplikovanými scénáři
v oblasti dialogových systémů ovládaných hlasem, komunikačnı́ch pomůcek a pomůcek k výuce řeči. Vedle
prezentace zı́skánı́ realističnosti je hlavnı́m záměrem této práce prezentovat výzkum prováděný pro zvýšenı́
komunikačnı́ funkčnosti. V tomto smyslu je realističnost vzhledu mluvı́cı́ hlavy závislá na statickém tvaru a
spı́še kosmetickou záležitostı́, zatı́mco komunikačnı́ funkčnost má základ v řádné definici dynamických gest
tváře, které jsou základem srozumitelné komunikace. Ne vždy však bývá požadována komunikačnı́ funkčnost,
a proto existujı́ i odlišné oblasti vývoje počı́tačem generované mluvı́cı́ hlavy, avšak o nich se v této práci
nebudeme zmiňovat.
1
Kapitola 1
Animace tváře
Lidská tvář je velmi nepravidelná struktura specifická pro každého jedince. Počı́tačová animace lidské
tváře je relativně mladou vědnı́ disciplı́nou. S rostoucı́m rozvojem výpočetnı́ techniky se dostává do zájmu až
v poslednı́ch 30 letech. Prvnı́ pokusy o animaci tváře počı́tačem můžeme přisoudit Parkeovi (Parke, 1972).
Když provedeme souhrn většiny dosavadnı́ch návrhů, můžeme všeobecně rozdělit existujı́cı́ techniky na video
zaměřené a modelově zaměřené. Prvnı́ zmı́něná technika pohlı́žı́ na počı́tačovou syntézu řeči jako na obrazový
signál. Společným znakem všech technik je počı́tačové vytvořenı́ 2D obrazu tváře nebo hlavy popřı́padě
celého těla. Rozdı́l je však ten, že pro video zaměřené techniky jsou zdrojem dat a i celé zpracovánı́ probı́há
s 2D obrázky. Druhá zmı́něná technika, která je obecně vı́ce rozšı́řena, využı́vá při zpracovánı́ animace různé
druhy deformačnı́ch modelů, velmi často v 3D prostoru.
Neexistuje však pevná hranice mezi těmito přı́stupy. Ve video založených technikách se postupně začı́najı́
použı́vat modelové přı́stupy i 3D prvky a naopak modelově založené přı́stupy užı́vajı́ textury či jiné zdroje dat
založených na obrazových elementech. Nabı́zı́ se také udělat srovnánı́ mezi syntézou tváře a známějšı́ akustickou
syntézou. Akustická syntéza, jinak řečeno počı́tačem generovaný zvukový signál řeči často označovaný zkratkou
TTS „Text to Speech Systems“, je v dnešnı́ době rozšı́řená a běžně použı́vaná už i pro komerčnı́ účely. Modelově
založené návrhy TTS, napřı́klad takzvaná formantová syntéza, čı́m dál vı́ce ustupujı́ vzorkově založeným
metodám. Proto se nejčastěji použı́vajı́ pro generovánı́ akustického signálu před-zaznamenané jednotky řeči.
Těmito jednotkami mohou být jak celá slova nebo věty (známé hlášenı́ na vlakových nádražı́ch), tak i menšı́
řečové jednotky, jimiž jsou fonémy či alofóny. Vlastnı́ vytvářenı́ syntetizované řeči pak spočı́vá pouze v hledánı́
přı́slušných jednotek v často obrovských databázı́ch a jejich spojovánı́ s minimálnı́m uplatněnı́m zpracovánı́
signálu. Ve vizuálnı́ oblasti počı́tačového generovánı́ řeči zatı́m nenalezneme dominantnı́ technologii. Existuje
jakási rovnováha mezi různými návrhy generovánı́ syntetizovaného obrazu. Zdá se, že video založené techniky
zı́skávajı́ na popularitě, avšak modelově založené animace tváře jsou již nynı́ velmi použı́vané, což je bezpochyby
způsobené MPEG-4 standardem. MPEG-4 je standard pro multimediálnı́ kompresi a mimo jiné obsahuje i
animaci tváře1 . Standard poprvé poskytl ucelenou metodiku pro modelovánı́ tváře. Vizuálnı́ oblast počı́tačové
syntézy řeči je často označována jako TTVS „Text to Visual Speech“, ale častěji je použı́vána zkratka TTAVS
pro kompletnı́ audio-vizuálnı́ syntézu. Ani toto označenı́ však nenı́ jednotné, protože vizuálnı́ řeč může být
generována nejen z textu, ale i z akustického řečového signálu. Proto se v této práci setkáme také s jednoduchým
výrazem „mluvı́cı́ hlava“.
1.1 Video založené syntézy
Jde o animaci tváře popř. celé hlavy založené na metodách zpracovánı́ digitalizovaného obrazu. Animace
velmi deformovaných částı́ tváře, jako jsou ústa, potřebuje velmi preciznı́ a komplexnı́ 3D model a i přesto
1
ISO/ITEC IS 14496-2 Visual
2
Kapitola 1. Animace tváře
produkuje syntetický zjev. Foto-realistická syntéza video animace využı́vá technik kroucenı́ a natahovánı́
předem zaznamenaných obrazových dat. Jde o tak zvaný „morfing“. Problémy, které s tı́mto vznikajı́, jsou
s modelovánı́m posunutı́ bodů obrazu. Jedno řešenı́ je automatické určenı́ pohybů pomocı́ optického toku nebo
vı́ce elegantnı́ řešenı́ pomocı́ skládánı́ výsledného obrazu z množiny vzorků.
Tyto metody majı́ potenciálnı́ možnost dosaženı́ vysoké úrovně video-realismu. Dosahuje se nerozeznatelné
animace od originálnı́ho záznamu. Pro syntézu se zpracovávajı́ obrazy zachycujı́cı́ mluvı́cı́ lidskou hlavu.
Model mluvı́cı́ tváře je složen z množiny audiovizuálnı́ch sekvencı́ extrahovaných často z velmi velkých
řečových korpusů. Hlavnı́m problémem, který je však překonaný mnoha systémy, je bezešvé řetězenı́ video
sekvence. Sebemenšı́ nepřirozená změna pozice nebo výrazu tváře může být velmi znatelná. Proto společnou
částı́ systémů je předzpracovánı́, které provádı́ normalizaci pozice a orientaci tváře. Např. ve „Video-Rewrite“
systému (Bregler a kol., 1997), je zpracovávána pouze oblast úst a následně uložena (s novou artikulacı́) do
originálnı́ video sekvence.
V práci (Cosatto a Graf, 1998) je návrh systému, který generuje foto-realistickou video animaci mluvı́cı́
hlavy. Systém je odvozen z videozáznamu řeči a použı́vá metody rozpoznávánı́ obrazu. Tyto metody lokalizujı́,
extrahujı́ a vyjı́majı́ z obrazu části tváře, jako jsou ústa, oči, obočı́. Vybrané části jsou pak uloženy v databázi.
Syntéza animace probı́há z těchto dat tak, že je utvořena nová video-sekvence včetně synchronizovaného
zvuku. Emočnı́ a konverzačnı́ signály jsou modelovány částečným pohybem hlavy, zvedánı́m obočı́ a širokým
otevřenı́m očı́. Rozdělenı́ tváře a oddělený záznam jednotlivých výrazů zmenšuje výslednou knihovnu vzorků
Obrázek 1.1: a) Cosatto a Graf (1998) rozdělili obraz zaznamenané tváře na 7 podoblastı́. b) Oblast čela, očı́ a
oblast kolem úst. c) Výběr zubů a brady. d) Složenı́ oblasti kolem rtů. e) Syntetizovaný obrázek složený z vhodně
vybrané kombinace těchto částı́.
a umožňuje artikulaci řeči doplněnou o libovolné kombinovánı́ emocionálnı́ch výrazů. Řeč je zarovnána podle
promlouvané řeči. Samotný výběr vzorů odpovı́dajı́cı́ zvukovým úsekům však vede na velkou knihovnu. Pro
redukci dat se tak v obrazech měřı́ rotace čelisti, šı́řka a výška rtů. Tyto hodnoty se využijı́ při analýze a redukce
je provedena vynechánı́m duplicitnı́ch vzorů. Animačnı́ model představuje v 2D obrazu oblast hlavy a části
tváře. Rozdělenı́ tváře redukuje množstvı́ potřebných záznamů, které je nutné zachytit. Můžeme však řı́ci, že
obecně neexistuje jednoznačné rozdělenı́ tváře, nebot’ svaly a pokožka působı́ na tvář jako celek, a tak každé
rozdělenı́ způsobı́, že vzniklé části mohou být na sobě deformačně závislé.
Cosatto redukoval 50 anglických fonémů a vybral 12 anglických vizémů2 a redukce dat byla provedena
podle parametrů, které můžeme vidět na obr. 1.2 vlevo. Všechny části tváře jsou integrovány do oblasti
představujı́cı́ hlavu. Animace dovoluje vytvářet výrazy jako pohyby: duhovka - nahoru, dolů, doprava a doleva,
obočı́ zamračené a zvednuté, čelist nahoru a dolů. Zdokonalenı́ syntézy pak najdeme v práci (Cosatto a Graf,
2000), kde je použit jednoduchý 3D model pro zohledněnı́ pohybu hlavy, viz obr. 1.2 vpravo. Tvář je jako
v předchozı́ práci rozdělena na oblasti, kde hlava je základnı́ oblastı́, do nı́ž jsou vkládány ostatnı́ podoblasti.
2
Pojem „vizém“ použil v roce 1968 Fisher při prováděnı́ experimentů se čtenı́m. Výraz označoval skupinu souhlásek, které byly
často vzájemně zaměňovány. V této problematice je výraz použit pro označenı́ skupiny vizuálně podobných fonémů.
3
Kapitola 1. Animace tváře
Obrázek 1.2: Vlevo: způsob měřenı́ rtů použitý pro výběr vhodné oblasti rtů. Vpravo: rozšı́řenı́ 2D video založené
syntézy o jednoduchý 3D model.
Podoblasti jsou části tváře jako ústa a brada, dalšı́ částı́ je čelo s obočı́m. Nos a uši jsou součástı́ oblasti
hlavy. Každá tato oblast tváře je v modelu zahrnuta jako jednoduchý útvar složený z několika málo polygonů.
Tvar každého útvaru je dán měřenı́m zaznamenané tváře a referenčnı́ body určujı́ správné umı́stěnı́ vzorů
na model. Výsledná animace je provedena zobrazenı́m celého modelu, kdy pro určité natočenı́ je počı́tána
projekce jednotlivých úvarů do obrazové roviny. Výsledkem je kombinace flexibility 3D modelu s realističnostı́
2D vzorů. Alternativou pro přı́mé řetězenı́ sekvence obrázků může být animace postavena na statistických
modelech obrazových bitmap. Generovánı́ výstupnı́ho obrazu je provedeno z kompaktnı́ množiny parametrů.
Takový model navrhl Brooke a Scott (1998). V této práci je použit jednoduchý 3D model dolnı́ poloviny
tváře. Je použit video záznam řečnı́ka a skryté Markovovy modely (HMM). Oblast kolem úst je zaznamenána
s barevnými informacemi v rozlišenı́ 64x48 obrazových bodů3 . Oblast byla rozdělena na 16 podoblastı́ a každá
podoblast byla analyzována pomocı́ metody PCA „Principal Components Analysis“. Výběr 30-50 komponent
zachovává 85-90% variance. Komponenty všech 16 podoblastı́ byly znovu podrobeny analýze PCA. Z této
druhé aplikace byly vybrány prvnı́ čtyři komponenty. Tato parametrizace pak sloužila k trénovánı́ levo-pravých
HMM. Každá HMM slabika představovala jeden trifón. Trénovánı́ HMM probı́halo současně s akustickými
daty. Syntéza je provedena zřetězenı́m HMM a výsledná trajektorie byla vyhlazena. Syntetizovaný obrázek je
nakonec nanesen na 3D model, obr. 1.3. Generovánı́ hodnot obrazových bodů z HMM je i v práci (Sako a kol.,
2000).
Theobald a kol. (2001) popisujı́ přı́stup užitı́m tzv. separačnı́ch modelů pro tvar a vzhled. Jedná se také
o syntézu pomocı́ statistických modelů spojenou s řetězenı́m. Tvar modelu je drátěná sı́t’spojena ručně značenými
značkami v obrázku. Na hodnoty obrazových bodů je aplikována PCA a použit lineárnı́ model x = x + P b, kde
P je matice vybraných vlastnı́ch vektorů z kovariančnı́ matice, b je vektor komponent (tzv. váhy) a je dosaženo
95% zachovánı́ variance. Zarovnánı́m dat se docı́lı́ stejná velikost obrazových dat a jejich porovnatelnost
v celé trénovacı́ množině. Ezzat a Poggio (2000) prezentujı́ foto-realistický audiovizuálnı́ řečový syntetizér
nazvaný MikeTalk. Základ systému tvořı́ vizémy. Vizémy jsou zde tvořeny z malé množiny vybraných tvarů
úst zaznamenaných ve vizuálnı́m korpusu. Použitı́m metod optického toku je počı́tána korespondence mezi
3
Tyto hodnoty se blı́žı́ k dolnı́ hranici rozlišitelnosti řeči
4
Kapitola 1. Animace tváře
Obrázek 1.3: 3D model hlavy s 2D syntetizovaným obrázkem úst, který je promı́tnut na model, (Brooke a Scott,
1998)
dvěma vizémy. Je dosažen hladký přechod při řetězenı́. Pořadı́ při řetězenı́ a časovánı́ vizemů je řı́zeno modulem
akustické syntézy řeči. Princip animace spočı́vá v zaznamenánı́ pouze potřebných klı́čových vizémů a k dosaženı́
hladkých přechodů je využı́váno transformacı́ obrazových bodů v 2D. Zde je použit na rozdı́l od podobných
pracı́ záznam jen 40-50 slov, ve kterých je obsaženo všech 40-50 anglických fonémů. Ručně jsou extrahovány
obrazy 16 potřebných vizémů. Dále jsou definovány vzájemné transformace mezi všemi obrazy vizémů, které
popisujı́ přeměny. Právě na provedenı́ transformace jednoho vizému na jiný závisı́ výsledná realističnost a
hladkost animace. Pro N vizémů je potřeba N 2 transformacı́. Prvnı́m krokem definovánı́ nějaké transformace
mezi dvěma vizémy je nalezenı́ korespondencı́ mezi dvěma sousednı́mi klı́čovými snı́mky. Korespondence jsou
reprezentovány pomocı́ mapy přechodu z prvnı́ho snı́mku na druhý a z druhého snı́mku na prvnı́.
C0 (p0 ) = fd0x!1 (p0 ); d0y!1 (p0 )g
a
C1 (p1 ) = fd1x!0 (p0 ); d1y!0 (p1 )g
(1.1)
Kde korespondenčnı́ mapa C pro obrazový bod p na pozici (x; z ) je definována jako posunutı́ d mezi snı́mkem
a 1. K estimaci pohybu, který je zachycen mezi těmito obrazy, je použit optický tok4 . Optický tok umožňuje
automatické určenı́ korespondenčnı́ mapy. Přeměna tvaru úst v jednom snı́mku na tvar ve druhém snı́mku je
popsána jako přesuny obrazových bodů ze své pozice ve výchozı́m obraze ve směru optického toku na novou
pozici ve výsledném obraze. Libovolně dlouhá sekvence obrazů na přechodu je generována podle vztahu (1.2):
0
I synt (p; ) = (1 )I0warp (p; ) + I1warp (p; 1 ));
(1.2)
kde syntetizovaný snı́mek I synt v určitém mı́stě přechodu je dán váženým součtem „dopředně“ přetvářeného
klı́čového snı́mku 0 a zpětně přetvářeného klı́čového snı́mku 1. Jednotlivé přechody můžeme vidět na obr. 1.4.
Výsledkem je realistický přechod, který nemusı́ být jen lineárnı́. Celková animace je vytvořena vloženı́m
těchto syntetizovaných sekvencı́ tváře do sekvence obsahujı́cı́ přirozené řečové pohyby hlavy a očı́. Dále Ezzat
a kol. (2002) určujı́ množinu klı́čových obrázků automaticky z dat. Syntéza trajektoriı́ pro výpočet přetvářecı́ch
parametrů je řı́zena daty.
Obecně nenı́ pro tyto postupy potřeba umělý geometrický model, všechny významné části jsou obsaženy
ve vzoru, tj. je obsažena barva kůže, stı́novánı́, přerušovaná viditelnost zubů a jazyka apod. Několik výše
zmı́něných systémů však také včleňuje jednoduchou 3D sı́t’, na kterou jsou promı́tány syntetizované obrázky.
Je tak umožněno nezávislé řı́zenı́ polohy a rotace hlavy a také je zı́skána většı́ flexibilita se zachovánı́m
video realističnosti. Můžeme tedy poznamenat, že docházı́ k prolı́nánı́ těchto postupů s modelově založenými
animacemi z odstavce 1.2.
4
Optický tok byl originálně formulován pro měřenı́ pohybu objektů v obraze.
5
Kapitola 1. Animace tváře
Obrázek 1.4: a) Transformace prvnı́ho klı́čového snı́mku na druhý. b) Zpětná transformace druhého snı́mku na
prvnı́. c) Vážený součet obou transformacı́. d) Výsledná vyhlazená animace.
1.2 Modelově založené syntézy
V modelově založených syntézách je systém popsán pomocı́ geometrického modelu. Hlavnı́ část modelu
představuje povrch tváře, který je typicky popsán jako polygonálnı́ sı́t’, obvykle v 3D prostoru. Model často
bývá doplněn o dalšı́ důležité části jako jsou zuby, jazyk, oči a jiné. Povrch se během animace nejčastěji
deformuje pohybem vrcholů sı́tě, jejı́ topologie však zůstává konstantnı́. Pohyb vrcholů bývá pod kontrolou
množiny parametrů. Vliv změny hodnoty nějakého řı́dı́cı́ho parametru na posunutı́ vrcholů bývá založen na
několika technikách. Tyto techniky provádějı́ interpolaci, přı́mou parametrizaci, pseudo-svalové deformace či
fyziologickou simulaci. Můžeme také nalézt techniky řı́zené daty.
1.2.1 Interpolace
Interpolace je snad nejčastěji použı́vanou metodou animace tváře, nebot’ bývá obsažena ve většině komerčnı́ch softwarových balı́cı́ch určených pro počı́tačovou animaci. Oblı́benost interpolačnı́ch metod spočı́vá
v jednoduchosti použitı́ a v jejich podpoře v animačnı́ch balı́cı́ch. Principem interpolace je, že jsou definovány
základnı́ tvary tváře někdy i celé hlavy. Definice těchto tvarů představujı́ nějaký statický výraz tváře tzv. klı́čový
tvar. Klı́čové tvary jsou předem uložené a mohou např. představovat vizémy či jiné neverbálnı́ výrazy tváře.
Pro každý klı́čový tvar je předem známá poloha každého vrcholu sı́tě, která je uložena. Klı́čové tvary se často
definujı́ ručně s ohledem na vzorovou podobnost k danému výrazu na reálné tváři a s podmı́nkou zachovánı́
topologie tváře.
Požadovaná animace je složena z těchto klı́čových snı́mků a tvary celé tváře potřebné pro plynulou animaci
mezi dvěma přilehlými klı́čovými tvary jsou dopočı́távány interpolacı́ všech vrcholů sı́tě. Nevýhodou je, že
interpolace často neodpovı́dá reálným pohybům pozorovaným na tváři a přinášı́ tak neuspokojivé výsledky.
Např. je-li definován jeden klı́čový tvar tváře pro otevřená ústa a jeden tvar pro zavřená ústa, pak vrcholy sı́tě
v oblasti brady nekonajı́ lineárnı́ pohyb po přı́mce, ale spı́še po nějaké křivce. Obecně by mohla být specifikace
6
Kapitola 1. Animace tváře
interpolace pro každý vrchol, ale tı́mto opouštı́me všechny výhody interpolace. Nevýhoda nelineárnı́ch přechodů
může být částečně zohledněna dodefinovánı́m tzv. přechodných tvarů. Takto to je řešeno např. v MPEG-4.
O MPEG-4 se zmı́nı́me v kapitole 1.2.8. Dalšı́ nevýhodou je fakt, že pro řádnou funkci animace je potřeba často
definovat velké množstvı́ těchto klı́čových tvarů, které je náročné určit a ne vždy se to podařı́ zcela přesně.
Vlastnı́ animace také nenı́ schopna generovánı́ jiných tvarů než těch definovaných.
1.2.2 Animace přı́mou parametrizacı́
Již v roce 1975 F. I. Parke navrhl přı́mou parametrizačnı́ metodu, aby překonal omezenı́ dané interpolačnı́mi
metodami. Pozornost soustředil na povrch tváře bez ohledu na to, co je pod nı́m. Parke (1982) vytvořil model,
který byl primárně určený pro generovánı́ obrazu tváře. Model je složen ze vzájemně oddělených polygonálnı́ch
sı́tı́ modelujı́cı́ch povrch celé tváře, zuby a oči. Model jazyka tehdy nebyl vložen. Vzájemné spojenı́ vrcholů
v jednotlivých sı́tı́ch a vzájemná topologie sı́tı́ zůstávajı́ při animaci neměnné. Parkeovy pokusy s různými
modely tváře ukázaly, že výsledná topologie modelu je utvořena efektivně, tj. v oblastech vyššı́ho zakřivenı́ je
většı́ hustota umı́stěnı́ vrcholů a tedy menšı́ polygony než v oblastech rovnějšı́ch, kde sı́t’tvořı́ většı́ polygony.
V Parkeovu modelu, raději než specifikovánı́ vzorových tvarů, je posunutı́ vrcholů popsáno výslovně pomocı́
základnı́ch geometrických transformacı́. Bylo definováno 5 typů operacı́, které ovlivňujı́ pozici každého vrcholu
sı́tě podle hodnoty nějakého parametru, (viz 1.2.8). Některé operace jsou aplikovány na celou tvář, ale většina
je použita pouze pro malé specifické podoblasti. Vyjmenujme základnı́ operace, které Parke použil:
Procedurálnı́ konstrukce je použita pro modelovánı́ očı́. Procedura přijı́má hodnoty parametrů pro očnı́
bulvy, duhovku, velikost zornice a barvu zornice, pozici oka a orientaci očnı́ bulvy.
Deformace je určena pro oblasti, které měnı́ tvar (oblast čela, lı́cnı́ kosti, krku a úst). Každá z těchto
oblastı́ je podle hodnoty parametru nezávisle deformována mezi dvěma extrémnı́mi tvary. Pro každý
vrchol uvnitř jedné z těchto oblastı́ jsou definovány dvě hodnoty těchto extrémů. Transformace tohoto
vrcholu je dána hodnotou přı́slušného parametru.
Rotace je použita pro otevřenı́ úst. Otevřenı́ úst je provedeno rotacı́ dolnı́ části tváře podle osy čelistnı́ch
čepů.
Změna měřı́tka řı́dı́ relativnı́ velikost výrazů tváře: velikost nosu, úst, čelisti apod.
Translace řı́dı́ délku nosu, šı́řku úst, zvednutı́ hornı́ho rtu apod.
Tyto operace aplikované na danou oblast způsobı́ ohnutı́ či nataženı́ každého vrcholu nezávisle na operaci aplikované v jiné oblasti. Vhodnou kombinacı́ hodnot parametrů Parke generoval požadovaný tvar tváře. Realističnost
pak závisı́ na správné volbě hodnot jednotlivých parametrů. Při výsledné animaci však nejsou hranice mezi
sousedı́cı́mi oblastmi tvarově spojité. K simulaci elasticity kůže je proto použı́ván účinek tzv. transformačnı́ch
zúženı́ch, který je aplikovaný na hranice těchto oblastı́.
V přı́mých parametrizačnı́ch technikách se nevytvářı́ modelovacı́ struktury či mechanismy, které by posouvaly sı́tı́. Pozorované posunutı́ při animaci je modelováno přı́mo. Animace tváře s pomocı́ přı́mé parametrizace
je relativně jednoduchá a výpočetně efektivnı́ metoda. Úspěšně se použı́vá k popisu pohybů tváře a také pro
výzkum vizuálnı́ řečové syntézy. Snad nejvı́ce známý je model „Baldi“ z UCSC (Cohen a Massaro, 1993;
Cohen a kol., 1998; Massaro a kol., 1999). Tento model použili i Goff a kol. (1994) a Olives a kol. (1999).
Parkeův model je také použit v práci (Beskow, 1995) vhodný pro animaci tváře v reálné čase. Originálnı́ model
byl modifikován a byl přidán jednoduchý model jazyka.
7
Kapitola 1. Animace tváře
Obrázek 1.5: Originálnı́ Parkeův model a jeho modifikace. a) Drátěný a stı́novaný původnı́ tvar, b) jeho modifikace
„Baldi“ a c) finská mluvı́cı́ hlava (Olives a kol., 1999)
1.2.3 Svalové a fyziologické modely
Při návrhu přı́mých parametrizacı́ se nekladou žádné podmı́nky na způsob animace tváře. Jednotlivé oblasti
se deformujı́ podle libovolně definovaných operacı́, které bývajı́ vhodně vymyšleny. Animace přı́mou parametrizacı́ je sice účinná metoda, ale musı́ být provedena pečlivě, a i přesto existuje riziko vzniku fyziologicky
nemožných výsledků. Úplně jinou cestou jde návrh svalových či fyziologických modelů. Možnostı́, jak se
předem vyvarovat fyziologicky nemožných výsledků, je zohledněnı́ anatomických omezenı́ lidské tváře, které
nám zúžı́ prostor všech výrazů tváře pouze na ty, které jsou fyziologicky realizovatelné. Taková omezenı́ nám
může poskytnout studium fyziologického složenı́ a funkčnosti tváře, které v mnoha přı́padech vede na nějaký
svalový model.
Kategoriı́ na přechodu z metod přı́mé parametrizace na svalové modely jsou tzv. pseudo-svalové modely.
Tyto modely si ponechávajı́ jednoduchost návrhu i výpočetnı́ efektivnost. Jsou řı́zeny parametrickým modelem,
který při deformacı́ch sı́tě bere v úvahu rozmı́stěnı́ svalů pod povrchem pokožky. Parametry však nemusı́
odpovı́dat reálným anatomickým procesům, ale jsou spı́še utvářené pro jednoduché změřenı́ přı́mo na povrchu
reálné tváře. Takový „pseudo-svalový“ model popisuje např. Thalmanová (Thalman1988a, Thalman1992). Pro
animaci je použita metoda FFD „Free Form Deformation“, která zároveň simuluje svalové akce. Pelachaud
(2002) popisuje pseudo-svalový model, který je kompatibilnı́ se standardem MPEG-4. Tyto návrhy však můžeme
spı́še označit jako řečově orientované animace a vı́ce se o nich zmı́nı́me v kapitole 1.2.5. Obecně vzato,
fyziologické modely mohou simulovat přirozené pohyby tváře s použitı́m relativně malého počtu parametrů za
účelem napodobenı́ biomechaniky tváře.
Svalové modely
Pro pochopenı́ základnı́ho principu si nejprve popı́šeme pokožku tváře. Pokožka člověka je vrstvená struktura. Právě vrstvené složenı́ dělá pokožku nehomogennı́ a neizotropnı́. Existujı́ mı́sta s nižšı́ a vyššı́ tuhostı́.
Vrchnı́ vrstva je označována jako epidermis, a tvořı́ jednu desetinu tloušt’ky celé kůže. Mechanické vlastnosti
jsou nejvı́ce dány kožnı́ vrstvou zvanou Dermis, která obsahuje přibližně 72 procent kolagennı́ch vláken a 4 procenta elastikových vláken. Tyto vlákna jsou hustě spletena do sı́tě a uložena v želatinovém základě (20 procent).
Pod malým tlakem klade tkáň malý odpor a kolagenová vlákna se srovnávajı́ do směru natahovánı́. Je-li však
tlak dále zvyšován, pak jsou kolagenová vlákna plně napnutá a tkáň se stává velmi odolnou. Nelineárnı́ vztah
8
Kapitola 1. Animace tváře
Obrázek 1.6: Rozmı́stěnı́ svalů kolem úst. Svaly nakreslené vlevo jsou umı́stěné nad svaly nakreslenými vpravo.
můžeme vidět na obr. 1.7a). Na základě nestlačitelnosti se vlákna při povolenı́ napětı́ zpomalujı́ a vzniká časově
závislé visko-elastické chovánı́. Elastiková vlákna se chovajı́ jako pružiny a vracı́ kolagenová vlákna do jejich
stočených poloh. Tato vrstva ležı́ na podkožnı́ tukové vrstvě, po které pokožka spı́še klouže, a kryje vrstvu
svalů. Tkáň, jak bude ukázáno nı́že, se nejčastěji modeluje jako třı́vrstvá sı́t’a jejı́ chovánı́ se modeluje pomocı́
diferenciálnı́ch rovnic.
Obrázek 1.7: a) Závislost napnutı́ pokožky na působı́cı́ sı́le. Vpravo: model svalu z (Platt a Badler, 1981): b) svalové
vlákno a c) celý sval
Dále si krátce popı́šeme anatomii svalu. Až 268 nezávislých svalů může stlačovat či natahovat pokožku
a vytvářet nějaký výraz tváře. Svaly jsou z neanatomického hlediska svazky vláken pracujı́cı́ ve vzájemném
souladu. Krátká vlákna jsou na rozdı́l od dlouhých silnějšı́, ale majı́ menšı́ dráhu kontrakce. Podle tvaru můžeme
rozdělit svaly na tři typy: lineárnı́, svěrače a povlakové. Přı́klad lineárnı́ho svalu je Zygomaticus major, viz
obr. 1.6, který zvedá koutky úst. Takový sval je složen ze svazku vláken, které majı́ jen jedno ukotvenı́ na
kost. Povlakový sval Occipito frontalis nám umožňuje zvedat obočı́. Je to široký a plochý sval. Svěračový sval
se skládá z vláken složených do smyčky, která se stahuje např. sval Orbicularis oris kolem ústnı́ho otvoru.
Tento sval nemá ukotvenı́ na kost. Lineárnı́ sval může být v nejjednoduššı́m způsobem modelován jako lineárnı́
kontraktor, který je jednı́m koncem zakotvený do lebečnı́ struktury a druhým koncem působı́ na povrch pokožky.
Sı́la kontrakce se lineárně měnı́ po přı́mce a model pokožky je diskrétně aproximován sı́tı́ vzájemně propojených
uzlů. Výsledná deformace pokožky je pak provedena translacı́ přı́slušných uzlů.
Detailnı́ popis svalů najdeme v následujı́cı́ pracı́ch. Platt a Badler (1981) prezentuje systém pro reprezentaci a
simulaci tváře doplněného o analýzu obrazu. Hlavnı́m cı́lem jeho výzkumu je účinný a přesný model lidské tváře.
Platt zmiňuje, že Parkeův model nenı́ pro realistické modelovánı́ vhodný. Speciálnı́ chovánı́ pokožkové tkáně
jako vrásky, „vybulovánı́“ kůže při stlačovánı́ nebo jejı́ pnutı́ je v modelech přı́mé parametrizace postihnutelné,
9
Kapitola 1. Animace tváře
ale vede na komplikovánı́ parametrizace. Dojde k obrovskému zvýšenı́ počtu parametrů a s tı́m je spojena
nutnost předem známé definice všech tvarů. Právě tuto ztrátu obecnosti se pokoušı́ obejı́t. Jeho animace je
založena na akčnı́ch jednotkách, viz AU v kapitole 1.2.8. Model je konstruován jako vı́cevrstvá sı́t’. Stejně jako
v Parkeově modelu je sı́t’ utvořena efektivně. Tak zvaný „AU analyzátor“ počı́tá z hodnot akčnı́ch jednotek a
jejich kombinacı́ přı́slušné akce modelu svalů. Tyto akce svalů jsou předány do simulátoru tváře, který z nich
vypočı́tá napětı́ či relaxaci svalů. Základnı́m stavebnı́m prvkem modelu je bod umı́stěný v 3D prostoru, který
představuje povrch tváře, svalovou a nebo lebečnı́ vrstvu. Model je pak postaven na spojenı́ch těchto bodů - hran,
které tvořı́ model hmoty. Každá hrana nese informaci o elastičnosti. Elastičnost je zde dána konstantou pružnosti.
Struktura pro sı́lu svalu je dána vláknem. Jedno vlákno je popsáno bodem svalu, bodem spojenı́ s lebečnı́ vrstvou,
obr. 1.7b), informacı́ o kontrakci a jednı́m nebo vı́ce body pokožky (vrchnı́ vrstva). Vlákna jsou složena do
svalů, ve kterých může být velikost sı́ly jednotlivých vláken odlišná, ale směr společný. Simulačnı́ algoritmus
pak počı́tá sı́lu aplikovanou v bodě vlákna ve směru k úchytu na lebku. Projev sı́ly je simulován jako posunutı́
bodu vlákna, které je ovlivňováno elastičnostı́ danou v tomto bodě. Sı́la je pak odražena na všechny připojené
body. Pomocı́ elastičnosti je sı́la propagována po tváři. Animace nějakého výrazu daného AU je rozdělena
do N kroků s rostoucı́ výpočetnı́ náročnostı́. Počı́tačové zobrazenı́ animace odpovı́dalo roku 1981, probı́halo
vektorově a vykreslovaly se pouze hrany sı́tě spolu s rotacı́ kolem třı́ os. Problémy, které se vyskytly, byli
s aktivacı́ AU a jejich vzájemného ovlivňovánı́ či maskovánı́. Animace nerespektovala tok svalu po povrchu
struktury lebky, tj. nebyla zohledněna průběžná změna směru kontrakce svalu. Tuto změnu můžeme pozorovat
napřı́klad v oblasti mezi okem a obočı́m, kde pokožka i sval klouže po lebce, ale neproniká jı́. Animace dále
nezahrnovala rotaci čelisti a ani obecně komplikované napı́nanı́ svalů přes i kolem chrupavčitých oblastı́ (např.
oblast nosu), které může způsobuje pohyby chrupavky.
Dalšı́ model popisujı́cı́ systém simulujı́cı́ svalové procesy na tváři, který je užit k vytvořenı́m realistické
animace je v práci (Waters, 1987). Waters řı́ká, že vývoj svalového procesu, který je řı́zen konečným počtem
parametrů a nenı́ specifický na topologii tváře, dovoluje bohatšı́ slovnı́k a vı́ce obecný návrh k modelovánı́
základnı́ch výrazů tváře. Je tedy prezentována vı́ce detailnějšı́ simulace pohybu vrcholů sı́tě způsobená kontrakcı́
svalů. Simulace je podobná Plattově návrhu, ale pro každý vrchol nenı́ definován pouze stupeň pohybu (váha),
ale také směr pohybu, který je předurčen jako funkce pozice vrcholu náležejı́cı́ do svalem atakované oblasti. Ve
Watersově modelu je použito několik typů modelu svalů: lineárnı́ sval, který atakuje jednoduchý bod, povlakový
sval, který atakuje několik bodů na přı́mce, a stejně tak eliptický svěrač, který se svı́rá kolem imaginárnı́ho
bodu. Právě model eliptického svalu umožňuje modelovánı́ kruhového svalu kolem úst.
Výše zmı́něné modely využı́vajı́cı́ napětı́ sı́tě a poskytujı́ elegantnı́ řešenı́, avšak pokožková elastičnost je
modelována napětı́m sı́tě a to je stále ještě přı́lišné zjednodušenı́, nebot’se předpokládá model pokožky jako tenký
povrch deformovaný napět’ovými silami. Terzopoulos a Waters (1990) vyšli z práce (Waters, 1987) a vyvinuli
vı́ce detailnějšı́ fyziologický model pro simulaci vlastnostı́ tkáně tváře. Pro simulaci pokožky použı́vajı́ třı́vrstvý
model. Numerická simulace probı́há diferenciálnı́ rovnicı́ druhého řádu. Autoři navı́c použı́vajı́ automatický
proces pro vytvářenı́ modelu. Procedura začı́ná z jednoduché sı́tě aproximujı́cı́ povrch tváře. Uzly a hrany
této sı́tě modelujı́ Epidermis. Z těžiště každého polygonu sı́tě je veden normálový vektor, který je promı́tnut
do povrchu umı́stěného pod Epidermis. Takto je modelována podkožnı́ vrstva. Čtyřboké útvary pak vzniknou
propojenı́m těchto uzlu s trojúhelnı́ky vrstvy tvořı́cı́ Epidermis. Tyto pružné vazby tvořı́ kožnı́ vrstvu. Stejným
způsobem je vytvořena dalšı́ vrstva, která je umı́stěna pod kožnı́ vrstvou, a která tvořı́ podkožnı́ vrstvu. Poslednı́
množina vazeb je vedena z této podkožnı́ vrstvy a je ukotvena na lebečnı́ strukturu. Vzniklá vrstva tvořı́ svalovou
vrstvu. Vlákna svalů jsou automaticky umı́stěna do této poslednı́ vrstvy. Model je složen 960 polygonů, přibližně
6500 pružných vazeb. Nastavenı́ konstant je intuitivnı́ za účelem dosaženı́ dobrých výsledků.
Lee a kol. (1995) použı́vajı́ o něco jednodušı́ návrh než naposledy zmı́něný model. Jejich model pokožky
také utvořen z pěti částı́. Vrchnı́ části: Epidermis, Dermis, podkožnı́ spojovacı́ tkáň a Fascia (pokožka).
Poslednı́ vrstvou je vrstva obsahujı́cı́ svaly. Na obr. 1.8 vidı́me všech pět vrstev. Prvnı́ vrstva je dána vrcholy
1, 2 a 3, které jsou vzájemně spojeny pružnými hranami. Tato vrstva je spojena pružnými vazbami do vrstvy
představujı́cı́ pokožku, vrcholy 4, 5 a 6. Toto spojenı́ definuje kožnı́ tukovou vrstvu. „Fasciálnı́“ vrstva je
10
Kapitola 1. Animace tváře
Obrázek 1.8: a) Detail třı́vrstvého spojenı́. Každý uzel o určité hmostnosti je spojen pružnými vazbami. b) Ukázka
cekového modelu tváře.
spojena s vrstvou představujı́cı́ lebku vazbami svalové vrstvu. Autoři definujı́ diskrétnı́ deformačnı́ model
(DDM) složený z struktury bodu a vazby. Každý bod je dán pozicı́ v 3D prostoru, rychlostı́, zrychlenı́m,
hmotnostı́ a sı́t’ovou sı́lou. Všechny veličiny jsou funkcı́ času. Vazba je dána indexem dvou bodů, které spojuje,
délkou a konstantou tuhosti. Je modelováno 28 základnı́ch svalů. Kontrakce je simulována lineárnı́ a po částech
lineárnı́ sı́lou. Sı́la svalu je distribuována v okolı́ svalu a působı́ na všechny atakované vrcholy Fasciálnı́ vrstvy.
Newtonův zákon pohybu řı́dı́ odezvu tkáně podle diferenciálnı́ rovnicı́ druhého řádu, (1.3). Poloha se počı́tá
z pozice, rychlosti a zrychlenı́:
:mi
d2 xi
dxi
+ i
2
dt
dt
g
q
s
h
f
+ ~i + ~i + ~i + ~ i = ~i
(1.3)
mi hmotnost uzlu,
i koeficient tlumenı́
g~i sı́la pro zachovánı́ objemu,
s~i sı́la pro zabráněnı́ průniku kostı́,
h~ i celková obnovovacı́ sı́la
f~i sı́la vynaložená svalem na tento uzel.
Simulace je numericky vypočı́tána Eulerovou metodou, která umožňuje možnost paralelnı́ho výpočtu. Poloha
každého uzlu závisı́ na poloze v předešlém kroku. Model simuluje tzv. lebečnı́ sı́ly, které zajišt’ujı́, že tkáň
může klouzat po lebce a zabraňujı́ jejı́mu pronikánı́ do lebky. Sı́ly pro uchovánı́ objemu se zase snažı́ udržet
konstantnı́ objem každého elementu modelu tkáně. Hlavnı́ nevýhodou je, že výpočetnı́ složitost může zabránit
rychlé animaci v reálném čase. Dalšı́ nevýhodnou je také to, že parametry určujı́cı́ fyzické vlastnosti tkáně,
např. tloušt’ka vrstev a pružnostnı́ konstanty, jsou předpokládány za konstantnı́ pro celý povrch tváře, což je
samozřejmě zjednodušenı́.
Lucero a Munhall (1999) pro svůj model použili publikovaná anatomická data. Parametrům pro tloušt’ku
vrstevy, hmotnosti uzlů (hustota pokožky), pružnosti stlačovánı́, tlumı́cı́ch koeficientům a svalových sil přiřadili
11
Kapitola 1. Animace tváře
Obrázek 1.9: Rozmı́stěnı́ svalů v modelu (Lucero a Munhall, 1999). a) Sval atakujı́cı́ kost, b) sval Orbicularis oris
atakujı́cı́ pouze podkožnı́ vrstvu.
reálné hodnoty. Pro studium biomechaniky použili měřenı́ pomocı́ elektromyogramu (EMG). Toto měřenı́
sloužilo k řı́zenı́ extrakcı́ svalů. 3D model simulujı́cı́ měkkou tkáň byl také utvořen ze vı́cevrstvé sı́tě. K aktivaci
svalů sloužili zmı́něné EMG signály. Kinematika sı́tě byla porovnána s 3D pohyby pokožky zaznamenaných
OPTOTRAK systémem, viz 2.2.2. Práce je rozšı́řenı́m Terzopolova modelu z roku 1990. Poskytuje model tváře,
který může být užitečný jak pro animaci procesu produkce řeči, tak i pro výzkum.
Nejprve můžeme provést srovnánı́ s výše zmı́něnými modely. V Terzopolově modelu byly biomechanické
parametry vybrány heuristickým návrhem. Ačkoli byly založeny na fyziologii tváře, je s nimi zacházeno jako
s bezměřı́tkovými veličinami. Velikost akcı́ byla vybrána tak, aby generovala realistickou simulaci. Lucero
a Munhall použı́vajı́ reálné hodnoty parametrů zı́skané z experimentálnı́ho měřenı́ a i deformace modelu je
provedena podle fyziologických dat, které modifikujı́ způsob simulace pohybu. V Terzopolově modelu byly
pohyby zı́skány ze sekvence rovnovážných stavů modelu, tj. model byl počı́tán do rovnovážného stavu před
dalšı́m snı́mkem a výsledná animace nekorespondovala s reálnou dynamikou tváře.
Nynı́ si popı́šeme animaci. Počı́tačovou tvář tvořı́ komplexnı́ fyziologický model s oddělenou reprezentacı́
svalů a kůže. Svaly jsou modelovány podle standardu Hill-type formulace, která počı́tá sı́lu svalu z kontrakčnı́ch
elementů (závislost sı́ly na délce svalu a rychlosti). Prvnı́ aproximacı́ svalu je přı́mková svalová akce a standardnı́
kosternı́ svalová fyziologie. S výjimkou Obicular oris superior (OOS) a Orbicularis oris inferior (OOI), majı́
svaly kolem úst ukotvenı́ v lebečnı́ struktuře hornı́ a dolnı́ čelisti. Tyto svaly jsou tedy reprezentovány lineárnı́mi
silovými vektory. Pro kůži a spojenou tkáň použı́vajı́ také jednoduchou aproximaci. Charakteristiky stlačenı́ a
napnutı́ jsou nelineárnı́ a anizotropnı́. Biomechanické vlastnosti kůže jsou modelovány vı́cevrstvou sı́tı́, která je
parametrizována lineárnı́ nebo po částech lineárnı́ estimacı́. Sı́t’tváře je tvarována podle dat z laserového měřenı́,
kde uzly představujı́ hmotu a spojenı́ mezi uzly je modelováno pružinou a tlumičem. Model má standardně tři
vrstvy: vrchnı́ pokožka, Fascia a struktura lebky. Vnitřnı́ vrstva je fixována v 3D, střednı́ vrstva je napojena
na vnitřnı́ s výjimkou oblasti kolem hornı́ho a dolnı́ho rtu a tvářı́. Sı́t’ má jednotnou tloušt’ku s odstupem
1; 5mm mezi vrchnı́ a střednı́ a 2; 5mm mezi střednı́ a vnitřnı́ vrstvou. Všechny uzly majı́ stejnou hmotnost.
S předpokladem střednı́ hustoty kůže 1142kg=m3 dostaneme z hustoty sı́tě 5 uzlů na 1m3 přibližnou hmotnost
uzlu 0; 23g . Všechny modely pružin jsou lineárnı́ s výjimkou pružin kůže–tuk. Tuhost pružiny je 600dyn=m a
12
Kapitola 1. Animace tváře
samotná vnějšı́ vrstva má tuhost 1200dyn=m – tuhost pokožky5 . Tvar modelu tváře spolu s rozmı́stěnı́m svalů
můžeme vidět na obr. 1.9 vlevo. Z několika desı́tek svalů je postihnuto pouze 15 párů, které jsou asociovány
s hornı́mi pohyby tváře a se svaly kolem úst. Až na OOS a OOI všechny atakujı́ jeden nebo vı́ce uzlů střednı́
vrstvy, viz obr. 1.9a). Když je sval aktivován, vynaložı́ sı́lu na tyto uzly ve směru uloženı́ svalu (ze směru vnitřnı́
vrstvy). Svaly kolem úst tj. OO atakujı́ pouze uzly na střednı́ vrstvě vůči sobě ve směru uloženı́ svalu, obr. 1.9b).
Ustálený stav svalu se počı́tá z EMG signálu a také z přı́čného řezu svalu. Průřez svalu je dán pro každý sval
v m2 a autoři navrhujı́ změřenı́ hodnot pomocı́ pitvy. Z literatury je pak přebrána pasivnı́ tuhost svalu. Hodnoty
EMG jsou normalizovány na rozsah 0 1. Podobně jako popisuje Lee, je dynamika tváře počı́tána z diferenciálnı́
rovnice druhého řádu s časovou konstantou 15ms. Rovnice počı́tá polohu uzlů s respektovánı́m tlumı́cı́ch sil
působı́cı́ch na uzel. V úvahu se berou velikosti pružnosti spojek, dále se bere podmı́nka nestlačitelnosti kůže,
stálý objem uspořádaných trojúhelnı́ků a sı́la penalizujı́cı́ průnik střednı́ vrstvy lebkou. Výhodou je, že tato
animace tváře probı́há z již zmı́něných EMG signálů, které byly naměřeny pro 7 svalů (polovina tváře).
Touto detailnı́ simulacı́ dynamiky tváře, tkáně a svalů můžeme docı́lit animace přirozených deformačnı́ch rysů.
Nevýhodou je, že biomechanické vlastnosti tkáně jsou modelovány lineárnı́ aproximacı́ a modelovánı́ probı́há
jen na podmnožině svalů kolem rtů. Otevı́ránı́ čelisti nenı́ měřeno EMG. Porovnánı́ kinematiky nalezneme
v kapitole 4.2.
V práci (Uz a Güdükbay, 1998) nalezneme zjednodušenı́ Watersova svalového modelu s řešenı́m problémů
neuchycenı́ svalů v okolı́ úst. Model se skládá z 888 trojúhelnı́ků, pouze z jedné vrstvy a tvář je rozdělena do
třı́ částı́: hornı́, střednı́ a dolnı́. Autoři modelujı́ 34 svalů, z toho 4 lineárnı́ svaly pro abstraktnı́ modelovánı́
Orbicularis oris. Svěračový sval je aproximován čtyřmi lineárnı́mi svaly spojenými v jednom bodě uprostřed
hypotetického středu. Pro studii mechanických vlastnostı́ kůže a jejı́ho stárnutı́ použı́vá Thalmann a kol. (2002)
simulačnı́ výpočetnı́ model, který zahrnuje vrásněnı́ kůže. Ukázku modelovánı́ vrásek můžeme vidět na obr. 1.10.
Obrázek 1.10: Model pokožky z (Thalmann a kol., 2002): a) mladá pokožka, b) modelovánı́ vrásek.
Kritickým problémem všech reprezentacı́ zůstává otázka, jak zı́skat detailnı́ data k estimaci hodnot parametrů
definujı́cı́ch lokálnı́ vlastnosti tkáně s mnoha stupni volnosti. I samotné měřenı́ EMG signálů pomocı́ elektrod
zapı́chnutých do tváře podél svalů a skutečnost obzvláště spletitého poskládánı́ svalů na tváři se jevı́ z hlediska
animace mluvı́cı́ hlavy spı́še nevhodné. Dalšı́ nevýhody svalových modelů je výpočetnı́ složitost vlastnı́ animace.
Výhody můžeme najı́t spı́še z hlediska studie fyziologie produkce řeči. Z hlediska animace mluvı́cı́ hlavy jsou
tyto simulace často třı́vrstvých modelů zbytečně komplikované a málo flexibilnı́. Dalšı́m neřešeným problémem
je, že např. prosté nafouknutı́ tvářı́ nenı́ možné modelovat těmito navrženými systémy. Hypotetické řešenı́ by
vyžadovalo velmi komplexnı́ fyziologický model hlavy, který bude modelovat naplňovánı́ komor vzduchem
apod. Dalšı́ neřešenou, ale z hlediska řečové produkce důležitou věcı́ je model jazyka a modelovánı́ artikulačnı́ch
kontaktů např. kontakt rtů a zubů.
5
dy n = 10 N
1
5
13
Kapitola 1. Animace tváře
1.2.4 Daty řı́zené návrhy
Daty řı́zené návrhy soustřed’ujı́ méně pozornosti na fyziologické utvořenı́ tváře a stejně jako metody přı́mé
parametrizace se raději pokoušejı́ modelovat deformace přı́mo. Rozdı́l však spočı́vá v přı́stupu zı́skánı́ dat,
kdy přı́má parametrizace se opı́rá o souhrn ručně definovaných klı́čových tvarů a daty řı́zené návrhy prioritně
použı́vajı́ nějakých metod k měřenı́ tvaru tváře. K odvozenı́ parametrizace daty řı́zené návrhy použı́vajı́ často
statistických metod, často nějaká forma PCA „Principal Components Analysis“. PCA je hojně použı́vaná metoda
jak pro analýzu dat, tak i pro jejich kompresi. Základem pro statistické zpracovánı́ jsou data, která se zı́skávajı́
pomocı́ metod popsaných v kapitole 2. Data jsou složena z pozorovánı́ často stovek bodů zvýrazněných na tváři
a pro detailnı́ zpracovánı́ vyžadujı́ velké rozlišenı́. Výsledky analýzy těchto dat jsou pak použity pro animaci
tváře, která je modelována opět sı́tı́ skládajı́cı́ se z vrcholů a polygonů.
Kuratate a kol. (1998) navrhuje animaci tváře, která je jak komunikativnı́ tak i realistická. Animace je
řı́zena relativně malým počtem bodů na povrchu tváře. Animace může být synchronizována přirozeným nebo
syntetizovaným hlasem. V animačnı́m modelu však nejsou zahrnuty zuby, oči ani vlasy. Jsou zaznamenány dva
typy dat: časově proměnlivé a statické. 3D dynamická data byla zaznamenána systémem OPTOTRAK, který
sledoval 18 bodů na 60Hz. Zároveň byla zaznamenána i akustická řeč a při záznamu byla měřena poloha hlavy.
Statická data představovalo 8 tvarů celé hlavy zı́skaných pomocı́ 3D skeneru. Rozlišenı́ bylo 512 512. Body
z OPTOTRAK byly srovnány měřenı́ s daty ze skeneru. Analýza dat byla provedena zúženým výběrem dat ze
skeneru pomocı́ generické sı́tě, která byla narovnána na skenovaná data jednotlivých výrazů. Vnitřnı́ a vnějšı́
kontury rtů definujı́ oblast pro speciálnı́ sı́t’rtů, která je generována pomocı́ kubických spline interpolacı́. Tato sı́t’
je vložena do přizpůsobených generických sı́tı́. Metody PCA je použito ke zmenšenı́ dimenze těchto 8 záznamů,
prvnı́ch 7 komponent je vybráno a prvnı́ch 5 popisuje prostor dat s vı́ce než 99% variacı́. S použitı́m PCA
je spojen lineárnı́ estimátor, kterým jsou generovány sı́tě pro jednotlivé výrazy tváře. Generovánı́ se provádı́
z 18 3 složkového vektoru. V práci (Kuratate a kol., 1999) je dalšı́ rozšı́řenı́. Mapovánı́ aktivity svalů do
pohybů tváře pomocı́ lineárnı́ho auto-regresivnı́ho modelu (AR, závislost na dvou předchozı́ch vzorcı́ch pozice
vektoru tváře). Vstupem je jedna hodnota EMG signálů a AR model generuje těchto 7 PCA komponent.
Obrázek 1.11: Čelnı́ a bočnı́ pohled na maximálnı́ pohyb bodů při promluvě, které jsou pevně spojené s povrchem
tváře.
Elisei a kol. (1997) uvádı́ dalšı́ daty řı́zený model, který je vhodný pro analýzu kódovánı́ a syntézu videorealistické mluvı́cı́ tváře. Návrh se zaměřuje na lineárnı́ modelovánı́ 3D rtů a tváře. Artikulačnı́ model je založen
14
Kapitola 1. Animace tváře
na reálných datech zı́skaných z čelnı́ho a bočnı́ho pohledu. Je využito lineárnı́ analýzy, která probı́hala nad
dvěma sty 3D body na tváři a rtech. Autoři užı́vajı́ specifický model řečnı́ka s ohledem na MPEG-4 (FAP)
parametrizaci. Analýzou dat se redukuje šı́řka přenosového pásma, ale také šum. Animace řečových gest je
vytvářena jako subtilnı́ pohyb malých oblastı́ na tváři, obr. 1.11. Důležitou vlastnostı́ je, že model simuluje přesné
pohyby povrchu tváře. Pro zı́skánı́ dat bylo vynaloženo mnoho manuálnı́ práce. Bylo využito husté stereo a
fotogrammetrie pro 168 barevných korálků přilepených na tváři, obr. 2.2. Na naměřená data je aplikována PCA.
Je proveden výběr vhodných komponent. Vybraných komponent je použito pro lineárnı́ predikci všech ostatnı́ch
bodů.
P = B + M:
(1.4)
Konkrétně bylo vybráno 6 lineárnı́ch komponent s celkovou 90% variancı́. Celá hlava je složena z těchto
měřených bodů a z bodů ze 3D skeneru. Texturovánı́ je provedeno z barevných fotografiı́ řečnı́ka, je použito
několik snı́mků pro jednotlivé vizémy. Hustota sı́tě je vhodně zvolena tak, aby efektivně zachycovala napı́nánı́
rtů, vrásky a tzv. noso-retnı́ rýhu, která se tvořı́ mezi ústy a tvářemi. Návrh umožňuje kódovánı́ do MPEG-4.
Podobná analýza, ale založená na MRI skenovánı́, byla použita v práci (Engwall, 2002a) při výzkumu modelu
jazyka. Vı́ce v kapitole 1.2.6. K daty řı́zeným animacı́m můžeme zařadit i práci (Hong a kol., 2002). Zde je
prezentována animace 3D tváře pomocı́ neuronové sı́tě. Animace je výsledkem lineárnı́ kombinace tzv. pohybových jednotek (MU). Kolekce dat je složena ze záznamu prostorového pohybu 153 značek umı́stěných na tváři.
Z rozmı́stěnı́ těchto značek je postaven animačnı́ model, který je i zde postaven jako polygonálnı́ sı́t’. Analýza
dat je provedena pomocı́ PCA s výsledkem: 7 komponent a 93% variance. Natrénovaná neuronová sı́t’převádı́
PCA komponenty na parametry tváře.
1.2.5 Řečově orientované animace
Řečově orientované animace pohlı́žejı́ na animaci tváře z hlediska animace řečové produkce vhodné pro
odezı́ránı́. Takovéto systémy jsou oprávněně nazývány „mluvı́cı́ hlava“ a někdy také jako systémy vizuálnı́
syntézy řeči. Animačnı́ proces je podřı́zen jedinému cı́li a tı́m je správná artikulace. Správná artikulace předevšı́m souhlásek je dána přesnou definicı́ artikulačnı́ch mı́st6 a i milimetrová odchylka od artikulačnı́ho mı́sta
může rušivě působit na vnı́mánı́ řeči či způsobovat úplnou nesrozumitelnost. Do řečově orientovaných systémů můžeme zařadit práci Thalmanové (Magnenat-Thalmann a kol., 1988), která je dnes vedoucı́ pracovnicı́
laboratoře MiraLab. Právě tato laboratoř je jednou z vedoucı́ch světových pracovišt’ zabývajı́cı́ch se animacı́
člověka. Tuto práci jsme zařadili do řečově orientovaných animacı́ proto, že řı́zenı́ animace tváře bylo poprvé
zaměřené na synchronizovanou řeč. Animace je založena na konceptu označeném jako „Abstract Muscle Action
Procedure“, dále jen AMA procedura. AMA procedura simuluje specifické akce svalů tváře. Autoři popisujı́
animaci syntetické tváře herců a to na třech úrovnı́ch: prvnı́ úroveň tvořı́ zmı́něná AMA procedura, dalšı́ pak
výrazy a skripty. Praktickou aplikacı́ byla animace filmových herců, vı́ce v kapitole 5. AMA procedury stojı́
mezi jednoduchou parametrizacı́ a obecným svalovým návrhem a pobı́rajı́ výhody obou návrhů. AMA pracujı́
na specifické oblasti lidské tváře, která musı́ být definována, když je tvář konstruována. AMA jsou na sobě
závislé, a proto je pořadı́ akcı́ procedur velmi důležité. Důraz je kladen přednostně na věrnost pohybů rtů za
účelem přiblı́ženı́ se k reálným pohybům. Každá AMA definuje určitý jednoduchý pohyb. Pohyby jsou popsány
následovně:
6
Otevřenı́ úst (čelist) - složeno ze série malých následných pohybů řı́zených parametry této AMA.
Uzavřenı́ dolnı́ho a hornı́ho rtu - pohybovánı́ vertikálnı́m směrem ke středu úst. Střed je určen z výšky
koutků. Každým rtem může být nezávisle pohybováno. Pro aproximaci pohybu ostatnı́ch vrcholů rtů je
použito křivek, které jsou určeny třemi body: levý a pravý koutek a střed.
Artikulačnı́ mı́sto si můžeme představit jako např. správné umı́stěnı́ dolnı́ho rtu pod hornı́ řadu zubů při vyslovovánı́ frikativ.
15
Kapitola 1. Animace tváře
Levé a pravé zvednutı́ rtu - zvedánı́ hornı́ho rtu. Následkem je odkrytı́ hornı́ řady zubů, které je pozorováno
např. při úsměvu nebo při artikulaci hlásky /f/ a /v/.
Stlačenı́ rtů - modelovánı́ Orbicularis oris, svalu kolem úst, např. pohyb při vyslovovánı́ /m/.
Vyšpulenı́ úst (zobák) - tato AMA vysouvá rty směrem ven např. pohyb na polibek.
Vertikálnı́ taženı́ koutků (sval Zygomatic).
Taženı́ koutků (Risirius) spı́še horizontálnı́m směrem.
AMA procedury tvořı́ základ, nad kterým je postavena úroveň výrazů tváře. Úroveň výrazů manipuluje s tvářı́
pomocı́ AMA procedur, kombinacı́ AMA se vytvářı́ vı́ce komplexnějšı́ entity korespondujı́cı́ s AU. Určitý
výraz tváře je dán skupinou hodnot AMA, které transformujı́ tvář z neutrálnı́ polohy do fonémového nebo
emocionálnı́ho výrazu. Jelikož byly výrazy tváře pro každého herce jiné, definovaly se zvlášt’ pro každou
tvář. V této práci jsou vizémy realizovány kombinacı́ několika pohybů úst, které korespondujı́ promlouvanému
zvuku. Pro film bylo definováno 28 základnı́ch fonémových tvarů. Jazyk tehdy nebyl uvažován. Byly definovány
základnı́ emoce: pláč, úsměv, smı́ch a polibek. Ve vytvářenı́ animace nejvýše stojı́ tzv. skriptovacı́ úroveň.
Skriptem je zde myšlena kolekce drah (tras). Trasa je utvořena z chronologické sekvence klı́čových snı́mků.
Pro každou AMA je definována jedna trasa. Na každé trase je procentuálně určeno kolik z hodnoty klı́čového
snı́mku se bude v daném čase brát. Chronologické rozmı́stěnı́ srovnává animaci se zvukem. Výsledná animace
je vykonávána interpolacı́ pomocı́ spline funkcı́. Tvar lidské tváře může být v této animačnı́ technice vytvořen
pomocı́ 3D digitalizace, ručně nebo 3D rekonstrukcı́. Předpokládá se symetrický model a implementace je
v HUMAN FACTORY systému.
Dalšı́ animačnı́ model v MiraLab vyvı́jel Kalra. Kalra a kol. (1992) popisuje animaci tváře založenou na
technikách „volno-formové deformace“, dále jen FFD, kterou zde označil jako racionálnı́ FFD. FFD umožňuje
deformovat povrch primitiv pomocı́ mapovánı́ z R3 do R3 . K animaci tváře předpokládá autor tvář rozdělenou
na oblasti, které odpovı́dajı́ anatomickým oblastem svalů. Každá oblast má své parametrické řı́zenı́ pomocı́
řı́dı́cı́ch bodů tvořı́cı́ch řı́dı́cı́ jednotku. Deformace reálné tváře způsobené podpovrchovou strukturou jsou zde
simulovány posouvánı́m těchto řı́dı́cı́ch bodů a změnami vah. Oblast tváře uvnitř nějaké řı́dı́cı́ jednotky je
deformována jako poddajný objem.
Beskow (1997), KTH Stockholm, vyvinul animačnı́ model pro animaci mluvı́cı́ho agenta. Zde je použito
deformačnı́ schéma simulujı́cı́ pohyb a pnutı́ povrchu pokožky. Tvář je opět pod kontrolou parametrů, ručně se
vybı́rajı́ pozice bodů na povrchu tváře a k nim i artikulačnı́ mı́sta, do kterých se budou tyto body deformovat.
Vlastnı́ deformace je provedena pomocı́ několika tzv. deformátorů. Celá tvář je parametrizována pomocı́
několika deformátorů, z nichž každý působı́ na podmnožinu uzlů sı́tě a aplikuje na ni definovanou transformaci.
Akce a vlastnosti deformátoru jsou:
aktivačnı́ faktor – bez měřı́tka, hodnota je mezi 0 a 1 a určuje stupeň deformace,
typ transformace – rotace, změna měřı́tka, translace nebo taženı́,
definice oblasti vlivu– seznam vrcholů a vah, které budou pod vlivem tohoto deformátoru,
cı́lový bod deformace – maximálnı́ pozice kam se dostane prototypový bod,
prototypový bod – bod obvykle uprostřed oblasti vlivu, je transformován směrem k cı́lovému bodu,
středový bod – bod ke kterému je počı́tána rotace či změna měřı́tka (záležı́ na typu transformace).
Deformace je řı́zena aktivačnı́m faktorem, který udává mı́ru transformace prototypového bodu. Nulová hodnota
reprezentuje žádnou transformaci a hodnota jedna značı́, že má být dosažen cı́lový bod deformace. Daný typ
transformace je aplikován i na všechny uzly v oblasti vlivu s respektovánı́m jejich vah.
16
Kapitola 1. Animace tváře
Na stejném pracovišti je vyvı́jen ještě jeden animačnı́ model. Kshirsagar a kol. (2000) navrhuje deformaci
sı́tě založenou také na výrazových bodech a respektujı́cı́ MPEG-4 parametrizaci. Primárnı́m hlediskem zde byla
rychlost, robustnost a aplikovatelnost pro animaci libovolných objektů definovaných sı́tı́ a výrazovými body.
Autorka zde uvádı́, že je potřeba mı́t znalosti o animovaném objektu (geometrie a struktura objektu), a že je
jak pro reálnou tvář tak, pro animovanou karikaturu obtı́žné definovat svaly a měkkou tkáň, které jsou velmi
závisejı́cı́ na specifické charakteristice tváře. Základ modelu je sı́t’s předdefinovanými řı́dı́cı́mi body na povrchu.
Oblasti ovlivněnı́ pro každý řı́dı́cı́ bod se počı́tá Voronoiovým povrchovým diagramem, (Aurenhammer, 1991).
Sı́t’je tak rozdělená do oblastı́. Na jeden bod sı́tě může působit vı́ce řı́dı́cı́ch bodů. Algoritmus pracuje ve dvou
krocı́ch. Inicializačnı́ krok, kdy jsou extrahovány:
1. odstup mezi tı́mto vrcholem a řı́dı́cı́mi body,
2. odstup mezi obyčejnými body a nejbližšı́m výrazovým bodem,
3. relativnı́ rozprostřenı́ výrazových bodů kolem daného vrcholu
Obrázek 1.12: Schéma výpočtu parametrů, které popisujı́ stupeň ovlivněnı́ nevýrazového bodu P třemi výrazovými
body F P1 , F P2 a F P3
a jsou nastaveny váhy pro všechny vrcholy. Vzdálenost dvou vrcholů je spočtena jako součet délek všech hran
na přechodu z jednoho do druhého. Posunutı́ všech vrcholů je v reálném čase počı́táno z posunutı́ řı́dı́cı́ch
vrcholů. Inicializace sı́tě rozděluje sı́t tak, že se provede průchod z každého řı́dı́cı́ho vrcholu vždy o jeden krok
všemi směry. Zpracovánı́m celé sı́tě dostaneme hranice mezi oblastmi a zároveň známe všechny sousednı́ řı́dı́cı́
body k danému řı́dı́cı́mu bodu a také jejich povrchovou vzdálenost. Pro nějaký vrchol zjistı́me do jaké oblasti
spadá a zjistı́me i jeho sousednı́ řı́dı́cı́ body. Vyberou se jen dva sousedı́cı́ body, obr. 1.13, které svı́rajı́ nejmenšı́
úhel. Tyto úhly a povrchové vzdálenosti se použijı́ pro výpočet váhy pro tento daný vrchol. Může nastat situace,
kdy existuje jen jeden sousednı́ vrchol. Tato váha udává ovlivněnı́ při konečné animaci. Druhým krokem je
deformace sı́tě, která probı́há v reálném čase. Animace pouze přepočı́tává posunutı́ DP jako vážený průměr ze
všech posunutı́ch řı́dı́cı́ch bodů majı́cı́ch vliv na tento bod.
PN
DP
i=0
=
PN
Wi;P Di
d2i;P
Wi;P
i=0 d2
i;P
;
(1.5)
kde Di je posunutı́ řı́dı́cı́ho bodu, Wi;P váha spojená s bodem i a vztažená k řı́dı́cı́mu bodu P a di;P je povrchová vzdálenost bodu P od řı́dı́cı́ho bodu. Navržený algoritmus je vhodný pro standard MPEG-4. Zobrazenı́
1257 vrcholů probı́halo na 600MHz PC s 70fps. Výsledkem je tedy rychlá animace hlavy.
17
Kapitola 1. Animace tváře
Můžeme najı́t dalšı́ animace respektujı́cı́ definice MPEG-4: (Dalong a kol., 2002; Escher a kol., 1999).
Speciálnı́ částı́ animace podle MPEG-4 je také vlastnı́ tvorba sı́t’ového modelu, o které se detailněji zmı́nı́me
v kapitole 2.1. Animace použı́vajı́ tzv. nı́zko-úrovňové parametry. Generovánı́ výrazu tváře pomocı́ deformace
sı́tě podle hodnoty nějakého parametru je provedena posunem vrcholů sı́tě po trajektorii. Trajektorie parametru
je po částech lineárně aproximována. Parametr je ztotožněn s jednı́m vrcholem sı́tě, transformace sı́tě je pak
provedena posunutı́m všech vrcholů, které ležı́ v oblasti vlivu. Definice deformacı́ bývá závislá na použitém
modelu specifické osoby.
Pelachaud a kol. (2001) vyvı́jı́ italsky mluvı́cı́ hlavu primárně určenou k odezı́ránı́ ze rtů. 3D model
tváře založený na MPEG-4 standardu. Animačnı́ model použı́vá pseudo-svalový návrh, kde kontrakce svalů
jsou simulovány pomocı́ deformacı́ polygonálnı́ sı́tě okolo řı́dı́cı́ch bodů. Model tváře je rozdělen do regionů
definovaných kolem každého řı́dı́cı́ho bodu (nějaká část povrchu tváře). Tyto regiony korespondujı́ s kontrakcı́
svalu na pokožku. Nějaké body uvnitř regionu mohou být ovlivňovány několika FAP, ale mohou reagovat
odlišně, jeden FAP může mı́t většı́ ovlivněnı́. Zóna ovlivněnı́ má elipsovitý tvar, kde ve středu je řı́dı́cı́ bod.
Všechny body uvnitř zóny jsou pod kontrolou deformačnı́ funkce (funkčnı́ závislost na vzdálenosti). Posunutı́
nějakého bodu v této zóně závisı́ na regionu (část pokožky), ke kterému náležı́ a na ovlivněnı́ regionu. Intenzita
přı́slušného řı́dı́cı́ho parametru je vážena dvěma deformačnı́my funkcemi. Prvnı́ deformačnı́ funkce je dána
závislostı́ na vzdálenosti od řı́dı́cı́ho vrcholu a hodnota této funkce mimo elipsoid je nulová tj. ovlivňujı́ se
jen vrcholy patřı́cı́ pod daný animačnı́ parametr. Druhá funkce vážı́ vzájemný vliv každého parametru, nulová
hodnota pak značı́ žádný vliv. Model umožňuje animovat také vrásky a brázdy na pokožce. Boule a brázdy jsou
modelovány pomocı́ speciálnı́ funkce posunutı́.
Obrázek 1.13: Definice deformačnı́ch oblastı́ pro italskou mluvı́cı́ hlavu. a) Jednotlivé regiony tváře, b) řı́dı́cı́ body a
jejich oblast ovlivňovánı́, c) funkčnı́ závislost hodnoty váhy na vzdálenosti od řı́dı́cı́ho bodu a d) ukázka modelované
deformace.
Řečově orientovanou animaci avšak použı́vajı́cı́ třı́vrstvý model tváře nalezneme v práci (Sams a kol., 2000).
Zde je pro finsky mluvı́cı́ hlavu použit model skládajı́cı́ se přibližně z 1000 vrcholů a 1500 polygonů a je použit
lineárnı́ model svalů z (Terzopoulos a Waters, 1990). Vlastnı́ animace je výpočetně velmi náročná. Potomka
Parkeova modelu najdeme i v (Olives a kol., 1999), dalšı́ animace jsou v (Fagel a Clemens, 2003; Frydrych
a kol., 2003). Krňoul a Železný (2004) popsali řečově orientovanou animaci pomocı́ deformace sı́tě založené
na spline funkcı́ch. Většina řečově orientovaných animacı́ vznikla z důvodů potřeby animace řeči jednoduchou
cestou bez většı́ch ohledů na fyziologické a anatomické znalosti. Hlavnı́m záměrem je řádná animace vizuálnı́
řeči použitelná pro odezı́ránı́. Podobné rozdělenı́ a popis modelů animace tváře můžeme nalézt také v (Bailly,
2002) nebo v (Beskow, 2003).
18
Kapitola 1. Animace tváře
1.2.6 Detailnı́ animace úst
Nejvı́ce přı́nosnou oblastı́ tváře z hlediska řečové produkce je oblast kolem rtů. Proto existuje celá řada pracı́
zaměřených na detailnı́ modelovánı́ rtů. Každý model určený pro realistickou animaci řeči však také vyžaduje
nějaký model jazyka. Obecně platı́, že některé souhlásky jsou často spojené s čistě viditelným pohybem jazyka.
Viditelnost jazyka má důležitou roli při odezı́ránı́. Jestliže je animačnı́ model užı́ván pro trénovánı́ řeči, pak
realistický jazyk umožňuje plnou artikulačnı́ registraci. Uděláme-li viditelnou animaci pomocı́ transparentnı́
kůže nebo vynechánı́m částı́ tváře, pak pravděpodobně pohyb jazyka může mı́t i cennou pedagogickou hodnotou.
V oblasti artikulačnı́ syntézy jsou modely jazyka vyvı́jeny v 2D i v 3D prostoru.
Požadavky modelu jazyka pro vizuálnı́ syntézu jsou dosti odlišné od modelů jazyka či hlasového traktu
použı́vaných v akustických syntézách. Zatı́mco popisované deformace pro vizuálnı́ syntézu musı́ poskytnout
dobrou aproximaci geometrie hlasového traktu, akustické modely neposkytujı́ vizuálně interpretovatelné zobrazenı́. V tzv. trubkových akustických modelech je hlasový trakt modelován pouze jako povrch ohraničujı́cı́
kanál vzduchu, který je postačujı́cı́ pro generovánı́ zvuku, ale méně dobrý pro vizuálnı́ prezentaci. Naproti tomu
modely jazyka pro vizuálnı́ syntézu jsou typicky méně anatomicky vypracované, často omezené na poskytnutı́
pohledu zvenčı́ skrz otevřená ústa. Z vnějšı́ho pohledu je nejlépe viditelná špička jazyka a snadno registrovatelný pohyb. Cohen a Massaro (1993) v roce 1993 modelovali jazyk pouze jako neohebný objekt, který mohl
být rotován, posouván a mohl měnit měřı́tko. Simulace pohybu byla jen kolem špičky jazyka.
Komplexnı́ přehled o modelovánı́ a animaci hlasového traktu můžeme najı́t v (Engwall, 2002b). Jde o postupný vývoj modelu od jednoduššı́ho až po plně komplexnı́. Nejprve Engwall (1999) prezentuje model hlasového traktu jako součást artikulačnı́ho modelu vyvı́jeného na KTH. V této práci jsou stěny hlasové a nosnı́
dutiny, rty, zuby a jazyk parametrizovaným polygonálnı́m povrchem. Model je vhodný pro artikulačnı́ syntézu i
pro trénovánı́ výslovnosti. Engwall uvažuje model jen v sagitálnı́ (předozadnı́) rovině. 3D model je symetrický
podle této roviny. Celý model je složen z polygonů (jeden polygon tvořı́ 3 nebo 4 vrcholy). Model jazyka je
postaven na 3D datech z kolekce ultrazvukového záznamu a záznamu „elektropalatografu“, viz kapitola 2. Tato
data určujı́ tvar i pohyb s ohledem na správná mı́sta artikulace. Laterálnı́ (postranı́) změny nejsou v této práci
adekvátně modelovány, ale neuvažuje se zatı́m podmı́nka konstantnı́ho objemu. Každá deformace je dána vzorovým vrcholem, cı́lovým vrcholem a množinou váhových koeficientů pro všechny ostatnı́ atakované vrcholy.
Dodatečně je přidán vrchol pro rotaci. Přesnějšı́ model prezentuje autor v (Engwall, 2000). Zde je kompletnı́ 3D
model zı́skaný z měřenı́ magnetickou rezonancı́ (MRI) a statistického zpracovánı́ pomocı́ PCA. Model můžeme
vidět na obr. 1.20. Podobný postup založený na měřenı́ MRI nalezneme v dalšı́ch pracı́ch. Badin a kol. (1998)
prezentujı́ 3D lineárnı́ model, pro který mı́sto dřı́vějšı́ho měřenı́ radio-filmem použili magnetickou rezonanci.
Model je použit jako přı́spěvek AV syntézy na univerzitě v Grenoblu ve Francii (ICP). Rozšı́řený model jazyka
z práce (Beautemps a kol., 1996) doplněný o model rtů z (Revéret a Benoı̂t, 1998) najdeme v (Badin a kol.,
2002). Badin a kol. navrhujı́ obecné řešenı́ animace oblasti úst. Data jsou zpracována statistickou analýzou.
Animace probı́há lineárnı́ kombinacı́ základnı́ch tvarů, které jsou definovány jako polygonálnı́ sı́tě.
Dále si popı́šeme 3D model rtů pro realistickou animaci řeči. Guiard-Marigny a kol. (1996) poprvé navrhuje
3D model rtů, který byl později hojně použı́vaný na ICP. Rysy rtů člověka jsou charakterizovány hraničnı́mi
konturami, které jsou člověkem vnı́mány jako přechod z červené či růžové barvy pigmentu. Model je modifikacı́
dřı́vějšı́ho 2D modelu rtů zı́skaného pouze z čelnı́ho pohledu. Animačnı́ model je symetrický a popsaný
jednoduchými rovnicemi. Pozornost je věnována na snadné měřenı́ hodnot parametrů přı́mo z tváře a na
minimálnı́ počet těchto parametrů. Z modelu je odvozena i objemová reprezentace, obr. 1.14, pro detekci
sevřenı́ rtů.
Revéret a Benoı̂t (1998) navrhujı́ detailnı́ 3D model rtů, který je také vhodný pro animaci produkce řeči.
Animačnı́ model vycházı́ z výše zmı́něného modelu, který nebyl vhodný k adaptaci na jiného řečnı́ka. Zde je
model řı́zen 30 parametry a můžeme ho vidět na obr. 1.15a). Jde o 3D povrch vhodný pro animaci pokožky
rtů. Povrch je definován kubickými spline funkcemi, které tvořı́ základnı́ kontury rtů. Jedna funkce pro vnitřnı́
konturu, jedna funkce pro vnějšı́ konturu a jedna funkce definována mezi těmito dvěmi konturami. 10 řı́dı́cı́ch
19
Kapitola 1. Animace tváře
Obrázek 1.14: 3D model rtů definovaný pomocı́ kontur rtů, (Guiard-Marigny a kol., 1996)
bodů pro každou funkci a každý řı́dı́cı́ bod je geometricky lokalizovatelný na povrchu tváře. Animace probı́há
z výsledků analýzy provedené na naměřených datech ze dvou kalibrovaných pohledů. Na tomto základě byl
později postaven model mluvı́cı́ hlavy zvané „Mother“, (Revéret a kol., 2000) ICP Grenoble, obr. 1.15b).
Artikulačnı́ model popisuje rty, tváře a čelist. Jazyk zde zatı́m nenı́ vložen. Na model je aplikována textura.
Model tvořı́ 144 čtyřúhelnı́ků pro animaci rtů a na ně navazuje 39 trojúhelnı́ků pokrývajı́cı́ch tváře a bradu.
Pro detailnı́ animaci je použito metod mı́chánı́ obrázků z 5 zaznamenaných extrémnı́ch pozic tváře a takto je
dosaženo preciznı́ animace např. i noso-retnı́ brázdy. Animaci doplňuje pevný model čelisti, který je při animaci
rotován.
Obrázek 1.15: a) Model rtů řı́zený třemi spline funkcemi, (Revéret a kol., 2000). b) Částečný model tváře a model
čelisti u mluvı́cı́ hlavy „Mother“
Pelachaud a van Overveld (1994) popisujı́ artikulaci modelu jazyka založeného na geometrickém a kinematickém modelu. 3D model je také složen z vrcholů formujı́cı́ch sı́t’. Animace je založena na technikách
deformacı́ měkkých objektů. Celkem jednoduchý model jazyka je složen z 9 trojúhelnı́ků a deformace jsou pod
kontrolou pomyslné kostry, obr. 1.16 vlevo. Model je animován s ohledem na fyziologické složenı́ jazyka, je
složen ze svalů, tuku a tkáně. Kontrakcı́ podélných a přı́čných svalů se určuje směr deformace. Jazyk je tı́mto
napı́nán, kroucen a skláněn. Model umožňuje asymetrickou animaci (vzhledem k sagitálnı́ rovině), ale zároveň
se snažı́ dodržet co nejmenšı́ počet stupňů volnosti. Model tvořı́ 3 segmenty v sagitálnı́ rovině a 3 segmenty
v koronálnı́ rovině. Deformace segmentu je dána délkou hran a úhlem, který svı́rajı́. Každá modifikace těchto
hodnot reprezentuje nový tvar. Pomocı́ rotace v sagitálnı́ rovině se docı́lı́ ohýbánı́ či rolovánı́ a pomocı́ rotace
v koronálnı́ rovině dostaneme tzv. „U“ tvar jazyka. Pomocı́ délky hran se docı́lı́ stlačovánı́ či natahovánı́, zužovánı́ či zplošt’ovánı́. Všechny zmı́něné transformace jsou analyticky popsány pomocı́ rovnic. Výsledný model
jazyka můžeme vidět na obr. 1.16 vpravo.
Beskow (1995) popisuje vytvořenı́ jednoduchého modelu jazyka pro artikulaci jen v okolı́ špičky. Jazyk byl
vytvořen jako doplněnı́ Parkeova modelu a byl použit i v pozdějšı́ modelech (Beskow, 1997). Deformačnı́ sı́t’
zahrnuje pouze 64 polygonů a řı́dı́cı́ parametry modelu jsou zdviženı́ špičky a délka jazyka. Sı́t’je deformována
podle vertikálnı́ pozice špičky jazyka, horizontálnı́ho posunutı́ těla jazyka a velikosti jazyka s ohledem na
20
Kapitola 1. Animace tváře
Obrázek 1.16: a) Rozdělenı́ modelu jazyka na oblasti a parametrizace vrcholů, pohled zhora. b) Bočnı́ pohled na
kostru, model tvrdého patra a hornı́ řady zubů a c) bočnı́ pohled na model jazyka. d) Výsledné zobrazenı́ jazyka
při různých deformacı́ch.
správná mı́sta artikulace. V článku (Cohen a kol., 1998) je použit vı́ce propracovaný model jazyka s cı́lem
realističtějšı́ho modelovánı́ artikulace celého jazyka pro vizuálnı́ syntézu. Známý model „Baldi“ z PCL, je zde
doplněn o model jazyka. Mı́sto ručnı́ho laděnı́ tvaru jazyka zde autoři použı́vajı́ pro definici a chovánı́ jazyka
měřená data. Data jsou zpracována použitı́m minimalizačnı́ procedury. Model se skládá z mnohoúhelnı́kové
sı́tě definované čtyřmi b-spline křivkami. Jedna křivka řı́dı́ sagitálnı́ konturu (obrys) a tři řı́dı́ koronálnı́ přı́čné
řezy: čelnı́, střednı́ a zadnı́. Tvar křivek je určen 30 parametry (9 pro předozadnı́ křivku a 7 pro každou křivku
řezu), poskytujı́cı́ velmi poddajný model. Model také poskytuje transparentnı́ pohled do ústnı́ dutiny, je však
spekulacı́, zda tento neanatomický jev je vhodný pro pedagogické účely.
Obrázek 1.17: Vlevo: modelovánı́ sagitálnı́ kontury jazyka pomocı́ B-spline funkce. Uprostřed: model tvrdého
patra a zubů. Vpravo: výsledná animace ústnı́ dutiny, kterou nalezneme v modelu „Baldi“
1.2.7 Fyziologické podmı́nky
K zajištěnı́ realističnosti 3D mluvı́cı́ hlavy během animace je podstatné uvažovat fyziologické podmı́nky,
které určujı́ neproniknutelnost jednotlivých částı́ tváře. Např. na obr. 1.17 uprostřed je vidět model jazyka a
model tvrdého patra. Určitá kombinace hodnot parametrů může mı́t za následek, že animačnı́ model vytvořı́
fyziologicky nerealizovatelné tvary. Typickým přı́kladem takového špatně chovajı́cı́ho se modelu je vzájemné
protı́nánı́ jazyka, zubů a rtů. I fyziologicky založené animace z odstavce 1.2.3 trpı́ těmito problémy. Částečné
21
Kapitola 1. Animace tváře
zohledněnı́ můžeme najı́t v práci (Lee a kol., 1995), kde se pomocı́ pružných vazeb mezi tkánı́ a povrchem
modelujı́cı́m lebečnı́ strukturu zabraňuje pronikánı́ pokožky lebkou. Pro svalovou akci, která by v jiných
modelech porušila podmı́nku, je model pokožky raději posouván po povrchu lebky. Intuitivně je zde naznačeno,
že fyziologické podmı́nky lze podchytit při návrhu animačnı́ho procesu. Jiný postup, jak se vyhnout generovánı́
nepřirozených gest, je použı́ván u řečově orientovaných animacı́. Provede se definice zakázaných kombinacı́
hodnot parametrů a vymezı́ se prostor parametrů pomocı́ definice artikulačnı́ch mı́st. Tyto pozice zaručujı́
správnou řečovou produkci. Artikulačnı́mi mı́sty nenı́ myšleno nic jiného, než určenı́ hodnoty extrémnı́ pozice
parametrů řı́dı́cı́ch dané artikulačnı́ orgány a zabráněnı́ tak vzájemným průnikům. Většı́ pozornost však musı́
být věnována samotné parametrizaci, kapitola 1.2.8. Avšak i v takto podmı́něné animaci mohou nastat koliznı́
situace. V daty řı́zených animacı́ch se implicitně těmto problémům logicky vyhneme záznamem a použitı́m
reálných a tedy fyziologicky možných dat. Model je v tomto přı́padě méně citlivý na zvolenou parametrizaci a
sám se naučı́ tyto podmı́nky plnit.
Modelovánı́ kontaktu jazyka s patrem
Při modelovánı́ kontaktu jazyk-hornı́ patro se uvažuje interakce mezi dvěmi strukturami: jazyk a patro. Jazyk
je při animaci cı́leně deformován a tlačen proti patru. Detekce kolize u struktur vytvořených jako polygonová
sı́t’ je obecně výpočetně velmi náročná. Je-li detekována kolize, je potřeba ještě algoritmů, které tyto kolize
z animace odstranı́. U fyziologicky založených modelů toto často vede na iterativnı́ řešenı́.
Pelachaud a van Overveld (1994) použili k detekci kontaktu jazyka s patrem geometrické podmı́nky.
Algoritmus detekuje průnik jazyka s hornı́m patrem a hornı́ řadou zubů. Tzv. virtuálnı́ patro je modelováno
jako polokoule a hornı́ řada zubů jako vějı́ř, který je tvořen částmi rovin na okraji této polokoule, obr. 1.16b).
Záruka, že nedošlo k průniku jazyka je zaručena tak, že skeleton, který tvořı́ jazyk, je uvnitř polokoule. Je-li
detekován průnik skeletonu polokoulı́, pak je korigován průnik vlastnı́ho měkkého objektu jazyka se skutečným
modelem patra. Jednou možnostı́ by bylo vrácenı́ všech vrcholů modelu jazyka, které způsobily průnik, zpět na
úroveň virtuálnı́ho patra. Toto by však způsobovalo nepřirozenou změnu tvaru jazyka a nedodrženı́ konstantnı́ho
objemu. Existuje lepšı́ řešenı́. Tı́m je zpětný přepočet úhlů rotacı́ a hodnot posuvů tak, aby podmı́nka průniku byla
splněna. Cohen a kol. (1998) vyvinuli pro zlepšenı́ artikulace jazyka rychlý algoritmus k zabráněnı́ nežádoucı́ho
pronikánı́ jazyka s hornı́m patrem. Během předzpracovánı́ je konstruována pravidelná sı́t’. Tato sı́t’reprezentuje
povrch hornı́ části ústnı́ dutiny. Body sı́tě jsou umı́stěny v pravidelných intervalech ve sférickém souřadnicovém
systému s centrem v ústnı́ dutině. Vrcholy sı́tě jazyka jsou transformovány do tohoto souřadného systému a
pak je provedena detekce, zda vrcholy jsou správně umı́stěny. Korekce je jednoduše provedena nastavenı́m
radiálnı́ch komponent transformovaných vrcholů tak, že se posunou na povrch sı́tě modelu patra. Výsledkem
je, že aktuálnı́ deformace koná stlačenı́ jazyka proti patru s vizuálně uspokojujı́cı́m výsledkem i uspokojivou
rychlostı́ animace, která může být prováděna v reálném čase.
Zachovánı́ objemu
Zachovánı́ objemu jazyka je dalšı́ fyziologickou podmı́nkou. Dodrženı́ této podmı́nky obzvlášt’při animaci
v reálné čase je velmi obtı́žné. Často je vyžadováno minimalizačnı́ch algoritmů, které iterativně přizpůsobujı́
ke změně hodnoty jednoho parametru hodnoty ostatnı́ch parametrů. Výsledek iteracı́ však nesmı́ skončit v nereálném tvaru jazyka. V práci (Beskow a kol., 2003) je použit Engwallův model jazyka. Pro každý parametr je
definován interval hodnot, který zajišt’uje dobrou aproximaci pohybu. Hodnoty mimo tento interval způsobujı́
neanatomický tvar. Objem jazyka je počı́tán podle (1.6). Z P trojúhelnı́ků a jejich vrcholů vi tvořı́cı́ model
jazyka je vypočı́tán referenčnı́ objem Vref .v0 je vrchol v mı́stě kořene jazyka. Chyba způsobená změnou objemu
V (y) je počı́tána pomocı́ evol .
Vref
=
1
6
X
2
i P
vi3 vi1 ) (vi2 vi1 )v0
(
22
(1.6)
Kapitola 1. Animace tváře
evol (y) = jV (y) Vref j
(1.7)
1.2.8 Parametrizace
Jednou z důležitých otázek, která musı́ být zodpovězena, když navrhujeme mluvı́cı́ hlavu, je výběr parametrizace. Parke a Waters vyjmenovali několik faktorů pro zvolenı́ výběru a vývoj řı́dı́cı́ parametrizace tváře.
Faktory jsou řı́dı́cı́ rozsah (jsou všechny výrazy možné?), složitost, počet parametrů a intuitivnost. Parke (1982)
vyvinul množinu účelně vybraných parametrů založených na pozorovánı́ s ohledem na strukturu tváře. Rozdělil
parametry na dvě skupiny: výrazové a přizpůsobivé.
Výrazové parametry Parametry jsou zaměřené předevšı́m na oblast očı́ a úst. U očı́ jde o parametry
roztaženı́ zornice, otevřenı́ vı́ček, pozice a tvar obočı́, směr pohledu očı́. V oblasti úst Parke navrhl
parametr pro rotaci čelisti, která řı́dı́ otevřenı́ úst, šı́řka úst, výraz úst jako úsměv nebo zamračenı́, pozice
hornı́ho rtu a pozice koutků. Dalšı́m užitečným parametrem je velikost nosnı́ch dı́rek (vliv dýchánı́),
orientace hlavy s ohledem na pozici krku a těla. Přibližně s 15 takovými parametry je možná animace
tváře i animace řeči.
Přizpůsobivé parametry Jelikož pro každou osobu je tvář tvarově specifická, znamenalo by, že každá
tvář by musela mı́t odlišnou sadu parametrů. Proto navrhl Parke přizpůsobivé parametry jako je barva
pokožky, poměr výšky a šı́řky tváře, parametr transformace, který modeluje růst tváře. Dále jde o barvu
obočı́, očnı́ch řas, duhovky, rtů atd. Dalšı́mi přizpůsobivými parametry je informace o velikosti a tvaru
hlavy: tvar a velikost krku, tvar brady, tvářı́ a čela, vzdálenost očı́, velikost očı́, vı́ček a zornic. Dalšı́m
parametrem může být šı́řka čelisti, délka nosu, velikost úst atd.
Obrázek Parkeovo animace tváře byl vytvářen podle specifikovaných hodnot parametrů. Vhodnost je jak ve
2D (dobré výsledky pro animované postavičky) tak i ve 3D, ale definice nebyla tehdy dobře fungujı́cı́. Pandzic
a Forchheimer (2002) přidali několik položek do tohoto seznamu. Můžeme konstatovat, že neexistuje ideálnı́
parametrizace uspokojujı́cı́ všechny tyto podmı́nky. Je však také důležité poznamenat, že ne všechny požadavky
jsou důležité pro vývoj nějaké konkrétnı́ aplikace. Napřı́klad, jestliže animace má být řı́zena daty, měřitelnost
parametrů je důležitá, ale intuitivnost je méně potřebná. Jak už je snad tradicı́, modely tváře použı́vajı́ rozmanité
schéma parametrizacı́, často důvěrně spojené a propletené s jednotlivými technikami deformace povrchu.
Uvedeme si několik parametrizacı́. Pro Baldiho bylo v (Cohen a kol., 2002) použito v 11 parametrů shrnutých
v tab.1.1. Parametrizace tváře podle svalových akcı́ je v (Magnenat-Thalmann a kol., 1988). Animace využı́vá
Tabulka 1.1: Parametrizace mluvı́cı́ hlavy „Baldi“
1
2
3
4
5
6
7
8
9
10
11
rotace čelisti
podsunutı́ dolnı́ho rtu, např. pro artikulaci /f/
zvednutı́ hornı́ho rtu
vysunutı́ dolnı́ho rtu
tvar prohloubeniny hornı́ho rtu
pokleslost tvářı́
vysunutı́ brady
sevřenı́ rtů, např. pro /m/
vysunutı́ dolnı́ho rtu
kulatost rtů
staženı́ rtů
výše zmı́něné AMA procedury. Jedna AMA parametricky koresponduje přibližně k určitému svalu popř. svalům.
23
Kapitola 1. Animace tváře
V práci je definováno 30 AMA procedur. Na úrovni výrazů jsou podobně jako v MPEG-4 definovány základnı́
tvary vizémů a emocı́. Kalra a kol. (1992) simuluje svaly, které jsou ovládány pomocı́ parametrů seskupujı́cı́ch
řı́zenı́ tzv. minimálně pozorovatelných akcı́ (MPA). Parametrizace MPA je provedena pomocı́ řı́dı́cı́ch bodů
ztotožněných s vybranými vrcholy sı́tě. Rozsah každé MPA je bud’ 0 až 1 nebo 1 až 1. V (Sams a kol., 2000)
je parametrizace mluvı́cı́ hlavy pro finštinu. Sams použı́vá 49 parametrů a 12 z nich je použito pro syntézu
řeči. Parametry jsou spı́še geometricky zaměřené a vzájemně na sobě nezávislé. Frydrych a kol. (2003) použı́vá
parametry umı́stěné na povrchu modelu tváře, každému parametru přı́slušı́ několik vrcholů sı́tě. Parametry jsou
na sobě závislé podle stromové struktury, např. deformace kůže na bradě je závislá na pohybu čelisti a pohyb
čelisti je zase závislý na pohybu hlavy. Parametry jsou rozděleny do dvou skupin: pro řı́zenı́ tuhých pohybů
(rotace očı́) a pro řı́zenı́ měkkých deformacı́ (pokožka tváře).
V daty řı́zených animacı́ch jsou parametry výsledkem aplikace nějaké analýzy. Jejich interpretace je neanatomická. Marigny v roce 1993 použil pro 2D animaci rtů 3 nekorelované parametry, (Guiard-Marigny a kol.,
1996) pak pro 3D model rtů použil 5 parametrů definujı́cı́ kontury rtů. Podobně Elisei a kol. (1997) zachycujı́
řeč pomocı́ 6 parametrů, které majı́ čistě foneticko/artikulačnı́ interpretaci a jsou výsledkem aplikace PCA
provedené nad velkým množstvı́m bodů pevných na tváři. Prvnı́ komponenta vede na rotaci čelisti (otevřenı́uzavřenı́), druhá na staženı́-vysunutı́ čelisti, třetı́ na rozšı́řenı́-zaokrouhlenı́ rtů, čtvrtá je zvyšovánı́-snižovánı́
dolnı́ho rtu, pátá zvyšovánı́-snižovánı́ hornı́ho rtu, šestá zvyšovánı́-snižovánı́ hrdla. Těchto šest artikulačnı́ch
pohybů postihuje 97% deformacı́ pozorovaných na tváři francouzského řečnı́ka. Dále v (Revéret a kol., 2000)
nalezneme experimenty se snižovánı́m počtu parametrů. Odlišný způsob parametrizace, úzce spojený s animacı́,
můžeme najı́t v (Kuratate a kol., 1998). 18 vrcholů generické sı́tě tvořilo základ parametrizace. Pomocı́ PCA
je zpracováno 8 3D skenovaných tvarů tváře, prvnı́ch 7 komponent je vybráno. Jejich lineárnı́ kombinacı́ se
generuje deformovaná generická sı́t’. Avšak pro řı́zenı́ deformace je použito 18 pozic bodů modelu. Pro přepočet
3D pozic 18-ti bodů na 7 hodnot komponent je použit lineárnı́ vztah. K jeho identifikaci je použit lineárnı́ estimátor a použita metoda nejmenšı́ch čtverců. Masuko a kol. (1998) použil jako HMM parametrizaci 10 měřenı́
provedených na čelnı́m pohledu na rty. Osm vertikálnı́ch měřenı́ výšky rtů plus šı́řka a pokles rtů.
Obrázek 1.18: Ukázka 6 parametrů, které byly zı́skány z PCA. Vlevo je vždy minimálnı́ a vpravo maximálnı́ možná
hodnota daného parametru.
24
Kapitola 1. Animace tváře
Obrázek 1.19: 10 parametrů pro popis rtů z čelnı́ho pohledu, (Masuko a kol., 1998)
Pro parametrizaci hlasového ústrojı́ použil (Engwall, 1999) 10 parametrů: výška hrdla řı́dı́ výšku hrdla
v hrtanové části pomocı́ kontrakce, nebo rozšiřovánı́ dolnı́ části hlasového traktu. Otevřenı́ čelisti je modelováno
pomocı́ neohebné rotace, parametry pro rty jsou stejné s parametry, které použı́vá Beskow. Pohyb těla jazyka
je řı́zen dvěma parametry, zdvih jazyka a růst jazyka, tvar je řı́zen špičkou, hranami a hřbetem. Parametr
pro špičku jazyka dovoluje řı́dit přednı́ část jazyka a špičku pro artikulaci dásňových a odražených zvuků.
Růst jazyka způsobuje změnu postrannı́ho řı́zenı́. Tento efekt je modelován pomocı́ hran a hřbetu jazyka. Tato
zjednodušená parametrizace jazyka však umožňuje animaci bez detekcı́ kolizı́ a dodrženı́ konstantnı́ho objemu.
Společným výsledkem pro parametrizaci jazyka (Engwall, 2002a; Badin a kol., 2002) je 5 parametrů. Vznik
těchto parametrů proběhl intuitivně z PCA:
výška čelisti JH - parametr, který určuje vertikálnı́ polohu jazyka v ústnı́ dutině. Je zde pozorována
závislost na pohybu čelisti.
tělo jazyka TB - parametr řı́dı́ pohyb dopředu a dozadu.
hřbet jazyka TD - parametr popisuje plochost či klenutost jazyka a také rýhu jazyka. Tı́mto parametrem
je modelován kontakt s patrem.
špička jazyka TT -parametr řı́dı́ pohyb špičky jazyka nahoru a dolů.
zbývajı́cı́ tvar TA- parametr popisuje zbývajı́cı́ pohyb, který nepopisujı́ prvnı́ čtyři parametry. Např.
můžeme uvést změnu tvaru dolnı́ části špičky jazyka, která je částečně deformovaná čelistı́ a dolnı́mi
řezáky.
Engwall (2002a) navı́c použı́vá ještě parametr pro šı́řku jazyka TW, který řı́dı́ strany jazyka. Vliv jednotlivých
parametrů můžeme vidět na obr. 1.20
FACS
Výraz tváře je výsledek souzněnı́ kontrakcı́ svalů, které dohromady deformujı́ neutrálnı́ výraz. Tyto výrazy
prvořadě vycházejı́ z vizuálnı́ komunikace člověka. Významná práce v této oblasti je práce psychologů Ekmana
a Friedsena, kteřı́ studovali projevy neverbálnı́ komunikace. Vytvořili kódovacı́ systém pro všechny možné
výrazy tváře. Rozlišili 55000 výrazů s 30 sémantickými rozdı́ly. Systém je označován jako „The Facial Action
Coding System“ (FACS)7 Ekman a Friesen (1975) a je založen na záznamech, které zachycujı́ emociálnı́ stavy
pozorovatelné na lidské tváři. Individuálnı́ svaly nebo malé skupinky svalů jsou popsány pomocı́ 66 akčnı́ch
jednotek „Action Units“. AU jsou rozděleny do skupiny pro hornı́ a dolnı́ polovinu tváře, obsahujı́ vertikálnı́,
7
http://face-and-emotion.com/dataface/facs/new version.jsp
25
Kapitola 1. Animace tváře
Obrázek 1.20: 6 parametrů řı́dı́cı́ polohu a tvar jazyka: a) vertikálnı́ poloha, b) horizontálnı́ pohyb, c) plochost či
klenutost, d) pohyb špičky, e) popis zbývajı́cı́ch zvarových změn a f) šı́řka. Vlevo je vždy minimálnı́ a vpravo pak
maximálnı́ hodnota parametru.
horizontálnı́ či šikmé akce, kruhové i rozmanité akce jako tvar nosnı́ dı́rky, pokles čelisti či pozice očı́. Na
obr. 1.21 můžeme vidět AU43 pro otevřenı́ očı́. Jednotlivé svaly majı́ vliv na zakřivenı́ tkáně tváře. Ekman a
Friedsen určili 6 kategoriı́: hněv, strach, překvapenı́, zhnusenı́, štěstı́ a smutek. Každá tato kategorie použı́vá
nějakou kombinaci AU. Tento kódovacı́ systém se logicky zdá být vhodným návrhem parametrizace pro
nějakou počı́tačovou syntézu. Pokus automaticky estimovat AU z obrazu a použı́t AU pro animaci tváře je
v práci (Terzopoulos a Waters, 1993).
Obrázek 1.21: Vliv hodnoty akčnı́ jednotky AU43 na mı́ru zavřenı́ obou očı́.
FACS byl primárně vyvinut pro kódovánı́ emočnı́ch výrazů tváře bez artikulačnı́ch pohybů. Touto parametrizacı́ je poskytnut vysoce detailnı́ popis spı́še hornı́ části tváře. Pelachaud a van Overveld (1994) konstatujı́, že
FACS nemůže poskytnout parametrizaci dostačujı́cı́ pro detaily v oblasti úst a pro řádné modelovánı́ artikulace
řeči.
MPEG-4
V úsilı́ standardizovat modelovou parametrizaci tváře vznikl standard, který byl originálně navržen za
účelem schopné animace lidské hlavy založené na kódovánı́ pohybujı́cı́ch se obrázků. MPEG (Moving Picture
Experts Group) společenstvı́ tak vyvinulo MPEG-4 standard určený pro animaci tváře (FA, Pandzic a Forchheimer (2002)). Myšlenka zahrnutı́ animace tváře MPEG-4 vznikla v roce 1995. Cı́lem byla standardizace
množiny parametrů, které jsou vhodné pro definici tvaru modelu hlavy a také vhodné pro jeho animaci. Návrh
26
Kapitola 1. Animace tváře
je založen na MPA, navržené Kalrem, viz kapitola 1.2.5. Prvnı́ specifikace parametrizace vznikla v Chicagu
v roce 1996. Návrh FAT, viz dále, pocházı́ z AT&T. V roce 1997 byl standard doplňován a upřesňován a až
v roce 1999 se MPEG-4 obsahujı́cı́ animaci tváře stal mezinárodnı́m standardem. Tento standard dnes rychle
zı́skává na popularitě nejen ve video kompresi, ale právě také ve zmı́něné animaci tváře.
K vysvětlenı́ MPEG-4 můžeme použı́t popis z (Ostermann, 1999, 2002). MPEG-4 je objektově multimediálnı́
komprese, která dovoluje nezávislé kódovánı́ odlišných audio-vizuálnı́ch objektů ve scéně. Objekty mohou být
přirozené nebo syntetizované. Objektem tedy může být umělá lidská tvář i tělo ve 2D nebo 3D. Objekty jsou
popsané pomocı́ primitiv založených na standardu „Virtual Reality Modeling Language“ (VRML). Specifikace
modelu tváře je provedena v jejı́m neutrálnı́m výrazu, obr. 1.22. Neutrálnı́ výraz je definován jako:
přı́mý pohled v ose z
všechny svaly tváře jsou v relaxačnı́m stavu,
očnı́ vı́čka jsou tečnou na duhovku oka,
rty se dotýkajı́, vzniklá linka mezi rty je horizontálnı́ a ve stejné výšce jako koutky rtů,
čelist je zavřená a zuby se dotýkajı́
jazyk je plochý, tělo jazyka je v horizontálnı́ pozici se hřbetem ve výšce dotyku zubů.
K zajištěnı́ přenositelnosti parametrů na libovolný model tváře se definujı́ parametry tváře nazvané jako „Face
Animation Parameter Units“ (FAPU). FAPU můžeme vidět na obr. 1.22 vlevo nahoře. Jejich hodnoty jsou zadány
bez měřı́tka a ve vzájemném poměru. Dále jsou definovány výrazové body „Feature Points“ (FP), standard jich
definuje 88. Některé můžeme vidět na stejném obrázku. Výrazové body jsou použity pro definici animačnı́ch
parametrů „Face Animation Parameters“ (FAP) a také pro definici specifického tvaru tváře. Prostorové umı́stěnı́
FP pro nějaký model tváře musı́ být známé. FP jsou dobře definované body na povrchu lidské tváře, jako
napřı́klad spodnı́ část brady, střednı́ bod vnitřnı́ kontury rtů atd. Konečně také můžeme popsat animačnı́
parametry FAP. Animačnı́ parametry jsou definovány pomocı́ zmı́něné studie znatelných akcı́ ve tváři MPA
a také s ohledem na práce (Parke, 1982; Terzopoulos a Waters, 1990; Waters, 1987), které jsou již výše
popsané. Pomocı́ FAP by mělo být možné animovat i nepřirozené či přehnané výrazy, které jsou použitelné pro
různé animované postavičky. Dobře jsou definované rty (vnějšı́ i vnitřnı́ kontura). 68 parametrů je řazeno do
10 skupin. Jednotlivé skupiny jsou utvořeny podle relativnı́ch částı́ tváře a můžeme je vidět v tab.1.2. Pomocı́
FAP jsou popsány všechny základnı́ pohybujı́cı́ se oblasti ve tváři. Pro každý parametr jsou určeny FAPU,
FAP skupina, směr a znaménko pohybu. 66 FAP ve skupinách 2 až 10 jsou označeny jako nı́zko-úrovňové
„low-level“ parametry. Pomocı́ nichž je definován základnı́ pohyb ve tváři a přiřazena určitá hodnota parametru.
Ve skupině 1 jsou dva FAP označovány jako parametry vyššı́ úrovně „high-level“, jedná se o vizémy a výrazy.
14 statických vizémů je definováno ve FAP1 pro angličtinu. Ve FAP2 je 6 základnı́ch výrazů tváře, které můžeme
vidět znázorněné na obr. 1.23. Právě zmı́něné „low-level“ FAP dělajı́ tento standard skutečně užitečným.
Zakulacenı́ rtů je komplexnı́m artikulačnı́m gestem, které je obecně obtı́žné docı́lit v mnoha parametrizačnı́ch
schématech. V MPEG-4 specifikaci může pro animaci artikulace zahrnout až 20 z 66 MPEG-4 „low-level“ FAP.
Definice jednoho normalizovaného řı́dı́cı́ho parametru pro zaokrouhlenı́ rtů je provedena tak, že tahá parametry
rtů směrem k imaginárnı́mu středu uprostřed úst. Je to však dosti zjednodušená specifikace artikulačnı́ho cı́le.
Jako skutečnou výhodu můžeme vyzdvihnout normalizaci hodnot parametrů a fakt že jsou bez měřı́tka. Tyto
omezenı́ však usnadňujı́ modelovánı́ artikulačnı́ch pohybů a měly by zaručit přenositelnost na odlišné modely.
Můžeme však nalézt také nějaké nedostatky této parametrizace. Pro retozubnı́ frikativy je dolnı́ ret tlačen
proti hornı́ řadě zubů a formuje tak sevřenı́. Toto je v MPEG-4 problematické nebot’ neexistujı́ FAPU, které
specifikujı́ odstup zubů a rtů. Tak požadavek posunutı́ dolnı́ho retu tak, aby se setkal s hornı́ řadou zubů bude
pravděpodobně odlišný pro různé modely tváře a parametrizace nenı́ v tomto ohledu přenositelná. Právě definice
27
Kapitola 1. Animace tváře
Tabulka 1.2: MPEG-4 FAP
Skupina
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Popis
Vizémy a výrazy
Čelist, brada, vnitřnı́ kontura rtů, koutky
Oči, zornice, očnı́ vı́čka
Obočı́
Tváře
Jazyk
Rotace hlavy
Vnějšı́ kontura rtů
Nos
Uši
Počet FAP
2
16
12
8
4
5
3
10
4
4
jednoúčelových parametrů pro zuboretnı́ skus je spolehlivou cestou, která by zajistila dosaženı́ cı́lové pozice
této artikulace.
Pelachaud a kol. (2001) prezentuje 3D model tváře, který je plně popsán pomocı́ FAP a FDP. Všech 66 FAP
je implementováno a je použita vlastnı́ sada výrazů. V (Dalong a kol., 2002; Pelachaud, 2002; Kshirsagar a kol.,
2000) najdeme také animaci podle tohoto standardu. Jak bylo zmı́něno výše, žádná parametrizace nenı́ ideálnı́ pro
všechny přı́padné úlohy. MPEG-4 standard nenı́ výjimkou tohoto pravidla, ale fakt existence standardizované
modelově nezávislé parametrizace pro animaci tváře pravděpodobně převážı́ jeho menšı́ nedostatky.
28
Kapitola 1. Animace tváře
Obrázek 1.22: Parametrizace podle standardu MPEG-4. Vlevo nahoře můžeme vidět definici FAPU, zbytek obrázku
ukazuje FAP parametrizaci kompletnı́ tváře.
Obrázek 1.23: 6 základných výrazů tváře zahrnutých v MPEG-4.
29
Kapitola 2
Zdroje dat pro mluvı́cı́ hlavy
V předchozı́ kapitole je souhrn mluvı́cı́ch hlav, které majı́ nějaký tvar. Tvar je bud’ umělý nebo realistický
a ve většině přı́padů definovaný polygonálnı́ sı́tı́. K určenı́ tvaru hlavy popř. jen tváře je několik možnostı́.
Jednou z možnostı́ je použitı́ ručně vytvořeného umělého modelu. K tomuto účelu se použı́vajı́ nejčastěji nějaké
komerčnı́ modelovacı́ nástroje. Několik pracı́ také použı́vá zmı́něný Parkeův model tváře. Parke pro vytvořenı́
svého modelu použil 3D fotogrammetrii (viz dále). Je pravdou, že statická podoba mluvı́cı́ hlavy nemá vliv na
komunikačnı́ schopnosti (Beskow, 2003, str.39) a (Kuratate a kol., 1998), ale i přesto je v této oblasti pozorován
velký vývoj. Pro komunikačnı́ schopnosti mluvı́cı́ hlavy jsou nutné odlišné zdroje dat. Tyto zdroje tvořı́ záznamy
řeči, které jsou provedené měřenı́m tváře nebo celé hlavy řečnı́ka. Různé zdroje dat jsou potřeba pro různé
fáze vývoje mluvı́cı́ hlavy a existujı́ různé techniky pro jejich zı́skávánı́. Tradičně neexistuje jednotná technika
pro zı́skánı́ všech potřebných dat. Obecně můžeme rozdělit postupy na metody zı́skánı́ statického tvaru a na
metody zı́skánı́ dynamických dat proměnlivých v čase. Dynamické metody většinou využı́vajı́ video záznam,
který zachycuje dynamické aspekty artikulace. Tyto záznamy jsou zı́skávány se standardnı́mi 25-50 snı́mky za
vteřinu, ale existujı́ i systémy pro časově přesnějšı́ záznam. Dynamická data jsou použita pro analýzu a řı́zenı́
artikulace řeči. Zdroje statických dat jsou předevšı́m použity pro inicializačnı́ tvorbu modelu, ale někdy také
pro vývoj parametrizace.
Dalšı́ rozdělenı́, které můžeme udělat, je podle způsobu zı́skávánı́ dat. Rozlišujeme metody pro záznam
externı́ch dat, tj. dat z povrchu tváře a pro záznam internı́ch dat. Externı́ data jsou z velké mı́ry použı́vána
k modelovánı́ povrchu tváře, ale k modelovánı́ jazyka potřebujeme měřenı́ vnitřnı́ch struktur hlasového ústrojı́.
Všechny metody mohou poskytovat bud’ jen 1D data nebo 2D či 3D data. Mohou měřit celý povrch tváře
nebo měřit souřadnice několika málo bodů. V následujı́cı́ch odstavcı́ch provedeme popis a aplikaci zmı́něných
metod. Souhrn také můžeme vidět v tab.2.1.
2.1 Statické metody
Statické metody jsou použı́vány pro zı́skánı́ dat definujı́cı́ch statický tvar jednotlivých částı́ animačnı́ho
modelu. Metody rekonstrukce jsou často spojeny i s vlastnı́ tvorbou celého modelu. Dále si uvedeme několik
pracı́ použı́vajı́cı́ch různé metody.
2.1.1 Vnějšı́ statické měřenı́
3D fotogrammetrie
3D fotogrammetrii již v roce 1982 použil Parke pro definovánı́ modelu a klı́čových tvarů a to ručnı́m
měřenı́m fotografiı́ tváře pořı́zených z několika pohledů. Vypočı́tal 3D souřadnice vrcholů polygonálnı́ sı́tě,
30
Kapitola 2. Zdroje dat pro mluvı́cı́ hlavy
Tabulka 2.1: Souhrn použı́vaných metod pro zı́skávánı́ statických a dynamických dat pro mluvı́cı́ hlavy.
Záznam
Způsob
záznamu
vnějšı́
Typ dat
Poznámky
body + textura
manuálnı́ i automatické
Laserové měřenı́
Ultrazvuk
statický i dynamický
statický
statický
Dimenze měřených dat
3D
3D
3D
vnějšı́
vnitřnı́
body + textura
tvar
MRI
statický
3D
vnitřnı́
tvar i objem
Video trasovánı́
dynamický
2D
vnějšı́
Optické trasovánı́
dynamický
3D
vnějšı́
rozměry,
popř. 2D tvar
pouze body
EMA
Rentgen X-paprsek
dynamický
statický i dynamický
dynamické
dynamické
2D
2D
vnitřnı́
vnitřnı́
pouze body
tvar
2D
1D
vnitřnı́
vnitřnı́
body
signál
3D fotogrametrie
EPG
EMG
může být i pro 2D dynamické měřenı́
dosti spicializované
zařı́zenı́
robustnı́ a často použı́vané
již méně použı́vané
vnitrosvalové
trody
elek-
která byla nakreslena na tváři fotografované osoby. K pořı́zenı́ fotografiı́ zachycujı́cı́ch tvář v jednom okamžiku
použil zrcadla. Jednalo se předevšı́m o manuálnı́ práci, ale Parke tehdy nepotřeboval žádné nákladné zařı́zenı́.
Podobný přı́stup najdeme v novějšı́ch pracı́ch. Elisei a kol. (1997) prezentuje techniku měřenı́ pro analýzu
i syntézu tváře, která s užitı́m modelu řečnı́ka dovoluje trasovánı́ pohybů tváře. Pro rekonstrukci byl využit
stereo záznam řečnı́ka také s pomocı́ zrcadel. Na tváři řečnı́ka bylo přilepeno 197 barevných korálků, obr. 2.2.
Byla provedena kalibrace a určena 3D souřadnice každého korálku. Korálky měly průměr 2mm a přesnost
jejich lokace byla 1mm. Bylo zı́skáno 197 3D bodů tvořı́cı́ch sı́t’aproximujı́cı́ povrch tváře. Navı́c byla měřena
pozice dolnı́ čelisti. Model rtů byl zı́skáván trochu odlišným způsobem. 30 řı́dı́cı́ch bodů na konturách rtů a 3D
generický model rtů byl manuálně srovnán na stereo fotografii (Revéret a Benoı̂t, 1998), obr. 2.1.
Obrázek 2.1: Ručnı́ nastavenı́ modelu rtů tvořeného interpolacı́ kontur.
3D fotogrammetrii použı́vajı́ též Akimoto a kol. (1993); Lee a kol. (1997). Pro vytvořenı́ kompletnı́ho
3D modelu hlavy specifické osoby je použito dvou obrázků a generické sı́tě. Jeden obrázek je pořı́zen z čela a
druhý ze strany. Generický model představuje polygonálnı́ sı́t’nějaké uměle vytvořené hlavy vhodné pro animaci.
31
Kapitola 2. Zdroje dat pro mluvı́cı́ hlavy
Obrázek 2.2: Elisei a kol. (1997) použil záznam 197 barevných korálků přilepených na tváři a s pomocı́ zrcadla
provedl ručnı́ 3D rekonstrukci každého bodu pro artikulaci několika hlásek. Uprostřed můžeme vidět i speciálnı́
pomůcku pro měřenı́ polohy čelisti.
Generické sı́tě jsou často tvořeny efektivně. Hustě definovaná sı́t’v mı́stech velkého zakřivenı́ tváře jako např. rty,
nos, uši a jen málo vrcholů aproximujı́cı́ oblasti jako tváře, krk či čelo. Výhodou generického modelu je znalost
strukturálnı́ho uspořádánı́. Pro výslednou animaci se s výhodou využı́vá strukturálnı́ informace o vzájemné
poloze úst, čelisti, očı́ atd. Akimoto rozdělil práci na dvě části. Prvnı́ částı́ je zı́skánı́ charakteristických rysů
z obou obrázků. Charakteristickými rysy mohou být špička či kontura brady, kontury úst, špička nosu atd. Pro
usnadněnı́ zpracovánı́ obrazu a následné rekonstrukce je použito bı́lé pozadı́ fotografiı́ a stejné velikost hlavy
v obou pohledech. Z profilu tváře je extrahována oblast vlasů a kontura tváře. Na kontuře tváře je s pomocı́
metody srovnánı́ se vzorem nalezena špička nosu a brady. Předpokládaná poloha těchto částı́ usnadňuje dohledánı́
korespondencı́ v čelnı́m pohledu. Zde má generický model 2000 vrcholů a 3800 polygonů a předpokládá se
symetrický. 3D hodnota každého vrcholu je jednoduše počı́tána tak, že x hodnota se bere z čelnı́ fotografie,
z hodnota z bočnı́ a y je průměrem z obou pohledů. Textura hlavy je vytvořena vzájemným překrytı́m a
vyhlazenı́m těchto dvou obrázků. Model je doplněn o oči, zuby a jazyk. Algoritmus byl úspěšně aplikován
na osoby s krátkými vlasy, bez brýlı́, knı́rku či vousů. K extrakci rysů použil Lee odlišnou metodu. Metoda
„strukturovaných hadů“1 určuje vnějšı́ rysů tváře. Poloautomatická deformace generického modelu je provedena
pomocı́ Dirichletovy deformačnı́ formy (DFFD), (Moccozet a Thalmann, 1997). Detekce výrazových bodů
nebývá robustnı́, a proto se často přistupuje k ručnı́mu hledánı́ jejich pozic ve fotografii.
Fotogrammetrii pouze z jednoho pohledu použı́vajı́ Proesmans a Van Gool (1997). Strukturované světlo
promı́tané na rekonstruovanou tvář projektorem tvořı́ jasové vzory o velkém rozlišenı́. Takto osvı́cená tvář je
pozorována z odlišného úhlu pouze jednou kamerou. Textura je zı́skána odstraněnı́m vzorů z obrazu pomocı́ tzv.
„metody čtenı́ mezi řádky“. Celý systém nevyžaduje složité zařı́zenı́ a navı́c umožňuje z rekonstrukcı́ časového
záznamu provést animaci. Data ze stereo rekonstrukce jsou použity v (Nagel a kol., 1998). Adaptace modelu je
provedena pomocı́ 3 bodů a filtracı́ mediánem. Velmi propracovanou práci najdeme v (Fua, 1998). Fua vytvářı́
model tváře fotogrammetriı́ video sekvence. Návrh nevyžaduje žádné speciálnı́ pomůcky, jako kalibračnı́ desky,
strukturované světlo, pomocné body nakreslené na tváři či jiná aktivnı́ zařı́zenı́. K vlastnı́ rekonstrukci je plně
postačujı́cı́ obyčejný video záznam pohybujı́cı́ se hlavy. I zde je použit generický model, který je postupně
adaptován na pohyb ve video sekvenci.
Laserový paprsek
Pro záznam tvaru tváře je hojně použı́váno laserové skenovánı́. Jde o specializovaný hardware, jı́mž můžeme
zı́skat vysoce detailnı́ data zachycujı́cı́ geometrii i texturu statické tváře. Jako přı́klad můžeme uvést komerčnı́
produkt Cyberware2 . Princip měřenı́ je založen na laserovém paprsku, kterým je pohybováno po kruhové dráze
kolem rekonstruovaného objektu. Paprsek nám umožnı́ změřit vzdálenost zdroje od objektu postupně v rozsahu
1
2
Metoda hledá hranici mezi dvěma oblastmi obrazu tj. body maximálnı́ho kontrastu.
http://www.cyberware.com/products/index.html
32
Kapitola 2. Zdroje dat pro mluvı́cı́ hlavy
otočenı́ 0-360Æ . Spolu s měřenı́m hloubky je zaznamenána informace o barvě. Výsledkem měřenı́, které zabı́rá
několik sekund, je hloubková a texturová mapa ve válcových souřadnicı́ch. Již zmı́něný detailnı́ popis povrchu
objektu, v našem přı́padě povrchu hlavy, se však zřı́dka přı́mo použı́vá pro animaci. Rekonstruovaný povrch
se skládá z desı́tek tisı́c 3D bodů avšak bez znalosti struktury. Proto i zde se použı́vá nějaký generický model,
kterým je provedena redukce naměřených dat. Problémem je také, že laserový paprsek je v oblasti vlasů a
nosnı́ch dı́rek, ale také mezi rty značně rozptýlen a tak v těchto mı́stech chybı́ informace o hloubce.
Lee takto měřená data použil pro detailnı́ tvarovánı́ již rekonstruovaného modelu pomocı́ fotogrammetrie
(Lee a Magnenat-Thalmann, 2000). Cyberware skener je použit i pro svalový model specifické tváře v práci
(Lee a kol., 1995). Kuratate a kol. (1998, 1999) použili skener pro záznam tváře v různých extrémnı́ch výrazech.
Metody DFFD je použito k tvarovánı́ animačnı́ho modelu v (Escher a Thalmann, 1997). Escher a kol. (1998b)
navrhuje tvorbu modelu podle standardu MPEG-4, generický model je složen z cca. 1500 vrcholů z nichž podmnožinu tvořily FDP body. Stejně jako v předchozı́ práci je použito DFFD s ručnı́ lokalizaci FDP v naměřených
datech. I model „Baldi“ je pomocı́ skeneru připodobněn svým autorů (Cohen a kol., 2002).
2.1.2 Vnitřnı́ statické měřenı́
Pro měřenı́ artikulace vnitřnı́ch hlasových orgánů existuje několik technik často využı́vaných v lékařských
zařı́zenı́ch. Již v roce 1967 Öhman určil tvar hlasového ústrojı́ pomocı́ rentgenového řezu X-paprskem. Měřenı́
snı́mku bylo provedeno pomocı́ metriky složené z třiceti polárnı́ch souřadnic a dvaceti devı́ti paralelnı́ch přı́mek.
Aproximačnı́ hodnoty jsou definovány jako množina hodnot odstupů naměřených na těchto přı́mkách z jejich
výchozı́ch pozic do jejich průsečı́ku s středo-sagitálnı́ konturou jazyka.
Engwall (2000) použil magnetické rezonance (MRI) pro konstrukci 3D modelu jazyka. MRI skener vytvářı́
data složená ze série plátků často kolmých na sagitálnı́ rovinu a procházejı́cı́ch celým hlasovým traktem. Z těchto
3D dat je model jazyka tvořen pomocı́ křivek, které definujı́ okraje jazyka. Umı́stěnı́ křivek podle dat se provádı́
nejčastěji ručně. Statické měřenı́ s pomocı́ MRI provedl i Badin a kol. (1998, 2002). Cı́lem jejich práce bylo
rozšı́řenı́ stávajı́cı́ho modelu jazyka, který byl původně řı́zen jen v sagitálnı́ rovině. Pro vybrané artikulace bylo
provedeno měřenı́ pomocı́ 1-Tesla MRI skeneru nacházejı́cı́ho se v nemocnici Grenoblu. Měřenı́ se skládalo
z 53 plátků kolmých na sagitálnı́ rovinu. Plátky byly změřeny po 3:6mm s rozlišenı́m 1mm na obrazový bod.
Jedeno měřenı́ trvalo cca 43s. Kontury jazyka byly aproximovány B-spline křivkami a v zaznamenaných datech
byly označeny ručně. Nevýhodou měřenı́ artikulace pomocı́ MRI je, že nelze zaznamenat zuby. Badin tento
problém řešil pomocı́ otisku zubů ponořeného do vody a pak podrobeného MRI. Při vlastnı́m měřenı́ subjekt
ležı́ na zádech a tato nepřirozená poloha ovlivňuje správnost artikulace jazyka (změněná pozice kořene jazyka).
Dalšı́ možný problém je, že promluva hlásek probı́há ve dlouhém nádechu nebo velmi pomalém výdechu se
šepotem. Tato umělá artikulace je volena proto, aby se docı́lilo konstantnı́ho nastavenı́ hlasového traktu po
celou dobu měřenı́ (43s). MRI je také použito pro svalově založený model v (Sams a kol., 2000). Zde je z těchto
dat konstruován model tváře.
Cohen a kol. (1998) použili pro zlepšenı́ artikulace jazyka 3D data z ultrazvuku. Záznam byl proveden pro
artikulaci 18 anglických hlásek. Model aproximujı́cı́ vrchnı́ povrch jazyka je vytvořen z několika 2D plátků.
Měřenı́ probı́halo tak, že bylo postupně otáčeno ultrazvukovým snı́mačem připevněným na bradě. Každý plátek
vznikl jako jedno měřenı́. Jednou nevýhodou ultrazvukového měřenı́ tvaru jazyka je, že obyčejně nenı́ zachycena
špička jazyka. Toto je způsobeno vzduchovou dutinou pod jazykem, která odrážı́ ultrazvukové vlny.
2.2 Dynamické metody
Data z dynamického měřenı́ jsou důležitá pro modelovánı́ animačnı́ch pohybů mluvı́cı́ch hlav. Pomocı́
speciálnı́ch zařı́zenı́ch a technik se zaznamenává dynamika a mimika řeči. Právě záznam přirozené řeči je
důležitý pro datové analýzy.
33
Kapitola 2. Zdroje dat pro mluvı́cı́ hlavy
2.2.1 Video založené metody
Rekonstrukci dynamiky tváře ze záznamu pohybujı́cı́ se tváře můžeme rozdělit na texturově a modelově
založenou. Texturově založené metody provádějı́ nějakou segmentaci obrazu k oddělenı́ důležitých rysů tváře,
nejčastěji jde o rty. Automatické trasovánı́ rtů ve videozáznamu za normálnı́ch podmı́nek je velmi obtı́žná úloha,
která se řešı́ na mnoha pracovištı́ch pro potřeby počı́tačového odezı́ránı́ ze rtů. Při pořizovánı́ videozáznamů
řečových dat pro mluvı́cı́ hlavy se použı́vá co nejvı́ce možných ulehčenı́ch. Často je záznam prováděn za
speciálnı́ho osvětlenı́, na rty je nanášen pro barevné odlišenı́ speciálnı́ make-up. Modelově založené metody
předpokládajı́ implicitnı́ tvar rtů představovaný např. generickým modelem a srovnánı́m tohoto modelu pak
určujı́ pohyb tváře ve všech zaznamenaných snı́mcı́ch. Nejvı́ce technik zpracovává video sekvenci čelnı́ho
pohledu na tvář a použı́vá pouze 2D specifikaci modelu.
Basu a kol. (1998) navrhl 3D model rtů, který je utvořený jako polygonálnı́ sı́t’. Pohyb vrcholů sı́tě je
statisticky určen z videozáznamu pomocı́ projekcı́. Podobný návrh nalezneme v (Guiard-Marigny a kol., 1996;
Revéret a kol., 2000). Revéret metodiku pro modelovánı́ rtů použı́vá pro 3D trasovánı́ rtů. Podobný postup
najdeme i v (Badin a kol., 2002). Öhman (1998) použil automatický algoritmus pro sledovánı́ rtů. Rty řečnı́ka
byly přebarveny na modro a dvě pomocné značky indikovaly pohyb čelisti a hlavy, obr. 2.3. Videozáznam pouze
čelnı́ho pohledu na rty, které jsou také obarveny na modro, je proveden také v (Masuko a kol., 1998).
Obrázek 2.3: Složený čelnı́ a bočnı́ pohled na tvář s označenými rty. Dvě speciálnı́ značky jsou použity pro detekci
pohybu čelisti a celé hlavy. Vpravo pak můžeme vidět obrázek převedený do chromatických barev.
2.2.2 Systémy optického trasovánı́
Systémy pro optické trasovánı́ jsou většinou komerčnı́ aplikace použı́vajı́cı́ specializovaný hardware. Jako
přı́klad můžeme uvést systémy OPTOTRAK3, ELITE4 , VICON5 a MacReflex nebo ProReflex od firmy Qualisys6 . Tyto systémy se často a s oblibou použı́vajı́ pro zı́skávánı́ dynamických dat pozorovatelných na povrchu
tváře. Data jsou zı́skávána pomocı́ tzv. trasovánı́ bodů. Trasovány jsou pevně připevněné značky na tváři.
Výhodou těchto systémů je plně automatický provoz, dobrá přesnost (pod 1mm) a velká vzorkovacı́ frekvence
(60 a vı́ce snı́mků za vteřinu). Princip optického trasovánı́ vycházı́ z technik 3D fotogrammetrie. 3D souřadnice
značek jsou rekonstruovány pomocı́ dvou či vı́ce pohledů. Videozáznam je zı́skáván pomocı́ vysokofrekvenčnı́ch kamer citlivých na infračervené (IR) světlo. Značky připevňované na tvář majı́ přibližně průměr 2 4mm
a v přı́padě systému OPTOTRAK jde o IR LED-diody. Nevýhodou je skutečnost, že k LED musı́ být přivedeno
napájenı́. Ostatnı́ systémy použı́vajı́ pasivnı́ značky. Tyto pasivnı́ značky jsou polokulaté nebo kulaté korálky
3
http://www.bts.it/
http://www.digital.com/
5
http://vicon.com/
6
http://www.qualisys.se/
4
34
Kapitola 2. Zdroje dat pro mluvı́cı́ hlavy
na povrchu pokryté materiálem dobře vracejı́cı́ světlo, tzv. „retro reflexnı́ materiál“ známý např. z dopravnı́ch
značek. Osvětlenı́ scény zajišt’ujı́ IR zdroje přı́mého světla, které jsou umı́stěné u každé kamery a směrovány
do osy pohledu. Výsledkem je vždy kvalitnı́ a vysoce kontrastnı́ obraz, kde značky na tváři jsou v obraze vidět
jako zářivé tečky na tmavém pozadı́. Zpracovánı́ každého snı́mku je proto velmi jednoduché a robustnı́. 3D
pozice značek je vypočı́tána pomocı́ perspektivnı́ geometrie a s tzv. sub-pixelovou přesnostı́.
Praktické použitı́ optického trasovánı́ nalezneme v (Kshirsagar a kol., 2000, 2003). Pro extrakce 3D pozic
retro-reflexnı́ch značek na tváři je použit systém VICON 8. Je použito 6 kamer a 27 značek připevněných na
tváři, které korespondujı́cı́ s MPEG-4 řı́dı́cı́mi body. Vedlejšı́m produktem je i trasovánı́ globálnı́ orientace
hlavy. Lucero a Munhall (1999) použili měřenı́ s OPTOTRAK systémem a to pouze na polovině tváře. Na
druhé polovině provedli měřenı́ s EMG elektrodami, viz 2.2.3. I pro trénovanı́ mluvı́cı́ hlavy „Baldi“ je použit
OPTOTRAK (Cohen a kol., 2002). Bylo sledováno 19 bodů na tváři plus 4 body na vrchu hlavy. Sledovánı́
18 bodů se současným záznamem řeči použil Kuratate a kol. (1998) při promluvě japonského textu. Beskow
a kol. (2003) použil metodu reflexe a dynamická data zaznamenal pomocı́ MacReflex systému. 4 kamery
sledovaly 28 reflexnı́ch bodů přilepených na tvář, obr. 2.4. Stejný systém použili i Hällgren a Lyberg (1998)
pro 40 značek. Systém ProReflex je použit v (Minnis a Breen, 2000) pro sledovánı́ 35 značek na celé tváři.
Systém ELITE použila Pelachaudová k zachycenı́ artikulačnı́ dynamiky rtů italských hlásek. Snad největšı́ počet
sledovaných značek je v (Maeda a kol., 2002), zde je trasováno 65 reflexnı́ch značek po celé tváři s frekvencı́
150Hz.
Obrázek 2.4: Ukázka systému optického trasovánı́. V tomto přı́padě je použit Qualisys systém a 4 kamery. Vpravo
pak můžeme vidět 28 značek na tváři řečnı́ka.
2.2.3 Vnitřnı́ dynamické měřenı́
Stejně jako u statických metody pro měřenı́ tvaru vnitřnı́ch artikulačnı́ch orgánů jsou pro měřenı́ pohybů
použı́vána zařı́zenı́ pocházejı́cı́ z lékařských aplikacı́. Můžeme zmı́nit rentgen, elektromyograf (EMG), elektropalatograf (EPG) a elektromagnetický artikulograf (EMA).
V práci (Cohen a kol., 1998) je mimo jiné použit i EPG. Toto zařı́zenı́ je použı́váno v logopedii k měřenı́
správné artikulace. Měřenı́ je prováděno vloženı́m umělého patra do úst. Umělé patro je tvořeno měkkou deskou
opatřenou desı́tkami elektrod. Měřenı́ se provádı́ na frekvenci 100Hz. Výsledkem měřenı́ je binárnı́ mapa, která
indikuje zda došlo ke kontaktu jazyka s patrem a určı́ se také čas a mı́sto artikulace. EMG měřenı́ použili
35
Kapitola 2. Zdroje dat pro mluvı́cı́ hlavy
Lucero a Munhall (1999). Měřenı́ bylo provedeno na opačné polovině tváře než optické trasovánı́, aby nedošlo
k vzájemnému rušenı́. Při záznamu měl subjekt na polovině tváře nitrosvalové EMG elektrody. Bylo měřeno
7 základnı́ch svalů. Měřenı́ bylo provedeno s frekvencı́ 2; 5k Hz. Naměřená data byla následně vzorkována
na 60Hz , filtrována mediánem a normalizována na rozsah 0–1. EMG signál v této práci sloužil k aktivaci
modelovaných svalů fyziologického modelu tváře. I v (Kuratate a kol., 1999) je pomocı́ EMG měřena aktivita
8 svalů. Zajı́mavostı́ těchto animacı́ je, že použité syntézy řeči jsou provedeny pouze z tohoto signálu.
Dalšı́ technikou měřenı́ vnitřnı́ dynamiky je EMA. Princip je založen na měřenı́ napětı́ indukovaného
v malých cı́vkách umı́stěných v magnetickém poli. Tyto malé cı́vky (1:5 4mm) jsou připevněny na jazyk.
Dvě stacionárnı́ cı́vky umı́stěné na helmě a nasazené na řečnı́kovi vytvářejı́ proměnlivé magnetické pole. Při
pohybu jazyka se na malých cı́vkách indukuje napětı́, které určı́ relativnı́ pohyb vzhledem ke stacionárnı́m
cı́vkám. Omezenı́m tohoto měřı́cı́ho sytému je, že měřenı́ je pouze ve 2D a aby data byla porovnatelná, musı́
malé cı́vky ležet ale i se pohybovat v jedné rovině, která je rovnoběžná se stacionárnı́mi cı́vkami. Při měřenı́
jazyka jde nejčastěji o sagitálnı́ rovinu. EMA měřenı́ je použito současně s měřenı́m s optickým měřenı́m
v (Jiang a kol., 2000; Beskow a kol., 2003). Beskow měřil pozici 6 cı́vek, 3 umı́stěny na jazyku (špička, hřbet a
kořen), 2 na hornı́ a dolnı́ řadě zubů a poslednı́ na hornı́m rtu. Všechny v středo-sagitálnı́ rovině. Jiang použı́vá
5 cı́vek umı́stěných na jazyku, na dolnı́ a hornı́ dásni, na bradě a nose.
Poslednı́ zmı́něnou metodou je měřenı́ dynamiky pomocı́ rentgenového záznamu. Na statické měřenı́ a
analýzu jazyka v (Badin a kol., 2002) navazuje dynamické měřenı́ publikované v (Bailly a Badin, 2002).
Měřenı́ bylo provedeno pomocı́ cineradiografu. Toto měřenı́ je vı́ce preciznı́ než EMA metoda, která poskytuje
pouze data o pohybu bodů. Cineradiograf zı́skává informaci o celkovém aktuálnı́m tvaru. Lindblom a Sussman
(2002) použili jako zdroj dat digitalizovaný film zaznamenávajı́cı́ rentgenové zářenı́. Měřenı́ bylo provedeno
s 50 snı́mky za vteřinu se současným záznamem zvuku. Pro každý snı́mek se zı́skávala kontura hlasového
traktu, která obsahuje obrys zubů, tvrdého a měkkého patra, rtů, čelisti a jazyka (kontura od kořene ke špičce),
hrtanovou přı́klopku, hrtan a zadnı́ stěnu hltanu. Všechny kontury z 85 snı́mků byli aproximovány dvaceti pěti
2D body a podrobeny PCA.
2.2.4 Korelace dat
Jiang a kol. (2000) provedl studii vzájemného vztahu vnějšı́ch artikulačnı́ch pohybů tváře, pohybů jazyka a
akustického signálu. Pro optické měřenı́ tváře byl použit Qualisys systém (OPT) a měřenı́ jazyka bylo provedeno
pomocı́ EMA metody. Akustický signál byl parametrizován pomocı́ lineárnı́ho spektra (LSP). Měřenı́ bylo
provedeno synchronizovaně. Výsledky jsou v tabulce 2.2 a jsou porovnány pomocı́ korelačnı́ho koeficientu
(popisy porovnávánı́ jsou popsány v kapitole 4.1). Tabulka ukazuje vysokou korelaci mezi pohyby tváře a
pohyby jazyka. Podobně Engwall a Beskow (2003) provedli studii korelace mezi tvářı́ a jazykem a pokusili se
Tabulka 2.2: Pozorované korelace signálů. Korelace popisuje mı́ru závislosti mezi vnějšı́mi pohyby tváře, akustickým signálem a pohyby jazyka.
OPT-EMA
0.75
OPT-LSP
0.47
EMA-LSP
0.52
animovat pohyby jazyka pouze z dat naměřených na tváři. Výsledkem byla úspěšná predikce pohybu čelisti
a špičky jazyka. Pro ostatnı́ pohyby jazyka a hlasového traktu jsou však data z tváře nedostačujı́cı́. Potvrzenı́
můžeme nalézt i v (Bailly a Badin, 2002).
36
Kapitola 2. Zdroje dat pro mluvı́cı́ hlavy
2.3 Řečové korpusy pro dynamické měřenı́
Pouhá volba metody dynamického měřenı́ ještě nestačı́ k zı́skánı́ správné artikulace. Na začátku každého
úsilı́, jak naučit mluvı́cı́ hlavu správné artikulaci, je záznam řečového korpusu. Záznam korpusu vzniká tak, že
textový materiál je promlouván řečnı́kem na kterém je prováděno jedno nebo vı́ce dynamických měřenı́. Před
vlastnı́m záznamem musı́ být však provedeno několik rozhodnutı́: jaký řečnı́k, jaký textový materiál, kterou
nebo které z dynamických metod použijeme a zda se bude při záznamu současně zaznamenávat akustický
signál. Musı́me se rozhodnout, která data potřebujeme zaznamenat, jestli je pro nás postačujı́cı́ 2D měřenı́ nebo
potřebujeme 3D data. Otázka kolik řečnı́ků bude zaznamenáno závisı́ na budoucı́ potřebě dat. Volba pouze
jednoho řečnı́ka usnadňuje vlastnı́ záznam, extrakci i interpretaci dat. Pro studii specifických charakteristik
řečnı́ka je však za potřebı́ vı́ce řečnı́ků, nebot’ stejně jako se charakteristika řečnı́ka objevuje v akustickém
signálu, můžeme pozorovat odlišnosti ve vizuálnı́ artikulaci. Dále následuje volba pohlavı́ řečnı́ka, věk popř.
dialekt atd. Pro zlepšovánı́ vizuálnı́ syntézy jsou vybı́rány řečnı́ci s čistou a k odezı́ránı́ srozumitelnou artikulacı́.
Pro rozhodnutı́, jaký řečový materiál máme použı́t, musı́me brát ohled na přirozenost, použitelnost, ale
i na jednoduchost provedenı́ porovnánı́ výsledků budoucı́ch experimentů. Rozhodnutı́ spočı́vá také v tom,
jaká slova zaznamenávat, jaká má být velikost slovnı́ku, styl a rychlost jejich promluvy. Často se použı́vajı́
slova složená z kombinacı́ třı́ hlásek: samohláska-souhláska-samohláska (VCV), které záměrně nedávajı́ smysl.
Právě VCV slova popř. podobné utvořenı́ jako VCVCV, CVC apod. jsou populárnı́ z mnoha důvodů. Kombinacı́
samohlásek obklopujı́cı́ souhlásku jednoduše vytvořı́me slova obsahujı́cı́ žádaná spojenı́ hlásek, která bychom
v běžné mluvě dlouho vybı́rali. Tato slova jsou vhodná i pro následné ohodnocovánı́ syntézy, kdy snadno
modelujeme kombinaci hlásek a můžeme provádět různorodé analýzy. Dalšı́ možnostı́ je záznam krátkých
reálných slov promlouvaných izolovaně. V tomto přı́padě řečnı́k vkládá vlastnı́ zkušenost s promlouvánı́ těchto
slov a zahrnuje do záznamu fonologické informace daného jazyka. Testy srozumitelnosti jsou však obtı́žnějšı́
nebot’ jejich návrh by měl obsahovat žádané kombinace hlásek a výsledky nejdou přı́mo porovnávat. Plynule
vyslovovaná slova, vybraná z malé množiny, ale bez sémantického uspořádánı́ jsou dalšı́m krokem k pořı́zenı́
záznamu přirozeného jazyka. Nejobecnějšı́ materiálem je pak záznam vět utvořených ze slov velkých slovnı́ků.
V tomto přı́padě řečnı́k využı́vá znalosti správné skladby vět. Doplněnı́ mimiky a prozodie jsou nejvyššı́m
stupněm přirozenosti a nejširšı́m zdrojem informacı́.
Záznam slov utvořených umělou kombinacı́ samohlásek a souhlásek použil již Öhman při studovánı́ koartikulačnı́ch vlivů (Öhman, 1966). Spektrograficky měřil 48 slov utvořených ze čtyř znělých souhlásek a
4 samohlásek odděleně pro VC a CV kontext. Zaznamenával promluvy švédského, amerického a ruského řečnı́ka. Záznam byl proveden vždy 3 krát pro každého řečnı́ka, slova byla čtena monotónně se stejným důrazem
na obě slabiky a v náhodném pořadı́. V (Badin a kol., 1998, 2002; Elisei a kol., 1997) je zaznamenáno 34 symetrických VCV artikulacı́ 10 orálnı́ch samohlásek a 8 souhlásek pro francouzštinu. Stejný kontext hlásek použı́vá
Pelachaudová (Pelachaud a kol., 2001) pro italštinu. Zde každé slovo bylo promlouváno 5 krát. V (Revéret
a kol., 2000) je použito symetrických CVC slov utvořených z 8 francouzských souhlásek a třech vzájemně
nejvı́ce odlišných samohlásek /a/, /i/ a /u/.
Beskow a kol. (2003) použı́vá jak uměle tvořená slova tak i celé věty. Autor zaznamenával data pro
švédštinu. Řečnı́kem byla žena. Bylo promlouváno 41 nesymetrických C1 V C2 slov utvořených z 15 samohlásek
a 4 souhlásek, 138 VCV a VCC(C)V a 270 všednı́ch vět. V pracı́ch (Kuratate a kol., 1998, 1999) byly
zaznamenány pouze celé věty. Japonský řečnı́k 4 krát opakoval 5 vět a anglický řečnı́k 5 krát opakovat 3 věty.
V (Minnis a Breen, 2000) je zaznamenáno 300 krátkých vět představujı́cı́ přes 40 minut řeči a obsahujı́cı́ většinu
možných kombinacı́ anglických hlásek. Masuko a kol. (Masuko a kol., 1998; Tamura a kol., 1998) pro trénovánı́
HMM zaznamenal 216 foneticky vyvážených slov. Maeda a kol. (2002) použili korpus 79 VCV a VC slov pro
24 anglických souhlásek a 20 samohlásek. Pro MPEG-4 je v (Kshirsagar a kol., 2003) zaznamenáno 100 náhodně
vybraných vět z TIMIT databáze. Železný a kol. (2002) zaznamenal 600 foneticky vyvážených českých vět.
Pro video-založené syntézy v (Theobald a kol., 2001) je zaznamenáno 100 foneticky bohatých vět tvořených
9431 snı́mky, (Brooke a Scott, 1998) zaznamenal 200 vybraných vět, které představovali přes 20 minut záznamu.
37
Kapitola 2. Zdroje dat pro mluvı́cı́ hlavy
Ezzat a Poggio (2000) zaznamenali 50 izolovaných slov a v (Ezzat a kol., 2002) nalezneme 15 minut, 152 jedno
a 156 dvouslabičných slov obsahujı́cı́ch 30000 snı́mků a navı́c záznam byl doplněn o 105 krátkých vět. Cosatto
a Graf (1998) použı́val 200 krátkých vět obsahujı́cı́ch však pouze 1000 trifónů a v navazujı́cı́ práci (Cosatto a
Graf, 2000) byl proveden záznam 6 řečnı́ků s celkovým počtem přes 200000 snı́mků.
V uvedeném a trochu nepřehledném souhrnu se těžko hledá společný znak. Můžeme konstatovat, že jsou
častěji zaznamenávány krátká slova, která bývajı́ praktičtějšı́. Výběr materiálu se řı́dı́ podle potřeb, druhu
záznamu a následného použitı́ pro přı́padnou analýzu a animaci. Krátká VCV slova jsou vybı́rána i s ohledem
na použitou strategii řı́zenı́.
38
Kapitola 3
Strategie řı́zenı́ animacı́
Pro produkci vizuálnı́ řeči nestačı́ pouhý animačnı́ model, ale je zapotřebı́ navrhnou také nějaké řı́zenı́.
Techniky řı́zenı́ se použı́vajı́ pro určenı́ časového průběhu animace, jinými slovy určujı́, kdy a do jakých tvarů
se má tvář deformovat. Předpokladem při výběru strategie řı́zenı́, je existence animačnı́ho modelu a také volba
parametrizace. Cı́lem řı́zenı́ je ve většině přı́padů generovánı́ hodnot jednotlivých parametrů. Chronologicky
uspořádané hodnoty nějakého parametru si můžeme představit jako nějakou trajektorii. Pro řı́zenı́ vizuálnı́
řečové produkce se pro realistickou a tedy srozumitelnou animaci musı́ být dodržována určitá pravidla. Jednı́m
z důležitých pravidel je koartikulace, viz kapitola 3.3, jejı́ž zohledněnı́ často přı́mo určuje strategii řı́zenı́ i
modelovánı́ trajektoriı́. Při návrhu správného řı́zenı́ je podmiňujı́cı́ zohlednit principy jakými člověk produkuje
akustickou řeč a jakými vnı́má vizuálnı́ řeč.
3.1 Vznik řeči a odezı́ránı́
Mluva je výsledkem přesné a jemné součinnosti hláskovánı́, kdy se vytvářejı́ základnı́ prvky řeči - hlásky.
Řeč je výsledkem spolupráce hlasového ústrojı́, které vytvářı́ a moduluje hlas, dechového ústrojı́ jako zdroje
proudu vzduchu a mozku, který vše řı́dı́. Když na řeč pohlı́žı́me ze stany odezı́ránı́ (Strnadová, 1998) pak
můžeme vidět aktivnı́ mluvidla, ale ne všechny jeho části. V nejlepšı́m přı́padě vidı́me jen pohyby dolnı́ čelisti a
rtů, za kterými se nám někdy podařı́ spatřit i část zubů a kousek jazyka. Mluvnı́ pohyby se skládajı́ do mluvnı́ch
obrazů neboli gest, které jsou často velmi neurčité. Zvukové rozdı́ly jsou v těchto přı́padech tvořeny v zadnı́ch
částech úst a v rezonančnı́ch dutinách, které vznikly pohybem jazyka za sevřenými zuby. Podle (Strnadová,
1998) nelze pouhým zrakem přesně identifikovat všechny hlásky.
Rychlost mluvy se odvı́jı́ od rychlosti pohybů jazyka. Ten, kdo ovládá rychlé pohyby jazyka, pak umı́ mluvit
rychleji. Obvykle mluvı́ rychleji ženy, někdy až dvakrát rychleji než muži. Rychlým ovládánı́m jazyka můžeme
vyslovit až 300 slov za minutu. Běžná řeč se však skládá z méně než 200 slov za minutu. Důležitá je poloha
jazyka v ústnı́ dutině, vytvářı́ rezonančnı́ prostory různých tvarů a vnikajı́ různorodé průchody vzduchu od
hlasivek. Proto viditelnost jazyka velmi usnadňuje odezı́ránı́.
Löfqvist (1990) prezentuje řeč jako zvuková gesta. Řı́ká, že řeč může být popsána jako zvukové přesuny.
Změnou pozic rtů, čelisti, jazyka, měkkého patra a hlasivkové štěrbiny řečnı́k vytvářı́ variace ve stlačeném
proudu vzduchu procházejı́cı́ho hlasovým traktem. Variace v tlaku a v proudu produkujı́ akustický signál,
který vnı́máme když posloucháme řeč. Tento akustický signál je vědomě strukturován takovou cestou, že může
přenášet lingvistické informace. Artikulačnı́ orgány musı́ být řı́zeny a koordinovány tak, že akustické variace
v produkovaném signálu se přizpůsobujı́ fonetice a fonologii promlouvaného jazyka.
39
Kapitola 3. Strategie řı́zenı́ animacı́
3.2 Audio-vizuálnı́ vnı́mánı́ a „McGurk efekt“
Posluchač použı́vá, aniž by si toho byl vědom, vı́ce zdrojů k rozpoznánı́ a vysvětlenı́ jazykového vstupu.
Spolehlivě použı́vá i vjem vizuálnı́. Informace zı́skané z tváře jsou obzvláště účinné, když vjem akustické řeči je
z části potlačen. Tato degradace může být způsobena přı́tomnostı́ akustického šumu, omezeného přenosového
pásma, ale i sluchovým postiženı́m. Akustické promluvě je úspěšně porozuměno tehdy, když je zachovánı́
akustické řeči alespoň polovičnı́. Rozdı́l mezi těmito dvěma způsoby vnı́mánı́ je ten, že vjem vizuálnı́ řeči nenı́
limitován v situacı́ch, kdy je omezována akustická řeč. Porozuměnı́ nějakému slůvku je odrazem jak akustického
tak i vizuálnı́ho přı́spěvku. Důkazem dvojı́ho vnı́mánı́ je tzv. „McGurkův efekt“ (McGurk a MacDonald, 1976).
Harry Mc Gurk jako prvnı́ pozoroval dvojı́ vnı́mánı́ na promluvě akustické slabiky /ba/ synchronizovaně
spojené s vizuálnı́m ztvárněnı́m hlásky /ga/ a zjistil, že je mozkem vnı́mána a porozuměna slabika /da/ popř.
/tha/, obr. 3.1. Pro názornějšı́ vysvětlenı́ si můžeme např. vzı́t akusticky formulovanou větu „My bab pop me
poo brive“ a synchronizovaně ji doplnit o vizuálnı́ artikulaci „My gag kok me koo grive“, (obě věty nedávajı́
samy o sobě smyl). Výsledek je však takový, že v našem mozku tato kombinace vytvořı́ smysluplný překlad
„My dad taught me to drive“ (Můj otec mě učil řı́dit). Obrácené pořadı́, tedy akustické /ga/ a vizuálnı́ /ba/ však
nezpůsobuje vnı́mánı́ /da/, ale jakousi kombinaci /bga/. Otázkou, proč vizuálnı́ složka tak razantně ovlivňuje
vnı́mánı́ akustické řeči, které je samo o sobě dostatečně informativnı́, se zabývá několik pracı́, zmı́nı́me jen
některé (Green, 1996; Rosenblum a kol., 1997; Massaro, 1998; Massaro a Light, 2004b; Massaro, 2001). Vetšı́
studie je provedena v (MacDonald a kol., 1999), kde byly testovány i jiné kombinace anglických slabik a byla
pozorována jejich záměna.
Obrázek 3.1: „McGurk efekt“.
Schopnost zı́skánı́ řečové informace z tváře závisı́ na třech faktorech: řečnı́kovi, posluchači a podmı́nkách
sledovánı́. Výzkumy ukazujı́ (Massaro a Light, 2004b), že odezı́ránı́ je docela informativnı́ a že vnı́mánı́ vizuálnı́
řeči je úspěšné dokonce tehdy, když nenı́ zaručen přı́mý pohled na tvář a rty. Kromě tohoto se úspěšnost odezı́ránı́
dramaticky nezmenšuje ani při špatné viditelnosti, když je vidět tvář shora, zdola nebo z profilu, nebo když
je většı́ vzdálenost mezi řečnı́kem a pozorovatelem. Ve vzájemně se doplňujı́cı́ akustické a vizuálnı́ řečové
informaci je vždy ta druhá složka, která nenı́ zeslabena, vı́ce informativnı́. Rozdı́l úspěšnosti však také závisı́
na tom, že některé řečové segmenty mohou být v jedné složce dvojznačné, ale ve druhé složce jednoznačně
zprostředkované, viz anglické slabiky /ba/ a /da/, kde je obtı́žné akustické rozlišenı́, ale relativně jednoduché
je odlišenı́ pomocı́ polohy rtů. Právě proto, že se obě složky řeči doplňujı́ a tedy nejsou vzájemně nahraditelné
způsobuje to, že jejich kombinace poskytuje vı́ce informativnı́ zdroj.
3.3 Koartikulace
Koartikulaci si můžeme představit jako vzájemné působenı́ sousednı́ch hlásek v plynulé řeči. Základnı́
princip koartikulace je, že sousedı́cı́ hlásky jsou vyslovovány společně jako slabiky. Přilehlé hlásky na sebe
40
Kapitola 3. Strategie řı́zenı́ animacı́
působı́ a jejich společný mluvnı́ obraz vypadá odlišně, než kdyby byly vysloveny odděleně. Stejná samohláska
vytvářı́ odlišné mluvnı́ obrazy ve spojenı́ s různými souhláskami. Záležı́ také na pořadı́ vyslovenı́ těchto hlásek.
Při každé kombinaci tak docházı́ ke změnám mluvnı́ho obrazu. V plynulé řeči pak docházı́ ke spojovánı́ vı́ce
hlásek do jednoho proudu. Obraz určité hlásky vypadá různě v různých částech řetězce společně vyslovených
slov. Mluvnı́ obraz jinak zřetelné samohlásky se tak může vlivem sousednı́ hlásky doslova ztratit. Vytvářı́ se
tak mluvnı́ obrazy celých slov a to ve všech tvarech a obvyklých slovnı́ch spojenı́ch.
Studiı́ koartikulace se zabýval již v roce 1966 (Öhman, 1966). Vliv koartikulace byl pozorován v akustickém
signálu. Öhman provedl studii na záznamech utvořených z VCV slov různých řečı́. Autor uvádı́, že do řečové
produkce patřı́ dvě hlediska: statické vlastnosti realizace nějakého fonému a dynamická pravidla, která ovládajı́
spojovánı́ řetězce fonémů do plynulé řeči. Autor nalezl pravidla pro znělé hlásky /b/, /d/ a /g/, které jsou
koartikulovány se 4 samohláskami v VCV nesymetrickém kontextu. Pozoroval, že když je mezi-hlásková
souhláska různě měněna, může to být kvůli proměnlivému zatı́ženı́ samohláskovým kontextem. Pozorovánı́
bylo provedeno na hodnotách druhého formantu při VC a CV přechodech. Na obr. 3.2 vidı́me klesajı́cı́ hodnotu
formantové frekvence /y/ pro slovo /agy/ a rostoucı́ pro slovo /ogy/. Artikulačnı́ pohyb z úvodnı́ samohlásky
na /g/ patrně modifikuje samohláskou, která následuje za /g/. Dalšı́ pozorovaný přı́klad byl opačný, kdy prvnı́
samohláska byla držena souhláskou a druhá samohláska byla měněna. Přechod druhého formantu je z prvnı́
samohlásky klesajı́cı́ či rostoucı́ na stejnou hodnotu u druhé samohlásky. Z toho plyne, že prvnı́ samohláska
ovlivňuje přes souhlásku přechod na druhou samohlásku. Přesnost určenı́ formantů byla tehdy 50Hz. Autor
provedl také měřenı́ rozdı́lu frekvence druhého formantu mezi hodnotou v ustáleném stavu a hodnotou na
hranici přechodu VC a CV. Byla provedena rozsáhlá analýza nad těmito daty, rozdělenı́ na stacionárnı́ část a
na přechody. Bylo pozorováno malé souhláskové ovlivňovánı́ formantové frekvence samohlásky ve stacionárnı́
části, v počátečnı́m i v koncovém úseku. Öhman pozoroval i dynamiku přechodů tj. byl pozorován tvar
přechodu formantových frekvencı́. Stejná obecná koartikulačnı́ pravidla jako u švédského řečnı́ka byla zjištěna
pro amerického řečnı́ka. Švédské a americké souhlásky se zdajı́ být se samohláskami vı́ce koartikulačně volné
na rozdı́l např. od ruštiny.
Obrázek 3.2: Na prostřednı́ křivce můžeme pozorovat průběh druhého formantu pro hlásku /g/ v různém samohláskovém kontextu. Můžeme pozorovat odlišný /CV/ předchod způsobený počátečnı́mi samohláskami.
Cohen a Massaro (1993) vysvětlujı́ koartikulaci jako změny v artikulaci řečového segmentu závisejı́cı́ho na
předchozı́ch a následujı́cı́ch segmentech. Pro artikulaci ovlivněnou předchozı́mi hláskami uvádı́ přı́klad změny
artikulace souhlásky /t/ ve slově boot a beet. Přı́kladem změny artikulace závisejı́cı́ na následujı́cı́ch segmentech
je slovo stew, kdy již na začátku promluvy slova docházı́ ke zakulacenı́ rtů.
Studiem koartikulace se zabývá i Löfqvist (1990). Löfqvist zkoumal několik aspektů řı́zenı́ a koordinace
artikulovaných gest během řeči s zdůrazněnı́m na vzorovánı́ gest, soudržnost a agregaci. Provedl rozsáhlou
diskusi nad segmenty řeči. Segment označil jako poskytovatele vnitřnı́ struktury slov či morfémů. Segmentem
řeči může být i celé slovo či morfém. Autor poznamenává, že je-li nějaký systém založen na jednotkách, kde
každá z těchto jednotek je složena z množiny souvisejı́cı́ch vzorů, at’akustických, nebo artikulačnı́ch, pak řeč
je tvořena skládánı́m těchto jednotek. Vznikajı́ však jednoznačné hranice mezi těmito jednotkami a omezenı́
hranic vede na rostoucı́ délkou jednotek. S rostoucı́ délkou jednotek logicky roste i slovnı́k a je obtı́žné tyto
jednotky odděleně shromáždit a udržet je v paměti. Zavedenı́ definice vnitřnı́ struktury segmentů může odstranit
41
Kapitola 3. Strategie řı́zenı́ animacı́
potřebu pamět’ových nároků a velkých slovnı́ků. Segmenty pak nejsou striktně řetězeny po sobě, ale navzájem
se překrývajı́. Právě toto překrývánı́ nazval Löfqvist koartikulacı́. Jako přı́klad uvádı́ přı́pad, kdy sykavka /s/ je
spojena před zakulacenou samohlásku např. /o/. Hláska /s/ je vyslovována se zakulacenými rty, avšak když se
frikativa vyskytuje před nekulacenou samohláskou, pak je vyslovena bez zakulacenı́. Tvar hlasového traktu je
tedy následkem koartikulace způsobené nashromážděnı́m gest odlišných segmentů.
3.4 Syntéza z textu
Řı́zenı́ mluvı́cı́ch hlav může probı́hat z psaného textu nebo akustického signálu. Systémy syntézy z textu
jsou označovány jako „Text-to-Audio-Visual-Speech Synthesis“ (TTAVS). Pro tyto systémy se typicky provádı́
předzpracovánı́ textu, které převádı́ psanou formu textu do fonetické reprezentace. Artikulačnı́ a animačnı́ model
pak má za povinnost převést tuto sekvenci fonémů do podoby vizuálnı́ řeči. Druhou možnostı́, viz kapitola 3.5,
je návrh řı́zenı́ animačnı́ch modelů, které řı́dı́ artikulaci a někdy i neverbálnı́ animaci přı́mo z akustického
řečového signálu. V tomto odstavci se zmı́nı́me o strategiı́ch řı́zenı́ již foneticky přepsaného textu.
3.4.1 Modely řı́zenı́
Öhman jako prvnı́ navrhl numerický model koartikulace. Pro studii vlivů koartikulace zaznamenal tvar
hlasového ústrojı́ pomocı́ rentgenu. Byl měřen pohyb pro švédská slova utvořená v VCV kontextu. Měřenı́
rentgenových snı́mků probı́halo s frekvencı́ 48 snı́mků za vteřinu, cca 20ms na jedno měřenı́. Měřenı́ bylo
v milimetrech. Autor uvádı́, že na jazyk jako artikulačnı́ orgán může být nahlı́ženo jako na tři nezávislé odlišné
části svalového komplexu. Artikulace špičky, hřbetu a celého těla jazyka. Artikulačnı́ gesta jazyka jako „zubové“,
„dásňové“ nebo „ohnutı́ jazyka“ jsou artikulacı́ špičky jazyka, „patrové“ nebo „zadopatrové“ jsou připsány
artikulaci hřbetu jazyka a artikulace jazyka označovány jako „přednı́“, „zadnı́“, „otevřené“ či „uzavřené“ jsou
artikulovány tělem jazyka. V VCV slově určité řeči se zdajı́ být zahrnuty dvě gesta: dvou-hláskové gesta těla
jazyka a gesta znásobeného (navrstveného) svalu svěrače špičky či hřbetu jazyka. Individuálnı́ pohyb každého
z těchto třech artikulačnı́ch systémů má vliv na celé hlasové ústrojı́ a efekt jednotlivých artikulátorů je tak
odlišný pro odlišné současně probı́hajı́cı́ pohyby ostatnı́ch artikulátorů. Nenı́ proto možné spojovat artikulačnı́
tvary hlasového ústrojı́ s mezi hláskovými souhláskami při tvořenı́ nějakého VCV slova, obr. 3.3. Tyto souhlásky
majı́ obecně různé akustické vzory ovlivněné kontextem. Změna tvaru hlasového ústrojı́ souhlásek vložených
mezi dvě hlásky je tak přirozeně následkem koartikulace. Stejný pohybový přı́kaz může být použit pro vytvořenı́
souhláskového gesta v odlišném samohláskovém kontextu, ale výsledkem jsou různé tvary hlasového ústrojı́.
Výsledný tvar je dán spojenı́m těchto souhlásek s proměnlivým samohláskovým kontextem. Öhman stanovil
následujı́cı́ rovnici popisujı́cı́ koartikulaci.
s(t; x) = v(x; t) + k(t)[(x) v(x; t)℄w (x);
(3.1)
Měřenı́ byla definována jako množina hodnot kontury popisujı́cı́ hlasové ústrojı́ v středo-sagitálnı́ rovině.
Výzkum byl proveden na nesymetrických VCV slovech pro „špičkové“ a „hřbetnı́“ souhláskové artikulace a pro
samohlásky /i/, /a/ a /u/. Na obr. 3.3a) můžeme pozorovat odlišnou sagitálnı́ konturu jazyka pro souhlásku /d/
v kontextu /u/ a /a/. Autor popisuje souhlásku jako dva objekty (x) a w (x). reprezentuje cı́l artikulace - tvaru
hlasového ústrojı́ pro konkrétnı́ souhlásku. Ten je zı́skán kdy hnacı́ artikulačnı́ přı́kaz souhlásky byl aplikován
sám a ostatnı́ svalové akce, které se nepodı́lejı́ na artikulaci zůstávajı́ neaktivnı́. Funkce w má hodnotu mezi
0 a 1 a reprezentuje váhu ovlivněnı́ kterou má samohláskový kontext na deformaci cı́lového tvaru (x). w (x)
je nazvána koartikulačnı́ funkcı́ (x). Když je w = 1 pak souhlásky nezávisı́ na přilehlém kontextu. a w
se neměnı́ s časem. v (x) udává tvar pro konkrétnı́ samohlásky a je také časově nezávislá. Parametr k udává
vliv souhlásky na samohlásku a jeho hodnota se měnı́ od 0 do 1 a zpět od 1 do 0 podle vhodné časové funkce.
42
Kapitola 3. Strategie řı́zenı́ animacı́
Obrázek 3.3: a) Odlišná artikulačnı́ poloha jazyka pro hlásku /d/ v samohláskvém konextu /u/ (plná čára) a /a/
(přerušovaná čára). b) Samotná artikulace hlásky /u/ a /a/.
Když je k = 0 pak je s = v (to nastane na začátku a konci VCV slova). v (x) je zı́skáno lineárnı́ kombinacı́
třı́ „extrémnı́ch“ pozic jednotlivých samohlásek. v (x) můžeme tak vyjádřit jako funkci pouze dvou parametrů,
které udávajı́ kompaktnost a vážnost. Tyto parametry se počı́tajı́ z rovnice (3.2).
v(x) = a(x) + u(x) + i(x)
(3.2)
Cı́lová mı́sta artikulace /i/, /a/ a /u/ byla zı́skána z několika promluv těchto hlásek průměrovánı́m. Analytickým
řešenı́m rovnic můžeme zı́skat z VCV promluv cı́lovou artikulaci jednotlivých souhlásek a zároveň zı́skat i
koartikulačnı́ váhu w . Průběh jednotlivých koartikulačnı́ch funkcı́ a výslednou trajektorii parametru můžeme
vidět na obr. 3.4
Obrázek 3.4: Syntéza trajektorie podle Öhmanova modelu.
Löfqvist (1990) zavádı́ tzv. „dominančnı́ funkce“, které popisujı́ segmenty řeči pro jednotlivé části hlasového
43
Kapitola 3. Strategie řı́zenı́ animacı́
traktu. Autor pozoroval koartikulačnı́ vlivy na hlasivkové aktivitě. Měřenı́ prováděl elektromyografem a každé
pozorovánı́ bylo průměrem přes vı́ce měřenı́. V hlasovém traktu měřil interarytenoideálnı́ a prstenco-hlasivkový
sval. Otevřenı́ a uzavřenı́ hlasivek bylo měřeno pomocı́ prosvětlovánı́m hrtanu. Záznam tvořila VCV slova pro
neznělé souhlásky. Výzkum byl proveden i nad různou rychlostı́ řeči. Löfqvist pozoroval, že proměnlivá rychlost
promluvy spojovala dvě gesta do sebe. Na obr. 3.7 můžeme vidět skládánı́ gest a že prolı́nánı́ dvou gest do
sebe nenı́ při rychlé promluvě symetrické. Dále na obr. 3.6 vlevo můžeme vidět navrženou definici segmentu.
Segment obecně nemusı́ být symetrický a na obr. 3.5 vpravo pak můžeme vidět různý stupeň překrývánı́ pro
dva sousedı́cı́ segmenty vztažený s rychlostı́ řeči. Hlasový trak autor popisuje několika částmi, kterými může
být pohybováno nezávisle na sobě. Jednotlivé části majı́cı́ svoje dominančnı́ funkce.
Obrázek 3.5: Löfqvistova definice řečového segmentu. Vpravo pak vidı́me dva stupně překrývánı́ sousedı́cı́ch
segmentů při řetězenı́ řeči.
Obrázek 3.6: Definice segmentu je provedena zvlášt’ pro každý artikulátor. Segmenty pak mohou mı́t různou
intenzitu a tvar.
Jeden z nejznámějšı́ modelů je model koartikulace navržený Cohenem a Massarem (Cohen a Massaro, 1993).
Návrh vyházı́ z Löfqvistovy teorie produkce řeči pomocı́ gest. Jako výhodu vidı́ autoři existenci dominančnı́
funkce, která umožňuje vzájemné překrývánı́ a ovlivňovánı́ artikulacı́. Výhodou je také, že pro každý artikulátor
je definována jedna funkce. Autoři definujı́ pro každý řečový segment a pro každý parametr (artikulátor) dvě
dominančnı́ funkce. Jednu pro ovlivňovánı́ předcházejı́cı́ch segmentů a jednu pro ovlivňovánı́ následujı́cı́ch
44
Kapitola 3. Strategie řı́zenı́ animacı́
Obrázek 3.7: Složenı́ a postupné oddělenı́ segmentů podle rychlosti řeči.
segmentů. Dominančnı́ funkce je dána zápornou exponenciálnı́ funkcı́
D=e
:
(3.3)
Tato funkce je klesajı́cı́ s časem od středu segmentu, obr. 3.8. Rychlost klesánı́ je dána parametrem a
strmost klesánı́ pomocı́ parametru . Rozšı́řenı́m dané funkce a rozdělenı́m na modelovánı́ „dopředné a zpětné“
koartikulace dostaneme:
Dsp = spe sp j j ; pro 0
Dsp = spe !sp j j ; pro < 0
(3.4)
(3.5)
Kde značı́ důležitost segmentu s pro parametr p. sp a !sp značı́ tvar dominance zvlášt’pro předcházejı́cı́
a následujı́cı́ segmenty. Z rovnic (3.4) a (3.5) je pak možné generovat trajektorii složenou z několika segmentů
jako vážený průměr.
Fp (t) =
Kde N je počet segmentů.
PN
D t Tsp)
D t)
s=1 ( sp ( )
PN
s=1 sp (
(3.6)
Goff (1997) rozšı́řil předchozı́ návrh na tvar dominančnı́ funkce (3.7) a navrhl také metodu automatické
extrakce koeficientů z měřenı́ch provedených na řečnı́kovi. Automatická extrakce je provedena pomocı́ minimalizace Eukleidovské vzdálenosti syntetizované a měřené trajektorie.
n 1
X i
f (t) = e i jt t0 j j!
j =0
j
jt t0jj
(3.7)
Pro každou vizémovou třı́du a pro každý parametr byly definovány 4 koeficienty (, 1 , 2 a T ), celkem
470 proměnných. Trénovánı́ proběhlo na větách obsahujı́cı́ch V1 CV2 CV1 slova, kde V1 a V2 byly /a/, /i/, /y/
a za C byly dosazeny všechny francouzské souhlásky. Optimalizace byla provedena pro každý z 6 parametrů
zvlášt’. Modifikaci Cohen-Massaro koartikulace použil i Cosi a kol. (2002a). Pro řešenı́ známých problémů
s řı́zenı́m artikulace zuboretnı́ch a retoretných souhlásek přidal Cosi časový posun od středu segmentu a změnu
konstantnı́ho koeficientu . Výsledná trajektorie se počı́tá nejen z dominančnı́ funkce, ale i z časové a tvarové
funkce. Krňoul a Železný (2003) použili Cohen-Massaro koartikulaci pro řı́zenı́ vizuálnı́ syntézy češtiny.
V (Revéret a kol., 2000) je však zmı́něno, že koartikulace nemůže být redukována na jednoduché mı́chánı́
překrývajı́cı́ch se gest a na aplikaci dominančnı́ch funkcı́. V práci je použit raději Öhmanův model, který podle
autora nabı́zı́ přesné a robustnı́ řešenı́. Pelachaud a kol. (1996) použila také model řı́zenı́ podobný k Öhmanovu
modelu. Italské fonémy jsou shlukovány do skupin vizémů klasifikovaných podle různých deformačnı́ch rozsahů. Každý rozsah určuje jaký vliv má vizém na svůj kontext. Beskow (1995) prezentuje model koartikulace
založený na pravidlech. V tomto modelu je pro každý foném určen artikulačnı́ vektor parametrů (cı́lů). Přı́pad,
45
Kapitola 3. Strategie řı́zenı́ animacı́
Obrázek 3.8: Model koartikulace (Cohen a Massaro, 1993). Nahoře můžeme vidět průběh dominančnı́ funkce pro
dva řečové segmenty a dole pak výslednou trajektorii.
kdy nějaký artikulačnı́ cı́l je ovlivňován svým kontextem je proveden tak, že se jeho hodnota nedefinuje. Při
řı́zenı́ artikulace je pak hodnota tohoto nedefinovaného parametru odvozena z kontextu. Výsledná trajektorie
je nakonec vyhlazena. Např. pro slovo V1 CCCV2 , kde V1 je nekulatá samohláska a V2 je kulatá samohláska,
je pro souhlásky C nedefinována hodnota kulatosti rtů. Hodnota parametru na CCC přechodu je odvozena
lineárnı́ interpolacı́ z obou V1 a V2 kontextů.
Existujı́ však také modely řı́zenı́, které se nepokoušı́ vycházet z teorie produkce řeči, která byla originálně
koncipovaná jako nástroj k studii řeči. Ne vždy je při návrhu mluvı́cı́ch hlav brán striktnı́ důraz na řečový model.
Budeme-li obecně pohlı́žet na koartikulaci jen jako na modelovánı́ nějaké trajektorie, pak existuje celá řada
matematických a statistických metod, které mohou být aplikovány. Pelachaud a kol. (2001) modeluje trajektorie
4 artikulačnı́ch parametrů pro V CV slova jako vážený součet radiálně založených funkcı́ (RBF)
fj (t) =
X
i
i e
jt
time(ti )j2
i2
;
(3.8)
kde i a i jsou parametry, které tuto funkci definujı́. Každá VCV trajektorie (křivka) má tři maxima (nebo
minima), které odpovı́dajı́ jednotlivým hláskám. V naměřených trajektoriı́ch uložených v Curvei (t) jsou
nalezeny časy výskytu těchto extrémů a uloženy do time. Aproximačnı́ metody pak minimalizujı́ vztah
min(fi (t) Curvei (t))
(3.9)
pomocı́ kvazi-Newtonova algoritmu, který předpokládá znalost gradientu funkce podle neznámých parametrů.
Tato funkce je podobná vztahu (3.3), zde jsou ale pro každý segment použity tři funkce. Tři neznámé parametry
byly estimovány z korpusu složeného VCV slov. V (Bevacqua a Palachaud, 2003) je prezentován koartikulačnı́
model založený na trifónech. Souhlásky jsou modelovány pouze jednı́m vektorem a definované mı́sto artikulace
nemusı́ být dosaženo pouze uprostřed segmentu. Pro samohlásky se definujı́ navı́c dva vektory, nalevo a napravo
od středové artikulace. Samohláskový koartikulačnı́ kontext je u souhlásky popsán výčtem možných tvarů
46
Kapitola 3. Strategie řı́zenı́ animacı́
Obrázek 3.9: Ukázka regresnı́ho stromu. Určenı́ artikulace nějaké hlásky je provedeno podle jejı́ho kentextu.
zı́skaných z měřenı́. Koartikulace je popsána pomocı́ logické funkce s časovou závislostı́ a třemi koeficienty.
Fagel a Clemens (2003) prezentujı́ hned dva artikulačnı́ modely. Prvnı́ artikulačnı́ model je navržený z měřených
dat. Trajektorie je řetězena podle naměřených segmentů řeči, které jsou navı́c váženy. Data jsou měřena pro
kombinace CV německých slabik složených do slova CVCVCVCV např. /mamamama/. Druhý model je založen
na pravidlech, která jsou odvozena z prvnı́ho modelu. Escher a kol. (1999) použı́vá pro MPEG-4 animaci funkci
pro mı́chánı́ intenzity jednotlivých akcı́, které jsou méně zaměřena na vizuálnı́ řeč a spı́še řı́dı́ mimiku celé
tváře.
Skryté Markovovy modely (HMM) jsou známá statistická metoda z rozpoznávánı́ řeči. Tamura a kol.
(1998) použili HMM pro generovánı́ trajektoriı́, kde každá slabika je představována sekvencı́ stavů. Každý stav
je popsán hustotnı́ funkcı́ Gaussovské pravděpodobnosti. Optimálnı́ trajektorie parametrů je zı́skána řešenı́m
soustavy lineárnı́ch rovnic. Podobný návrh můžeme nalézt u syntéz video založených animacı́. Ezzat a kol.
(2002) generujı́ trajektorie podle matematických vztahů. Trajektorie je utvořena nalezenı́m křivky, která optimalizuje kombinaci ceny pozice a vyhlazovacı́ho kritéria. Cena pozice je určena mı́rou přiblı́ženı́ trajektorie
k pravděpodobnostnı́mu rozdělenı́ hodnot parametrů daného segmentu. Kritérium vyhlazenı́ minimalizuje diferenciálnı́ rovnici čtvrtého řádu modelujı́cı́ syntetizované trajektorie. Autoři použili pro přetrénovánı́ střednı́
hodnoty a rozptylu Gaussovského rozloženı́ iterativnı́ minimalizačnı́ proceduru a kompenzovali tak zprůměrované přechody mezi fonémy.
Galanes a kol. (1998) použı́vá pro řı́zenı́ artikulace regresnı́ stromovou strukturu. Tato struktura je zı́skána
z měřených dat pro každý foném a má zachycovat změny artikulace podle kontextu. Pro trénovánı́ stromových
struktur nejprve identifikovali v naměřených trajektoriı́ch lokálnı́ extrémy hornı́ho a dolnı́ho středu rtů. Dalšı́m
krokem bylo spojenı́ každého změřeného fonému s vektorem popisujı́cı́ jeho artikulaci (často artikulačnı́ mı́sto
uprostřed segmentu). V naměřených datech jsou určeny všechny fonémové hranice. Ke každému fonémovému
segmentu je zapamatován kontext (levý a pravý foném), relativnı́ čas trvánı́ a popisujı́cı́ vektor. Data jednotlivých
fonémů z celého měřenı́ tvořı́ prvotnı́ shluky (kořeny stromů). Každý uzel stromu je vždy dělen na dva uzly
podle určitého kritéria. Jednotlivá kritéria dělenı́ jsou velmi obecná např. „Je pravý kontext znělý?“, ale i
velmi určitá např. „Je levý kontext /a/?“. Takto je pro každý shluk zı́skána podmnožina dvou shluků, která je
dále dělena až do dosaženı́ koncového kritéria, kterým je často minimálnı́ počet vektorů ve shluku (v práci je
použito min = 5). Při dělenı́ se také zohledňuje podmı́nka rozptylu dat ve shluku. Součet rozptylů dat v nově
vytvářených shlucı́ch nesmı́ být většı́ než před rozdělenı́m, obr. 3.9. Při syntéze je pomocı́ stromu generován
parametrický vektor i pro neznámý kontext, tj. kontext který nebyl v zaznamenán v měřenı́. Vektor je spočten
jako hodnota centroidu vektorů koncového uzlu. Výsledné trajektorie jsou vyhlazené pomocı́ spline funkce.
Cosatto a Graf (2000) se inspirovali postupy aplikovanými v akustické syntéze řeči. V této oblasti se
často uplatňujı́ metody řetězenı́ jednotek řeči, které jsou definovány jako kontextově závislé. Často použı́vané
jsou trifóny. Metoda řetězenı́ jednotek je použita i v (Hällgren a Lyberg, 1998). Vzorové trajektorie řı́dı́cı́ch
bodů jsou nejprve zı́skány z optického trasovánı́. Z těchto trajektoriı́ jsou vybrány jednotky a z nich jsou
pouhým řetězenı́m utvářeny nové trajektorie. Beskow (2004) prezentuje řı́zenı́ animace založené na neuronové
sı́ti (ANN). Rekurentnı́ neuronová sı́t’ byla trénována z dat optického měřenı́. Vstupem neuronové sı́tě byl
přı́mo výrazový vektor zı́skaný z jednoho měřeného snı́mku. Sı́t’ byla utvořena třemi vrstvami s rekurzivnı́
47
Kapitola 3. Strategie řı́zenı́ animacı́
zpětnou vazbou. Patnáctisnı́mkové posunutı́ zpět a dopředu je modelováno ve vstupnı́ vrstvě jako časový
posun. Účelem je postiženı́ dynamických koartikulačnı́ch vlastnostı́. Snı́mková frekvence byla 60Hz a sı́t’
postihovala koartikulačnı́ rozsah + 250ms. Pro každý animačnı́ parametr byla utvořena vždy jedna sı́t’.
V (Sams a kol., 2000) koartikulačnı́ model předpokládá tři vlastnosti každého vizému. Prvnı́ dvě vlastnosti
jsou „dopředná a zpětná“ dominance popisujı́cı́ vliv na předcházejı́cı́ resp. následujı́cı́ vizém. Třetı́ vlastnostı́
je citlivostnı́ koeficient, který popisuje o kolik může být daný vizém ovlivněn přilehlým kontextem. Hodnota
citlivosti může být mezi 0 a 1.
V MPEG-4 je animace řı́zena pomocı́ animačnı́ tabulky „Facial Animation Table“ (FAT). FAT definuje jak
má být model deformován. Na obrázku obr. 3.10 vlevo je ukázán přı́klad popisu animace definované pro FAP6
a FAP23. Je definován interval, ve kterém je možné měnit hodnotu daného FAP a počet kroků, ve kterých
se může hodnota měnit. Změna animačnı́ho parametru je dána jako změna jeho umı́stěnı́ v 3D prostoru. Na
obrázku vidı́me závislost prostorového posunutı́ na hodnotě FAP. Obecně nelineárnı́ změna hodnoty parametru
je tedy aproximována po částech lineárnı́ funkcı́, obr. 3.10 vpravo.
Obrázek 3.10: Vlevo: definice řı́zenı́ animace v MPEG-4 standardu pro FAP6 a FAP23. Vpravo pak vidı́me
počástech lineárnı́ aproximaci výsledné trajektorie.
Některé výše zmı́něné koartikulačnı́ modely je možné trénovat z měřených dat. Často velké množstvı́ neznámých koeficientů funkcı́ je automaticky trénováno za účelem nejlepšı́ aproximace trajektoriı́. Tyto techniky
trénovánı́ využı́vajı́ optimalizačnı́ algoritmy, které minimalizujı́ chybu mezi generovanou a naměřenou trajektoriı́. Výhody syntézy trajektoriı́ z naměřených dat jsou oproti syntézám definovaným pravidly takové, že se
nemusı́ ručně definovat pravidla pro každý segment řeči a tedy odpadá časová náročnost na ručnı́ práci. Řı́zenı́
modelu je zı́skáno z často automaticky naměřených dat a je tedy možné provést změny řı́zenı́, jako je např.
přetrénovanı́ modelu pro jiný jazyk. Výhoda syntéz založených na pravidlech je zase ta, že majı́ individuálnı́
přı́stup ke každému segmentu řeči a mohou tak přı́padně jeho artikulaci opravit či zvýraznit. Jak je uvedeno
v (Cohen a Massaro, 1993), žádný z těchto modelů nenı́ univerzálnı́. Svůj názor obhajujı́ tı́m, že pro každý
jazyk existujı́ specifická pravidla, která postihujı́ mı́stnı́ artikulačnı́ situace. A tak se setkáváme pro různé jazyky
s volbami pro ně nejvhodnějšı́ strategiı́ řı́zenı́. Mnohem obecnějšı́ teorie je však výzvou.
3.5 Syntéza z akustického signálu
Cı́lem této strategie řı́zenı́ je modelovat artikulaci přı́mo z akustického signálu zachycujı́cı́ho nějakou řeč.
Podle (Kuratate a kol., 1999) je možné z akustického signálu estimovat vı́ce jak 60% pohybů tváře a zajı́mavé
je, že zpětná estimace akustického signálu z pohybů tváře může být lepšı́ než 70%. Jednou praktickou aplikacı́
této strategie je projekt „Teleface“, kde je mluvı́cı́ hlava použita pro převod telefonnı́ho hovoru na animaci
48
Kapitola 3. Strategie řı́zenı́ animacı́
rtů, viz 5. Samozřejmě má tato strategie řı́zenı́ uplatněnı́ i v dalšı́ch komunikačnı́ch systémech simulujı́cı́
virtuálnı́ prostředı́. Každý uživatel může použı́t k animaci vlastnı́ hlas. Uplatněnı́ můžeme najı́t i v klasickým
počı́tačových animacı́ch. Automatická synchronizace tedy přinášı́ značné zjednodušenı́. Problematika tohoto
řı́zenı́ je řešena na mnoho pracovištı́ch. Jsou studovány principy mapovánı́ akustických znaků do vizuálnı́ch
parametrů, které pak řı́dı́ animaci tváře (Lewis a Parke, 1986; Kshirsagar a Magnenat-Thalmann, 2000; Agelfors
a kol., 1999; Morishima, 1998; Massaro a kol., 1999; Faruquie a kol., 2001; Hong a kol., 2002; Öhman a Salvi,
1999; Lavagetlo a kol., 1997; Tamura a kol., 1998; Kuratate a kol., 1999).
Lineárnı́ prediktivnı́ analýza (LPA) je hojně užı́vaná technika pro analýzu a kódovánı́ řeči. V roce 1986
Lewis a Parke (1986) použili lineárnı́ predikce pro fonémové rozpoznánı́. Rozpoznané fonémy jsou asociovány
s pozicı́ úst parametrické animace tváře. Lineárnı́ predikce je v práci použito i pro akustickou syntézu. Řešenı́
problému synchronizace se zdá být snadnějšı́m než u rozpoznávánı́, nebot’exituje jen limitovaná množina pozic
úst, tedy vizémů. Lewis a Parke (1986) použili autoregresnı́ filtr (3.10). Signál st v čase t je definován jako
vážený součet budı́cı́ho signálu x(t) a minulých výstupů filtru. Koeficienty ak popisujı́ krátkodobé řečové
spektrum.
st = xt +
P
X
k =1
ak st
(3.10)
k
Koeficienty ak jsou časově proměnné, ale po krátký interval je považujeme za konstantnı́. Je tedy předpokládáno,
že tvar hlasového ústrojı́ se v tomto okamžiku neměnı́. Analýza je provedena s okénkem 15 20ms, což
představuje 50 65 snı́mků u videa (jeden snı́mek = jedno okénko). Algoritmus pracuje tak, že se pro daný
snı́mek spočı́tajı́ koeficienty mezi aktuálnı́ a predikovanou řečı́. Výpočet probı́há s pomocı́ metody nejmenšı́ch
čtverců, viz (3.11). Výsledkem je matice jejı́ž prvky tvořı́ tzv. auto-korelačnı́ funkce.
(
"
Er = E st
E
ak
xt +
P
X
k =1
ak st
#)2
(3.11)
k
= 0
(
E stst
j
P
X
k =1
xt st
(
j
+
P
X
k =1
)
ak st k st
ak R(j k) = R(j )
j)
= 0
(3.12)
Synchronizace řeči je dosaženo tak, že je pro analyzovaný snı́mek spočteno spektrum (zı́skáno Z-transformacı́
nebo Fourierovou transformacı́) a je provedena klasifikace pomocı́ Eukleidovské vzdálenosti od referenčnı́ho
fonému. Algoritmus byl navržen pro šest samohlásek (americká angličtina) a jen tři souhlásky. Výsledek byl
ten, že samohlásky byly jednoduše identifikovány, ale u souhlásek byla synchronizace obtı́žnějšı́. Např. při
promluvě /t/ na konci slova mohou ústa zůstat otevřené pro nedechnutı́ na dalšı́ slovo, obráceně je tomu u /m/,
kdy jsou ústa vždy striktně uzavřena (nosovka). Výsledkem bylo přesto spolehlivé rozlišovánı́ 5 zvuků. Pro
animaci byl použit Parkeův model tváře.
Intuitivnı́ cestou k sychronizaci animace je klasické rozpoznánı́ textu a následné použitı́ animace tváře řı́zené
z textu jednı́m z modelů z kapitoly 3.4. Tento postup proto nalezneme hned v několika pracı́ch. Jednı́m postupem
je použitı́ HMM. Postupy založené na HMM jsou úspěšně použı́vány při akustickém rozpoznávánı́ řeči a proto
tento postup aplikovali i Öhman a Salvi (1999). Trénovali HMM pro rozpoznávánı́ a segmentaci švédských
fonémů. Řečnı́kově nezávislé HMM byly trénovány na foneticky přespaných telefonnı́ch rozhovorech. Jednalo
se o 13000 telefonnı́ch záznamů od 1000 účastnı́ků vzorkovaných na 8kHz . Tento materiál byl foneticky
přepsán a parametrizován do 10ms okének s 12 Melovskými kepstrálnı́mi koeficienty a energiı́. Byly také
přidány dynamické parametry. Výstupem rozpoznánı́ byl řetězec fonémů, který sloužil jako vstup pro syntézu
49
Kapitola 3. Strategie řı́zenı́ animacı́
založenou na pravidlech. Autoři provedli také experimenty s kontextově nezávislými jednotkami, s kontextově
závislými jednotkami, tzv. difóny a trifóny a s vizémy. Tamura a kol. (1998) pomocı́ sekvence HMM stavů
modelovali japonské slabiky. Autoři použili modely se spojeným parametrickým vektorem, který obsahoval jak
akustické tak i vizuálnı́ parametry. Tyto modely jsou natrénovány na audio-vizuálnı́ (AV) databázi. Neznámá
akustická řeč je rozpoznána pomocı́ akustické části modelů a je určena sekvence fonémů. Podle této sekvence
se zřetězı́ natrénované AV modely a z nich je provedena audio-vizuálnı́ syntéza, obr. 3.11.
Obrázek 3.11: Schéma syntézy vizuálnı́ řeči pomocı́ HMM. Vlevo vidı́me trénovacı́ fázi. Vpravo je pak část
rozpoznávánı́ a část pro generovánı́ vizuálnı́ch parametrů.
Jednou nevýhodou zmı́něných návrhů rozpoznávajı́cı́ nejprve text je, že výsledná animace je pro rozpoznané
jednotky výborná, ale pro nerozpoznané úplně nepřijatelná. Např. je-li nějaká zado-patrová hláska rozpoznaná
jako hláska obouretná, pak výsledná animace je velmi matoucı́.
Následujı́cı́ návrhy jsou založeny na principu trénovánı́ nějaké funkčnı́ závislosti. Zı́skaná funkce pak
popisuje přı́mo vztah akustických a vizuálnı́ch vzorů. Hojně jsou zde využı́vané neuronové sı́tě (ANN). Výhodou
ANN je, že se neprovádı́ klasifikace a tedy nevzniká žádná klasifikačnı́ chyba. Dalšı́ výhodou je, že ANN dı́ky
přı́mému odvozenı́ vizuálnı́ch parametrů mohou zahrnout koartikulačnı́ vlivy a při řı́zenı́ nenı́ zapotřebı́ dalšı́ch
složitých modelů či pravidel. Öhman a kol. (Öhman a Salvi, 1999; Agelfors a kol., 1999) použil ANN pro přı́mé
mapovánı́ akustických parametrů do vizuálnı́ch parametrů. Použili třı́vrstvou sı́t’s 13 neurony ve vstupnı́ vrstvě,
s 50 ve skryté a 8 ve výstupnı́ vrstvě. Vstup sı́tě odpovı́dal 13 akustickým parametrům a každý výstupnı́ neuron
odpovı́dal jednomu vizuálnı́mu parametru. Skrytá vrstva byla rekurentně spojena. Pro trénovánı́ sı́tě sloužila
zmı́něná akustická parametrizace a také foneticky přespané a zarovnané telefonnı́ hovory. Fonetické řetězce
byly převedeny na trajektorie 8 vizuálnı́ch parametrů. Schéma systému můžem vidět na obr. 3.12.
V práci (Morishima, 1998) je použita třı́vrstvá ANN, vstupem bylo LPC kepstrum a výstupem 13 vizuálnı́ch
parametrů. I mluvı́cı́ hlava Baldi je řı́zena z akustické řeči pomocı́ ANN (Massaro a kol., 1999). Postup je
podobný Öhmanovu návrhu. Je zajı́mavostı́, že autoři raději než dynamické měřenı́ artikulace pro trénovánı́
sı́tě použili trénovacı́ data zı́skaná z výstupu TTAVS systému. Výhoda návrhu je, že nenı́ zapotřebı́ speciálnı́ho
50
Kapitola 3. Strategie řı́zenı́ animacı́
Obrázek 3.12: Schéma systému pro akustické řı́zenı́ animace pomocı́ neuronové sı́tě.
měřenı́ a je postačujı́cı́ nějaký audio-záznam řeči. ANN byla trénována na anglický jazyk z jednoslabičných
slov a z telefonnı́ch hovorů. Akustická data byla parametrizována s 13 kepstrálnı́mi koeficienty, převedena
na frekvenci 50Hz a foneticky zarovnána pomocı́ přepisu a Viterbiho algoritmu. Zı́skaný fonetický řetězec
byl převeden pomocı́ Cohen-Massaro artikulačnı́ho modelu, vztah (3.6), na sekvenci hodnot 39 vizuálnı́ch
parametrů. 400 slov bylo použito pro trénovánı́ a 68 pro testovánı́. ANN modelovala časový kontext + 5 snı́mků
a na každý animačnı́ parametr připadalo 143 vstupnı́ch neuronů a 39 výstupnı́ch a 600 neuronů ve skryté vrstvě.
Bylo provedeno objektivnı́ i subjektivnı́ ohodnocenı́. Hong a kol. (2002) klasifikoval každý akustický snı́mek
do jedné z 41 skupin. Pro každou tuto skupinu je použita jedna ANN, která převádı́ akustické vzory této skupiny
do vizuálnı́ch vzorů. Vizuálnı́ vzory jsou popsány pomocı́ PCA komponent. Návrh je prezentován pro řı́zenı́
tváře v reálném čase.
Lavagetlo a kol. (1997) použil 4 vrstvou ANN se zpožděnı́m pro predikci devı́ti artikulačnı́ch parametrů
z 12 normalizovaných kepstrálnı́ch koeficientů. Animace jen pouze 2D oblasti úst. Kontext je v této ANN
představován aktuálnı́m vstupnı́m akustickým vzorem a několika předcházejı́cı́ch a následujı́cı́ch vzory. Sı́t’byla
trénována na 1100 snı́mků, tj. cca. 55 vteřin italské řeči. Nejlepšı́ch výsledků bylo dosaženo s ANN se dvěma
skrytými vrstvami obsahujı́cı́ 8 a 3 neurony. LPA spolu s použitı́m ANN je použito k synchronizaci animace rtů
i v (Kshirsagar a Magnenat-Thalmann, 2000). Vstupnı́ signál 10kHz je krátkodobě zpracován s okénkem 20ms.
Hlasový trakt je aproximován jako filtr a z LPA je vybráno 12 koeficientů. Hodnoty těchto koeficientů jsou
spočı́tány ze zaznamenaných samohlásek /a/, /e/, /i/, /o/ a /u/. Byly použity promluvy 12 mužských a 5 ženských
hlasů. Dále jsou data použita pro trénovánı́ ANN. ANN je složena ze třı́ vrstev se zpětnou propagacı́ a
s 10 neurony ve skryté vrstvě a 5 výstupnı́mi neurony. Trénovánı́ sı́tě bylo provedeno v 5 cyklech s náhodným
pořadı́m vstupnı́ch samohlásek. Natrénovaná sı́t’klasifikuje signál do jedné z těchto pěti třı́d. Pro každý snı́mek
je navı́c spočı́tána energie (nultý autokorelačnı́ koeficient) a tato hodnota je použita pro modelovánı́ intenzity
samohlásky. Pro detekci souhlásek v řečovém signálu je použit výpočet energie. Jelikož souhlásky vznikajı́
sevřenı́m určitých částı́ hlasového traktu, pak při produkci souhlásky klesá energie signálů. Autorka zmiňuje,
že výsledky nejsou tak dobré jako při fonetickém rozpoznávánı́, ale pro animaci tváře v reálném čase jsou
postačujı́cı́.
Kuratate a kol. (1999) uvádı́, že vztah mezi tvarem hlasového traktu a pohyby tváře se zdá být docela
lineárnı́m. Vztah mezi hlasovým traktem a akustickou složkou je však jistě nelineárnı́ a tı́m i vztah mezi pohyby
tváře a akustickou složkou je nelineárnı́. Podle předchozı́ch studiı́ Kuratate zavádı́ nelineárnı́ mapovánı́ LSP do
pohybů tváře s pomocı́ ANN. Výsledné mapovánı́ bylo stabilnı́ a ve zpětné vazbě nevznikala žádná chyba.
51
Kapitola 4
Způsoby ohodnocenı́ mluvı́cı́ch hlav
Z výše uvedených souhrnů můžeme konstatovat, že počı́tačové mluvı́cı́ hlavy použı́vajı́ rozmanité techniky
pro různé oblasti použitı́. Jednı́m spojujı́cı́m cı́lem je, že konečným uživatelem je člověk. Stěžejnı́m ohodnocenı́m mluvı́cı́ch hlav by měl být tedy subjektivnı́ vjem výsledné animace. Metody ohodnocovánı́ měřı́ stupeň
správnosti řešenı́ s ohledem na plánované použitı́. Ohodnocenı́ proto může být zaměřeno na stupeň realističnosti, na správnost artikulace nebo na komunikativnost neverbálnı́ch gest. Vizuálnı́ realističnost mluvı́cı́ hlavy
je subjektivně ohodnocována tak, že se hodnotı́ vizuálnı́ podobnost modelu reálnému vzoru. Dobré vizuálnı́
realističnosti je obvykle dosaženo ve video-založených syntézách a horšı́ pak v modelově založených syntézách.
Důvod dobrých výsledků video-založených syntéz je způsoben tı́m, že k syntéze se použı́vajı́ fotografie. Může
se však stát, že stupeň realističnosti značně poklesne v okamžiku, kdy mluvı́cı́ hlava začne animovat řeč.
Ohodnocenı́ pohybů u video založených syntéz může být provedeno pouze ze sekvence snı́mků, (Geiger
a kol., 2003). V testu byly předkládány sekvence snı́mků a 22 osob hodnotilo, zda daná sekvence je složena
ze syntetizované nebo reálné lidské hlavy. Výsledek tohoto testu se blı́žil k 50% (náhoda), což znamená, že
osoby nebyly schopny rozeznat syntetizovanou hlavu od reálné. Druhým testem, který autoři provedli, bylo
ohodnocenı́ odezı́ránı́ řeči. Stejné osoby hodnotily kvalitu animace řeči. Výsledek však byl od předchozı́ho dosti
odlišný. U sekvencı́ obsahujı́cı́ syntetizovanou řeč bylo dosaženo horšı́ch výsledků než u sekvencı́ vybraných
z reálného záznamu, viz kapitola 4.2. Z tohoto vyplývá, že při ohodnocovánı́ se musı́ brát v úvahu i hledisko
realističnosti pohybů a deformacı́ tváře. Obecně dobrých výsledků přirozených deformacı́ je dosahováno u svalově založených animacı́. Jak již bylo zmı́něné výše, jsou tyto modely schopny správně předpovı́dat a animovat
vrásky, boule a dalšı́ přirozené následky svalových akcı́. Avšak ani tyto modely, nejsou-li správně řı́zeny, nemajı́
tzv. komunikativnı́ realističnost. Tento pojem zavedl Beskow, kdy vyzdvihuje správnost artikulačnı́ch pohybů
nad vizuálnı́ i svalovou realističnostı́. Je proto správné, že u většiny mluvı́cı́ch hlav je kladen důraz na animaci
řeči vhodnou pro odezı́ránı́. Dále se proto zmı́nı́me o porovnánı́m právě z tohoto hlediska.
Přı́mé porovnánı́ výsledků všech existujı́cı́ch studiı́ nenı́ možné z několik důvodů. V některých pracı́ch
nenı́ prezentováno žádné ohodnocenı́ a v jiných studiı́ch jsou pak požı́vány různé metriky ohodnocenı́. Proto se
pokusı́me jednotlivé postupy rozdělit. Obecně můžeme rozdělit ohodnocovánı́ mluvı́cı́ch hlav na objektivnı́ a
subjektivnı́. Subjektivnı́ porovnávánı́ se použı́vá pro modely řı́zenı́ odvozené z nějakého dynamického měřenı́,
kdy kvalita syntézy řeči je hodnocena podobnostı́ syntetizovaného signálu k signálu měřenému. Subjektivnı́
porovnánı́ je prováděno nejčastěji pomocı́ různých poslechových a pozorovacı́ch testů.
4.1 Objektivnı́ ohodnocenı́
Objektivnı́ ohodnocenı́ může být provedeno, s ohledem na (Cohen a kol., 2002), pomocı́ „Root Mean Squared
Error“ (RMSE), kdy se počı́tá průměrná chyba mezi naměřenou a syntetizovanou trajektoriı́ normalizovaných
hodnot parametrů. RMSE je počı́táno přes testovacı́ množinu dat jako procentuálnı́ chyba odchylek trajektoriı́.
52
Kapitola 4. Způsoby ohodnocenı́ mluvı́cı́ch hlav
Trajektorie však musı́ být normalizovány na rozsah 0–1. Výsledkem ohodnocenı́ by měla být, jelikož jde
o chybu, co nejmenšı́ hodnota, nejlépe pak nula.
RMSE =
1
N
X
N 2 t=1
zt
( ( )
y(t))2 100%
(4.1)
Tato mı́ra je však podle (Beskow, 2004) nevhodná. RMSE může být zavádějı́cı́ v přı́padech, kdy přı́mo porovnáváme artikulačnı́ trajektorie. Výsledek RMSE je závislý na amplitudě signálu. V mı́stech velké amplitudy se
hodnota chyby zvětšuje, ale v mı́stech malé amplitudy se malá odchylka započı́tává méně. Důležité artikulace
se však uskutečňujı́ právě při malých amplitudách, např. správné sevřenı́ rtů pro hlásku /m/ a /b/ pak nemusı́
být správně ohodnoceno. Korelačnı́ koeficient je lepšı́m odhadem srovnánı́ tvarů artikulačnı́ch trajektoriı́. Potvrzenı́m může být i fakt, že se rozsah velikosti otvoru úst při produkci např. frikativ a oklusiv pohybuje jen
v několika mm2 (Elisei a kol., 1997). Korelačnı́ koeficient popisuje závislost dvou náhodných veličin. Hodnota
korelačnı́ho koeficientu blı́žı́cı́ se k 1 nám naznačuje dobrou estimaci signálu.
orr =
ov(y(t); z (t))
2
(var (y (t))var (z (t)))
(4.2)
U daty řı́zených modelů je hojně použı́vaná analýza měřených dat pomocı́ PCA a proto se u těchto návrhů
setkáváme s ohodnocenı́m kvality rekonstrukce naměřených dat z vybraných komponent pomocı́ celkového
zachovánı́ variance. Podle vztahu (4.3) je vypočı́táno procentuálnı́ zachovánı́ variance měřeného signálu y (t)
a rekonstruovaného signálu z (t). Při analýzách se zkoumá, jaký přı́spěvek má každá komponenta. Výsledný
součet všech variancı́ pro vybrané nejvı́ce informativnı́ komponenty se blı́žı́ ke 100%.
var =
var(z (t))
100%
var(y(t))
(4.3)
Objektivnı́ měřenı́ může být úspěšně použito pro zhodnocenı́ výsledků jednoho modelu, avšak správného
vzájemného porovnánı́ různých modelů může být dosaženo jen v přı́padě, že trénovánı́ modelů bylo provedeno
na stejných datech. Tohoto stavu však většinou nenı́ dosaženo a to i z prostého důvodu, že mluvı́cı́ hlavy jsou
navrhovány pro různé řeči.
4.2 Subjektivnı́ ohodnocenı́
Zatı́mco objektivnı́ ohodnocenı́ nás informuje, jak dobře různé řı́dı́cı́ modely vypočı́távajı́ hodnoty animačnı́m parametrům, nenı́ však zřejmé, jaký majı́ dosažené výsledky vztah ke kvalitě výsledné animace. Subjektivnı́
studie se zaměřujı́ na otázku, jaké je porozuměnı́ audio-vizuálnı́ řeči. Testy se provádějı́ s akustický signálem
produkovaným řečnı́kem nebo TTS systémem, ale také bez akustické podpory. Akustický signál je simulačně
zatěžován různým stupněm šumu. Zastoupenı́ šumu je často udáváno poměrem zdrojového signálu a šumu na
pozadı́ (S/N) a to nejčastěji v rozsahu +6 až 18dB , kdy pro 18dB je dosaženo úplné akustické nesrozumitelnost. Akustický signál je pak doplněn o synchronizovanou animaci rtů, nebo celé tváře, nebo také o video
sekvenci reálné tváře.
Vysvětlenı́ přı́spěvku vizuálnı́ složky můžeme obecně ukázat např. na obr. 4.1. Z obrázku je vidět, že skóre
porozuměnı́ pouze pro akustickou řeč klesá se snižujı́cı́ se S/N až do nuly. Úspěšnost porozuměnı́ audio-vizuálnı́
řeči klesá, ale pomaleji. Nejmenšı́ pokles je však zaznamenán u přirozené tváře. Sumby a Pollack, citovaný
v (Goff a kol., 1994), navrhli vztah (4.4) pro výpočet indexu přı́spěvku vizuálnı́ informace. IAV a IA jsou
dosažené skóre pro audio-vizuálnı́ resp. pouze pro audio testy srozumitelnosti. Při výpočtu tohoto indexu pro
různou hodnotu S/N je dosahováno přibližně konstantnı́ hodnoty, která pak udává přı́spěvek pouze vizuálnı́ řeči.
Z výsledků v (Goff a kol., 1994) vyplývá, že viditelnost reálné tváře může zajistit až 60% zlepšenı́ porozuměnı́
53
Kapitola 4. Způsoby ohodnocenı́ mluvı́cı́ch hlav
Obrázek 4.1: V grafu můžeme vidět čtyři závislosti úspěšnosti pozozuměnı́ promluvě na různém stupni akustického
šumu. Nejmešı́ přı́spěvek má animaci poute rtů. Lepšı́ch výsledků je dosaženo pro nějakou mluvı́cı́ hlavu, ale
nejlepšı́ch výsledků bývá dosahováno testy s přirozenou tvářı́. Z grafu je vidět, že mluvı́cı́ hlava měla přı́spěvek
porozuměnı́ většı́ než 40%. Studie je převzata z (Goff a kol., 1994)
degradované akustické řeči a pro počı́tačem generovanou animaci tváře je dosaženo až 50%.
IAV
(
1
IA )
IA
(4.4)
Jsou také prováděny studie na porozuměnı́ pouze s vizuálnı́ složkou. Testy provádějı́ bez akustického signálu a
jde tedy o čisté odezı́ránı́. Normálně slyšı́cı́ lidé však většinou nedosahujı́ v odezı́ránı́ dobrých výsledků a proto
se testy provádějı́ se sluchově postiženými (Öhman a Salvi, 1999; Agelfors a kol., 1999; Cole a dalšı́, 1998).
V pracı́ch (Goff, 1997; Olives a kol., 1999; Beskow a kol., 2002; Möttönen a kol., 2000; Massaro a kol.,
1998; Öhman a Lundeberg, 1999) jsou provedeny studie nad podobnostmi vizémů. Podobnost hlásek je často
prezentována tzv. maticı́ záměn. Každý prvek matice pak udává hodnotu kolikrát hláska v daném řádku byla
zaměněna za hlásku v daném sloupci. Na diagonále matice je pak četnost správně rozpoznaných hlásek. Studie
se dělajı́ s audio-vizuálnı́ řečı́ s částečnou nebo úplnou degradacı́ akustického signálu, jak pro souhlásky tak i
pro samohlásky. Z analýzy zı́skaných dat je pak možné usoudit vzájemnou vizuálnı́ podobnost nebo odlišnost
jednotlivých hlásek. Skupiny vzájemně často zaměňovaných hlásek, např. /p/, /b/ a /m/, pak utvářı́ přehledy
nad vizémovými skupinami. Ahlberg a kol. (2001) provedli test kvality MPEG-4 animace pomocı́ nı́zko
úrovňových FAP. Zkoumali jak dobře mohou animačnı́ modely vyjádřit emociálnı́ výrazy. Byly testovány dva
animačnı́ modely. Pozorovánı́ bylo provedeno se záznamem reálné tváře a pro sedm výrazů. Bylo zjištěno, že
testované animačnı́ modely majı́ mnohem horšı́ vyjádřenı́ emociálnı́ch výrazů než reálná tvář.
4.3 Výsledky
Dosažené výsledky z mnoha variant testů jsou shrnuty do tabulek 4.1 a 4.2. Tabulka 4.1 ukazuje výsledky
objektivnı́ch ohodnocenı́ch a tabulka 4.2 pak ukazuje výsledky subjektivnı́ch testů srozumitelnosti. V tabulce
4.2 je jako hlavnı́ výsledek uvedena ve třech sloupcı́ch procentuálnı́ úspěšnost porozuměnı́. Prvnı́ sloupec je
54
Kapitola 4. Způsoby ohodnocenı́ mluvı́cı́ch hlav
Tabulka 4.1: Mı́ry úspěšnosti rekonstrukce měřených dat.
Massaro a kol. (1998)
Kuratate a kol. (1999)
Lucero a Munhall (1999)
Massaro a kol. (1999)
Cohen a kol. (2002)
Badin a kol. (2002)
Maeda a kol. (2002)
Beskow (2004)
RMS [%]
–
–
–
–
–
12
–
–
9.04
9.50
9.61
Corr
0.927
0.86
0.78
0.46
0.64
–
–
–
0.66
0.62
0.63
Var [%]
–
–
–
–
–
–
72
87.3
–
–
–
Poznámky
z akust. signálu, nelin. model
z EMG, svalový model
z akust. signálu
100 vět
z PCA, pro statický model jazyka
z PCA, pro statický model tváře
Cohen-Mass. model
Öhmanův model
ANN
úspěšnost porozuměnı́ pouze akustické řeči bez tváře, ve druhém sloupci je uvedena úspěšnost syntetizované
řeči a ve třetı́m sloupci je prezentována úspěšnost pro záznam tváře a reálné řeči. Testy použı́vajı́ animace
doplněné o syntetizovaný nebo přirozený akustický signál. Tento signál pak může být zatı́žený přidaným
šumem. Z tabulky je vidět, že přidánı́m animace k akustické řeči se ve všech přı́padech zvyšuje úspěšnost
porozuměnı́. Avšak nenı́ nikdy dosaženo vyššı́ úspěšnosti s porovnánı́m s reálnou tvářı́ (třetı́ sloupec). Jako
nejlepšı́ výsledek můžeme uvést studii (Goff a kol., 1994), kdy je dosažen stejný výsledek pro mluvı́cı́ hlavu a
přirozenou tvář.
Ani porovnávánı́ s reálnou promlouvajı́cı́ tvářı́ nenı́ směrodatný výsledek, nebot’je známé, že někteřı́ řečnı́ci
majı́ srozumitelnějšı́ vizuálnı́ řeč než ostatnı́ (Strnadová, 1998). Můžeme uvést dalšı́ přı́pady, které majı́ vliv
na dosažené výsledky. Jednı́m přı́padem může být skutečnost, že ne vždy je syntéza provedena z analýzy dat
naměřených na řečnı́kovi, který byl později použit pro testovánı́. Dalšı́m faktem je, že řeči různých národů nenı́
z vizuálnı́ho hlediska stejně rozumět. V mluvě každého jazyka je zastoupeno různé procento samohlásek a právě
počet samohlásek určuje srozumitelnost a zřetelnost mluvnı́ch gest a pohybů. Např. italština je známá svou
zpěvnostı́ právě pro hojný počet samohlásek a proto se snáze odezı́rá. Zajı́mavostı́ je, že čeština má menšı́ počet
výskytů samohlásek, ale rozhodně vı́ce než např. angličtina, která se velmi nesnadno odezı́rá. Čı́m vı́ce dané
slovo obsahuje samohlásek, tı́m lépe se odezı́rá a je paradoxem, že je lepšı́ odezı́rat delšı́ slova obsahujı́cı́ vı́ce
samohlásek než slova krátká. Na výsledné porozuměnı́ má vliv i rychlost mluvy, ve velmi rychlé řeči docházı́
dı́ky koartikulaci ke splývánı́ vizémů a naopak při pomalé řeči docházı́ k nepřirozené segmentaci, viz obr. 3.7.
Některé uvedené studie byly provedeny s osobami s částečnou nebo úplnou ztrátou sluchu. Pro testovánı́
jsou slabiky, slova či věty vybı́rány často náhodně a ne vždy dávajı́ nějaký smysl. A právě ve znalostech daného
jazyka jsou u neslyšı́cı́ch lidı́ velké rozdı́ly. Takto postiženı́ lidé mohou znát jen pár slov, ale také mohou
mı́t úplnou znalost mluveného i psaného jazyka. Dalšı́m hlediskem je fakt, že vkládánı́ neverbálnı́ mimiky do
řeči usnadňuje porozuměnı́ sdělenı́. Výrazy tváře značně napovı́dajı́ při vzniklých nejasnostech slov. Zmı́něné
podmı́nky testů mohou mı́t vliv na objektivnı́ ohodnocenı́ mluvı́cı́ch hlav.
55
Kapitola 4. Způsoby ohodnocenı́ mluvı́cı́ch hlav
Tabulka 4.2: Výsledky subjektivnı́ch testů na animaci řeči mluvı́cı́ hlavou, chronologické uspořádánı́.
Položky
Vyhod.
VCVCV
souhl.
VCV
slova
VCVCV
slova
švédština tel. signál
VCV
věty
angličtina nenı́
slabiky
souhl.
slova
souhl.
vizémy
švédština nenı́
věty
slova
finština
0 S/N,reál.řeč
0 S/N, TTS
-18 S/N,reál.řeč
-18 S/N, TTS
VCV
slova
finština
nenı́
VCV
VV
samohl.
souhl.
Správné odp.[%]
Bez Anim. Reál.
tváře tváře tvář
0
42
62
64
85
85
63
70
76
31
45
–
5
39
–
82
80
–
30
55
58
57
55
83
–
42
–
–
76
–
34
34
86
34
54
86
64
67
77
32
44
58
6
20
40
4
17
37
–
51
74
–
33
54
slova a
věty
slova
–
7
15
věty
slova
6
14
2
32
37
19
–
63
63
63
63
24
37
15
61
58
40
14
75
75
73
81
28
68
32
66
83
62
23
–
–
–
–
Jazyk
Goff a kol.
(1994)
Beskow
(1997)
Goff (1997)
Agelfors
a kol. (1999)
Massaro
a kol. (1999)
Öhman a
Salvi (1999)
Olives a kol.
(1999)
Möttönen
a kol. (2000);
Sams a kol.
(2000)
Geiger a kol.
(2003)
Siciliano
a kol. (2003)
Beskow
(2004)
Audio
-18 dB S/N
0 dB S/N
3 dB S/N reál.
švédština
3 dB S/N TTS
-16 dB S/N
francouz.
+8 dB S/N
francouz.
angličtina nenı́
švédština
angličtina 2k. vokodér
němčina
švédština
angličtina 3k. vokodér
němčina
angličtina nenı́
reál. řeč, 3k.
švédština
vokodér
věty
slova
VCV
souhl.
věty
slova
56
Poznámky
Baldi, 25Hz
Parkův model
10 osob, modif.
Cohen-Mass. model
sluchově postiženı́
z akust. signál
z textu
ANN, akust. signál
HMM, sluch. postiž.
20 osob, 20-33 let
10 osob, 22-33 let,
navazuje na (Olives
a kol., 1999)+jazyk
36 osob, 12 pro
každý jazyk
Cohen-Mass. model
Öhmanův model
ANN
podle pravidel
Kapitola 5
Aplikace
Jak již bylo zmı́něno, nedosahuje použitı́ mluvcı́ch hlav v reálných aplikacı́ch takových měřı́tek jako např.
aplikace akustické syntézy. Můžeme najı́t mnoho návrhů a scénářů, ale zatı́m nerealizovaných. I přesto se byly
provedeny prvnı́ pokusy. Existujı́ obecně tři pole působnosti mluvı́cı́ch hlav a to v systémech komunikace
člověka s počı́tačem, v komunikačnı́ch systémech pro nedoslýchavé a při trénovánı́ řeči pro osoby s poruchami
sluchu.
5.1 Kumunikace s počı́tačem - agenti
Komunikace člověka s počı́tačem mluvenou řečı́ se stala v poslednı́m desetiletı́ populárnı́ oblastı́ výzkumů.
Jednou částı́ je také výzkum směřovaný na tzv. „multimodálnı́ dialog“, kdy systém obsahuje nějakou počı́tačovou
animaci tváře ve formě mluvı́cı́ho agenta. Animace pak produkuje verbálnı́ i neverbálnı́ gesta. Důvodem, proč
mluvı́cı́ agent je použit v dialogu, je fakt, že správně animované neverbálnı́ projevy mohou být významnou
pomocı́ k vyjádřenı́ obsahu dialogu. Verbálnı́ projevy agenta, jako jsou pohyby rtů, pak mohou být značnou
podporou porozuměnı́ řečovému signálu obzvláště v rušných mı́stech jako jsou např. informačnı́ terminály na
letištı́ch, nádražı́ch, ve vlacı́ch, ve městech apod.
Jako prvnı́ aplikaci mluvı́cı́ hlavy můžeme uvést realistickou animaci tváře pomocı́ AMA procedur
(Magnenat-Thalmann a Thalmann, 1988; Magnenat-Thalmann a kol., 1988), která byla již v roce 1988 použita pro film „Rendez-vous a montréal“, v němž vystupovali animovanı́ herci Marilyn Monroe a Humphrey
Bogart. Byla použita řı́zená animace a nešlo tedy o umělecké modelovánı́, s kterým se setkáváme i v dnešnı́ch
filmech. Waters a Levergood (1993) vytvořil interface pro animace řeči z textu nazvaný „DECface“. Zde syntéza
řeči z textu je založená na svalovém modelu a je počı́tána v reálném čase.
Dále zmı́nı́me projekt „Vaxholm“. Cı́lem projektu bylo vytvořit dialogový systém pro poskytovánı́ turistických informacı́ o lodnı́ dopravě ve Stockholmu ve Švédsku. Uživatelům jsou poskytovány informace o jı́zdnı́ch
řádech lodı́, o restauracı́ch a o ubytovánı́ v přı́stavech a na přilehlých ostrovech. Komunikačnı́ interface tvořil grafický výstup ve formě tabulek a map, viz obr.5.1 vlevo. Pro animaci řeči byla použita mluvı́cı́ hlava
z (Beskow, 1995), syntéza rtů doplňovala hlasový výstup a pohyby hlavy směřovaly pozornost na poskytované
informace. Animace tváře doplněná o zbytek těla je v (Beskow, 1997). Agentka „Olga“ podávala spotřebitelské
informace o správném použı́vánı́ mikrovlnné trouby. Podoba agenta připomı́ná karikaturu ženy. Řı́zenı́ zahrnovalo neverbálnı́ i verbálnı́ gesta a akustickou syntézou ženského hlasu. Dalšı́ aplikacı́ je dialogový systém a
mluvı́cı́ hlava „August“, obr.5.1 uprostřed, (Lundeberg a Beskow, 1999). Jméno bylo vybráno podle švédského
autora Augusta Strindberga. Systém byl navrhován s cı́lem většı́ robustnostı́. Systém byl umı́stěn v centru
Stockholmu a poskytoval turistické informace o městě. Animace artikulace byla doplněna o bohatý slovnı́k
instrukcı́, který za účelem zaujmutı́, obsahoval také nereálné chovánı́ jako rotace hlavy o 360Æ nebo kroucenı́
knı́rkem. Nejnovějšı́m systémem je pak „AdApt“. Interaktivnı́ systém ve ovládán řečı́ a ukazovánı́m na mapu
57
Kapitola 5. Aplikace
Obrázek 5.1: Aplikace vizuálnı́ syntézy vyvı́jené na KTH. Vlevo je ukázka projektu „Vaxholm“, uprostřed mluvı́cı́
hlava „August“ a vpravo pak nejnovějšı́ systém „AdApt“
a výstupem je audio-vizuálnı́ řeč, vizualizace tabulek a map, obr.5.1 vpravo.
Mluvı́cı́ hlava Baldi byla použita i pro jiné jazyky než je angličtina. Cosi a kol. (2002b) naučil Baldiho
mluvit italsky, nalezneme i mexicko španělskou verzi a v (Chaloupka a kol., 2002) je česky mluvı́cı́ Baldi.
Standard MPEG-4 byl primárně navrhován pro internetové aplikace (Gachery a Magnenet-Thaplann, 2001)
s datovým přenosem kolem 2 kbit/s. MPEG-4 použı́vá projekt „VIDAS“ (Escher a kol., 1998a), součástı́
projektu je systém pro videokonference probı́hajı́cı́ s malým datovým tokem. Cı́lem projektu je návrh aplikace,
která pomocı́ analýzy obrazu extrahuje anatomii tváře a umožnı́ jejı́ sledovánı́. Systém pak provede efektivnı́
kompresi a tyto data jsou přenášena po počı́tačové sı́ti. Na straně přı́jemce je pak provedena syntéza řeči pomocı́
mluvı́cı́ hlavy. Pro virtuálnı́ komunikaci je také navržen systém „iFACE“ (Hong a kol., 2000), interaktivnı́
nástroj pro komunikaci obsahujı́cı́ syntézu vizuálnı́ řeči založenou na pravidlech.
Můžeme se však také setkat s celou řadou agentů ve formě hlasatelů, pomocnı́ků na ploše, kurýrů elektronické pošty nebo jednoduchých osobnı́ch přátel. Např. Microsoft Agent může být animován při prohlı́ženı́
internetových stránek a podobných akcı́. Animace je flexibilnı́ a může být doplňována pomocı́ „Microsoft Agent
Charakter“ editoru. Je však nutno podotknout, že obecně všichni tito „rádoby agenti“ majı́ přı́šernou animaci
vizuálnı́ řeči a spı́še škodı́, než aby usnadňovali komunikaci mluvenou řečı́.
5.2 Systémy pro nedoslýchavé
Jako pokus o pomoc v komunikaci sluchově postižených se svým okolı́m můžeme uvést projekty „Teleface“ a „Synface“ (Beskow a kol., 1997; Öhman a Salvi, 1999). Společným cı́lem projektů je myšlenka vytvořit
komunikačnı́ interface nezávislý na řečnı́kovi, které překládá akustickou řeč telefonnı́ kvality na artikulačnı́
pohyby mluvı́cı́ hlavy, obr.5.2. Jde tedy o syntézu vizuálnı́ řeči řı́zenou akustickým signálem o malém přenosovém pásmu. Animaci pak poskytuje podporu postačujı́cı́ k odezı́ránı́ pro sluchově postižené uživatele. Systémy
aplikujı́ principy popsané v kapitole 3.5. Výsledkem je umožněnı́ této skupině lidı́ komunikaci po telefonu.
Systémy byly vyvı́jeny primárně pro angličtinu, němčinu a švédštinu. Byl kladen důraz na práci v reálném čase,
tj. minimálnı́ zpožděnı́ odezvy systému. V (Morishima, 1998) je podobný návrh, avšak jde o systém, který je
závislý na řečnı́kovi.
5.2.1 Výuka řeči
„Baldi“ byl několikrát použit jako učitel jazyka a pro trénovánı́ vnı́mánı́ řeči. V práci (Cole a dalšı́,
1998) je prezentován projekt, který je cı́lený na vývoj interaktivnı́ho nástroje pro trénovánı́ řeči sluchově
postižených osob. Systém je kombinacı́ čtyř částı́: rozpoznávánı́ řeči, řečové syntézy, animace tváře a trasovánı́
a počı́tačového odezı́ránı́ tváře. Cı́lem projektu je poskytnou učitelům, studentů i rodičům nástroj pro kvalitnı́
58
Kapitola 5. Aplikace
Obrázek 5.2: Základnı́ myšlenka projektu „Teleface“
učenı́. Massaro a Light (2004b) provedli studii se 7 nedoslýchavými studenty ve věku 8–13 let, kteřı́ měli
problémy s vnı́mánı́m a výslovnostı́ některých anglických hlásek. Test probı́hal se slovy, které pomáhajı́
k vzájemnému odlišenı́ problematických hlásek. Průběh testu můžeme vidět na obr.5.3 vlevo. Instruktážnı́
program použı́val animaci mluvı́cı́ hlavy a syntetizovanou řeč. Výuka probı́hala jak na vnı́mánı́ vizuálnı́ řeči,
tak i na jejı́ produkci. Pro vnı́mánı́ řeči probı́hala syntéza pro izolovaná slova a současně byla na obrazovce
nabı́zena volba dvou nebo třı́ slov. Správná volba byla odměněna animacı́ úsměvu a špatná pak animacı́ smutné
tváře. V testu na produkci řeči byla animována správná artikulace problémových hlásek a student pak musel
opakovat výslovnost. Poměř správně zvolených hlásek po dobu učenı́ vzrost průměrně z 64% na 86%.
Pokus o rozšı́řenı́ slovnı́ zásoby u dětı́ se sluchový postiženı́m najdeme v dalšı́ práci (Massaro a Light,
2004a). Po dobu 10 týdnů probı́hal test s 8 nedoslýchavými dětmi ve věku 6–10 let, vždy dva dny v týdnu po
půl hodině. Pro každé dı́tě byla individuálně vybrána skupina slov, kterou si mělo osvojit. Izolovaná slovı́čka
byla promlouvaná a zároveň byl na obrazovce ukázán obrázek, který dané slovı́čko představuje, obr.5.3 vpravo.
Výsledek byla skutečnost, že lze opravdu tı́mto postupem u takto postižených dětı́ úspěšně rozšiřovat slovnı́
zásobu o nová slovı́čka.
Obrázek 5.3: Výuka řeči a rozšiřovánı́ slovnı́ zásoby s mluvı́cı́ hlavou „Baldi“.
59
Kapitola 6
Závěr
Z výše uvedeného souhrnu můžeme usoudit, že problematika vizuálnı́ syntézy řeči použı́vá celou škálu
metod a postupů. V kapitole 1 je proveden souhrn jednotlivých animačnı́ch postupů umožňujı́cı́ch zobrazit
lidskou tvář v počı́tači. Video založené syntézy, které jsou popsány na začátku této práce, dosahujı́ nejlepšı́
realističnosti, ale v testech na porozuměnı́ majı́ nejhoršı́ výsledky. Jejich uplatněnı́ nalezneme jako doplněk
akustické řeči. Daty řı́zené animace jsou oblı́beným postupem, který se úspěšně použı́vá při výzkumu vizuálnı́
řeči. Animace jsou úzce spojeny s nějakou metodou měřenı́. Poskytujı́ komplexnı́ a relativně jednoduché
řešenı́. Svalové animačnı́ modely vycházejı́ z anatomického a fyziologického složenı́ tváře. Animace dosahujı́
nejlepšı́ch výsledků v simulaci deformacı́ pokožky, jako je přirozený vznik boulı́ a vrásněnı́. Z pohledu animace
řeči se, s přihlédnutı́m na jejich animačnı́ složitost, jevı́ méně vhodnými. Řečově orientované animace vznikly
jako přı́mı́ následek studiı́ nad problematikou řečové produkce, ale také jako způsob co nejefektivnějšı́ho a
nejpřesnějšı́ho ztvárněnı́ vizuálnı́ řeči.
V kapitole 2 jsou popsány metody pro zı́skávánı́ potřebných dat. Při návrhu systému vizuálnı́ syntézy je
zapotřebı́ celá řada specifických měřenı́. Historicky nejstaršı́, ale dodnes použı́vané, jsou metody fotogrammetrie. Metody jsou aplikovány na jeden, nebo vı́ce snı́mků a často jsou doplňované o 3D rekonstrukce. Často
jsou pro zı́skávánı́ dat využı́vány komerčnı́ nástroje, jako jsou systémy optického trasovánı́ či laserové hloubkoměry. Měřenı́ dynamiky řeči je prováděno na řečnı́kovi, který však musı́ promlouvat nějaký text. Právě výběr
vhodného textového materiálu je dalšı́m rozhodnutı́m, které se musı́ řešit.
Kapitola 3 popisuje použı́vané strategie řı́zenı́ animacı́. Některé návrhy vycházejı́ ze základnı́ch principů
vzniku řeči a s pomocı́ matematických vztahů se pokoušejı́ popsat principy a zákonitosti, které člověk uplatňuje
při produkci řeči. Můžeme však také nalézt metody, které se nepokoušejı́ hlouběji pronikat do této problematiky
a raději se snažı́ s dostupnými znalostmi o co nejlepšı́ napodobenı́ člověka.
Problematika ohodnocenı́ vizuálnı́ syntézy nebo celé animace tváře je popsána v kapitole 4. Z tohoto souhrnu
je zřejmé, že neexistuje jednotná metrika, která by nám mohla poskytnout žádané srovnávánı́. Existuje několik
hledisek ohodnocenı́. Důležitost každého hlediska je dána budoucı́m určenı́m navrhované animace. Z hlediska
zlepšovánı́ porozuměnı́ by měly být směrodatné subjektivnı́ poslechové testy, ale jak bylo zmı́něno, ani toto
nemůže být jednoznačným měřı́tkem. Aplikacı́ mluvı́cı́ch hlav zatı́m ve světě mnoho nenajdeme. I přesto je
v kapitole 5 zmı́něno několik již realizovaných aplikacı́ z reálného života. Výsledky zatı́m ukazujı́, že tato oblast
výzkumu si jistě nalezne své mı́sto.
6.1 Cı́le disertačnı́ práce
Cı́lem disertačnı́ práce je vytvořenı́ systému provádějı́cı́ho syntézu vizuálnı́ řeči pro češtinu, tj. návrh česky
mluvı́cı́ hlavy. Systém bude použı́ván jako užitečný doplněk k akustické syntéze řeči. Návrh bude proveden tak,
aby vizuálnı́ syntéza mohla být také použita pro komunikaci se sluchově postiženými. Prvnı́m úkolem je návrh
60
Kapitola 6. Závěr
vhodného animačnı́ho modelu, který umožnı́ animovat správnou artikulaci doplněnou i o mimiku. Z tohoto
vyplývá, že se implementace bude odvı́jet od některého řečově zaměřeného animačnı́ho modelu z kapitoly
1.2.5. Hlavnı́ důraz bude kladen na správnou animaci řeči. S návrhem animačnı́ho systému také souvisı́ i
volba vhodné parametrizace tváře. S ohledem na plánované měřenı́ řeči, bude parametrizace provedena podle
vhodného popisu povrchu tváře.
Pro řı́zenı́ animace bude proveden záznam audio-vizuálnı́ databáze zachycujı́cı́ dynamiku artikulace české
řeči. Databáze bude navržena s ohledem na zamýšlené měřenı́. Pro měřenı́ artikulace se použijı́ metody digitálnı́ho zpracovánı́ obrazu. Pro studii bude zaznamenán řečnı́k s dobrou artikulačnı́ schopnostı́, která je vhodná pro
odezı́ránı́. Pro usnadněnı́ zpracovánı́ databáze, budou rty barevně zvýrazněny. Z hlediska zmı́něné oblı́benosti
optických metod pro měřenı́ dynamiky tváře, ale také z hlediska nedostupnosti tohoto zařı́zenı́, bude proveden
návrh vlastnı́ho systému optického trasovánı́. S výhodou bude použita reflexe pasivnı́ch značek umı́stěných na
tváři řečnı́ka. Všechna měřenı́ budou prováděna za účelem zı́skánı́ 3D dat s pomocı́ aplikacı́ fotogrammetrických
metod. V plánu je i záznam přirozené řeči bez jakéhokoli zvýrazněnı́, který bude použit pro subjektivnı́ srovnávacı́ testy. V databázi bude zaznamenána také akustické řeč. Tento signál bude použit pro již navržený TTS, ale
také pro pomocnou segmentaci signálu. Z naměřených dynamických dat bude provedena studie vizuálnı́ řeči.
S pomocı́ statistických metod bude zkoumána vizuálnı́ podobnost jednotlivých českých hlásek a bude proveden
návrh a popis vizémových skupin. Měřenı́ vnitřnı́ artikulace se zatı́m neplánuje. Zatı́m nenı́ jasný výběr metody
záznamu a to i s přihlédnutı́m na nedostupnost potřebného zařı́zenı́. Přı́padné měřenı́ však bude zaměřeno jen
na artikulaci jazyka. Pro adaptaci animačnı́ho modelu na konkrétnı́ osobu bude navržena metoda pro zachycenı́
3D statického tvaru tváře spojená se zı́skánı́m textury.
Dalšı́m úkolem bude aplikace vhodného modelu řı́zenı́. Pro řı́zenı́ animace bude použit jeden model z kapitoly 3.4.1. Výběr modelu bude proveden s ohledem na plánované podchycenı́ koartikulačnı́ch charakteristik
českého jazyka. Pro správné nastavenı́ modelu bude proveden pokus s automatickým trénovánı́m z naměřených
dat. Pro řı́zenı́ artikulace jazyka může být použito měřenı́, ale je možné i ručnı́ nastavenı́ pozice a tvaru jazyka
s ohledem na známá pravidla správné výslovnosti. Zkoumána bude také možnost estimace alespoň částečného
pohybu jazyka z vnějšı́ch pohybů tváře nebo popř. z charakteristik akustického signálu. S ohledem na plánovanou vizuálnı́ syntézu i z akustického signálu, bude proveden pokus s nějakým modelem řı́zenı́ z kapitoly 3.5.
Bude také využit dostupný akustický rozpoznávač a následně použita navržená vizuálnı́ syntéza z textu.
Ke kontrole správnosti řı́zenı́ animace bude vyčı́sleno objektivnı́ srovnánı́ pomocı́ koeficientů z kapitoly 4.1.
Subjektivnı́ testy budou provedeny postupem popsaným v kapitole 4.2. Bude udělán také pokus se sluchově
postiženými osobami.
Jako možnou aplikaci vytvořené česky mluvı́cı́ hlavy vidı́m jejı́ použitı́ v komunikačnı́ch systémech. Mluvı́cı́
hlava by měla sloužit jako prostředek pro zlepšenı́ celkového porozuměnı́ řeči, kterého by mělo být dosaženo
animacı́ správné artikulace a také animacı́ emocı́. Výzvou je také vývoj nástroje pro učenı́ a trénovanı́ řeči pro
sluchově postižené děti.
61
Literatura
E. Agelfors, J. Beskow, M. Dahlquist, M. Granström, M. Lundeberg, G. S. snd K-E Spens a T. Öhman (1999). Synthetic
visual speech driven from auditory speech. V AVSP’99. Santa Cruz, USA.
J. Ahlberg, I. Pandzic a L. You (2001). Evaluating face models animated by MPEG-4 FAPs. V OZCHI2001.
T. Akimoto, Y. Suenaga a R. S. Wallace (1993). Automatic creation of 3D facial models. IEEE Computer Graphics &
Applications, ročnı́k 13(5):16–22.
F. Aurenhammer (1991). Voronoi diagrams - A survey of a fundamental geometric data structure. ACM Computing
Surveys (CSUR), ročnı́k 23(3).
P. Badin, G. Bailly, M. Raybaudi a C. Segebarth (1998). A three-dimensional linear articulatory model based on mri data.
V ICSLP1998. Sydney Australia.
P. Badin, G. Bailly, L. Reveret, M. Baciu, C. Segebarth a C. Savariaux (2002). Three-dimensional linear articulatory
modeling of tongue, lips and face, based on mri and video images. Journal of Phonetics, ročnı́k 30(3):533–553.
G. Bailly (2002). Audiovisual speech synthesis. from ground truth to models. V ICSLP2002. Denver, Colorado, USA.
G. Bailly a P. Badin (2002). Seeing tongue movements from outside. V ICSLP2002. Denver, Colorado, USA.
S. Basu, N. Oliver a A. Pentland (1998). 3D modeling and tracking of human lip motions. V Sixth International Conference
on Computer Vision (ICCV’98). Bombay, India.
D. Beautemps, P. Badin, G. Bailly, A. Galván a R. Laboissiere (1996). Evaluation of an articulatory-acoustic model based
on reference subject. V 4th Speech Production Seminar / ETRW.
J. Beskow (1995). Rule-based visual speech synthesis. V EUROSPEECH’95. Madrid, Spain.
J. Beskow (1997). Animation of talking agents. V AVSP’97, ESCA Workshop on Audio-Visual Speech Processing. Rhodes,
Greece.
J. Beskow (2003). Talking Heads - Models and Applications for Multimodal Speech Synthesis. Ph.D. práce, KTH,
Stockholm.
J. Beskow (2004). Trainable articulatory control models for visual speech synthesis. International Journal of Speech
Technology. Submitted.
J. Beskow, M. Dahlquist, B. Granström, M. Lundeberg, K.-E. Spens a T. Öhman (1997). The teleface project - multimodal
speech communication for the hearing impaired. V Eurospeech ’97. Rhodos, Greece.
J. Beskow, O. Engwall a B. Granström (2003). Resynthesis of facial and intraoral articulation from simultaneous
measurements. V ICPhS 2003, str. 431–434. Barcelona, Spain.
J. Beskow, B. Granström a K.-E. Spens (2002). Articulation strength – readability experiments with a synthetic talking
face. V Fonetik 2002. Stockholm, Sweden.
E. Bevacqua a C. Palachaud (2003). Triphone-based coarticulation model. V AVSP’03, str. 221–226. St. Jorioz, France.
62
LITERATURA
C. Bregler, M. Covell a M. Slaney (1997). Video reqrite: Driving visual speech with audio. V SIGGRAPH’97, str.
353–360. Los Angeles.
N. M. Brooke a S. D. Scott (1998). Two- and three-dimensional audio-visual speech synthesis. V AVSP’98, str. 213–220.
Terrigal - Sydney, NSW, Australia.
J. Chaloupka, J. Nouza a J. Drábková (2002). Developing an artificial talking head for czech language. V Sci-isas2002.
M. M. Cohen, J. Beskow a D. W. Massaro (1998). Recent developments in facial animation: an inside view. V AVSP’98.
Terrigal - Sydney, NSW, Australia.
M. M. Cohen a D. W. Massaro (1993). Modeling coarticulation in synthetic visual speech. V N. M. T. . D. Thalmann,
red., Models and Techniques in Computer Animation. Springer-Verlag, Tokyo.
M. M. Cohen, D. W. Massaro a R. Clark (2002). Training a talking head. V Fourth IEEE International Conference on
Multimodal Interfaces (ICMI’02), str. 499. Pittsburgh, Pennsylvania.
R. Cole a dalšı́ (1998). Intelligent animated agents for interactive language training. V ESCA Workshop on Speech
Technology in Language Learning. Stockholm, Sweden.
E. Cosatto a H. P. Graf (1998). Sample-based synthesis of photo-realistic talking heads. V Computer Animation, str.
103–110. Philadelphia, Pennsylvania.
E. Cosatto a H. P. Graf (2000). Photo-realistic talking-heads from image samples. V IEEE TRANSACTIONS ON
MULTIMEDIA, ročnı́k 2 3.
P. Cosi, E. M. Caldognetto, G. Perin a C. Zmarich (2002a). Labial coarticulation modeling for realistic facial animation.
V Fourth IEEE International Conference on Multimodal Interfaces (ICMI’02). Pittsburgh, Pennsylvania.
P. Cosi, M. M. Cohen a D. W. Massaro (2002b). Baldini: Baldi speaks italian! V ICSLP2002. Denver, Colorado, USA.
J. Dalong, L. Zhiguo, W. Zhaoqi a G. Wen (2002). Animating 3D facial models with MPEG-4 FaceDefTables. V 35th
Annual Simulation Symposium. San Diego, California.
P. Ekman a W. Friesen (1975). Unmasking the face: A guide to recognising emotion from facial clues. Prentice-Hall.
M. Železný, P. Cı́sař, Z. Krňoul a J. Novák (2002). Design of an audio-visual speech corpus for the czech audio-visual
speech synthesis. V The 7th International Conference on Spoken Language Processing ICSLP2002, str. 1941–1944.
Denver, USA.
F. Elisei, M. Odisio, G. Bailly a P. Badin (1997). Creating and controlling video-realistic talking heads. V AVSP’97.
Rhodes, Greece.
O. Engwall (1999). Modeling of the vocal tract in three dimensions. V Eurospeech 99, str. 113–116. Budapest, Hungary.
O. Engwall (2000). A 3D tongue model based on mri data. V ICSLP2000. Beijing, China.
O. Engwall (2002a). Evaluation of a system for concatenative articulatory visual speech synthesis. V ICSLP’2002. Denver,
Colorado, USA.
O. Engwall (2002b). Tongue Talking - Studies in Intraoral Speech Synthesis. Ph.D. práce, Department of Speech, Music
and Hearing, KTH, Stockholm.
O. Engwall a J. Beskow (2003). Resynthesis of 3D tongue movements from facial data. V EUROSPEECH’03. Geneva,
Switzerland.
M. Escher, I. Pandzic, N. Magnenat-Thalmann a F. Bossen (1998a). Face synthesis in the vidas project. V Comtec,
ročnı́k 78 1.
M. Escher, I. Pandzic a N. M. Thalmann (1998b). Facial deformations for MPEG-4. V Proceedings of the Computer
Animation, str. 56. IEEE Computer Society.
63
LITERATURA
M. Escher, G. Sannier a N. Magnenat-Thalmann (1999). Real-time interactive facial animation. V WSCG’99. Pilzen.
M. Escher a N. M. Thalmann (1997). Automatic 3D cloning and real-time animation of a human face. Computer
Animation, str. 58.
T. Ezzat, G. Geiger a T. Poggio (2002). Trainable videorealistic speech animation. V SIGGRAPH ’02. San Antonio, Texas.
T. Ezzat a T. Poggio (2000). Visual speech synthesis by morphing visemes. V International Journal of Computer Vision,
ročnı́k 38, str. 45–57. K. A. Publishers.
S. Fagel a C. Clemens (2003). Two articulation models for audiovisual speech synthesis - description and determination.
V AVSP03, str. 215–220. St. Jorioz, France.
T. A. Faruquie, A. Kapoor, R. Kate, N. Rajput a L. V. Subramaniam (2001). Audio driven facial animation for audio-visual
reality. V 2001 IEEE International Conference on Multimedia and Expo. Tokyo, Japan.
M. Frydrych, J. Kätsyri, M. Dobšı́k a M. Sams (2003). Toolkit for animation of finnish talking head. V AVSP 2003. St
Jorioz, France.
P. Fua (1998). Face models from uncalibrated video sequences. V Proceedings of the International Workshop on Modelling
and Motion Capture Techniques for Virtual Environments. Springer-Verlag.
S. Gachery a N. Magnenet-Thaplann (2001). Designing MPEG-4 facial animation tables for web applications. V
Multimedia Modeling 2001, str. 39–59. Amsterdam.
F. M. Galanes, J. Unverferth, L. Arslan a D. Talkin (1998). Generation of lip-synched synthetic faces from phonetically
clustered face movement data. V AVSP’98. Terrigal - Sydney, NSW, Australia.
G. Geiger, T. Ezzat a T. Poggio (2003). Perceptual evaluation of video-realistic speech. Technická zpráva, Massachusetts
Institute of Technology, Cambridge, MA. CBCL Paper #224/ AI Memo #2003-003.
B. L. Goff (1997). Automatic modeling of coarticulation in text-to-visual speech synthesis. V EUROSPEECH’97.
RHODES, GREECE.
B. L. Goff, T. G. Marigny, M. Cohen a C. Benoit (1994). Real-time analysis-synthesis and intelligibility of talking faces.
V 2nd International Conference on Speech Synthesis. Newark (NY).
K. P. Green (1996). Studies of the mcgurk effect: Implications for theories of speech perception. V ICSLP1996.
Philadelphia, PA, USA.
T. Guiard-Marigny, N. Tsingos, A. Adjoudani, C. Benoit a M.-P. Gascuel (1996). 3D models of the lips for realistic speech
animation. V Computer Animation ’96. Geneva, Switzerland.
A. Hällgren a B. Lyberg (1998). Visual speech synthesis with concatenative speech. V AVSP’98. Terrigal - Sydney, NSW,
Australia.
S. E. G. Öhman (). Numerical model of coarticulation. Acoustical Society of America, ročnı́k 41:310–320.
S. E. G. Öhman (1966). Coarticulation in VCV utterances: spectrographic measurements. Acoustical Society of America,
ročnı́k 37:151–168.
T. Öhman (1998). An audio-visual speech database and automatic measurements of visual speech. V TMH-QPSR.
Stockholm, Sweden.
T. Öhman a M. Lundeberg (1999). Differences in speechreading a synthetic and a natural face. V ICPhS’99. San Francisco,
USA.
T. Öhman a G. Salvi (1999). Using HMMs and ANNs for mapping acoustic to visual speech. V Fonetik 1999, ročnı́k 37.
TMH-QPSR.
P. Hong, Z. Wen a T. S. Huang (2000). Iface: A 3D synthetic talking face. International Journal of Image and Graphics,
ročnı́k 1(1).
64
LITERATURA
P. Hong, Z. Wen, T. S. Huang a H.-Y. Shum (2002). Real-time speech-driven 3D face animation. 1st International
Symposium on 3D Data Processing Visualization and Transmission (3DPVT’02).
J. Jiang, A. Alwan, L. E. Bernstein, P. Keating a E. Auer (2000). On the correlation between facial movements, tongue
movements and speech acoustic. V ICSLP’2000. Beijing, China.
P. Kalra, A. Mangili, N. M. Thalmann a D. Thalmann (1992). Simulation of facial muscle actions based on rational free
form deformations. Compure Graphics Forum 1992.
Z. Krňoul a M. Železný (2003). Coarticulation modeling for the czech audio-visual speech synthesis. V ECMS. Liberec,
Czech republic.
Z. Krňoul a M. Železný (2004). Realistic face animation for a Czech Talking Head. V Conference on TEXT, SPEECH
and DIALOGUE, TSD 2004. Brno, Czech republic. In press.
S. Kshirsagar, S. Garchery a N. Magnenat-Thalmann (2000). Feature point based mesh deformation applied to MPEG-4
facial animation. V Deform’2000, str. 23–34. Kluwer Academic Publishers, Geneva, Switzerland.
S. Kshirsagar, S. Garchery, G. Sannier a N. Magnenat-Thalmann (2003). Synthetic faces : Analysis and applications.
Imaging Systems and Technology, ročnı́k 13(1):65–73.
S. Kshirsagar a N. Magnenat-Thalmann (2000). Lip synchronization using linear predictive analysis. V IEEE International
Conference on Multimedia and Expo. New York.
T. Kuratate, K. G. Munhall, P. E. Rubin, E. Vatikiotis-Bateson a H. Yehia (1999). Audio-visual synthesis of talking faces
from speech production correlates. V EUROSPEECH’99. Budapest, Hungary.
T. Kuratate, H. Yehia a E. Vatikiotis-Bateson (1998). Kinematics-based synthesis of realistic talking faces. V AVSP’98.
Terrigal - Sydney, NSW, Australia.
F. Lavagetlo, S. Lepsgy, C. Braccini a S. Curinga (1997). Lip motion modeling and speech driven estimation. V IEEE
International Conference on Acoustics, Speech, and Signal Processing (ICASSP ’97), ročnı́k 1.
W. Lee, P. Kalra a N. Magnenat-Thalmann (1997). Model based face reconstruction for animation. V Proc. MMM’97
(World Scientific Press), str. 323–338. Singapore.
W. Lee a N. Magnenat-Thalmann (2000). Fast head modeling for animation. Image and Vision Computing, ročnı́k 18(4):355–364.
Y. Lee, D. Terzopoulos a K. Walters (1995). Realistic modeling for facial animation. V Proceedings of the 22nd annual
conference on Computer graphics and interactive techniques, str. 55–62. ACM Press.
J. Lewis a F. Parke (1986). Automated lip-synch and speech synthesis for character animation. V Conference on Human
Factors in Computing Systems, str. 143 – 147. ACM Press New York, NY, USA, Toronto, Ontario, Canada.
B. Lindblom a H. M. Sussman (2002). Principal components analysis of tongue shapes in symmetrical vcv utterances. V
Fonetik 2002, ročnı́k 44, str. 1–4. Fysikcentrum, Stockholm.
A. Löfqvist (1990). Speech as audible gestures. V M. A. Hardcastle W.J., red., Speech, Production and Speech Modeling,
str. 289–322. Kluwer Academic Publishers.
J. C. Lucero a K. G. Munhall (1999). A model of facial biomechanics for speech production. Acoustical Society of
America, ročnı́k 106:2834–2842.
M. Lundeberg a J. Beskow (1999). Developing a 3D-agent for the august dialogue system. V AVSP’99. Santa Cruz,
California, USA.
J. MacDonald, S. Andersen a T. Bachmann (1999). Hearing by eye: Visual spatial degradation and the mcgurk effect. V
EUROSPEECH’99. Budapest, Hungary.
65
LITERATURA
S. Maeda, M. Toda, A. J. Carlen a L. Meftahi (2002). Functional modeling of face movements during speech. V
ICSLP2002. Denver, Colorado, USA.
N. Magnenat-Thalmann, E. Primeau a D. Thalmann (1988). Abstract muscle action procedures for human face animation.
The Visual Computer, ročnı́k 3(5):290–297.
N. Magnenat-Thalmann a D. Thalmann (1988). Construction and animation of a synthetic actress. V Eurographics
Conference Proceedings 1988.
D. W. Massaro (1998). Illusions and issues in bimodal speech perception. V AVSP’98. Terrigal - Sydney, NSW, Australia.
D. W. Massaro (2001). Auditory visual speech processing. V EUROSPEECH’01, str. 1153–1156. Aalborg, Denmark.
D. W. Massaro, J. Beskow, M. M. Cohen, C. L. Fry a T. Rodgriguez (1999). Picture my voice: Audio to visual speech
synthesis using artificial neural networks. V AVSP’99. Santa Cruz, California, USA.
D. W. Massaro, M. M. Cohen, J. Beskow, S. Daniel a R. A. Cole (1998). Developing and evaluating conversational agents.
V WECC. Lake Tahoe.
D. W. Massaro a J. Light (2004a). Improving the vocabulary of children with hearing loss. In press, Volta Review.
D. W. Massaro a J. Light (2004b). Using visible speech for training perception and production of speech for hard of
hearing individuals. Journal of Speech, Language, and Hearing Research, ročnı́k 47(2):304–320.
T. Masuko, T. Kobayashi, M. Tamura, J. Masubuchi a K. Tokuda (1998). Text-to-visual speech synthesis based on
parameter generation from hmm. V Icassp1998. Seattle, Washington, USA.
H. McGurk a J. MacDonald (1976). Hearing lips and seeing voices. Nature, ročnı́k 264:746–748.
S. Minnis a A. Breen (2000). Modeling visual coarticulation in synthetic talking heads using a lip motion unit inventory
with concatenative synthesis. V ICSLP2000. Beijing, China.
L. Moccozet a N. M. Thalmann (1997). Dirichlet free-form deformations and their application to hand simulation. V
Computer Animation ’97. Geneva, SWITZERLAND.
S. Morishima (1998). Real-time talking head driven by voice and its application to communication and entertainment. V
AVSP’98. Terrigal - Sydney, NSW, Australia.
R. Möttönen, J.-L. Olivés, J. Kulju a M. Sams (2000). Parameterized visual speech synthesis and its evaluation. V
Eusipco2000. Tampere, Finland.
B. Nagel, J. Wingbermuhle, S. Weik a C. Liedtke (1998). Automated modelling of real human faces for 3D animation. V
ICPR 98, str. 693–696.
J.-L. Olives, R. Möttönen, J. Kulju a M. Sams (1999). Audio-visual speech synthesis for finnish. V AVSP’99. Santa Cruz,
California, USA.
J. Ostermann (1999). Animation of synthetic faces in MPEG-4. IEEE, Computer Animation.
J. Ostermann (2002). Face animation in MPEG-4. V MPEG-4 Facial Animation, str. 17–56. Chichester UK John Wiley
& Sons, is pandzic and r. forchheimer edice.
I. S. Pandzic a R. Forchheimer (2002). The origins of the MPEG-4 facial animation standard. V MPEG-4 Facial
Animation. MPEG-4 Facial Animation, is pandzic and r. forchheime edice.
F. Parke (1982). Parameterized models for facial animation. V IEEE Computer Graphics and Applications, str. 61–68.
F. I. Parke (1972). Computer generated animation of faces. Ph.D. práce, University of Utah, Salt Lake City. UTEC-CSc72-120.
C. Pelachaud (2002). Visual text-to-speech. V MPEG4 Facial Animation - The standard, implementations and applications.
John Wiley & Sons, igor s. pandzic, robert forchheimer edice.
66
LITERATURA
C. Pelachaud, N. I. Badler a M. Steedman (1996). Generating facial expressions for speech. Cognitive Science.
C. Pelachaud, E. Magno-Caldognetto, C. Zmarich a P. Cosi (2001). Modelling an italian talking head. V AVSP 2001.
Aalborg, Denmark.
C. Pelachaud a C. van Overveld (1994). Modeling and animating the human tongue during speech production. computer
animation’94.
S. M. Platt a N. I. Badler (1981). Animating facial expressions. V International Conference on Computer Graphics and
Interactive Techniques. Dallas, Texas, United States.
M. Proesmans a L. Van Gool (1997). Reading between the lines—a method for extracting dynamic 3D with texture. V
Proceedings of the ACM symposium on Virtual reality software and technology, str. 95–102. ACM Press, Lausanne,
Switzerland.
L. Revéret, G. Bailly a P. Badin (2000). Mother : A new generation of talking heads providing a flexible articulatory
control for video-realistic speech animation. V ICSLP2000. Beijing, China.
L. Revéret a C. Benoı̂t (1998). A new 3D lip model for analysis and synthesis of lip motion in speech production. V
AVSP’98. Terrigal - Sydney, NSW, Australia.
L. D. Rosenblum, M. A. Schmuckler a J. A. Johnson (1997). The mcgurk effect in infants. Perception and Psychophysic,
ročnı́k 59(3):347–357.
S. Sako, K. Tokuda, T. Masuko, T. Kobayashi a T. Kitamura (2000). Hmm-based text-to-audio-visual speech synthesis.
V ICSLP2000. Beijing, China.
M. Sams, J. Kulju, R. Möttönen, V. Jussila, J.-L. Olives, Y. Zhang, K. Kaski, P. Majaranta a K.-J. Räihä (2000). Towards
a high-quality and well-controlled finnish audio-visual speech synthesizer. V 4th World Multiconference on Systemics,
Cybernetics and Informatics (SCI 2000) and 6th International Conference on Information Systems Analysis and
Synthesis (ISAS 2000). Orlando, Florida, USA.
C. Siciliano, G. Williams, J. Beskow a A. Faulkner (2003). Evaluation of a multilingual synthetic talking face as a
communication aid for the hearing impaired. V 15th International Congress of Phonetic Sciences (ICPhS 2003).
Barcelona, Spain.
V. Strnadová (1998). Hádej, co řı́kám aneb Odezı́ránı́ je nejisté uměnı́. GONG, Praha.
M. Tamura, T. Masuko, T. Kobayashi a K. Tokuday (1998). Visual speech synthesis based on parameter generation from
hmm: Speech-driven and text-and-speech-driven approaches. V AVSP’98. Terrigal - Sydney, NSW, Australia.
D. Terzopoulos a K. Waters (1990). Physically-based facial modeling,analysis, and animation. Acoustical Society of
America.
D. Terzopoulos a K. Waters (1993). Analysis and synthesis of facial image sequences using physical and anatomical
models. IEEE Transactions on Pattern Analysis and Machine Intelligence.
N. M. Thalmann, P. Kalra, J. L. Léveque, R. Bazin, D. Batisse a B. Querleux (2002). A computational skin model: fold
and wrinkle formation. IEEE Transactions on Information Technology in Biomedicine, ročnı́k 6(4).
B. J. Theobald, J. A. Bangham, I. Matthews a G. C. Cawley (2001). Visual speech synthesis using statistical models of
shape and appearance. V AVSP’01. Aalborg, Denmark.
B. Uz a U. Güdükbay (1998). Realistic speech animation of synthetic faces. IEEE, Computer Animation 1998.
K. Waters (1987). A muscle model for animating three-dimensional facial expression. V SIGGRAPH ’87. Anaheim,
California.
K. Waters a T. M. Levergood (1993). Decface: An automatic lip-synchronization algorithm for synthetic faces. Technická
zpráva, CRL-93-4, External.
67

Podobné dokumenty

Výkaz zisků a ztrát

Výkaz zisků a ztrát Výkaz zisku a ztráty ÚZEMNÍ SAMOSPRÁVNÉ CELKY, SVAZKY OBCÍ, REGIONÁLNÍ RADY REGIONŮ SOUDRŽNOSTI sestavený k 31.12.2014 (v Kč, s přesností na dvě desetinná místa) okamžik sestavení: 03.02.2015 09:39...

Více

Stáhnout

Stáhnout Pokrok ovšem pokračoval a neustále pokračuje dál. Dı́ky němu tak, stále ještě v nedávné době, pokročily vědy jako fyzika, matematika a chemie kupředu natolik, že materiály začaly ...

Více

Vyhodnocován´ı vad reci det´ı s vyuzit´ım algoritmu DTW

Vyhodnocován´ı vad reci det´ı s vyuzit´ım algoritmu DTW byly určeny pro zlepšenı́ vlastnostı́ algoritmu pro účely rozpoznávánı́ slov, ale v našı́ aplikaci smazávajı́ rozdı́ly mezi promluvami od zdravých a nemocných dětı́, čı́mž se výsledky

Více

vrtani

vrtani HARDOX je ote›ruvzdorny¤ plech, ktery¤ spln›uje pr›|¤sne¤ poz›adavky na odolnost proti opotr›eben|¤. Unika¤tn|¤ kombinace vysoke¤ tvrdosti, vysoke¤ pevnosti a vy¤borne¤ houz›evnatosti umoz›n›uje po...

Více

x - Atlases

x - Atlases Speciálnı́ enzymatické metody jako je kyselá fosfatáza identifikujı́ enzymy aktivované při rozpadu svalových vláken. NADH tetrazolium reduktáza, ATP-áza a některé dalšı́ metody zobrazu...

Více