Vizua´lnı syntéza recˇi

Transkript

FAKULTA APLIKOVANÝCH VĚD
KATEDRA KYBERNETIKY
Vizuálnı́ syntéza řeči - Mluvı́cı́ Hlava
Odborná práce ke státnı́ doktorské zkoušce
Ing. Zdeněk Krňoul
Plzeň
2004
Obsah
1 Animace tváře
2
1.1
Video založené syntézy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.2
Modelově založené syntézy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.2.1
Interpolace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.2.2
Animace přı́mou parametrizacı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.2.3
Svalové a fyziologické modely . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.2.4
Daty řı́zené návrhy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
1.2.5
Řečově orientované animace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
1.2.6
Detailnı́ animace úst . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
1.2.7
Fyziologické podmı́nky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
1.2.8
Parametrizace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
2 Zdroje dat pro mluvı́cı́ hlavy
2.1
2.2
2.3
30
Statické metody . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
2.1.1
Vnějšı́ statické měřenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
2.1.2
Vnitřnı́ statické měřenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
Dynamické metody . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
2.2.1
Video založené metody . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
2.2.2
Systémy optického trasovánı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
2.2.3
Vnitřnı́ dynamické měřenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
2.2.4
Korelace dat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
Řečové korpusy pro dynamické měřenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
3 Strategie řı́zenı́ animacı́
39
3.1
Vznik řeči a odezı́ránı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
3.2
Audio-vizuálnı́ vnı́mánı́ a „McGurk efekt“ . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
3.3
Koartikulace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
3.4
Syntéza z textu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
3.4.1
Modely řı́zenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
Syntéza z akustického signálu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
3.5
4 Způsoby ohodnocenı́ mluvı́cı́ch hlav
52
ii
OBSAH
4.1
Objektivnı́ ohodnocenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
4.2
Subjektivnı́ ohodnocenı́ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
4.3
Výsledky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
5 Aplikace
57
5.1
Kumunikace s počı́tačem - agenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
5.2
Systémy pro nedoslýchavé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
5.2.1
58
Výuka řeči . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6 Závěr
60
6.1
60
Cı́le disertačnı́ práce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iii
Seznam obrázků
1.1
a) Cosatto a Graf (1998) rozdělili obraz zaznamenané tváře na 7 podoblastı́. b) Oblast čela, očı́ a oblast
kolem úst. c) Výběr zubů a brady. d) Složenı́ oblasti kolem rtů. e) Syntetizovaný obrázek složený z vhodně
vybrané kombinace těchto částı́. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
Vlevo: způsob měřenı́ rtů použitý pro výběr vhodné oblasti rtů. Vpravo: rozšı́řenı́ 2D video založené
syntézy o jednoduchý 3D model. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
3D model hlavy s 2D syntetizovaným obrázkem úst, který je promı́tnut na model, (Brooke a
Scott, 1998) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
a) Transformace prvnı́ho klı́čového snı́mku na druhý. b) Zpětná transformace druhého snı́mku na prvnı́.
c) Vážený součet obou transformacı́. d) Výsledná vyhlazená animace. . . . . . . . . . . . . . . . .
6
Originálnı́ Parkeův model a jeho modifikace. a) Drátěný a stı́novaný původnı́ tvar, b) jeho modifikace
„Baldi“ a c) finská mluvı́cı́ hlava (Olives a kol., 1999) . . . . . . . . . . . . . . . . . . . . . . . .
8
1.6
Rozmı́stěnı́ svalů kolem úst. Svaly nakreslené vlevo jsou umı́stěné nad svaly nakreslenými vpravo. . .
9
1.7
a) Závislost napnutı́ pokožky na působı́cı́ sı́le. Vpravo: model svalu z (Platt a Badler, 1981): b) svalové
vlákno a c) celý sval . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
a) Detail třı́vrstvého spojenı́. Každý uzel o určité hmostnosti je spojen pružnými vazbami. b) Ukázka
cekového modelu tváře. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
Rozmı́stěnı́ svalů v modelu (Lucero a Munhall, 1999). a) Sval atakujı́cı́ kost, b) sval Orbicularis oris
atakujı́cı́ pouze podkožnı́ vrstvu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
1.10 Model pokožky z (Thalmann a kol., 2002): a) mladá pokožka, b) modelovánı́ vrásek. . . . . . . . . .
13
1.2
1.3
1.4
1.5
1.8
1.9
1.11 Čelnı́ a bočnı́ pohled na maximálnı́ pohyb bodů při promluvě, které jsou pevně spojené s povrchem tváře. 14
1.12 Schéma výpočtu parametrů, které popisujı́ stupeň ovlivněnı́ nevýrazového bodu P třemi výrazovými
body F P1 , F P2 a F P3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
1.13 Definice deformačnı́ch oblastı́ pro italskou mluvı́cı́ hlavu. a) Jednotlivé regiony tváře, b) řı́dı́cı́ body a
jejich oblast ovlivňovánı́, c) funkčnı́ závislost hodnoty váhy na vzdálenosti od řı́dı́cı́ho bodu a d) ukázka
modelované deformace. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
1.14 3D model rtů definovaný pomocı́ kontur rtů, (Guiard-Marigny a kol., 1996) . . . . . . . . . . . . . .
20
1.15 a) Model rtů řı́zený třemi spline funkcemi, (Revéret a kol., 2000). b) Částečný model tváře a model
čelisti u mluvı́cı́ hlavy „Mother“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
1.16 a) Rozdělenı́ modelu jazyka na oblasti a parametrizace vrcholů, pohled zhora. b) Bočnı́ pohled na kostru,
model tvrdého patra a hornı́ řady zubů a c) bočnı́ pohled na model jazyka. d) Výsledné zobrazenı́ jazyka
při různých deformacı́ch. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
1.17 Vlevo: modelovánı́ sagitálnı́ kontury jazyka pomocı́ B-spline funkce. Uprostřed: model tvrdého patra a
zubů. Vpravo: výsledná animace ústnı́ dutiny, kterou nalezneme v modelu „Baldi“ . . . . . . . . . .
21
1.18 Ukázka 6 parametrů, které byly zı́skány z PCA. Vlevo je vždy minimálnı́ a vpravo maximálnı́ možná
hodnota daného parametru. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
iv
SEZNAM OBRÁZKŮ
1.19 10 parametrů pro popis rtů z čelnı́ho pohledu, (Masuko a kol., 1998) . . . . . . . . . . . . . . . . .
25
1.20 6 parametrů řı́dı́cı́ polohu a tvar jazyka: a) vertikálnı́ poloha, b) horizontálnı́ pohyb, c) plochost či
klenutost, d) pohyb špičky, e) popis zbývajı́cı́ch zvarových změn a f) šı́řka. Vlevo je vždy minimálnı́ a
vpravo pak maximálnı́ hodnota parametru. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
1.21 Vliv hodnoty akčnı́ jednotky AU43 na mı́ru zavřenı́ obou očı́. . . . . . . . . . . . . . . . . . . . .
26
1.22 Parametrizace podle standardu MPEG-4. Vlevo nahoře můžeme vidět definici FAPU, zbytek obrázku
ukazuje FAP parametrizaci kompletnı́ tváře. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
1.23 6 základných výrazů tváře zahrnutých v MPEG-4. . . . . . . . . . . . . . . . . . . . . . . . .
29
2.1
Ručnı́ nastavenı́ modelu rtů tvořeného interpolacı́ kontur. . . . . . . . . . . . . . . . . . . . . . . .
31
2.2
Elisei a kol. (1997) použil záznam 197 barevných korálků přilepených na tváři a s pomocı́ zrcadla provedl
ručnı́ 3D rekonstrukci každého bodu pro artikulaci několika hlásek. Uprostřed můžeme vidět i speciálnı́
pomůcku pro měřenı́ polohy čelisti. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
Složený čelnı́ a bočnı́ pohled na tvář s označenými rty. Dvě speciálnı́ značky jsou použity pro detekci
pohybu čelisti a celé hlavy. Vpravo pak můžeme vidět obrázek převedený do chromatických barev. . .
34
Ukázka systému optického trasovánı́. V tomto přı́padě je použit Qualisys systém a 4 kamery. Vpravo
pak můžeme vidět 28 značek na tváři řečnı́ka. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
3.1
„McGurk efekt“. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
3.2
Na prostřednı́ křivce můžeme pozorovat průběh druhého formantu pro hlásku /g/ v různém samohláskovém kontextu. Můžeme pozorovat odlišný /CV/ předchod způsobený počátečnı́mi samohláskami. . . .
41
a) Odlišná artikulačnı́ poloha jazyka pro hlásku /d/ v samohláskvém konextu /u/ (plná čára) a /a/
(přerušovaná čára). b) Samotná artikulace hlásky /u/ a /a/. . . . . . . . . . . . . . . . . . . . . . .
43
3.4
Syntéza trajektorie podle Öhmanova modelu. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
3.5
Löfqvistova definice řečového segmentu. Vpravo pak vidı́me dva stupně překrývánı́ sousedı́cı́ch segmentů při řetězenı́ řeči. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
Definice segmentu je provedena zvlášt’pro každý artikulátor. Segmenty pak mohou mı́t různou intenzitu
a tvar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
3.7
Složenı́ a postupné oddělenı́ segmentů podle rychlosti řeči. . . . . . . . . . . . . . . . . . . . . . .
45
3.8
Model koartikulace (Cohen a Massaro, 1993). Nahoře můžeme vidět průběh dominančnı́ funkce pro dva
řečové segmenty a dole pak výslednou trajektorii. . . . . . . . . . . . . . . . . . . . . . . . . . .
46
Ukázka regresnı́ho stromu. Určenı́ artikulace nějaké hlásky je provedeno podle jejı́ho kentextu. . . . .
47
3.10 Vlevo: definice řı́zenı́ animace v MPEG-4 standardu pro FAP6 a FAP23. Vpravo pak vidı́me počástech
lineárnı́ aproximaci výsledné trajektorie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
3.11 Schéma syntézy vizuálnı́ řeči pomocı́ HMM. Vlevo vidı́me trénovacı́ fázi. Vpravo je pak část rozpoznávánı́ a část pro generovánı́ vizuálnı́ch parametrů. . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
3.12 Schéma systému pro akustické řı́zenı́ animace pomocı́ neuronové sı́tě. . . . . . . . . . . . . . . . .
51
2.3
2.4
3.3
3.6
3.9
4.1
5.1
V grafu můžeme vidět čtyři závislosti úspěšnosti pozozuměnı́ promluvě na různém stupni akustického
šumu. Nejmešı́ přı́spěvek má animaci poute rtů. Lepšı́ch výsledků je dosaženo pro nějakou mluvı́cı́ hlavu,
ale nejlepšı́ch výsledků bývá dosahováno testy s přirozenou tvářı́. Z grafu je vidět, že mluvı́cı́ hlava měla
přı́spěvek porozuměnı́ většı́ než 40%. Studie je převzata z (Goff a kol., 1994) . . . . . . . . . . . . .
54
Aplikace vizuálnı́ syntézy vyvı́jené na KTH. Vlevo je ukázka projektu „Vaxholm“, uprostřed mluvı́cı́
hlava „August“ a vpravo pak nejnovějšı́ systém „AdApt“ . . . . . . . . . . . . . . . . . . . . . . .
58
v
SEZNAM OBRÁZKŮ
5.2
Základnı́ myšlenka projektu „Teleface“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
5.3
Výuka řeči a rozšiřovánı́ slovnı́ zásoby s mluvı́cı́ hlavou „Baldi“. . . . . . . . . . . . . . . . . . . .
59
vi
Seznam tabulek
1.1
Parametrizace mluvı́cı́ hlavy „Baldi“
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
1.2
MPEG-4 FAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
2.1
Souhrn použı́vaných metod pro zı́skávánı́ statických a dynamických dat pro mluvı́cı́ hlavy. . . . . . .
31
2.2
Pozorované korelace signálů. Korelace popisuje mı́ru závislosti mezi vnějšı́mi pohyby tváře, akustickým
signálem a pohyby jazyka. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
4.1
Mı́ry úspěšnosti rekonstrukce měřených dat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
4.2
Výsledky subjektivnı́ch testů na animaci řeči mluvı́cı́ hlavou, chronologické uspořádánı́. . . . . . . .
56
vii
Úvod
Lidská tvář je jen malou částı́ člověka, ale hraje zásadnı́ roli v komunikaci. Člověk použı́vá svoji tvář
jako prostředek vizuálnı́ komunikace. Tvář je silným výrazovým prostředkem a v mnoha přı́padech je jejı́
viditelnost neocenitelnou komponentou vnı́mánı́ řeči. Každý z nás se setkává s různými tvary lidské tváře a
s jejı́mi pohyby již od samého narozenı́. Pozorovánı́m tváře se učı́me znát významy gest, které hrajı́ významnou
roli v každodennı́ komunikaci. Gesta tváře jsou někdy doplněna o gesta rukou či celého těla a jako celek sloužı́
k neverbálnı́ komunikaci. V mezilidském komunikačnı́m procesu existuje mnoho výrazů tváře. Snad jeden
z nejdůležitějšı́ch je výraz tváře pro projevy emocı́. Pro člověka, jakožto lidskou bytost, je právě tvář prostředkem
k vyjádřenı́ svých emocı́ a nálad. Těmito emocemi jsou napřı́klad štěstı́, smutek, vystrašenı́, rozzlobenost apod.
Rysy těchto základnı́ch emocı́ jsou na tváři každého z nás snadno rozpoznatelné. Je samozřejmostı́, že tyto
emočnı́ projevy patřı́ i do řečové komunikace, utvářı́ formulaci, důraz sdělenı́ a neverbálnı́ výměnu informacı́.
Patřı́ tedy do našeho jazyka stejně jako hlásky či slova. Výrazy jsou tedy vzájemně vztažené a často intonaci
hlasu. Při promluvě tvář, včetně krku, odkrývá vizuálnı́ aspekty řečové produkce a také je důležité, že nese
informaci o fonetickém obsahu promluvy. Za vizuálnı́ řečové informace můžeme označit okem pozorovatelné
změny tváře, ale také viditelné pohyby v ústnı́ dutině. Viditelnost našı́ tváře tak může značně zvýšit porozuměnı́
našemu sdělenı́. V tomto přı́padě jde o běžné situace komunikace v prostředı́ch s akustickým šumem nebo jiné
degradace akustického signálu řeči. Degradacı́ můžeme označit i sluchové postiženı́.
Ve světě je prováděno mnoho technologických i vědeckých postupů, které zkoumajı́ možnosti věrného
počı́tačového vytvořenı́ a animovánı́ lidské tváře a hlavy. Tyto postupy jsou kombinovány s postupy z oblasti
řečové komunikace člověka s počı́tačem, a tak se zpřı́stupňuje tak zvaná komunikace z očı́ do očı́. Takto
zaměřené aplikace jsou použı́vány v dialogových systémech, ale také pro jiné komunikačnı́ cı́le. Zkoušı́ se
použı́t jako nástroj k výuce jazyka. Mimo jiné je možné využitı́ v počı́tačových hrách, v aplikacı́ch na „elearning“ a ve virtuálnı́m světě, ale také v každodennı́ch situacı́ch vzájemného působenı́ člověka a počı́tače.
Z těchto důvodů je v poslednı́ch třech desetiletı́ch vedeno mnoho výzkumů v oblasti nazývané často jako
„Talking Head“, což můžeme přeložit jako „Mluvı́cı́ Hlava“. Tato práce prezentuje část celosvětového úsilı́
vynakládaného na vývoj systémů, které v sobě obsahujı́ komunikačnı́ sı́lu lidské tváře a smysluplné použitı́
vedoucı́ k systémům vı́ce přátelštějšı́m, vı́ce intuitivnı́m, majı́cı́ jednoduché použitı́ a stejně tak zpřı́stupňujı́cı́
nové možnosti v komunikaci.
Tato práce detailně shrnuje a popisuje techniky, které jsou využı́vány pro systémy syntetických mluvı́cı́ch
hlav a jejich ohodnocovánı́. Jsou zde zmı́něné problematiky, které zahrnujı́ zı́skávánı́ dat, datovou reprezentaci,
zpracovánı́ signálů, modelovánı́ a animaci hlavy, ale také jejich souvislost s několika aplikovanými scénáři
v oblasti dialogových systémů ovládaných hlasem, komunikačnı́ch pomůcek a pomůcek k výuce řeči. Vedle
prezentace zı́skánı́ realističnosti je hlavnı́m záměrem této práce prezentovat výzkum prováděný pro zvýšenı́
komunikačnı́ funkčnosti. V tomto smyslu je realističnost vzhledu mluvı́cı́ hlavy závislá na statickém tvaru a
spı́še kosmetickou záležitostı́, zatı́mco komunikačnı́ funkčnost má základ v řádné definici dynamických gest
tváře, které jsou základem srozumitelné komunikace. Ne vždy však bývá požadována komunikačnı́ funkčnost,
a proto existujı́ i odlišné oblasti vývoje počı́tačem generované mluvı́cı́ hlavy, avšak o nich se v této práci
nebudeme zmiňovat.
1
Kapitola 1
Animace tváře
Lidská tvář je velmi nepravidelná struktura specifická pro každého jedince. Počı́tačová animace lidské
tváře je relativně mladou vědnı́ disciplı́nou. S rostoucı́m rozvojem výpočetnı́ techniky se dostává do zájmu až
v poslednı́ch 30 letech. Prvnı́ pokusy o animaci tváře počı́tačem můžeme přisoudit Parkeovi (Parke, 1972).
Když provedeme souhrn většiny dosavadnı́ch návrhů, můžeme všeobecně rozdělit existujı́cı́ techniky na video
zaměřené a modelově zaměřené. Prvnı́ zmı́něná technika pohlı́žı́ na počı́tačovou syntézu řeči jako na obrazový
signál. Společným znakem všech technik je počı́tačové vytvořenı́ 2D obrazu tváře nebo hlavy popřı́padě
celého těla. Rozdı́l je však ten, že pro video zaměřené techniky jsou zdrojem dat a i celé zpracovánı́ probı́há
s 2D obrázky. Druhá zmı́něná technika, která je obecně vı́ce rozšı́řena, využı́vá při zpracovánı́ animace různé
druhy deformačnı́ch modelů, velmi často v 3D prostoru.
Neexistuje však pevná hranice mezi těmito přı́stupy. Ve video založených technikách se postupně začı́najı́
použı́vat modelové přı́stupy i 3D prvky a naopak modelově založené přı́stupy užı́vajı́ textury či jiné zdroje dat
založených na obrazových elementech. Nabı́zı́ se také udělat srovnánı́ mezi syntézou tváře a známějšı́ akustickou
syntézou. Akustická syntéza, jinak řečeno počı́tačem generovaný zvukový signál řeči často označovaný zkratkou
TTS „Text to Speech Systems“, je v dnešnı́ době rozšı́řená a běžně použı́vaná už i pro komerčnı́ účely. Modelově
založené návrhy TTS, napřı́klad takzvaná formantová syntéza, čı́m dál vı́ce ustupujı́ vzorkově založeným
metodám. Proto se nejčastěji použı́vajı́ pro generovánı́ akustického signálu před-zaznamenané jednotky řeči.
Těmito jednotkami mohou být jak celá slova nebo věty (známé hlášenı́ na vlakových nádražı́ch), tak i menšı́
řečové jednotky, jimiž jsou fonémy či alofóny. Vlastnı́ vytvářenı́ syntetizované řeči pak spočı́vá pouze v hledánı́
přı́slušných jednotek v často obrovských databázı́ch a jejich spojovánı́ s minimálnı́m uplatněnı́m zpracovánı́
signálu. Ve vizuálnı́ oblasti počı́tačového generovánı́ řeči zatı́m nenalezneme dominantnı́ technologii. Existuje
jakási rovnováha mezi různými návrhy generovánı́ syntetizovaného obrazu. Zdá se, že video založené techniky
zı́skávajı́ na popularitě, avšak modelově založené animace tváře jsou již nynı́ velmi použı́vané, což je bezpochyby
způsobené MPEG-4 standardem. MPEG-4 je standard pro multimediálnı́ kompresi a mimo jiné obsahuje i
animaci tváře1 . Standard poprvé poskytl ucelenou metodiku pro modelovánı́ tváře. Vizuálnı́ oblast počı́tačové
syntézy řeči je často označována jako TTVS „Text to Visual Speech“, ale častěji je použı́vána zkratka TTAVS
pro kompletnı́ audio-vizuálnı́ syntézu. Ani toto označenı́ však nenı́ jednotné, protože vizuálnı́ řeč může být
generována nejen z textu, ale i z akustického řečového signálu. Proto se v této práci setkáme také s jednoduchým
výrazem „mluvı́cı́ hlava“.
1.1 Video založené syntézy
Jde o animaci tváře popř. celé hlavy založené na metodách zpracovánı́ digitalizovaného obrazu. Animace
velmi deformovaných částı́ tváře, jako jsou ústa, potřebuje velmi preciznı́ a komplexnı́ 3D model a i přesto
1
ISO/ITEC IS 14496-2 Visual
2
Kapitola 1. Animace tváře
produkuje syntetický zjev. Foto-realistická syntéza video animace využı́vá technik kroucenı́ a natahovánı́
předem zaznamenaných obrazových dat. Jde o tak zvaný „morfing“. Problémy, které s tı́mto vznikajı́, jsou
s modelovánı́m posunutı́ bodů obrazu. Jedno řešenı́ je automatické určenı́ pohybů pomocı́ optického toku nebo
vı́ce elegantnı́ řešenı́ pomocı́ skládánı́ výsledného obrazu z množiny vzorků.
Tyto metody majı́ potenciálnı́ možnost dosaženı́ vysoké úrovně video-realismu. Dosahuje se nerozeznatelné
animace od originálnı́ho záznamu. Pro syntézu se zpracovávajı́ obrazy zachycujı́cı́ mluvı́cı́ lidskou hlavu.
Model mluvı́cı́ tváře je složen z množiny audiovizuálnı́ch sekvencı́ extrahovaných často z velmi velkých
řečových korpusů. Hlavnı́m problémem, který je však překonaný mnoha systémy, je bezešvé řetězenı́ video
sekvence. Sebemenšı́ nepřirozená změna pozice nebo výrazu tváře může být velmi znatelná. Proto společnou
částı́ systémů je předzpracovánı́, které provádı́ normalizaci pozice a orientaci tváře. Např. ve „Video-Rewrite“
systému (Bregler a kol., 1997), je zpracovávána pouze oblast úst a následně uložena (s novou artikulacı́) do
originálnı́ video sekvence.
V práci (Cosatto a Graf, 1998) je návrh systému, který generuje foto-realistickou video animaci mluvı́cı́
hlavy. Systém je odvozen z videozáznamu řeči a použı́vá metody rozpoznávánı́ obrazu. Tyto metody lokalizujı́,
extrahujı́ a vyjı́majı́ z obrazu části tváře, jako jsou ústa, oči, obočı́. Vybrané části jsou pak uloženy v databázi.
Syntéza animace probı́há z těchto dat tak, že je utvořena nová video-sekvence včetně synchronizovaného
zvuku. Emočnı́ a konverzačnı́ signály jsou modelovány částečným pohybem hlavy, zvedánı́m obočı́ a širokým
otevřenı́m očı́. Rozdělenı́ tváře a oddělený záznam jednotlivých výrazů zmenšuje výslednou knihovnu vzorků
Obrázek 1.1: a) Cosatto a Graf (1998) rozdělili obraz zaznamenané tváře na 7 podoblastı́. b) Oblast čela, očı́ a
oblast kolem úst. c) Výběr zubů a brady. d) Složenı́ oblasti kolem rtů. e) Syntetizovaný obrázek složený z vhodně
vybrané kombinace těchto částı́.
a umožňuje artikulaci řeči doplněnou o libovolné kombinovánı́ emocionálnı́ch výrazů. Řeč je zarovnána podle
promlouvané řeči. Samotný výběr vzorů odpovı́dajı́cı́ zvukovým úsekům však vede na velkou knihovnu. Pro
redukci dat se tak v obrazech měřı́ rotace čelisti, šı́řka a výška rtů. Tyto hodnoty se využijı́ při analýze a redukce
je provedena vynechánı́m duplicitnı́ch vzorů. Animačnı́ model představuje v 2D obrazu oblast hlavy a části
tváře. Rozdělenı́ tváře redukuje množstvı́ potřebných záznamů, které je nutné zachytit. Můžeme však řı́ci, že
obecně neexistuje jednoznačné rozdělenı́ tváře, nebot’ svaly a pokožka působı́ na tvář jako celek, a tak každé
rozdělenı́ způsobı́, že vzniklé části mohou být na sobě deformačně závislé.
Cosatto redukoval 50 anglických fonémů a vybral 12 anglických vizémů2 a redukce dat byla provedena
podle parametrů, které můžeme vidět na obr. 1.2 vlevo. Všechny části tváře jsou integrovány do oblasti
představujı́cı́ hlavu. Animace dovoluje vytvářet výrazy jako pohyby: duhovka - nahoru, dolů, doprava a doleva,
obočı́ zamračené a zvednuté, čelist nahoru a dolů. Zdokonalenı́ syntézy pak najdeme v práci (Cosatto a Graf,
2000), kde je použit jednoduchý 3D model pro zohledněnı́ pohybu hlavy, viz obr. 1.2 vpravo. Tvář je jako
v předchozı́ práci rozdělena na oblasti, kde hlava je základnı́ oblastı́, do nı́ž jsou vkládány ostatnı́ podoblasti.
2
Pojem „vizém“ použil v roce 1968 Fisher při prováděnı́ experimentů se čtenı́m. Výraz označoval skupinu souhlásek, které byly
často vzájemně zaměňovány. V této problematice je výraz použit pro označenı́ skupiny vizuálně podobných fonémů.
3
Obrázek 1.2: Vlevo: způsob měřenı́ rtů použitý pro výběr vhodné oblasti rtů. Vpravo: rozšı́řenı́ 2D video založené
syntézy o jednoduchý 3D model.
Podoblasti jsou části tváře jako ústa a brada, dalšı́ částı́ je čelo s obočı́m. Nos a uši jsou součástı́ oblasti
hlavy. Každá tato oblast tváře je v modelu zahrnuta jako jednoduchý útvar složený z několika málo polygonů.
Tvar každého útvaru je dán měřenı́m zaznamenané tváře a referenčnı́ body určujı́ správné umı́stěnı́ vzorů
na model. Výsledná animace je provedena zobrazenı́m celého modelu, kdy pro určité natočenı́ je počı́tána
projekce jednotlivých úvarů do obrazové roviny. Výsledkem je kombinace flexibility 3D modelu s realističnostı́
2D vzorů. Alternativou pro přı́mé řetězenı́ sekvence obrázků může být animace postavena na statistických
modelech obrazových bitmap. Generovánı́ výstupnı́ho obrazu je provedeno z kompaktnı́ množiny parametrů.
Takový model navrhl Brooke a Scott (1998). V této práci je použit jednoduchý 3D model dolnı́ poloviny
tváře. Je použit video záznam řečnı́ka a skryté Markovovy modely (HMM). Oblast kolem úst je zaznamenána
s barevnými informacemi v rozlišenı́ 64x48 obrazových bodů3 . Oblast byla rozdělena na 16 podoblastı́ a každá
podoblast byla analyzována pomocı́ metody PCA „Principal Components Analysis“. Výběr 30-50 komponent
zachovává 85-90% variance. Komponenty všech 16 podoblastı́ byly znovu podrobeny analýze PCA. Z této
druhé aplikace byly vybrány prvnı́ čtyři komponenty. Tato parametrizace pak sloužila k trénovánı́ levo-pravých
HMM. Každá HMM slabika představovala jeden trifón. Trénovánı́ HMM probı́halo současně s akustickými
daty. Syntéza je provedena zřetězenı́m HMM a výsledná trajektorie byla vyhlazena. Syntetizovaný obrázek je
nakonec nanesen na 3D model, obr. 1.3. Generovánı́ hodnot obrazových bodů z HMM je i v práci (Sako a kol.,
2000).
Theobald a kol. (2001) popisujı́ přı́stup užitı́m tzv. separačnı́ch modelů pro tvar a vzhled. Jedná se také
o syntézu pomocı́ statistických modelů spojenou s řetězenı́m. Tvar modelu je drátěná sı́t’spojena ručně značenými
značkami v obrázku. Na hodnoty obrazových bodů je aplikována PCA a použit lineárnı́ model x = x + P b, kde
P je matice vybraných vlastnı́ch vektorů z kovariančnı́ matice, b je vektor komponent (tzv. váhy) a je dosaženo
95% zachovánı́ variance. Zarovnánı́m dat se docı́lı́ stejná velikost obrazových dat a jejich porovnatelnost
v celé trénovacı́ množině. Ezzat a Poggio (2000) prezentujı́ foto-realistický audiovizuálnı́ řečový syntetizér
nazvaný MikeTalk. Základ systému tvořı́ vizémy. Vizémy jsou zde tvořeny z malé množiny vybraných tvarů
úst zaznamenaných ve vizuálnı́m korpusu. Použitı́m metod optického toku je počı́tána korespondence mezi
3
Tyto hodnoty se blı́žı́ k dolnı́ hranici rozlišitelnosti řeči
4
Obrázek 1.3: 3D model hlavy s 2D syntetizovaným obrázkem úst, který je promı́tnut na model, (Brooke a Scott,
1998)
dvěma vizémy. Je dosažen hladký přechod při řetězenı́. Pořadı́ při řetězenı́ a časovánı́ vizemů je řı́zeno modulem
akustické syntézy řeči. Princip animace spočı́vá v zaznamenánı́ pouze potřebných klı́čových vizémů a k dosaženı́
hladkých přechodů je využı́váno transformacı́ obrazových bodů v 2D. Zde je použit na rozdı́l od podobných
pracı́ záznam jen 40-50 slov, ve kterých je obsaženo všech 40-50 anglických fonémů. Ručně jsou extrahovány
obrazy 16 potřebných vizémů. Dále jsou definovány vzájemné transformace mezi všemi obrazy vizémů, které
popisujı́ přeměny. Právě na provedenı́ transformace jednoho vizému na jiný závisı́ výsledná realističnost a
hladkost animace. Pro N vizémů je potřeba N 2 transformacı́. Prvnı́m krokem definovánı́ nějaké transformace
mezi dvěma vizémy je nalezenı́ korespondencı́ mezi dvěma sousednı́mi klı́čovými snı́mky. Korespondence jsou
reprezentovány pomocı́ mapy přechodu z prvnı́ho snı́mku na druhý a z druhého snı́mku na prvnı́.
C0 (p0 ) = fd0x!1 (p0 ); d0y!1 (p0 )g
a
C1 (p1 ) = fd1x!0 (p0 ); d1y!0 (p1 )g
(1.1)
Kde korespondenčnı́ mapa C pro obrazový bod p na pozici (x; z ) je definována jako posunutı́ d mezi snı́mkem
a 1. K estimaci pohybu, který je zachycen mezi těmito obrazy, je použit optický tok4 . Optický tok umožňuje
automatické určenı́ korespondenčnı́ mapy. Přeměna tvaru úst v jednom snı́mku na tvar ve druhém snı́mku je
popsána jako přesuny obrazových bodů ze své pozice ve výchozı́m obraze ve směru optického toku na novou
pozici ve výsledném obraze. Libovolně dlouhá sekvence obrazů na přechodu je generována podle vztahu (1.2):
0
I synt (p; ) = (1 )I0warp (p; ) + I1warp (p; 1 ));
(1.2)
kde syntetizovaný snı́mek I synt v určitém mı́stě přechodu je dán váženým součtem „dopředně“ přetvářeného
klı́čového snı́mku 0 a zpětně přetvářeného klı́čového snı́mku 1. Jednotlivé přechody můžeme vidět na obr. 1.4.
Výsledkem je realistický přechod, který nemusı́ být jen lineárnı́. Celková animace je vytvořena vloženı́m
těchto syntetizovaných sekvencı́ tváře do sekvence obsahujı́cı́ přirozené řečové pohyby hlavy a očı́. Dále Ezzat
a kol. (2002) určujı́ množinu klı́čových obrázků automaticky z dat. Syntéza trajektoriı́ pro výpočet přetvářecı́ch
parametrů je řı́zena daty.
Obecně nenı́ pro tyto postupy potřeba umělý geometrický model, všechny významné části jsou obsaženy
ve vzoru, tj. je obsažena barva kůže, stı́novánı́, přerušovaná viditelnost zubů a jazyka apod. Několik výše
zmı́něných systémů však také včleňuje jednoduchou 3D sı́t’, na kterou jsou promı́tány syntetizované obrázky.
Je tak umožněno nezávislé řı́zenı́ polohy a rotace hlavy a také je zı́skána většı́ flexibilita se zachovánı́m
video realističnosti. Můžeme tedy poznamenat, že docházı́ k prolı́nánı́ těchto postupů s modelově založenými
animacemi z odstavce 1.2.
4
Optický tok byl originálně formulován pro měřenı́ pohybu objektů v obraze.
5
Obrázek 1.4: a) Transformace prvnı́ho klı́čového snı́mku na druhý. b) Zpětná transformace druhého snı́mku na
prvnı́. c) Vážený součet obou transformacı́. d) Výsledná vyhlazená animace.
1.2 Modelově založené syntézy
V modelově založených syntézách je systém popsán pomocı́ geometrického modelu. Hlavnı́ část modelu
představuje povrch tváře, který je typicky popsán jako polygonálnı́ sı́t’, obvykle v 3D prostoru. Model často
bývá doplněn o dalšı́ důležité části jako jsou zuby, jazyk, oči a jiné. Povrch se během animace nejčastěji
deformuje pohybem vrcholů sı́tě, jejı́ topologie však zůstává konstantnı́. Pohyb vrcholů bývá pod kontrolou
množiny parametrů. Vliv změny hodnoty nějakého řı́dı́cı́ho parametru na posunutı́ vrcholů bývá založen na
několika technikách. Tyto techniky provádějı́ interpolaci, přı́mou parametrizaci, pseudo-svalové deformace či
fyziologickou simulaci. Můžeme také nalézt techniky řı́zené daty.
1.2.1 Interpolace
Interpolace je snad nejčastěji použı́vanou metodou animace tváře, nebot’ bývá obsažena ve většině komerčnı́ch softwarových balı́cı́ch určených pro počı́tačovou animaci. Oblı́benost interpolačnı́ch metod spočı́vá
v jednoduchosti použitı́ a v jejich podpoře v animačnı́ch balı́cı́ch. Principem interpolace je, že jsou definovány
základnı́ tvary tváře někdy i celé hlavy. Definice těchto tvarů představujı́ nějaký statický výraz tváře tzv. klı́čový
tvar. Klı́čové tvary jsou předem uložené a mohou např. představovat vizémy či jiné neverbálnı́ výrazy tváře.
Pro každý klı́čový tvar je předem známá poloha každého vrcholu sı́tě, která je uložena. Klı́čové tvary se často
definujı́ ručně s ohledem na vzorovou podobnost k danému výrazu na reálné tváři a s podmı́nkou zachovánı́
topologie tváře.
Požadovaná animace je složena z těchto klı́čových snı́mků a tvary celé tváře potřebné pro plynulou animaci
mezi dvěma přilehlými klı́čovými tvary jsou dopočı́távány interpolacı́ všech vrcholů sı́tě. Nevýhodou je, že
interpolace často neodpovı́dá reálným pohybům pozorovaným na tváři a přinášı́ tak neuspokojivé výsledky.
Např. je-li definován jeden klı́čový tvar tváře pro otevřená ústa a jeden tvar pro zavřená ústa, pak vrcholy sı́tě
v oblasti brady nekonajı́ lineárnı́ pohyb po přı́mce, ale spı́še po nějaké křivce. Obecně by mohla být specifikace
6
interpolace pro každý vrchol, ale tı́mto opouštı́me všechny výhody interpolace. Nevýhoda nelineárnı́ch přechodů
může být částečně zohledněna dodefinovánı́m tzv. přechodných tvarů. Takto to je řešeno např. v MPEG-4.
O MPEG-4 se zmı́nı́me v kapitole 1.2.8. Dalšı́ nevýhodou je fakt, že pro řádnou funkci animace je potřeba často
definovat velké množstvı́ těchto klı́čových tvarů, které je náročné určit a ne vždy se to podařı́ zcela přesně.
Vlastnı́ animace také nenı́ schopna generovánı́ jiných tvarů než těch definovaných.
1.2.2 Animace přı́mou parametrizacı́
Již v roce 1975 F. I. Parke navrhl přı́mou parametrizačnı́ metodu, aby překonal omezenı́ dané interpolačnı́mi
metodami. Pozornost soustředil na povrch tváře bez ohledu na to, co je pod nı́m. Parke (1982) vytvořil model,
který byl primárně určený pro generovánı́ obrazu tváře. Model je složen ze vzájemně oddělených polygonálnı́ch
sı́tı́ modelujı́cı́ch povrch celé tváře, zuby a oči. Model jazyka tehdy nebyl vložen. Vzájemné spojenı́ vrcholů
v jednotlivých sı́tı́ch a vzájemná topologie sı́tı́ zůstávajı́ při animaci neměnné. Parkeovy pokusy s různými
modely tváře ukázaly, že výsledná topologie modelu je utvořena efektivně, tj. v oblastech vyššı́ho zakřivenı́ je
většı́ hustota umı́stěnı́ vrcholů a tedy menšı́ polygony než v oblastech rovnějšı́ch, kde sı́t’tvořı́ většı́ polygony.
V Parkeovu modelu, raději než specifikovánı́ vzorových tvarů, je posunutı́ vrcholů popsáno výslovně pomocı́
základnı́ch geometrických transformacı́. Bylo definováno 5 typů operacı́, které ovlivňujı́ pozici každého vrcholu
sı́tě podle hodnoty nějakého parametru, (viz 1.2.8). Některé operace jsou aplikovány na celou tvář, ale většina
je použita pouze pro malé specifické podoblasti. Vyjmenujme základnı́ operace, které Parke použil:
Procedurálnı́ konstrukce je použita pro modelovánı́ očı́. Procedura přijı́má hodnoty parametrů pro očnı́
bulvy, duhovku, velikost zornice a barvu zornice, pozici oka a orientaci očnı́ bulvy.
Deformace je určena pro oblasti, které měnı́ tvar (oblast čela, lı́cnı́ kosti, krku a úst). Každá z těchto
oblastı́ je podle hodnoty parametru nezávisle deformována mezi dvěma extrémnı́mi tvary. Pro každý
vrchol uvnitř jedné z těchto oblastı́ jsou definovány dvě hodnoty těchto extrémů. Transformace tohoto
vrcholu je dána hodnotou přı́slušného parametru.
Rotace je použita pro otevřenı́ úst. Otevřenı́ úst je provedeno rotacı́ dolnı́ části tváře podle osy čelistnı́ch
čepů.
Změna měřı́tka řı́dı́ relativnı́ velikost výrazů tváře: velikost nosu, úst, čelisti apod.
Translace řı́dı́ délku nosu, šı́řku úst, zvednutı́ hornı́ho rtu apod.
Tyto operace aplikované na danou oblast způsobı́ ohnutı́ či nataženı́ každého vrcholu nezávisle na operaci aplikované v jiné oblasti. Vhodnou kombinacı́ hodnot parametrů Parke generoval požadovaný tvar tváře. Realističnost
pak závisı́ na správné volbě hodnot jednotlivých parametrů. Při výsledné animaci však nejsou hranice mezi
sousedı́cı́mi oblastmi tvarově spojité. K simulaci elasticity kůže je proto použı́ván účinek tzv. transformačnı́ch
zúženı́ch, který je aplikovaný na hranice těchto oblastı́.
V přı́mých parametrizačnı́ch technikách se nevytvářı́ modelovacı́ struktury či mechanismy, které by posouvaly sı́tı́. Pozorované posunutı́ při animaci je modelováno přı́mo. Animace tváře s pomocı́ přı́mé parametrizace
je relativně jednoduchá a výpočetně efektivnı́ metoda. Úspěšně se použı́vá k popisu pohybů tváře a také pro
výzkum vizuálnı́ řečové syntézy. Snad nejvı́ce známý je model „Baldi“ z UCSC (Cohen a Massaro, 1993;
Cohen a kol., 1998; Massaro a kol., 1999). Tento model použili i Goff a kol. (1994) a Olives a kol. (1999).
Parkeův model je také použit v práci (Beskow, 1995) vhodný pro animaci tváře v reálné čase. Originálnı́ model
byl modifikován a byl přidán jednoduchý model jazyka.
7
Obrázek 1.5: Originálnı́ Parkeův model a jeho modifikace. a) Drátěný a stı́novaný původnı́ tvar, b) jeho modifikace
„Baldi“ a c) finská mluvı́cı́ hlava (Olives a kol., 1999)
1.2.3 Svalové a fyziologické modely
Při návrhu přı́mých parametrizacı́ se nekladou žádné podmı́nky na způsob animace tváře. Jednotlivé oblasti
se deformujı́ podle libovolně definovaných operacı́, které bývajı́ vhodně vymyšleny. Animace přı́mou parametrizacı́ je sice účinná metoda, ale musı́ být provedena pečlivě, a i přesto existuje riziko vzniku fyziologicky
nemožných výsledků. Úplně jinou cestou jde návrh svalových či fyziologických modelů. Možnostı́, jak se
předem vyvarovat fyziologicky nemožných výsledků, je zohledněnı́ anatomických omezenı́ lidské tváře, které
nám zúžı́ prostor všech výrazů tváře pouze na ty, které jsou fyziologicky realizovatelné. Taková omezenı́ nám
může poskytnout studium fyziologického složenı́ a funkčnosti tváře, které v mnoha přı́padech vede na nějaký
svalový model.
Kategoriı́ na přechodu z metod přı́mé parametrizace na svalové modely jsou tzv. pseudo-svalové modely.
Tyto modely si ponechávajı́ jednoduchost návrhu i výpočetnı́ efektivnost. Jsou řı́zeny parametrickým modelem,
který při deformacı́ch sı́tě bere v úvahu rozmı́stěnı́ svalů pod povrchem pokožky. Parametry však nemusı́
odpovı́dat reálným anatomickým procesům, ale jsou spı́še utvářené pro jednoduché změřenı́ přı́mo na povrchu
reálné tváře. Takový „pseudo-svalový“ model popisuje např. Thalmanová (Thalman1988a, Thalman1992). Pro
animaci je použita metoda FFD „Free Form Deformation“, která zároveň simuluje svalové akce. Pelachaud
(2002) popisuje pseudo-svalový model, který je kompatibilnı́ se standardem MPEG-4. Tyto návrhy však můžeme
spı́še označit jako řečově orientované animace a vı́ce se o nich zmı́nı́me v kapitole 1.2.5. Obecně vzato,
fyziologické modely mohou simulovat přirozené pohyby tváře s použitı́m relativně malého počtu parametrů za
účelem napodobenı́ biomechaniky tváře.
Svalové modely
Pro pochopenı́ základnı́ho principu si nejprve popı́šeme pokožku tváře. Pokožka člověka je vrstvená struktura. Právě vrstvené složenı́ dělá pokožku nehomogennı́ a neizotropnı́. Existujı́ mı́sta s nižšı́ a vyššı́ tuhostı́.
Vrchnı́ vrstva je označována jako epidermis, a tvořı́ jednu desetinu tloušt’ky celé kůže. Mechanické vlastnosti
jsou nejvı́ce dány kožnı́ vrstvou zvanou Dermis, která obsahuje přibližně 72 procent kolagennı́ch vláken a 4 procenta elastikových vláken. Tyto vlákna jsou hustě spletena do sı́tě a uložena v želatinovém základě (20 procent).
Pod malým tlakem klade tkáň malý odpor a kolagenová vlákna se srovnávajı́ do směru natahovánı́. Je-li však
tlak dále zvyšován, pak jsou kolagenová vlákna plně napnutá a tkáň se stává velmi odolnou. Nelineárnı́ vztah
8
Obrázek 1.6: Rozmı́stěnı́ svalů kolem úst. Svaly nakreslené vlevo jsou umı́stěné nad svaly nakreslenými vpravo.
můžeme vidět na obr. 1.7a). Na základě nestlačitelnosti se vlákna při povolenı́ napětı́ zpomalujı́ a vzniká časově
závislé visko-elastické chovánı́. Elastiková vlákna se chovajı́ jako pružiny a vracı́ kolagenová vlákna do jejich
stočených poloh. Tato vrstva ležı́ na podkožnı́ tukové vrstvě, po které pokožka spı́še klouže, a kryje vrstvu
svalů. Tkáň, jak bude ukázáno nı́že, se nejčastěji modeluje jako třı́vrstvá sı́t’a jejı́ chovánı́ se modeluje pomocı́
diferenciálnı́ch rovnic.
Obrázek 1.7: a) Závislost napnutı́ pokožky na působı́cı́ sı́le. Vpravo: model svalu z (Platt a Badler, 1981): b) svalové
vlákno a c) celý sval
Dále si krátce popı́šeme anatomii svalu. Až 268 nezávislých svalů může stlačovat či natahovat pokožku
a vytvářet nějaký výraz tváře. Svaly jsou z neanatomického hlediska svazky vláken pracujı́cı́ ve vzájemném
souladu. Krátká vlákna jsou na rozdı́l od dlouhých silnějšı́, ale majı́ menšı́ dráhu kontrakce. Podle tvaru můžeme
rozdělit svaly na tři typy: lineárnı́, svěrače a povlakové. Přı́klad lineárnı́ho svalu je Zygomaticus major, viz
obr. 1.6, který zvedá koutky úst. Takový sval je složen ze svazku vláken, které majı́ jen jedno ukotvenı́ na
kost. Povlakový sval Occipito frontalis nám umožňuje zvedat obočı́. Je to široký a plochý sval. Svěračový sval
se skládá z vláken složených do smyčky, která se stahuje např. sval Orbicularis oris kolem ústnı́ho otvoru.
Tento sval nemá ukotvenı́ na kost. Lineárnı́ sval může být v nejjednoduššı́m způsobem modelován jako lineárnı́
kontraktor, který je jednı́m koncem zakotvený do lebečnı́ struktury a druhým koncem působı́ na povrch pokožky.
Sı́la kontrakce se lineárně měnı́ po přı́mce a model pokožky je diskrétně aproximován sı́tı́ vzájemně propojených
uzlů. Výsledná deformace pokožky je pak provedena translacı́ přı́slušných uzlů.
Detailnı́ popis svalů najdeme v následujı́cı́ pracı́ch. Platt a Badler (1981) prezentuje systém pro reprezentaci a
simulaci tváře doplněného o analýzu obrazu. Hlavnı́m cı́lem jeho výzkumu je účinný a přesný model lidské tváře.
Platt zmiňuje, že Parkeův model nenı́ pro realistické modelovánı́ vhodný. Speciálnı́ chovánı́ pokožkové tkáně
jako vrásky, „vybulovánı́“ kůže při stlačovánı́ nebo jejı́ pnutı́ je v modelech přı́mé parametrizace postihnutelné,
9
ale vede na komplikovánı́ parametrizace. Dojde k obrovskému zvýšenı́ počtu parametrů a s tı́m je spojena
nutnost předem známé definice všech tvarů. Právě tuto ztrátu obecnosti se pokoušı́ obejı́t. Jeho animace je
založena na akčnı́ch jednotkách, viz AU v kapitole 1.2.8. Model je konstruován jako vı́cevrstvá sı́t’. Stejně jako
v Parkeově modelu je sı́t’ utvořena efektivně. Tak zvaný „AU analyzátor“ počı́tá z hodnot akčnı́ch jednotek a
jejich kombinacı́ přı́slušné akce modelu svalů. Tyto akce svalů jsou předány do simulátoru tváře, který z nich
vypočı́tá napětı́ či relaxaci svalů. Základnı́m stavebnı́m prvkem modelu je bod umı́stěný v 3D prostoru, který
představuje povrch tváře, svalovou a nebo lebečnı́ vrstvu. Model je pak postaven na spojenı́ch těchto bodů - hran,
které tvořı́ model hmoty. Každá hrana nese informaci o elastičnosti. Elastičnost je zde dána konstantou pružnosti.
Struktura pro sı́lu svalu je dána vláknem. Jedno vlákno je popsáno bodem svalu, bodem spojenı́ s lebečnı́ vrstvou,
obr. 1.7b), informacı́ o kontrakci a jednı́m nebo vı́ce body pokožky (vrchnı́ vrstva). Vlákna jsou složena do
svalů, ve kterých může být velikost sı́ly jednotlivých vláken odlišná, ale směr společný. Simulačnı́ algoritmus
pak počı́tá sı́lu aplikovanou v bodě vlákna ve směru k úchytu na lebku. Projev sı́ly je simulován jako posunutı́
bodu vlákna, které je ovlivňováno elastičnostı́ danou v tomto bodě. Sı́la je pak odražena na všechny připojené
body. Pomocı́ elastičnosti je sı́la propagována po tváři. Animace nějakého výrazu daného AU je rozdělena
do N kroků s rostoucı́ výpočetnı́ náročnostı́. Počı́tačové zobrazenı́ animace odpovı́dalo roku 1981, probı́halo
vektorově a vykreslovaly se pouze hrany sı́tě spolu s rotacı́ kolem třı́ os. Problémy, které se vyskytly, byli
s aktivacı́ AU a jejich vzájemného ovlivňovánı́ či maskovánı́. Animace nerespektovala tok svalu po povrchu
struktury lebky, tj. nebyla zohledněna průběžná změna směru kontrakce svalu. Tuto změnu můžeme pozorovat
napřı́klad v oblasti mezi okem a obočı́m, kde pokožka i sval klouže po lebce, ale neproniká jı́. Animace dále
nezahrnovala rotaci čelisti a ani obecně komplikované napı́nanı́ svalů přes i kolem chrupavčitých oblastı́ (např.
oblast nosu), které může způsobuje pohyby chrupavky.
Dalšı́ model popisujı́cı́ systém simulujı́cı́ svalové procesy na tváři, který je užit k vytvořenı́m realistické
animace je v práci (Waters, 1987). Waters řı́ká, že vývoj svalového procesu, který je řı́zen konečným počtem
parametrů a nenı́ specifický na topologii tváře, dovoluje bohatšı́ slovnı́k a vı́ce obecný návrh k modelovánı́
základnı́ch výrazů tváře. Je tedy prezentována vı́ce detailnějšı́ simulace pohybu vrcholů sı́tě způsobená kontrakcı́
svalů. Simulace je podobná Plattově návrhu, ale pro každý vrchol nenı́ definován pouze stupeň pohybu (váha),
ale také směr pohybu, který je předurčen jako funkce pozice vrcholu náležejı́cı́ do svalem atakované oblasti. Ve
Watersově modelu je použito několik typů modelu svalů: lineárnı́ sval, který atakuje jednoduchý bod, povlakový
sval, který atakuje několik bodů na přı́mce, a stejně tak eliptický svěrač, který se svı́rá kolem imaginárnı́ho
bodu. Právě model eliptického svalu umožňuje modelovánı́ kruhového svalu kolem úst.
Výše zmı́něné modely využı́vajı́cı́ napětı́ sı́tě a poskytujı́ elegantnı́ řešenı́, avšak pokožková elastičnost je
modelována napětı́m sı́tě a to je stále ještě přı́lišné zjednodušenı́, nebot’se předpokládá model pokožky jako tenký
povrch deformovaný napět’ovými silami. Terzopoulos a Waters (1990) vyšli z práce (Waters, 1987) a vyvinuli
vı́ce detailnějšı́ fyziologický model pro simulaci vlastnostı́ tkáně tváře. Pro simulaci pokožky použı́vajı́ třı́vrstvý
model. Numerická simulace probı́há diferenciálnı́ rovnicı́ druhého řádu. Autoři navı́c použı́vajı́ automatický
proces pro vytvářenı́ modelu. Procedura začı́ná z jednoduché sı́tě aproximujı́cı́ povrch tváře. Uzly a hrany
této sı́tě modelujı́ Epidermis. Z těžiště každého polygonu sı́tě je veden normálový vektor, který je promı́tnut
do povrchu umı́stěného pod Epidermis. Takto je modelována podkožnı́ vrstva. Čtyřboké útvary pak vzniknou
propojenı́m těchto uzlu s trojúhelnı́ky vrstvy tvořı́cı́ Epidermis. Tyto pružné vazby tvořı́ kožnı́ vrstvu. Stejným
způsobem je vytvořena dalšı́ vrstva, která je umı́stěna pod kožnı́ vrstvou, a která tvořı́ podkožnı́ vrstvu. Poslednı́
množina vazeb je vedena z této podkožnı́ vrstvy a je ukotvena na lebečnı́ strukturu. Vzniklá vrstva tvořı́ svalovou
vrstvu. Vlákna svalů jsou automaticky umı́stěna do této poslednı́ vrstvy. Model je složen 960 polygonů, přibližně
6500 pružných vazeb. Nastavenı́ konstant je intuitivnı́ za účelem dosaženı́ dobrých výsledků.
Lee a kol. (1995) použı́vajı́ o něco jednodušı́ návrh než naposledy zmı́něný model. Jejich model pokožky
také utvořen z pěti částı́. Vrchnı́ části: Epidermis, Dermis, podkožnı́ spojovacı́ tkáň a Fascia (pokožka).
Poslednı́ vrstvou je vrstva obsahujı́cı́ svaly. Na obr. 1.8 vidı́me všech pět vrstev. Prvnı́ vrstva je dána vrcholy
1, 2 a 3, které jsou vzájemně spojeny pružnými hranami. Tato vrstva je spojena pružnými vazbami do vrstvy
představujı́cı́ pokožku, vrcholy 4, 5 a 6. Toto spojenı́ definuje kožnı́ tukovou vrstvu. „Fasciálnı́“ vrstva je
10
Obrázek 1.8: a) Detail třı́vrstvého spojenı́. Každý uzel o určité hmostnosti je spojen pružnými vazbami. b) Ukázka
cekového modelu tváře.
spojena s vrstvou představujı́cı́ lebku vazbami svalové vrstvu. Autoři definujı́ diskrétnı́ deformačnı́ model
(DDM) složený z struktury bodu a vazby. Každý bod je dán pozicı́ v 3D prostoru, rychlostı́, zrychlenı́m,
hmotnostı́ a sı́t’ovou sı́lou. Všechny veličiny jsou funkcı́ času. Vazba je dána indexem dvou bodů, které spojuje,
délkou a konstantou tuhosti. Je modelováno 28 základnı́ch svalů. Kontrakce je simulována lineárnı́ a po částech
lineárnı́ sı́lou. Sı́la svalu je distribuována v okolı́ svalu a působı́ na všechny atakované vrcholy Fasciálnı́ vrstvy.
Newtonův zákon pohybu řı́dı́ odezvu tkáně podle diferenciálnı́ rovnicı́ druhého řádu, (1.3). Poloha se počı́tá
z pozice, rychlosti a zrychlenı́:
:mi
d2 xi
dxi
+ i
2
dt
dt
g
q
s
h
f
+ ~i + ~i + ~i + ~ i = ~i
(1.3)
mi hmotnost uzlu,
i koeficient tlumenı́
g~i sı́la pro zachovánı́ objemu,
s~i sı́la pro zabráněnı́ průniku kostı́,
h~ i celková obnovovacı́ sı́la
f~i sı́la vynaložená svalem na tento uzel.
Simulace je numericky vypočı́tána Eulerovou metodou, která umožňuje možnost paralelnı́ho výpočtu. Poloha
každého uzlu závisı́ na poloze v předešlém kroku. Model simuluje tzv. lebečnı́ sı́ly, které zajišt’ujı́, že tkáň
může klouzat po lebce a zabraňujı́ jejı́mu pronikánı́ do lebky. Sı́ly pro uchovánı́ objemu se zase snažı́ udržet
konstantnı́ objem každého elementu modelu tkáně. Hlavnı́ nevýhodou je, že výpočetnı́ složitost může zabránit
rychlé animaci v reálném čase. Dalšı́ nevýhodnou je také to, že parametry určujı́cı́ fyzické vlastnosti tkáně,
např. tloušt’ka vrstev a pružnostnı́ konstanty, jsou předpokládány za konstantnı́ pro celý povrch tváře, což je
samozřejmě zjednodušenı́.
Lucero a Munhall (1999) pro svůj model použili publikovaná anatomická data. Parametrům pro tloušt’ku
vrstevy, hmotnosti uzlů (hustota pokožky), pružnosti stlačovánı́, tlumı́cı́ch koeficientům a svalových sil přiřadili
11
Obrázek 1.9: Rozmı́stěnı́ svalů v modelu (Lucero a Munhall, 1999). a) Sval atakujı́cı́ kost, b) sval Orbicularis oris
atakujı́cı́ pouze podkožnı́ vrstvu.
reálné hodnoty. Pro studium biomechaniky použili měřenı́ pomocı́ elektromyogramu (EMG). Toto měřenı́
sloužilo k řı́zenı́ extrakcı́ svalů. 3D model simulujı́cı́ měkkou tkáň byl také utvořen ze vı́cevrstvé sı́tě. K aktivaci
svalů sloužili zmı́něné EMG signály. Kinematika sı́tě byla porovnána s 3D pohyby pokožky zaznamenaných
OPTOTRAK systémem, viz 2.2.2. Práce je rozšı́řenı́m Terzopolova modelu z roku 1990. Poskytuje model tváře,
který může být užitečný jak pro animaci procesu produkce řeči, tak i pro výzkum.
Nejprve můžeme provést srovnánı́ s výše zmı́něnými modely. V Terzopolově modelu byly biomechanické
parametry vybrány heuristickým návrhem. Ačkoli byly založeny na fyziologii tváře, je s nimi zacházeno jako
s bezměřı́tkovými veličinami. Velikost akcı́ byla vybrána tak, aby generovala realistickou simulaci. Lucero
a Munhall použı́vajı́ reálné hodnoty parametrů zı́skané z experimentálnı́ho měřenı́ a i deformace modelu je
provedena podle fyziologických dat, které modifikujı́ způsob simulace pohybu. V Terzopolově modelu byly
pohyby zı́skány ze sekvence rovnovážných stavů modelu, tj. model byl počı́tán do rovnovážného stavu před
dalšı́m snı́mkem a výsledná animace nekorespondovala s reálnou dynamikou tváře.
Nynı́ si popı́šeme animaci. Počı́tačovou tvář tvořı́ komplexnı́ fyziologický model s oddělenou reprezentacı́
svalů a kůže. Svaly jsou modelovány podle standardu Hill-type formulace, která počı́tá sı́lu svalu z kontrakčnı́ch
elementů (závislost sı́ly na délce svalu a rychlosti). Prvnı́ aproximacı́ svalu je přı́mková svalová akce a standardnı́
kosternı́ svalová fyziologie. S výjimkou Obicular oris superior (OOS) a Orbicularis oris inferior (OOI), majı́
svaly kolem úst ukotvenı́ v lebečnı́ struktuře hornı́ a dolnı́ čelisti. Tyto svaly jsou tedy reprezentovány lineárnı́mi
silovými vektory. Pro kůži a spojenou tkáň použı́vajı́ také jednoduchou aproximaci. Charakteristiky stlačenı́ a
napnutı́ jsou nelineárnı́ a anizotropnı́. Biomechanické vlastnosti kůže jsou modelovány vı́cevrstvou sı́tı́, která je
parametrizována lineárnı́ nebo po částech lineárnı́ estimacı́. Sı́t’tváře je tvarována podle dat z laserového měřenı́,
kde uzly představujı́ hmotu a spojenı́ mezi uzly je modelováno pružinou a tlumičem. Model má standardně tři
vrstvy: vrchnı́ pokožka, Fascia a struktura lebky. Vnitřnı́ vrstva je fixována v 3D, střednı́ vrstva je napojena
na vnitřnı́ s výjimkou oblasti kolem hornı́ho a dolnı́ho rtu a tvářı́. Sı́t’ má jednotnou tloušt’ku s odstupem
1; 5mm mezi vrchnı́ a střednı́ a 2; 5mm mezi střednı́ a vnitřnı́ vrstvou. Všechny uzly majı́ stejnou hmotnost.
S předpokladem střednı́ hustoty kůže 1142kg=m3 dostaneme z hustoty sı́tě 5 uzlů na 1m3 přibližnou hmotnost
uzlu 0; 23g . Všechny modely pružin jsou lineárnı́ s výjimkou pružin kůže–tuk. Tuhost pružiny je 600dyn=m a
12
samotná vnějšı́ vrstva má tuhost 1200dyn=m – tuhost pokožky5 . Tvar modelu tváře spolu s rozmı́stěnı́m svalů
můžeme vidět na obr. 1.9 vlevo. Z několika desı́tek svalů je postihnuto pouze 15 párů, které jsou asociovány
s hornı́mi pohyby tváře a se svaly kolem úst. Až na OOS a OOI všechny atakujı́ jeden nebo vı́ce uzlů střednı́
vrstvy, viz obr. 1.9a). Když je sval aktivován, vynaložı́ sı́lu na tyto uzly ve směru uloženı́ svalu (ze směru vnitřnı́
vrstvy). Svaly kolem úst tj. OO atakujı́ pouze uzly na střednı́ vrstvě vůči sobě ve směru uloženı́ svalu, obr. 1.9b).
Ustálený stav svalu se počı́tá z EMG signálu a také z přı́čného řezu svalu. Průřez svalu je dán pro každý sval
v m2 a autoři navrhujı́ změřenı́ hodnot pomocı́ pitvy. Z literatury je pak přebrána pasivnı́ tuhost svalu. Hodnoty
EMG jsou normalizovány na rozsah 0 1. Podobně jako popisuje Lee, je dynamika tváře počı́tána z diferenciálnı́
rovnice druhého řádu s časovou konstantou 15ms. Rovnice počı́tá polohu uzlů s respektovánı́m tlumı́cı́ch sil
působı́cı́ch na uzel. V úvahu se berou velikosti pružnosti spojek, dále se bere podmı́nka nestlačitelnosti kůže,
stálý objem uspořádaných trojúhelnı́ků a sı́la penalizujı́cı́ průnik střednı́ vrstvy lebkou. Výhodou je, že tato
animace tváře probı́há z již zmı́něných EMG signálů, které byly naměřeny pro 7 svalů (polovina tváře).
Touto detailnı́ simulacı́ dynamiky tváře, tkáně a svalů můžeme docı́lit animace přirozených deformačnı́ch rysů.
Nevýhodou je, že biomechanické vlastnosti tkáně jsou modelovány lineárnı́ aproximacı́ a modelovánı́ probı́há
jen na podmnožině svalů kolem rtů. Otevı́ránı́ čelisti nenı́ měřeno EMG. Porovnánı́ kinematiky nalezneme
v kapitole 4.2.
V práci (Uz a Güdükbay, 1998) nalezneme zjednodušenı́ Watersova svalového modelu s řešenı́m problémů
neuchycenı́ svalů v okolı́ úst. Model se skládá z 888 trojúhelnı́ků, pouze z jedné vrstvy a tvář je rozdělena do
třı́ částı́: hornı́, střednı́ a dolnı́. Autoři modelujı́ 34 svalů, z toho 4 lineárnı́ svaly pro abstraktnı́ modelovánı́
Orbicularis oris. Svěračový sval je aproximován čtyřmi lineárnı́mi svaly spojenými v jednom bodě uprostřed
hypotetického středu. Pro studii mechanických vlastnostı́ kůže a jejı́ho stárnutı́ použı́vá Thalmann a kol. (2002)
simulačnı́ výpočetnı́ model, který zahrnuje vrásněnı́ kůže. Ukázku modelovánı́ vrásek můžeme vidět na obr. 1.10.
Obrázek 1.10: Model pokožky z (Thalmann a kol., 2002): a) mladá pokožka, b) modelovánı́ vrásek.
Kritickým problémem všech reprezentacı́ zůstává otázka, jak zı́skat detailnı́ data k estimaci hodnot parametrů
definujı́cı́ch lokálnı́ vlastnosti tkáně s mnoha stupni volnosti. I samotné měřenı́ EMG signálů pomocı́ elektrod
zapı́chnutých do tváře podél svalů a skutečnost obzvláště spletitého poskládánı́ svalů na tváři se jevı́ z hlediska
animace mluvı́cı́ hlavy spı́še nevhodné. Dalšı́ nevýhody svalových modelů je výpočetnı́ složitost vlastnı́ animace.
Výhody můžeme najı́t spı́še z hlediska studie fyziologie produkce řeči. Z hlediska animace mluvı́cı́ hlavy jsou
tyto simulace často třı́vrstvých modelů zbytečně komplikované a málo flexibilnı́. Dalšı́m neřešeným problémem
je, že např. prosté nafouknutı́ tvářı́ nenı́ možné modelovat těmito navrženými systémy. Hypotetické řešenı́ by
vyžadovalo velmi komplexnı́ fyziologický model hlavy, který bude modelovat naplňovánı́ komor vzduchem
apod. Dalšı́ neřešenou, ale z hlediska řečové produkce důležitou věcı́ je model jazyka a modelovánı́ artikulačnı́ch
kontaktů např. kontakt rtů a zubů.
5
dy n = 10 N
1
5
13
1.2.4 Daty řı́zené návrhy
Daty řı́zené návrhy soustřed’ujı́ méně pozornosti na fyziologické utvořenı́ tváře a stejně jako metody přı́mé
parametrizace se raději pokoušejı́ modelovat deformace přı́mo. Rozdı́l však spočı́vá v přı́stupu zı́skánı́ dat,
kdy přı́má parametrizace se opı́rá o souhrn ručně definovaných klı́čových tvarů a daty řı́zené návrhy prioritně
použı́vajı́ nějakých metod k měřenı́ tvaru tváře. K odvozenı́ parametrizace daty řı́zené návrhy použı́vajı́ často
statistických metod, často nějaká forma PCA „Principal Components Analysis“. PCA je hojně použı́vaná metoda
jak pro analýzu dat, tak i pro jejich kompresi. Základem pro statistické zpracovánı́ jsou data, která se zı́skávajı́
pomocı́ metod popsaných v kapitole 2. Data jsou složena z pozorovánı́ často stovek bodů zvýrazněných na tváři
a pro detailnı́ zpracovánı́ vyžadujı́ velké rozlišenı́. Výsledky analýzy těchto dat jsou pak použity pro animaci
tváře, která je modelována opět sı́tı́ skládajı́cı́ se z vrcholů a polygonů.
Kuratate a kol. (1998) navrhuje animaci tváře, která je jak komunikativnı́ tak i realistická. Animace je
řı́zena relativně malým počtem bodů na povrchu tváře. Animace může být synchronizována přirozeným nebo
syntetizovaným hlasem. V animačnı́m modelu však nejsou zahrnuty zuby, oči ani vlasy. Jsou zaznamenány dva
typy dat: časově proměnlivé a statické. 3D dynamická data byla zaznamenána systémem OPTOTRAK, který
sledoval 18 bodů na 60Hz. Zároveň byla zaznamenána i akustická řeč a při záznamu byla měřena poloha hlavy.
Statická data představovalo 8 tvarů celé hlavy zı́skaných pomocı́ 3D skeneru. Rozlišenı́ bylo 512 512. Body
z OPTOTRAK byly srovnány měřenı́ s daty ze skeneru. Analýza dat byla provedena zúženým výběrem dat ze
skeneru pomocı́ generické sı́tě, která byla narovnána na skenovaná data jednotlivých výrazů. Vnitřnı́ a vnějšı́
kontury rtů definujı́ oblast pro speciálnı́ sı́t’rtů, která je generována pomocı́ kubických spline interpolacı́. Tato sı́t’
je vložena do přizpůsobených generických sı́tı́. Metody PCA je použito ke zmenšenı́ dimenze těchto 8 záznamů,
prvnı́ch 7 komponent je vybráno a prvnı́ch 5 popisuje prostor dat s vı́ce než 99% variacı́. S použitı́m PCA
je spojen lineárnı́ estimátor, kterým jsou generovány sı́tě pro jednotlivé výrazy tváře. Generovánı́ se provádı́
z 18 3 složkového vektoru. V práci (Kuratate a kol., 1999) je dalšı́ rozšı́řenı́. Mapovánı́ aktivity svalů do
pohybů tváře pomocı́ lineárnı́ho auto-regresivnı́ho modelu (AR, závislost na dvou předchozı́ch vzorcı́ch pozice
vektoru tváře). Vstupem je jedna hodnota EMG signálů a AR model generuje těchto 7 PCA komponent.
Obrázek 1.11: Čelnı́ a bočnı́ pohled na maximálnı́ pohyb bodů při promluvě, které jsou pevně spojené s povrchem
tváře.
Elisei a kol. (1997) uvádı́ dalšı́ daty řı́zený model, který je vhodný pro analýzu kódovánı́ a syntézu videorealistické mluvı́cı́ tváře. Návrh se zaměřuje na lineárnı́ modelovánı́ 3D rtů a tváře. Artikulačnı́ model je založen
14
na reálných datech zı́skaných z čelnı́ho a bočnı́ho pohledu. Je využito lineárnı́ analýzy, která probı́hala nad
dvěma sty 3D body na tváři a rtech. Autoři užı́vajı́ specifický model řečnı́ka s ohledem na MPEG-4 (FAP)
parametrizaci. Analýzou dat se redukuje šı́řka přenosového pásma, ale také šum. Animace řečových gest je
vytvářena jako subtilnı́ pohyb malých oblastı́ na tváři, obr. 1.11. Důležitou vlastnostı́ je, že model simuluje přesné
pohyby povrchu tváře. Pro zı́skánı́ dat bylo vynaloženo mnoho manuálnı́ práce. Bylo využito husté stereo a
fotogrammetrie pro 168 barevných korálků přilepených na tváři, obr. 2.2. Na naměřená data je aplikována PCA.
Je proveden výběr vhodných komponent. Vybraných komponent je použito pro lineárnı́ predikci všech ostatnı́ch
bodů.
P = B + M:
(1.4)
Konkrétně bylo vybráno 6 lineárnı́ch komponent s celkovou 90% variancı́. Celá hlava je složena z těchto
měřených bodů a z bodů ze 3D skeneru. Texturovánı́ je provedeno z barevných fotografiı́ řečnı́ka, je použito
několik snı́mků pro jednotlivé vizémy. Hustota sı́tě je vhodně zvolena tak, aby efektivně zachycovala napı́nánı́
rtů, vrásky a tzv. noso-retnı́ rýhu, která se tvořı́ mezi ústy a tvářemi. Návrh umožňuje kódovánı́ do MPEG-4.
Podobná analýza, ale založená na MRI skenovánı́, byla použita v práci (Engwall, 2002a) při výzkumu modelu
jazyka. Vı́ce v kapitole 1.2.6. K daty řı́zeným animacı́m můžeme zařadit i práci (Hong a kol., 2002). Zde je
prezentována animace 3D tváře pomocı́ neuronové sı́tě. Animace je výsledkem lineárnı́ kombinace tzv. pohybových jednotek (MU). Kolekce dat je složena ze záznamu prostorového pohybu 153 značek umı́stěných na tváři.
Z rozmı́stěnı́ těchto značek je postaven animačnı́ model, který je i zde postaven jako polygonálnı́ sı́t’. Analýza
dat je provedena pomocı́ PCA s výsledkem: 7 komponent a 93% variance. Natrénovaná neuronová sı́t’převádı́
PCA komponenty na parametry tváře.
1.2.5 Řečově orientované animace
Řečově orientované animace pohlı́žejı́ na animaci tváře z hlediska animace řečové produkce vhodné pro
odezı́ránı́. Takovéto systémy jsou oprávněně nazývány „mluvı́cı́ hlava“ a někdy také jako systémy vizuálnı́
syntézy řeči. Animačnı́ proces je podřı́zen jedinému cı́li a tı́m je správná artikulace. Správná artikulace předevšı́m souhlásek je dána přesnou definicı́ artikulačnı́ch mı́st6 a i milimetrová odchylka od artikulačnı́ho mı́sta
může rušivě působit na vnı́mánı́ řeči či způsobovat úplnou nesrozumitelnost. Do řečově orientovaných systémů můžeme zařadit práci Thalmanové (Magnenat-Thalmann a kol., 1988), která je dnes vedoucı́ pracovnicı́
laboratoře MiraLab. Právě tato laboratoř je jednou z vedoucı́ch světových pracovišt’ zabývajı́cı́ch se animacı́
člověka. Tuto práci jsme zařadili do řečově orientovaných animacı́ proto, že řı́zenı́ animace tváře bylo poprvé
zaměřené na synchronizovanou řeč. Animace je založena na konceptu označeném jako „Abstract Muscle Action
Procedure“, dále jen AMA procedura. AMA procedura simuluje specifické akce svalů tváře. Autoři popisujı́
animaci syntetické tváře herců a to na třech úrovnı́ch: prvnı́ úroveň tvořı́ zmı́něná AMA procedura, dalšı́ pak
výrazy a skripty. Praktickou aplikacı́ byla animace filmových herců, vı́ce v kapitole 5. AMA procedury stojı́
mezi jednoduchou parametrizacı́ a obecným svalovým návrhem a pobı́rajı́ výhody obou návrhů. AMA pracujı́
na specifické oblasti lidské tváře, která musı́ být definována, když je tvář konstruována. AMA jsou na sobě
závislé, a proto je pořadı́ akcı́ procedur velmi důležité. Důraz je kladen přednostně na věrnost pohybů rtů za
účelem přiblı́ženı́ se k reálným pohybům. Každá AMA definuje určitý jednoduchý pohyb. Pohyby jsou popsány
následovně:
6
Otevřenı́ úst (čelist) - složeno ze série malých následných pohybů řı́zených parametry této AMA.
Uzavřenı́ dolnı́ho a hornı́ho rtu - pohybovánı́ vertikálnı́m směrem ke středu úst. Střed je určen z výšky
koutků. Každým rtem může být nezávisle pohybováno. Pro aproximaci pohybu ostatnı́ch vrcholů rtů je
použito křivek, které jsou určeny třemi body: levý a pravý koutek a střed.
Artikulačnı́ mı́sto si můžeme představit jako např. správné umı́stěnı́ dolnı́ho rtu pod hornı́ řadu zubů při vyslovovánı́ frikativ.
15
Levé a pravé zvednutı́ rtu - zvedánı́ hornı́ho rtu. Následkem je odkrytı́ hornı́ řady zubů, které je pozorováno
např. při úsměvu nebo při artikulaci hlásky /f/ a /v/.
Stlačenı́ rtů - modelovánı́ Orbicularis oris, svalu kolem úst, např. pohyb při vyslovovánı́ /m/.
Vyšpulenı́ úst (zobák) - tato AMA vysouvá rty směrem ven např. pohyb na polibek.
Vertikálnı́ taženı́ koutků (sval Zygomatic).
Taženı́ koutků (Risirius) spı́še horizontálnı́m směrem.
AMA procedury tvořı́ základ, nad kterým je postavena úroveň výrazů tváře. Úroveň výrazů manipuluje s tvářı́
pomocı́ AMA procedur, kombinacı́ AMA se vytvářı́ vı́ce komplexnějšı́ entity korespondujı́cı́ s AU. Určitý
výraz tváře je dán skupinou hodnot AMA, které transformujı́ tvář z neutrálnı́ polohy do fonémového nebo
emocionálnı́ho výrazu. Jelikož byly výrazy tváře pro každého herce jiné, definovaly se zvlášt’ pro každou
tvář. V této práci jsou vizémy realizovány kombinacı́ několika pohybů úst, které korespondujı́ promlouvanému
zvuku. Pro film bylo definováno 28 základnı́ch fonémových tvarů. Jazyk tehdy nebyl uvažován. Byly definovány
základnı́ emoce: pláč, úsměv, smı́ch a polibek. Ve vytvářenı́ animace nejvýše stojı́ tzv. skriptovacı́ úroveň.
Skriptem je zde myšlena kolekce drah (tras). Trasa je utvořena z chronologické sekvence klı́čových snı́mků.
Pro každou AMA je definována jedna trasa. Na každé trase je procentuálně určeno kolik z hodnoty klı́čového
snı́mku se bude v daném čase brát. Chronologické rozmı́stěnı́ srovnává animaci se zvukem. Výsledná animace
je vykonávána interpolacı́ pomocı́ spline funkcı́. Tvar lidské tváře může být v této animačnı́ technice vytvořen
pomocı́ 3D digitalizace, ručně nebo 3D rekonstrukcı́. Předpokládá se symetrický model a implementace je
v HUMAN FACTORY systému.
Dalšı́ animačnı́ model v MiraLab vyvı́jel Kalra. Kalra a kol. (1992) popisuje animaci tváře založenou na
technikách „volno-formové deformace“, dále jen FFD, kterou zde označil jako racionálnı́ FFD. FFD umožňuje
deformovat povrch primitiv pomocı́ mapovánı́ z R3 do R3 . K animaci tváře předpokládá autor tvář rozdělenou
na oblasti, které odpovı́dajı́ anatomickým oblastem svalů. Každá oblast má své parametrické řı́zenı́ pomocı́
řı́dı́cı́ch bodů tvořı́cı́ch řı́dı́cı́ jednotku. Deformace reálné tváře způsobené podpovrchovou strukturou jsou zde
simulovány posouvánı́m těchto řı́dı́cı́ch bodů a změnami vah. Oblast tváře uvnitř nějaké řı́dı́cı́ jednotky je
deformována jako poddajný objem.
Beskow (1997), KTH Stockholm, vyvinul animačnı́ model pro animaci mluvı́cı́ho agenta. Zde je použito
deformačnı́ schéma simulujı́cı́ pohyb a pnutı́ povrchu pokožky. Tvář je opět pod kontrolou parametrů, ručně se
vybı́rajı́ pozice bodů na povrchu tváře a k nim i artikulačnı́ mı́sta, do kterých se budou tyto body deformovat.
Vlastnı́ deformace je provedena pomocı́ několika tzv. deformátorů. Celá tvář je parametrizována pomocı́
několika deformátorů, z nichž každý působı́ na podmnožinu uzlů sı́tě a aplikuje na ni definovanou transformaci.
Akce a vlastnosti deformátoru jsou:
aktivačnı́ faktor – bez měřı́tka, hodnota je mezi 0 a 1 a určuje stupeň deformace,
typ transformace – rotace, změna měřı́tka, translace nebo taženı́,
definice oblasti vlivu– seznam vrcholů a vah, které budou pod vlivem tohoto deformátoru,
cı́lový bod deformace – maximálnı́ pozice kam se dostane prototypový bod,
prototypový bod – bod obvykle uprostřed oblasti vlivu, je transformován směrem k cı́lovému bodu,
středový bod – bod ke kterému je počı́tána rotace či změna měřı́tka (záležı́ na typu transformace).
Deformace je řı́zena aktivačnı́m faktorem, který udává mı́ru transformace prototypového bodu. Nulová hodnota
reprezentuje žádnou transformaci a hodnota jedna značı́, že má být dosažen cı́lový bod deformace. Daný typ
transformace je aplikován i na všechny uzly v oblasti vlivu s respektovánı́m jejich vah.
16
Na stejném pracovišti je vyvı́jen ještě jeden animačnı́ model. Kshirsagar a kol. (2000) navrhuje deformaci
sı́tě založenou také na výrazových bodech a respektujı́cı́ MPEG-4 parametrizaci. Primárnı́m hlediskem zde byla
rychlost, robustnost a aplikovatelnost pro animaci libovolných objektů definovaných sı́tı́ a výrazovými body.
Autorka zde uvádı́, že je potřeba mı́t znalosti o animovaném objektu (geometrie a struktura objektu), a že je
jak pro reálnou tvář tak, pro animovanou karikaturu obtı́žné definovat svaly a měkkou tkáň, které jsou velmi
závisejı́cı́ na specifické charakteristice tváře. Základ modelu je sı́t’s předdefinovanými řı́dı́cı́mi body na povrchu.
Oblasti ovlivněnı́ pro každý řı́dı́cı́ bod se počı́tá Voronoiovým povrchovým diagramem, (Aurenhammer, 1991).
Sı́t’je tak rozdělená do oblastı́. Na jeden bod sı́tě může působit vı́ce řı́dı́cı́ch bodů. Algoritmus pracuje ve dvou
krocı́ch. Inicializačnı́ krok, kdy jsou extrahovány:
1. odstup mezi tı́mto vrcholem a řı́dı́cı́mi body,
2. odstup mezi obyčejnými body a nejbližšı́m výrazovým bodem,
3. relativnı́ rozprostřenı́ výrazových bodů kolem daného vrcholu
Obrázek 1.12: Schéma výpočtu parametrů, které popisujı́ stupeň ovlivněnı́ nevýrazového bodu P třemi výrazovými
body F P1 , F P2 a F P3
a jsou nastaveny váhy pro všechny vrcholy. Vzdálenost dvou vrcholů je spočtena jako součet délek všech hran
na přechodu z jednoho do druhého. Posunutı́ všech vrcholů je v reálném čase počı́táno z posunutı́ řı́dı́cı́ch
vrcholů. Inicializace sı́tě rozděluje sı́t tak, že se provede průchod z každého řı́dı́cı́ho vrcholu vždy o jeden krok
všemi směry. Zpracovánı́m celé sı́tě dostaneme hranice mezi oblastmi a zároveň známe všechny sousednı́ řı́dı́cı́
body k danému řı́dı́cı́mu bodu a také jejich povrchovou vzdálenost. Pro nějaký vrchol zjistı́me do jaké oblasti
spadá a zjistı́me i jeho sousednı́ řı́dı́cı́ body. Vyberou se jen dva sousedı́cı́ body, obr. 1.13, které svı́rajı́ nejmenšı́
úhel. Tyto úhly a povrchové vzdálenosti se použijı́ pro výpočet váhy pro tento daný vrchol. Může nastat situace,
kdy existuje jen jeden sousednı́ vrchol. Tato váha udává ovlivněnı́ při konečné animaci. Druhým krokem je
deformace sı́tě, která probı́há v reálném čase. Animace pouze přepočı́tává posunutı́ DP jako vážený průměr ze
všech posunutı́ch řı́dı́cı́ch bodů majı́cı́ch vliv na tento bod.
PN
DP
i=0
=
PN
Wi;P Di
d2i;P
Wi;P
i=0 d2
i;P
;
(1.5)
kde Di je posunutı́ řı́dı́cı́ho bodu, Wi;P váha spojená s bodem i a vztažená k řı́dı́cı́mu bodu P a di;P je povrchová vzdálenost bodu P od řı́dı́cı́ho bodu. Navržený algoritmus je vhodný pro standard MPEG-4. Zobrazenı́
1257 vrcholů probı́halo na 600MHz PC s 70fps. Výsledkem je tedy rychlá animace hlavy.
17
Můžeme najı́t dalšı́ animace respektujı́cı́ definice MPEG-4: (Dalong a kol., 2002; Escher a kol., 1999).
Speciálnı́ částı́ animace podle MPEG-4 je také vlastnı́ tvorba sı́t’ového modelu, o které se detailněji zmı́nı́me
v kapitole 2.1. Animace použı́vajı́ tzv. nı́zko-úrovňové parametry. Generovánı́ výrazu tváře pomocı́ deformace
sı́tě podle hodnoty nějakého parametru je provedena posunem vrcholů sı́tě po trajektorii. Trajektorie parametru
je po částech lineárně aproximována. Parametr je ztotožněn s jednı́m vrcholem sı́tě, transformace sı́tě je pak
provedena posunutı́m všech vrcholů, které ležı́ v oblasti vlivu. Definice deformacı́ bývá závislá na použitém
modelu specifické osoby.
Pelachaud a kol. (2001) vyvı́jı́ italsky mluvı́cı́ hlavu primárně určenou k odezı́ránı́ ze rtů. 3D model
tváře založený na MPEG-4 standardu. Animačnı́ model použı́vá pseudo-svalový návrh, kde kontrakce svalů
jsou simulovány pomocı́ deformacı́ polygonálnı́ sı́tě okolo řı́dı́cı́ch bodů. Model tváře je rozdělen do regionů
definovaných kolem každého řı́dı́cı́ho bodu (nějaká část povrchu tváře). Tyto regiony korespondujı́ s kontrakcı́
svalu na pokožku. Nějaké body uvnitř regionu mohou být ovlivňovány několika FAP, ale mohou reagovat
odlišně, jeden FAP může mı́t většı́ ovlivněnı́. Zóna ovlivněnı́ má elipsovitý tvar, kde ve středu je řı́dı́cı́ bod.
Všechny body uvnitř zóny jsou pod kontrolou deformačnı́ funkce (funkčnı́ závislost na vzdálenosti). Posunutı́
nějakého bodu v této zóně závisı́ na regionu (část pokožky), ke kterému náležı́ a na ovlivněnı́ regionu. Intenzita
přı́slušného řı́dı́cı́ho parametru je vážena dvěma deformačnı́my funkcemi. Prvnı́ deformačnı́ funkce je dána
závislostı́ na vzdálenosti od řı́dı́cı́ho vrcholu a hodnota této funkce mimo elipsoid je nulová tj. ovlivňujı́ se
jen vrcholy patřı́cı́ pod daný animačnı́ parametr. Druhá funkce vážı́ vzájemný vliv každého parametru, nulová
hodnota pak značı́ žádný vliv. Model umožňuje animovat také vrásky a brázdy na pokožce. Boule a brázdy jsou
modelovány pomocı́ speciálnı́ funkce posunutı́.
Obrázek 1.13: Definice deformačnı́ch oblastı́ pro italskou mluvı́cı́ hlavu. a) Jednotlivé regiony tváře, b) řı́dı́cı́ body a
jejich oblast ovlivňovánı́, c) funkčnı́ závislost hodnoty váhy na vzdálenosti od řı́dı́cı́ho bodu a d) ukázka modelované
deformace.
Řečově orientovanou animaci avšak použı́vajı́cı́ třı́vrstvý model tváře nalezneme v práci (Sams a kol., 2000).
Zde je pro finsky mluvı́cı́ hlavu použit model skládajı́cı́ se přibližně z 1000 vrcholů a 1500 polygonů a je použit
lineárnı́ model svalů z (Terzopoulos a Waters, 1990). Vlastnı́ animace je výpočetně velmi náročná. Potomka
Parkeova modelu najdeme i v (Olives a kol., 1999), dalšı́ animace jsou v (Fagel a Clemens, 2003; Frydrych
a kol., 2003). Krňoul a Železný (2004) popsali řečově orientovanou animaci pomocı́ deformace sı́tě založené
na spline funkcı́ch. Většina řečově orientovaných animacı́ vznikla z důvodů potřeby animace řeči jednoduchou
cestou bez většı́ch ohledů na fyziologické a anatomické znalosti. Hlavnı́m záměrem je řádná animace vizuálnı́
řeči použitelná pro odezı́ránı́. Podobné rozdělenı́ a popis modelů animace tváře můžeme nalézt také v (Bailly,
2002) nebo v (Beskow, 2003).
18
1.2.6 Detailnı́ animace úst
Nejvı́ce přı́nosnou oblastı́ tváře z hlediska řečové produkce je oblast kolem rtů. Proto existuje celá řada pracı́
zaměřených na detailnı́ modelovánı́ rtů. Každý model určený pro realistickou animaci řeči však také vyžaduje
nějaký model jazyka. Obecně platı́, že některé souhlásky jsou často spojené s čistě viditelným pohybem jazyka.
Viditelnost jazyka má důležitou roli při odezı́ránı́. Jestliže je animačnı́ model užı́ván pro trénovánı́ řeči, pak
realistický jazyk umožňuje plnou artikulačnı́ registraci. Uděláme-li viditelnou animaci pomocı́ transparentnı́
kůže nebo vynechánı́m částı́ tváře, pak pravděpodobně pohyb jazyka může mı́t i cennou pedagogickou hodnotou.
V oblasti artikulačnı́ syntézy jsou modely jazyka vyvı́jeny v 2D i v 3D prostoru.
Požadavky modelu jazyka pro vizuálnı́ syntézu jsou dosti odlišné od modelů jazyka či hlasového traktu
použı́vaných v akustických syntézách. Zatı́mco popisované deformace pro vizuálnı́ syntézu musı́ poskytnout
dobrou aproximaci geometrie hlasového traktu, akustické modely neposkytujı́ vizuálně interpretovatelné zobrazenı́. V tzv. trubkových akustických modelech je hlasový trakt modelován pouze jako povrch ohraničujı́cı́
kanál vzduchu, který je postačujı́cı́ pro generovánı́ zvuku, ale méně dobrý pro vizuálnı́ prezentaci. Naproti tomu
modely jazyka pro vizuálnı́ syntézu jsou typicky méně anatomicky vypracované, často omezené na poskytnutı́
pohledu zvenčı́ skrz otevřená ústa. Z vnějšı́ho pohledu je nejlépe viditelná špička jazyka a snadno registrovatelný pohyb. Cohen a Massaro (1993) v roce 1993 modelovali jazyk pouze jako neohebný objekt, který mohl
být rotován, posouván a mohl měnit měřı́tko. Simulace pohybu byla jen kolem špičky jazyka.
Komplexnı́ přehled o modelovánı́ a animaci hlasového traktu můžeme najı́t v (Engwall, 2002b). Jde o postupný vývoj modelu od jednoduššı́ho až po plně komplexnı́. Nejprve Engwall (1999) prezentuje model hlasového traktu jako součást artikulačnı́ho modelu vyvı́jeného na KTH. V této práci jsou stěny hlasové a nosnı́
dutiny, rty, zuby a jazyk parametrizovaným polygonálnı́m povrchem. Model je vhodný pro artikulačnı́ syntézu i
pro trénovánı́ výslovnosti. Engwall uvažuje model jen v sagitálnı́ (předozadnı́) rovině. 3D model je symetrický
podle této roviny. Celý model je složen z polygonů (jeden polygon tvořı́ 3 nebo 4 vrcholy). Model jazyka je
postaven na 3D datech z kolekce ultrazvukového záznamu a záznamu „elektropalatografu“, viz kapitola 2. Tato
data určujı́ tvar i pohyb s ohledem na správná mı́sta artikulace. Laterálnı́ (postranı́) změny nejsou v této práci
adekvátně modelovány, ale neuvažuje se zatı́m podmı́nka konstantnı́ho objemu. Každá deformace je dána vzorovým vrcholem, cı́lovým vrcholem a množinou váhových koeficientů pro všechny ostatnı́ atakované vrcholy.
Dodatečně je přidán vrchol pro rotaci. Přesnějšı́ model prezentuje autor v (Engwall, 2000). Zde je kompletnı́ 3D
model zı́skaný z měřenı́ magnetickou rezonancı́ (MRI) a statistického zpracovánı́ pomocı́ PCA. Model můžeme
vidět na obr. 1.20. Podobný postup založený na měřenı́ MRI nalezneme v dalšı́ch pracı́ch. Badin a kol. (1998)
prezentujı́ 3D lineárnı́ model, pro který mı́sto dřı́vějšı́ho měřenı́ radio-filmem použili magnetickou rezonanci.
Model je použit jako přı́spěvek AV syntézy na univerzitě v Grenoblu ve Francii (ICP). Rozšı́řený model jazyka
z práce (Beautemps a kol., 1996) doplněný o model rtů z (Revéret a Benoı̂t, 1998) najdeme v (Badin a kol.,
2002). Badin a kol. navrhujı́ obecné řešenı́ animace oblasti úst. Data jsou zpracována statistickou analýzou.
Animace probı́há lineárnı́ kombinacı́ základnı́ch tvarů, které jsou definovány jako polygonálnı́ sı́tě.
Dále si popı́šeme 3D model rtů pro realistickou animaci řeči. Guiard-Marigny a kol. (1996) poprvé navrhuje
3D model rtů, který byl později hojně použı́vaný na ICP. Rysy rtů člověka jsou charakterizovány hraničnı́mi
konturami, které jsou člověkem vnı́mány jako přechod z červené či růžové barvy pigmentu. Model je modifikacı́
dřı́vějšı́ho 2D modelu rtů zı́skaného pouze z čelnı́ho pohledu. Animačnı́ model je symetrický a popsaný
jednoduchými rovnicemi. Pozornost je věnována na snadné měřenı́ hodnot parametrů přı́mo z tváře a na
minimálnı́ počet těchto parametrů. Z modelu je odvozena i objemová reprezentace, obr. 1.14, pro detekci
sevřenı́ rtů.
Revéret a Benoı̂t (1998) navrhujı́ detailnı́ 3D model rtů, který je také vhodný pro animaci produkce řeči.
Animačnı́ model vycházı́ z výše zmı́něného modelu, který nebyl vhodný k adaptaci na jiného řečnı́ka. Zde je
model řı́zen 30 parametry a můžeme ho vidět na obr. 1.15a). Jde o 3D povrch vhodný pro animaci pokožky
rtů. Povrch je definován kubickými spline funkcemi, které tvořı́ základnı́ kontury rtů. Jedna funkce pro vnitřnı́
konturu, jedna funkce pro vnějšı́ konturu a jedna funkce definována mezi těmito dvěmi konturami. 10 řı́dı́cı́ch
19
Obrázek 1.14: 3D model rtů definovaný pomocı́ kontur rtů, (Guiard-Marigny a kol., 1996)
bodů pro každou funkci a každý řı́dı́cı́ bod je geometricky lokalizovatelný na povrchu tváře. Animace probı́há
z výsledků analýzy provedené na naměřených datech ze dvou kalibrovaných pohledů. Na tomto základě byl
později postaven model mluvı́cı́ hlavy zvané „Mother“, (Revéret a kol., 2000) ICP Grenoble, obr. 1.15b).
Artikulačnı́ model popisuje rty, tváře a čelist. Jazyk zde zatı́m nenı́ vložen. Na model je aplikována textura.
Model tvořı́ 144 čtyřúhelnı́ků pro animaci rtů a na ně navazuje 39 trojúhelnı́ků pokrývajı́cı́ch tváře a bradu.
Pro detailnı́ animaci je použito metod mı́chánı́ obrázků z 5 zaznamenaných extrémnı́ch pozic tváře a takto je
dosaženo preciznı́ animace např. i noso-retnı́ brázdy. Animaci doplňuje pevný model čelisti, který je při animaci
rotován.
Obrázek 1.15: a) Model rtů řı́zený třemi spline funkcemi, (Revéret a kol., 2000). b) Částečný model tváře a model
čelisti u mluvı́cı́ hlavy „Mother“
Pelachaud a van Overveld (1994) popisujı́ artikulaci modelu jazyka založeného na geometrickém a kinematickém modelu. 3D model je také složen z vrcholů formujı́cı́ch sı́t’. Animace je založena na technikách
deformacı́ měkkých objektů. Celkem jednoduchý model jazyka je složen z 9 trojúhelnı́ků a deformace jsou pod
kontrolou pomyslné kostry, obr. 1.16 vlevo. Model je animován s ohledem na fyziologické složenı́ jazyka, je
složen ze svalů, tuku a tkáně. Kontrakcı́ podélných a přı́čných svalů se určuje směr deformace. Jazyk je tı́mto
napı́nán, kroucen a skláněn. Model umožňuje asymetrickou animaci (vzhledem k sagitálnı́ rovině), ale zároveň
se snažı́ dodržet co nejmenšı́ počet stupňů volnosti. Model tvořı́ 3 segmenty v sagitálnı́ rovině a 3 segmenty
v koronálnı́ rovině. Deformace segmentu je dána délkou hran a úhlem, který svı́rajı́. Každá modifikace těchto
hodnot reprezentuje nový tvar. Pomocı́ rotace v sagitálnı́ rovině se docı́lı́ ohýbánı́ či rolovánı́ a pomocı́ rotace
v koronálnı́ rovině dostaneme tzv. „U“ tvar jazyka. Pomocı́ délky hran se docı́lı́ stlačovánı́ či natahovánı́, zužovánı́ či zplošt’ovánı́. Všechny zmı́něné transformace jsou analyticky popsány pomocı́ rovnic. Výsledný model
jazyka můžeme vidět na obr. 1.16 vpravo.
Beskow (1995) popisuje vytvořenı́ jednoduchého modelu jazyka pro artikulaci jen v okolı́ špičky. Jazyk byl
vytvořen jako doplněnı́ Parkeova modelu a byl použit i v pozdějšı́ modelech (Beskow, 1997). Deformačnı́ sı́t’
zahrnuje pouze 64 polygonů a řı́dı́cı́ parametry modelu jsou zdviženı́ špičky a délka jazyka. Sı́t’je deformována
podle vertikálnı́ pozice špičky jazyka, horizontálnı́ho posunutı́ těla jazyka a velikosti jazyka s ohledem na
20
Obrázek 1.16: a) Rozdělenı́ modelu jazyka na oblasti a parametrizace vrcholů, pohled zhora. b) Bočnı́ pohled na
kostru, model tvrdého patra a hornı́ řady zubů a c) bočnı́ pohled na model jazyka. d) Výsledné zobrazenı́ jazyka
při různých deformacı́ch.
správná mı́sta artikulace. V článku (Cohen a kol., 1998) je použit vı́ce propracovaný model jazyka s cı́lem
realističtějšı́ho modelovánı́ artikulace celého jazyka pro vizuálnı́ syntézu. Známý model „Baldi“ z PCL, je zde
doplněn o model jazyka. Mı́sto ručnı́ho laděnı́ tvaru jazyka zde autoři použı́vajı́ pro definici a chovánı́ jazyka
měřená data. Data jsou zpracována použitı́m minimalizačnı́ procedury. Model se skládá z mnohoúhelnı́kové
sı́tě definované čtyřmi b-spline křivkami. Jedna křivka řı́dı́ sagitálnı́ konturu (obrys) a tři řı́dı́ koronálnı́ přı́čné
řezy: čelnı́, střednı́ a zadnı́. Tvar křivek je určen 30 parametry (9 pro předozadnı́ křivku a 7 pro každou křivku
řezu), poskytujı́cı́ velmi poddajný model. Model také poskytuje transparentnı́ pohled do ústnı́ dutiny, je však
spekulacı́, zda tento neanatomický jev je vhodný pro pedagogické účely.
Obrázek 1.17: Vlevo: modelovánı́ sagitálnı́ kontury jazyka pomocı́ B-spline funkce. Uprostřed: model tvrdého
patra a zubů. Vpravo: výsledná animace ústnı́ dutiny, kterou nalezneme v modelu „Baldi“
1.2.7 Fyziologické podmı́nky
K zajištěnı́ realističnosti 3D mluvı́cı́ hlavy během animace je podstatné uvažovat fyziologické podmı́nky,
které určujı́ neproniknutelnost jednotlivých částı́ tváře. Např. na obr. 1.17 uprostřed je vidět model jazyka a
model tvrdého patra. Určitá kombinace hodnot parametrů může mı́t za následek, že animačnı́ model vytvořı́
fyziologicky nerealizovatelné tvary. Typickým přı́kladem takového špatně chovajı́cı́ho se modelu je vzájemné
protı́nánı́ jazyka, zubů a rtů. I fyziologicky založené animace z odstavce 1.2.3 trpı́ těmito problémy. Částečné
21
zohledněnı́ můžeme najı́t v práci (Lee a kol., 1995), kde se pomocı́ pružných vazeb mezi tkánı́ a povrchem
modelujı́cı́m lebečnı́ strukturu zabraňuje pronikánı́ pokožky lebkou. Pro svalovou akci, která by v jiných
modelech porušila podmı́nku, je model pokožky raději posouván po povrchu lebky. Intuitivně je zde naznačeno,
že fyziologické podmı́nky lze podchytit při návrhu animačnı́ho procesu. Jiný postup, jak se vyhnout generovánı́
nepřirozených gest, je použı́ván u řečově orientovaných animacı́. Provede se definice zakázaných kombinacı́
hodnot parametrů a vymezı́ se prostor parametrů pomocı́ definice artikulačnı́ch mı́st. Tyto pozice zaručujı́
správnou řečovou produkci. Artikulačnı́mi mı́sty nenı́ myšleno nic jiného, než určenı́ hodnoty extrémnı́ pozice
parametrů řı́dı́cı́ch dané artikulačnı́ orgány a zabráněnı́ tak vzájemným průnikům. Většı́ pozornost však musı́
být věnována samotné parametrizaci, kapitola 1.2.8. Avšak i v takto podmı́něné animaci mohou nastat koliznı́
situace. V daty řı́zených animacı́ch se implicitně těmto problémům logicky vyhneme záznamem a použitı́m
reálných a tedy fyziologicky možných dat. Model je v tomto přı́padě méně citlivý na zvolenou parametrizaci a
sám se naučı́ tyto podmı́nky plnit.
Modelovánı́ kontaktu jazyka s patrem
Při modelovánı́ kontaktu jazyk-hornı́ patro se uvažuje interakce mezi dvěmi strukturami: jazyk a patro. Jazyk
je při animaci cı́leně deformován a tlačen proti patru. Detekce kolize u struktur vytvořených jako polygonová
sı́t’ je obecně výpočetně velmi náročná. Je-li detekována kolize, je potřeba ještě algoritmů, které tyto kolize
z animace odstranı́. U fyziologicky založených modelů toto často vede na iterativnı́ řešenı́.
Pelachaud a van Overveld (1994) použili k detekci kontaktu jazyka s patrem geometrické podmı́nky.
Algoritmus detekuje průnik jazyka s hornı́m patrem a hornı́ řadou zubů. Tzv. virtuálnı́ patro je modelováno
jako polokoule a hornı́ řada zubů jako vějı́ř, který je tvořen částmi rovin na okraji této polokoule, obr. 1.16b).
Záruka, že nedošlo k průniku jazyka je zaručena tak, že skeleton, který tvořı́ jazyk, je uvnitř polokoule. Je-li
detekován průnik skeletonu polokoulı́, pak je korigován průnik vlastnı́ho měkkého objektu jazyka se skutečným
modelem patra. Jednou možnostı́ by bylo vrácenı́ všech vrcholů modelu jazyka, které způsobily průnik, zpět na
úroveň virtuálnı́ho patra. Toto by však způsobovalo nepřirozenou změnu tvaru jazyka a nedodrženı́ konstantnı́ho
objemu. Existuje lepšı́ řešenı́. Tı́m je zpětný přepočet úhlů rotacı́ a hodnot posuvů tak, aby podmı́nka průniku byla
splněna. Cohen a kol. (1998) vyvinuli pro zlepšenı́ artikulace jazyka rychlý algoritmus k zabráněnı́ nežádoucı́ho
pronikánı́ jazyka s hornı́m patrem. Během předzpracovánı́ je konstruována pravidelná sı́t’. Tato sı́t’reprezentuje
povrch hornı́ části ústnı́ dutiny. Body sı́tě jsou umı́stěny v pravidelných intervalech ve sférickém souřadnicovém
systému s centrem v ústnı́ dutině. Vrcholy sı́tě jazyka jsou transformovány do tohoto souřadného systému a
pak je provedena detekce, zda vrcholy jsou správně umı́stěny. Korekce je jednoduše provedena nastavenı́m
radiálnı́ch komponent transformovaných vrcholů tak, že se posunou na povrch sı́tě modelu patra. Výsledkem
je, že aktuálnı́ deformace koná stlačenı́ jazyka proti patru s vizuálně uspokojujı́cı́m výsledkem i uspokojivou
rychlostı́ animace, která může být prováděna v reálném čase.
Zachovánı́ objemu
Zachovánı́ objemu jazyka je dalšı́ fyziologickou podmı́nkou. Dodrženı́ této podmı́nky obzvlášt’při animaci
v reálné čase je velmi obtı́žné. Často je vyžadováno minimalizačnı́ch algoritmů, které iterativně přizpůsobujı́
ke změně hodnoty jednoho parametru hodnoty ostatnı́ch parametrů. Výsledek iteracı́ však nesmı́ skončit v nereálném tvaru jazyka. V práci (Beskow a kol., 2003) je použit Engwallův model jazyka. Pro každý parametr je
definován interval hodnot, který zajišt’uje dobrou aproximaci pohybu. Hodnoty mimo tento interval způsobujı́
neanatomický tvar. Objem jazyka je počı́tán podle (1.6). Z P trojúhelnı́ků a jejich vrcholů vi tvořı́cı́ model
jazyka je vypočı́tán referenčnı́ objem Vref .v0 je vrchol v mı́stě kořene jazyka. Chyba způsobená změnou objemu
V (y) je počı́tána pomocı́ evol .
Vref
=
1
6
X
2
i P
vi3 vi1 ) (vi2 vi1 )v0
(
22
(1.6)
evol (y) = jV (y) Vref j
(1.7)
1.2.8 Parametrizace
Jednou z důležitých otázek, která musı́ být zodpovězena, když navrhujeme mluvı́cı́ hlavu, je výběr parametrizace. Parke a Waters vyjmenovali několik faktorů pro zvolenı́ výběru a vývoj řı́dı́cı́ parametrizace tváře.
Faktory jsou řı́dı́cı́ rozsah (jsou všechny výrazy možné?), složitost, počet parametrů a intuitivnost. Parke (1982)
vyvinul množinu účelně vybraných parametrů založených na pozorovánı́ s ohledem na strukturu tváře. Rozdělil
parametry na dvě skupiny: výrazové a přizpůsobivé.
Výrazové parametry Parametry jsou zaměřené předevšı́m na oblast očı́ a úst. U očı́ jde o parametry
roztaženı́ zornice, otevřenı́ vı́ček, pozice a tvar obočı́, směr pohledu očı́. V oblasti úst Parke navrhl
parametr pro rotaci čelisti, která řı́dı́ otevřenı́ úst, šı́řka úst, výraz úst jako úsměv nebo zamračenı́, pozice
hornı́ho rtu a pozice koutků. Dalšı́m užitečným parametrem je velikost nosnı́ch dı́rek (vliv dýchánı́),
orientace hlavy s ohledem na pozici krku a těla. Přibližně s 15 takovými parametry je možná animace
tváře i animace řeči.
Přizpůsobivé parametry Jelikož pro každou osobu je tvář tvarově specifická, znamenalo by, že každá
tvář by musela mı́t odlišnou sadu parametrů. Proto navrhl Parke přizpůsobivé parametry jako je barva
pokožky, poměr výšky a šı́řky tváře, parametr transformace, který modeluje růst tváře. Dále jde o barvu
obočı́, očnı́ch řas, duhovky, rtů atd. Dalšı́mi přizpůsobivými parametry je informace o velikosti a tvaru
hlavy: tvar a velikost krku, tvar brady, tvářı́ a čela, vzdálenost očı́, velikost očı́, vı́ček a zornic. Dalšı́m
parametrem může být šı́řka čelisti, délka nosu, velikost úst atd.
Obrázek Parkeovo animace tváře byl vytvářen podle specifikovaných hodnot parametrů. Vhodnost je jak ve
2D (dobré výsledky pro animované postavičky) tak i ve 3D, ale definice nebyla tehdy dobře fungujı́cı́. Pandzic
a Forchheimer (2002) přidali několik položek do tohoto seznamu. Můžeme konstatovat, že neexistuje ideálnı́
parametrizace uspokojujı́cı́ všechny tyto podmı́nky. Je však také důležité poznamenat, že ne všechny požadavky
jsou důležité pro vývoj nějaké konkrétnı́ aplikace. Napřı́klad, jestliže animace má být řı́zena daty, měřitelnost
parametrů je důležitá, ale intuitivnost je méně potřebná. Jak už je snad tradicı́, modely tváře použı́vajı́ rozmanité
schéma parametrizacı́, často důvěrně spojené a propletené s jednotlivými technikami deformace povrchu.
Uvedeme si několik parametrizacı́. Pro Baldiho bylo v (Cohen a kol., 2002) použito v 11 parametrů shrnutých
v tab.1.1. Parametrizace tváře podle svalových akcı́ je v (Magnenat-Thalmann a kol., 1988). Animace využı́vá
Tabulka 1.1: Parametrizace mluvı́cı́ hlavy „Baldi“
1
2
3
4
5
6
7
8
9
10
11
rotace čelisti
podsunutı́ dolnı́ho rtu, např. pro artikulaci /f/
zvednutı́ hornı́ho rtu
vysunutı́ dolnı́ho rtu
tvar prohloubeniny hornı́ho rtu
pokleslost tvářı́
vysunutı́ brady
sevřenı́ rtů, např. pro /m/
vysunutı́ dolnı́ho rtu
kulatost rtů
staženı́ rtů
výše zmı́něné AMA procedury. Jedna AMA parametricky koresponduje přibližně k určitému svalu popř. svalům.
23
V práci je definováno 30 AMA procedur. Na úrovni výrazů jsou podobně jako v MPEG-4 definovány základnı́
tvary vizémů a emocı́. Kalra a kol. (1992) simuluje svaly, které jsou ovládány pomocı́ parametrů seskupujı́cı́ch
řı́zenı́ tzv. minimálně pozorovatelných akcı́ (MPA). Parametrizace MPA je provedena pomocı́ řı́dı́cı́ch bodů
ztotožněných s vybranými vrcholy sı́tě. Rozsah každé MPA je bud’ 0 až 1 nebo 1 až 1. V (Sams a kol., 2000)
je parametrizace mluvı́cı́ hlavy pro finštinu. Sams použı́vá 49 parametrů a 12 z nich je použito pro syntézu
řeči. Parametry jsou spı́še geometricky zaměřené a vzájemně na sobě nezávislé. Frydrych a kol. (2003) použı́vá
parametry umı́stěné na povrchu modelu tváře, každému parametru přı́slušı́ několik vrcholů sı́tě. Parametry jsou
na sobě závislé podle stromové struktury, např. deformace kůže na bradě je závislá na pohybu čelisti a pohyb
čelisti je zase závislý na pohybu hlavy. Parametry jsou rozděleny do dvou skupin: pro řı́zenı́ tuhých pohybů
(rotace očı́) a pro řı́zenı́ měkkých deformacı́ (pokožka tváře).
V daty řı́zených animacı́ch jsou parametry výsledkem aplikace nějaké analýzy. Jejich interpretace je neanatomická. Marigny v roce 1993 použil pro 2D animaci rtů 3 nekorelované parametry, (Guiard-Marigny a kol.,
1996) pak pro 3D model rtů použil 5 parametrů definujı́cı́ kontury rtů. Podobně Elisei a kol. (1997) zachycujı́
řeč pomocı́ 6 parametrů, které majı́ čistě foneticko/artikulačnı́ interpretaci a jsou výsledkem aplikace PCA
provedené nad velkým množstvı́m bodů pevných na tváři. Prvnı́ komponenta vede na rotaci čelisti (otevřenı́uzavřenı́), druhá na staženı́-vysunutı́ čelisti, třetı́ na rozšı́řenı́-zaokrouhlenı́ rtů, čtvrtá je zvyšovánı́-snižovánı́
dolnı́ho rtu, pátá zvyšovánı́-snižovánı́ hornı́ho rtu, šestá zvyšovánı́-snižovánı́ hrdla. Těchto šest artikulačnı́ch
pohybů postihuje 97% deformacı́ pozorovaných na tváři francouzského řečnı́ka. Dále v (Revéret a kol., 2000)
nalezneme experimenty se snižovánı́m počtu parametrů. Odlišný způsob parametrizace, úzce spojený s animacı́,
můžeme najı́t v (Kuratate a kol., 1998). 18 vrcholů generické sı́tě tvořilo základ parametrizace. Pomocı́ PCA
je zpracováno 8 3D skenovaných tvarů tváře, prvnı́ch 7 komponent je vybráno. Jejich lineárnı́ kombinacı́ se
generuje deformovaná generická sı́t’. Avšak pro řı́zenı́ deformace je použito 18 pozic bodů modelu. Pro přepočet
3D pozic 18-ti bodů na 7 hodnot komponent je použit lineárnı́ vztah. K jeho identifikaci je použit lineárnı́ estimátor a použita metoda nejmenšı́ch čtverců. Masuko a kol. (1998) použil jako HMM parametrizaci 10 měřenı́
provedených na čelnı́m pohledu na rty. Osm vertikálnı́ch měřenı́ výšky rtů plus šı́řka a pokles rtů.
Obrázek 1.18: Ukázka 6 parametrů, které byly zı́skány z PCA. Vlevo je vždy minimálnı́ a vpravo maximálnı́ možná
hodnota daného parametru.
24
Obrázek 1.19: 10 parametrů pro popis rtů z čelnı́ho pohledu, (Masuko a kol., 1998)
Pro parametrizaci hlasového ústrojı́ použil (Engwall, 1999) 10 parametrů: výška hrdla řı́dı́ výšku hrdla
v hrtanové části pomocı́ kontrakce, nebo rozšiřovánı́ dolnı́ části hlasového traktu. Otevřenı́ čelisti je modelováno
pomocı́ neohebné rotace, parametry pro rty jsou stejné s parametry, které použı́vá Beskow. Pohyb těla jazyka
je řı́zen dvěma parametry, zdvih jazyka a růst jazyka, tvar je řı́zen špičkou, hranami a hřbetem. Parametr
pro špičku jazyka dovoluje řı́dit přednı́ část jazyka a špičku pro artikulaci dásňových a odražených zvuků.
Růst jazyka způsobuje změnu postrannı́ho řı́zenı́. Tento efekt je modelován pomocı́ hran a hřbetu jazyka. Tato
zjednodušená parametrizace jazyka však umožňuje animaci bez detekcı́ kolizı́ a dodrženı́ konstantnı́ho objemu.
Společným výsledkem pro parametrizaci jazyka (Engwall, 2002a; Badin a kol., 2002) je 5 parametrů. Vznik
těchto parametrů proběhl intuitivně z PCA:
výška čelisti JH - parametr, který určuje vertikálnı́ polohu jazyka v ústnı́ dutině. Je zde pozorována
závislost na pohybu čelisti.
tělo jazyka TB - parametr řı́dı́ pohyb dopředu a dozadu.
hřbet jazyka TD - parametr popisuje plochost či klenutost jazyka a také rýhu jazyka. Tı́mto parametrem
je modelován kontakt s patrem.
špička jazyka TT -parametr řı́dı́ pohyb špičky jazyka nahoru a dolů.
zbývajı́cı́ tvar TA- parametr popisuje zbývajı́cı́ pohyb, který nepopisujı́ prvnı́ čtyři parametry. Např.
můžeme uvést změnu tvaru dolnı́ části špičky jazyka, která je částečně deformovaná čelistı́ a dolnı́mi
řezáky.
Engwall (2002a) navı́c použı́vá ještě parametr pro šı́řku jazyka TW, který řı́dı́ strany jazyka. Vliv jednotlivých
parametrů můžeme vidět na obr. 1.20
FACS
Výraz tváře je výsledek souzněnı́ kontrakcı́ svalů, které dohromady deformujı́ neutrálnı́ výraz. Tyto výrazy
prvořadě vycházejı́ z vizuálnı́ komunikace člověka. Významná práce v této oblasti je práce psychologů Ekmana
a Friedsena, kteřı́ studovali projevy neverbálnı́ komunikace. Vytvořili kódovacı́ systém pro všechny možné
výrazy tváře. Rozlišili 55000 výrazů s 30 sémantickými rozdı́ly. Systém je označován jako „The Facial Action
Coding System“ (FACS)7 Ekman a Friesen (1975) a je založen na záznamech, které zachycujı́ emociálnı́ stavy
pozorovatelné na lidské tváři. Individuálnı́ svaly nebo malé skupinky svalů jsou popsány pomocı́ 66 akčnı́ch
jednotek „Action Units“. AU jsou rozděleny do skupiny pro hornı́ a dolnı́ polovinu tváře, obsahujı́ vertikálnı́,
7
http://face-and-emotion.com/dataface/facs/new version.jsp
25
Obrázek 1.20: 6 parametrů řı́dı́cı́ polohu a tvar jazyka: a) vertikálnı́ poloha, b) horizontálnı́ pohyb, c) plochost či
klenutost, d) pohyb špičky, e) popis zbývajı́cı́ch zvarových změn a f) šı́řka. Vlevo je vždy minimálnı́ a vpravo pak
maximálnı́ hodnota parametru.
horizontálnı́ či šikmé akce, kruhové i rozmanité akce jako tvar nosnı́ dı́rky, pokles čelisti či pozice očı́. Na
obr. 1.21 můžeme vidět AU43 pro otevřenı́ očı́. Jednotlivé svaly majı́ vliv na zakřivenı́ tkáně tváře. Ekman a
Friedsen určili 6 kategoriı́: hněv, strach, překvapenı́, zhnusenı́, štěstı́ a smutek. Každá tato kategorie použı́vá
nějakou kombinaci AU. Tento kódovacı́ systém se logicky zdá být vhodným návrhem parametrizace pro
nějakou počı́tačovou syntézu. Pokus automaticky estimovat AU z obrazu a použı́t AU pro animaci tváře je
v práci (Terzopoulos a Waters, 1993).
Obrázek 1.21: Vliv hodnoty akčnı́ jednotky AU43 na mı́ru zavřenı́ obou očı́.
FACS byl primárně vyvinut pro kódovánı́ emočnı́ch výrazů tváře bez artikulačnı́ch pohybů. Touto parametrizacı́ je poskytnut vysoce detailnı́ popis spı́še hornı́ části tváře. Pelachaud a van Overveld (1994) konstatujı́, že
FACS nemůže poskytnout parametrizaci dostačujı́cı́ pro detaily v oblasti úst a pro řádné modelovánı́ artikulace
řeči.
MPEG-4
V úsilı́ standardizovat modelovou parametrizaci tváře vznikl standard, který byl originálně navržen za
účelem schopné animace lidské hlavy založené na kódovánı́ pohybujı́cı́ch se obrázků. MPEG (Moving Picture
Experts Group) společenstvı́ tak vyvinulo MPEG-4 standard určený pro animaci tváře (FA, Pandzic a Forchheimer (2002)). Myšlenka zahrnutı́ animace tváře MPEG-4 vznikla v roce 1995. Cı́lem byla standardizace
množiny parametrů, které jsou vhodné pro definici tvaru modelu hlavy a také vhodné pro jeho animaci. Návrh
26
je založen na MPA, navržené Kalrem, viz kapitola 1.2.5. Prvnı́ specifikace parametrizace vznikla v Chicagu
v roce 1996. Návrh FAT, viz dále, pocházı́ z AT&T. V roce 1997 byl standard doplňován a upřesňován a až
v roce 1999 se MPEG-4 obsahujı́cı́ animaci tváře stal mezinárodnı́m standardem. Tento standard dnes rychle
zı́skává na popularitě nejen ve video kompresi, ale právě také ve zmı́něné animaci tváře.
K vysvětlenı́ MPEG-4 můžeme použı́t popis z (Ostermann, 1999, 2002). MPEG-4 je objektově multimediálnı́
komprese, která dovoluje nezávislé kódovánı́ odlišných audio-vizuálnı́ch objektů ve scéně. Objekty mohou být
přirozené nebo syntetizované. Objektem tedy může být umělá lidská tvář i tělo ve 2D nebo 3D. Objekty jsou
popsané pomocı́ primitiv založených na standardu „Virtual Reality Modeling Language“ (VRML). Specifikace
modelu tváře je provedena v jejı́m neutrálnı́m výrazu, obr. 1.22. Neutrálnı́ výraz je definován jako:
přı́mý pohled v ose z
všechny svaly tváře jsou v relaxačnı́m stavu,
očnı́ vı́čka jsou tečnou na duhovku oka,
rty se dotýkajı́, vzniklá linka mezi rty je horizontálnı́ a ve stejné výšce jako koutky rtů,
čelist je zavřená a zuby se dotýkajı́
jazyk je plochý, tělo jazyka je v horizontálnı́ pozici se hřbetem ve výšce dotyku zubů.
K zajištěnı́ přenositelnosti parametrů na libovolný model tváře se definujı́ parametry tváře nazvané jako „Face
Animation Parameter Units“ (FAPU). FAPU můžeme vidět na obr. 1.22 vlevo nahoře. Jejich hodnoty jsou zadány
bez měřı́tka a ve vzájemném poměru. Dále jsou definovány výrazové body „Feature Points“ (FP), standard jich
definuje 88. Některé můžeme vidět na stejném obrázku. Výrazové body jsou použity pro definici animačnı́ch
parametrů „Face Animation Parameters“ (FAP) a také pro definici specifického tvaru tváře. Prostorové umı́stěnı́
FP pro nějaký model tváře musı́ být známé. FP jsou dobře definované body na povrchu lidské tváře, jako
napřı́klad spodnı́ část brady, střednı́ bod vnitřnı́ kontury rtů atd. Konečně také můžeme popsat animačnı́
parametry FAP. Animačnı́ parametry jsou definovány pomocı́ zmı́něné studie znatelných akcı́ ve tváři MPA
a také s ohledem na práce (Parke, 1982; Terzopoulos a Waters, 1990; Waters, 1987), které jsou již výše
popsané. Pomocı́ FAP by mělo být možné animovat i nepřirozené či přehnané výrazy, které jsou použitelné pro
různé animované postavičky. Dobře jsou definované rty (vnějšı́ i vnitřnı́ kontura). 68 parametrů je řazeno do
10 skupin. Jednotlivé skupiny jsou utvořeny podle relativnı́ch částı́ tváře a můžeme je vidět v tab.1.2. Pomocı́
FAP jsou popsány všechny základnı́ pohybujı́cı́ se oblasti ve tváři. Pro každý parametr jsou určeny FAPU,
FAP skupina, směr a znaménko pohybu. 66 FAP ve skupinách 2 až 10 jsou označeny jako nı́zko-úrovňové
„low-level“ parametry. Pomocı́ nichž je definován základnı́ pohyb ve tváři a přiřazena určitá hodnota parametru.
Ve skupině 1 jsou dva FAP označovány jako parametry vyššı́ úrovně „high-level“, jedná se o vizémy a výrazy.
14 statických vizémů je definováno ve FAP1 pro angličtinu. Ve FAP2 je 6 základnı́ch výrazů tváře, které můžeme
vidět znázorněné na obr. 1.23. Právě zmı́něné „low-level“ FAP dělajı́ tento standard skutečně užitečným.
Zakulacenı́ rtů je komplexnı́m artikulačnı́m gestem, které je obecně obtı́žné docı́lit v mnoha parametrizačnı́ch
schématech. V MPEG-4 specifikaci může pro animaci artikulace zahrnout až 20 z 66 MPEG-4 „low-level“ FAP.
Definice jednoho normalizovaného řı́dı́cı́ho parametru pro zaokrouhlenı́ rtů je provedena tak, že tahá parametry
rtů směrem k imaginárnı́mu středu uprostřed úst. Je to však dosti zjednodušená specifikace artikulačnı́ho cı́le.
Jako skutečnou výhodu můžeme vyzdvihnout normalizaci hodnot parametrů a fakt že jsou bez měřı́tka. Tyto
omezenı́ však usnadňujı́ modelovánı́ artikulačnı́ch pohybů a měly by zaručit přenositelnost na odlišné modely.
Můžeme však nalézt také nějaké nedostatky této parametrizace. Pro retozubnı́ frikativy je dolnı́ ret tlačen
proti hornı́ řadě zubů a formuje tak sevřenı́. Toto je v MPEG-4 problematické nebot’ neexistujı́ FAPU, které
specifikujı́ odstup zubů a rtů. Tak požadavek posunutı́ dolnı́ho retu tak, aby se setkal s hornı́ řadou zubů bude
pravděpodobně odlišný pro různé modely tváře a parametrizace nenı́ v tomto ohledu přenositelná. Právě definice
27
Tabulka 1.2: MPEG-4 FAP
Skupina
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Popis
Vizémy a výrazy
Čelist, brada, vnitřnı́ kontura rtů, koutky
Oči, zornice, očnı́ vı́čka
Obočı́
Tváře
Jazyk
Rotace hlavy
Vnějšı́ kontura rtů
Nos
Uši
Počet FAP
2
16
12
8
4
5
3
10
4
4
jednoúčelových parametrů pro zuboretnı́ skus je spolehlivou cestou, která by zajistila dosaženı́ cı́lové pozice
této artikulace.
Pelachaud a kol. (2001) prezentuje 3D model tváře, který je plně popsán pomocı́ FAP a FDP. Všech 66 FAP
je implementováno a je použita vlastnı́ sada výrazů. V (Dalong a kol., 2002; Pelachaud, 2002; Kshirsagar a kol.,
2000) najdeme také animaci podle tohoto standardu. Jak bylo zmı́něno výše, žádná parametrizace nenı́ ideálnı́ pro
všechny přı́padné úlohy. MPEG-4 standard nenı́ výjimkou tohoto pravidla, ale fakt existence standardizované
modelově nezávislé parametrizace pro animaci tváře pravděpodobně převážı́ jeho menšı́ nedostatky.
28
Obrázek 1.22: Parametrizace podle standardu MPEG-4. Vlevo nahoře můžeme vidět definici FAPU, zbytek obrázku
ukazuje FAP parametrizaci kompletnı́ tváře.
Obrázek 1.23: 6 základných výrazů tváře zahrnutých v MPEG-4.
29
Kapitola 2
Zdroje dat pro mluvı́cı́ hlavy
V předchozı́ kapitole je souhrn mluvı́cı́ch hlav, které majı́ nějaký tvar. Tvar je bud’ umělý nebo realistický
a ve většině přı́padů definovaný polygonálnı́ sı́tı́. K určenı́ tvaru hlavy popř. jen tváře je několik možnostı́.
Jednou z možnostı́ je použitı́ ručně vytvořeného umělého modelu. K tomuto účelu se použı́vajı́ nejčastěji nějaké
komerčnı́ modelovacı́ nástroje. Několik pracı́ také použı́vá zmı́něný Parkeův model tváře. Parke pro vytvořenı́
svého modelu použil 3D fotogrammetrii (viz dále). Je pravdou, že statická podoba mluvı́cı́ hlavy nemá vliv na
komunikačnı́ schopnosti (Beskow, 2003, str.39) a (Kuratate a kol., 1998), ale i přesto je v této oblasti pozorován
velký vývoj. Pro komunikačnı́ schopnosti mluvı́cı́ hlavy jsou nutné odlišné zdroje dat. Tyto zdroje tvořı́ záznamy
řeči, které jsou provedené měřenı́m tváře nebo celé hlavy řečnı́ka. Různé zdroje dat jsou potřeba pro různé
fáze vývoje mluvı́cı́ hlavy a existujı́ různé techniky pro jejich zı́skávánı́. Tradičně neexistuje jednotná technika
pro zı́skánı́ všech potřebných dat. Obecně můžeme rozdělit postupy na metody zı́skánı́ statického tvaru a na
metody zı́skánı́ dynamických dat proměnlivých v čase. Dynamické metody většinou využı́vajı́ video záznam,
který zachycuje dynamické aspekty artikulace. Tyto záznamy jsou zı́skávány se standardnı́mi 25-50 snı́mky za
vteřinu, ale existujı́ i systémy pro časově přesnějšı́ záznam. Dynamická data jsou použita pro analýzu a řı́zenı́
artikulace řeči. Zdroje statických dat jsou předevšı́m použity pro inicializačnı́ tvorbu modelu, ale někdy také
pro vývoj parametrizace.
Dalšı́ rozdělenı́, které můžeme udělat, je podle způsobu zı́skávánı́ dat. Rozlišujeme metody pro záznam
externı́ch dat, tj. dat z povrchu tváře a pro záznam internı́ch dat. Externı́ data jsou z velké mı́ry použı́vána
k modelovánı́ povrchu tváře, ale k modelovánı́ jazyka potřebujeme měřenı́ vnitřnı́ch struktur hlasového ústrojı́.
Všechny metody mohou poskytovat bud’ jen 1D data nebo 2D či 3D data. Mohou měřit celý povrch tváře
nebo měřit souřadnice několika málo bodů. V následujı́cı́ch odstavcı́ch provedeme popis a aplikaci zmı́něných
metod. Souhrn také můžeme vidět v tab.2.1.
2.1 Statické metody
Statické metody jsou použı́vány pro zı́skánı́ dat definujı́cı́ch statický tvar jednotlivých částı́ animačnı́ho
modelu. Metody rekonstrukce jsou často spojeny i s vlastnı́ tvorbou celého modelu. Dále si uvedeme několik
pracı́ použı́vajı́cı́ch různé metody.
2.1.1 Vnějšı́ statické měřenı́
3D fotogrammetrie
3D fotogrammetrii již v roce 1982 použil Parke pro definovánı́ modelu a klı́čových tvarů a to ručnı́m
měřenı́m fotografiı́ tváře pořı́zených z několika pohledů. Vypočı́tal 3D souřadnice vrcholů polygonálnı́ sı́tě,
30
Kapitola 2. Zdroje dat pro mluvı́cı́ hlavy
Tabulka 2.1: Souhrn použı́vaných metod pro zı́skávánı́ statických a dynamických dat pro mluvı́cı́ hlavy.
Záznam
Způsob
záznamu
vnějšı́
Typ dat
Poznámky
body + textura
manuálnı́ i automatické
Laserové měřenı́
Ultrazvuk
statický i dynamický
statický
statický
Dimenze měřených dat
3D
3D
3D
vnějšı́
vnitřnı́
body + textura
tvar
MRI
statický
3D
vnitřnı́
tvar i objem
Video trasovánı́
dynamický
2D
vnějšı́
Optické trasovánı́
dynamický
3D
vnějšı́
rozměry,
popř. 2D tvar
pouze body
EMA
Rentgen X-paprsek
dynamický
statický i dynamický
dynamické
dynamické
2D
2D
vnitřnı́
vnitřnı́
pouze body
tvar
2D
1D
vnitřnı́
vnitřnı́
body
signál
3D fotogrametrie
EPG
EMG
může být i pro 2D dynamické měřenı́
dosti spicializované
zařı́zenı́
robustnı́ a často použı́vané
již méně použı́vané
vnitrosvalové
trody
elek-
která byla nakreslena na tváři fotografované osoby. K pořı́zenı́ fotografiı́ zachycujı́cı́ch tvář v jednom okamžiku
použil zrcadla. Jednalo se předevšı́m o manuálnı́ práci, ale Parke tehdy nepotřeboval žádné nákladné zařı́zenı́.
Podobný přı́stup najdeme v novějšı́ch pracı́ch. Elisei a kol. (1997) prezentuje techniku měřenı́ pro analýzu
i syntézu tváře, která s užitı́m modelu řečnı́ka dovoluje trasovánı́ pohybů tváře. Pro rekonstrukci byl využit
stereo záznam řečnı́ka také s pomocı́ zrcadel. Na tváři řečnı́ka bylo přilepeno 197 barevných korálků, obr. 2.2.
Byla provedena kalibrace a určena 3D souřadnice každého korálku. Korálky měly průměr 2mm a přesnost
jejich lokace byla 1mm. Bylo zı́skáno 197 3D bodů tvořı́cı́ch sı́t’aproximujı́cı́ povrch tváře. Navı́c byla měřena
pozice dolnı́ čelisti. Model rtů byl zı́skáván trochu odlišným způsobem. 30 řı́dı́cı́ch bodů na konturách rtů a 3D
generický model rtů byl manuálně srovnán na stereo fotografii (Revéret a Benoı̂t, 1998), obr. 2.1.
Obrázek 2.1: Ručnı́ nastavenı́ modelu rtů tvořeného interpolacı́ kontur.
3D fotogrammetrii použı́vajı́ též Akimoto a kol. (1993); Lee a kol. (1997). Pro vytvořenı́ kompletnı́ho
3D modelu hlavy specifické osoby je použito dvou obrázků a generické sı́tě. Jeden obrázek je pořı́zen z čela a
druhý ze strany. Generický model představuje polygonálnı́ sı́t’nějaké uměle vytvořené hlavy vhodné pro animaci.
31
Obrázek 2.2: Elisei a kol. (1997) použil záznam 197 barevných korálků přilepených na tváři a s pomocı́ zrcadla
provedl ručnı́ 3D rekonstrukci každého bodu pro artikulaci několika hlásek. Uprostřed můžeme vidět i speciálnı́
pomůcku pro měřenı́ polohy čelisti.
Generické sı́tě jsou často tvořeny efektivně. Hustě definovaná sı́t’v mı́stech velkého zakřivenı́ tváře jako např. rty,
nos, uši a jen málo vrcholů aproximujı́cı́ oblasti jako tváře, krk či čelo. Výhodou generického modelu je znalost
strukturálnı́ho uspořádánı́. Pro výslednou animaci se s výhodou využı́vá strukturálnı́ informace o vzájemné
poloze úst, čelisti, očı́ atd. Akimoto rozdělil práci na dvě části. Prvnı́ částı́ je zı́skánı́ charakteristických rysů
z obou obrázků. Charakteristickými rysy mohou být špička či kontura brady, kontury úst, špička nosu atd. Pro
usnadněnı́ zpracovánı́ obrazu a následné rekonstrukce je použito bı́lé pozadı́ fotografiı́ a stejné velikost hlavy
v obou pohledech. Z profilu tváře je extrahována oblast vlasů a kontura tváře. Na kontuře tváře je s pomocı́
metody srovnánı́ se vzorem nalezena špička nosu a brady. Předpokládaná poloha těchto částı́ usnadňuje dohledánı́
korespondencı́ v čelnı́m pohledu. Zde má generický model 2000 vrcholů a 3800 polygonů a předpokládá se
symetrický. 3D hodnota každého vrcholu je jednoduše počı́tána tak, že x hodnota se bere z čelnı́ fotografie,
z hodnota z bočnı́ a y je průměrem z obou pohledů. Textura hlavy je vytvořena vzájemným překrytı́m a
vyhlazenı́m těchto dvou obrázků. Model je doplněn o oči, zuby a jazyk. Algoritmus byl úspěšně aplikován
na osoby s krátkými vlasy, bez brýlı́, knı́rku či vousů. K extrakci rysů použil Lee odlišnou metodu. Metoda
„strukturovaných hadů“1 určuje vnějšı́ rysů tváře. Poloautomatická deformace generického modelu je provedena
pomocı́ Dirichletovy deformačnı́ formy (DFFD), (Moccozet a Thalmann, 1997). Detekce výrazových bodů
nebývá robustnı́, a proto se často přistupuje k ručnı́mu hledánı́ jejich pozic ve fotografii.
Fotogrammetrii pouze z jednoho pohledu použı́vajı́ Proesmans a Van Gool (1997). Strukturované světlo
promı́tané na rekonstruovanou tvář projektorem tvořı́ jasové vzory o velkém rozlišenı́. Takto osvı́cená tvář je
pozorována z odlišného úhlu pouze jednou kamerou. Textura je zı́skána odstraněnı́m vzorů z obrazu pomocı́ tzv.
„metody čtenı́ mezi řádky“. Celý systém nevyžaduje složité zařı́zenı́ a navı́c umožňuje z rekonstrukcı́ časového
záznamu provést animaci. Data ze stereo rekonstrukce jsou použity v (Nagel a kol., 1998). Adaptace modelu je
provedena pomocı́ 3 bodů a filtracı́ mediánem. Velmi propracovanou práci najdeme v (Fua, 1998). Fua vytvářı́
model tváře fotogrammetriı́ video sekvence. Návrh nevyžaduje žádné speciálnı́ pomůcky, jako kalibračnı́ desky,
strukturované světlo, pomocné body nakreslené na tváři či jiná aktivnı́ zařı́zenı́. K vlastnı́ rekonstrukci je plně
postačujı́cı́ obyčejný video záznam pohybujı́cı́ se hlavy. I zde je použit generický model, který je postupně
adaptován na pohyb ve video sekvenci.
Laserový paprsek
Pro záznam tvaru tváře je hojně použı́váno laserové skenovánı́. Jde o specializovaný hardware, jı́mž můžeme
zı́skat vysoce detailnı́ data zachycujı́cı́ geometrii i texturu statické tváře. Jako přı́klad můžeme uvést komerčnı́
produkt Cyberware2 . Princip měřenı́ je založen na laserovém paprsku, kterým je pohybováno po kruhové dráze
kolem rekonstruovaného objektu. Paprsek nám umožnı́ změřit vzdálenost zdroje od objektu postupně v rozsahu
1
2
Metoda hledá hranici mezi dvěma oblastmi obrazu tj. body maximálnı́ho kontrastu.
http://www.cyberware.com/products/index.html
32
otočenı́ 0-360Æ . Spolu s měřenı́m hloubky je zaznamenána informace o barvě. Výsledkem měřenı́, které zabı́rá
několik sekund, je hloubková a texturová mapa ve válcových souřadnicı́ch. Již zmı́něný detailnı́ popis povrchu
objektu, v našem přı́padě povrchu hlavy, se však zřı́dka přı́mo použı́vá pro animaci. Rekonstruovaný povrch
se skládá z desı́tek tisı́c 3D bodů avšak bez znalosti struktury. Proto i zde se použı́vá nějaký generický model,
kterým je provedena redukce naměřených dat. Problémem je také, že laserový paprsek je v oblasti vlasů a
nosnı́ch dı́rek, ale také mezi rty značně rozptýlen a tak v těchto mı́stech chybı́ informace o hloubce.
Lee takto měřená data použil pro detailnı́ tvarovánı́ již rekonstruovaného modelu pomocı́ fotogrammetrie
(Lee a Magnenat-Thalmann, 2000). Cyberware skener je použit i pro svalový model specifické tváře v práci
(Lee a kol., 1995). Kuratate a kol. (1998, 1999) použili skener pro záznam tváře v různých extrémnı́ch výrazech.
Metody DFFD je použito k tvarovánı́ animačnı́ho modelu v (Escher a Thalmann, 1997). Escher a kol. (1998b)
navrhuje tvorbu modelu podle standardu MPEG-4, generický model je složen z cca. 1500 vrcholů z nichž podmnožinu tvořily FDP body. Stejně jako v předchozı́ práci je použito DFFD s ručnı́ lokalizaci FDP v naměřených
datech. I model „Baldi“ je pomocı́ skeneru připodobněn svým autorů (Cohen a kol., 2002).
2.1.2 Vnitřnı́ statické měřenı́
Pro měřenı́ artikulace vnitřnı́ch hlasových orgánů existuje několik technik často využı́vaných v lékařských
zařı́zenı́ch. Již v roce 1967 Öhman určil tvar hlasového ústrojı́ pomocı́ rentgenového řezu X-paprskem. Měřenı́
snı́mku bylo provedeno pomocı́ metriky složené z třiceti polárnı́ch souřadnic a dvaceti devı́ti paralelnı́ch přı́mek.
Aproximačnı́ hodnoty jsou definovány jako množina hodnot odstupů naměřených na těchto přı́mkách z jejich
výchozı́ch pozic do jejich průsečı́ku s středo-sagitálnı́ konturou jazyka.
Engwall (2000) použil magnetické rezonance (MRI) pro konstrukci 3D modelu jazyka. MRI skener vytvářı́
data složená ze série plátků často kolmých na sagitálnı́ rovinu a procházejı́cı́ch celým hlasovým traktem. Z těchto
3D dat je model jazyka tvořen pomocı́ křivek, které definujı́ okraje jazyka. Umı́stěnı́ křivek podle dat se provádı́
nejčastěji ručně. Statické měřenı́ s pomocı́ MRI provedl i Badin a kol. (1998, 2002). Cı́lem jejich práce bylo
rozšı́řenı́ stávajı́cı́ho modelu jazyka, který byl původně řı́zen jen v sagitálnı́ rovině. Pro vybrané artikulace bylo
provedeno měřenı́ pomocı́ 1-Tesla MRI skeneru nacházejı́cı́ho se v nemocnici Grenoblu. Měřenı́ se skládalo
z 53 plátků kolmých na sagitálnı́ rovinu. Plátky byly změřeny po 3:6mm s rozlišenı́m 1mm na obrazový bod.
Jedeno měřenı́ trvalo cca 43s. Kontury jazyka byly aproximovány B-spline křivkami a v zaznamenaných datech
byly označeny ručně. Nevýhodou měřenı́ artikulace pomocı́ MRI je, že nelze zaznamenat zuby. Badin tento
problém řešil pomocı́ otisku zubů ponořeného do vody a pak podrobeného MRI. Při vlastnı́m měřenı́ subjekt
ležı́ na zádech a tato nepřirozená poloha ovlivňuje správnost artikulace jazyka (změněná pozice kořene jazyka).
Dalšı́ možný problém je, že promluva hlásek probı́há ve dlouhém nádechu nebo velmi pomalém výdechu se
šepotem. Tato umělá artikulace je volena proto, aby se docı́lilo konstantnı́ho nastavenı́ hlasového traktu po
celou dobu měřenı́ (43s). MRI je také použito pro svalově založený model v (Sams a kol., 2000). Zde je z těchto
dat konstruován model tváře.
Cohen a kol. (1998) použili pro zlepšenı́ artikulace jazyka 3D data z ultrazvuku. Záznam byl proveden pro
artikulaci 18 anglických hlásek. Model aproximujı́cı́ vrchnı́ povrch jazyka je vytvořen z několika 2D plátků.
Měřenı́ probı́halo tak, že bylo postupně otáčeno ultrazvukovým snı́mačem připevněným na bradě. Každý plátek
vznikl jako jedno měřenı́. Jednou nevýhodou ultrazvukového měřenı́ tvaru jazyka je, že obyčejně nenı́ zachycena
špička jazyka. Toto je způsobeno vzduchovou dutinou pod jazykem, která odrážı́ ultrazvukové vlny.
2.2 Dynamické metody
Data z dynamického měřenı́ jsou důležitá pro modelovánı́ animačnı́ch pohybů mluvı́cı́ch hlav. Pomocı́
speciálnı́ch zařı́zenı́ch a technik se zaznamenává dynamika a mimika řeči. Právě záznam přirozené řeči je
důležitý pro datové analýzy.
33
2.2.1 Video založené metody
Rekonstrukci dynamiky tváře ze záznamu pohybujı́cı́ se tváře můžeme rozdělit na texturově a modelově
založenou. Texturově založené metody provádějı́ nějakou segmentaci obrazu k oddělenı́ důležitých rysů tváře,
nejčastěji jde o rty. Automatické trasovánı́ rtů ve videozáznamu za normálnı́ch podmı́nek je velmi obtı́žná úloha,
která se řešı́ na mnoha pracovištı́ch pro potřeby počı́tačového odezı́ránı́ ze rtů. Při pořizovánı́ videozáznamů
řečových dat pro mluvı́cı́ hlavy se použı́vá co nejvı́ce možných ulehčenı́ch. Často je záznam prováděn za
speciálnı́ho osvětlenı́, na rty je nanášen pro barevné odlišenı́ speciálnı́ make-up. Modelově založené metody
předpokládajı́ implicitnı́ tvar rtů představovaný např. generickým modelem a srovnánı́m tohoto modelu pak
určujı́ pohyb tváře ve všech zaznamenaných snı́mcı́ch. Nejvı́ce technik zpracovává video sekvenci čelnı́ho
pohledu na tvář a použı́vá pouze 2D specifikaci modelu.
Basu a kol. (1998) navrhl 3D model rtů, který je utvořený jako polygonálnı́ sı́t’. Pohyb vrcholů sı́tě je
statisticky určen z videozáznamu pomocı́ projekcı́. Podobný návrh nalezneme v (Guiard-Marigny a kol., 1996;
Revéret a kol., 2000). Revéret metodiku pro modelovánı́ rtů použı́vá pro 3D trasovánı́ rtů. Podobný postup
najdeme i v (Badin a kol., 2002). Öhman (1998) použil automatický algoritmus pro sledovánı́ rtů. Rty řečnı́ka
byly přebarveny na modro a dvě pomocné značky indikovaly pohyb čelisti a hlavy, obr. 2.3. Videozáznam pouze
čelnı́ho pohledu na rty, které jsou také obarveny na modro, je proveden také v (Masuko a kol., 1998).
Obrázek 2.3: Složený čelnı́ a bočnı́ pohled na tvář s označenými rty. Dvě speciálnı́ značky jsou použity pro detekci
pohybu čelisti a celé hlavy. Vpravo pak můžeme vidět obrázek převedený do chromatických barev.
2.2.2 Systémy optického trasovánı́
Systémy pro optické trasovánı́ jsou většinou komerčnı́ aplikace použı́vajı́cı́ specializovaný hardware. Jako
přı́klad můžeme uvést systémy OPTOTRAK3, ELITE4 , VICON5 a MacReflex nebo ProReflex od firmy Qualisys6 . Tyto systémy se často a s oblibou použı́vajı́ pro zı́skávánı́ dynamických dat pozorovatelných na povrchu
tváře. Data jsou zı́skávána pomocı́ tzv. trasovánı́ bodů. Trasovány jsou pevně připevněné značky na tváři.
Výhodou těchto systémů je plně automatický provoz, dobrá přesnost (pod 1mm) a velká vzorkovacı́ frekvence
(60 a vı́ce snı́mků za vteřinu). Princip optického trasovánı́ vycházı́ z technik 3D fotogrammetrie. 3D souřadnice
značek jsou rekonstruovány pomocı́ dvou či vı́ce pohledů. Videozáznam je zı́skáván pomocı́ vysokofrekvenčnı́ch kamer citlivých na infračervené (IR) světlo. Značky připevňované na tvář majı́ přibližně průměr 2 4mm
a v přı́padě systému OPTOTRAK jde o IR LED-diody. Nevýhodou je skutečnost, že k LED musı́ být přivedeno
napájenı́. Ostatnı́ systémy použı́vajı́ pasivnı́ značky. Tyto pasivnı́ značky jsou polokulaté nebo kulaté korálky
3
http://www.bts.it/
http://www.digital.com/
5
http://vicon.com/
6
http://www.qualisys.se/
4
34
na povrchu pokryté materiálem dobře vracejı́cı́ světlo, tzv. „retro reflexnı́ materiál“ známý např. z dopravnı́ch
značek. Osvětlenı́ scény zajišt’ujı́ IR zdroje přı́mého světla, které jsou umı́stěné u každé kamery a směrovány
do osy pohledu. Výsledkem je vždy kvalitnı́ a vysoce kontrastnı́ obraz, kde značky na tváři jsou v obraze vidět
jako zářivé tečky na tmavém pozadı́. Zpracovánı́ každého snı́mku je proto velmi jednoduché a robustnı́. 3D
pozice značek je vypočı́tána pomocı́ perspektivnı́ geometrie a s tzv. sub-pixelovou přesnostı́.
Praktické použitı́ optického trasovánı́ nalezneme v (Kshirsagar a kol., 2000, 2003). Pro extrakce 3D pozic
retro-reflexnı́ch značek na tváři je použit systém VICON 8. Je použito 6 kamer a 27 značek připevněných na
tváři, které korespondujı́cı́ s MPEG-4 řı́dı́cı́mi body. Vedlejšı́m produktem je i trasovánı́ globálnı́ orientace
hlavy. Lucero a Munhall (1999) použili měřenı́ s OPTOTRAK systémem a to pouze na polovině tváře. Na
druhé polovině provedli měřenı́ s EMG elektrodami, viz 2.2.3. I pro trénovanı́ mluvı́cı́ hlavy „Baldi“ je použit
OPTOTRAK (Cohen a kol., 2002). Bylo sledováno 19 bodů na tváři plus 4 body na vrchu hlavy. Sledovánı́
18 bodů se současným záznamem řeči použil Kuratate a kol. (1998) při promluvě japonského textu. Beskow
a kol. (2003) použil metodu reflexe a dynamická data zaznamenal pomocı́ MacReflex systému. 4 kamery
sledovaly 28 reflexnı́ch bodů přilepených na tvář, obr. 2.4. Stejný systém použili i Hällgren a Lyberg (1998)
pro 40 značek. Systém ProReflex je použit v (Minnis a Breen, 2000) pro sledovánı́ 35 značek na celé tváři.
Systém ELITE použila Pelachaudová k zachycenı́ artikulačnı́ dynamiky rtů italských hlásek. Snad největšı́ počet
sledovaných značek je v (Maeda a kol., 2002), zde je trasováno 65 reflexnı́ch značek po celé tváři s frekvencı́
150Hz.
Obrázek 2.4: Ukázka systému optického trasovánı́. V tomto přı́padě je použit Qualisys systém a 4 kamery. Vpravo
pak můžeme vidět 28 značek na tváři řečnı́ka.
2.2.3 Vnitřnı́ dynamické měřenı́
Stejně jako u statických metody pro měřenı́ tvaru vnitřnı́ch artikulačnı́ch orgánů jsou pro měřenı́ pohybů
použı́vána zařı́zenı́ pocházejı́cı́ z lékařských aplikacı́. Můžeme zmı́nit rentgen, elektromyograf (EMG), elektropalatograf (EPG) a elektromagnetický artikulograf (EMA).
V práci (Cohen a kol., 1998) je mimo jiné použit i EPG. Toto zařı́zenı́ je použı́váno v logopedii k měřenı́
správné artikulace. Měřenı́ je prováděno vloženı́m umělého patra do úst. Umělé patro je tvořeno měkkou deskou
opatřenou desı́tkami elektrod. Měřenı́ se provádı́ na frekvenci 100Hz. Výsledkem měřenı́ je binárnı́ mapa, která
indikuje zda došlo ke kontaktu jazyka s patrem a určı́ se také čas a mı́sto artikulace. EMG měřenı́ použili
35
Lucero a Munhall (1999). Měřenı́ bylo provedeno na opačné polovině tváře než optické trasovánı́, aby nedošlo
k vzájemnému rušenı́. Při záznamu měl subjekt na polovině tváře nitrosvalové EMG elektrody. Bylo měřeno
7 základnı́ch svalů. Měřenı́ bylo provedeno s frekvencı́ 2; 5k Hz. Naměřená data byla následně vzorkována
na 60Hz , filtrována mediánem a normalizována na rozsah 0–1. EMG signál v této práci sloužil k aktivaci
modelovaných svalů fyziologického modelu tváře. I v (Kuratate a kol., 1999) je pomocı́ EMG měřena aktivita
8 svalů. Zajı́mavostı́ těchto animacı́ je, že použité syntézy řeči jsou provedeny pouze z tohoto signálu.
Dalšı́ technikou měřenı́ vnitřnı́ dynamiky je EMA. Princip je založen na měřenı́ napětı́ indukovaného
v malých cı́vkách umı́stěných v magnetickém poli. Tyto malé cı́vky (1:5 4mm) jsou připevněny na jazyk.
Dvě stacionárnı́ cı́vky umı́stěné na helmě a nasazené na řečnı́kovi vytvářejı́ proměnlivé magnetické pole. Při
pohybu jazyka se na malých cı́vkách indukuje napětı́, které určı́ relativnı́ pohyb vzhledem ke stacionárnı́m
cı́vkám. Omezenı́m tohoto měřı́cı́ho sytému je, že měřenı́ je pouze ve 2D a aby data byla porovnatelná, musı́
malé cı́vky ležet ale i se pohybovat v jedné rovině, která je rovnoběžná se stacionárnı́mi cı́vkami. Při měřenı́
jazyka jde nejčastěji o sagitálnı́ rovinu. EMA měřenı́ je použito současně s měřenı́m s optickým měřenı́m
v (Jiang a kol., 2000; Beskow a kol., 2003). Beskow měřil pozici 6 cı́vek, 3 umı́stěny na jazyku (špička, hřbet a
kořen), 2 na hornı́ a dolnı́ řadě zubů a poslednı́ na hornı́m rtu. Všechny v středo-sagitálnı́ rovině. Jiang použı́vá
5 cı́vek umı́stěných na jazyku, na dolnı́ a hornı́ dásni, na bradě a nose.
Poslednı́ zmı́něnou metodou je měřenı́ dynamiky pomocı́ rentgenového záznamu. Na statické měřenı́ a
analýzu jazyka v (Badin a kol., 2002) navazuje dynamické měřenı́ publikované v (Bailly a Badin, 2002).
Měřenı́ bylo provedeno pomocı́ cineradiografu. Toto měřenı́ je vı́ce preciznı́ než EMA metoda, která poskytuje
pouze data o pohybu bodů. Cineradiograf zı́skává informaci o celkovém aktuálnı́m tvaru. Lindblom a Sussman
(2002) použili jako zdroj dat digitalizovaný film zaznamenávajı́cı́ rentgenové zářenı́. Měřenı́ bylo provedeno
s 50 snı́mky za vteřinu se současným záznamem zvuku. Pro každý snı́mek se zı́skávala kontura hlasového
traktu, která obsahuje obrys zubů, tvrdého a měkkého patra, rtů, čelisti a jazyka (kontura od kořene ke špičce),
hrtanovou přı́klopku, hrtan a zadnı́ stěnu hltanu. Všechny kontury z 85 snı́mků byli aproximovány dvaceti pěti
2D body a podrobeny PCA.
2.2.4 Korelace dat
Jiang a kol. (2000) provedl studii vzájemného vztahu vnějšı́ch artikulačnı́ch pohybů tváře, pohybů jazyka a
akustického signálu. Pro optické měřenı́ tváře byl použit Qualisys systém (OPT) a měřenı́ jazyka bylo provedeno
pomocı́ EMA metody. Akustický signál byl parametrizován pomocı́ lineárnı́ho spektra (LSP). Měřenı́ bylo
provedeno synchronizovaně. Výsledky jsou v tabulce 2.2 a jsou porovnány pomocı́ korelačnı́ho koeficientu
(popisy porovnávánı́ jsou popsány v kapitole 4.1). Tabulka ukazuje vysokou korelaci mezi pohyby tváře a
pohyby jazyka. Podobně Engwall a Beskow (2003) provedli studii korelace mezi tvářı́ a jazykem a pokusili se
Tabulka 2.2: Pozorované korelace signálů. Korelace popisuje mı́ru závislosti mezi vnějšı́mi pohyby tváře, akustickým signálem a pohyby jazyka.
OPT-EMA
0.75
OPT-LSP
0.47
EMA-LSP
0.52
animovat pohyby jazyka pouze z dat naměřených na tváři. Výsledkem byla úspěšná predikce pohybu čelisti
a špičky jazyka. Pro ostatnı́ pohyby jazyka a hlasového traktu jsou však data z tváře nedostačujı́cı́. Potvrzenı́
můžeme nalézt i v (Bailly a Badin, 2002).
36
2.3 Řečové korpusy pro dynamické měřenı́
Pouhá volba metody dynamického měřenı́ ještě nestačı́ k zı́skánı́ správné artikulace. Na začátku každého
úsilı́, jak naučit mluvı́cı́ hlavu správné artikulaci, je záznam řečového korpusu. Záznam korpusu vzniká tak, že
textový materiál je promlouván řečnı́kem na kterém je prováděno jedno nebo vı́ce dynamických měřenı́. Před
vlastnı́m záznamem musı́ být však provedeno několik rozhodnutı́: jaký řečnı́k, jaký textový materiál, kterou
nebo které z dynamických metod použijeme a zda se bude při záznamu současně zaznamenávat akustický
signál. Musı́me se rozhodnout, která data potřebujeme zaznamenat, jestli je pro nás postačujı́cı́ 2D měřenı́ nebo
potřebujeme 3D data. Otázka kolik řečnı́ků bude zaznamenáno závisı́ na budoucı́ potřebě dat. Volba pouze
jednoho řečnı́ka usnadňuje vlastnı́ záznam, extrakci i interpretaci dat. Pro studii specifických charakteristik
řečnı́ka je však za potřebı́ vı́ce řečnı́ků, nebot’ stejně jako se charakteristika řečnı́ka objevuje v akustickém
signálu, můžeme pozorovat odlišnosti ve vizuálnı́ artikulaci. Dále následuje volba pohlavı́ řečnı́ka, věk popř.
dialekt atd. Pro zlepšovánı́ vizuálnı́ syntézy jsou vybı́rány řečnı́ci s čistou a k odezı́ránı́ srozumitelnou artikulacı́.
Pro rozhodnutı́, jaký řečový materiál máme použı́t, musı́me brát ohled na přirozenost, použitelnost, ale
i na jednoduchost provedenı́ porovnánı́ výsledků budoucı́ch experimentů. Rozhodnutı́ spočı́vá také v tom,
jaká slova zaznamenávat, jaká má být velikost slovnı́ku, styl a rychlost jejich promluvy. Často se použı́vajı́
slova složená z kombinacı́ třı́ hlásek: samohláska-souhláska-samohláska (VCV), které záměrně nedávajı́ smysl.
Právě VCV slova popř. podobné utvořenı́ jako VCVCV, CVC apod. jsou populárnı́ z mnoha důvodů. Kombinacı́
samohlásek obklopujı́cı́ souhlásku jednoduše vytvořı́me slova obsahujı́cı́ žádaná spojenı́ hlásek, která bychom
v běžné mluvě dlouho vybı́rali. Tato slova jsou vhodná i pro následné ohodnocovánı́ syntézy, kdy snadno
modelujeme kombinaci hlásek a můžeme provádět různorodé analýzy. Dalšı́ možnostı́ je záznam krátkých
reálných slov promlouvaných izolovaně. V tomto přı́padě řečnı́k vkládá vlastnı́ zkušenost s promlouvánı́ těchto
slov a zahrnuje do záznamu fonologické informace daného jazyka. Testy srozumitelnosti jsou však obtı́žnějšı́
nebot’ jejich návrh by měl obsahovat žádané kombinace hlásek a výsledky nejdou přı́mo porovnávat. Plynule
vyslovovaná slova, vybraná z malé množiny, ale bez sémantického uspořádánı́ jsou dalšı́m krokem k pořı́zenı́
záznamu přirozeného jazyka. Nejobecnějšı́ materiálem je pak záznam vět utvořených ze slov velkých slovnı́ků.
V tomto přı́padě řečnı́k využı́vá znalosti správné skladby vět. Doplněnı́ mimiky a prozodie jsou nejvyššı́m
stupněm přirozenosti a nejširšı́m zdrojem informacı́.
Záznam slov utvořených umělou kombinacı́ samohlásek a souhlásek použil již Öhman při studovánı́ koartikulačnı́ch vlivů (Öhman, 1966). Spektrograficky měřil 48 slov utvořených ze čtyř znělých souhlásek a
4 samohlásek odděleně pro VC a CV kontext. Zaznamenával promluvy švédského, amerického a ruského řečnı́ka. Záznam byl proveden vždy 3 krát pro každého řečnı́ka, slova byla čtena monotónně se stejným důrazem
na obě slabiky a v náhodném pořadı́. V (Badin a kol., 1998, 2002; Elisei a kol., 1997) je zaznamenáno 34 symetrických VCV artikulacı́ 10 orálnı́ch samohlásek a 8 souhlásek pro francouzštinu. Stejný kontext hlásek použı́vá
Pelachaudová (Pelachaud a kol., 2001) pro italštinu. Zde každé slovo bylo promlouváno 5 krát. V (Revéret
a kol., 2000) je použito symetrických CVC slov utvořených z 8 francouzských souhlásek a třech vzájemně
nejvı́ce odlišných samohlásek /a/, /i/ a /u/.
Beskow a kol. (2003) použı́vá jak uměle tvořená slova tak i celé věty. Autor zaznamenával data pro
švédštinu. Řečnı́kem byla žena. Bylo promlouváno 41 nesymetrických C1 V C2 slov utvořených z 15 samohlásek
a 4 souhlásek, 138 VCV a VCC(C)V a 270 všednı́ch vět. V pracı́ch (Kuratate a kol., 1998, 1999) byly
zaznamenány pouze celé věty. Japonský řečnı́k 4 krát opakoval 5 vět a anglický řečnı́k 5 krát opakovat 3 věty.
V (Minnis a Breen, 2000) je zaznamenáno 300 krátkých vět představujı́cı́ přes 40 minut řeči a obsahujı́cı́ většinu
možných kombinacı́ anglických hlásek. Masuko a kol. (Masuko a kol., 1998; Tamura a kol., 1998) pro trénovánı́
HMM zaznamenal 216 foneticky vyvážených slov. Maeda a kol. (2002) použili korpus 79 VCV a VC slov pro
24 anglických souhlásek a 20 samohlásek. Pro MPEG-4 je v (Kshirsagar a kol., 2003) zaznamenáno 100 náhodně
vybraných vět z TIMIT databáze. Železný a kol. (2002) zaznamenal 600 foneticky vyvážených českých vět.
Pro video-založené syntézy v (Theobald a kol., 2001) je zaznamenáno 100 foneticky bohatých vět tvořených
9431 snı́mky, (Brooke a Scott, 1998) zaznamenal 200 vybraných vět, které představovali přes 20 minut záznamu.
37
Ezzat a Poggio (2000) zaznamenali 50 izolovaných slov a v (Ezzat a kol., 2002) nalezneme 15 minut, 152 jedno
a 156 dvouslabičných slov obsahujı́cı́ch 30000 snı́mků a navı́c záznam byl doplněn o 105 krátkých vět. Cosatto
a Graf (1998) použı́val 200 krátkých vět obsahujı́cı́ch však pouze 1000 trifónů a v navazujı́cı́ práci (Cosatto a
Graf, 2000) byl proveden záznam 6 řečnı́ků s celkovým počtem přes 200000 snı́mků.
V uvedeném a trochu nepřehledném souhrnu se těžko hledá společný znak. Můžeme konstatovat, že jsou
častěji zaznamenávány krátká slova, která bývajı́ praktičtějšı́. Výběr materiálu se řı́dı́ podle potřeb, druhu
záznamu a následného použitı́ pro přı́padnou analýzu a animaci. Krátká VCV slova jsou vybı́rána i s ohledem
na použitou strategii řı́zenı́.
38
Kapitola 3
Strategie řı́zenı́ animacı́
Pro produkci vizuálnı́ řeči nestačı́ pouhý animačnı́ model, ale je zapotřebı́ navrhnou také nějaké řı́zenı́.
Techniky řı́zenı́ se použı́vajı́ pro určenı́ časového průběhu animace, jinými slovy určujı́, kdy a do jakých tvarů
se má tvář deformovat. Předpokladem při výběru strategie řı́zenı́, je existence animačnı́ho modelu a také volba
parametrizace. Cı́lem řı́zenı́ je ve většině přı́padů generovánı́ hodnot jednotlivých parametrů. Chronologicky
uspořádané hodnoty nějakého parametru si můžeme představit jako nějakou trajektorii. Pro řı́zenı́ vizuálnı́
řečové produkce se pro realistickou a tedy srozumitelnou animaci musı́ být dodržována určitá pravidla. Jednı́m
z důležitých pravidel je koartikulace, viz kapitola 3.3, jejı́ž zohledněnı́ často přı́mo určuje strategii řı́zenı́ i
modelovánı́ trajektoriı́. Při návrhu správného řı́zenı́ je podmiňujı́cı́ zohlednit principy jakými člověk produkuje
akustickou řeč a jakými vnı́má vizuálnı́ řeč.
3.1 Vznik řeči a odezı́ránı́
Mluva je výsledkem přesné a jemné součinnosti hláskovánı́, kdy se vytvářejı́ základnı́ prvky řeči - hlásky.
Řeč je výsledkem spolupráce hlasového ústrojı́, které vytvářı́ a moduluje hlas, dechového ústrojı́ jako zdroje
proudu vzduchu a mozku, který vše řı́dı́. Když na řeč pohlı́žı́me ze stany odezı́ránı́ (Strnadová, 1998) pak
můžeme vidět aktivnı́ mluvidla, ale ne všechny jeho části. V nejlepšı́m přı́padě vidı́me jen pohyby dolnı́ čelisti a
rtů, za kterými se nám někdy podařı́ spatřit i část zubů a kousek jazyka. Mluvnı́ pohyby se skládajı́ do mluvnı́ch
obrazů neboli gest, které jsou často velmi neurčité. Zvukové rozdı́ly jsou v těchto přı́padech tvořeny v zadnı́ch
částech úst a v rezonančnı́ch dutinách, které vznikly pohybem jazyka za sevřenými zuby. Podle (Strnadová,
1998) nelze pouhým zrakem přesně identifikovat všechny hlásky.
Rychlost mluvy se odvı́jı́ od rychlosti pohybů jazyka. Ten, kdo ovládá rychlé pohyby jazyka, pak umı́ mluvit
rychleji. Obvykle mluvı́ rychleji ženy, někdy až dvakrát rychleji než muži. Rychlým ovládánı́m jazyka můžeme
vyslovit až 300 slov za minutu. Běžná řeč se však skládá z méně než 200 slov za minutu. Důležitá je poloha
jazyka v ústnı́ dutině, vytvářı́ rezonančnı́ prostory různých tvarů a vnikajı́ různorodé průchody vzduchu od
hlasivek. Proto viditelnost jazyka velmi usnadňuje odezı́ránı́.
Löfqvist (1990) prezentuje řeč jako zvuková gesta. Řı́ká, že řeč může být popsána jako zvukové přesuny.
Změnou pozic rtů, čelisti, jazyka, měkkého patra a hlasivkové štěrbiny řečnı́k vytvářı́ variace ve stlačeném
proudu vzduchu procházejı́cı́ho hlasovým traktem. Variace v tlaku a v proudu produkujı́ akustický signál,
který vnı́máme když posloucháme řeč. Tento akustický signál je vědomě strukturován takovou cestou, že může
přenášet lingvistické informace. Artikulačnı́ orgány musı́ být řı́zeny a koordinovány tak, že akustické variace
v produkovaném signálu se přizpůsobujı́ fonetice a fonologii promlouvaného jazyka.
39
Kapitola 3. Strategie řı́zenı́ animacı́
3.2 Audio-vizuálnı́ vnı́mánı́ a „McGurk efekt“
Posluchač použı́vá, aniž by si toho byl vědom, vı́ce zdrojů k rozpoznánı́ a vysvětlenı́ jazykového vstupu.
Spolehlivě použı́vá i vjem vizuálnı́. Informace zı́skané z tváře jsou obzvláště účinné, když vjem akustické řeči je
z části potlačen. Tato degradace může být způsobena přı́tomnostı́ akustického šumu, omezeného přenosového
pásma, ale i sluchovým postiženı́m. Akustické promluvě je úspěšně porozuměno tehdy, když je zachovánı́
akustické řeči alespoň polovičnı́. Rozdı́l mezi těmito dvěma způsoby vnı́mánı́ je ten, že vjem vizuálnı́ řeči nenı́
limitován v situacı́ch, kdy je omezována akustická řeč. Porozuměnı́ nějakému slůvku je odrazem jak akustického
tak i vizuálnı́ho přı́spěvku. Důkazem dvojı́ho vnı́mánı́ je tzv. „McGurkův efekt“ (McGurk a MacDonald, 1976).
Harry Mc Gurk jako prvnı́ pozoroval dvojı́ vnı́mánı́ na promluvě akustické slabiky /ba/ synchronizovaně
spojené s vizuálnı́m ztvárněnı́m hlásky /ga/ a zjistil, že je mozkem vnı́mána a porozuměna slabika /da/ popř.
/tha/, obr. 3.1. Pro názornějšı́ vysvětlenı́ si můžeme např. vzı́t akusticky formulovanou větu „My bab pop me
poo brive“ a synchronizovaně ji doplnit o vizuálnı́ artikulaci „My gag kok me koo grive“, (obě věty nedávajı́
samy o sobě smyl). Výsledek je však takový, že v našem mozku tato kombinace vytvořı́ smysluplný překlad
„My dad taught me to drive“ (Můj otec mě učil řı́dit). Obrácené pořadı́, tedy akustické /ga/ a vizuálnı́ /ba/ však
nezpůsobuje vnı́mánı́ /da/, ale jakousi kombinaci /bga/. Otázkou, proč vizuálnı́ složka tak razantně ovlivňuje
vnı́mánı́ akustické řeči, které je samo o sobě dostatečně informativnı́, se zabývá několik pracı́, zmı́nı́me jen
některé (Green, 1996; Rosenblum a kol., 1997; Massaro, 1998; Massaro a Light, 2004b; Massaro, 2001). Vetšı́
studie je provedena v (MacDonald a kol., 1999), kde byly testovány i jiné kombinace anglických slabik a byla
pozorována jejich záměna.
Obrázek 3.1: „McGurk efekt“.
Schopnost zı́skánı́ řečové informace z tváře závisı́ na třech faktorech: řečnı́kovi, posluchači a podmı́nkách
sledovánı́. Výzkumy ukazujı́ (Massaro a Light, 2004b), že odezı́ránı́ je docela informativnı́ a že vnı́mánı́ vizuálnı́
řeči je úspěšné dokonce tehdy, když nenı́ zaručen přı́mý pohled na tvář a rty. Kromě tohoto se úspěšnost odezı́ránı́
dramaticky nezmenšuje ani při špatné viditelnosti, když je vidět tvář shora, zdola nebo z profilu, nebo když
je většı́ vzdálenost mezi řečnı́kem a pozorovatelem. Ve vzájemně se doplňujı́cı́ akustické a vizuálnı́ řečové
informaci je vždy ta druhá složka, která nenı́ zeslabena, vı́ce informativnı́. Rozdı́l úspěšnosti však také závisı́
na tom, že některé řečové segmenty mohou být v jedné složce dvojznačné, ale ve druhé složce jednoznačně
zprostředkované, viz anglické slabiky /ba/ a /da/, kde je obtı́žné akustické rozlišenı́, ale relativně jednoduché
je odlišenı́ pomocı́ polohy rtů. Právě proto, že se obě složky řeči doplňujı́ a tedy nejsou vzájemně nahraditelné
způsobuje to, že jejich kombinace poskytuje vı́ce informativnı́ zdroj.
3.3 Koartikulace
Koartikulaci si můžeme představit jako vzájemné působenı́ sousednı́ch hlásek v plynulé řeči. Základnı́
princip koartikulace je, že sousedı́cı́ hlásky jsou vyslovovány společně jako slabiky. Přilehlé hlásky na sebe
40
působı́ a jejich společný mluvnı́ obraz vypadá odlišně, než kdyby byly vysloveny odděleně. Stejná samohláska
vytvářı́ odlišné mluvnı́ obrazy ve spojenı́ s různými souhláskami. Záležı́ také na pořadı́ vyslovenı́ těchto hlásek.
Při každé kombinaci tak docházı́ ke změnám mluvnı́ho obrazu. V plynulé řeči pak docházı́ ke spojovánı́ vı́ce
hlásek do jednoho proudu. Obraz určité hlásky vypadá různě v různých částech řetězce společně vyslovených
slov. Mluvnı́ obraz jinak zřetelné samohlásky se tak může vlivem sousednı́ hlásky doslova ztratit. Vytvářı́ se
tak mluvnı́ obrazy celých slov a to ve všech tvarech a obvyklých slovnı́ch spojenı́ch.
Studiı́ koartikulace se zabýval již v roce 1966 (Öhman, 1966). Vliv koartikulace byl pozorován v akustickém
signálu. Öhman provedl studii na záznamech utvořených z VCV slov různých řečı́. Autor uvádı́, že do řečové
produkce patřı́ dvě hlediska: statické vlastnosti realizace nějakého fonému a dynamická pravidla, která ovládajı́
spojovánı́ řetězce fonémů do plynulé řeči. Autor nalezl pravidla pro znělé hlásky /b/, /d/ a /g/, které jsou
koartikulovány se 4 samohláskami v VCV nesymetrickém kontextu. Pozoroval, že když je mezi-hlásková
souhláska různě měněna, může to být kvůli proměnlivému zatı́ženı́ samohláskovým kontextem. Pozorovánı́
bylo provedeno na hodnotách druhého formantu při VC a CV přechodech. Na obr. 3.2 vidı́me klesajı́cı́ hodnotu
formantové frekvence /y/ pro slovo /agy/ a rostoucı́ pro slovo /ogy/. Artikulačnı́ pohyb z úvodnı́ samohlásky
na /g/ patrně modifikuje samohláskou, která následuje za /g/. Dalšı́ pozorovaný přı́klad byl opačný, kdy prvnı́
samohláska byla držena souhláskou a druhá samohláska byla měněna. Přechod druhého formantu je z prvnı́
samohlásky klesajı́cı́ či rostoucı́ na stejnou hodnotu u druhé samohlásky. Z toho plyne, že prvnı́ samohláska
ovlivňuje přes souhlásku přechod na druhou samohlásku. Přesnost určenı́ formantů byla tehdy 50Hz. Autor
provedl také měřenı́ rozdı́lu frekvence druhého formantu mezi hodnotou v ustáleném stavu a hodnotou na
hranici přechodu VC a CV. Byla provedena rozsáhlá analýza nad těmito daty, rozdělenı́ na stacionárnı́ část a
na přechody. Bylo pozorováno malé souhláskové ovlivňovánı́ formantové frekvence samohlásky ve stacionárnı́
části, v počátečnı́m i v koncovém úseku. Öhman pozoroval i dynamiku přechodů tj. byl pozorován tvar
přechodu formantových frekvencı́. Stejná obecná koartikulačnı́ pravidla jako u švédského řečnı́ka byla zjištěna
pro amerického řečnı́ka. Švédské a americké souhlásky se zdajı́ být se samohláskami vı́ce koartikulačně volné
na rozdı́l např. od ruštiny.
Obrázek 3.2: Na prostřednı́ křivce můžeme pozorovat průběh druhého formantu pro hlásku /g/ v různém samohláskovém kontextu. Můžeme pozorovat odlišný /CV/ předchod způsobený počátečnı́mi samohláskami.
Cohen a Massaro (1993) vysvětlujı́ koartikulaci jako změny v artikulaci řečového segmentu závisejı́cı́ho na
předchozı́ch a následujı́cı́ch segmentech. Pro artikulaci ovlivněnou předchozı́mi hláskami uvádı́ přı́klad změny
artikulace souhlásky /t/ ve slově boot a beet. Přı́kladem změny artikulace závisejı́cı́ na následujı́cı́ch segmentech
je slovo stew, kdy již na začátku promluvy slova docházı́ ke zakulacenı́ rtů.
Studiem koartikulace se zabývá i Löfqvist (1990). Löfqvist zkoumal několik aspektů řı́zenı́ a koordinace
artikulovaných gest během řeči s zdůrazněnı́m na vzorovánı́ gest, soudržnost a agregaci. Provedl rozsáhlou
diskusi nad segmenty řeči. Segment označil jako poskytovatele vnitřnı́ struktury slov či morfémů. Segmentem
řeči může být i celé slovo či morfém. Autor poznamenává, že je-li nějaký systém založen na jednotkách, kde
každá z těchto jednotek je složena z množiny souvisejı́cı́ch vzorů, at’akustických, nebo artikulačnı́ch, pak řeč
je tvořena skládánı́m těchto jednotek. Vznikajı́ však jednoznačné hranice mezi těmito jednotkami a omezenı́
hranic vede na rostoucı́ délkou jednotek. S rostoucı́ délkou jednotek logicky roste i slovnı́k a je obtı́žné tyto
jednotky odděleně shromáždit a udržet je v paměti. Zavedenı́ definice vnitřnı́ struktury segmentů může odstranit
41
potřebu pamět’ových nároků a velkých slovnı́ků. Segmenty pak nejsou striktně řetězeny po sobě, ale navzájem
se překrývajı́. Právě toto překrývánı́ nazval Löfqvist koartikulacı́. Jako přı́klad uvádı́ přı́pad, kdy sykavka /s/ je
spojena před zakulacenou samohlásku např. /o/. Hláska /s/ je vyslovována se zakulacenými rty, avšak když se
frikativa vyskytuje před nekulacenou samohláskou, pak je vyslovena bez zakulacenı́. Tvar hlasového traktu je
tedy následkem koartikulace způsobené nashromážděnı́m gest odlišných segmentů.
3.4 Syntéza z textu
Řı́zenı́ mluvı́cı́ch hlav může probı́hat z psaného textu nebo akustického signálu. Systémy syntézy z textu
jsou označovány jako „Text-to-Audio-Visual-Speech Synthesis“ (TTAVS). Pro tyto systémy se typicky provádı́
předzpracovánı́ textu, které převádı́ psanou formu textu do fonetické reprezentace. Artikulačnı́ a animačnı́ model
pak má za povinnost převést tuto sekvenci fonémů do podoby vizuálnı́ řeči. Druhou možnostı́, viz kapitola 3.5,
je návrh řı́zenı́ animačnı́ch modelů, které řı́dı́ artikulaci a někdy i neverbálnı́ animaci přı́mo z akustického
řečového signálu. V tomto odstavci se zmı́nı́me o strategiı́ch řı́zenı́ již foneticky přepsaného textu.
3.4.1 Modely řı́zenı́
Öhman jako prvnı́ navrhl numerický model koartikulace. Pro studii vlivů koartikulace zaznamenal tvar
hlasového ústrojı́ pomocı́ rentgenu. Byl měřen pohyb pro švédská slova utvořená v VCV kontextu. Měřenı́
rentgenových snı́mků probı́halo s frekvencı́ 48 snı́mků za vteřinu, cca 20ms na jedno měřenı́. Měřenı́ bylo
v milimetrech. Autor uvádı́, že na jazyk jako artikulačnı́ orgán může být nahlı́ženo jako na tři nezávislé odlišné
části svalového komplexu. Artikulace špičky, hřbetu a celého těla jazyka. Artikulačnı́ gesta jazyka jako „zubové“,
„dásňové“ nebo „ohnutı́ jazyka“ jsou artikulacı́ špičky jazyka, „patrové“ nebo „zadopatrové“ jsou připsány
artikulaci hřbetu jazyka a artikulace jazyka označovány jako „přednı́“, „zadnı́“, „otevřené“ či „uzavřené“ jsou
artikulovány tělem jazyka. V VCV slově určité řeči se zdajı́ být zahrnuty dvě gesta: dvou-hláskové gesta těla
jazyka a gesta znásobeného (navrstveného) svalu svěrače špičky či hřbetu jazyka. Individuálnı́ pohyb každého
z těchto třech artikulačnı́ch systémů má vliv na celé hlasové ústrojı́ a efekt jednotlivých artikulátorů je tak
odlišný pro odlišné současně probı́hajı́cı́ pohyby ostatnı́ch artikulátorů. Nenı́ proto možné spojovat artikulačnı́
tvary hlasového ústrojı́ s mezi hláskovými souhláskami při tvořenı́ nějakého VCV slova, obr. 3.3. Tyto souhlásky
majı́ obecně různé akustické vzory ovlivněné kontextem. Změna tvaru hlasového ústrojı́ souhlásek vložených
mezi dvě hlásky je tak přirozeně následkem koartikulace. Stejný pohybový přı́kaz může být použit pro vytvořenı́
souhláskového gesta v odlišném samohláskovém kontextu, ale výsledkem jsou různé tvary hlasového ústrojı́.
Výsledný tvar je dán spojenı́m těchto souhlásek s proměnlivým samohláskovým kontextem. Öhman stanovil
následujı́cı́ rovnici popisujı́cı́ koartikulaci.
s(t; x) = v(x; t) + k(t)[(x) v(x; t)℄w (x);
(3.1)
Měřenı́ byla definována jako množina hodnot kontury popisujı́cı́ hlasové ústrojı́ v středo-sagitálnı́ rovině.
Výzkum byl proveden na nesymetrických VCV slovech pro „špičkové“ a „hřbetnı́“ souhláskové artikulace a pro
samohlásky /i/, /a/ a /u/. Na obr. 3.3a) můžeme pozorovat odlišnou sagitálnı́ konturu jazyka pro souhlásku /d/
v kontextu /u/ a /a/. Autor popisuje souhlásku jako dva objekty (x) a w (x). reprezentuje cı́l artikulace - tvaru
hlasového ústrojı́ pro konkrétnı́ souhlásku. Ten je zı́skán kdy hnacı́ artikulačnı́ přı́kaz souhlásky byl aplikován
sám a ostatnı́ svalové akce, které se nepodı́lejı́ na artikulaci zůstávajı́ neaktivnı́. Funkce w má hodnotu mezi
0 a 1 a reprezentuje váhu ovlivněnı́ kterou má samohláskový kontext na deformaci cı́lového tvaru (x). w (x)
je nazvána koartikulačnı́ funkcı́ (x). Když je w = 1 pak souhlásky nezávisı́ na přilehlém kontextu. a w
se neměnı́ s časem. v (x) udává tvar pro konkrétnı́ samohlásky a je také časově nezávislá. Parametr k udává
vliv souhlásky na samohlásku a jeho hodnota se měnı́ od 0 do 1 a zpět od 1 do 0 podle vhodné časové funkce.
42
Obrázek 3.3: a) Odlišná artikulačnı́ poloha jazyka pro hlásku /d/ v samohláskvém konextu /u/ (plná čára) a /a/
(přerušovaná čára). b) Samotná artikulace hlásky /u/ a /a/.
Když je k = 0 pak je s = v (to nastane na začátku a konci VCV slova). v (x) je zı́skáno lineárnı́ kombinacı́
třı́ „extrémnı́ch“ pozic jednotlivých samohlásek. v (x) můžeme tak vyjádřit jako funkci pouze dvou parametrů,
které udávajı́ kompaktnost a vážnost. Tyto parametry se počı́tajı́ z rovnice (3.2).
v(x) = a(x) + u(x) + i(x)
(3.2)
Cı́lová mı́sta artikulace /i/, /a/ a /u/ byla zı́skána z několika promluv těchto hlásek průměrovánı́m. Analytickým
řešenı́m rovnic můžeme zı́skat z VCV promluv cı́lovou artikulaci jednotlivých souhlásek a zároveň zı́skat i
koartikulačnı́ váhu w . Průběh jednotlivých koartikulačnı́ch funkcı́ a výslednou trajektorii parametru můžeme
vidět na obr. 3.4
Obrázek 3.4: Syntéza trajektorie podle Öhmanova modelu.
Löfqvist (1990) zavádı́ tzv. „dominančnı́ funkce“, které popisujı́ segmenty řeči pro jednotlivé části hlasového
43
traktu. Autor pozoroval koartikulačnı́ vlivy na hlasivkové aktivitě. Měřenı́ prováděl elektromyografem a každé
pozorovánı́ bylo průměrem přes vı́ce měřenı́. V hlasovém traktu měřil interarytenoideálnı́ a prstenco-hlasivkový
sval. Otevřenı́ a uzavřenı́ hlasivek bylo měřeno pomocı́ prosvětlovánı́m hrtanu. Záznam tvořila VCV slova pro
neznělé souhlásky. Výzkum byl proveden i nad různou rychlostı́ řeči. Löfqvist pozoroval, že proměnlivá rychlost
promluvy spojovala dvě gesta do sebe. Na obr. 3.7 můžeme vidět skládánı́ gest a že prolı́nánı́ dvou gest do
sebe nenı́ při rychlé promluvě symetrické. Dále na obr. 3.6 vlevo můžeme vidět navrženou definici segmentu.
Segment obecně nemusı́ být symetrický a na obr. 3.5 vpravo pak můžeme vidět různý stupeň překrývánı́ pro
dva sousedı́cı́ segmenty vztažený s rychlostı́ řeči. Hlasový trak autor popisuje několika částmi, kterými může
být pohybováno nezávisle na sobě. Jednotlivé části majı́cı́ svoje dominančnı́ funkce.
Obrázek 3.5: Löfqvistova definice řečového segmentu. Vpravo pak vidı́me dva stupně překrývánı́ sousedı́cı́ch
segmentů při řetězenı́ řeči.
Obrázek 3.6: Definice segmentu je provedena zvlášt’ pro každý artikulátor. Segmenty pak mohou mı́t různou
intenzitu a tvar.
Jeden z nejznámějšı́ modelů je model koartikulace navržený Cohenem a Massarem (Cohen a Massaro, 1993).
Návrh vyházı́ z Löfqvistovy teorie produkce řeči pomocı́ gest. Jako výhodu vidı́ autoři existenci dominančnı́
funkce, která umožňuje vzájemné překrývánı́ a ovlivňovánı́ artikulacı́. Výhodou je také, že pro každý artikulátor
je definována jedna funkce. Autoři definujı́ pro každý řečový segment a pro každý parametr (artikulátor) dvě
dominančnı́ funkce. Jednu pro ovlivňovánı́ předcházejı́cı́ch segmentů a jednu pro ovlivňovánı́ následujı́cı́ch
44
Obrázek 3.7: Složenı́ a postupné oddělenı́ segmentů podle rychlosti řeči.
segmentů. Dominančnı́ funkce je dána zápornou exponenciálnı́ funkcı́
D=e
:
(3.3)
Tato funkce je klesajı́cı́ s časem od středu segmentu, obr. 3.8. Rychlost klesánı́ je dána parametrem a
strmost klesánı́ pomocı́ parametru . Rozšı́řenı́m dané funkce a rozdělenı́m na modelovánı́ „dopředné a zpětné“
koartikulace dostaneme:
Dsp = spe sp j j ; pro 0
Dsp = spe !sp j j ; pro < 0
(3.4)
(3.5)
Kde značı́ důležitost segmentu s pro parametr p. sp a !sp značı́ tvar dominance zvlášt’pro předcházejı́cı́
a následujı́cı́ segmenty. Z rovnic (3.4) a (3.5) je pak možné generovat trajektorii složenou z několika segmentů
jako vážený průměr.
Fp (t) =
Kde N je počet segmentů.
PN
D t Tsp)
D t)
s=1 ( sp ( )
PN
s=1 sp (
(3.6)
Goff (1997) rozšı́řil předchozı́ návrh na tvar dominančnı́ funkce (3.7) a navrhl také metodu automatické
extrakce koeficientů z měřenı́ch provedených na řečnı́kovi. Automatická extrakce je provedena pomocı́ minimalizace Eukleidovské vzdálenosti syntetizované a měřené trajektorie.
n 1
X i
f (t) = e i jt t0 j j!
j =0
j
jt t0jj
(3.7)
Pro každou vizémovou třı́du a pro každý parametr byly definovány 4 koeficienty (, 1 , 2 a T ), celkem
470 proměnných. Trénovánı́ proběhlo na větách obsahujı́cı́ch V1 CV2 CV1 slova, kde V1 a V2 byly /a/, /i/, /y/
a za C byly dosazeny všechny francouzské souhlásky. Optimalizace byla provedena pro každý z 6 parametrů
zvlášt’. Modifikaci Cohen-Massaro koartikulace použil i Cosi a kol. (2002a). Pro řešenı́ známých problémů
s řı́zenı́m artikulace zuboretnı́ch a retoretných souhlásek přidal Cosi časový posun od středu segmentu a změnu
konstantnı́ho koeficientu . Výsledná trajektorie se počı́tá nejen z dominančnı́ funkce, ale i z časové a tvarové
funkce. Krňoul a Železný (2003) použili Cohen-Massaro koartikulaci pro řı́zenı́ vizuálnı́ syntézy češtiny.
V (Revéret a kol., 2000) je však zmı́něno, že koartikulace nemůže být redukována na jednoduché mı́chánı́
překrývajı́cı́ch se gest a na aplikaci dominančnı́ch funkcı́. V práci je použit raději Öhmanův model, který podle
autora nabı́zı́ přesné a robustnı́ řešenı́. Pelachaud a kol. (1996) použila také model řı́zenı́ podobný k Öhmanovu
modelu. Italské fonémy jsou shlukovány do skupin vizémů klasifikovaných podle různých deformačnı́ch rozsahů. Každý rozsah určuje jaký vliv má vizém na svůj kontext. Beskow (1995) prezentuje model koartikulace
založený na pravidlech. V tomto modelu je pro každý foném určen artikulačnı́ vektor parametrů (cı́lů). Přı́pad,
45
Obrázek 3.8: Model koartikulace (Cohen a Massaro, 1993). Nahoře můžeme vidět průběh dominančnı́ funkce pro
dva řečové segmenty a dole pak výslednou trajektorii.
kdy nějaký artikulačnı́ cı́l je ovlivňován svým kontextem je proveden tak, že se jeho hodnota nedefinuje. Při
řı́zenı́ artikulace je pak hodnota tohoto nedefinovaného parametru odvozena z kontextu. Výsledná trajektorie
je nakonec vyhlazena. Např. pro slovo V1 CCCV2 , kde V1 je nekulatá samohláska a V2 je kulatá samohláska,
je pro souhlásky C nedefinována hodnota kulatosti rtů. Hodnota parametru na CCC přechodu je odvozena
lineárnı́ interpolacı́ z obou V1 a V2 kontextů.
Existujı́ však také modely řı́zenı́, které se nepokoušı́ vycházet z teorie produkce řeči, která byla originálně
koncipovaná jako nástroj k studii řeči. Ne vždy je při návrhu mluvı́cı́ch hlav brán striktnı́ důraz na řečový model.
Budeme-li obecně pohlı́žet na koartikulaci jen jako na modelovánı́ nějaké trajektorie, pak existuje celá řada
matematických a statistických metod, které mohou být aplikovány. Pelachaud a kol. (2001) modeluje trajektorie
4 artikulačnı́ch parametrů pro V CV slova jako vážený součet radiálně založených funkcı́ (RBF)
fj (t) =
X
i
i e
jt
time(ti )j2
i2
;
(3.8)
kde i a i jsou parametry, které tuto funkci definujı́. Každá VCV trajektorie (křivka) má tři maxima (nebo
minima), které odpovı́dajı́ jednotlivým hláskám. V naměřených trajektoriı́ch uložených v Curvei (t) jsou
nalezeny časy výskytu těchto extrémů a uloženy do time. Aproximačnı́ metody pak minimalizujı́ vztah
min(fi (t) Curvei (t))
(3.9)
pomocı́ kvazi-Newtonova algoritmu, který předpokládá znalost gradientu funkce podle neznámých parametrů.
Tato funkce je podobná vztahu (3.3), zde jsou ale pro každý segment použity tři funkce. Tři neznámé parametry
byly estimovány z korpusu složeného VCV slov. V (Bevacqua a Palachaud, 2003) je prezentován koartikulačnı́
model založený na trifónech. Souhlásky jsou modelovány pouze jednı́m vektorem a definované mı́sto artikulace
nemusı́ být dosaženo pouze uprostřed segmentu. Pro samohlásky se definujı́ navı́c dva vektory, nalevo a napravo
od středové artikulace. Samohláskový koartikulačnı́ kontext je u souhlásky popsán výčtem možných tvarů
46
Obrázek 3.9: Ukázka regresnı́ho stromu. Určenı́ artikulace nějaké hlásky je provedeno podle jejı́ho kentextu.
zı́skaných z měřenı́. Koartikulace je popsána pomocı́ logické funkce s časovou závislostı́ a třemi koeficienty.
Fagel a Clemens (2003) prezentujı́ hned dva artikulačnı́ modely. Prvnı́ artikulačnı́ model je navržený z měřených
dat. Trajektorie je řetězena podle naměřených segmentů řeči, které jsou navı́c váženy. Data jsou měřena pro
kombinace CV německých slabik složených do slova CVCVCVCV např. /mamamama/. Druhý model je založen
na pravidlech, která jsou odvozena z prvnı́ho modelu. Escher a kol. (1999) použı́vá pro MPEG-4 animaci funkci
pro mı́chánı́ intenzity jednotlivých akcı́, které jsou méně zaměřena na vizuálnı́ řeč a spı́še řı́dı́ mimiku celé
tváře.
Skryté Markovovy modely (HMM) jsou známá statistická metoda z rozpoznávánı́ řeči. Tamura a kol.
(1998) použili HMM pro generovánı́ trajektoriı́, kde každá slabika je představována sekvencı́ stavů. Každý stav
je popsán hustotnı́ funkcı́ Gaussovské pravděpodobnosti. Optimálnı́ trajektorie parametrů je zı́skána řešenı́m
soustavy lineárnı́ch rovnic. Podobný návrh můžeme nalézt u syntéz video založených animacı́. Ezzat a kol.
(2002) generujı́ trajektorie podle matematických vztahů. Trajektorie je utvořena nalezenı́m křivky, která optimalizuje kombinaci ceny pozice a vyhlazovacı́ho kritéria. Cena pozice je určena mı́rou přiblı́ženı́ trajektorie
k pravděpodobnostnı́mu rozdělenı́ hodnot parametrů daného segmentu. Kritérium vyhlazenı́ minimalizuje diferenciálnı́ rovnici čtvrtého řádu modelujı́cı́ syntetizované trajektorie. Autoři použili pro přetrénovánı́ střednı́
hodnoty a rozptylu Gaussovského rozloženı́ iterativnı́ minimalizačnı́ proceduru a kompenzovali tak zprůměrované přechody mezi fonémy.
Galanes a kol. (1998) použı́vá pro řı́zenı́ artikulace regresnı́ stromovou strukturu. Tato struktura je zı́skána
z měřených dat pro každý foném a má zachycovat změny artikulace podle kontextu. Pro trénovánı́ stromových
struktur nejprve identifikovali v naměřených trajektoriı́ch lokálnı́ extrémy hornı́ho a dolnı́ho středu rtů. Dalšı́m
krokem bylo spojenı́ každého změřeného fonému s vektorem popisujı́cı́ jeho artikulaci (často artikulačnı́ mı́sto
uprostřed segmentu). V naměřených datech jsou určeny všechny fonémové hranice. Ke každému fonémovému
segmentu je zapamatován kontext (levý a pravý foném), relativnı́ čas trvánı́ a popisujı́cı́ vektor. Data jednotlivých
fonémů z celého měřenı́ tvořı́ prvotnı́ shluky (kořeny stromů). Každý uzel stromu je vždy dělen na dva uzly
podle určitého kritéria. Jednotlivá kritéria dělenı́ jsou velmi obecná např. „Je pravý kontext znělý?“, ale i
velmi určitá např. „Je levý kontext /a/?“. Takto je pro každý shluk zı́skána podmnožina dvou shluků, která je
dále dělena až do dosaženı́ koncového kritéria, kterým je často minimálnı́ počet vektorů ve shluku (v práci je
použito min = 5). Při dělenı́ se také zohledňuje podmı́nka rozptylu dat ve shluku. Součet rozptylů dat v nově
vytvářených shlucı́ch nesmı́ být většı́ než před rozdělenı́m, obr. 3.9. Při syntéze je pomocı́ stromu generován
parametrický vektor i pro neznámý kontext, tj. kontext který nebyl v zaznamenán v měřenı́. Vektor je spočten
jako hodnota centroidu vektorů koncového uzlu. Výsledné trajektorie jsou vyhlazené pomocı́ spline funkce.
Cosatto a Graf (2000) se inspirovali postupy aplikovanými v akustické syntéze řeči. V této oblasti se
často uplatňujı́ metody řetězenı́ jednotek řeči, které jsou definovány jako kontextově závislé. Často použı́vané
jsou trifóny. Metoda řetězenı́ jednotek je použita i v (Hällgren a Lyberg, 1998). Vzorové trajektorie řı́dı́cı́ch
bodů jsou nejprve zı́skány z optického trasovánı́. Z těchto trajektoriı́ jsou vybrány jednotky a z nich jsou
pouhým řetězenı́m utvářeny nové trajektorie. Beskow (2004) prezentuje řı́zenı́ animace založené na neuronové
sı́ti (ANN). Rekurentnı́ neuronová sı́t’ byla trénována z dat optického měřenı́. Vstupem neuronové sı́tě byl
přı́mo výrazový vektor zı́skaný z jednoho měřeného snı́mku. Sı́t’ byla utvořena třemi vrstvami s rekurzivnı́
47
zpětnou vazbou. Patnáctisnı́mkové posunutı́ zpět a dopředu je modelováno ve vstupnı́ vrstvě jako časový
posun. Účelem je postiženı́ dynamických koartikulačnı́ch vlastnostı́. Snı́mková frekvence byla 60Hz a sı́t’
postihovala koartikulačnı́ rozsah + 250ms. Pro každý animačnı́ parametr byla utvořena vždy jedna sı́t’.
V (Sams a kol., 2000) koartikulačnı́ model předpokládá tři vlastnosti každého vizému. Prvnı́ dvě vlastnosti
jsou „dopředná a zpětná“ dominance popisujı́cı́ vliv na předcházejı́cı́ resp. následujı́cı́ vizém. Třetı́ vlastnostı́
je citlivostnı́ koeficient, který popisuje o kolik může být daný vizém ovlivněn přilehlým kontextem. Hodnota
citlivosti může být mezi 0 a 1.
V MPEG-4 je animace řı́zena pomocı́ animačnı́ tabulky „Facial Animation Table“ (FAT). FAT definuje jak
má být model deformován. Na obrázku obr. 3.10 vlevo je ukázán přı́klad popisu animace definované pro FAP6
a FAP23. Je definován interval, ve kterém je možné měnit hodnotu daného FAP a počet kroků, ve kterých
se může hodnota měnit. Změna animačnı́ho parametru je dána jako změna jeho umı́stěnı́ v 3D prostoru. Na
obrázku vidı́me závislost prostorového posunutı́ na hodnotě FAP. Obecně nelineárnı́ změna hodnoty parametru
je tedy aproximována po částech lineárnı́ funkcı́, obr. 3.10 vpravo.
Obrázek 3.10: Vlevo: definice řı́zenı́ animace v MPEG-4 standardu pro FAP6 a FAP23. Vpravo pak vidı́me
počástech lineárnı́ aproximaci výsledné trajektorie.
Některé výše zmı́něné koartikulačnı́ modely je možné trénovat z měřených dat. Často velké množstvı́ neznámých koeficientů funkcı́ je automaticky trénováno za účelem nejlepšı́ aproximace trajektoriı́. Tyto techniky
trénovánı́ využı́vajı́ optimalizačnı́ algoritmy, které minimalizujı́ chybu mezi generovanou a naměřenou trajektoriı́. Výhody syntézy trajektoriı́ z naměřených dat jsou oproti syntézám definovaným pravidly takové, že se
nemusı́ ručně definovat pravidla pro každý segment řeči a tedy odpadá časová náročnost na ručnı́ práci. Řı́zenı́
modelu je zı́skáno z často automaticky naměřených dat a je tedy možné provést změny řı́zenı́, jako je např.
přetrénovanı́ modelu pro jiný jazyk. Výhoda syntéz založených na pravidlech je zase ta, že majı́ individuálnı́
přı́stup ke každému segmentu řeči a mohou tak přı́padně jeho artikulaci opravit či zvýraznit. Jak je uvedeno
v (Cohen a Massaro, 1993), žádný z těchto modelů nenı́ univerzálnı́. Svůj názor obhajujı́ tı́m, že pro každý
jazyk existujı́ specifická pravidla, která postihujı́ mı́stnı́ artikulačnı́ situace. A tak se setkáváme pro různé jazyky
s volbami pro ně nejvhodnějšı́ strategiı́ řı́zenı́. Mnohem obecnějšı́ teorie je však výzvou.
3.5 Syntéza z akustického signálu
Cı́lem této strategie řı́zenı́ je modelovat artikulaci přı́mo z akustického signálu zachycujı́cı́ho nějakou řeč.
Podle (Kuratate a kol., 1999) je možné z akustického signálu estimovat vı́ce jak 60% pohybů tváře a zajı́mavé
je, že zpětná estimace akustického signálu z pohybů tváře může být lepšı́ než 70%. Jednou praktickou aplikacı́
této strategie je projekt „Teleface“, kde je mluvı́cı́ hlava použita pro převod telefonnı́ho hovoru na animaci
48
rtů, viz 5. Samozřejmě má tato strategie řı́zenı́ uplatněnı́ i v dalšı́ch komunikačnı́ch systémech simulujı́cı́
virtuálnı́ prostředı́. Každý uživatel může použı́t k animaci vlastnı́ hlas. Uplatněnı́ můžeme najı́t i v klasickým
počı́tačových animacı́ch. Automatická synchronizace tedy přinášı́ značné zjednodušenı́. Problematika tohoto
řı́zenı́ je řešena na mnoho pracovištı́ch. Jsou studovány principy mapovánı́ akustických znaků do vizuálnı́ch
parametrů, které pak řı́dı́ animaci tváře (Lewis a Parke, 1986; Kshirsagar a Magnenat-Thalmann, 2000; Agelfors
a kol., 1999; Morishima, 1998; Massaro a kol., 1999; Faruquie a kol., 2001; Hong a kol., 2002; Öhman a Salvi,
1999; Lavagetlo a kol., 1997; Tamura a kol., 1998; Kuratate a kol., 1999).
Lineárnı́ prediktivnı́ analýza (LPA) je hojně užı́vaná technika pro analýzu a kódovánı́ řeči. V roce 1986
Lewis a Parke (1986) použili lineárnı́ predikce pro fonémové rozpoznánı́. Rozpoznané fonémy jsou asociovány
s pozicı́ úst parametrické animace tváře. Lineárnı́ predikce je v práci použito i pro akustickou syntézu. Řešenı́
problému synchronizace se zdá být snadnějšı́m než u rozpoznávánı́, nebot’exituje jen limitovaná množina pozic
úst, tedy vizémů. Lewis a Parke (1986) použili autoregresnı́ filtr (3.10). Signál st v čase t je definován jako
vážený součet budı́cı́ho signálu x(t) a minulých výstupů filtru. Koeficienty ak popisujı́ krátkodobé řečové
spektrum.
st = xt +
P
X
k =1
ak st
(3.10)
k
Koeficienty ak jsou časově proměnné, ale po krátký interval je považujeme za konstantnı́. Je tedy předpokládáno,
že tvar hlasového ústrojı́ se v tomto okamžiku neměnı́. Analýza je provedena s okénkem 15 20ms, což
představuje 50 65 snı́mků u videa (jeden snı́mek = jedno okénko). Algoritmus pracuje tak, že se pro daný
snı́mek spočı́tajı́ koeficienty mezi aktuálnı́ a predikovanou řečı́. Výpočet probı́há s pomocı́ metody nejmenšı́ch
čtverců, viz (3.11). Výsledkem je matice jejı́ž prvky tvořı́ tzv. auto-korelačnı́ funkce.
(
"
Er = E st
E
ak
xt +
P
X
k =1
ak st
#)2
(3.11)
k
= 0
(
E stst
j
P
X
k =1
xt st
(
j
+
P
X
k =1
)
ak st k st
ak R(j k) = R(j )
j)
= 0
(3.12)
Synchronizace řeči je dosaženo tak, že je pro analyzovaný snı́mek spočteno spektrum (zı́skáno Z-transformacı́
nebo Fourierovou transformacı́) a je provedena klasifikace pomocı́ Eukleidovské vzdálenosti od referenčnı́ho
fonému. Algoritmus byl navržen pro šest samohlásek (americká angličtina) a jen tři souhlásky. Výsledek byl
ten, že samohlásky byly jednoduše identifikovány, ale u souhlásek byla synchronizace obtı́žnějšı́. Např. při
promluvě /t/ na konci slova mohou ústa zůstat otevřené pro nedechnutı́ na dalšı́ slovo, obráceně je tomu u /m/,
kdy jsou ústa vždy striktně uzavřena (nosovka). Výsledkem bylo přesto spolehlivé rozlišovánı́ 5 zvuků. Pro
animaci byl použit Parkeův model tváře.
Intuitivnı́ cestou k sychronizaci animace je klasické rozpoznánı́ textu a následné použitı́ animace tváře řı́zené
z textu jednı́m z modelů z kapitoly 3.4. Tento postup proto nalezneme hned v několika pracı́ch. Jednı́m postupem
je použitı́ HMM. Postupy založené na HMM jsou úspěšně použı́vány při akustickém rozpoznávánı́ řeči a proto
tento postup aplikovali i Öhman a Salvi (1999). Trénovali HMM pro rozpoznávánı́ a segmentaci švédských
fonémů. Řečnı́kově nezávislé HMM byly trénovány na foneticky přespaných telefonnı́ch rozhovorech. Jednalo
se o 13000 telefonnı́ch záznamů od 1000 účastnı́ků vzorkovaných na 8kHz . Tento materiál byl foneticky
přepsán a parametrizován do 10ms okének s 12 Melovskými kepstrálnı́mi koeficienty a energiı́. Byly také
přidány dynamické parametry. Výstupem rozpoznánı́ byl řetězec fonémů, který sloužil jako vstup pro syntézu
49
založenou na pravidlech. Autoři provedli také experimenty s kontextově nezávislými jednotkami, s kontextově
závislými jednotkami, tzv. difóny a trifóny a s vizémy. Tamura a kol. (1998) pomocı́ sekvence HMM stavů
modelovali japonské slabiky. Autoři použili modely se spojeným parametrickým vektorem, který obsahoval jak
akustické tak i vizuálnı́ parametry. Tyto modely jsou natrénovány na audio-vizuálnı́ (AV) databázi. Neznámá
akustická řeč je rozpoznána pomocı́ akustické části modelů a je určena sekvence fonémů. Podle této sekvence
se zřetězı́ natrénované AV modely a z nich je provedena audio-vizuálnı́ syntéza, obr. 3.11.
Obrázek 3.11: Schéma syntézy vizuálnı́ řeči pomocı́ HMM. Vlevo vidı́me trénovacı́ fázi. Vpravo je pak část
rozpoznávánı́ a část pro generovánı́ vizuálnı́ch parametrů.
Jednou nevýhodou zmı́něných návrhů rozpoznávajı́cı́ nejprve text je, že výsledná animace je pro rozpoznané
jednotky výborná, ale pro nerozpoznané úplně nepřijatelná. Např. je-li nějaká zado-patrová hláska rozpoznaná
jako hláska obouretná, pak výsledná animace je velmi matoucı́.
Následujı́cı́ návrhy jsou založeny na principu trénovánı́ nějaké funkčnı́ závislosti. Zı́skaná funkce pak
popisuje přı́mo vztah akustických a vizuálnı́ch vzorů. Hojně jsou zde využı́vané neuronové sı́tě (ANN). Výhodou
ANN je, že se neprovádı́ klasifikace a tedy nevzniká žádná klasifikačnı́ chyba. Dalšı́ výhodou je, že ANN dı́ky
přı́mému odvozenı́ vizuálnı́ch parametrů mohou zahrnout koartikulačnı́ vlivy a při řı́zenı́ nenı́ zapotřebı́ dalšı́ch
složitých modelů či pravidel. Öhman a kol. (Öhman a Salvi, 1999; Agelfors a kol., 1999) použil ANN pro přı́mé
mapovánı́ akustických parametrů do vizuálnı́ch parametrů. Použili třı́vrstvou sı́t’s 13 neurony ve vstupnı́ vrstvě,
s 50 ve skryté a 8 ve výstupnı́ vrstvě. Vstup sı́tě odpovı́dal 13 akustickým parametrům a každý výstupnı́ neuron
odpovı́dal jednomu vizuálnı́mu parametru. Skrytá vrstva byla rekurentně spojena. Pro trénovánı́ sı́tě sloužila
zmı́něná akustická parametrizace a také foneticky přespané a zarovnané telefonnı́ hovory. Fonetické řetězce
byly převedeny na trajektorie 8 vizuálnı́ch parametrů. Schéma systému můžem vidět na obr. 3.12.
V práci (Morishima, 1998) je použita třı́vrstvá ANN, vstupem bylo LPC kepstrum a výstupem 13 vizuálnı́ch
parametrů. I mluvı́cı́ hlava Baldi je řı́zena z akustické řeči pomocı́ ANN (Massaro a kol., 1999). Postup je
podobný Öhmanovu návrhu. Je zajı́mavostı́, že autoři raději než dynamické měřenı́ artikulace pro trénovánı́
sı́tě použili trénovacı́ data zı́skaná z výstupu TTAVS systému. Výhoda návrhu je, že nenı́ zapotřebı́ speciálnı́ho
50
Obrázek 3.12: Schéma systému pro akustické řı́zenı́ animace pomocı́ neuronové sı́tě.
měřenı́ a je postačujı́cı́ nějaký audio-záznam řeči. ANN byla trénována na anglický jazyk z jednoslabičných
slov a z telefonnı́ch hovorů. Akustická data byla parametrizována s 13 kepstrálnı́mi koeficienty, převedena
na frekvenci 50Hz a foneticky zarovnána pomocı́ přepisu a Viterbiho algoritmu. Zı́skaný fonetický řetězec
byl převeden pomocı́ Cohen-Massaro artikulačnı́ho modelu, vztah (3.6), na sekvenci hodnot 39 vizuálnı́ch
parametrů. 400 slov bylo použito pro trénovánı́ a 68 pro testovánı́. ANN modelovala časový kontext + 5 snı́mků
a na každý animačnı́ parametr připadalo 143 vstupnı́ch neuronů a 39 výstupnı́ch a 600 neuronů ve skryté vrstvě.
Bylo provedeno objektivnı́ i subjektivnı́ ohodnocenı́. Hong a kol. (2002) klasifikoval každý akustický snı́mek
do jedné z 41 skupin. Pro každou tuto skupinu je použita jedna ANN, která převádı́ akustické vzory této skupiny
do vizuálnı́ch vzorů. Vizuálnı́ vzory jsou popsány pomocı́ PCA komponent. Návrh je prezentován pro řı́zenı́
tváře v reálném čase.
Lavagetlo a kol. (1997) použil 4 vrstvou ANN se zpožděnı́m pro predikci devı́ti artikulačnı́ch parametrů
z 12 normalizovaných kepstrálnı́ch koeficientů. Animace jen pouze 2D oblasti úst. Kontext je v této ANN
představován aktuálnı́m vstupnı́m akustickým vzorem a několika předcházejı́cı́ch a následujı́cı́ch vzory. Sı́t’byla
trénována na 1100 snı́mků, tj. cca. 55 vteřin italské řeči. Nejlepšı́ch výsledků bylo dosaženo s ANN se dvěma
skrytými vrstvami obsahujı́cı́ 8 a 3 neurony. LPA spolu s použitı́m ANN je použito k synchronizaci animace rtů
i v (Kshirsagar a Magnenat-Thalmann, 2000). Vstupnı́ signál 10kHz je krátkodobě zpracován s okénkem 20ms.
Hlasový trakt je aproximován jako filtr a z LPA je vybráno 12 koeficientů. Hodnoty těchto koeficientů jsou
spočı́tány ze zaznamenaných samohlásek /a/, /e/, /i/, /o/ a /u/. Byly použity promluvy 12 mužských a 5 ženských
hlasů. Dále jsou data použita pro trénovánı́ ANN. ANN je složena ze třı́ vrstev se zpětnou propagacı́ a
s 10 neurony ve skryté vrstvě a 5 výstupnı́mi neurony. Trénovánı́ sı́tě bylo provedeno v 5 cyklech s náhodným
pořadı́m vstupnı́ch samohlásek. Natrénovaná sı́t’klasifikuje signál do jedné z těchto pěti třı́d. Pro každý snı́mek
je navı́c spočı́tána energie (nultý autokorelačnı́ koeficient) a tato hodnota je použita pro modelovánı́ intenzity
samohlásky. Pro detekci souhlásek v řečovém signálu je použit výpočet energie. Jelikož souhlásky vznikajı́
sevřenı́m určitých částı́ hlasového traktu, pak při produkci souhlásky klesá energie signálů. Autorka zmiňuje,
že výsledky nejsou tak dobré jako při fonetickém rozpoznávánı́, ale pro animaci tváře v reálném čase jsou
postačujı́cı́.
Kuratate a kol. (1999) uvádı́, že vztah mezi tvarem hlasového traktu a pohyby tváře se zdá být docela
lineárnı́m. Vztah mezi hlasovým traktem a akustickou složkou je však jistě nelineárnı́ a tı́m i vztah mezi pohyby
tváře a akustickou složkou je nelineárnı́. Podle předchozı́ch studiı́ Kuratate zavádı́ nelineárnı́ mapovánı́ LSP do
pohybů tváře s pomocı́ ANN. Výsledné mapovánı́ bylo stabilnı́ a ve zpětné vazbě nevznikala žádná chyba.
51
Kapitola 4
Způsoby ohodnocenı́ mluvı́cı́ch hlav
Z výše uvedených souhrnů můžeme konstatovat, že počı́tačové mluvı́cı́ hlavy použı́vajı́ rozmanité techniky
pro různé oblasti použitı́. Jednı́m spojujı́cı́m cı́lem je, že konečným uživatelem je člověk. Stěžejnı́m ohodnocenı́m mluvı́cı́ch hlav by měl být tedy subjektivnı́ vjem výsledné animace. Metody ohodnocovánı́ měřı́ stupeň
správnosti řešenı́ s ohledem na plánované použitı́. Ohodnocenı́ proto může být zaměřeno na stupeň realističnosti, na správnost artikulace nebo na komunikativnost neverbálnı́ch gest. Vizuálnı́ realističnost mluvı́cı́ hlavy
je subjektivně ohodnocována tak, že se hodnotı́ vizuálnı́ podobnost modelu reálnému vzoru. Dobré vizuálnı́
realističnosti je obvykle dosaženo ve video-založených syntézách a horšı́ pak v modelově založených syntézách.
Důvod dobrých výsledků video-založených syntéz je způsoben tı́m, že k syntéze se použı́vajı́ fotografie. Může
se však stát, že stupeň realističnosti značně poklesne v okamžiku, kdy mluvı́cı́ hlava začne animovat řeč.
Ohodnocenı́ pohybů u video založených syntéz může být provedeno pouze ze sekvence snı́mků, (Geiger
a kol., 2003). V testu byly předkládány sekvence snı́mků a 22 osob hodnotilo, zda daná sekvence je složena
ze syntetizované nebo reálné lidské hlavy. Výsledek tohoto testu se blı́žil k 50% (náhoda), což znamená, že
osoby nebyly schopny rozeznat syntetizovanou hlavu od reálné. Druhým testem, který autoři provedli, bylo
ohodnocenı́ odezı́ránı́ řeči. Stejné osoby hodnotily kvalitu animace řeči. Výsledek však byl od předchozı́ho dosti
odlišný. U sekvencı́ obsahujı́cı́ syntetizovanou řeč bylo dosaženo horšı́ch výsledků než u sekvencı́ vybraných
z reálného záznamu, viz kapitola 4.2. Z tohoto vyplývá, že při ohodnocovánı́ se musı́ brát v úvahu i hledisko
realističnosti pohybů a deformacı́ tváře. Obecně dobrých výsledků přirozených deformacı́ je dosahováno u svalově založených animacı́. Jak již bylo zmı́něné výše, jsou tyto modely schopny správně předpovı́dat a animovat
vrásky, boule a dalšı́ přirozené následky svalových akcı́. Avšak ani tyto modely, nejsou-li správně řı́zeny, nemajı́
tzv. komunikativnı́ realističnost. Tento pojem zavedl Beskow, kdy vyzdvihuje správnost artikulačnı́ch pohybů
nad vizuálnı́ i svalovou realističnostı́. Je proto správné, že u většiny mluvı́cı́ch hlav je kladen důraz na animaci
řeči vhodnou pro odezı́ránı́. Dále se proto zmı́nı́me o porovnánı́m právě z tohoto hlediska.
Přı́mé porovnánı́ výsledků všech existujı́cı́ch studiı́ nenı́ možné z několik důvodů. V některých pracı́ch
nenı́ prezentováno žádné ohodnocenı́ a v jiných studiı́ch jsou pak požı́vány různé metriky ohodnocenı́. Proto se
pokusı́me jednotlivé postupy rozdělit. Obecně můžeme rozdělit ohodnocovánı́ mluvı́cı́ch hlav na objektivnı́ a
subjektivnı́. Subjektivnı́ porovnávánı́ se použı́vá pro modely řı́zenı́ odvozené z nějakého dynamického měřenı́,
kdy kvalita syntézy řeči je hodnocena podobnostı́ syntetizovaného signálu k signálu měřenému. Subjektivnı́
porovnánı́ je prováděno nejčastěji pomocı́ různých poslechových a pozorovacı́ch testů.
4.1 Objektivnı́ ohodnocenı́
Objektivnı́ ohodnocenı́ může být provedeno, s ohledem na (Cohen a kol., 2002), pomocı́ „Root Mean Squared
Error“ (RMSE), kdy se počı́tá průměrná chyba mezi naměřenou a syntetizovanou trajektoriı́ normalizovaných
hodnot parametrů. RMSE je počı́táno přes testovacı́ množinu dat jako procentuálnı́ chyba odchylek trajektoriı́.
52
Kapitola 4. Způsoby ohodnocenı́ mluvı́cı́ch hlav
Trajektorie však musı́ být normalizovány na rozsah 0–1. Výsledkem ohodnocenı́ by měla být, jelikož jde
o chybu, co nejmenšı́ hodnota, nejlépe pak nula.
RMSE =
1
N
X
N 2 t=1
zt
( ( )
y(t))2 100%
(4.1)
Tato mı́ra je však podle (Beskow, 2004) nevhodná. RMSE může být zavádějı́cı́ v přı́padech, kdy přı́mo porovnáváme artikulačnı́ trajektorie. Výsledek RMSE je závislý na amplitudě signálu. V mı́stech velké amplitudy se
hodnota chyby zvětšuje, ale v mı́stech malé amplitudy se malá odchylka započı́tává méně. Důležité artikulace
se však uskutečňujı́ právě při malých amplitudách, např. správné sevřenı́ rtů pro hlásku /m/ a /b/ pak nemusı́
být správně ohodnoceno. Korelačnı́ koeficient je lepšı́m odhadem srovnánı́ tvarů artikulačnı́ch trajektoriı́. Potvrzenı́m může být i fakt, že se rozsah velikosti otvoru úst při produkci např. frikativ a oklusiv pohybuje jen
v několika mm2 (Elisei a kol., 1997). Korelačnı́ koeficient popisuje závislost dvou náhodných veličin. Hodnota
korelačnı́ho koeficientu blı́žı́cı́ se k 1 nám naznačuje dobrou estimaci signálu.
orr =
ov(y(t); z (t))
2
(var (y (t))var (z (t)))
(4.2)
U daty řı́zených modelů je hojně použı́vaná analýza měřených dat pomocı́ PCA a proto se u těchto návrhů
setkáváme s ohodnocenı́m kvality rekonstrukce naměřených dat z vybraných komponent pomocı́ celkového
zachovánı́ variance. Podle vztahu (4.3) je vypočı́táno procentuálnı́ zachovánı́ variance měřeného signálu y (t)
a rekonstruovaného signálu z (t). Při analýzách se zkoumá, jaký přı́spěvek má každá komponenta. Výsledný
součet všech variancı́ pro vybrané nejvı́ce informativnı́ komponenty se blı́žı́ ke 100%.
var =
var(z (t))
100%
var(y(t))
(4.3)
Objektivnı́ měřenı́ může být úspěšně použito pro zhodnocenı́ výsledků jednoho modelu, avšak správného
vzájemného porovnánı́ různých modelů může být dosaženo jen v přı́padě, že trénovánı́ modelů bylo provedeno
na stejných datech. Tohoto stavu však většinou nenı́ dosaženo a to i z prostého důvodu, že mluvı́cı́ hlavy jsou
navrhovány pro různé řeči.
4.2 Subjektivnı́ ohodnocenı́
Zatı́mco objektivnı́ ohodnocenı́ nás informuje, jak dobře různé řı́dı́cı́ modely vypočı́távajı́ hodnoty animačnı́m parametrům, nenı́ však zřejmé, jaký majı́ dosažené výsledky vztah ke kvalitě výsledné animace. Subjektivnı́
studie se zaměřujı́ na otázku, jaké je porozuměnı́ audio-vizuálnı́ řeči. Testy se provádějı́ s akustický signálem
produkovaným řečnı́kem nebo TTS systémem, ale také bez akustické podpory. Akustický signál je simulačně
zatěžován různým stupněm šumu. Zastoupenı́ šumu je často udáváno poměrem zdrojového signálu a šumu na
pozadı́ (S/N) a to nejčastěji v rozsahu +6 až 18dB , kdy pro 18dB je dosaženo úplné akustické nesrozumitelnost. Akustický signál je pak doplněn o synchronizovanou animaci rtů, nebo celé tváře, nebo také o video
sekvenci reálné tváře.
Vysvětlenı́ přı́spěvku vizuálnı́ složky můžeme obecně ukázat např. na obr. 4.1. Z obrázku je vidět, že skóre
porozuměnı́ pouze pro akustickou řeč klesá se snižujı́cı́ se S/N až do nuly. Úspěšnost porozuměnı́ audio-vizuálnı́
řeči klesá, ale pomaleji. Nejmenšı́ pokles je však zaznamenán u přirozené tváře. Sumby a Pollack, citovaný
v (Goff a kol., 1994), navrhli vztah (4.4) pro výpočet indexu přı́spěvku vizuálnı́ informace. IAV a IA jsou
dosažené skóre pro audio-vizuálnı́ resp. pouze pro audio testy srozumitelnosti. Při výpočtu tohoto indexu pro
různou hodnotu S/N je dosahováno přibližně konstantnı́ hodnoty, která pak udává přı́spěvek pouze vizuálnı́ řeči.
Z výsledků v (Goff a kol., 1994) vyplývá, že viditelnost reálné tváře může zajistit až 60% zlepšenı́ porozuměnı́
53
Obrázek 4.1: V grafu můžeme vidět čtyři závislosti úspěšnosti pozozuměnı́ promluvě na různém stupni akustického
šumu. Nejmešı́ přı́spěvek má animaci poute rtů. Lepšı́ch výsledků je dosaženo pro nějakou mluvı́cı́ hlavu, ale
nejlepšı́ch výsledků bývá dosahováno testy s přirozenou tvářı́. Z grafu je vidět, že mluvı́cı́ hlava měla přı́spěvek
porozuměnı́ většı́ než 40%. Studie je převzata z (Goff a kol., 1994)
degradované akustické řeči a pro počı́tačem generovanou animaci tváře je dosaženo až 50%.
IAV
(
1
IA )
IA
(4.4)
Jsou také prováděny studie na porozuměnı́ pouze s vizuálnı́ složkou. Testy provádějı́ bez akustického signálu a
jde tedy o čisté odezı́ránı́. Normálně slyšı́cı́ lidé však většinou nedosahujı́ v odezı́ránı́ dobrých výsledků a proto
se testy provádějı́ se sluchově postiženými (Öhman a Salvi, 1999; Agelfors a kol., 1999; Cole a dalšı́, 1998).
V pracı́ch (Goff, 1997; Olives a kol., 1999; Beskow a kol., 2002; Möttönen a kol., 2000; Massaro a kol.,
1998; Öhman a Lundeberg, 1999) jsou provedeny studie nad podobnostmi vizémů. Podobnost hlásek je často
prezentována tzv. maticı́ záměn. Každý prvek matice pak udává hodnotu kolikrát hláska v daném řádku byla
zaměněna za hlásku v daném sloupci. Na diagonále matice je pak četnost správně rozpoznaných hlásek. Studie
se dělajı́ s audio-vizuálnı́ řečı́ s částečnou nebo úplnou degradacı́ akustického signálu, jak pro souhlásky tak i
pro samohlásky. Z analýzy zı́skaných dat je pak možné usoudit vzájemnou vizuálnı́ podobnost nebo odlišnost
jednotlivých hlásek. Skupiny vzájemně často zaměňovaných hlásek, např. /p/, /b/ a /m/, pak utvářı́ přehledy
nad vizémovými skupinami. Ahlberg a kol. (2001) provedli test kvality MPEG-4 animace pomocı́ nı́zko
úrovňových FAP. Zkoumali jak dobře mohou animačnı́ modely vyjádřit emociálnı́ výrazy. Byly testovány dva
animačnı́ modely. Pozorovánı́ bylo provedeno se záznamem reálné tváře a pro sedm výrazů. Bylo zjištěno, že
testované animačnı́ modely majı́ mnohem horšı́ vyjádřenı́ emociálnı́ch výrazů než reálná tvář.
4.3 Výsledky
Dosažené výsledky z mnoha variant testů jsou shrnuty do tabulek 4.1 a 4.2. Tabulka 4.1 ukazuje výsledky
objektivnı́ch ohodnocenı́ch a tabulka 4.2 pak ukazuje výsledky subjektivnı́ch testů srozumitelnosti. V tabulce
4.2 je jako hlavnı́ výsledek uvedena ve třech sloupcı́ch procentuálnı́ úspěšnost porozuměnı́. Prvnı́ sloupec je
54
Tabulka 4.1: Mı́ry úspěšnosti rekonstrukce měřených dat.
Massaro a kol. (1998)
Kuratate a kol. (1999)
Lucero a Munhall (1999)
Massaro a kol. (1999)
Cohen a kol. (2002)
Badin a kol. (2002)
Maeda a kol. (2002)
Beskow (2004)
RMS [%]
–
–
–
–
–
12
–
–
9.04
9.50
9.61
Corr
0.927
0.86
0.78
0.46
0.64
–
–
–
0.66
0.62
0.63
Var [%]
–
–
–
–
–
–
72
87.3
–
–
–
Poznámky
z akust. signálu, nelin. model
z EMG, svalový model
z akust. signálu
100 vět
z PCA, pro statický model jazyka
z PCA, pro statický model tváře
Cohen-Mass. model
Öhmanův model
ANN
úspěšnost porozuměnı́ pouze akustické řeči bez tváře, ve druhém sloupci je uvedena úspěšnost syntetizované
řeči a ve třetı́m sloupci je prezentována úspěšnost pro záznam tváře a reálné řeči. Testy použı́vajı́ animace
doplněné o syntetizovaný nebo přirozený akustický signál. Tento signál pak může být zatı́žený přidaným
šumem. Z tabulky je vidět, že přidánı́m animace k akustické řeči se ve všech přı́padech zvyšuje úspěšnost
porozuměnı́. Avšak nenı́ nikdy dosaženo vyššı́ úspěšnosti s porovnánı́m s reálnou tvářı́ (třetı́ sloupec). Jako
nejlepšı́ výsledek můžeme uvést studii (Goff a kol., 1994), kdy je dosažen stejný výsledek pro mluvı́cı́ hlavu a
přirozenou tvář.
Ani porovnávánı́ s reálnou promlouvajı́cı́ tvářı́ nenı́ směrodatný výsledek, nebot’je známé, že někteřı́ řečnı́ci
majı́ srozumitelnějšı́ vizuálnı́ řeč než ostatnı́ (Strnadová, 1998). Můžeme uvést dalšı́ přı́pady, které majı́ vliv
na dosažené výsledky. Jednı́m přı́padem může být skutečnost, že ne vždy je syntéza provedena z analýzy dat
naměřených na řečnı́kovi, který byl později použit pro testovánı́. Dalšı́m faktem je, že řeči různých národů nenı́
z vizuálnı́ho hlediska stejně rozumět. V mluvě každého jazyka je zastoupeno různé procento samohlásek a právě
počet samohlásek určuje srozumitelnost a zřetelnost mluvnı́ch gest a pohybů. Např. italština je známá svou
zpěvnostı́ právě pro hojný počet samohlásek a proto se snáze odezı́rá. Zajı́mavostı́ je, že čeština má menšı́ počet
výskytů samohlásek, ale rozhodně vı́ce než např. angličtina, která se velmi nesnadno odezı́rá. Čı́m vı́ce dané
slovo obsahuje samohlásek, tı́m lépe se odezı́rá a je paradoxem, že je lepšı́ odezı́rat delšı́ slova obsahujı́cı́ vı́ce
samohlásek než slova krátká. Na výsledné porozuměnı́ má vliv i rychlost mluvy, ve velmi rychlé řeči docházı́
dı́ky koartikulaci ke splývánı́ vizémů a naopak při pomalé řeči docházı́ k nepřirozené segmentaci, viz obr. 3.7.
Některé uvedené studie byly provedeny s osobami s částečnou nebo úplnou ztrátou sluchu. Pro testovánı́
jsou slabiky, slova či věty vybı́rány často náhodně a ne vždy dávajı́ nějaký smysl. A právě ve znalostech daného
jazyka jsou u neslyšı́cı́ch lidı́ velké rozdı́ly. Takto postiženı́ lidé mohou znát jen pár slov, ale také mohou
mı́t úplnou znalost mluveného i psaného jazyka. Dalšı́m hlediskem je fakt, že vkládánı́ neverbálnı́ mimiky do
řeči usnadňuje porozuměnı́ sdělenı́. Výrazy tváře značně napovı́dajı́ při vzniklých nejasnostech slov. Zmı́něné
podmı́nky testů mohou mı́t vliv na objektivnı́ ohodnocenı́ mluvı́cı́ch hlav.
55
Tabulka 4.2: Výsledky subjektivnı́ch testů na animaci řeči mluvı́cı́ hlavou, chronologické uspořádánı́.
Položky
Vyhod.
VCVCV
souhl.
VCV
slova
VCVCV
slova
švédština tel. signál
VCV
věty
angličtina nenı́
slabiky
souhl.
slova
souhl.
vizémy
švédština nenı́
věty
slova
finština
0 S/N,reál.řeč
0 S/N, TTS
-18 S/N,reál.řeč
-18 S/N, TTS
VCV
slova
finština
nenı́
VCV
VV
samohl.
souhl.
Správné odp.[%]
Bez Anim. Reál.
tváře tváře tvář
0
42
62
64
85
85
63
70
76
31
45
–
5
39
–
82
80
–
30
55
58
57
55
83
–
42
–
–
76
–
34
34
86
34
54
86
64
67
77
32
44
58
6
20
40
4
17
37
–
51
74
–
33
54
slova a
věty
slova
–
7
15
věty
slova
6
14
2
32
37
19
–
63
63
63
63
24
37
15
61
58
40
14
75
75
73
81
28
68
32
66
83
62
23
–
–
–
–
Jazyk
Goff a kol.
(1994)
Beskow
(1997)
Goff (1997)
Agelfors
a kol. (1999)
Massaro
a kol. (1999)
Öhman a
Salvi (1999)
Olives a kol.
(1999)
Möttönen
a kol. (2000);
Sams a kol.
(2000)
Geiger a kol.
(2003)
Siciliano
a kol. (2003)
Beskow
(2004)
Audio
-18 dB S/N
0 dB S/N
3 dB S/N reál.
švédština
3 dB S/N TTS
-16 dB S/N
francouz.
+8 dB S/N
francouz.
švédština
angličtina 2k. vokodér
němčina
švédština
angličtina 3k. vokodér
němčina
reál. řeč, 3k.
švédština
vokodér
věty
slova
VCV
souhl.
věty
slova
56
Poznámky
Baldi, 25Hz
Parkův model
10 osob, modif.
Cohen-Mass. model
sluchově postiženı́
z akust. signál
z textu
ANN, akust. signál
HMM, sluch. postiž.
20 osob, 20-33 let
10 osob, 22-33 let,
navazuje na (Olives
a kol., 1999)+jazyk
36 osob, 12 pro
každý jazyk
Cohen-Mass. model
Öhmanův model
ANN
podle pravidel
Kapitola 5
Aplikace
Jak již bylo zmı́něno, nedosahuje použitı́ mluvcı́ch hlav v reálných aplikacı́ch takových měřı́tek jako např.
aplikace akustické syntézy. Můžeme najı́t mnoho návrhů a scénářů, ale zatı́m nerealizovaných. I přesto se byly
provedeny prvnı́ pokusy. Existujı́ obecně tři pole působnosti mluvı́cı́ch hlav a to v systémech komunikace
člověka s počı́tačem, v komunikačnı́ch systémech pro nedoslýchavé a při trénovánı́ řeči pro osoby s poruchami
sluchu.
5.1 Kumunikace s počı́tačem - agenti
Komunikace člověka s počı́tačem mluvenou řečı́ se stala v poslednı́m desetiletı́ populárnı́ oblastı́ výzkumů.
Jednou částı́ je také výzkum směřovaný na tzv. „multimodálnı́ dialog“, kdy systém obsahuje nějakou počı́tačovou
animaci tváře ve formě mluvı́cı́ho agenta. Animace pak produkuje verbálnı́ i neverbálnı́ gesta. Důvodem, proč
mluvı́cı́ agent je použit v dialogu, je fakt, že správně animované neverbálnı́ projevy mohou být významnou
pomocı́ k vyjádřenı́ obsahu dialogu. Verbálnı́ projevy agenta, jako jsou pohyby rtů, pak mohou být značnou
podporou porozuměnı́ řečovému signálu obzvláště v rušných mı́stech jako jsou např. informačnı́ terminály na
letištı́ch, nádražı́ch, ve vlacı́ch, ve městech apod.
Jako prvnı́ aplikaci mluvı́cı́ hlavy můžeme uvést realistickou animaci tváře pomocı́ AMA procedur
(Magnenat-Thalmann a Thalmann, 1988; Magnenat-Thalmann a kol., 1988), která byla již v roce 1988 použita pro film „Rendez-vous a montréal“, v němž vystupovali animovanı́ herci Marilyn Monroe a Humphrey
Bogart. Byla použita řı́zená animace a nešlo tedy o umělecké modelovánı́, s kterým se setkáváme i v dnešnı́ch
filmech. Waters a Levergood (1993) vytvořil interface pro animace řeči z textu nazvaný „DECface“. Zde syntéza
řeči z textu je založená na svalovém modelu a je počı́tána v reálném čase.
Dále zmı́nı́me projekt „Vaxholm“. Cı́lem projektu bylo vytvořit dialogový systém pro poskytovánı́ turistických informacı́ o lodnı́ dopravě ve Stockholmu ve Švédsku. Uživatelům jsou poskytovány informace o jı́zdnı́ch
řádech lodı́, o restauracı́ch a o ubytovánı́ v přı́stavech a na přilehlých ostrovech. Komunikačnı́ interface tvořil grafický výstup ve formě tabulek a map, viz obr.5.1 vlevo. Pro animaci řeči byla použita mluvı́cı́ hlava
z (Beskow, 1995), syntéza rtů doplňovala hlasový výstup a pohyby hlavy směřovaly pozornost na poskytované
informace. Animace tváře doplněná o zbytek těla je v (Beskow, 1997). Agentka „Olga“ podávala spotřebitelské
informace o správném použı́vánı́ mikrovlnné trouby. Podoba agenta připomı́ná karikaturu ženy. Řı́zenı́ zahrnovalo neverbálnı́ i verbálnı́ gesta a akustickou syntézou ženského hlasu. Dalšı́ aplikacı́ je dialogový systém a
mluvı́cı́ hlava „August“, obr.5.1 uprostřed, (Lundeberg a Beskow, 1999). Jméno bylo vybráno podle švédského
autora Augusta Strindberga. Systém byl navrhován s cı́lem většı́ robustnostı́. Systém byl umı́stěn v centru
Stockholmu a poskytoval turistické informace o městě. Animace artikulace byla doplněna o bohatý slovnı́k
instrukcı́, který za účelem zaujmutı́, obsahoval také nereálné chovánı́ jako rotace hlavy o 360Æ nebo kroucenı́
knı́rkem. Nejnovějšı́m systémem je pak „AdApt“. Interaktivnı́ systém ve ovládán řečı́ a ukazovánı́m na mapu
57
Kapitola 5. Aplikace
Obrázek 5.1: Aplikace vizuálnı́ syntézy vyvı́jené na KTH. Vlevo je ukázka projektu „Vaxholm“, uprostřed mluvı́cı́
hlava „August“ a vpravo pak nejnovějšı́ systém „AdApt“
a výstupem je audio-vizuálnı́ řeč, vizualizace tabulek a map, obr.5.1 vpravo.
Mluvı́cı́ hlava Baldi byla použita i pro jiné jazyky než je angličtina. Cosi a kol. (2002b) naučil Baldiho
mluvit italsky, nalezneme i mexicko španělskou verzi a v (Chaloupka a kol., 2002) je česky mluvı́cı́ Baldi.
Standard MPEG-4 byl primárně navrhován pro internetové aplikace (Gachery a Magnenet-Thaplann, 2001)
s datovým přenosem kolem 2 kbit/s. MPEG-4 použı́vá projekt „VIDAS“ (Escher a kol., 1998a), součástı́
projektu je systém pro videokonference probı́hajı́cı́ s malým datovým tokem. Cı́lem projektu je návrh aplikace,
která pomocı́ analýzy obrazu extrahuje anatomii tváře a umožnı́ jejı́ sledovánı́. Systém pak provede efektivnı́
kompresi a tyto data jsou přenášena po počı́tačové sı́ti. Na straně přı́jemce je pak provedena syntéza řeči pomocı́
mluvı́cı́ hlavy. Pro virtuálnı́ komunikaci je také navržen systém „iFACE“ (Hong a kol., 2000), interaktivnı́
nástroj pro komunikaci obsahujı́cı́ syntézu vizuálnı́ řeči založenou na pravidlech.
Můžeme se však také setkat s celou řadou agentů ve formě hlasatelů, pomocnı́ků na ploše, kurýrů elektronické pošty nebo jednoduchých osobnı́ch přátel. Např. Microsoft Agent může být animován při prohlı́ženı́
internetových stránek a podobných akcı́. Animace je flexibilnı́ a může být doplňována pomocı́ „Microsoft Agent
Charakter“ editoru. Je však nutno podotknout, že obecně všichni tito „rádoby agenti“ majı́ přı́šernou animaci
vizuálnı́ řeči a spı́še škodı́, než aby usnadňovali komunikaci mluvenou řečı́.
5.2 Systémy pro nedoslýchavé
Jako pokus o pomoc v komunikaci sluchově postižených se svým okolı́m můžeme uvést projekty „Teleface“ a „Synface“ (Beskow a kol., 1997; Öhman a Salvi, 1999). Společným cı́lem projektů je myšlenka vytvořit
komunikačnı́ interface nezávislý na řečnı́kovi, které překládá akustickou řeč telefonnı́ kvality na artikulačnı́
pohyby mluvı́cı́ hlavy, obr.5.2. Jde tedy o syntézu vizuálnı́ řeči řı́zenou akustickým signálem o malém přenosovém pásmu. Animaci pak poskytuje podporu postačujı́cı́ k odezı́ránı́ pro sluchově postižené uživatele. Systémy
aplikujı́ principy popsané v kapitole 3.5. Výsledkem je umožněnı́ této skupině lidı́ komunikaci po telefonu.
Systémy byly vyvı́jeny primárně pro angličtinu, němčinu a švédštinu. Byl kladen důraz na práci v reálném čase,
tj. minimálnı́ zpožděnı́ odezvy systému. V (Morishima, 1998) je podobný návrh, avšak jde o systém, který je
závislý na řečnı́kovi.
5.2.1 Výuka řeči
„Baldi“ byl několikrát použit jako učitel jazyka a pro trénovánı́ vnı́mánı́ řeči. V práci (Cole a dalšı́,
1998) je prezentován projekt, který je cı́lený na vývoj interaktivnı́ho nástroje pro trénovánı́ řeči sluchově
postižených osob. Systém je kombinacı́ čtyř částı́: rozpoznávánı́ řeči, řečové syntézy, animace tváře a trasovánı́
a počı́tačového odezı́ránı́ tváře. Cı́lem projektu je poskytnou učitelům, studentů i rodičům nástroj pro kvalitnı́
58
Kapitola 5. Aplikace
Obrázek 5.2: Základnı́ myšlenka projektu „Teleface“
učenı́. Massaro a Light (2004b) provedli studii se 7 nedoslýchavými studenty ve věku 8–13 let, kteřı́ měli
problémy s vnı́mánı́m a výslovnostı́ některých anglických hlásek. Test probı́hal se slovy, které pomáhajı́
k vzájemnému odlišenı́ problematických hlásek. Průběh testu můžeme vidět na obr.5.3 vlevo. Instruktážnı́
program použı́val animaci mluvı́cı́ hlavy a syntetizovanou řeč. Výuka probı́hala jak na vnı́mánı́ vizuálnı́ řeči,
tak i na jejı́ produkci. Pro vnı́mánı́ řeči probı́hala syntéza pro izolovaná slova a současně byla na obrazovce
nabı́zena volba dvou nebo třı́ slov. Správná volba byla odměněna animacı́ úsměvu a špatná pak animacı́ smutné
tváře. V testu na produkci řeči byla animována správná artikulace problémových hlásek a student pak musel
opakovat výslovnost. Poměř správně zvolených hlásek po dobu učenı́ vzrost průměrně z 64% na 86%.
Pokus o rozšı́řenı́ slovnı́ zásoby u dětı́ se sluchový postiženı́m najdeme v dalšı́ práci (Massaro a Light,
2004a). Po dobu 10 týdnů probı́hal test s 8 nedoslýchavými dětmi ve věku 6–10 let, vždy dva dny v týdnu po
půl hodině. Pro každé dı́tě byla individuálně vybrána skupina slov, kterou si mělo osvojit. Izolovaná slovı́čka
byla promlouvaná a zároveň byl na obrazovce ukázán obrázek, který dané slovı́čko představuje, obr.5.3 vpravo.
Výsledek byla skutečnost, že lze opravdu tı́mto postupem u takto postižených dětı́ úspěšně rozšiřovat slovnı́
zásobu o nová slovı́čka.
Obrázek 5.3: Výuka řeči a rozšiřovánı́ slovnı́ zásoby s mluvı́cı́ hlavou „Baldi“.
59
Kapitola 6
Závěr
Z výše uvedeného souhrnu můžeme usoudit, že problematika vizuálnı́ syntézy řeči použı́vá celou škálu
metod a postupů. V kapitole 1 je proveden souhrn jednotlivých animačnı́ch postupů umožňujı́cı́ch zobrazit
lidskou tvář v počı́tači. Video založené syntézy, které jsou popsány na začátku této práce, dosahujı́ nejlepšı́
realističnosti, ale v testech na porozuměnı́ majı́ nejhoršı́ výsledky. Jejich uplatněnı́ nalezneme jako doplněk
akustické řeči. Daty řı́zené animace jsou oblı́beným postupem, který se úspěšně použı́vá při výzkumu vizuálnı́
řeči. Animace jsou úzce spojeny s nějakou metodou měřenı́. Poskytujı́ komplexnı́ a relativně jednoduché
řešenı́. Svalové animačnı́ modely vycházejı́ z anatomického a fyziologického složenı́ tváře. Animace dosahujı́
nejlepšı́ch výsledků v simulaci deformacı́ pokožky, jako je přirozený vznik boulı́ a vrásněnı́. Z pohledu animace
řeči se, s přihlédnutı́m na jejich animačnı́ složitost, jevı́ méně vhodnými. Řečově orientované animace vznikly
jako přı́mı́ následek studiı́ nad problematikou řečové produkce, ale také jako způsob co nejefektivnějšı́ho a
nejpřesnějšı́ho ztvárněnı́ vizuálnı́ řeči.
V kapitole 2 jsou popsány metody pro zı́skávánı́ potřebných dat. Při návrhu systému vizuálnı́ syntézy je
zapotřebı́ celá řada specifických měřenı́. Historicky nejstaršı́, ale dodnes použı́vané, jsou metody fotogrammetrie. Metody jsou aplikovány na jeden, nebo vı́ce snı́mků a často jsou doplňované o 3D rekonstrukce. Často
jsou pro zı́skávánı́ dat využı́vány komerčnı́ nástroje, jako jsou systémy optického trasovánı́ či laserové hloubkoměry. Měřenı́ dynamiky řeči je prováděno na řečnı́kovi, který však musı́ promlouvat nějaký text. Právě výběr
vhodného textového materiálu je dalšı́m rozhodnutı́m, které se musı́ řešit.
Kapitola 3 popisuje použı́vané strategie řı́zenı́ animacı́. Některé návrhy vycházejı́ ze základnı́ch principů
vzniku řeči a s pomocı́ matematických vztahů se pokoušejı́ popsat principy a zákonitosti, které člověk uplatňuje
při produkci řeči. Můžeme však také nalézt metody, které se nepokoušejı́ hlouběji pronikat do této problematiky
a raději se snažı́ s dostupnými znalostmi o co nejlepšı́ napodobenı́ člověka.
Problematika ohodnocenı́ vizuálnı́ syntézy nebo celé animace tváře je popsána v kapitole 4. Z tohoto souhrnu
je zřejmé, že neexistuje jednotná metrika, která by nám mohla poskytnout žádané srovnávánı́. Existuje několik
hledisek ohodnocenı́. Důležitost každého hlediska je dána budoucı́m určenı́m navrhované animace. Z hlediska
zlepšovánı́ porozuměnı́ by měly být směrodatné subjektivnı́ poslechové testy, ale jak bylo zmı́něno, ani toto
nemůže být jednoznačným měřı́tkem. Aplikacı́ mluvı́cı́ch hlav zatı́m ve světě mnoho nenajdeme. I přesto je
v kapitole 5 zmı́něno několik již realizovaných aplikacı́ z reálného života. Výsledky zatı́m ukazujı́, že tato oblast
výzkumu si jistě nalezne své mı́sto.
6.1 Cı́le disertačnı́ práce
Cı́lem disertačnı́ práce je vytvořenı́ systému provádějı́cı́ho syntézu vizuálnı́ řeči pro češtinu, tj. návrh česky
mluvı́cı́ hlavy. Systém bude použı́ván jako užitečný doplněk k akustické syntéze řeči. Návrh bude proveden tak,
aby vizuálnı́ syntéza mohla být také použita pro komunikaci se sluchově postiženými. Prvnı́m úkolem je návrh
60
Kapitola 6. Závěr
vhodného animačnı́ho modelu, který umožnı́ animovat správnou artikulaci doplněnou i o mimiku. Z tohoto
vyplývá, že se implementace bude odvı́jet od některého řečově zaměřeného animačnı́ho modelu z kapitoly
1.2.5. Hlavnı́ důraz bude kladen na správnou animaci řeči. S návrhem animačnı́ho systému také souvisı́ i
volba vhodné parametrizace tváře. S ohledem na plánované měřenı́ řeči, bude parametrizace provedena podle
vhodného popisu povrchu tváře.
Pro řı́zenı́ animace bude proveden záznam audio-vizuálnı́ databáze zachycujı́cı́ dynamiku artikulace české
řeči. Databáze bude navržena s ohledem na zamýšlené měřenı́. Pro měřenı́ artikulace se použijı́ metody digitálnı́ho zpracovánı́ obrazu. Pro studii bude zaznamenán řečnı́k s dobrou artikulačnı́ schopnostı́, která je vhodná pro
odezı́ránı́. Pro usnadněnı́ zpracovánı́ databáze, budou rty barevně zvýrazněny. Z hlediska zmı́něné oblı́benosti
optických metod pro měřenı́ dynamiky tváře, ale také z hlediska nedostupnosti tohoto zařı́zenı́, bude proveden
návrh vlastnı́ho systému optického trasovánı́. S výhodou bude použita reflexe pasivnı́ch značek umı́stěných na
tváři řečnı́ka. Všechna měřenı́ budou prováděna za účelem zı́skánı́ 3D dat s pomocı́ aplikacı́ fotogrammetrických
metod. V plánu je i záznam přirozené řeči bez jakéhokoli zvýrazněnı́, který bude použit pro subjektivnı́ srovnávacı́ testy. V databázi bude zaznamenána také akustické řeč. Tento signál bude použit pro již navržený TTS, ale
také pro pomocnou segmentaci signálu. Z naměřených dynamických dat bude provedena studie vizuálnı́ řeči.
S pomocı́ statistických metod bude zkoumána vizuálnı́ podobnost jednotlivých českých hlásek a bude proveden
návrh a popis vizémových skupin. Měřenı́ vnitřnı́ artikulace se zatı́m neplánuje. Zatı́m nenı́ jasný výběr metody
záznamu a to i s přihlédnutı́m na nedostupnost potřebného zařı́zenı́. Přı́padné měřenı́ však bude zaměřeno jen
na artikulaci jazyka. Pro adaptaci animačnı́ho modelu na konkrétnı́ osobu bude navržena metoda pro zachycenı́
3D statického tvaru tváře spojená se zı́skánı́m textury.
Dalšı́m úkolem bude aplikace vhodného modelu řı́zenı́. Pro řı́zenı́ animace bude použit jeden model z kapitoly 3.4.1. Výběr modelu bude proveden s ohledem na plánované podchycenı́ koartikulačnı́ch charakteristik
českého jazyka. Pro správné nastavenı́ modelu bude proveden pokus s automatickým trénovánı́m z naměřených
dat. Pro řı́zenı́ artikulace jazyka může být použito měřenı́, ale je možné i ručnı́ nastavenı́ pozice a tvaru jazyka
s ohledem na známá pravidla správné výslovnosti. Zkoumána bude také možnost estimace alespoň částečného
pohybu jazyka z vnějšı́ch pohybů tváře nebo popř. z charakteristik akustického signálu. S ohledem na plánovanou vizuálnı́ syntézu i z akustického signálu, bude proveden pokus s nějakým modelem řı́zenı́ z kapitoly 3.5.
Bude také využit dostupný akustický rozpoznávač a následně použita navržená vizuálnı́ syntéza z textu.
Ke kontrole správnosti řı́zenı́ animace bude vyčı́sleno objektivnı́ srovnánı́ pomocı́ koeficientů z kapitoly 4.1.
Subjektivnı́ testy budou provedeny postupem popsaným v kapitole 4.2. Bude udělán také pokus se sluchově
postiženými osobami.
Jako možnou aplikaci vytvořené česky mluvı́cı́ hlavy vidı́m jejı́ použitı́ v komunikačnı́ch systémech. Mluvı́cı́
hlava by měla sloužit jako prostředek pro zlepšenı́ celkového porozuměnı́ řeči, kterého by mělo být dosaženo
animacı́ správné artikulace a také animacı́ emocı́. Výzvou je také vývoj nástroje pro učenı́ a trénovanı́ řeči pro
sluchově postižené děti.
61
Literatura
E. Agelfors, J. Beskow, M. Dahlquist, M. Granström, M. Lundeberg, G. S. snd K-E Spens a T. Öhman (1999). Synthetic
visual speech driven from auditory speech. V AVSP’99. Santa Cruz, USA.
J. Ahlberg, I. Pandzic a L. You (2001). Evaluating face models animated by MPEG-4 FAPs. V OZCHI2001.
T. Akimoto, Y. Suenaga a R. S. Wallace (1993). Automatic creation of 3D facial models. IEEE Computer Graphics &
Applications, ročnı́k 13(5):16–22.
F. Aurenhammer (1991). Voronoi diagrams - A survey of a fundamental geometric data structure. ACM Computing
Surveys (CSUR), ročnı́k 23(3).
P. Badin, G. Bailly, M. Raybaudi a C. Segebarth (1998). A three-dimensional linear articulatory model based on mri data.
V ICSLP1998. Sydney Australia.
P. Badin, G. Bailly, L. Reveret, M. Baciu, C. Segebarth a C. Savariaux (2002). Three-dimensional linear articulatory
modeling of tongue, lips and face, based on mri and video images. Journal of Phonetics, ročnı́k 30(3):533–553.
G. Bailly (2002). Audiovisual speech synthesis. from ground truth to models. V ICSLP2002. Denver, Colorado, USA.
G. Bailly a P. Badin (2002). Seeing tongue movements from outside. V ICSLP2002. Denver, Colorado, USA.
S. Basu, N. Oliver a A. Pentland (1998). 3D modeling and tracking of human lip motions. V Sixth International Conference
on Computer Vision (ICCV’98). Bombay, India.
D. Beautemps, P. Badin, G. Bailly, A. Galván a R. Laboissiere (1996). Evaluation of an articulatory-acoustic model based
on reference subject. V 4th Speech Production Seminar / ETRW.
J. Beskow (1995). Rule-based visual speech synthesis. V EUROSPEECH’95. Madrid, Spain.
J. Beskow (1997). Animation of talking agents. V AVSP’97, ESCA Workshop on Audio-Visual Speech Processing. Rhodes,
Greece.
J. Beskow (2003). Talking Heads - Models and Applications for Multimodal Speech Synthesis. Ph.D. práce, KTH,
Stockholm.
J. Beskow (2004). Trainable articulatory control models for visual speech synthesis. International Journal of Speech
Technology. Submitted.
J. Beskow, M. Dahlquist, B. Granström, M. Lundeberg, K.-E. Spens a T. Öhman (1997). The teleface project - multimodal
speech communication for the hearing impaired. V Eurospeech ’97. Rhodos, Greece.
J. Beskow, O. Engwall a B. Granström (2003). Resynthesis of facial and intraoral articulation from simultaneous
measurements. V ICPhS 2003, str. 431–434. Barcelona, Spain.
J. Beskow, B. Granström a K.-E. Spens (2002). Articulation strength – readability experiments with a synthetic talking
face. V Fonetik 2002. Stockholm, Sweden.
E. Bevacqua a C. Palachaud (2003). Triphone-based coarticulation model. V AVSP’03, str. 221–226. St. Jorioz, France.
62
LITERATURA
C. Bregler, M. Covell a M. Slaney (1997). Video reqrite: Driving visual speech with audio. V SIGGRAPH’97, str.
353–360. Los Angeles.
N. M. Brooke a S. D. Scott (1998). Two- and three-dimensional audio-visual speech synthesis. V AVSP’98, str. 213–220.
Terrigal - Sydney, NSW, Australia.
J. Chaloupka, J. Nouza a J. Drábková (2002). Developing an artificial talking head for czech language. V Sci-isas2002.
M. M. Cohen, J. Beskow a D. W. Massaro (1998). Recent developments in facial animation: an inside view. V AVSP’98.
M. M. Cohen a D. W. Massaro (1993). Modeling coarticulation in synthetic visual speech. V N. M. T. . D. Thalmann,
red., Models and Techniques in Computer Animation. Springer-Verlag, Tokyo.
M. M. Cohen, D. W. Massaro a R. Clark (2002). Training a talking head. V Fourth IEEE International Conference on
Multimodal Interfaces (ICMI’02), str. 499. Pittsburgh, Pennsylvania.
R. Cole a dalšı́ (1998). Intelligent animated agents for interactive language training. V ESCA Workshop on Speech
Technology in Language Learning. Stockholm, Sweden.
E. Cosatto a H. P. Graf (1998). Sample-based synthesis of photo-realistic talking heads. V Computer Animation, str.
103–110. Philadelphia, Pennsylvania.
E. Cosatto a H. P. Graf (2000). Photo-realistic talking-heads from image samples. V IEEE TRANSACTIONS ON
MULTIMEDIA, ročnı́k 2 3.
P. Cosi, E. M. Caldognetto, G. Perin a C. Zmarich (2002a). Labial coarticulation modeling for realistic facial animation.
V Fourth IEEE International Conference on Multimodal Interfaces (ICMI’02). Pittsburgh, Pennsylvania.
P. Cosi, M. M. Cohen a D. W. Massaro (2002b). Baldini: Baldi speaks italian! V ICSLP2002. Denver, Colorado, USA.
J. Dalong, L. Zhiguo, W. Zhaoqi a G. Wen (2002). Animating 3D facial models with MPEG-4 FaceDefTables. V 35th
Annual Simulation Symposium. San Diego, California.
P. Ekman a W. Friesen (1975). Unmasking the face: A guide to recognising emotion from facial clues. Prentice-Hall.
M. Železný, P. Cı́sař, Z. Krňoul a J. Novák (2002). Design of an audio-visual speech corpus for the czech audio-visual
speech synthesis. V The 7th International Conference on Spoken Language Processing ICSLP2002, str. 1941–1944.
Denver, USA.
F. Elisei, M. Odisio, G. Bailly a P. Badin (1997). Creating and controlling video-realistic talking heads. V AVSP’97.
Rhodes, Greece.
O. Engwall (1999). Modeling of the vocal tract in three dimensions. V Eurospeech 99, str. 113–116. Budapest, Hungary.
O. Engwall (2000). A 3D tongue model based on mri data. V ICSLP2000. Beijing, China.
O. Engwall (2002a). Evaluation of a system for concatenative articulatory visual speech synthesis. V ICSLP’2002. Denver,
Colorado, USA.
O. Engwall (2002b). Tongue Talking - Studies in Intraoral Speech Synthesis. Ph.D. práce, Department of Speech, Music
and Hearing, KTH, Stockholm.
O. Engwall a J. Beskow (2003). Resynthesis of 3D tongue movements from facial data. V EUROSPEECH’03. Geneva,
Switzerland.
M. Escher, I. Pandzic, N. Magnenat-Thalmann a F. Bossen (1998a). Face synthesis in the vidas project. V Comtec,
ročnı́k 78 1.
M. Escher, I. Pandzic a N. M. Thalmann (1998b). Facial deformations for MPEG-4. V Proceedings of the Computer
Animation, str. 56. IEEE Computer Society.
63
LITERATURA
M. Escher, G. Sannier a N. Magnenat-Thalmann (1999). Real-time interactive facial animation. V WSCG’99. Pilzen.
M. Escher a N. M. Thalmann (1997). Automatic 3D cloning and real-time animation of a human face. Computer
Animation, str. 58.
T. Ezzat, G. Geiger a T. Poggio (2002). Trainable videorealistic speech animation. V SIGGRAPH ’02. San Antonio, Texas.
T. Ezzat a T. Poggio (2000). Visual speech synthesis by morphing visemes. V International Journal of Computer Vision,
ročnı́k 38, str. 45–57. K. A. Publishers.
S. Fagel a C. Clemens (2003). Two articulation models for audiovisual speech synthesis - description and determination.
V AVSP03, str. 215–220. St. Jorioz, France.
T. A. Faruquie, A. Kapoor, R. Kate, N. Rajput a L. V. Subramaniam (2001). Audio driven facial animation for audio-visual
reality. V 2001 IEEE International Conference on Multimedia and Expo. Tokyo, Japan.
M. Frydrych, J. Kätsyri, M. Dobšı́k a M. Sams (2003). Toolkit for animation of finnish talking head. V AVSP 2003. St
Jorioz, France.
P. Fua (1998). Face models from uncalibrated video sequences. V Proceedings of the International Workshop on Modelling
and Motion Capture Techniques for Virtual Environments. Springer-Verlag.
S. Gachery a N. Magnenet-Thaplann (2001). Designing MPEG-4 facial animation tables for web applications. V
Multimedia Modeling 2001, str. 39–59. Amsterdam.
F. M. Galanes, J. Unverferth, L. Arslan a D. Talkin (1998). Generation of lip-synched synthetic faces from phonetically
clustered face movement data. V AVSP’98. Terrigal - Sydney, NSW, Australia.
G. Geiger, T. Ezzat a T. Poggio (2003). Perceptual evaluation of video-realistic speech. Technická zpráva, Massachusetts
Institute of Technology, Cambridge, MA. CBCL Paper #224/ AI Memo #2003-003.
B. L. Goff (1997). Automatic modeling of coarticulation in text-to-visual speech synthesis. V EUROSPEECH’97.
RHODES, GREECE.
B. L. Goff, T. G. Marigny, M. Cohen a C. Benoit (1994). Real-time analysis-synthesis and intelligibility of talking faces.
V 2nd International Conference on Speech Synthesis. Newark (NY).
K. P. Green (1996). Studies of the mcgurk effect: Implications for theories of speech perception. V ICSLP1996.
Philadelphia, PA, USA.
T. Guiard-Marigny, N. Tsingos, A. Adjoudani, C. Benoit a M.-P. Gascuel (1996). 3D models of the lips for realistic speech
animation. V Computer Animation ’96. Geneva, Switzerland.
A. Hällgren a B. Lyberg (1998). Visual speech synthesis with concatenative speech. V AVSP’98. Terrigal - Sydney, NSW,
Australia.
S. E. G. Öhman (). Numerical model of coarticulation. Acoustical Society of America, ročnı́k 41:310–320.
S. E. G. Öhman (1966). Coarticulation in VCV utterances: spectrographic measurements. Acoustical Society of America,
ročnı́k 37:151–168.
T. Öhman (1998). An audio-visual speech database and automatic measurements of visual speech. V TMH-QPSR.
Stockholm, Sweden.
T. Öhman a M. Lundeberg (1999). Differences in speechreading a synthetic and a natural face. V ICPhS’99. San Francisco,
USA.
T. Öhman a G. Salvi (1999). Using HMMs and ANNs for mapping acoustic to visual speech. V Fonetik 1999, ročnı́k 37.
TMH-QPSR.
P. Hong, Z. Wen a T. S. Huang (2000). Iface: A 3D synthetic talking face. International Journal of Image and Graphics,
ročnı́k 1(1).
64
LITERATURA
P. Hong, Z. Wen, T. S. Huang a H.-Y. Shum (2002). Real-time speech-driven 3D face animation. 1st International
Symposium on 3D Data Processing Visualization and Transmission (3DPVT’02).
J. Jiang, A. Alwan, L. E. Bernstein, P. Keating a E. Auer (2000). On the correlation between facial movements, tongue
movements and speech acoustic. V ICSLP’2000. Beijing, China.
P. Kalra, A. Mangili, N. M. Thalmann a D. Thalmann (1992). Simulation of facial muscle actions based on rational free
form deformations. Compure Graphics Forum 1992.
Z. Krňoul a M. Železný (2003). Coarticulation modeling for the czech audio-visual speech synthesis. V ECMS. Liberec,
Czech republic.
Z. Krňoul a M. Železný (2004). Realistic face animation for a Czech Talking Head. V Conference on TEXT, SPEECH
and DIALOGUE, TSD 2004. Brno, Czech republic. In press.
S. Kshirsagar, S. Garchery a N. Magnenat-Thalmann (2000). Feature point based mesh deformation applied to MPEG-4
facial animation. V Deform’2000, str. 23–34. Kluwer Academic Publishers, Geneva, Switzerland.
S. Kshirsagar, S. Garchery, G. Sannier a N. Magnenat-Thalmann (2003). Synthetic faces : Analysis and applications.
Imaging Systems and Technology, ročnı́k 13(1):65–73.
S. Kshirsagar a N. Magnenat-Thalmann (2000). Lip synchronization using linear predictive analysis. V IEEE International
Conference on Multimedia and Expo. New York.
T. Kuratate, K. G. Munhall, P. E. Rubin, E. Vatikiotis-Bateson a H. Yehia (1999). Audio-visual synthesis of talking faces
from speech production correlates. V EUROSPEECH’99. Budapest, Hungary.
T. Kuratate, H. Yehia a E. Vatikiotis-Bateson (1998). Kinematics-based synthesis of realistic talking faces. V AVSP’98.
F. Lavagetlo, S. Lepsgy, C. Braccini a S. Curinga (1997). Lip motion modeling and speech driven estimation. V IEEE
International Conference on Acoustics, Speech, and Signal Processing (ICASSP ’97), ročnı́k 1.
W. Lee, P. Kalra a N. Magnenat-Thalmann (1997). Model based face reconstruction for animation. V Proc. MMM’97
(World Scientific Press), str. 323–338. Singapore.
W. Lee a N. Magnenat-Thalmann (2000). Fast head modeling for animation. Image and Vision Computing, ročnı́k 18(4):355–364.
Y. Lee, D. Terzopoulos a K. Walters (1995). Realistic modeling for facial animation. V Proceedings of the 22nd annual
conference on Computer graphics and interactive techniques, str. 55–62. ACM Press.
J. Lewis a F. Parke (1986). Automated lip-synch and speech synthesis for character animation. V Conference on Human
Factors in Computing Systems, str. 143 – 147. ACM Press New York, NY, USA, Toronto, Ontario, Canada.
B. Lindblom a H. M. Sussman (2002). Principal components analysis of tongue shapes in symmetrical vcv utterances. V
Fonetik 2002, ročnı́k 44, str. 1–4. Fysikcentrum, Stockholm.
A. Löfqvist (1990). Speech as audible gestures. V M. A. Hardcastle W.J., red., Speech, Production and Speech Modeling,
str. 289–322. Kluwer Academic Publishers.
J. C. Lucero a K. G. Munhall (1999). A model of facial biomechanics for speech production. Acoustical Society of
America, ročnı́k 106:2834–2842.
M. Lundeberg a J. Beskow (1999). Developing a 3D-agent for the august dialogue system. V AVSP’99. Santa Cruz,
California, USA.
J. MacDonald, S. Andersen a T. Bachmann (1999). Hearing by eye: Visual spatial degradation and the mcgurk effect. V
EUROSPEECH’99. Budapest, Hungary.
65
LITERATURA
S. Maeda, M. Toda, A. J. Carlen a L. Meftahi (2002). Functional modeling of face movements during speech. V
ICSLP2002. Denver, Colorado, USA.
N. Magnenat-Thalmann, E. Primeau a D. Thalmann (1988). Abstract muscle action procedures for human face animation.
The Visual Computer, ročnı́k 3(5):290–297.
N. Magnenat-Thalmann a D. Thalmann (1988). Construction and animation of a synthetic actress. V Eurographics
Conference Proceedings 1988.
D. W. Massaro (1998). Illusions and issues in bimodal speech perception. V AVSP’98. Terrigal - Sydney, NSW, Australia.
D. W. Massaro (2001). Auditory visual speech processing. V EUROSPEECH’01, str. 1153–1156. Aalborg, Denmark.
D. W. Massaro, J. Beskow, M. M. Cohen, C. L. Fry a T. Rodgriguez (1999). Picture my voice: Audio to visual speech
synthesis using artificial neural networks. V AVSP’99. Santa Cruz, California, USA.
D. W. Massaro, M. M. Cohen, J. Beskow, S. Daniel a R. A. Cole (1998). Developing and evaluating conversational agents.
V WECC. Lake Tahoe.
D. W. Massaro a J. Light (2004a). Improving the vocabulary of children with hearing loss. In press, Volta Review.
D. W. Massaro a J. Light (2004b). Using visible speech for training perception and production of speech for hard of
hearing individuals. Journal of Speech, Language, and Hearing Research, ročnı́k 47(2):304–320.
T. Masuko, T. Kobayashi, M. Tamura, J. Masubuchi a K. Tokuda (1998). Text-to-visual speech synthesis based on
parameter generation from hmm. V Icassp1998. Seattle, Washington, USA.
H. McGurk a J. MacDonald (1976). Hearing lips and seeing voices. Nature, ročnı́k 264:746–748.
S. Minnis a A. Breen (2000). Modeling visual coarticulation in synthetic talking heads using a lip motion unit inventory
with concatenative synthesis. V ICSLP2000. Beijing, China.
L. Moccozet a N. M. Thalmann (1997). Dirichlet free-form deformations and their application to hand simulation. V
Computer Animation ’97. Geneva, SWITZERLAND.
S. Morishima (1998). Real-time talking head driven by voice and its application to communication and entertainment. V
AVSP’98. Terrigal - Sydney, NSW, Australia.
R. Möttönen, J.-L. Olivés, J. Kulju a M. Sams (2000). Parameterized visual speech synthesis and its evaluation. V
Eusipco2000. Tampere, Finland.
B. Nagel, J. Wingbermuhle, S. Weik a C. Liedtke (1998). Automated modelling of real human faces for 3D animation. V
ICPR 98, str. 693–696.
J.-L. Olives, R. Möttönen, J. Kulju a M. Sams (1999). Audio-visual speech synthesis for finnish. V AVSP’99. Santa Cruz,
California, USA.
J. Ostermann (1999). Animation of synthetic faces in MPEG-4. IEEE, Computer Animation.
J. Ostermann (2002). Face animation in MPEG-4. V MPEG-4 Facial Animation, str. 17–56. Chichester UK John Wiley
& Sons, is pandzic and r. forchheimer edice.
I. S. Pandzic a R. Forchheimer (2002). The origins of the MPEG-4 facial animation standard. V MPEG-4 Facial
Animation. MPEG-4 Facial Animation, is pandzic and r. forchheime edice.
F. Parke (1982). Parameterized models for facial animation. V IEEE Computer Graphics and Applications, str. 61–68.
F. I. Parke (1972). Computer generated animation of faces. Ph.D. práce, University of Utah, Salt Lake City. UTEC-CSc72-120.
C. Pelachaud (2002). Visual text-to-speech. V MPEG4 Facial Animation - The standard, implementations and applications.
John Wiley & Sons, igor s. pandzic, robert forchheimer edice.
66
LITERATURA
C. Pelachaud, N. I. Badler a M. Steedman (1996). Generating facial expressions for speech. Cognitive Science.
C. Pelachaud, E. Magno-Caldognetto, C. Zmarich a P. Cosi (2001). Modelling an italian talking head. V AVSP 2001.
Aalborg, Denmark.
C. Pelachaud a C. van Overveld (1994). Modeling and animating the human tongue during speech production. computer
animation’94.
S. M. Platt a N. I. Badler (1981). Animating facial expressions. V International Conference on Computer Graphics and
Interactive Techniques. Dallas, Texas, United States.
M. Proesmans a L. Van Gool (1997). Reading between the lines—a method for extracting dynamic 3D with texture. V
Proceedings of the ACM symposium on Virtual reality software and technology, str. 95–102. ACM Press, Lausanne,
Switzerland.
L. Revéret, G. Bailly a P. Badin (2000). Mother : A new generation of talking heads providing a flexible articulatory
control for video-realistic speech animation. V ICSLP2000. Beijing, China.
L. Revéret a C. Benoı̂t (1998). A new 3D lip model for analysis and synthesis of lip motion in speech production. V
AVSP’98. Terrigal - Sydney, NSW, Australia.
L. D. Rosenblum, M. A. Schmuckler a J. A. Johnson (1997). The mcgurk effect in infants. Perception and Psychophysic,
ročnı́k 59(3):347–357.
S. Sako, K. Tokuda, T. Masuko, T. Kobayashi a T. Kitamura (2000). Hmm-based text-to-audio-visual speech synthesis.
V ICSLP2000. Beijing, China.
M. Sams, J. Kulju, R. Möttönen, V. Jussila, J.-L. Olives, Y. Zhang, K. Kaski, P. Majaranta a K.-J. Räihä (2000). Towards
a high-quality and well-controlled finnish audio-visual speech synthesizer. V 4th World Multiconference on Systemics,
Cybernetics and Informatics (SCI 2000) and 6th International Conference on Information Systems Analysis and
Synthesis (ISAS 2000). Orlando, Florida, USA.
C. Siciliano, G. Williams, J. Beskow a A. Faulkner (2003). Evaluation of a multilingual synthetic talking face as a
communication aid for the hearing impaired. V 15th International Congress of Phonetic Sciences (ICPhS 2003).
Barcelona, Spain.
V. Strnadová (1998). Hádej, co řı́kám aneb Odezı́ránı́ je nejisté uměnı́. GONG, Praha.
M. Tamura, T. Masuko, T. Kobayashi a K. Tokuday (1998). Visual speech synthesis based on parameter generation from
hmm: Speech-driven and text-and-speech-driven approaches. V AVSP’98. Terrigal - Sydney, NSW, Australia.
D. Terzopoulos a K. Waters (1990). Physically-based facial modeling,analysis, and animation. Acoustical Society of
America.
D. Terzopoulos a K. Waters (1993). Analysis and synthesis of facial image sequences using physical and anatomical
models. IEEE Transactions on Pattern Analysis and Machine Intelligence.
N. M. Thalmann, P. Kalra, J. L. Léveque, R. Bazin, D. Batisse a B. Querleux (2002). A computational skin model: fold
and wrinkle formation. IEEE Transactions on Information Technology in Biomedicine, ročnı́k 6(4).
B. J. Theobald, J. A. Bangham, I. Matthews a G. C. Cawley (2001). Visual speech synthesis using statistical models of
shape and appearance. V AVSP’01. Aalborg, Denmark.
B. Uz a U. Güdükbay (1998). Realistic speech animation of synthetic faces. IEEE, Computer Animation 1998.
K. Waters (1987). A muscle model for animating three-dimensional facial expression. V SIGGRAPH ’87. Anaheim,
California.
K. Waters a T. M. Levergood (1993). Decface: An automatic lip-synchronization algorithm for synthetic faces. Technická
zpráva, CRL-93-4, External.
67

Vizua´lnı syntéza recˇi

Transkript

Podobné dokumenty

Výkaz zisků a ztrát

Stáhnout

Vyhodnocován´ı vad reci det´ı s vyuzit´ım algoritmu DTW

vrtani

x - Atlases

Životopis - Západočeská univerzita

Mechanické vlastnosti auxetických struktur určeté kvazi

Význam emocí pro umělé bytosti

Test pravého SiemensManiaka

x - Atlases

Topografické plochy

zde