Určování formantů pro analýzu emotivně zabarvené řeči

Transkript

Určování formantů pro analýzu emotivně zabarvené řeči
TRENDS IN BIOMEDICAL ENGINEERING
BRATISLAVA, SEPTEMBER 16 – 18, 2009
Určování formantů pro analýzu emotivně
zabarvené řeči
Jana TUČKOVÁ, Pavel GRILL
Dept. of Circuit Theory - LANNA, Faculty of Electrical Engineering, Czech Technical University in Prague, Technická 2,
166 27 Prague 2, Czech Republic, [email protected], [email protected]
Abstract. Jednou z možností, jak modelovat prozodické
parametry, je zobecnění způsobu vnímání zvuku člověkem.
Tento přístup by mohl ovlivnit i modelování emočně
zabarvené řeči. Emoce mohou ovlivnit nejen např. prozodii
přirozené nebo syntetické řeči, ale emotivní řeč můžeme
pozorovat
i
u
pacientů trpících neurologickým
onemocněním. V tomto druhém případě může být
emocionální zabarvení řeči jedním z příznaků používaných
při analýze narušené řeči. Emoce se projeví v tzv. paralingvistické rovině vyjádření promluvy. V našich výzkumech
budeme vycházet ze způsobu vnímání kmitočtových změn
v řečovém signálu. Tyto kmitočtové změny budou patřit
mezi vstupní parametry do umělé neuronové sítě (dále UNS)
[1]. Při emocích hraje výraznou roli barva hlasu (tembr),
která souvisí s formantovou strukturou. Součástí výzkumu
je tedy také vývoj metody pro zpřesnění extrakce formantů
z wav-souborů.
Keywords. Prozodie, emotivní řeč, formanty, neuronové sítě.
I. ÚVOD
Analýza řeči, tedy i prozodie, slouží jako podpůrný
prostředek při diagnózách některých neurologických
onemocnění a následně pak je jedním z prostředků
hodnocení výsledků léčebného procesu. Slouží ale také
jako zdroj informací o mluvčím.
Prozodie silně ovlivňuje přirozenost syntetické
promluvy. Kromě běžně používaných prozodických
parametrů, kterými jsou základní kmitočet F0, trvání
řečové jednotky a intenzita, se začínají zkoumat i další
parametry související s prozodií, jako např. barva hlasu.
Ta souvisí s vyjádřením emocí v řeči, ale může být
ovlivněna také patologickými změnami. Těmito problémy
jsme se začali zabývat i v laboratoři LANNA (Laboratoř
umělých neuronových sítí). Chtěli bychom v budoucnu
prokázat vztah mezi základním kmitočtem lidského hlasu
F0, formantovými kmitočty F1, F2,..., Fn a emocemi.
Emoce se projeví v tzv. paralingvistické rovině vyjádření
promluvy. To znamená, že lingvistické vyjádření
promluvy zůstává neměnné, proměnná je pouze vlastní
realizace promluvy.
Kromě kmitočtových závislostí patří k výrazným
rysům emotivní promluvy změny trvání segmentů. Jedná
se o změny tempa, tedy o nepravidelnosti v délce
jednotlivých segmentů uvnitř promluvy (často se jedná o
Změna tempa na konci
prodlužování segmentů).
90
promluvy je podmíněna fyziologicky. Také prozodický
parametr považovaný za nejméně významný, tedy
intenzita promluvy, je při zkoumání emotivní řeči
mnohem důležitější, než v případě neemotivní řeči.
Pomocí intenzity můžeme rozlišit tzv. pasivní a aktivní
emoce. Mezi pasivní emoce patří např. smutek nebo nuda,
mezi aktivní emoce radost a hněv. Vzhledem k tomu, že
emoce je obtížné, ne-li nemožné, popsat matematickými
vztahy, lze předpokládat, že bude výhodné k jejich popisu
a zpracování použít umělé neuronové sítě.
Prostřednictvím prozodie jsme informováni o
některých charakteristikách mluvčího, a to i bez jeho
vědomí. Jsou to např. informace o věku a pohlaví
mluvčího, o jeho regionálním i sociálním původu, ale také
o možném onemocnění.
Informace obsažené v promluvě dokážeme správně
vyhodnotit, pokud známe okolní kontext. Jeho znalost
lze částečně nahradit interpretací prozodie. Stejný text
(posloupnost fonémů) může posluchač vnímat různě.
Souvisí to s rozdílnou interpretací prozodických
parametrů, zejména intonace.
II. EMOTIVNĚ ZABARVENÁ ŘEČ
Z psychologického hlediska se emoce dělí do dvou
velkých skupin. Do první z nich patří tzv. syrové emoce,
fyziologické narušení a šok nebo záchvat. Druhou
skupinu tvoří socializovaná emoce, chování a chronická
forma nějakého stavu. Tato druhá skupina se nazývá
„postojem“. V našich prvních experimentech jsme
využívali čtyři základní emoce: radost, smutek, strach a
vztek.
Podle [3] provázejí většinu emocí fyziologické změny,
k nimž patří změna srdečního rytmu a krevního tlaku,
žaludeční stahy, bledost nebo naopak červenání. Tyto
fyziologické změny se projevují u všech čtyř emocí, nelze
je tedy jednoznačně odlišit pouze na základě těchto změn.
Při emocích hraje výraznou roli barva hlasu (tembr),
která
souvisí
s
formantovou
strukturou.
Je
charakteristická pro každého jednotlivce, získává se
průchodem
nadhrtanovými rezonátory, rezonancí v
lebeční dutině, ale i změnou postavení rtů a jazyka. Barva
hlasu se projevuje tzv. vyššími formantovými kmitočty.
Z hlediska percepce emocí projevovaných v řeči, jsou
důležité tzv. rozdílové resp. kombinační tóny. Jedná se o