Určování formantů pro analýzu emotivně zabarvené řeči
Transkript
Určování formantů pro analýzu emotivně zabarvené řeči
TRENDS IN BIOMEDICAL ENGINEERING BRATISLAVA, SEPTEMBER 16 – 18, 2009 Určování formantů pro analýzu emotivně zabarvené řeči Jana TUČKOVÁ, Pavel GRILL Dept. of Circuit Theory - LANNA, Faculty of Electrical Engineering, Czech Technical University in Prague, Technická 2, 166 27 Prague 2, Czech Republic, [email protected], [email protected] Abstract. Jednou z možností, jak modelovat prozodické parametry, je zobecnění způsobu vnímání zvuku člověkem. Tento přístup by mohl ovlivnit i modelování emočně zabarvené řeči. Emoce mohou ovlivnit nejen např. prozodii přirozené nebo syntetické řeči, ale emotivní řeč můžeme pozorovat i u pacientů trpících neurologickým onemocněním. V tomto druhém případě může být emocionální zabarvení řeči jedním z příznaků používaných při analýze narušené řeči. Emoce se projeví v tzv. paralingvistické rovině vyjádření promluvy. V našich výzkumech budeme vycházet ze způsobu vnímání kmitočtových změn v řečovém signálu. Tyto kmitočtové změny budou patřit mezi vstupní parametry do umělé neuronové sítě (dále UNS) [1]. Při emocích hraje výraznou roli barva hlasu (tembr), která souvisí s formantovou strukturou. Součástí výzkumu je tedy také vývoj metody pro zpřesnění extrakce formantů z wav-souborů. Keywords. Prozodie, emotivní řeč, formanty, neuronové sítě. I. ÚVOD Analýza řeči, tedy i prozodie, slouží jako podpůrný prostředek při diagnózách některých neurologických onemocnění a následně pak je jedním z prostředků hodnocení výsledků léčebného procesu. Slouží ale také jako zdroj informací o mluvčím. Prozodie silně ovlivňuje přirozenost syntetické promluvy. Kromě běžně používaných prozodických parametrů, kterými jsou základní kmitočet F0, trvání řečové jednotky a intenzita, se začínají zkoumat i další parametry související s prozodií, jako např. barva hlasu. Ta souvisí s vyjádřením emocí v řeči, ale může být ovlivněna také patologickými změnami. Těmito problémy jsme se začali zabývat i v laboratoři LANNA (Laboratoř umělých neuronových sítí). Chtěli bychom v budoucnu prokázat vztah mezi základním kmitočtem lidského hlasu F0, formantovými kmitočty F1, F2,..., Fn a emocemi. Emoce se projeví v tzv. paralingvistické rovině vyjádření promluvy. To znamená, že lingvistické vyjádření promluvy zůstává neměnné, proměnná je pouze vlastní realizace promluvy. Kromě kmitočtových závislostí patří k výrazným rysům emotivní promluvy změny trvání segmentů. Jedná se o změny tempa, tedy o nepravidelnosti v délce jednotlivých segmentů uvnitř promluvy (často se jedná o Změna tempa na konci prodlužování segmentů). 90 promluvy je podmíněna fyziologicky. Také prozodický parametr považovaný za nejméně významný, tedy intenzita promluvy, je při zkoumání emotivní řeči mnohem důležitější, než v případě neemotivní řeči. Pomocí intenzity můžeme rozlišit tzv. pasivní a aktivní emoce. Mezi pasivní emoce patří např. smutek nebo nuda, mezi aktivní emoce radost a hněv. Vzhledem k tomu, že emoce je obtížné, ne-li nemožné, popsat matematickými vztahy, lze předpokládat, že bude výhodné k jejich popisu a zpracování použít umělé neuronové sítě. Prostřednictvím prozodie jsme informováni o některých charakteristikách mluvčího, a to i bez jeho vědomí. Jsou to např. informace o věku a pohlaví mluvčího, o jeho regionálním i sociálním původu, ale také o možném onemocnění. Informace obsažené v promluvě dokážeme správně vyhodnotit, pokud známe okolní kontext. Jeho znalost lze částečně nahradit interpretací prozodie. Stejný text (posloupnost fonémů) může posluchač vnímat různě. Souvisí to s rozdílnou interpretací prozodických parametrů, zejména intonace. II. EMOTIVNĚ ZABARVENÁ ŘEČ Z psychologického hlediska se emoce dělí do dvou velkých skupin. Do první z nich patří tzv. syrové emoce, fyziologické narušení a šok nebo záchvat. Druhou skupinu tvoří socializovaná emoce, chování a chronická forma nějakého stavu. Tato druhá skupina se nazývá „postojem“. V našich prvních experimentech jsme využívali čtyři základní emoce: radost, smutek, strach a vztek. Podle [3] provázejí většinu emocí fyziologické změny, k nimž patří změna srdečního rytmu a krevního tlaku, žaludeční stahy, bledost nebo naopak červenání. Tyto fyziologické změny se projevují u všech čtyř emocí, nelze je tedy jednoznačně odlišit pouze na základě těchto změn. Při emocích hraje výraznou roli barva hlasu (tembr), která souvisí s formantovou strukturou. Je charakteristická pro každého jednotlivce, získává se průchodem nadhrtanovými rezonátory, rezonancí v lebeční dutině, ale i změnou postavení rtů a jazyka. Barva hlasu se projevuje tzv. vyššími formantovými kmitočty. Z hlediska percepce emocí projevovaných v řeči, jsou důležité tzv. rozdílové resp. kombinační tóny. Jedná se o