001_slajdy (1-7)

Transkript

001_slajdy (1-7)
Hodnocenı́ vývoje léčby u dětı́ s poruchami řeči
Petr Zlatnı́k, Roman Čmejla
České vysoké učenı́ technické v Praze, Fakulta elektrotechnická
[email protected], [email protected]
Abstrakt: Článek popisuje metodu, která byla navržena pro hodnocenı́ vývoje
léčby dětı́ s poruchami řeči. Metoda je založena na algoritmu borcenı́ časové
osy (DTW), kdy je využito vı́ce vstupnı́ch charakteristik řeči. Tı́m je zvýšena
robustnost klasifikátoru z hlediska spolehlivosti třı́děnı́ promluv, protože jsou
hodnoceny z vı́ce fonetických aspektů. Výběr byl udělán z původnı́ch testovaných sedmnácti charakteristik a byl založen na výsledcı́ch separace promluv
nemocných dětı́ od zdravých při využitı́ DTW, kdy bylo provedeno vyhodnocenı́ šumové odolnosti. Dalšı́ kritérium výběru bylo založeno na počı́tánı́
průměrných euklidovských vzdálenostı́ mezi všemi hláskami české abecedy,
kdy je potřeba zajistit co nejlepšı́ zachycenı́ změny jakékoliv hlásky nemocným
dı́tětem v testovaném slově. V přı́spěvku jsou uvedeny výsledky klasifikace
vývoje léčby sedmi léčených dětı́, kdy testy byly provedeny pro třı́, čtyř a
pěti-slabičná slova.
1.
Úvod
Algoritmus borcenı́ časové osy [1,9] lze využı́t pro porovnánı́ promluv řečově postižených
dětı́ (pro konkrétnı́ testované slovo, např.: ”mateřı́douška”) s průměrným modelem sestaveným z promluv zdravých dětı́ [10]. Jednotlivé promluvy lze jednak spolehlivě oddělit
od zdravých a dále lze odhadnout vývoj léčby, zda se v průběhu stav dı́těte lepšı́ nebo
ne. Daná metoda je založena na principu nárůstu akumulovaných vzdálenostı́ při porovnánı́ s modelem zdravých dětı́, pokud jsou v promluvách nemocných dětı́ zaměněny,
prodlouženy nebo vynechány hlásky a slabiky. K tomu docházı́ z důvodu postiženı́ dětı́
vývojovou dysfáziı́ (vývojová nemluvnost dı́těte, dı́tě má problém s řečı́ již od doby, kdy
začı́ná mluvit) popřı́padě afáziı́ (porucha mozkových center, která odpovı́dajı́ za tvorbu
řeči za stavu, když již dı́tě umělo mluvit, pokud se přidajı́ epileptické výboje v mozku,
jedná se o tzv.: Landau-Kleffnerův syndrom). Pokud se stav dı́těte v průběhu léčby zlepšı́
a dı́tě začne lépe mluvit, dojde k poklesu vzdálenostı́ a tı́m je zaznamenána úspěšnost
léčby.
Projekt je řešen ve spolupráci s Fakultnı́ nemocnicı́ v Motole, kde jsou nahrávány promluvy postižených dětı́ včetně léčby. Metoda byla navržena s cı́lem oddělit promluvy
nemocných dětı́ od zdravých se zachycenı́m vývoje léčby.
Odlišný přı́stup klasifikace promluv pacientů postižených Parkinsonovou chorobou byl
využit v [2], kde bylo využito DTW pro zarovnánı́ promluv a Itakurova Saitova mı́ra
zkreslenı́.
2.
2.1.
Popis a výběr vhodných řečových charakteristik
Výběr charakteristik z hlediska euklidovských vzdálenostı́
Průměrné vzdálenosti mezi jednotlivými hláskami z osmnácti promluv od různých mluvčı́ch
byly nejprve normovány k maximálnı́ hodnotě, tı́m se rozsah hodnot změnı́ od 0 do 1.
To je nutné proto, aby bylo možné vzdálenosti vzájemně porovnávat. Pro každou testovanou hlásku byla přiřazena průměrná hodnota euklidovské vzdálenosti (ze všech osmnácti
promluv) nejprve pro vzdálenosti stejné hlásky (tı́m že byla hláska vyslovena různými
mluvčı́mi, tak vzdálenosti nejsou nulové) a následně byla vyhledána hláska s nejnižšı́
průměrnou vzdálenostı́. Mělo by platit, že vzdálenosti uvnitř stejných hlásek jsou menšı́
než minimálnı́ vzdálenosti k jiným hláskám. Označı́me-li vektor vzdálenostı́ pro stejné
hlásky vin a vektor minimálnı́ch vzdálenostı́ různých hlásek vout (oba vektory obsahujı́ 30
prvků, protože je testováno 30 hlásek abecedy), je možné vypočı́tat poměr průměrných
hodnot µ(v) obou vektorů Pv podle následujı́cı́ho vztahu
Pv =
µ(vout )
.
µ(vin )
(1)
Pv
ZCR
1. CC
1. LPC
2. CC
En
MELSPEC
0. CC
Ep
1. MOM
LPC
2. MOM
RC
CC
specPLP
MFCC
1.1
FBANK
cepPLP
Pokud parametrizace korektně pracuje, tak by hodnota Pv měla být většı́ než 1 a měla
by být tı́m většı́, čı́m parametrizace lépe odděluje nejbližšı́ hlásky podle euklidovských
vzdálenostı́. U většiny parametrizacı́ však hodnota Pv nedosáhne hranici 1 a tato hodnota
je překročena jen pro nejpřesnějšı́. Z tohoto hlediska vycházejı́ špatně jednorozměrné parametrizace, protože hlásek napřı́klad s podobnou energiı́ nebo počtem průchodů nulou je
v abecedě vı́c a tı́m jsou jejich vzdálenosti velmi malé. Výsledky jsou uvedeny v tabulce
1, kde je uvedeno pořadı́ parametrizacı́ podle Pv s přı́slušnými hodnotami.
Výsledek je dále zobrazen na obrázku 1, kde jsou vyneseny hodnoty Pv . Je jednoznačně
vidět, že nejlepšı́ separaci hlásek zajišt’ujı́ koeficienty cepPLP. Koeficienty SpecPLP-RASTA
CepPLP-RASTA nelze tı́mto způsobem testovat, protože z důvodu nutnosti filtrace nelze
parametrizovat jen jednotlivé segmenty, což je nutné v přı́padě časově velmi krátkých
hlásek.
1
0.9
0.8
0
2
4
6
8
10
index parametrizace
12
14
16
18
Obrázek 1: Schopnost separace jednotlivých charakteristik z hlediska euklidovských
vzdálenostı́.
2.2.
Výběr charakteristik z hlediska šumové odolnosti
Vyhodnocenı́ bylo provedeno následujı́cı́m způsobem. Byly vybrány co nejkvalitnějšı́ nahrávky
zdravých a nemocných dětı́, nahrávaných již novým nahrávacı́m zařı́zenı́m Apple Macintosh. Pomocı́ algoritmu DTW se provedlo pro každou realizaci porovnánı́ promluv (pro
POŘADÍ PARAMETRIZACE Pv
1.
cepPLP
1,041
2.
FBANK
1,029
3.
MFCC
1,003
4.
specPLP
0,984
5.
CC
0,979
6.
RC
0,968
7.
2. MOM
0,884
8.
LPC
0,877
9.
1. MOM
0,874
10.
Ep
0,870
11.
0. CC
0,870
12.
MELSPEC
0,867
13.
En
0,866
14.
2. CC
0,863
15.
1. LPC
0,856
16.
1. CC
0,841
17.
ZCR
0,837
out )
Tabulka 1: Pořadı́ parametrizacı́ podle poměru Pv = µ(v
vektorů vzdálenostı́ uvnitř
µ(vin )
stejných hlásek µ(vin ) a různých hlásek s nejmenšı́ vzdálenostı́ µ(vout ) (oba vektory obsahujı́ 30 prvků, protože je testováno 30 hlásek, čı́m parametrizace lépe odděluje nejbližšı́
hlásky z hlediska euklidovských vzdálenostı́, tı́m je hodnota Pv vyššı́).
dané účely byly využity promluvy slova různobarevný a bylo provedeno 20 různých realizacı́ porovnánı́) zdravého a nemocného dı́těte a zı́skala se akumulovaná vzdálenost Sn
pro každou realizaci zvlášt’. Následně se přičetl testovaný šum k promluvě nemocného
dı́těte s přı́slušným nastavenı́m SSNR 5 dB a porovnánı́ bylo provedeno znova s výpočtem
vzdálenosti Sxn . Potom byl vypočı́tán poměr vzdálenostı́ pn definovaný rovnicı́ nı́že, kde
n = 1, 2, ..., 20 je index realizacı́. Pro popsánı́ úrovně přičı́taného šumu k promluvám
nemocných dětı́ bylo využito SNR (Signal to Noise Ratio). Výpočet SNR se provádı́
v různých modifikacı́ch podle toho, jaký druh signálu zpracováváme. Může být např.:
globálnı́, lokálnı́ nebo segmentálnı́. Právě segmentálnı́ SNR (SSNR) bylo využito pro
uvedené účely. To se vypočı́talo zprůměrovánı́m lokálnı́ho SNR počı́taného ve všech segmentech zpracovávané promluvy při obvyklé délce segmentu 20 ms.
pn =
Sxn
.
Sn
(2)
Pokud by byla v ideálnı́m přı́padě některá z parametrizacı́ na vliv šumu necitlivá, pn = 1
pro všech 20 realizacı́ porovnánı́. Pro vyhodnocenı́ byl vypočı́tán ze všech realizacı́ pn
2
rozptyl σpn
, jehož hodnota je úměrná velikosti chyb vznikajı́cı́ch vlivem šumu a podle něho
je dále možné parametrizace seřadit, což je provedeno na obrázku 2. Pro testy šumové
odolnosti byly zvoleny nahrávky reálného barevného šumu z mı́stnosti kde se nemocné
děti nahrávajı́ a přı́slušný šum byl způsoben předevšı́m ventilátorem zapnutého počı́tače
a brumem zářivkového svı́tidla.
Z obrázku 2 je vidět. že nejvı́ce odolné z hlediska barevného šumu a DTW jsou spektrálnı́
koeficienty z MEL frekvenčnı́ banky filtrů (MELSPEC) a nejméně odolné jsou koeficienty
Obrázek 2: Šumová odolnost jednotlivých charakteristik testovaná pro promluvy
zašuměné barevným šumem (hluk zářivky a ventilátor počı́tače) se SSNR 5 dB.
určené logaritmem energie signálu (En).
Po zváženı́ těchto kritériı́ byly vybrány tyto tři parametrizace: koeficienty z logaritmické
MEL frekvenčnı́ banky filtrů (FBANK) [3,4], kepstrálnı́ PLP koeficienty (cepPLP) [7] a
kepstrálnı́ PLP-RASTA koeficienty (cepPLP-RASTA) [8]. Koeficienty cepPLP a cepPLPRASTA byly navrženy z důvodu zmenšenı́ vlivu barvy hlasu mluvčı́ho na úspěšnost rozpoznávánı́ řeči a tento předpoklad se projevil přı́znivě i za této situace. Pokud některé ze
zdravých dětı́ mělo hluboký nebo zastřený hlas v porovnánı́ s ostatnı́mi, docházelo k tomu,
že tyto promluvy byly klasifikovány k hranici nemocných dětı́ i když byla promluva vyslovena správně. Předevšı́m tyto dvě parametrizace jsou schopny tento problém potlačit.
Z tohoto důvodu nejsou využity běžně využı́vané MEL frekvenčnı́ kepstrálnı́ koeficienty
(MFCC) [3,4], které se za této situace chovajı́ nepřı́znivě.
3.
Realizace klasifikátoru
Pro testovánı́ byly k dispozici záznamy řečových promluv ze souboru 23 dětı́ s vývojovou
dysfázii ve věku od 4 do 10 let. Zdravé kontroly tvořily promluvy zı́skané od 72 dětı́ ve
věku od 6 do 10 let. V tomto článku popisujeme výsledky u 7 dětı́ s dysfáziı́, u kterých
byly po přechodnou dobu podávány benzodiazepiny.
Základnı́ princip metody je uveden na obrázku 3 (podrobnějšı́ popis metody včetně matematického lze nalézt v [10]). Testované slovo je segmentováno s překryvem 50 % a délkou
segmentů 20 ms. Následně je proveden popis slova všemi třemi parametrizacemi zvlášt’ a
pro každou situaci je provedeno porovnánı́ pomocı́ DTW s průměrným modelem zdravých
dětı́ Φ. Rozsah vypočı́taných akumulovaných vzdálenostı́ CDP (Cumulated Distance of
Parameterization) je pro každou parametrizaci jiný, proto je potřeba provést normovánı́,
aby je bylo možno vzájemně porovnávat a sečı́st. Tı́m se zı́ská vzdálenost testovaného slova
CDW (Cumulated Distance of Word). Aby byl výsledek testu nemocného dı́těte relevantnı́,
je potřeba zı́skat celkové hodnocenı́ přes vı́ce slov, protože některá testovaná slova můžou
být vyslovena skoro správně nebo správně a nemocné dı́tě by pak bylo hodnoceno jako
zdravé, pokud by bylo hodnocenı́ provedeno jen ze správně vyslovených promluv. Proto
je celkové hodnocenı́ zı́skáno z devı́ti testovaných slov (různobarevný, mateřı́douška, motovidlo, popelnice, televize, dědeček, pohádka, pokémon a květina) sečtenı́m jednotlivých
hodnot CDW a je zı́skána celková akumulovaná vzdálenost SCD (Summary Cumulated
Distance), která je měřı́tkem stupně postiženı́ dı́těte a může být pro vyhodnocenı́ opět
normována. Protože je celkový výsledek zı́skáván pomocı́ vı́ce parametrizacı́, je zajištěno
hodnocenı́ promluv z vı́ce fonologických aspektů a dojde k částečné kompenzaci chyb,
které vznikajı́ při využitı́ jen jedné parametrizace. To je způsobeno tı́m, že každá parametrizace je citlivá na různé skupiny hlásek z hlediska euklidovských vzdálenostı́.
slovo 1
FBANK
Ö
DTW
cepPLP
Ö
DTW
cepPLP-RASTA
Ö
DTW
CDP1
CDP2
CDP3
CDW
SCD
slovo 9
Obrázek 3: Princip klasifikátoru založeném na principu DTW (podrobnějšı́ popis lze nalézt
v [10]). CDP - kumulovaná vzdálenost parametrizace, CDW - kumulovaná vzdálenost
testovaného slova, SCD - celková kumulovaná vzdálenost charakterizujı́cı́ stupeň postiženı́
dı́těte, Φ - průměrný model zdravých dětı́.
4.
Dosažené výsledky
Na obrázku 4 jsou zobrazeny vývoje léčby sedmi dětı́ pro testované slovo ”motovidlo”
nahrávaných přibližně po třech měsı́cı́ch. Průměrný model zdravých dětı́ (na obrázku 3
značen Φ) vznikl z promluv 23 dětı́ (vzdálenosti na obrázku 4 značeny bı́lými kruhy),
kdy přı́slušná výška znamená průměrnou akumulovanou vzdálenost konkrétnı́ promluvy
od všech ostatnı́ch promluv zdravých dětı́ a dále byla provedena normalizace vzdálenostı́
zdravých dětı́ k hodnotě 1. Černé kruhy zaznamenávajı́ vývoj léčby sedmi dětı́ a jejich
výška znamená průměrnou akumulovanou vzdálenost promluvy nemocného dı́těte od promluv všech zdravých dětı́. Obrázek je rozdělen do čtyř částı́. V prvnı́ až třetı́ (CDP1 až
CDP3) části jsou zobrazeny vývoje pro dané slovo jako výstupy klasifikace pro jednotlivé parametrizace, čtvrtá část (CDW) zobrazuje výslednou klasifikaci slova součtem přes
všechny tři využité parametrizace.
Na obrázku 5 je výsledek klasifikace dětı́ přes všech 9 testovaných slov, který vznikl
součtem mezivýsledků klasifikace jednotlivých slov (podle obrázku 4) s provedenı́m normalizace hodnot vzdálenostı́.
K neshodě výsledku klasifikace automatického hodnocenı́ s psychologem docházı́ jen v přı́padě
dı́těte označeného čı́slem 2, kde je hodnocenı́ velmi obtı́žné, protože dané dı́tě má rodiče
jiné národnosti než české, což se odrážı́ v jeho výslovnosti. V ostatnı́ch přı́padech je celkový
výsledek klasifikace v pořádku. Shoda výsledků klasifikace jednotlivých slov s psychologem
přes všech devět slov od všech léčených sedmi dětı́ je tedy přibližně 86 %.
Obrázek 4: Vývoj léčby sedmi dětı́ pro slovo ”motovidlo” po přibližně třech měsı́cı́ch léčby
(černé kruhy), bı́lé kruhy znamenajı́ průměrný model zdravých dětı́. CDP1 až CDP3 jsou
výstupy jednotlivých parametrizacı́ a CDW znamená výslednou klasifikaci slova.
Obrázek 5: Celkový normovaný výsledek klasifikace sedmi dětı́ přes všech 9 testovaných
slov nahrávaných po přibližně třech měsı́cı́ch léčby (černé kruhy), bı́lé kruhy znamenajı́
průměrný model zdravých dětı́. Čárkovaná čára (hodnota 1) znamená hranici zdravých
dětı́.
5.
Závěr
V tomto článku je popsána původnı́ metoda klasifikace promluv řečově postižených dětı́,
která je založena na DTW algoritmu. Klasifikátor je schopný úspěšně zaznamenávat vývoj
léčby. Jsou zde uvedeny vhodné parametrizace vhodné pro dané účely a výsledky klasifikace na reálných promluvách.
Autorům nenı́ známa literatura uvádějı́cı́ podobný přı́stup pro posouzenı́ srozumitelnosti
dětských promluv.
6.
Poděkovánı́
Práce je podporována granty GA ČR - 102/03/H085 ”Modelovánı́ biologických a řečových
signálu”, IGA MZ ČR - NR 8287-3/2005 ”Počı́tačová analýza řečového projevu a celonočnı́ch EEG záznamu u dětı́” a MŠM6840770012 ”Transdisciplinárnı́ výzkum v biomedicı́nském inženýrstvı́ 2”.
Reference
[1] Rabiner, L. - Juang, P. : Fundamental of speech recognition. Prentice Hall, 1984,
U.S.A..
[2] Gu, L. - Harris, John, G. - Shrivastav, R. - Sapienza, Ch. : Disordered Speech Evaluation Using Objective Quality Measures. In International Conference on Acoustic,
Speech and Signal Processing (ICASSP), Philadelphia, USA, March 18-23, 2005, p.
321-324, ISSN: 1520-6149, ISBN: 0-7803-8874-7.
[3] Young, S. - et al. : The HTK Book. Version 3.2.1, Cambridge 2002, England.
[4] ETSI. : European Telecommunications Standards Institute. Nov. 2003, ETSI Standard,
ETSI ES 202212, Version 1.1.1 France.
[5] Harrington, J. - Cassidy, S. : Techniques in speech acoustics. Kluwer Academic Publishers 1999, Netherlands.
[6] Deller, J. R. - Hansen, J. H. L. - Proakis, J. G. : Discrete-time processing of speech
signals. IEEE Press 2000, U.S.A..
[7] Heřmanský, H. : Perceptual linear predictive (PLP) analysis for speech. J. Acoust.
Soc. Am., pp. 1738-1752, 1990.
[8] Heřmanský, H. - Morgan, N. : Rasta processing of speech. IEEE Transaction on Speech
and Audio Processing, Vol. 2, No. 4, pp. 587-589, October 1994, U.S.A..
[9] Psutka, J. : Komunikace s počı́tačem mluvenou řečı́. Vydala Academia Praha, tisk
CENTA, spol. s. r. o., Veveřı́ 39, Brno, 1995.
[10] Zlatnı́k, P. - Čmejla, R. : Disordered Speech Evaluation Using the DTW Algorithm.
In Analysis of Biomedical Signals and Images - Proceedings of Biosignal 2006. Brno:
VUTIUM Press, 2006, s. 70-72. ISBN 80-214-3152-0.

Podobné dokumenty

Vyhodnocován´ı vad reci det´ı s vyuzit´ım algoritmu DTW

Vyhodnocován´ı vad reci det´ı s vyuzit´ım algoritmu DTW začı́najı́ mı́t problémy, popřı́padě nevyslovı́ až delšı́ věty. Naopak, některé děti nevyslovı́ již třı́slabičná slova. Proto bylo provedeno porovnánı́ promluv od jednotlivých samoh...

Více

Sborník konference

Sborník konference Slavný Dieudonného výrok „Pryč s Eukleidem!V docela dobře vyjadřoval zaměření ministerské komise pověřené vypracováním nových učebních plánů matematiky na základních školách a gymnáziích. Ústřední ...

Více

Téma / Děti a jídlo - Raná péče Kuk, z.ú.

Téma / Děti a jídlo - Raná péče Kuk, z.ú. ( Obsah/Úvodník/Tiráž ( Úvodník

Více

Markovské rozhodovací procesy, zpětnovazebné učení

Markovské rozhodovací procesy, zpětnovazebné učení doporučený tah v polı́čku (stavu) je stejný nezávisle na počtu již provedených tahů. • Reprezentovat stacionárnı́ strategii je snažšı́. • Máme–li jistotu, že agent musı́ skončit v cı...

Více

„Chibiny“ versus „Aegis“: co tak vystrašilo Pentagon - charvat

„Chibiny“ versus „Aegis“: co tak vystrašilo Pentagon - charvat plavidla je boj nejen s takovými pomalými a pomalu manévrujícími cíly jako SU-24, ale i s cíly mnohem obtížnějšími - protilodními raketami, jejichž rychlost i manévr o vat elnost není ohraničená př...

Více

VÝPRODEJ – ČOKOLÁDOVÁ FONTÁNA a jiné

VÝPRODEJ – ČOKOLÁDOVÁ FONTÁNA a jiné nápoje, dekoraci atd.. Výrobce Cambro USA. Model PSB 23, objem nádoby 58,4 litru a průměr horní je 58 cm. Materiál, průhledný tvrzený plast s venkovním vzorem, Výprodej 2 ks z výstavy.

Více

offline v PDF - Mathematical Assistant on Web

offline v PDF - Mathematical Assistant on Web Podobně jako pro funkce jedné proměnné definujeme i pro funkce vı́ce proměnných lokálnı́ extrémy následovně: funkce má v daném bodě lokálnı́ minimum, pokud v nějakém okolı́ tohoto b...

Více