Automatické hodnocení pauz v °e£iu Parkinsonovy

Transkript

Automatické hodnocení pauz v °e£iu Parkinsonovy
Automatické hodnocení pauz v °e£i u Parkinsonovy nemoci
J. Hlavni£ka, J.Rusz, R.ƒmejla
Katedra teorie obvod·, Fakulta elektrotechnická, ƒVUT v Praze
Abstrakt
Studie se zabývá metodou pro hodnocení pauz v °e£i zdravé a °e£i postiºené
vlivem Parkinsonovy nemoci. Realizace metody spo£ívala v návrhu klasikátoru
°e£ / pauza a sady p°íznak· pro popis fyziologické schopnosti produkce pauz.
Klasikátor je zaloºen na postupné separaci sloºek °e£i EM-algoritmem. Klasikátor je schopen rozli²it hlásky / konsonanty / pauzu / respiraci jako samostatné
t°ídy. Informa£ní zisk klasikátoru byl zvý²en p°izp·sobením hranic okének poloze spektrálních zm¥n. Ze sady 22 p°íznaku projevilo 15 p°íznak· statistickou
významnost (p<0.05 ) k odli²ení parkinsonického a zdravého mluv£ího. Známé
p°íznaky poukazující na pomalost a sou£asné zrychlování °e£i u Parkinsonovy nemoci se poda°ilo vyjád°it automatickou metodou. Nov¥ byly objeveny p°íznaky
vy²²ího ovlivn¥ní pauz respirací a vy²²í zastoupení respirace v pauzách.
1
Úvod
Parkinsonova nemoc (PN ) je po Alzheimerov¥ nemoci druhým nejroz²í°en¥j²ím neurodegenerativním onemocn¥ním. Jeho prevalence 0.3% pro celou populaci [1] vzr·stá s v¥kem nap°. od 65
let na 1.6% [2]. S ohledem na stárnutí populace ve vysp¥lých zemích se o£ekává nár·st po£tu pacient· PN z 4.1−4.6 milionu pacient· odhadovaných k roku 2005 aº na 8.7−9.3 milionu pacient·
p°edvídaných k roku 2030 [3]. PN omezuje motoriku i celkovou kvalitu ºivota pacienta, který se
postupn¥ stává zát¥ºí pro své okolí. Dobudoucna tedy PN p°edstavuje velký socio-ekonomický
problém.
Diagnostika i monitoring PN vyºaduje p°ítomnost pacienta ve zdravotnickém za°ízení.
Telemedicínské aplikace pro posouzení PN jsou obvykle zaloºeny na detekci zjevných motorických
p°íznak· ze signál· akcelerometru £i EMG. Tyto symptomy se v²ak za£ínají projevovat aº p°i
50 − 60% postiºení klí£ového mozkového centra [4, 5]. Náklady na snímací za°ízení, nutnost
odborné asistence £i zát¥º pacienta pat°í mezi dal²í nevýhody p°ímého snímání motorických
projev·. Oproti tomu po°ízení °e£ového signálu je neinvazivní, £asov¥ i technicky nenáro£né.
Sou£asn¥ s tím lidská °e£ jako komplexní £innost reektuje nejen du²evní tvorbu °e£i, ale také
schopnost ovládat jemnou motoriku °e£ového aparátu a vyºaduje i správnou funkci v²ech jeho
sou£ástí. Kaºdá porucha °e£ového ústrojí se tak projeví typickou poruchou °e£i. To £iní z °e£i
kvalitní zdroj dat pro budoucí výzkum i aplikace nejen PN, ale i nap°. Huntingtonovy nemoci
[6], Alzheimerovy nemoci [7], roztrou²ené sklerózy [8], schizofrenie [9] atd.
Význam °e£ových poruch u PN pro nap°. brzkou diagnostiku [10, 11] £i monitoring progrese
nemoci [12, 13] a odpov¥di na medikaci [14, 15] jiº byl p°edm¥tem studií. Hodnocení postiºení
°e£i se v²ak opírá o £asov¥ náro£nou ru£ní segmentaci °e£ového signálu. Dal²ím logickým krokem
do budoucna je tedy hodnocení automatizovat. Prezentovaná studie si klade za cíl navrhnout
automatickou metodu pro hodnocení produkce pauz. Metoda zahrnuje robustní klasikátor °e£ /
pauza a sadu p°íznak·. Na rozdíl od b¥ºných detektor· °e£ové aktivity prezentovaný klasikátor
posuzuje °e£ a pauzu nikoliv na úrovni vnímání nýbrº na úrovni jejich skute£né fyziologické
produkce. Li²í se tedy mnohem vy²²í citlivostí. Klasikátory pro tyto ú£ely obvykle spo£ívají v
prahování výkonové obálky empirickou konstantou [16], která je v²ak závislá na jakosti signálu.
Pro automatickou klasikaci byl publikován pouze jeden algoritmus [17], jeº klasikuje na základ¥
odhadu této konstanty. Sada p°íznak· byla navrºena pro odli²ení zdravé °e£i a °e£i postiºené PN
na základ¥ výstupu klasikátoru.
2
Metoda
Databáze mluv£ích sestávala z kontrolní skupiny 23 zdravých mluv£í KS a skupiny 22 pacient·
PN. Ob¥ skupiny byly pohlavím i v¥kov¥ vyváºené. V²ichni mluv£í spadají do v¥kové skupiny
50 − 80 let s pr·m¥rným v¥kem 65 let a sm¥rodatnou odchylkou 9.7 roku pro skupinu PN a
s pr·m¥rným v¥kem 64 let a sm¥rodatnou odchylkou 10 let pro skupinu KS. Obsahem v²ech
promluv byl standartizovaný £tený text o délce 80 slov. V²echny zvukové nahrávky byly ru£n¥
segmentovány na t°ídy °e£ / pauza. Hranice segment· byly stanoveny ze spektrogramu jako
hranice zm¥n ve spektru.
Prezentovaná metoda p°edpokládá multimodální logaritmicko-normální rozd¥lení parametr·: výkon signálu (P ), po£et pr·chod· nulou (ZCR ), rozptyl autokorela£ní funkce (ACR ) a
melových kepstrálních koecient· (MFCC ). Pro klasikaci budeme uvaºovat t°ídy: zn¥lá °e£,
nezn¥lá °e£, respirace, pauza. K odhadu parametr· normálního rozd¥lení t¥chto t°íd bylo pouºito
EM-algoritmu.
Abychom zvý²ili jakost informací za sou£asného sníºení dimenze dat, nebylo pouºito konven£ního okénkování s konstantní délkou okna nýbrº pruºné segmentace. Hranice okének stanoví
automatický algoritmus z výstupu Autoregresního bayesovského detektoru zm¥n [18] jako nejvýznam¥j²í spektrální zm¥ny v okolí o délce dmin , jak je ilustrováno na obrázku (1). Délky okének
mají prom¥nnou délku d ∈ < dmin ; 2 · dmin >. Odchylky hranic pruºné segmentace od hranic ru£n¥ segmentovaných vykazovaly nap°í£ celou databází normální rozd¥lení. Okénkování s
konstantní délkou okna oproti tomu vykazuje vºdy rovnom¥rné rozd¥lení. Hranice pruºné segmentace se tedy blíºí lidskému rozhodování o hranicích segment·. e£ový signál vzorkovaný na
24kHz parametrizujeme v rámci okének pruºné segmentace. Zn¥lé sloºky °e£i odhadneme v prostoru (P, ZCR, ACR ), který nejlépe popisuje harmonicitu signálu. Ostatní t°ídy mají charakter
²umu a lze je výstiºn¥ji vyjád°it v prostoru MFCC. Samotná klasikace je zaloºena na postupné
separaci sloºek °e£i. Nejprve jsou separovány zn¥lé sloºky °e£i, poté nezn¥lé, respirace a pauzy.
Konsonanty jsou velmi podobné respiraci, nicmén¥ v indoevropské jazykové skupin¥ se vyskytují v t¥sné blízkosti hlásek cca do 200ms. Na tomto principu spo£ívá vyhlazení rozhodování
konsonant. Pro porovnání ú£inosti jsme implementovali téº konven£ní klasikátor °e£ / pauza
navrºený pro klasikaci dysartrické °e£i [17].
K vyjád°ení fyziologických kvalit °e£ového projevu jsme navrhli sadu 22 p°íznak·. P°i
°ádov¥ odli²ných délkách pauz se uplat¬ují odli²né orgány °e£ového aparátu (nap°. krátké pauzy
- rty a jazyk, st°ední pauzy - téº hlasivky, dlouhé pauzy - navíc i respira£ní aparát). Pro pauzy
jsme proto denovali následující £asové hranice: Minimální délku pauzy budeme uvaºovat od
K
D
Y
š
L
ƒ
O
V
f [kHz]
6
4
2
0
0.1
0.2
0.3
0.4
0.5
0.6
t [s]
Obrázek 1: Spektrogram °e£ového signálu s vyzna£enými hranicemi pruºné segmentace (svislé
£erné linie) pro parametr dmin = 20ms
15ms. Od této hranice po 50ms budeme hovo°it o krátkých pauzách, jejichº výskyt je vedlej²ím
produktem artikulace - typicky na rozhraní zn¥lých a nezn¥lých foném·. Od 50ms do 100ms
budeme uvaºovat st°ední pauzy - ty mají význam jednak pro artikulaci explosív, jednak pro
zvýrazn¥ní ko°en· sloºených slov. Pauzy od 100ms berme za dlouhé pauzy pro formální £len¥ní
textu a vykonání respirace. Celá sada zahrnuje p°íznaky:
• Základní: Po£et v²ech pauz (nP ), po£et v²ech krátkých pauz (nPk ), po£et st°edních pauz
(nPs ), po£et v²ech dlouhých pauz (nPd ) a st°ední artikula£ní rychlost (mVS ).
• Pom¥rná zastoupení: Pom¥r pauzy a °e£i (pPS ), zastoupení krátkých pauz (zPk ), za-
stoupení st°edních pauz (zPs ), zastoupení dlouhých pauz (zPd ) a zastoupení respirace
(pRP ).
• Rychlost produkce: St°ední rytmus pauz (srP ), pom¥rná rytmicita respirace (prR ),
st°ední rychlost produkce pauz (mVP ), st°ední produkce krátkých pauz (mVPk ), st°ední
produkce st°edních pauz (mVPs ) a st°ední produkce dlouhých pauz (mVPd ).
• Dynamiku produkce: Pom¥r produkce krátkých pauz (ppP ), akcelerace rytmu artiku-
lace (arA), akcelerace produkce pauz (aVP ), akcelerace produkce krátkých pauz (aVPk ),
akcelerace produkce st°edních pauz (aVPs ) a akcelerace produkce dlouhých pauz (aVPd ).
Délka pauzy je pro sadu p°íznak· velmi d·leºitým údajem, proto ohodnocení klasikátoru
bere v potaz délku nalezených pauz podle denice parametru s(l) ur£ené vztahem (1):
P
c(l)
s(l) = 100. P
,
v(l)
(1)
kde c(l) zastupuje správn¥ detekované hranice pauz del²ích neº práh l. Pokud bylo detekováno
více pauz del²ích prahu l neº o£ekáváme, pak hodnota v(l) bude zastupovat po£et po£et v²ech detekovaných pauz del²ích neº práh l. Pokud v²ak bylo detekováno mén¥ pauz neº o£ekáváme, pak
bude hodnota v(l) zastupovat o£ekávaný po£et nalezených pauz. Hodnocení tak m·ºe sp°ísnit
práv¥ p°ípadný nadbyte£ný £i podbyte£ný po£et pauz do jednoho výsledku. Pro lep²í £itelnost
výsledné informace budeme hodnotit kumulativní ú£inností v závistlosti na rostoucí délce. P°íznaky byly hodnoceny nepárovým dvojvýb¥rovým t-testem.
3
Výsledky
Klasikátor vykázal pro pauzy od 100ms ú£innost (> 50%) a pro pauzy od 200ms ú£innost
(> 80%). P°i porovnání s konven£ním algoritmem [17] prosp¥l klasikátor pro pauzy (< 100ms)
o 20% vy²²í ú£inností a pro pauzy (> 100ms) o 10% vy²²í ú£inností. Skupina KS i PN zatíºila ob¥ hodnocené metody stejnorodou chybou ilustrovanou na obrázku (2). Z graf· je patrný
p°edev²ím výrazný nár·st chybovosti pauz délek < 100; 200 > ms. P°í£inou je zna£ná podobnost parametr· n¥kterých konsonant s parametry pauz. Respirace byla detekována s ú£inností
75 − 85% se sm¥rodatnou odchylkou 16 − 25%. Testované promluvy obsahovaly ≈ 6 nádech· a
kaºdá chyba detekce se tedy projeví silným propadem úsp¥²nosti.
Ze sady 22 p°íznaku projevilo 15 p°íznak· statistickou významnost (p < 0.05). Výsledky
jednotlivých p°íznak· ilustruje obrázek (3). Nejsignikantn¥j²ím parametrem pro odli²ení °e£i PN
jse zdá být sníºení rychlosti produkce pauz (p < 0.001). Ze skupiny základních charakteristik
projevil nejvy²²í významnost (p < 0.01) niº²í po£et st°edních pauz u PN. V sad¥ rychlostních
charakteristik obstály v²echny p°íznaky významnosti (p < 0.05) vyjma st°ední produkce krátkých
pauz. St°ední rytmus pauz dosáhl hladiny (p < 0.01). Z hlediska pom¥rných zastoupení nelze
p°ijmout za významné (p < 0.05) zastoupení st°edních a dlouhých pauz. Ve skupin¥ dynamických
charakteristik nedostála významnosti (p < 0.05) pouze akcelerace produkce st°edních pauz.
(a)
(b)
100
20
Odchylka [%]
Úsp¥²nost [%]
80
60
40
KS prezentovaná m.
15
10
KS prezentovaná m.
PN prezentovaná m.
20
PN prezentovaná m.
KS konven£ní m.
0
50
100
150
200
250
KS konven£ní m.
5
PN konven£ní m.
300
PN konven£ní m.
50
100
Délka pauzy [ms]
150
200
250
300
Délka pauzy [ms]
Obrázek 2: a) pr·m¥rná úsp¥²nost prezentované metody ve skupin¥ KS (silná modrá) a
skupin¥ PN (tenká £ervená) a pro konven£ní metodu ve skupin¥ KS (p°eru²ovaná silná
modrá) a skupin¥ PN (p°eru²ovaná tenká £ervená)
b) sm¥rodatná odchylka úspe²nosti prezentované metody ve skupin¥ KS (silná modrá) a
skupin¥ PN (tenká £ervená) a pro konven£ní metodu ve skupin¥ KS (p°eru²ovaná silná
modrá) a skupin¥ PN (p°eru²ovaná tenká £ervená)
(a)
80
(b)
*
KS
PN
60
*
3
**
40
**
2
20
KS
PN
4
***
*
1
nP
nPk
nPs
nPd
srP
mVS
prR
(c)
0.6
mVP mVPk mVPs mVPd
(d)
0.8
*
*
KS
PN
*
0.4
*
*
1
*
**
0.5
*
KS
PN
*
0.2
0
pPS
zPk
zPs
zPd
pRP
ppP
arA
-aVP -aVPk -aVPs aVPd
Obrázek 3: Výsledné ohodnocení p°íznak· skupin KS (plná modrá) a PN (£ervená bez výpln¥):
a) základní charakteristiky b) rychlost produkce c) pom¥rná zastoupení d) dynamika produkce
t-test: ∗ p < 0.05, ∗∗ p < 0.01, ∗∗∗ p < 0.001
4
Diskuze
Význam¥ niº²í sníºení rychlosti produkce pauz u PN spolu se statisticky významným niº²ím
po£tem st°edních pauz a pomalej²ím rytmem pauz poukazuje na niº²í rychlost °e£i u PN. Významn¥ niº²í hodnota p°íznaku akcelerace rytmu artikulace vypovídá o typickém zrychlování °e£i
u PN. Tomu lze p°isoudit také zrychlení celkové produkce a produkce krátkých a dlouhých pauz.
P°ihlédneme-li také k vy²²ímu zastoupení krátkých pauz a niº²ímu zastoupení st°edních pauz,
d¥je se tak pravd¥podobn¥ zrychlování na úkor st°edních pauz. Tento poznatek v£etn¥ ostatních p°íznak· jiº byly p°edm¥tem studií [19]. V této studii se v²ak v²echny p°íznaky poda°ilo
nov¥ vyjád°it a ohodnotit pln¥ automatickou metodou. Studie také zkoumala vliv respirace a
bylo zji²t¥no vy²²í zastoupení respirace a vy²²í ovlivn¥ní rytmu pauz respirací u PN. To vzhledem k nesignikantnímu po£tu dlouhých pauz i zastoupení dlouhých pauz sv¥d£í o postiºení
respira£ního aparátu u PN.
5
Záv¥r
P°ínosy studie spo£ívají nejen ve zautomatizování hodnocení produkce pauz. Krom¥ jiº známých p°íznak· produkce pauz u PN (niº²í rychlost produkce pauz, niº²í rychlost artikulace a
zrychlování °e£i) byly nalezeny i p°íznaky vy²²ího ovlivn¥ní pauz respirací a vy²²í zastoupení
respirace v pauzách u PN. Klasikátor je schopen rozli²it hlásky / konsonanty / pauzu / respiraci jako samostatné t°ídy, coº do budoucna roz²i°uje moºnou sadu p°íznak·. Dal²í uplatn¥ní
metody lze o£ekávat i pro hodnocení produkce pauz u Huntingtonovy nemoci, která je z hlediska
°e£ové poruchy protipólem PN. Metoda prezentovaná ve studii byla kompletn¥ implementována
ve výpo£etním prost°edí MATLABr .
Pod¥kování
Tento výzkum byl podpo°en projekty GAƒR 102/12/2230 a SGS 12/185/OHK4/3T/13.
Reference
[1] Rajput, A. and Birdi, S. (1997) Epidemiology of Parkinson's disease, Parkinsonism and Related
Disorders 3, 175186.
[2] deRijk, M. C., Tzourio, C., Breteler, M. M., Dartigues, J. F., Amaducci, L., Lopez-Pousa, S.,
Manubens-Bertran, J. M., Alpérovitch, A., and Rocca, W. A. (1997) Prevalence of parkinsonism and
parkinson's disease in Europe: the EUROPARKINSON Collaborative Study. European Community
Concerted Action on the Epidemiology of parkinson's disease, Journal of Neurology, Neurosurgery
and Psychiatry 62, 1015.
[3] Dorsey, E. R., Constantinescu, R., Thompson, J. P., M.Biglan, K., Holloway, R. G., Kieburtz, K.,
Marshall, F. J., Ravina, B. M., Schitto, G., Siderowf, A., and Tanner, C. M. (2006) Projected
number of people with Parkinson disease in the most populous nations, 2005 through 2030, Neurology
68, 384-386.
[4] Fearnley, J. M. and Lees, A. J. (1991) Ageing and parkinson's disease: substantia nigra regional
selectivity, Brain 114, 2283-2301.
[5] Marsden, C. D. (1992) Parkinson's Disease, Postgraduate Medical Journal 68, 538-543.
[6] Rusz, J., Klempí°, J., Baborová, E., Tykalová, T., Majerová, V., ƒmejla, R., R·ºi£ka, E., and Roth, J.
(2013) Objective Acoustic Quantication of Phonatory Dysfunction in Huntington's Disease, PLOS
ONE, 8 (6).
[7] Ballard, K. J., Savage, S., Leyton, C. E., Vogel, A. P., Hornberger, M., et al. (2014) Logopenic
and Nonuent Variants of Primary Progressive Aphasia Are Dierentiated by Acoustic Measures of
Speech Production, PLOS ONE, 9(2).
[8] Tjaden, K. and Wilding, G. (2011) Speech and pause characteristics associated with voluntary rate
reduction in Parkinson's disease and Multiple Sclerosis, Journal of Communication Disorders 44,
655-665.
[9] Nicolson, R., Lenane, M., Singaracharlu, S., Malaspina, D., Giedd, J. N., Hamburger, S. D., Gochman, P., Bedwell, J., Thaker, G. K., Fernandez, T., and Wudarsky, M. (2000) Premorbid Speech
and Language Impairments in Childhood-Onset Schizophrenia: Association With Risk Factors, The
American Journal of Psychiatry, 157(5).
[10] Harel, B. T., Cannizzaro, M. S., Cohen, H., and Reilly N, a. S. P. J. (2004) Acoustic characteristics
of Parkinsonian speech: A potential biomarker of early disease progression and treatment, Journal
of Neurolinguistics 17, 439-453.
[11] Rusz, J., ƒmejla, R., R·ºi£ková, H., and R·ºi£ka, E. (2011) Quantitative acoustic measurements for
characterisation of voice and speech disorders in early untreated Parkinson's disease, The Journal of
the Acoustical Society of America 129, 350-367.
[12] Maetzler, W., Liepelt, I., and Berg, D. (2009) Progression of Parkinson's disease in the clinical phase:
potential markers, The Lancet Neurology 8, 1158-1171.
[13] Skodda, S., R, H., and Schlegel, U. (2009) Progression of dysprosody in Parkinson's disease over
timea longitudinal study, Movement Disorders 24, 716-722.
[14] Ho, A. K., Iansek, R., Marigliani, C., Bradshaw, J., and Gates, S. (1998) Speech impairment in large
sample of pacients with Parkinson's disease, Behavioural Neurology 11, 131-137.
[15] Rusz, J., ƒmejla, R., R·ºi£ková, H., R·ºi£ka, E., Klempí°, J., Majerová, V., Picmausová, J., and
Roth, J. (2012) Evaluation of speech impairment in early stages of Parkinson's disease: a prospective
study with the role of pharmacotherapy, Journal of Neural Transmission 120, 319-329.
[16] Green, J. R., Beukelman, D. R., and Ball, L. J. (2004) Algorithmic Estimation of Pauses in Extended
Speech Samples of Dysarthric and Typical Speech, Journal of medical speech-language pathology
12, 149 - 154.
[17] Rosen, K., Murdoch, B., Folker, J., Vogel, A., Cahill, L., Delatycki, M., and Corben, L. (2010)
Automatic method of pause measurement for normal and dysarthric speech, Clinical Linguistics and
Phonetics 24, 141 - 154.
[18] ƒmejla, R., Rusz, J., Bergl, P., and Vok°ál, J. (2013) Bayesian changepoint detection for the automatic assessment of uency, and articulatory disorders, Speech Communication 55, 178-189.
[19] Skodda, S. and Schlegel, U. (2008) Speech rate and rhythm in Parkinson's disease, Movement Disorders 23, 985-992.
Jan Hlavni£ka
e-mail: [email protected]