Zpětná rekonstrukce řeči a virtuální elektroda pro kochleární

Transkript

Zpětná rekonstrukce řeči a virtuální elektroda pro kochleární
Zpětná rekonstrukce řeči a virtuální elektroda pro kochleární
implantáty.
Martin Vondrášek
České vysoké učení v Praze, Fakulta elektrotechnická
[email protected]
Abstrakt: Kochleární implantát je elektronické zařízení, které nahrazuje sluchový
vjem pacientům s těžkou sluchovou vadou pomocí stimulace sluchového nervu
proudovými pulsy.
Tento příspěvek se zabývá možnostmi rekonstrukce řeči z proudových pulsů
a porovnáním rekonstruované řeči s řečí původní. Zpětnou rekonstrukci řeči lze
využít při vývoji nových strategií bez náročných testů s pacienty.
Druhá část příspěvku shrnuje možnosti vytvoření virtuální elektrody pro
implantáty Nucleus® 24 Contour Advance. Následně jsou prezentovány výsledky
testů rozpoznání virtuální elektrody proveden0 na pacientech.
1.
Úvod
Kochleární implantát [1, 5] je elektronické zařízení zprostředkující sluchové vjemy
pacientům s těžkou sluchovou vadou. Sluchové vjemy jsou vyvolávány přímou elektrickou
stimulací sluchového nervu proudovými impulsy uvnitř hlemýždě. Algoritmus převodu
akustického signálu na sled proudových impulsů je nazýván kódovací strategií. V současnosti
jsou firmou Cochlear používány tři typy kódovacích strategií ACE, CIS a SPEAK. Algoritmy
implementující kódovací strategie jsou uloženy v řečovém procesoru. Vlastní stimulace je
prováděna implantátem, jehož tělo je umístněno na hlavě pod kůží pacienta, přičemž sada
elektrod je zavedena do hlemýždě.
2.
Princip zpracování řeči v řečovém procesoru
Kódovací strategie představují soubor pravidel, která definují, jak bude snímaný zvuk v
řečovém procesoru analyzován a zakódován. Kochleární implantát Nucleus® 24 Contour
Advance umožňuje tří typů kódovacích strategií - Spectral Peak (SPEAK), Continuous
Interleaved Sampling (CIS) a Advanced Combination Encoder (ACE) [1]. Implementace
jednotlivých strategií se mírně liší podle typu řečového procesoru.
Základem všech typů kódovacích strategií je výběr několika frekvenčních pásem
analyzované řeči. Zpracovávaná řeč se rozdělí na segmenty, aplikuje se Fourierova
transformace. Filtrací ve spektru jsou podle zvolené kódovací strategie vybrána určitá
frekvenční pásma segmentu zpracovávané řeči a z výkonu v každém z pásem je určena
velikost budicího impulsu. Informace o budicích impulsech a použitých pásmech je přenesena
vysílací cívkou do vnitřního implantátu.
V případě strategie SPEAK [2, 3] (obr 1b) je kmitočtové pásmo 0–8 kHz rozděleno na 20
pásem pomocí banky pásmových propustí. Šířka propustného pásma jednotlivých filtrů není
konstantní. Nejnižší kmitočtové pásmo je nejužší, šířka propustného pásma se nelineárně
zvětšuje. V každém z pásem je vypočtena energie. Následně je vybráno několik pásem
s největší energií, jejich velikost se zakóduje a přenese do implantátu. Implantát pak budí
vlákna sluchového nervu proudovými pulzy. V případě strategie SPEAK je použito 20
elektrod určených pro stimulaci. V jednom segmentu zpracovávané řeči je pro stimulaci
použit stejný počet elektrod, jako je počet vybraných maxim. Velikost amplitudy
stimulačního pulsu je určena energií daného pásma. Větší energii odpovídá větší amplituda
pulsu. Počet přenášených pásem je závislý na kódovací mapě pacienta, na intenzitě signálu a
tvaru krátkodobého spektra. Počet pásem se může pohybovat mezi 1 až 10, typicky 6 až 8
pásem. Pro vyvolání sluchového vjemu v uchu pacienta je nutno stimulační pulsy opakovat se
„stimulačním kmitočtem“. V případě strategie SPEAK stimulační kmitočet nabývá pouze
jedné hodnoty – 250 Hz.
Strategie ACE [2, 3] (obr. 1c) je principielně podobná strategii SPEAK. Kmitočtové
pásmo je ale rozděleno na 22 subpásem a v každém segmentu může být vybíráno 1-20
maxim. Stimulační kmitočet můžeme nastavit na několik hodnot: 250, 500, 720, 900, 1200,
1800 a 2400 Hz. Strategii ACE tak charakterizuje velký počet přenášených pásem a vysoká
stimulační rychlost.
Princip strategie CIS [2, 3] (obr 1d) je odlišný. Kmitočtové pásmo je opět rozděleno na
subpásma bankou filtrů. Počet filtrů je ale nižší: 4, 6, 8 nebo 12. V každém pásmu je určena
energie. V případě strategie CIS se neprovádí výběr maxim, ale informace o velikosti energie
je trvale přenášena do implantátu. Stimulace probíhá na stejném počtu elektrod, jako je počet
použitých subpásem. Stimulační kmitočet může nabývat jedné z hodnot: 900, 1200, 1800 a
2400 Hz. Strategii CIS můžeme charakterizovat jako strategii maximálně využívající
přenosovou rychlost, která poskytuje jen omezený počet subpásem.
1
0.9
0.8
Frequency
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
1000
2000
3000
4000
Time
5000
6000
a)
a) Výstup strategie ACE.
c)
7000
b)
b) Výstup strategie CIS.
d)
Obrázek 1: Spektrogram původního signálu a), výstup strategie SPEAK b), výstup strategie
ACE c), výstup strategie CIS d).
3.
Rekonstrukce řeči
Zpětnou rekonstrukci řeči můžeme provádět dvěma způsoby: syntézou pomocí součtu
sinusových signálů nebo buzením banky filtrů jednotkovými pulsy.
3.1 Syntéza pomocí součtu sinusových signálů
V případě syntézy pomocí součtu sinusových signálů [2] je rekonstruovaný signál složen
z několika sinusoid s různými kmitočty podle vzorce:
N
s (t ) = ∑ Ak (t ) sin(2π * f k * t ),
(1)
k =1
kde Ak(t) je amplituda obálky k-tého pásma. Tato amplituda je nenulová jen v okamžicích,
kdy je v příslušném k-tém pásmu vybráno maximum a k je počet pásem analyzující banky
filtrů. Kmitočty fk jsou střední kmitočty propustných pásem analyzující banky filtrů. Počet
nenulových amplitud Ak(t) je v každém časovém okamžiku stejný, jako je počet přenášených
pásem. Fáze původního signálu není pro rekonstrukci použita. Strategie ACE, SPEAK i CIS
přenášejí informaci pouze o modulu spektra, nikoli o fázi. Na obrázku 2 a) je uveden
spektrogram řečového signálu “asa“ a spektrogram rekonstruovaného signálu z 6-ti
přenášených maxim (obr. 2 b). Ve střední části rekonstruovaného signálu můžeme pozorovat
jednotlivé sinusoidy, z kterých je signál složen. V ostatních částech obrázku jsou přenášená
maxima na nízkých kmitočtech. Filtry na nízkých kmitočtech mají malou šířku a jednotlivé
sinusoidy splývají.
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
Frequency
Frequency
CIS reconsrtuction
1
0.5
0.4
0.5
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
1000
2000
3000
4000
Time
5000
6000
7000
0
0
1000
2000
3000
4000
Time
5000
6000
7000
a)
b)
Obrázek 2: Spektrogram původního a) a rekonstruovaného signálu b).
3.2 Buzení banky číslicových filtrů jednotkovými pulsy
První krok rekonstrukce buzením banky filtrů [4] je převod proudových pulsů na
amplitudově váhované dirakovy pulsy (obr. 3). Jednotlivé dirakovy pulsy jsou přiváděny do
banky filtrů. Stimulační kmitočet určuje počet dirakových pulsů přivedených do banky filtrů
za vteřinu. Banka filtrů je v případě strategií SPEAK a ACE identická s bankou použitou při
analýze. V případě strategie CIS je použita banka filtrů strategie ACE. Výstupy ze všech filtrů
jsou na závěr sečteny. Na obrázku 4 b) je uveden spektrogram rekonstruovaného signálu při
použití 6-ti maxim. V porovnání se signálem rekonstruovaným pomocí součtu sinusových
signálů má bohatší spektrum, které je více podobné původnímu spektru.
bandpas
filter 22
current
samples
CS/ unit
pulse*gain
multiplexer
.
.
.
output
signal
sum
bandpas
filter 2
bandpas
filter 1
Obrázek 3: Blokové schéma metody buzení banky filtrů.
1
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
Frequency
Frequency
CIS reconsrtuction
1
0.5
0.4
0.5
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
1000
2000
3000
4000
Time
5000
6000
0
7000
0
1000
2000
3000
4000
Time
5000
6000
7000
a)
b)
Obrázek 4: Spektrogram původního a) a rekonstruovaného signálu b).
3.3
Porovnání rekonstrukcí
Pro porovnání obou výše popsaných rekonstrukcí byla použita kepstrální vzdálenost [6].
Kepstrální koeficienty byly určeny pomocí Fourierovy transformace.
Rekonstruovaný a původní řečový signál byl rozdělen do subpásem bankou filtrů, stejnou
jako při analýze strategií ACE, CIS nebo SPEAK. Kepstrální vzdálenost byla určena pro
každý segment v každém sledovaném pásmu. Průměrná vzdálenost v segmentu byla určena
z pásem, ve kterých bylo energetické maximum použité pro rekonstrukci. Nakonec byla
vypočtena průměrná vzdálenost pro znělé a neznělé části řečového signálu a pro pauzy.
3.3.1 Kepstrální vzdálenost
Kepstrální vzdálenost d pro N-tý segment rekonstruovaného a původního signálu byla
určena jako:
d [ N ] = 4.3429 ⋅
M
∑ (c [k ] − c [k ])
k =1
i
r
2
,
(2)
kde ci[k] je k-tý kepstrální koeficient N-tého segmentu původního signálu a cr[k] k-tý
kepstrální koeficient N-tého segmentu rekonstruovaného signálu. Kepstrální koeficienty ci[0]
reprezentující energii signálů nebyly použity. Řád M nabýval hodnoty 10 pro kepstrální
koeficienty určené pomocí LPC, a 30 pro kepstrální koeficienty, určené Fourierovou
transformací.
3.4 Výsledky porovnání rekonstrukcí
V této kapitole jsou uvedeny vybrané výsledky rekonstrukce řeči z proudových pulsů.
Kompletní výsledky rekonstrukce řeči z proudových pulsů jsou uvedeny v [8].
3.4.1 Buzení banky číslicových filtrů
Závislost průměrné kepstrální vzdálenosti ve znělých i neznělých úsecích řeči a v pauzách
pro strategii SPEAK je uvedena na obrázku 5a). Kepstrální vzdálenost ve znělých úsecích řeči
roste s počtem vybraných maxim (viz. Kapitola 2). Pro znělé úseky řeči kepstrální vzdálenost
naopak klesá. V případě pauz nabývá kepstrální vzdálenost minima pro 7 pásem. Vliv
stimulačního kmitočtu (500, 900 a 1200 Hz) a počtu vybraných subpásem na rekonstruovaný
signál pro strategii ACE je na obrázku 5b). Trend je pro všechny stimulační kmitočty stejný,
mění se jen počáteční hodnota průměrné kepstrální vzdálenosti od 2,3 dB (500 Hz) do 2 dB
(1200 Hz). V případě strategie CIS (obr. 5c)) dosahuje kepstrální vzdálenost větších změn než
pro strategiích ACE nebo SPEAK. Se zvyšujícím se stimulačním kmitočtem klesá kepstrální
vzdálenost mezi 900 a 1200 Hz o 1 dB a mezi 1200 a 1800 o 0,5 dB. Se zvyšujícím se
počtem vybraných subpásem ze 4 do 12 klesá kepstrální vzdálenost o 2 dB.
4 bands
5,0
cepstral distance [dB]
4,5
ACE 900
5,0
6 bands
4,5
4,0
6 bands
3,5
3,0
8 bands
2,5
10 bands
2,0
1,5
11 bands
13 bands
7 bands
4,0
8 bands
3,5
9 bands
3,0
10 bands
2,5
2,0
11 bands
1,5
1,0
12 bands
0,5
0,0
14 bands
1,0
0,5
15 bands
0,0
13 bands
voiced
unvoiced
5 bands
7 bands
9 bands
12 bands
14 bands
15 bands
voiced
16 bands
pause
4 bands
5 bands
cepstral distance [dB]
SPEAK
a)
unvoiced
pause
16 bands
b)
CIS 1200
cepstral distance [dB]
5,0
4 bands
4,0
5 bands
6 bands
3,0
7 bands
8 bands
2,0
9 bands
10 bands
11 bands
1,0
12 bands
0,0
voiced
unvoiced
pause
c)
Obrázek 5: Kepstrální vzdálenost původní a rekonstruované řeči: a) SPEAK,
b) ACE, c) CIS strategie.
Strategy comparsion, 8 bands
unv oiced
12
00
IS
90
0
C
IS
12
00
C
IS
18
00
C
E
E
AC
AC
AC
E
50
0
90
0
pause
a)
5,0
4,5
4,0
3,5
3,0
2,5
2,0
1,5
1,0
0,5
0,0
v oiced
unv oiced
pause
SP
EA
AC K
E
50
AC 0
E
90
0
AC
E
12
00
C
IS
90
0
C
IS
12
00
C
IS
18
00
v oiced
cepstral distance [dB]
Strategy comparsion, 4 bands
5,0
4,5
4,0
3,5
3,0
2,5
2,0
1,5
1,0
0,5
0,0
SP
EA
K
cepstral distance [dB]
Na obrázku 6 jsou porovnány výsledky kepstrální vzdálenosti pro Strategie SPEAK, ACE a
CIS a pro různý stimulační kmitočet pro vybraný počet přenášených subpásem. Pro 4
přenášená subpásma (obr. 6a)) je kepstrální vzdálenost CIS strategie dvakrát větší v
porovnání s ostatními strategiemi. Pro vyšší počet přenášených pásem (obr 6b) a 6c))
kepstrální vzdálenost pro strategie CIS rychle klesá. Kepstrální vzdálensot pro startegie ACE
a SPEAK také klesá, ale ne tak výrazně jako pro strategii CIS. Nejmenší kepstrální vzdálenost
(nejpodobnější původní a rekonstruovaný signál) byla dosažena pro strategii ACE a
stimulační kmitočet 1200 Hz.
b)
voiced
unvoiced
12
00
IS
90
0
C
IS
C
12
00
E
AC
AC
E
50
0
E
AC
SP
90
0
pause
EA
K
cepstral distance [dB]
Strategy comparsion, 12 bands
5,0
4,5
4,0
3,5
3,0
2,5
2,0
1,5
1,0
0,5
0,0
c)
Obrázek 6: Kepstrální vzdálenost původní a rekonstruované řeči: a) 4, b) 8,
c) 12 subpásem.
3.4.2
Syntéza pomocí součtu sinusových signálů
Syntéza pomocí součtu sinusových kmitočtů je nezávislá na velikosti stimulačního
kmitočtu, protože amplituda rekonstruovaného signálu je dána amplitudou stimulačních
pulsů. Trendy pro všechny strategie jsou podobné jako v případě syntézy buzením banky
číslicových filtrů. Průměrná kepstrální vzdálenost je ale přibližně o 0,3 až 0,5 dB nižší.
4.
Virtuální elektroda
Možnost vytvoření virtuální elektrody byla potvrzena výzkumem P.C. Loizu [7]. Při tomto
výzkumu byl ale použit experimentální implantát, který umožňoval stimulaci do dvou
sousedních elektrod dvěma proudovými pulsy současně. Kochleární implantát Nucleus® 24
Contour Advance™ [1] ale tento typ stimulace neumožňuje díky jednomu výstupnímu
zesilovači. Výstup tohoto zesilovače je cyklicky přepínán mezi jednotlivé elektrody,
proudové pulsy v sousedních elektrodách tak jsou vždy časově posunuté. Tato kapitola
shrnuje možnosti vytvoření a ověření rozpoznání virtuální elektrody na pacientech.
4.1 Způsoby vytvoření virtuální elektrody
Existují dva způsoby jak vytvořit virtuální elektrodu. Oběma způsoby lze vytvořit
virtuální elektrodu, ale vlastnosti mohou být různé. Teoretická frekvence vytvořeného tónu
je dána vztahem:
Qj
,
(2)
fv = fi + ( f j − fi )
, fi < f j
Q j + Qi
kde fi a fj jsou kmitočty tónů vytvořených stimulací jen do elektrody i (j) a Qi , Qj jsou
náboje dodané do příslušných elektrod. Pro kmitočet virtuální elektrody teoreticky platí:
fv Є<fi,fj>. Frekvence tónu vytvořeného stimulací do elektrody s nižším indexem je vyšší než
frekvence tónu vytvořeného stimulací do elektrody s vyšším indexem. Pokud zachováme
velikost náboje, dodaného do dvojice elektrod, zůstane hlasitost sluchového vjemu
konstantní.
V prvním případě budeme stimulovat do dvou vybraných sousedních elektrod se
shodným stimulačním kmitočtem a proměnnou velikostí amplitud proudových pulsů tak, jak
bylo popsáno v [7]. Velikost kmitočtu vnímaného tónu můžeme nastavit poměrem nábojů,
respektive velikostí amplitud proudových pulsů v elektrodách 10 a 11. Na obrázku 7a) je
uveden příklad vytvoření virtuální elektrody mezi elektrodami 10 a 11. V případě levé části
obrázku 7a) je kmitočet virtuální elektrody nižší než v pravé části obrázku b).
electrode
electrode
10
10
11
11
1
20 time [ms]
1
20 time [ms]
a)
b)
Obrázek 7: Virtuální elektroda s konstantním stimulačním kmitočtem a), s konstantními
amplitudami b).
Druhý způsob vytvoření virtuální elektrody je zobrazen na obrázku 7b). V tomto případě je
změna poměru náboje dodaného do elektrod 10 a 11 provedena změnou stimulačních
kmitočtů v obou elektrodách. Amplituda stimulačních pulsů naopak zůstává konstantní.
Frekvence tónu vytvořeného pomocí pulsů zobrazených v levé části obrázku 7b) je nižší než
frekvence tónu vytvořeného pomocí pulsů zobrazených v pravé části obrázku 7b).
4.2 Výsledky testů virtuální elektrody na pacientech
Pro oba principy popsané v předchozí kapitole byly vytvořeny testovací programy
v prostředí Matlab, s použitím NIC toolboxu [2], [3] a speciálního hardware. Oba způsoby
vytvoření virtuální elektrody byly ověřeny na šesti pacientech, dva z nich bohužel nedokázali
spolehlivě rozlišit frekvenci tónů vytvořených stimulací do jedné elektrody. Pro ověření
virtuální elektrody tak nemohli být použiti. Čtyři další pacienti dokázali spolehlivě rozlišit tón
vytvořený virtuální elektrodu od tónů vytvořených stimulací do jedné elektrody. Oběma výše
popsanými principy lze vytvořit virtuální elektrodu. Metodu konstantních amplitud (obrázek
7b)) lze hůře implementovat, její použití v reálném čase by mohlo být limitující. Tato metoda
má také omezenou možnost nastavení kmitočtu vnímaného tónu díky omezené možnosti
měnit stimulační kmitočet. V případě, že stimulační kmitočet poklesne v jedné z elektrod pod
200 Hz, pacient uslyší místo tónu o kmitočtu daného vzorcem (2) tón o nízkém kmitočtu.
Tento fakt spolu s vyššími nároky na hardware velmi omezuje použití této metody.
Výsledky rozpoznání virtuální elektrody pro metodu konstantního stimulačního kmitočtu
jsou uvedeny v tabulce 1.
Pacient
A
B
C
D
Procenta úspěšnosti [%]
nízké f.
nižší f.
vyšší f.
vysoké f.
63
86
79
98
79
70
73
70
98
94
63
86
91
82
91
80
Tabulka 1: Procentuální úspěšnost rozpoznání virtuální elektrody
5.
Závěr
Metody rekonstrukce řeči z výstupů kódovacích strategií SPEAK, ACE a CIS mohou
pomoci v dalším výzkumu předzpracování řeči pro kochleární implantáty, především pak při
ověření navržených změn pro dosažení lepší srozumitelnosti v hlučném prostředí a pro
vnímání hudby. Rekonstrukce součtem sinusových signálů nepodchytí vliv stimulačního
kmitočtu, ale je výpočetně výrazně jednodušší. Rekonstrukce buzením banky číslicových
filtrů je výpočetně náročnější, ale podchytí vliv stimulačního kmitočtu. Řeč rekonstruovaná
pomocí součtu sinusových signálů zní kovově, ale je dobře srozumitelná. Řeč rekonstruovaná
metodou buzení banky filtrů zní přirozeněji, ale je hůře srozumitelná. Pro další práci je možno
použít obě metody rekonstrukce řeči z proudových pulsů. Nebudeme-li požadovat podchycení
vlivu stimulačního kmitočtu, který je individuálně nastaven dle požadavků pacienta, můžeme
využít rekonstrukci metodou součtu sinusových signálů. Výhodou této metody je její nízká
výpočetní náročnost. Nejvhodnější strategie je pak strategie ACE pro 16 pásem. Tento počet
pásem je pro pacienty využitelný pouze v prostředí s nízkým šumem a bez přítomnosti více
mluvčích. V prostředí se šumem obsahují vybraná pásma s nižší energií více šumu. Prakticky
se používá 10 nebo 12 pásem.
Bylo ověřeno, že virtuální elektroda může být vytvořena i s použitím implantátu
Nucleus® 24 Contour Advance™. Použití metody pevné amplitudy stimulačních pulsů je
limitováno omezenou možností nastavení frekvence vnímaného tónu. Úspěšnost rozpoznání
virtuálních elektrod závisí na pacientovi a na místě stimulace. Nicméně použití virtuálních
elektrod může přinést přesnější určení frekvence vnímaného tónu pro strategie ACE a SPEAK
a tím zvýšení srozumitelnosti vnímání řeči a hudby.
6.
Poděkování
Tato práce vznikla za podpory výzkumného záměru “Transdisciplinární výzkum
v biomedicínském inženýrství 2” č. MSM 6840770012 a grantem ” Modelování biologických
a řečových signálů”, č 102/03/H085 Českého vysokého učení technického v Praze.
Reference
[1] CLARK, G. Cochlear implants, fundamentals and applications. New York: Springer NY,
2003. 830 p. ISBN 0-387-95583-6.
[2] Nucleus Reference manual. Cochlear Ltd. Australia, 2001. N94359F ISSI.
[3] Swanson, B. Nucleus Matlab Neural Toolbox. Cochlear Ltd. Australia, 2004.
[4] MOCEK, V. Evaluation of Performance of Speech Coding Strategies Used in Cochlear
Implant Systems in Noisy Environment. FMBE Proceedings, Vienna, December 04-08
2002. p. 51-55. ISSN 1741-0800.
[5] LOIZOU, P. Mimicking the Human Ear. IEEE Signal Processing, 1998, vol. 15, no. 5 ,p.
101-130. ISSN 0740-7467.
[6] Rabiner, L. Juang B. Fundamentals of Speech Recognition. Prentice Hall Signal
Processing Series. Prentice Hall, Upper Saddle River, NJ, 1993, ISBN 0-13-015157-2.
[7] Poroy O., Loizou P. C.: Pitch Perception Using Virtual Cannels, University of Texas at
Dallas, Richardson, TX 75083.
[8] Vondrášek, M: Porovnání rekonstrukce řeči pro kochleární implantáty. Výzkumná zpráva
#Z05-5, ČVUT FEL, 2005.