Zpětná rekonstrukce řeči a virtuální elektroda pro kochleární
Transkript
Zpětná rekonstrukce řeči a virtuální elektroda pro kochleární
Zpětná rekonstrukce řeči a virtuální elektroda pro kochleární implantáty. Martin Vondrášek České vysoké učení v Praze, Fakulta elektrotechnická [email protected] Abstrakt: Kochleární implantát je elektronické zařízení, které nahrazuje sluchový vjem pacientům s těžkou sluchovou vadou pomocí stimulace sluchového nervu proudovými pulsy. Tento příspěvek se zabývá možnostmi rekonstrukce řeči z proudových pulsů a porovnáním rekonstruované řeči s řečí původní. Zpětnou rekonstrukci řeči lze využít při vývoji nových strategií bez náročných testů s pacienty. Druhá část příspěvku shrnuje možnosti vytvoření virtuální elektrody pro implantáty Nucleus® 24 Contour Advance. Následně jsou prezentovány výsledky testů rozpoznání virtuální elektrody proveden0 na pacientech. 1. Úvod Kochleární implantát [1, 5] je elektronické zařízení zprostředkující sluchové vjemy pacientům s těžkou sluchovou vadou. Sluchové vjemy jsou vyvolávány přímou elektrickou stimulací sluchového nervu proudovými impulsy uvnitř hlemýždě. Algoritmus převodu akustického signálu na sled proudových impulsů je nazýván kódovací strategií. V současnosti jsou firmou Cochlear používány tři typy kódovacích strategií ACE, CIS a SPEAK. Algoritmy implementující kódovací strategie jsou uloženy v řečovém procesoru. Vlastní stimulace je prováděna implantátem, jehož tělo je umístněno na hlavě pod kůží pacienta, přičemž sada elektrod je zavedena do hlemýždě. 2. Princip zpracování řeči v řečovém procesoru Kódovací strategie představují soubor pravidel, která definují, jak bude snímaný zvuk v řečovém procesoru analyzován a zakódován. Kochleární implantát Nucleus® 24 Contour Advance umožňuje tří typů kódovacích strategií - Spectral Peak (SPEAK), Continuous Interleaved Sampling (CIS) a Advanced Combination Encoder (ACE) [1]. Implementace jednotlivých strategií se mírně liší podle typu řečového procesoru. Základem všech typů kódovacích strategií je výběr několika frekvenčních pásem analyzované řeči. Zpracovávaná řeč se rozdělí na segmenty, aplikuje se Fourierova transformace. Filtrací ve spektru jsou podle zvolené kódovací strategie vybrána určitá frekvenční pásma segmentu zpracovávané řeči a z výkonu v každém z pásem je určena velikost budicího impulsu. Informace o budicích impulsech a použitých pásmech je přenesena vysílací cívkou do vnitřního implantátu. V případě strategie SPEAK [2, 3] (obr 1b) je kmitočtové pásmo 0–8 kHz rozděleno na 20 pásem pomocí banky pásmových propustí. Šířka propustného pásma jednotlivých filtrů není konstantní. Nejnižší kmitočtové pásmo je nejužší, šířka propustného pásma se nelineárně zvětšuje. V každém z pásem je vypočtena energie. Následně je vybráno několik pásem s největší energií, jejich velikost se zakóduje a přenese do implantátu. Implantát pak budí vlákna sluchového nervu proudovými pulzy. V případě strategie SPEAK je použito 20 elektrod určených pro stimulaci. V jednom segmentu zpracovávané řeči je pro stimulaci použit stejný počet elektrod, jako je počet vybraných maxim. Velikost amplitudy stimulačního pulsu je určena energií daného pásma. Větší energii odpovídá větší amplituda pulsu. Počet přenášených pásem je závislý na kódovací mapě pacienta, na intenzitě signálu a tvaru krátkodobého spektra. Počet pásem se může pohybovat mezi 1 až 10, typicky 6 až 8 pásem. Pro vyvolání sluchového vjemu v uchu pacienta je nutno stimulační pulsy opakovat se „stimulačním kmitočtem“. V případě strategie SPEAK stimulační kmitočet nabývá pouze jedné hodnoty – 250 Hz. Strategie ACE [2, 3] (obr. 1c) je principielně podobná strategii SPEAK. Kmitočtové pásmo je ale rozděleno na 22 subpásem a v každém segmentu může být vybíráno 1-20 maxim. Stimulační kmitočet můžeme nastavit na několik hodnot: 250, 500, 720, 900, 1200, 1800 a 2400 Hz. Strategii ACE tak charakterizuje velký počet přenášených pásem a vysoká stimulační rychlost. Princip strategie CIS [2, 3] (obr 1d) je odlišný. Kmitočtové pásmo je opět rozděleno na subpásma bankou filtrů. Počet filtrů je ale nižší: 4, 6, 8 nebo 12. V každém pásmu je určena energie. V případě strategie CIS se neprovádí výběr maxim, ale informace o velikosti energie je trvale přenášena do implantátu. Stimulace probíhá na stejném počtu elektrod, jako je počet použitých subpásem. Stimulační kmitočet může nabývat jedné z hodnot: 900, 1200, 1800 a 2400 Hz. Strategii CIS můžeme charakterizovat jako strategii maximálně využívající přenosovou rychlost, která poskytuje jen omezený počet subpásem. 1 0.9 0.8 Frequency 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1000 2000 3000 4000 Time 5000 6000 a) a) Výstup strategie ACE. c) 7000 b) b) Výstup strategie CIS. d) Obrázek 1: Spektrogram původního signálu a), výstup strategie SPEAK b), výstup strategie ACE c), výstup strategie CIS d). 3. Rekonstrukce řeči Zpětnou rekonstrukci řeči můžeme provádět dvěma způsoby: syntézou pomocí součtu sinusových signálů nebo buzením banky filtrů jednotkovými pulsy. 3.1 Syntéza pomocí součtu sinusových signálů V případě syntézy pomocí součtu sinusových signálů [2] je rekonstruovaný signál složen z několika sinusoid s různými kmitočty podle vzorce: N s (t ) = ∑ Ak (t ) sin(2π * f k * t ), (1) k =1 kde Ak(t) je amplituda obálky k-tého pásma. Tato amplituda je nenulová jen v okamžicích, kdy je v příslušném k-tém pásmu vybráno maximum a k je počet pásem analyzující banky filtrů. Kmitočty fk jsou střední kmitočty propustných pásem analyzující banky filtrů. Počet nenulových amplitud Ak(t) je v každém časovém okamžiku stejný, jako je počet přenášených pásem. Fáze původního signálu není pro rekonstrukci použita. Strategie ACE, SPEAK i CIS přenášejí informaci pouze o modulu spektra, nikoli o fázi. Na obrázku 2 a) je uveden spektrogram řečového signálu “asa“ a spektrogram rekonstruovaného signálu z 6-ti přenášených maxim (obr. 2 b). Ve střední části rekonstruovaného signálu můžeme pozorovat jednotlivé sinusoidy, z kterých je signál složen. V ostatních částech obrázku jsou přenášená maxima na nízkých kmitočtech. Filtry na nízkých kmitočtech mají malou šířku a jednotlivé sinusoidy splývají. 1 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 Frequency Frequency CIS reconsrtuction 1 0.5 0.4 0.5 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 1000 2000 3000 4000 Time 5000 6000 7000 0 0 1000 2000 3000 4000 Time 5000 6000 7000 a) b) Obrázek 2: Spektrogram původního a) a rekonstruovaného signálu b). 3.2 Buzení banky číslicových filtrů jednotkovými pulsy První krok rekonstrukce buzením banky filtrů [4] je převod proudových pulsů na amplitudově váhované dirakovy pulsy (obr. 3). Jednotlivé dirakovy pulsy jsou přiváděny do banky filtrů. Stimulační kmitočet určuje počet dirakových pulsů přivedených do banky filtrů za vteřinu. Banka filtrů je v případě strategií SPEAK a ACE identická s bankou použitou při analýze. V případě strategie CIS je použita banka filtrů strategie ACE. Výstupy ze všech filtrů jsou na závěr sečteny. Na obrázku 4 b) je uveden spektrogram rekonstruovaného signálu při použití 6-ti maxim. V porovnání se signálem rekonstruovaným pomocí součtu sinusových signálů má bohatší spektrum, které je více podobné původnímu spektru. bandpas filter 22 current samples CS/ unit pulse*gain multiplexer . . . output signal sum bandpas filter 2 bandpas filter 1 Obrázek 3: Blokové schéma metody buzení banky filtrů. 1 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 Frequency Frequency CIS reconsrtuction 1 0.5 0.4 0.5 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 1000 2000 3000 4000 Time 5000 6000 0 7000 0 1000 2000 3000 4000 Time 5000 6000 7000 a) b) Obrázek 4: Spektrogram původního a) a rekonstruovaného signálu b). 3.3 Porovnání rekonstrukcí Pro porovnání obou výše popsaných rekonstrukcí byla použita kepstrální vzdálenost [6]. Kepstrální koeficienty byly určeny pomocí Fourierovy transformace. Rekonstruovaný a původní řečový signál byl rozdělen do subpásem bankou filtrů, stejnou jako při analýze strategií ACE, CIS nebo SPEAK. Kepstrální vzdálenost byla určena pro každý segment v každém sledovaném pásmu. Průměrná vzdálenost v segmentu byla určena z pásem, ve kterých bylo energetické maximum použité pro rekonstrukci. Nakonec byla vypočtena průměrná vzdálenost pro znělé a neznělé části řečového signálu a pro pauzy. 3.3.1 Kepstrální vzdálenost Kepstrální vzdálenost d pro N-tý segment rekonstruovaného a původního signálu byla určena jako: d [ N ] = 4.3429 ⋅ M ∑ (c [k ] − c [k ]) k =1 i r 2 , (2) kde ci[k] je k-tý kepstrální koeficient N-tého segmentu původního signálu a cr[k] k-tý kepstrální koeficient N-tého segmentu rekonstruovaného signálu. Kepstrální koeficienty ci[0] reprezentující energii signálů nebyly použity. Řád M nabýval hodnoty 10 pro kepstrální koeficienty určené pomocí LPC, a 30 pro kepstrální koeficienty, určené Fourierovou transformací. 3.4 Výsledky porovnání rekonstrukcí V této kapitole jsou uvedeny vybrané výsledky rekonstrukce řeči z proudových pulsů. Kompletní výsledky rekonstrukce řeči z proudových pulsů jsou uvedeny v [8]. 3.4.1 Buzení banky číslicových filtrů Závislost průměrné kepstrální vzdálenosti ve znělých i neznělých úsecích řeči a v pauzách pro strategii SPEAK je uvedena na obrázku 5a). Kepstrální vzdálenost ve znělých úsecích řeči roste s počtem vybraných maxim (viz. Kapitola 2). Pro znělé úseky řeči kepstrální vzdálenost naopak klesá. V případě pauz nabývá kepstrální vzdálenost minima pro 7 pásem. Vliv stimulačního kmitočtu (500, 900 a 1200 Hz) a počtu vybraných subpásem na rekonstruovaný signál pro strategii ACE je na obrázku 5b). Trend je pro všechny stimulační kmitočty stejný, mění se jen počáteční hodnota průměrné kepstrální vzdálenosti od 2,3 dB (500 Hz) do 2 dB (1200 Hz). V případě strategie CIS (obr. 5c)) dosahuje kepstrální vzdálenost větších změn než pro strategiích ACE nebo SPEAK. Se zvyšujícím se stimulačním kmitočtem klesá kepstrální vzdálenost mezi 900 a 1200 Hz o 1 dB a mezi 1200 a 1800 o 0,5 dB. Se zvyšujícím se počtem vybraných subpásem ze 4 do 12 klesá kepstrální vzdálenost o 2 dB. 4 bands 5,0 cepstral distance [dB] 4,5 ACE 900 5,0 6 bands 4,5 4,0 6 bands 3,5 3,0 8 bands 2,5 10 bands 2,0 1,5 11 bands 13 bands 7 bands 4,0 8 bands 3,5 9 bands 3,0 10 bands 2,5 2,0 11 bands 1,5 1,0 12 bands 0,5 0,0 14 bands 1,0 0,5 15 bands 0,0 13 bands voiced unvoiced 5 bands 7 bands 9 bands 12 bands 14 bands 15 bands voiced 16 bands pause 4 bands 5 bands cepstral distance [dB] SPEAK a) unvoiced pause 16 bands b) CIS 1200 cepstral distance [dB] 5,0 4 bands 4,0 5 bands 6 bands 3,0 7 bands 8 bands 2,0 9 bands 10 bands 11 bands 1,0 12 bands 0,0 voiced unvoiced pause c) Obrázek 5: Kepstrální vzdálenost původní a rekonstruované řeči: a) SPEAK, b) ACE, c) CIS strategie. Strategy comparsion, 8 bands unv oiced 12 00 IS 90 0 C IS 12 00 C IS 18 00 C E E AC AC AC E 50 0 90 0 pause a) 5,0 4,5 4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0,0 v oiced unv oiced pause SP EA AC K E 50 AC 0 E 90 0 AC E 12 00 C IS 90 0 C IS 12 00 C IS 18 00 v oiced cepstral distance [dB] Strategy comparsion, 4 bands 5,0 4,5 4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0,0 SP EA K cepstral distance [dB] Na obrázku 6 jsou porovnány výsledky kepstrální vzdálenosti pro Strategie SPEAK, ACE a CIS a pro různý stimulační kmitočet pro vybraný počet přenášených subpásem. Pro 4 přenášená subpásma (obr. 6a)) je kepstrální vzdálenost CIS strategie dvakrát větší v porovnání s ostatními strategiemi. Pro vyšší počet přenášených pásem (obr 6b) a 6c)) kepstrální vzdálenost pro strategie CIS rychle klesá. Kepstrální vzdálensot pro startegie ACE a SPEAK také klesá, ale ne tak výrazně jako pro strategii CIS. Nejmenší kepstrální vzdálenost (nejpodobnější původní a rekonstruovaný signál) byla dosažena pro strategii ACE a stimulační kmitočet 1200 Hz. b) voiced unvoiced 12 00 IS 90 0 C IS C 12 00 E AC AC E 50 0 E AC SP 90 0 pause EA K cepstral distance [dB] Strategy comparsion, 12 bands 5,0 4,5 4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0,0 c) Obrázek 6: Kepstrální vzdálenost původní a rekonstruované řeči: a) 4, b) 8, c) 12 subpásem. 3.4.2 Syntéza pomocí součtu sinusových signálů Syntéza pomocí součtu sinusových kmitočtů je nezávislá na velikosti stimulačního kmitočtu, protože amplituda rekonstruovaného signálu je dána amplitudou stimulačních pulsů. Trendy pro všechny strategie jsou podobné jako v případě syntézy buzením banky číslicových filtrů. Průměrná kepstrální vzdálenost je ale přibližně o 0,3 až 0,5 dB nižší. 4. Virtuální elektroda Možnost vytvoření virtuální elektrody byla potvrzena výzkumem P.C. Loizu [7]. Při tomto výzkumu byl ale použit experimentální implantát, který umožňoval stimulaci do dvou sousedních elektrod dvěma proudovými pulsy současně. Kochleární implantát Nucleus® 24 Contour Advance™ [1] ale tento typ stimulace neumožňuje díky jednomu výstupnímu zesilovači. Výstup tohoto zesilovače je cyklicky přepínán mezi jednotlivé elektrody, proudové pulsy v sousedních elektrodách tak jsou vždy časově posunuté. Tato kapitola shrnuje možnosti vytvoření a ověření rozpoznání virtuální elektrody na pacientech. 4.1 Způsoby vytvoření virtuální elektrody Existují dva způsoby jak vytvořit virtuální elektrodu. Oběma způsoby lze vytvořit virtuální elektrodu, ale vlastnosti mohou být různé. Teoretická frekvence vytvořeného tónu je dána vztahem: Qj , (2) fv = fi + ( f j − fi ) , fi < f j Q j + Qi kde fi a fj jsou kmitočty tónů vytvořených stimulací jen do elektrody i (j) a Qi , Qj jsou náboje dodané do příslušných elektrod. Pro kmitočet virtuální elektrody teoreticky platí: fv Є<fi,fj>. Frekvence tónu vytvořeného stimulací do elektrody s nižším indexem je vyšší než frekvence tónu vytvořeného stimulací do elektrody s vyšším indexem. Pokud zachováme velikost náboje, dodaného do dvojice elektrod, zůstane hlasitost sluchového vjemu konstantní. V prvním případě budeme stimulovat do dvou vybraných sousedních elektrod se shodným stimulačním kmitočtem a proměnnou velikostí amplitud proudových pulsů tak, jak bylo popsáno v [7]. Velikost kmitočtu vnímaného tónu můžeme nastavit poměrem nábojů, respektive velikostí amplitud proudových pulsů v elektrodách 10 a 11. Na obrázku 7a) je uveden příklad vytvoření virtuální elektrody mezi elektrodami 10 a 11. V případě levé části obrázku 7a) je kmitočet virtuální elektrody nižší než v pravé části obrázku b). electrode electrode 10 10 11 11 1 20 time [ms] 1 20 time [ms] a) b) Obrázek 7: Virtuální elektroda s konstantním stimulačním kmitočtem a), s konstantními amplitudami b). Druhý způsob vytvoření virtuální elektrody je zobrazen na obrázku 7b). V tomto případě je změna poměru náboje dodaného do elektrod 10 a 11 provedena změnou stimulačních kmitočtů v obou elektrodách. Amplituda stimulačních pulsů naopak zůstává konstantní. Frekvence tónu vytvořeného pomocí pulsů zobrazených v levé části obrázku 7b) je nižší než frekvence tónu vytvořeného pomocí pulsů zobrazených v pravé části obrázku 7b). 4.2 Výsledky testů virtuální elektrody na pacientech Pro oba principy popsané v předchozí kapitole byly vytvořeny testovací programy v prostředí Matlab, s použitím NIC toolboxu [2], [3] a speciálního hardware. Oba způsoby vytvoření virtuální elektrody byly ověřeny na šesti pacientech, dva z nich bohužel nedokázali spolehlivě rozlišit frekvenci tónů vytvořených stimulací do jedné elektrody. Pro ověření virtuální elektrody tak nemohli být použiti. Čtyři další pacienti dokázali spolehlivě rozlišit tón vytvořený virtuální elektrodu od tónů vytvořených stimulací do jedné elektrody. Oběma výše popsanými principy lze vytvořit virtuální elektrodu. Metodu konstantních amplitud (obrázek 7b)) lze hůře implementovat, její použití v reálném čase by mohlo být limitující. Tato metoda má také omezenou možnost nastavení kmitočtu vnímaného tónu díky omezené možnosti měnit stimulační kmitočet. V případě, že stimulační kmitočet poklesne v jedné z elektrod pod 200 Hz, pacient uslyší místo tónu o kmitočtu daného vzorcem (2) tón o nízkém kmitočtu. Tento fakt spolu s vyššími nároky na hardware velmi omezuje použití této metody. Výsledky rozpoznání virtuální elektrody pro metodu konstantního stimulačního kmitočtu jsou uvedeny v tabulce 1. Pacient A B C D Procenta úspěšnosti [%] nízké f. nižší f. vyšší f. vysoké f. 63 86 79 98 79 70 73 70 98 94 63 86 91 82 91 80 Tabulka 1: Procentuální úspěšnost rozpoznání virtuální elektrody 5. Závěr Metody rekonstrukce řeči z výstupů kódovacích strategií SPEAK, ACE a CIS mohou pomoci v dalším výzkumu předzpracování řeči pro kochleární implantáty, především pak při ověření navržených změn pro dosažení lepší srozumitelnosti v hlučném prostředí a pro vnímání hudby. Rekonstrukce součtem sinusových signálů nepodchytí vliv stimulačního kmitočtu, ale je výpočetně výrazně jednodušší. Rekonstrukce buzením banky číslicových filtrů je výpočetně náročnější, ale podchytí vliv stimulačního kmitočtu. Řeč rekonstruovaná pomocí součtu sinusových signálů zní kovově, ale je dobře srozumitelná. Řeč rekonstruovaná metodou buzení banky filtrů zní přirozeněji, ale je hůře srozumitelná. Pro další práci je možno použít obě metody rekonstrukce řeči z proudových pulsů. Nebudeme-li požadovat podchycení vlivu stimulačního kmitočtu, který je individuálně nastaven dle požadavků pacienta, můžeme využít rekonstrukci metodou součtu sinusových signálů. Výhodou této metody je její nízká výpočetní náročnost. Nejvhodnější strategie je pak strategie ACE pro 16 pásem. Tento počet pásem je pro pacienty využitelný pouze v prostředí s nízkým šumem a bez přítomnosti více mluvčích. V prostředí se šumem obsahují vybraná pásma s nižší energií více šumu. Prakticky se používá 10 nebo 12 pásem. Bylo ověřeno, že virtuální elektroda může být vytvořena i s použitím implantátu Nucleus® 24 Contour Advance™. Použití metody pevné amplitudy stimulačních pulsů je limitováno omezenou možností nastavení frekvence vnímaného tónu. Úspěšnost rozpoznání virtuálních elektrod závisí na pacientovi a na místě stimulace. Nicméně použití virtuálních elektrod může přinést přesnější určení frekvence vnímaného tónu pro strategie ACE a SPEAK a tím zvýšení srozumitelnosti vnímání řeči a hudby. 6. Poděkování Tato práce vznikla za podpory výzkumného záměru “Transdisciplinární výzkum v biomedicínském inženýrství 2” č. MSM 6840770012 a grantem ” Modelování biologických a řečových signálů”, č 102/03/H085 Českého vysokého učení technického v Praze. Reference [1] CLARK, G. Cochlear implants, fundamentals and applications. New York: Springer NY, 2003. 830 p. ISBN 0-387-95583-6. [2] Nucleus Reference manual. Cochlear Ltd. Australia, 2001. N94359F ISSI. [3] Swanson, B. Nucleus Matlab Neural Toolbox. Cochlear Ltd. Australia, 2004. [4] MOCEK, V. Evaluation of Performance of Speech Coding Strategies Used in Cochlear Implant Systems in Noisy Environment. FMBE Proceedings, Vienna, December 04-08 2002. p. 51-55. ISSN 1741-0800. [5] LOIZOU, P. Mimicking the Human Ear. IEEE Signal Processing, 1998, vol. 15, no. 5 ,p. 101-130. ISSN 0740-7467. [6] Rabiner, L. Juang B. Fundamentals of Speech Recognition. Prentice Hall Signal Processing Series. Prentice Hall, Upper Saddle River, NJ, 1993, ISBN 0-13-015157-2. [7] Poroy O., Loizou P. C.: Pitch Perception Using Virtual Cannels, University of Texas at Dallas, Richardson, TX 75083. [8] Vondrášek, M: Porovnání rekonstrukce řeči pro kochleární implantáty. Výzkumná zpráva #Z05-5, ČVUT FEL, 2005.