Model prostorového slyšení

Transkript

Model prostorového slyšení
České vysoké učení technické, fakulta elektrotechnická
katedra kybernetiky
Model prostorového slyšení
diplomová práce
Vypracoval: Marek Drápal
Vedoucí diplomové práce: Doc.MUDr.RNDr. Petr Maršálek, PhD.
Prohlášení
Prohlašuji, že jsem svou diplomovou práci vypracoval samostatně a použil jsem pouze
podklady uvedené v přiloženém seznamu.
Nemám závažný důvod proti užití tohoto školního díla ve smyslu § 60 Zákona č.121/2000 Sb.,
o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů
(autorský zákon).
V Praze dne 26.ledna 2006
Poděkování
Děkuji vedoucímu své práce Doc.MUDr.RNDr. Petrovi Maršálkovi, PhD. za cenné rady,
náměty a připomínky, bez nichž by tato práce nikdy nevznikla a dále za mimořádně pečlivé
a časově náročné odborné vedení této práce.
Anotace
Tato diplomová práce se zabývá principy a modely prostorového slyšení člověka respektive
savců. Největší pozornost je věnována modelům vycházejícím z návrhů Petra Maršálka,
které byly dále rozšířeny tak, aby odpovídaly experimentálním měřením Antje Branda
a dalších. V implementovaných modelech je simulována kochlea bankou gammatónových
ERB filtrů (Equivalent Rectangular Bandwidth) a leaky-integrate-and-fire neurony. Procesy v mediální a v laterální olivě superior jsou implementovány tak, že výstupy z nich
odpovídají Jeffressově teorii zpožďovací linky.
Realizovány byly tyto modely:
• Excitačně-inhibiční
• Čistě excitační
• Pravděpodobnostní excitačně-inhibiční
• Pravděpodobnostní čistě excitační
• Jeffressův model se zpožďovací linkou
V této práci ověřujeme funkčnost výše uvedených modelů a jejich rozšíření, které zaručilo
koherenci s experimentálně získanými daty.
4
Anotation
This diploma thesis focuses on principles and models of sound localization of humans
respectively mamals. The largest effort is oriented towards models of Petr Maršálek, which
were extended to be in coherence with experimental measures of Antje Brand and others. In
those implemented models cochlea is simulated by a bank of gammatone ERB (Equivalent
Rectangular Bandwidth) filters and by the leaky-integrate-and-fire neurons. The processes
in the medial superior olive and in the lateral superior olive are implemented in such a
way, that outputs of them are the same as outputs from classical Jeffress model.
Those models were realized:
• Excitatory-inhibitory
• Excitatory
• Probabilistic excitatory-inhibitory
• Probabilistic excitatory
• Jeffress model with delay lines
In this work is shown, that those models are fully functional and when extended, they
are in agreement with experimental data.
5
Obsah
1 Úvod
10
2 Teorie prostorového slyšení
11
2.1
2.2
2.3
Morfologie a fyziologie sluchového ústrojí člověka . . . . . . . . . . . . . .
11
2.1.1
Zevní ucho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.1.2
Střední ucho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.1.3
Morfologie vnitřního ucha . . . . . . . . . . . . . . . . . . . . . . .
12
2.1.4
Fyziologie vnitřního ucha . . . . . . . . . . . . . . . . . . . . . . . .
13
2.1.5
Nervové dráhy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
Fyzika prostorového slyšení . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.2.1
Přesnost určení zdroje . . . . . . . . . . . . . . . . . . . . . . . . .
16
Psychologie prostorového slyšení . . . . . . . . . . . . . . . . . . . . . . . .
16
3 Prostředky modelování prostorového slyšení
3.1
3.2
3.3
18
Leaky integrate and fire neuron . . . . . . . . . . . . . . . . . . . . . . . .
18
3.1.1
Základní popis IAF neuronu . . . . . . . . . . . . . . . . . . . . . .
18
3.1.2
Rozbor elektrického zapojení IAF neuronu . . . . . . . . . . . . . .
18
3.1.3
Zpřesnění modelu . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
Gammatónové ERB filtry . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
3.2.1
Gammatónové filtry
. . . . . . . . . . . . . . . . . . . . . . . . . .
20
3.2.2
Ekvivalentní pravoúhlá šířka, ERB . . . . . . . . . . . . . . . . . .
20
3.2.3
GERB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
Detektory koincidence . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
4 Model částí ucha před sluchovou dráhou
22
4.1
Vnější a střední ucho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
4.2
Vnitřní ucho, kochlea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
6
5 Model prostorového slyšení za využití zpožďovací linky
23
5.1
Zpožďovací linka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
5.2
Datová realizace zpožďovací linky . . . . . . . . . . . . . . . . . . . . . . .
23
5.2.1
Zjišťování stavů DK . . . . . . . . . . . . . . . . . . . . . . . . . .
25
5.2.2
Vkládání nových prvků . . . . . . . . . . . . . . . . . . . . . . . . .
25
Praktické výstupy z modelu . . . . . . . . . . . . . . . . . . . . . . . . . .
25
5.3
6 Inhibičně-excitační model prostorového slyšení
25
6.1
Tvarování vstupního signálu . . . . . . . . . . . . . . . . . . . . . . . . . .
26
6.2
Prahování . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
6.3
Určení ITD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
7 Čistě excitační model
28
7.1
Tvarování vstupního signálu . . . . . . . . . . . . . . . . . . . . . . . . . .
28
7.2
Prahování . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
7.3
Určení ITD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
8 Pravděpodobnostní excitačně-inhibiční model
29
8.1
Tvarování a prahování signálu . . . . . . . . . . . . . . . . . . . . . . . . .
29
8.2
Posunutí signálu
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
8.3
Určení ITD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
9 Pravděpodobnostní čistě excitační model
31
9.1
Tvarování a prahování signálu . . . . . . . . . . . . . . . . . . . . . . . . .
31
9.2
Posunutí signálu
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
9.3
Určení ITD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
7
10 Zhodnocení a srovnání modelů, diskuse
33
10.1 Shoda s experimentálními daty . . . . . . . . . . . . . . . . . . . . . . . .
33
10.1.1 Zpožďovací linka . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
10.1.2 Inhibičně-excitační model . . . . . . . . . . . . . . . . . . . . . . .
34
10.1.3 Excitační model . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
10.1.4 Pravděpodobnostní inhibičně-excitační model . . . . . . . . . . . .
35
10.1.5 Pravděpodobnostní čistě excitační model . . . . . . . . . . . . . . .
36
10.2 Přesnost modelů . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
10.2.1 Inhibičně-excitační model . . . . . . . . . . . . . . . . . . . . . . .
37
10.2.2 Excitační model . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
10.2.3 Pravděpodobnostní inhibičně-excitační model . . . . . . . . . . . .
37
10.2.4 Pravděpodobnostní excitační model . . . . . . . . . . . . . . . . . .
37
10.3 Rychlost modelů . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
10.3.1 Zpožďovací linka . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
10.3.2 Inhibičně-excitační model . . . . . . . . . . . . . . . . . . . . . . .
40
10.3.3 Excitační model . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
10.3.4 Pravděpodobnostní modely . . . . . . . . . . . . . . . . . . . . . .
41
10.4 Další vlastnosti modelů . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
10.4.1 Přesnost detektorů koincidence . . . . . . . . . . . . . . . . . . . .
41
10.4.2 Další zpracování signálu . . . . . . . . . . . . . . . . . . . . . . . .
41
10.4.3 Limitace výstupní frekvence . . . . . . . . . . . . . . . . . . . . . .
42
10.4.4 Délka pohyperpolarizační fáze . . . . . . . . . . . . . . . . . . . . .
42
10.4.5 Další vývoj teoretického modelu . . . . . . . . . . . . . . . . . . . .
42
8
11 Popis softwarové realizace v prostředí Matlab
42
11.1 IAF neuron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
11.1.1 Funkce iaf neuron init . . . . . . . . . . . . . . . . . . . . . . . . .
45
11.1.2 Funkce iaf neuron . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
11.2 GERB filtry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
11.2.1 Funkce MakeERBFilters . . . . . . . . . . . . . . . . . . . . . . . .
46
11.2.2 Funkce ERBFilterBank . . . . . . . . . . . . . . . . . . . . . . . . .
46
11.3 Zpožďovací linka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
11.3.1 Funkce zpozd linka . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
11.4 Inhibičně-excitační model
. . . . . . . . . . . . . . . . . . . . . . . . . . .
47
11.5 Excitační model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
11.6 Pravděpodobnostní modely . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
12 Závěr
51
A Seznam příloh
53
9
1
Úvod
Se schopností prostorového slyšení se setkáváme v našem životě každodenně, byť často
nevědomky. Podvědomě se podíváme směrem, odkud přichází zvuk tříštícího se talíře, či
řvoucího motoru. Žádný fyziolog na světě ale dodnes nedokáže zcela vyčerpávajícím způsobem odpovědět na otázky: Jak člověk respektive savec pozná, odkud zvuk přichází?, či: Jak
je možné, že je nervový systém schopen rozpoznat zpoždění v řádu mikrosekund? Dnešní
znalosti neuronových spojení v mozku jsou v porovnání například se znalostmi DNA nesrovnatelně menší. Na uvedené otázky tedy nemůžeme beze zbytku odpovědět z hlediska
anatomicko-fyziologického. Vyjdeme tedy z elektrofyziologických měření sluchových nervových drah savců a pokusíme se navrhnout model odpovídající těmto měřením.
Prvotním cílem této práce byla počítačová simulace několika modelů prostorového slyšení. Vedle klasického Jeffressova modelu, který je uznáván jako klasický od padesátých let
dvacátého století, byla pozornost upřena na nové modely Petra Maršálka, které se snaží na
tuto problematiku pohlédnout novým způsobem. Při práci na výše uvedených modelech
se ukázalo jako účelné je upravit a pozměnit tak, aby došlo ke shodě s experimentálně
naměřenými daty, která byla získána týmem Antje Brandta.
Výsledkem této práce jsou modely, které vykazují obdobně přesné výsledky jako klasický
Jeffressův model zpožďovací linky a přitom se shodují s experimentálně naměřenými daty.
Ukazuje se, že všechny nově implementované modely jsou funkční a nelze tedy vyloučit,
že aspoň některý se blíží tomu, jak funguje lokalizace zvuku u savců. Že jsme však stále
na počátku hledání skutečného principu svědčí i řada více či méně závažných otázek, které
při zkoumání vyvstaly.
Přáním autora je, aby tato práce byla přínosem při dalším výzkumu principů prostorového slyšení člověka a stala se pomyslnou kapičkou v moři poznání fyziologie člověka.
10
2
Teorie prostorového slyšení
V tomto oddíle bude postupně popsáno sluchové ústrojí člověka z anatomicko-fyziologického
pohledu a následně fyzika prostorového slyšení. Při popisu fyziologie budeme vycházet především z monografie [Syka et al., 1981], dále pak z [Brand et al., 2002] či [Joris et al., 1998].
2.1
Morfologie a fyziologie sluchového ústrojí člověka
Sluchové ústrojí člověka dělíme na zevní, střední a vnitřní ucho. Zevní a střední ucho slouží
ke vstupu a transformaci zvuku ze zevního vzdušného prostředí do tekutiny vnitřního ucha.
Vniřní ucho pak slouží k zakódování výšky a intenzity zvuku do nervových vzruchů.
2.1.1
Zevní ucho
Zvuk přicházející z vnějšího zdroje je pro frekvence vyšší než 500 Hz směrován pomocí
ušního boltce. Maximální směrový účinek má ušní boltec pro zvuk o frekvenci 5 kHz,
přicházející ze směru v úhlu patnácti stupňů odkloněného od interaurální osy a ve frontální
rovině. Zvuk o této frekvenci a stejné intenzitě přicházející z jiného směru do daného boltce
je vnímán jako slabší. Ušní boltec také vytváří výrazný akustický stín pro zvuky přicházející
zezadu a umožňuje tak lokalizovat zvuky v předozadní rovině. Na ušní boltec navazuje zevní
zvukovod.
Zevní zvukovod je u člověka dlouhý asi 25 mm a má průměr kolem 7 mm, je ukončen
bubínkem, který tvoří hranici mezi zevním a středním uchem. Délka zvukovodu je významným parametrem, na kterém je založeno posuzování rezonančních vlastností zevního
zvukovodu. Experimentálně bylo změřeno, že k maximální rezonanci dochází mezi 3 kHz
až 4 kHz, kdy dochází ke zvýšení intenzity zvuku asi o 12 dB.
2.1.2
Střední ucho
Úlohou středního ucha je přenos zvukové energie z plynného prostředí vnějšího zvukovodu
do prostředí kapalného vnitřního ucha. Převod zvukové energie z jednoho prostředí do
druhého je spojen se ztrátou energie, která musí být kompenzována činností středního
11
ucha. O tom, jaká část energie se přenese, rozhoduje poměr impedancí obou prostředí.
Účinnost přenosu akustické energie lze vyjádřit takto:
β=
4r
.
(r + 1)2
(1)
Koeficient β udává účinnost přenosu, r je poměr akustické impedance vzduchu a perilymfy.
Akustická impedance vzduchu je asi 415 kg.m−2 .s−1 , akustická impedance perilymfy je
srovnatelná s impedancí mořské vody a činí asi 16, 1 · 105 kg.m−2 .s−1 . Z výše uvedeného
plyne, že r je rovno 4000. Dosazením do rovnice 1 získáváme tedy β = 0.1% tj. −30 dB.
Tato ztráta energie musí být nějak hrazena. V současné době jsou známy tyto mechanismy
hrazení ztrát:
1. Zvuk z relativně velké plochy bubínku (55 mm2 ), který má tvar mělké nálevky (průměr 8 − 10 mm), je přenášen sluchovými kůstkami na oválné okénko, které je téměř
20-krát menší (3, 2 mm2 ). Vzhledem k tomu, že není účinná celá plocha bubínku,
dochází k zesílení asi o 23 dB.
2. Středoušní kůstky (kladívko, kovadlinka, třmínek) tvoří soustavu pák, jejíž zesílení je asi 2.5 dB.
3. Bubínek svým nestejnoměrným zakřivením vytváří speciální pákový systém, který
rovněž zesiluje signál.
Vedle výše popsaných struktur středního ucha je třeba zmínit různé vazy, kterými
jsou vázány sluchové kůstky a dva drobné svaly musculus tensor tympani a musculus
stapedii, které mají shodnou funkci – kontrakcí snižovat přenos zvuku. Tímto je zajištěna
ochrana sluchu před příliš intenzivním zvukem. Vyrovnání tlakových poměrů mezi vnějším
okolím a středoušní dutinou je uskutečňováno při polknutí faryngotympanickou tubou
(Eustachova trubice).
2.1.3
Morfologie vnitřního ucha
Úlohou vnitřního ucha je převod akustického vlnění perilymfy na nervové vzruchy, které
kódují výšku a intenzitu zvuku. Základem vnitřního ucha je kostěný hlemýžď, který
je dlouhý asi 35 mm a je stočen ve dva a půl závitu. Trubice kostěného hlemýždě je
12
rozdělena na dvě poschodí (scala vestibuli a scala tympani) kochleární přepážkou.
Poschodí jsou oddělena obdobně jako jednosměrná schodiště rozhledny. Vchod na schodiště
vzhůru vede z předsíně (vestibulum) s oválným okénkem, na které dosedá třmínek. Tato
scala vestibuli prochází pod stropem kostěného hlemýždě do jeho vrcholu, kde přechází na
dolní schodiště. Tato scala tympani je zakončena okrouhlým okénkem. Scala vestibuli
je oddělena Reissnerovou membránou od scala media, která je naplněna endolymfou. Od
scala tympani je scala media oddělena bazilární membránou. Ve scala media je na bazilární
membráně umístěn Cortiho orgán.
Z bazilární membrány vyrůstají různé nosné elementy Cortiho orgánu, které vytvářejí
pravidelnou strukturu nesoucí retikulární membránu. Tato porézní struktura je protkána různými tunely a mikrotunely. V této struktuře rovněž vedou nervy vláskových
buněk, které jsou umístěny na povrchu retikulární membrány. Vláskové buňky se dotýkají
membrány tektoriální, která je zavěšena planparalelně nad retikulární.
Vláskové buňky jsou specializované receptory. Ohnutím vláskové buňky na stranu bazálního tělíska dochází k depolarizaci, směrem opačným k hyperpolarizaci. Rozlišujeme
vláskové buňky vnitřní, kterých je asi 3500 a jsou uspořádány do jedné řady, a vnější,
kterých je 15-18 tisíc ve třech řadách. Od vnitřních vláskových buněk vede asi 95% všech
aferentních (dostředivě vedoucích) nervových vláken, od vnějších zbylých 5% těchto vláken.
Vnitřní vláskové buňky mají tedy úlohu čití, zatímco vnější vláskové buňky úlohu zpětnovazební, kdy jejich napnutím může být tlumen posun tektoriální membrány vůči membráně
retikulární.
2.1.4
Fyziologie vnitřního ucha
Z bubínku je zvukový tlak převeden přes sluchové kůstky na oválné okénko. Akustické
vibrace se odtud šíří nestlačitelnou nitroušní kapalinou. Tlak se až do frekvence 16 Hz
vyrovnává plně přes okrouhlé okénko, které kmitá v protifázi. Při vyšších frekvencích se
ale tlak nestačí vyrovnat, aniž by pohnul kochleární přepážkou. Dochází tedy k rozkmitání
kochleární přepážky. Čím je kmitočet vyšší, tím se tlak vyrovná blíže ke třmínku (tonotopie). K tonotopii kochleární přepážky přispívají i její mechanické vlastnosti. Blízko
třmínku je přepážka užší (0, 05 mm) a postupně se rozšiřuje až na 0, 5 mm. V hlemýždi
tak dochází k základní frekvenční analýze.
13
Rozkmitáním kochleární přepážky dojde k posunu mezi tektoriální a retikulární membránou. Posunutí zhruba odpovídá posunutí dvou planparalelních rovin přitlačených k povrchu koule. To má za následek to, že na jedné straně posunu dochází k hyperpolarizaci
vnitřních vláskových buněk, na straně druhé k depolarizaci. Citlivost tohoto posunutí je nesmírná. Udává se [Syka et al., 1981], že při intenzitách blízkých sluchovému prahu člověka,
dochází k registraci výchylky o velikosti 0, 1 nm.
2.1.5
Nervové dráhy
Sluchový nerv vycházející z vnitřního ucha má u člověka asi 30 tisíc vláken. Obsahuje vedle
vláken aferentních (dostředivě vedoucích) asi 500 vláken eferentních (odstředivě vedoucích), která sestupují ze superior olivy a zakončují se synapsemi na vláskových buňkách
Cortiho orgánu.
Aferentní vlákna sluchového nervu vstupují do komplexu kochleárního jádra, které
je součástí prodloužené míchy. Vlákna sluchového nervu se uvnitř jádra rozdělují na část
vzestupnou, která zásobuje AVCN (anteroventrální kochleární jádro) a část sestupnou,
která směřuje do PVCN (posteroventrální kochleární jádro) a DCN (dorzální kochleární
jádro). Z obou AVCN vedou nervová vlákna přímo do mediální superior olivy MSO a
laterální superior olivy LSO. Do MSO respektive LSO vedou nervové dráhy rovněž přes
MNTB a LNTB (mediální a laterální nucleus of trapezoid body), ve kterých je nervový
vzruch transformován z excitačního na inhibiční. Výše popsaná nervová dráha je zachycena
v obrázku 1.
MSO
AVCN
MNTB
AVCN
LNTB
od l. ucha
od p. ucha
Obrázek 1: Část inervace kochleárního jádra. Excitační vstupy (fialové) z anteroventrálního
kochleárního nuclea (AVCN) a inhibiční (glycinergické) vstupy (růžové) z MNTB a LNTB
vstupují do medial superior olivy (MSO).
14
Jak je vidět, MSO a LSO jsou první místa, kde se setkávají vzruchy z levého a pravého
ucha, mají proto velký význam pro prostorové slyšení. V MSO jsou zpracovávány nižší
frekvence (do 1 až 2 kHz), v LSO pak frekvence vyšší. Z hlediska morfologického v nich
však u savců nebyla objevena biologická struktura připomínající zpožďovací linku. Přesná
neuronální spojení jsou zatím zčásti neznámá.
Z kochleárního jádra pokračují nervové dráhy do sluchové kůry (Heschlův závit), která
je ukryta v hloubi temporální oblasti mozkové kůry. Sluchová kůra není přesně vymezena,
v mnoha místech přechází do míst nesluchových, zvláště pak do asociačních oblastí mozku.
2.2
Fyzika prostorového slyšení
Lokalizace zdroje zvuku v prostoru je založena na určení časového posunu mezi signálem
levého a pravého ucha (ITD – Interaural Time Difference). Analyticky můžeme tento posun
zjistit například pomocí korelace.
A
a1
a2
b2
B
b1
Obrázek 2: Schematické znázornění prostorové neurčitosti v dvojrozměrném prostoru. Vjem
prostorového slyšení ze stejně barevných větví hyperboly je ekvivalentní. Například zvuk
z bodu A může být vnímán jako zvuk z bodu B.
Vyloučíme-li nyní pro jednoduchost směrovou charakteristiku ušního boltce a omezímeli se na dvojrozměrný izotropní prostor, zjistíme, že jednomu časovému posunu odpovídá
nekonečně mnoho poloh zdrojů zvuku. Tyto zdroje leží na větvích hyperboly, které jsou
osově souměrné. Osou souměrnosti je osa uší. Na obrázku 2 jsou pro jeden konkrétní úhel
zakresleny dvě dvojice větví hyperboly – červené a zelené. Pro každé dva body A a B,
15
ležící na příslušné dvojici větví a vzdálenosti a1 ,a2 a b1 ,b2 (viz obrázek 2) musí platit:
a1 − a 2 = b 1 − b 2 .
(2)
Pokud leží zdroj zvuku na ose uší, splývají tyto dvě větve hyperboly v jedinou polopřímku. V trojrozměrném prostoru se pak jedná o nekonečně mnoho bodů na plášti rotačního hyperboloidu, který vznikne rotací výše popsané hyperboly kolem osy uší (viz obrázek
3). V dalším samozřejmě stačí uvažovat polopřímky místo větví hyperboly, protože polopřímky jsou již při malé vzdálenosti od hlavy větvím hyperboly dostatečně blízko, a subjektivně také všechny tyto body vnímáme jako jeden směr, jako polopřímku [Syka et al., 1981].
Obrázek 3: Schematické znázornění prostorové neurčitosti v trojrozměrném prostoru.
2.2.1
Přesnost určení zdroje
Při určování posunutí dvou signálů uvažujeme vždy nějaký elementární rozlišovací krok.
V případě digitálního signálu odpovídá tento krok převrácené hodnotě vzorkovací frekvence. Pro nahrávku v digitální CD kvalitě to jest se vzorkovací frekvencí 44, 1 kHz docházíme k rozlišení 22, 67 µs. Na obrázku 4 jsou červenými úsečkami zobrazeny všechny
možné zdroje zvuku, které je možno při časovém kroku 22, 67 µs rozlišit. Zvuky vycházející
z jiného bodu se budou jevit jako přicházející z nejbližšího bodu ležícího na červené úsečce.
2.3
Psychologie prostorového slyšení
Stejně jako u zraku i u sluchu může docházet k různým mylným vjemům, klamům, neboli
iluzím. U prostorového slyšení se můžeme setkat s mylným vnímáním zdroje zvuku na16
200
180
160
140
120
y[cm]
100
80
60
40
20
0
0
50
100
150
200
250
300
350
400
x[cm]
Obrázek 4: Červené úsečky ukazují všechna rozlišitelná umístění zdrojů zvuku v blízkosti
hlavy při vzorkovací frekvenci 44, 1 kHz. Rozměry jsou v centimetrech, interaurální vzdálenost činí 17 cm.
příklad při sledování monofonní televize. Pokud zavřeme oči, můžeme jasně říci, že zvuk
vychází z místa, kde je reproduktor. Pokud budeme ovšem televizi sledovat normálně,
přijde nám, že zvuk vychází z úst herce. Jde o sluchový klam.
17
3
3.1
Prostředky modelování prostorového slyšení
Leaky integrate and fire neuron
Mezi nejpoužívanější modely neuronů patří Leaky Integrate And Fire (IAF) neuron. Jedná
se o model, který při značné jednoduchosti implementace poskytuje poměrně dobrou shodu
se skutečností.
3.1.1
Základní popis IAF neuronu
IAF neuron je jednoduchý elektrický obvod, který se skládá z kapacitoru C, ke kterému je
připojen rezistor R. Zapojení je zachyceno na obrázku 5. Do tohoto obvodu přitéká proud
i(t) a napětí na kapacitoru C je hradlováno komparátorem δ. Při dosažení napětí u M AX se
je kondenzátor vybit a na výstupu se objeví napěťový impuls, ve fyziologii nazývaný akční
potenciál, anglicky spike.
i(t)
C
R
δ
Obrázek 5: Schematické znázornění IAF neuronu
3.1.2
Rozbor elektrického zapojení IAF neuronu
Vstupní proud i(t) se rozděluje na proud rezistorem iR a proud kapacitorem iC . Je-li vstupní
napětí u(t), pak můžeme psát:
u(t)
du
+C .
(3)
R
dt
Biologicky odpovídá R odporu membrány, C kapacitě membrány a u napětí na membráně.
i(t) = iR + iC =
Změnu napětí na membráně za elementární časový okamžik lze vyjádřit z rovnice 3 takto:
C
du
u(t)
= i(t) −
.
dt
R
18
(4)
Vzhledem k tomu, že náš model je diskrétní, je třeba rovnici 4 vyjádřit diskrétně:
u(t + ∆t) = u(t)
∆t
1 − ∆t
+ i(t)
CR
C
(5)
Tvar rovnice 5 již umožňuje přímou implementaci v programu, ∆t bude rovna
1
,
fvz
převrá-
cené hodnotě vzorkovací frekvence.
3.1.3
Zpřesnění modelu
Aby výše uvedený model odpovídal lépe skutečnosti, byl rozšířen o tzv. pohyperpolarizační
fázi, kdy je po pevně stanovenou dobu po sepnutí hradla δ odpojen zdroj proudu i(t) a
napětí na membráně je nastaveno na uAHP (AHP je after-hyper-polarization, pohyperpolarizace), což je typicky záporné napětí. Dalším vylepšením je stanovení minimálního
vstupního proudu iM IN .
3.2
Gammatónové ERB filtry
Gammatónové ERB filtry (ERB je Equivalent Rectangular Bandwidth, viz níže) slouží
k modelování rozložení amplitudy zvuku v kochlee. Při modelování sluchového ústrojí se
používají velice často pro svou relativně nízkou výpočetní náročnost a dobrou shodu se
skutečností.
Jak již bylo řečeno v oddíle 2.1.3 každé frekvenci zvuku přísluší jedno místo v kochlee,
kde dochází k největšímu podráždění vláskových buněk. Zvolíme-li si například, že budeme
sledovat 7 neuronů vycházejících z vláskových buněk, vygenerujeme sadu 7 filtrů, jejichž
charakteristiky jsou zobrazeny na obrázku 6. Maxima těchto filtrů z obrázku 6 jsou zanesena
v tabulce 1.
Číslo neuronu
1
2
3
4
5
6
7
Maximum [Hz]
94
281
594
1093
1844
3063
4969
Tabulka 1: Tabulka maxim ERB gammatónových filtrů
Uslyšíme-li například zvuk o frekvenci 600 Hz, bude nejvíce podrážděn neuron č.3,
neuron č.4 bude podrážděn o 43 dB méně, neuron č.1 o 50 dB méně a všechny ostatní
neurony úrovní o 60 dB menší.
19
0
−10
1
2
3
4
5
6
7
−20
Zisk
[dB]
−30
−40
−50
−60
2
10
3
10
Frekvence [Hz]
4
10
Obrázek 6: Příklad sady sedmi ERG gammatónových filtrů, označených čísly jedna až
sedm. Maxima jednotlivých filtrů jsou zaznamenána v tabulce 1. Na ose x je vynesena
frekvence zvuku v logaritmickém měřítku, na ose y zisk filtru v decibelech.
3.2.1
Gammatónové filtry
Gammatónové filtry jsou experimentálně odvozené filtry, jejichž spojením do banky filtrů
bývá tradičně modelována kochlea. Impulsní charakteristiku těchto filtrů můžeme napsat
takto:
γtone (t) = atn−1 e−2πbt cos(2πfc t + φ),
(6)
kde φ je počáteční fáze, fc centrální frekvence, n řád filtru a b šířka pásma [Slaney, 1993].
Nevýhodou těchto filtrů je fakt, že na rozdíl od skutečnosti nejsou závislé na vstupní
úrovni signálu. Toto omezení bylo částečně odstraněno u takzvaných Gammachirpových
filtrů (více v [Irino and Patterson, 1997]).
3.2.2
Ekvivalentní pravoúhlá šířka, ERB
Equivalent Rectangular Bandwidth (ERB), to jest ekvivalentní pravoúhlá šířka je psychoakustická veličina, která stanovuje kritickou šířku pásma v závislosti na centrální frekvenci
zvuku. Zjednodušeně můžeme říci, že zvuk o centrální frekvenci fc maskuje všechny ostatní
20
v jeho okolí v tzv. kritickém pásmu. Experimentálně byla odvozena diferenciální rovnice,
která udává hodnotu ERB šířky w v Hz pro filtr lidského slyšení s centrální frekvencí f c :
df
= 6.23fc2 + 93.39fc + 28.52.
dw
Vyřešením rovnice 7 pak pro hodnotu ERB získáváme:
46.06538fc ´
.
fc + 14678.49
Pro nízké frekvence můžeme rovnici 8 aproximovat vztahem:
³
w = 11.17268 · log 1 +
w = 24.7 + 0.108fc .
3.2.3
(7)
(8)
(9)
GERB
Gammatónové ERB filtry (GERB) jsou speciální variantou gammatónových filtrů, kdy
šířka pásma b v rovnici 6 je vynásobena linearizovanou ERB funkcí 9. Pro řád filtru n = 4
je b voleno 1.019 a pak 3-dB šířka pásma je 0.887 násobek ERB [Patterson, 1994].
3.3
Detektory koincidence
Detektory koincidence jsou neurony s typicky dvěma vstupy (A,B) a jedním výstupem
(C). Akční potenciál (AP) se objeví na výstupu pouze tehdy, pokud se na obou vstupech
objeví AP současně respektive ve velmi krátkém časovém období. Toto chování odpovídá
logickému členu ”AND”, jak je zobrazeno v tabulce 2.
A B
C
0
0
0
0
1
0
1
0
0
1
1
1
Tabulka 2: Výstup detektoru koincidence v závislosti na vstupu (A,B). 1 značí AP,
0 bez AP.
21
4
Model částí ucha před sluchovou dráhou
Abychom získali ze zvukových vln přicházejících do uší signál neuronů vedoucích do MSO
respektive LSO je třeba namodelovat sluchovou funkci od vnějšího přes střední po ucho
vnitřní. Přitom je třeba, aby došlo k zachování fáze a časového posunutí jednotlivých
signálů.
4.1
Vnější a střední ucho
Do našeho modelu nebylo vnější a střední ucho prakticky zahrnuto. Nemá totiž na funkci
prostorového slyšení, tak jak ji zkoumáme, příliš velký vliv. Zanedbáním vnějšího ucha
nasadíme pomyslnému posluchači stereofonní sluchátka, do kterých pouštíme zvuk. Střední
ucho modelujeme pouze jako lineární zeslabení signálu. Částečnou ekvalizaci hlasitosti,
nebo drobnou frekvenční filtraci jsme v našem modelu neuvažovali.
4.2
Vnitřní ucho, kochlea
Kochleu jsme namodelovali pomocí gammatónových ERB filtrů (viz popis v oddíle 3.2)
a modelu vláskové buňky. Model Vláskové buňky jsme v původním modelu realizovali
pomocí Meddisnova modelu vláskové buňky, implementovaného v toolkitu auditory.org
[Slaney, 1993], na který byl napojen IAF neuron (viz popis v sekci 3.1). Jak se ovšem při
praktických pokusech ukázalo, model nefungoval správně. Pro velmi krátké zvuky v řádech
desítek milisekund, docházelo k tomu, že signály s malou amplitudou na vstupu vykazovaly
příliš velkou amplitudu na výstupu, což následně vedlo k přílišnému nepřirozenému buzení
IAF neuronu. Toto chování je způsobeno tím, že v modelu je použit filtr, kterému trvá
nějaký čas, než dojde k ustálení výstupu. Využili jsme proto toho, že do IAF neuronu
může téct proud pouze v jednom směru a výstupy z ERB filtrů jsme zapojili přímo na
IAF neurony. Vzhledem k tomu, že IAF neurony pracují jako integrátory, objevují se na
výstupu akční potenciály v závislosti na obsahu plochy vymezené nulovou osou a kladnou
částí zvukové křivky.
22
5
Model prostorového slyšení za využití zpožďovací
linky
Model prostorového slyšení za využití zpožďovací linky je dnes klasickou teorií, většinou považovanou za definitivní výklad mechanismů prostorového slyšení. Tento teoretický model
sestavil Jeffress v roce 1948. Avšak dodnes nebyla u savců a ani u lidí prokázána existence
morfologicky vyznačené struktury zpožďovací linky. Podobná struktura však byla nalezena
například u sov. Zpožďující linka funguje na principu zpoždění vedení excitací v poli neuronů odpovídajících na extracelulární postsynaptické potenciály [Joris et al., 1998]. Model
zpožďovací linky byl do této práce zařazen jako referenční model.
5.1
Zpožďovací linka
Zpožďovací linka je soustava vhodně zapojených detektorů koincidence (DK). Uvažujme
nyní pro názornost zpožďovací linku složenou ze sedmi DK, tak jak je uvedeno na obrázku
7. Všechny DK v rámci zpožďovací linky mají své vstupy A1−7 připojeny na zdroj signálu
ZA a své vstupy B1−7 na zdroj signálu ZB . Nechť ZA představuje signál z levé strany,
vstup ZB signál ze strany pravé. Jediné, čím se jednotlivé DK od sebe liší, jsou vzdálenosti
|ZA An |, respektive |ZB Bn |, pro vedení akčních potenciálů.
Pokud jsou poměry drah uspořádány tak, že |ZA A1 | je minimální a |ZB B1 | maximální u
prvního DK a |ZA An | se lineárně zvětšuje, respektive |ZB Bn | zmenšuje směrem k poslednímu DK, kde naopak |ZA A7 | je maximální a |ZB B7 | minimální, pak získáváme axonální
zpožďovací linku. Ta je zobrazena na obrázku 7. Pokud se objeví AP na ZA a ZB současně,
dojde ke generování AP na C4 (prostřední DK, kde |ZB B4 | = |ZA A4 |). Toto odpovídá
vybuzení zvukem, který je přímo před námi, nebo přímo za námi (více o této neurčitosti
v oddíle 2.2). Naopak, pokud zachytíme zvuk, který pochází přímo z naší levé strany, bude
aktivován neuron první, protože |ZA A1 | << |ZB B1 |.
5.2
Datová realizace zpožďovací linky
Zpožďovací linka je v našem modelu namodelována pomocí dvou cyklických vektorů, které
pracují jako cyklická paměť pro AP z levé (ZA ) respektive z pravé (ZB )strany. Umožňují
23
C4
C1
C7
A1
B1
A7
B7
ZA
ZB
Obrázek 7: Schematické znázornění zpožďovací linky. ZA značí signál z levého ucha, ZA
signál z ucha pravého. A1−7 respektive B1−7 jsou vstupy do detektorů koincidence. Výstupy
z DK jsou označeny jako C1−7
tedy modelovat různě dlouhá zpoždění cestou od zdroje signálu (například ZA ) k DK
(například A1 ).
Budeme-li tedy uvažovat zpožďovací linku se sedmi DK, pak použijeme dva cyklické
vektory délky 7. Tyto cyklické vektory realizujeme dvěma poli (PA a PB ) o rozměru 1x7
a proměnnou t, udávající polohu v čase od hodnoty t = 0. Čas narůstá od t-tého prvku
vpravo. Na poslední prvek pole navazuje prvek první a tím je dána cykličnost pole. Postup
zpracování signálu je znázorněn v následujících tabulkách 3 a 4. Příklad výše popsané
cyklické datové struktury je uveden v tabulce číslo 4. Datová struktura byla vygenerována
z AP, které jsou zachyceny v tabulce číslo 3. AP z levé strany jsou označeny ZA , z pravé
strany ZB .
čas
2
1
0 -1
-2 -3 -4 -5 -6
-7
ZA
1
1
0
1
1
1
1
0
0
0
ZB
1
0
0
1
0
0
1
0
0
0
Tabulka 3: Sled akčních potenciálů z levého (ZA ) a pravého (ZB ) ucha v závislosti na čase.
Tímto signálem jsou plněny datové struktury PA a PB , zachycené v tabulce 4.
24
t
PA
PB
0 (00 11 12 13 14 05 06 07 )
(00 11 02 03 14 05 06 07 )
1 (07 10 11 12 13 04 05 06 )
(07 10 01 02 13 04 05 06 )
2 (06 17 10 11 12 03 04 05 )
(06 17 00 01 12 03 04 05 )
Tabulka 4: Příklad datové realizace zpožďovací linky. Indexy prvků v polích PA a PB
udávají polohu v čase (0 odpovídá nejnovějšímu prvku, 7 nejstaršímu). Proměnná t určuje
polohu nultého prvku v obou polích, nabývá tedy hodnot od nuly do šesti.
5.2.1
Zjišťování stavů DK
Pokud chceme z výše popsané struktury získat stav například prvního DK, pak v poli
PA vybereme t-tý prvek a v poli PB prvek číslo (t + 6) mod 7, kde mod značí operaci
modulo. Prvek z pole PA odpovídá A1 , prvek z PB B1 . Výsledný stav C1 se vypočte
podle tabulky 2. Například pro stav, kdy t = 2 v tabulce 4 získáváme: A1 = PA [2] = 1,
B1 = PB [2 + 6 mod 7] = PB [1] = 1 a tudíž, dle tabulky 2, C1 = 1.
5.2.2
Vkládání nových prvků
Pří vkládání nových stavů ZA a ZB aktualizujeme pole PA respektive PB na pozici t
hodnotou ZA respektive ZB a následně nastavíme proměnnou t na (t + 1) mod 7.
5.3
Praktické výstupy z modelu
Model byl otestován v prostředí Matlab (více o softwarové realizaci v sekci 11.3) s umělými
(sinusová funkce) i reálnými zvuky (lusknutí prsty, výstřel). Při všech těchto pokusech
fungoval naprosto bezchybně a velice selektivně. Výstup pro lusknutí prsty a 7 kanálů je
zachycen v tabulce 5.
6
Inhibičně-excitační model prostorového slyšení
Inhibičně-excitační model byl inspirován modelem Petra Maršálka, který byl poprvé popsán v [Maršálek and Kofránek, 2004]. Tento model byl dále upraven tak, aby odpovídal
experimentálně naměřeným datům, popsaným v [Brand et al., 2002].
25
Neuron P1 P2
P3
P4 P5
P6
P7
498
0
0
0
0
0
0
0
...
0
0
0
0
0
0
0
294
0
0
0
0
0
0
0
272
13
17
14
16
9
10
10
249
0
0
0
0
0
0
0
...
0
0
0
0
0
0
0
-498
0
0
0
0
0
0
0
Tabulka 5: Tabulka četnosti AP na výstupu ze sedmi zpožďovacích linek, které pracují v
různých frekvenčních pásmech (P1-P7), která byly vytvořena GERB filtry. Zvuk přicházející do uší je posunut o 270, 76 µs. Vzhledem k použité vzorkovací frekvenci 44, 1 kHz je
nejmenší časový krok 22, 67 µs. Při zohlednění tohoto časového kroku získáváme zpoždění
o celých 12 kroků, to jest 272, 11 µs. Jednotlivé zpožďovací linky mají na výstupu 45 neuronů, které jsou označeny dle zpoždění, které jim odpovídá. Jak je vidět v našem případě
je u všech zpožďovacích linek vybuzen neuron odpovídající zpoždění 272, 11 µs, což je v
souladu s teorií.
6.1
Tvarování vstupního signálu
Vstupní signál z levého a pravého ucha, který může být v podobě více či méně širokých
pulsů, odpovídajících neuronálním dějům, které navazují na postsynaptické potenciály,
anebo na akční potenciály, je dále transformován do podoby zachycené na obrázku 8.
Zvolíme jednu polaritu, takže z každého akčního potenciálu pocházejícího z pravé strany
vznikne kladný puls ihned následovaný pulsem záporným. Obdobně z každého AP z levé
strany vznikne záporný puls následovaný pulsem kladným, jak je vidět na obrázku 8. Délka
půlvln musí být minimálně rovna maximálnímu zpoždění, které chceme pozorovat, což u
člověka odpovídá asi 500 µs. Celá vlna pak bude mít v tomto případě délku 1 ms, což
určuje maximální frekvenci zvuku u tohoto modelu, která je pro zdroje signálu ležící v
ose uší 1 kHz. K tomuto tvarování pulsů je zapotřebí inhibice, která nám umožní vytvořit
záporné pulsy.
26
6.2
Prahování
Vhodně natvarovaný signál z obou stran, popsaný v předchozí sekci, je sečten a prahován.
Uvažujeme-li, že velikost kladného pulsu je rovna +1 a velikost záporného pulsu −1 a že
neuron, na který jsou přivedeny signály z levé a z pravé strany, pracuje jako čistý sumátor,
pak můžeme prahovat signál například hodnotami +1.5 a −1.5. Získáme tak různě široké
pulsy, jejichž šířka odpovídá ITD. Zapojíme-li na tento výstup IAF neuron, získáme signál,
jehož frekvence odpovídá ITD.
6.3
Určení ITD
Je-li signál kódován tak, jako na obrázku 8, pro zvolenou část dráhy prostorového slyšení
kladné pulsy odpovídají signálu pocházejícímu z levé strany a záporné pulsy signálu ze
strany pravé. Jejich délka pak přímo koresponduje s polohou zdroje zvuku. Nulová aktivita
odpovídá zdroji přímo před námi, maximální aktivita zdroji ležícímu na ose uší. Sečteme-li
oba signály a přičteme-li spontánní aktivitu, která je v absolutní hodnotě rovna maximální
aktivitě inhibiční (záporné) části prahovaného signálu, získáme signál, jehož aktivita je
nejnižší, pokud je zvuk úplně vpravo, respektive nejvyšší, pokud je zvuk úplně vlevo. Tato
závislost je zachycena na obrázku 14 jako červená křivka.
0
0
0
čas
Obrázek 8: Koincidenční detektor využívající excitaci a inhibici. Složením signálu z levého
ucha (zelená křivka) a pravého ucha (červená křivka) získáváme signál zobrazený modrou
barvou. Tento signál je prahován jak excitačně tak inhibičně (prahy jsou vyznačeny fialově).
27
7
Čistě excitační model
Čistě excitační model je rovněž inspirován prací [Maršálek and Kofránek, 2004]. Jedná se
o model, který je schopen určit pouze absolutní hodnotu zpoždění dvou signálů. S výhodou
lze na něj nahlížet jako na inhibičně-excitační model popsaný v sekci 6 s vyloučením inhibice. Jak později ukážeme, je též v souladu s experimentálně naměřenými daty, uvedenými
v [Brand et al., 2002].
7.1
Tvarování vstupního signálu
Signál z obou stran je upraven tak, že na místo všech AP vložíme kladný puls. Délka pulsu
musí být minimálně rovna maximálnímu zpoždění, které chceme pozorovat, což u člověka
odpovídá asi 500 µs. Signál po natvarování je zachycen na obrázku 9 a odpovídá kladné
části vstupních signálů do inhibičně-excitačního modelu z obrázku 8.
0
0
0
čas
Obrázek 9: Koincidenční detektor využívající pouze excitaci. Vypuštěním inhibice z obrázku 8, získáváme tento čistě excitační detektor koincidence. Složením signálu z levého
ucha (zelená křivka) a pravého ucha (červená křivka) získáváme signál zobrazený modrou
barvou. Tento signál je prahován čistě excitačně (práh je vyznačen fialově).
7.2
Prahování
Signál z obou uší, popsaný v předchozí sekci, je sečten a prahován. Je-li velikost pulsů
například rovna plus jedné, pak můžeme prahovat signál například hodnotou +1.5. Získá28
váme tak různě dlouhé pulsy respektive po napojení IAF neuronu na výstup frekvenčně
modulované zpoždění ITD, jak je vidět na obrázku 9.
7.3
Určení ITD
Po prahování získáváme již přesnou informaci o ITD obsaženou v délce výstupního pulsu. Je
třeba poznamenat, že se jedná o informaci neúplnou, protože chybí informace o znaménku.
Maximální aktivita odpovídá zdroji přímo před námi, minimální aktivita zdroji ležícímu
buď vlevo či vpravo na ose uší (což nelze rozlišit).
Přičteme-li k získanému signálu spontánní aktivitu, která je v absolutní hodnotě rovna
maximální aktivitě inhibiční (záporné) části prahovaného signálu, získáme signál, jehož
aktivita je nejnižší pokud je zvuk úplně vpravo či vlevo respektive nejvyšší, pokud je zvuk
před námi. Tato závislost je zachycena na obrázku 14 jako zelená křivka.
8
Pravděpodobnostní excitačně-inhibiční model
Pravděpodobnostní excitačně-inhibiční model je implementace modelu popsaného
v [Maršálek and Kofránek, 2004] s rozšířeným prahováním. Toto rozšíření umožňuje přiblížení modelu k experimentálně naměřeným datům. Vzhledem k tomu, že se jedná o
pravděpodobnostní model, vyžaduje silný paralelismus, který nemusí být problémem u
biologického systému, výpočetně je však tento model velice náročný.
8.1
Tvarování a prahování signálu
Signál z obou uší je tvarován obdobně jako u excitačně–inhibičního modelu, rozdíl je jen
v délce jednotlivých půlvln. Typická délka půlvlny je nastavena na převrácenou hodnotu
vzorkovací frekvence. Signál tedy vypadá stejně jako na obrázku 8, ovšem umožňuje jen tři
možné polohy překrytí, jejichž výsledkem je, uvažujeme-li velikost signálu 1 a prahy +1,5
a −1,5: kladný – excitační – s AP, bez AP, záporný – inhibiční – s AP.
29
200
cetnost
150
100
50
0
3
2
20
1
15
10
0
5
−1
0
−5
−2
spikerel
−10
−15
−3
−20
ITD
Obrázek 10: Prostorový histogram pravděpodobnostního inhibičně-excitačního modelu.
Danému skutečnému interaurálnímu zpoždění ITD v µs odpovídá s četností cetnost relativní aktivita neuronů spikerel . Data byla získána z aktivity 500 neuronů vybuzených
zvukem o 300 akčních potenciálech.
8.2
Posunutí signálu
Na rozdíl od předchozích modelů jsou u tohoto modelu jednotlivé AP náhodně posunovány. Posunutí signálů je dáno funkcí hustoty pravděpodobnosti náhodné veličiny J s rovnoměrným rozdělením, která je nenulová pouze v rozsahu od − 21 ∆J do + 12 ∆J , to jest od
minimálního po maximální zpoždění. Střední hodnota je E(J) = 0, standardní odchylka
je Std(J) =
√
3
∆J
6
1
a velikost hustoty pravděpodobnosti je rovna ∆−1
J v intervalu od − 2 ∆J
do + 12 ∆J , jinde je nulová.
30
8.3
Určení ITD
Jak je ukázáno v [Maršálek and Kofránek, 2004], při výše uvedených předpokladech by
výstupní frekvence měla odpovídat ITD. S naším rozšířením je tak možno rozpoznat nejen
absolutní ITD, ale kladné či záporné ITD, tj. zda zvuk přichází z levé či pravé strany.
Prostorový histogram, na kterém je zachyceno jak mnoho a s jakou četností při daném
ITD dochází ke koincidencím je zachyceno na obrázku 10.
9
Pravděpodobnostní čistě excitační model
Pravděpodobnostní čistě excitační model je implementace modelu popsaného
v [Maršálek and Kofránek, 2004]. Stejně jako u modelu popsaného v sekci 8 je třeba ke
správné funkci modelu silný paralelismus, který zaručí dostatečné přiblížení ke střední
hodnotě.
9.1
Tvarování a prahování signálu
Tvarování signálu je obdobné jako u čistě excitačního modelu, s tím rozdílem, že délka půlvlny je typicky převrácenou hodnotou vzorkovací frekvence. Signál je tedy podobný tomu
na obrázku 9, ovšem s tím rozdílem, že může dojít pouze k jedné kombinaci překrytí. Na
tento signál lze rovněž nahlížet jako na signál z pravděpodobnostního excitačně-inhibičního
modelu, u něhož došlo k vyřazení inhibice.
9.2
Posunutí signálu
Vzhledem k tomu, že se jedná o pravděpodobnostní model, jsou jednotlivé AP náhodně
posunovány. Posunutí je odvozeno pomocí hustoty pravděpodobnosti, jejíž parametry jsou
totožné s parametry popsanými u pravděpodobnostního excitačně-inhibičního modelu v
sekci 8.2.
31
9.3
Určení ITD
Jak je ukázáno v [Maršálek and Kofránek, 2004] výstupní frekvence přímo odpovídá absolutní hodnotě ITD. Toto je velice dobře patrné z výsledků simulace. Na obrázku 16 je
zachycena zprůměrovaná relativní výstupní frekvence modelu v závislosti na ITD. Obrázek 11 zobrazuje prostorový histogram, kde danému skutečnému interaurálnímu zpoždění
ITD odpovídá s příslušnou četností relativní aktivita neuronů normovaná tak, aby maximum průměru odpovídalo hodnotě 1.0. Data na obou obrázcích byla získána zpracováním
aktivity 500 neuronů vybuzených zvukem o 300 akčních potenciálech.
300
250
cetnost
200
150
100
50
0
1.8
1.6
1.4
1.2
1
20
15
0.8
10
5
0.6
0
0.4
spike
rel
−5
−10
0.2
−15
0
−20
ITD
Obrázek 11: Prostorový histogram pravděpodobnostního čistě excitačního modelu. Danému
skutečnému interaurálnímu zpoždění ITD v µs odpovídá s četností cetnost relativní aktivita
neuronů spikerel . Data byla získána z aktivity 500 neuronů vybuzených zvukem o 300
akčních potenciálech.
32
10
Zhodnocení a srovnání modelů, diskuse
Při hodnocení modelů máme na zřeteli především tři hodnotící kritéria
1. shodu s experimentálními daty
2. rychlost modelů
3. přesnost modelů
Vzhledem k tomu, že zatím není oblast MSO dokonale anatomicky a fyziologicky prozkoumána, nelze hodnotit modely z pohledu identifikace té či oné anatomické struktury.
Například nikomu se zatím nepodařilo prokázat anebo vyloučit existenci zpožďovací linky
v lidském mozku, ačkoliv v mozku sov byla tato struktura objevena. Stejně tak v mozku
koček lze najít struktury připomínající zpožďovací linku [Joris et al., 1998].
10.1
Shoda s experimentálními daty
Při hodnocení shody vytvořených modelů s experimentálními daty, vycházíme z práce
[Brand et al., 2002].
10.1.1
Zpožďovací linka
Model zpožďovací linky popsaný v sekci 5 je charakteristický tím, že na výstupu má sadu
neuronů, ze kterých je aktivní vždy jeden, který odpovídá příslušnému zpoždění. Ostatní
neurony jsou tedy neaktivní, případně vykazují náhodně spontánní aktivitu. Toto chování
však neodpovídá experimentálně naměřeným hodnotám, uvedeným na obrázku 12, kde je
zachycena relativní četnost aktivity neuronů pískomila pro různá ITD. Z grafu je patrné, že
neurony nejsou laděny na určité ITD, tak jako je tomu u zpožďovací linky, ale že odpovídají
na všechna zpoždění různě velkou aktivitou. Z výše uvedeného vyplývá, že zpožďovací linka
neodpovídá naměřeným datům a je tedy pravděpodobné, že u savců tato struktura není.
Tento názor dnes není nijak řídký, přesto však jej nemůžeme považovat za úplně jistý,
například z toho důvodu, že se jedná o měření prováděné na pískomilovi, který má malou
vzdálenost mezi ušima.
33
Obrázek 12: Relativní četnost pulsů (spiků) v závislosti na ITD v MSO neuronu pískomila,
pro různé frekvence zvuku. Modrá plocha (±120 µs) označuje fyziologicky relevantní oblast
pro pískomila. Převzato z [Brand et al., 2002].
10.1.2
Inhibičně-excitační model
Inhibičně-excitační model, popsaný v sekci 6 vzniknul modifikací modelu uvedeného v
[Maršálek and Kofránek, 2004]. Tato modifikace byla provedena mimo jiné kvůli tomu,
aby došlo ke shodě s výše uvedenými experimentálně získanými daty. O tom, že došlo
ke shodě se lze přesvědčit porovnáním průběhu modré křivky na obrázku 13 a průběhu
červené křivky na obrázku 14.
V [Brand et al., 2002] je rovněž popsán experiment, kdy byl do oblasti MSO u pískomila zaveden jed strychnin1 , který účinkuje tak, že potlačí inhibici. Aplikaci strychninu
do MSO můžeme v inhibičně-excitačním modelu simulovat vynecháním všech inhibičních
(záporných) částí průběhu signálu. Získáváme tak čistě excitační model, jehož shoda s
[Brand et al., 2002] je popsána v následující sekci.
1
Strychnin je složitý steroidní alkaloid, vyskytující se v semenech tropického stromu kulčiba dávivá.
Malé dávky zvyšují míšní reflexy, vyšší dávky pak dráždí centra v prodloužené míše. Sebemenší impulsy
potom vedou k rychle a nebrzděně se šířícím záchvatům nekoordinovaných reflexních křečí. Velké dávky
způsobují tímto mechanismem ochrnutí centrálního nervstva. Více viz [Kysilka, 2005].
34
Obrázek 13: Průměrované ITD funkce pro MSO neurony pískomila při normální funkci
(modrá křivka) a po aplikaci strychninu (červená křivka). Převzato z [Brand et al., 2002].
10.1.3
Excitační model
Výstupem z excitačního modelu je absolutní hodnota ITD. Tento model tedy není schopen
určit, zda zvuk přichází z levé či pravé strany. Poskytuje však informaci o absolutní hodnotě
úhlu svíraného osou uší a směrem zdroje signálu. Tento model velice dobře modeluje stav
po vpravení strychninu do MSO. Jak již bylo popsáno výše, čistě excitační model vznikne
z inhibičně-excitačního potlačením inhibice.
Porovnáme-li průběh červené křivky (závislost aktivity na ITD po aplikaci strychninu)
na obrázku 13 s průběhem zelené křivky na obrázku 14 (výstup z excitačního modelu
v závislosti na ITD), zjistíme, že se jedná o podobné křivky, což opět ukazuje na možnost,
že inhibičně-excitační model a čistě excitační model mohou být blízké realitě.
10.1.4
Pravděpodobnostní inhibičně-excitační model
Porovnáme-li průměrné hodnoty z pravděpodobnostního inhibičně-excitačního modelu zachycené na obrázku 15 s experimentálně získanými daty na obrázku 13, můžeme konstatovat, že průběhy se podobají obdobně jako u inhibičně-excitačního modelu a můžeme se
tedy ztotožnit se stejnými závěry jako u tohoto modelu popsanými v sekci 10.1.2.
35
18
16
14
12
Aktivita
[-] 10
8
6
4
2
−15
−10
−5
0
5
10
15
Zpoždění [-]
Obrázek 14: Četnost pulsů (spiků) v závislosti na ITD u excitačně-inhibičního modelu
MSO neuronu (červená křivka) a totéž u čistě excitačního modelu MSO neuronu (zelená).
10.1.5
Pravděpodobnostní čistě excitační model
Obdobně jako u čistě excitačního modelu je výstupem z tohoto modelu absolutní hodnota
ITD. Poskytuje nám tedy jen informaci o úhlu, který svírá interaurální osa a směr zdroje
zvuku, ale nejsme schopni určit zda je zvuk v levé či pravé polorovině respektive poloprostoru. Vzhledem k podobnému průběhu aktivity zobrazeném na obrázku 11 lze opět
přejmout závěry totožné s čistě excitačním modelem, které jsou zachyceny v sekci 10.1.3
10.2
Přesnost modelů
Přesností modelů se rozumí jejich schopnost správně zpracovat všechny rozdíly mezi sledem
pulsů z levé a pravé strany. Porovnejme nyní inhibičně-excitační model a čistě excitační
model s klasickým modelem zpožďovací linky a pravděpodobnostními modely.
36
10.2.1
Inhibičně-excitační model
Inhibičně-excitační model s IAF neurony nastavenými dle fyziologických parametrů dává
stejné výsledky jako zpožďovací linka. Pokud bychom ovšem zkrátili hyperpolarizační fázi
IAF neuronů z 3 ms na méně než 1 ms, mohlo by dojít za předpokladu dostatečného výkonu
zvuku na vstupu k vygenerování spiků se vzdáleností menší než 1 ms a tím i překryvu pulsů
inhibičně-excitačního modelu. Následně v závislosti na míře překryvu by mohlo dojít ke
generování výstupních pulsů, jejichž šířka by již neodpovídala ITD.
10.2.2
Excitační model
Excitační model je již ze své podstaty modelem nepřesným, protože umožňuje registrovat
pouze absolutní hodnoty ITD. Pokud ovšem pomineme tuto principiální nepřesnost, můžeme konstatovat, že pro něj platí stejné závěry jako pro inhibičně-excitační model. Jediný
rozdíl je v tom, že k překryvu pulsů dojde až při vzdálenosti spiků na vstupu menší než
500 µs, oproti 1 ms u inhibičně-excitačního modelu.
10.2.3
Pravděpodobnostní inhibičně-excitační model
Pravděpodobnostní model dává správné výsledky vždy s určitou pravděpodobností. Pokud
bychom měli jen několik neuronů, které by zpracovávaly signál, získali bychom naprosto
matoucí a nic neříkající výsledky. Zapojíme-li však paralelně několik set neuronů a jejich
výsledky zprůměrujeme, můžeme získat velice přesný model. Na obrázku 10 je zachycena
aktivita 500 neuronů způsobená zvukem o celkové aktivitě 300 AP v závislosti na ITD.
Zprůměrováním těchto dat pak získáváme graf zachycený na obrázku 15. Jak je vidět,
model je až na měřítko přesný. Výpočetně je však velice náročný, to je však dáno potřebou
paralelního opakování výpočtu, pro biologický systém je naopak paralelismus výhodou.
10.2.4
Pravděpodobnostní excitační model
Přesnost pravděpodobnostního excitačního modelu je obdobná jako u excitačního modelu.
Nelze tedy určit, zda zvuk pochází z levé či pravé strany, ale jinak je velice přesný. Vzhledem
k tomu, že se současně jedná o pravděpodobnostní model, je rovněž nutný paralelismus,
který zaručí dostatečnou přesnost. Při porovnání obrázků 16 a 10 můžeme konstatovat, že
37
1
0.8
0.6
0.4
spike
rel
0.2
0
−0.2
−0.4
−0.6
−0.8
−1
−20
−15
−10
−5
0
ITD
5
10
15
20
Obrázek 15: Relativní četnost spiků pravděpodobnostního inhibičně-excitačního modelu v
závislosti na skutečném ITD. Graf vznikl zprůměrováním aktivity 500 neuronů vybuzených
300 spiky zvuku. Červené body udávají průměrnou aktivitu pro příslušné ITD. Modrá
křivka vznikla jejich proložením polynomiální funkcí metodou nejmenších čtverců.
v případě pravděpodobnostního excitačního modelu můžeme mít mnohem menší nároky
na paralelismus než u pravděpodobnostního inhibičně–excitačního modelu. Rozptyl hodnot
při stejných podmínkách je totiž na obrázku 16 značně menší.
10.3
Rychlost modelů
Při určování rychlosti modelů budeme porovnávat rychlost určení ITD u jednotlivých modelů. Nebudeme ovšem uvažovat rychlost procesů před příchodem signálu do MSO, protože
ta je u všech modelů stejná.
38
1
0.9
0.8
0.7
spike
rel
0.6
0.5
0.4
0.3
0.2
0.1
0
−20
−15
−10
−5
0
ITD
5
10
15
20
Obrázek 16: Relativní četnost spiků pravděpodobnostního inhibičně-excitačního modelu v
závislosti na skutečném ITD. Graf vznikl zprůměrováním aktivity 500 neuronů vybuzených
300 spiky zvuku. Červené body udávají průměrnou aktivitu pro příslušné ITD. Modrá
křivka vznikla jejich proložením polynomiální funkcí metodou nejmenších čtverců.
10.3.1
Zpožďovací linka
Rychlost odezvy zpožďovací linky je nepřímo úměrná absolutní hodnotě ITD. Pro maximální zpoždění, které je zpožďovací linka schopna zpracovat, se projeví aktivita na výstupu
krajního neuronu ihned. Pro zvuky, které jsou přímo před námi respektive přímo za námi
to jest zvuky, u kterých je ITD nulové, pak můžeme zpoždění vyjádřit takto:
∆t =
n
,
2fvz
(10)
kde fvz vzorkovací frekvence a n je počet výstupních neuronů, který odpovídá rozlišení
1/fvz při daném maximálním zpoždění. Pro člověka uvažujeme maximální zpoždění 500 µs
a tak pro vzorkovací frekvenci 44.1 kHz získáváme n = 22. Obecně lze tedy zapsat rychlost
39
odezvy (čas zpoždění výstupu tzp pro vstupní signál s ITD tIT D ) u zpožďovací linky takto:
tzp =
n − |tIT D |fvz
.
2fvz
(11)
Budeme-li tedy uvažovat fvz =44.1 kHz a tomu odpovídající počet neuronů, získáváme
maximální zpoždění 250 µs.
10.3.2
Inhibičně-excitační model
Rychlost odezvy inhibičně-excitačního modelu je narozdíl od ostatních modelů nezávislá
na ITD. Budeme-li pro pro přehledné srovnání modelů, označovat maximální zpoždění jako
n
,
fvz
můžeme napsat rovnici rychlosti odezvy jádra inhibičně-excitačního modelu:
tzp =
n
.
fvz
(12)
Vzhledem k tomu, že pro tIT D = 0 nevykazuje model žádnou aktivitu tj. zvuk přímo před
námi či přímo za námi můžeme uvažovat pro tento stav tzp = 0. Celkové zpoždění tohoto
modelu může být ještě vyšší v závislosti na rychlosti neuronů, které je nutné zapojit na
výstup. Budeme-li tedy uvažovat obdobné podmínky jako u zpožďovací linky, získáváme
maximální zpoždění 500 µs.
10.3.3
Excitační model
Stejně jako u předešlých modelů je u jádra excitačního modelu rychlost odezvy závislá na
ITD. Budeme-li, opět pro přehledné srovnání modelů, označovat maximální zpoždění jako
n
,
fvz
můžeme napsat rovnici rychlosti odezvy jádra excitačního modelu:
tzp =
n − |tIT D |fvz
.
fvz
(13)
Stejně jako u inhibičně-excitačního modelu může být celkové zpoždění tohoto modelu ještě
vyšší v závislosti na rychlosti neuronů na výstupu. Budeme-li tedy uvažovat stejné podmínky jako u zpožďovací linky, získáváme maximální rychlost odezvy 500 µs.
40
10.3.4
Pravděpodobnostní modely
V případě pravděpodobnostních modelů je při dostatečně silném paralelismu rychlost zpracování téměř okamžitá. To znamená, že výstupní frekvence se mění zcela dynamicky. Zůstává ovšem otázka jak rychle je tento výstup následně zpracován dalšími mechanismy v
mozku. Tato otázka se však nevyhne žádnému z modelů vyjma zpožďovací linky, u které
je zpoždění zakódováno vždy do konkrétního neuronu.
10.4
Další vlastnosti modelů
V této části jsou shromážděny některé otázky a možné odpovědi na ně, které mohou vyvstat
při uvažování nad výše popsanými modely. Případně jsou zde diskutovány další směry
bádání.
10.4.1
Přesnost detektorů koincidence
Funkčnost inhibičně-excitačního a čistě excitačního modelu je zcela zásadně závislá na přesnosti detektorů koincidence. Tyto biologické klopné obvody musí být schopny hradlování
v rámci mikrosekund a je možné, že neurony nebudou schopny takto pracovat. Nicméně i
v tomto případě existuje ještě možnost, že výstupy z těchto pomaleji spínajících neuronů
přeci jen budou korelovat s ITD. V tom případě by model pracoval jen o trochu pomaleji.
10.4.2
Další zpracování signálu
Jak již bylo řečeno ve stati 10.3 o rychlosti modelů, rychlost modelu může být dále ovlivněna zpracováním jeho výstupů. Jediný na tomto zpracování nezávislý model je model
zpožďovací linky. Všechny ostatní mají frekvenčně či amplitudově modulovaný výstup,
který musí být dále zpracován. Vedle rychlosti vyvstává u nepravděpodobnostních modelů
také otázka, zda případný neuron zařazený na výstup modelu bude schopen dostatečně
přesně integrovat velmi krátké výstupy z modelu.
41
10.4.3
Limitace výstupní frekvence
U pravděpodobnostních modelů jsme nijak neomezovali výstupní frekvenci neuronů zpracovávajících vstupní signál. Při vyšších frekvencích zvuku bude výstupní frekvence neuronů
nižší než je frekvence zvuku. Aby mohl model tak, jak je navržen, správně fungovat, měla
by být doba pohyperpolarizační fáze u párových neuronů stejně dlouhá s přesností v řádu
mikrosekund. Pokud by toto nebylo splněno, zanesla by se do systému další náhodná veličina, která by mohla způsobit nefunkčnost modelu. Otázkou však zůstává, zda to není právě
tato neurčitost délky pohyperpolarizační fáze, která je zodpovědná za fungování modelu.
10.4.4
Délka pohyperpolarizační fáze
V případě excitačně-inhibičního modelu je funkčnost velmi závislá na rovnosti délky excitační a inhibiční půlvlny. Pokud by neexistoval biologický mechanismus, který by umožnil
vytvořit stejně dlouhé a časované půlvlny, model by selhal.
10.4.5
Další vývoj teoretického modelu
Teorie, podle které vytváříme naši implementaci, se dále vyvíjí. V době zadání práce byl
poslední vydanou publikací článek [Maršálek and Kofránek, 2004], proto se v textu odvoláváme převážně na něj. V procesu postupného opravování chyb a doplňování dalších
vlastností modelu postupně vyšly práce: [Maršálek and Kofránek, 2005], kde jsou souhrnně
diskutovány výstupní signály z DK v závislosti na hlavní frekvenci zvuku a [Maršálek and
Lánský, 2005], kde je studována doba do generování výstupního akčního potenciálu. V současné době další rukopis [Maršálek and Drápal, 2006], kde jsou podány konkrétní příklady
hustoty pravděpodobnosti výstupního AP v závislosti na čase, byl zaslán k recenznímu
řízení. Výsledek recenze má být znám začátkem roku 2006.
11
Popis softwarové realizace v prostředí Matlab
Všechny výše popsané modely byly realizovány v programovém prostředí MATLAB vyvíjeném firmou MathWorks (http://www.mathworks.com/). Hlavním důvodem pro realizaci
v tomto programovacím jazyku byla dostupnost mnoha standardních funkcí, stejně tak
42
jako implementace některých algoritmů (například GERB filtry) pro MATLAB v rámci
projektu auditory.org.
Pro vyhodnocování v reálném čase se ukazuje, že implementace v MATLABu je příliš
pomalá. Byly proto podniknuty základní kroky návrhu a implementace programu v jazyce
C, jehož úkolem je vyhodnocovat binaurální signál v reálném čase.
Program napsaný v MATLABu má jednoduché uživatelské rozhraní. Po spuštění se
zobrazí pohled shora na hlavu posluchače. Tlačítkem myši je určen směr, potom se spustí
výpočet, vygenerování a přehrání prostorového zvuku, který vychází z místa, kam bylo
kliknuto. Toto místo je následně označeno červeným křížkem. Vygenerovaný signál je následně filtrován GERB filtry, těmito je rozdělen na několik kanálů. Jednotlivé kanály jsou
zavedeny na vstup IAF neuronu, který generuje ze vstupního signálu akční potenciály.
Signály v této podobě jsou pak nezávisle zpracovány těmito moduly:
1. korelace signálů – v tomto modulu je vypočtena korelace mezi signály z levého a
pravého ucha a je navráceno její maximum pro všechny kanály
2. zpožďovací linka – vstupem do zpožďovací linky jsou signály z levého a pravého
ucha, výstupem je matice kanálů a neuronů s příslušným počtem vyvolaných akčních
potenciálů
3. inhibičně-excitační model – vstupy i výstupy modelu jsou totožné se zpožďovací linkou
4. excitační model – vstupy modelu jsou totožné s předchozími dvěma, výstupem je
obdobná matice, ale jen s polovinou výstupních neuronů, protože tento model není
schopen rozlišovat mezi levou a pravou stranou
5. pravděpodobnostní inhibičně-excitační model – výstupy tohoto modelu jsou absolutní
hodonoty aktivity detektorů koincidence v něm obsaženém, nejsou nijak normovány.
6. pravděpodobnostní čistě excitační model – vstupy a výstupy jsou totožné jako u
předchozího modelu a stejně jako u něj se jedná o pokusný model, za který je třeba
zařadit frekvenční čítač, aby bylo možné určit ITD.
Výstupy z jednotlivých modelů jsou následně zaneseny do obrázku. Toto jednoduché uživatelské rozhraní je na obrázku 17.
43
Obrázek 17: Jednoduché uživatelské rozhraní. Místo odkud přichází zvuk je označeno červeným křížkem, úsečky ukazují vypočtený zdroj zvuku.
V následujících několika sekcích budou podrobněji popsány některé výše uvedené funkční
celky.
11.1
IAF neuron
Leaky integrate and fire neuron, popsaný v sekci 3.1 je implementován pomocí dvou funkcí
iaf neuron a iaf neuron init. První slouží k výpočtu nového stavu, druhá k inicializaci. Data jsou přechovávána v paměťové struktuře mem, která umožňuje, stejně jako výše
44
uvedené funkce pracovat s neomezeně neurony najednou a přitom podle potřeby nastavit
parametry každého neuronu zvlášť.
11.1.1
Funkce iaf neuron init
mem=iaf neuron init(no of neurons,deltat)
Argumenty funkce iaf neuron init je počet neuronů, pro které chceme vytvořit paměť
stavů a nastavení no of neurons a časový krok deltat. Výsledkem je paměťová struktura,
matice, jejíž počet řádků odpovídá počtu neuronů a řádek obsahuje parametry uvedené v
tabulce 6. Standardní nastavení, které vrací funkce iaf neuron init je rovněž zachyceno v
tabulce 6.
t
C
R
0 10 nF 1 MΩ
u
Uf ire
tref
Ureset
0 mV
16 mV
0
−5 mV
treset
Imin
fvz · 3 ms 10 nA
Tabulka 6: Popis struktury mem a její standardní nastavení , kde t je čas v násobcích
1/fvz , C kapacita membrány v nanofaradech, R odpor membrány v megaohmech, u napětí
na membráně v milivoltech, Uf ire prahové napětí, při kterém dojde ke generování spiku,
tref čas v násobcích 1/fvz , který zbývá do konce pohyperpolarizační fáze, Ureset napětí
pohyperpolarizační fáze v milivoltech, treset standardní délka pohyperpolarizační fáze v
násobcích 1/fvz , Imin prahový proud v nanoampérech, který je třeba překročit, aby byl
vstupní signál akceptován.
11.1.2
Funkce iaf neuron
[out,mem]=iaf neuron(sig,mem,deltat)
Funkce iaf neuron vypočte výstup out z IAF neuronů na základě znalosti nastavení a
předchozího stavu (paměťová struktura mem, zachycená v tabulce 6), vstupního signálu sig
a časového kroku deltat. Přičemž výstup out respektive vstupní signál sig mají rozměr
1xn, kde n je počet neuronů.
45
11.2
GERB filtry
Gammatónové ERB filtry použité v našem modelu pochází z balíku auditory.org, vytvořeného M. Slaneyem podle návrhu Pattersona a Holdswortha a popsaného v [Slaney, 1993].
Inicializace a filtrace je provedena pomocí následujících funkcí.
11.2.1
Funkce MakeERBFilters
fcoefs=MakeERBFilters(fvz,kanalu,nejn frekv)
Funkce MakeERBFilters vypočte koeficienty GERB filtrů pro zadanou nejnižší frekvenci
nejn frekv, daný počet kanálů kanalu a vzorkovací frekvenci fvz. Tyto koeficienty jsou
využity funkcí ERBFilterBank.
11.2.2
Funkce ERBFilterBank
filt zv=ERBFilterBank(signal,fcoefs)
Funkce ERBFilterBank vyfiltruje vstupní jednorozměrný signál signal bankou filtrů
definovanou ve fcoefs. Výstupem je n-rozměrné pole, kde počet řádek odpovídá počtu
kanálů a počet sloupců délce vstupního signálu. Pro zjištění centrálních frekvencí banky
filtrů je při inicializaci vypočtena impulsní charakteristika filtrů pomocí následujícího kódu.
% počet vzorku fft 2^x - 1 udava presnost vypoctu
presnost=4095;
%nejnizsi uvazovana frekvence
nejn_frekv=100;
% vypocet koef. filtru
fcoefs=MakeERBFilters(fvz,kanalu,nejn_frekv);
% vypocet imp. charakteristiky
m=ERBFilterBank([1 zeros(1,presnost)], fcoefs);
%fft impuls. char. a hled. maxim
[resp,coor]=max(abs(fft(m’)));
freqsc=(0:presnost)/(presnost+1)*fvz;
disp(’Maxima filtru lezi na frekvencich:’);
freqsc(coor)
46
11.3
Zpožďovací linka
Zpožďovací linka je implementována prakticky přesně podle popisu v sekci 5. Cyklicky je
volána funkce zpozd linka (viz popis níže). V každém kroku získáváme výstupní data,
která jsou následně zpracovávána. Zpracování probíhá ve dvou krocích. V prvním kroku
dochází k hledání přesných shod, kdy si přesně odpovídá prvky levé uhlopříčky s prvkem
uhlopříčky pravé. Tyto přesné shody jsou zaznamenány jako sudé členy výstupního pole.
Shodami, kde si odpovídají sousední prvky v uhlopříčkách jsou pak plněny liché členy
výstupního pole. Tento přístup umožňuje dosáhnout vyšší rozlišovací schopnosti zpožďovací
linky.
11.3.1
Funkce zpozd linka
[leva uhlopricka, prava uhlopricka, hist lev, hist prav, start]
= zpozd linka(hist lev, hist prav, novy lev, novy prav, start, pocet neuronu)
Funkce zpozd linka vrací prvky vlevo a vpravo od virtuální uhlopříčky pole histi lev
a hist prav. Jedná se o pole cyklická, jejichž první člen leží na pozici start. V konečné fázi dochází k aktualizaci prvků paměťových polí hist lev a hist prav na pozici
start prvky novy lev a novy prav. Nakonec je modulo pocet neuronu inkrementována
proměnná start.
11.4
Inhibičně-excitační model
V případě inhibičně-excitačního modelu jsou nejprve vytvořeny sledy pulsů, popsané v sekci 6
nazvané kladna vlna a zaporna vlna. Následně je pro každý kanál vypočtena konvoluce
signálu z levého ucha spike l s kladna vlna a konvoluce signálu z pravého ucha spike p
s zaporna vlna. Získané signály jsou sečteny a oprahovány. Zdroj zvuku je vypočten
pomocí následujícího kódu:
% vypocet zdroje zvuku
last=0;
delka=0;
for k=1:length(inh_exc_sou)
47
if (inh_exc_sou(k)>1) & (last==2)
delka=delka+1;
elseif (inh_exc_sou(k)>1) & (last<2)
delka=0;
elseif (inh_exc_sou(k)<2) & (last==2)
exc_inh_zpozdeni(j,max_zpozdeni+2+delka)=...
exc_inh_zpozdeni(j,max_zpozdeni+2+delka)+1;
end
if (inh_exc_sou(k)<-1) & (last==-2)
delka=delka+1;
elseif (inh_exc_sou(k)<-1) & (last>-2)
delka=0;
elseif (inh_exc_sou(k)>-2) & (last==-2)
exc_inh_zpozdeni(j,max_zpozdeni-delka)=...
exc_inh_zpozdeni(j,max_zpozdeni-delka)+1;
end
last=inh_exc_sou(k);
end
11.5
Excitační model
Excitační model je realizován obdobně jako inhibičně-excitační. Rozdíl spočívá v tom, že
oba vstupní signály jsou konvolovány s excitacni vlna. Výsledek je vyhodnocen pro každý
kanál pomocí následujícího kódu:
last=0;
delka=0;
for k=1:length(exc_sou)
if (exc_sou(k)>1) & (last==2)
delka=delka+1;
elseif (exc_sou(k)>1) & (last<2)
delka=0;
elseif (exc_sou(k)<2) & (last==2)
48
exc_zpozdeni(j,delka+1)=...
exc_zpozdeni(j,delka+1)+1;
end
last=exc_sou(k);
end
11.6
Pravděpodobnostní modely
Pravděpodobnostní modely jsou realizovány podobně jako excitačně-inhibiční a čistě excitační. Liší se však v několika podstatných rozdílech. Konstanta délky půlvlny je rovna
jedné, což odpovídá převrácené hodnotě vzorkovací frekvence. Vstupní signály jsou posunuty následujícím kódem:
% vektor nahodnych posunuti spiku
% normalni rozdeleni (mi,sigma)
mi=-max_zpozdeni;
sigma=max_zpozdeni^2;
posun=mi+round(sqrt(3)/6*sqrt(sigma)*randn(1,1+ ...
sum(sum(s+pike_p))+sum(sum(spike_l))));
%
% pomoci nahodneho vektoru posun posuneme vsechny spiky
%
prav_spike_l=zeros(size(spike_l));
prav_spike_p=zeros(size(spike_p));
pozice=1;
for j=1:kanalu
l_poloha=find(spike_l(j,:));
p_poloha=find(spike_p(j,:));
for k=1:length(l_poloha)
prav_spike_l(j,l_poloha(k)+posun(pozice))=1;
pozice=pozice+1;
pozice=pozice+1;
49
end
for k=1:length(p_poloha)
prav_spike_p(j,p_poloha(k)+posun(pozice))=1;
pozice=pozice+1;
end
end
Zpracování je jednodušší v tom, že není třeba měřit délku výstupní vlny, ale pouze
počítat aktivitu jednotlivých koincidencí, cože je provedeno pomocí klasické funkce find.
50
12
Závěr
V této práci se podařilo upravit a implementovat několik modelů prostorového slyšení
člověka. Provedené úpravy na jedné straně přinesly shodu s experimentálními daty, na
straně druhé otevřely či oživily řadu otázek, které není snadné jednoduše a uspokojivě
zodpovědět. Přesto shoda s experimentálními daty a nové otázky jsou nesmírně motivující
pro další výzkum v této oblasti. Ačkoliv musíme konstatovat, že jsme stále na začátku
rozluštění principů prostorového slyšení, nelze vyloučit, že jeden z popsaných modelů je
ten pravý. To, jaký model nejvíce odpovídá skutečnosti, je dosud otevřenou otázkou.
51
Reference
[Brand et al., 2002] Brand, A., Behrend, O., Marquardt, T., McAlpine, D., and Grothe, B.
(2002). Precise inhibition is essential for microsecond interaural time difference coding.
Nature, 417:543–547.
[Irino and Patterson, 1997] Irino, T. and Patterson, R. D. (1997). A time-domain, level dependent auditory filter: The gammachirp. Journal of the Acoustical Society of America,
101:412–419.
[Joris et al., 1998] Joris, P. X., Smith, P. H., and Yin, T. C. T. (1998). Coincidence detection in the auditory system: 50 years after Jeffress. Neuron, 21:1235–1238.
[Kysilka, 2005] Kysilka, J. (2005). Strychnin. Stránka navštívena: 16. ledna, 2006.
http://www.sweb.cz/naturstoff/toxdir/strychnin.html.
[Maršálek and Drápal, 2006] Maršálek, P. and Drápal, M. (2006). Mechanisms for coincidence detection in the auditory brainstem: Examples. In Lánský, P., editor, Proceedings
of the 6th European Conference on Mathematical and Theoretical Biology, volume 3.
submitted.
[Maršálek and Kofránek, 2004] Maršálek, P. and Kofránek, J. (2004). Sound localization
at high frequencies and across the frequency range. Neurocomputing, 58-60:999–1006.
[Maršálek and Kofránek, 2005] Maršálek, P. and Kofránek, J. (2005). Spike encoding mechanisms in the sound localization pathway. Biosystems, 79(1-3):191–8.
[Maršálek and Lánský, 2005] Maršálek, P. and Lánský, P. (2005). Proposed mechanisms
for coincidence detection in the auditory brainstem. Biological Cybernetics, 92:445–51.
[Patterson, 1994] Patterson, R. D. (1994). The sound of a sinusoid: Spectral models. Journal of the Acoustical Society of America, 96:1409–1418.
[Slaney, 1993] Slaney, M. (1993). An efficient implementaton of the Patterson-Holdsworth
auditory filter bank. Technical Report 35, Apple Computer Inc., Cupertino, CA 95014.
[Syka et al., 1981] Syka, J., Voldřich, L., and Vrabec, F. (1981). Fyziologie a patofyziologie
zraku a sluchu. Avicenum, Praha.
52
A
Seznam příloh
Nedílnou součástí této práce je datový nosič (CD) se zdrojovými kódy.
53

Podobné dokumenty

ParsNegar II - www.dlia.ir

ParsNegar II - www.dlia.ir .PvC ækßF éÜìv éF éÜìv êDç é¥Â ÚDìF yp¡Û Þ Dç æp¬Dh ok ¢ëDV .kkpÊ í× pF Hz Èë Þ oCrç qC ¢ìJ Dç ÍDv éF Þ pç éÛD¿vDO× íÎÞ .ÙìOwç Pëp¡F jëoDN HÏ ok ækDOwëC Ð×DÆ oDÂÞ DF Þ ÙëoCk é¡ëo êoß¡Æ D× ÚCoCl× P...

Více

Simulace v neurovědách, příklad modelu prostorového slyšení

Simulace v neurovědách, příklad modelu prostorového slyšení binaurální parametry zvuku, které jsou zpracovávány v MSO a v LSO. Jsou to tyto dva binaurální klíče: první je interaurální časové zpoždění, ITD, které se u nižších frekvencí projeví také jako bina...

Více

diplomka.

diplomka. Univerzita Karlova v Praze Matematicko-fyzikální fakulta

Více

Zpracování biosignálů - E-learningové prvky pro podporu výuky

Zpracování biosignálů - E-learningové prvky pro podporu výuky  matematicky je popsán jako funkce jedné nebo více proměnných s(t) =10·sinωt Co je to biologický signál?  je to signál – platí pro něj metodika zpracování signálu, která je pokryta řadou učebnic ...

Více

cesta ostravana do ameriky leta páně 1893

cesta ostravana do ameriky leta páně 1893 voda velmi špatná a proto zdraví lidskému škodlivá a konečné povážíme-li, že v malých a nízkých bytech bydlí mnoho lidí pohromadě, tu se není co diviti, že cholera tak strašlivě tam řádila. Ještě p...

Více

Výsledky, kterým můžete věřit

Výsledky, kterým můžete věřit Odhad prahu pomocí ASSR Interacoustics ASSR je nová generace ASSR. Hlavním průlomem je přesný odhad prahů za poloviční dobu ve srovnání s tradičními vyšetřeními ustálených potenciálů. 8 prahů (4 fr...

Více

pdf online - netfei

pdf online - netfei V praxi je model využit pro programování jednotlivých součástí síťového subsystému v modulech, které reprezentují jednotlivé vrstvy a komunikují mezi sebou pomocí rozhraní (API). Díky tomu je možné...

Více