Elektronická verze publikace ve formátu pdf

Transkript

Elektronická verze publikace ve formátu pdf
České vysoké učení technické v Praze
Fakulta elektrotechnická
Disertační práce
Srpen 2010
Jiří Tatarinov
České vysoké učení technické v Praze
Fakulta elektrotechnická
Katedra teorie obvodů
Detektory řečové aktivity na bázi
skrytých Markovových modelů
Disertační práce
Jiří Tatarinov
Praha, srpen 2010
Doktorský studijní program: Elektrotechnika a informatika
Studijní obor: Teoretická elektrotechnika
Školitel: Doc. Ing. Petr Pollák, CSc.
Abstrakt
Disertační práce se zabývá detekcí řečové aktivity, procesem klasifikace řečového signálu
do dvou tříd – řeči a šumu. Detekce řečové aktivity hraje důležitou roli v oblasti zpracování
signálů a je objektem nejen současného výzkumu, ale i aplikací v oblasti řečových technologií. Hraje důležitou roli v telekomunikacích, při rozpoznávání a zvýrazňování řeči nebo
jejím přenosu. Primárním cílem této práce je prostudovat a srovnat algoritmy detekce řečové aktivity využívající skryté Markovovy modely a následně navrhnout optimalizované
detektory na jejich bázi. Práce se zaměřuje na detekci v relativně silně zarušeném prostředí, kde v současnosti často používané heuristické detektory výrazně selhávají. Uvedené
algoritmy vedly ke konstrukci poměrně robustních detektorů, které fungovaly spolehlivě
jak v rušném, tak v tišším prostředí.
V první části této práce je navržena platforma pro testování a objektivní zhodnocení
detektorů řečové aktivity, kde jsou zahrnuty implementace různých referenčních VAD
včetně detektoru podle doporučení G.729. Byla vytvořena referenční databáze pro testování úspěšnosti VAD obsahující asi 3 hodiny řečových signálů s označením přesných hranic
řečových a neřečových segmentů. Unikátní vlastností je přesné značení neřečových událostí. Označen je vždy typ, začátek, konec události a paralelní označení přesných hranic
změn jednotlivých prostředí.
Druhá část práce se zabývá návrhem a optimalizací detektorů na bázi GMM a HMM
dohromady s analýzou možností zpracování řečového signálu vedoucí k výběru nejvhodnějších parametrů řeči pro řešenou úlohu. Bylo zjištěno, že parametry, které jsou nejlépe
schopny rozlišit dvě dané třídy, jsou spektrální percepčně lineární koeficienty RASTA.
Je navržen detektor řečové aktivity klasifikující na základě vzdálenosti mezi HMM řeči
a šumu. Přínos navrženého VAD spočívá v možnosti plynulé změny jeho nastavení tak,
aby klasifikoval přesněji buď v řečových nebo v neřečových úsecích signálu při současném
zachování strukturálního způsobu klasifikace pomocí HMM. Při srovnání s referenčními
VAD dosahuje u signálu nahraných v prostředí jedoucího auta 52% snížení celkové chyby
klasifikace. Dále byl testován a optimalizován fonémový HMM VAD, který přítomnost
řečové aktivity zjišťuje na základě nejpravděpodobnějšího průchodu rozpoznávací sítě složené z HMM monofonů a šumu. Pro signály nahrané v jedoucím automobilu byla snížena
chyba detekce řeči o více než 71%. Ve specifických případech, ve kterých se projevuje výhodnost modelování struktury řeči a šumu, například u nahrávek se slyšitelným řazením
jiného rychlostního stupně, bylo dosaženo snížení chyby o 85%. Na závěr je navržen a
optimalizován detektor řečové aktivity, který strukturu promluvy modeluje pomocí dvou
obecných modelů řeči a šumu a ke klasifikaci používá algoritmus cestování žetonů. Byly
analyzovány dvě různé struktury modelů – levo-pravé a ergodické HMM. V prostředí
jedoucího automobilu bylo dosaženo snížení chyby klasifikace o 61%.
Realizované testy na signálech obsahujících reálné rušení různého typu s větším důrazem na prostředí jedoucího automobilu ukázaly větší přesnost HMM a GMM detektory
ve srovnání s referenčním detektorem energetickým a kepstrálním, či detektory dle doporučení G.729. Lepší výsledky jsou dosaženy hlavně na signálech se silnějším šumovým
pozadím, kde navržené detektory klasifikují přesněji zejména neřečové segmenty a ve specifických případech byla snížena chyba klasifikace o 85%.
i
Abstract
This doctoral thesis deals with voice activity detection, a process of speech classification
into two classes – speech or noise. The voice activity detection represents an important
part of general research in the field of speech processing and is a subject of many contemporary research activities and many applications of speech technology. The primary aim
of this work was to study, propose and compare the voice activity detection algorithms
based on hidden Markov models. This work focuses on the detection in relatively noisy
environment, where heuristic detectors currently often used, significantly fail. Relatively
robust detectors operating well in both silent or noisy environment were proposed.
In the first part of this work the platform for testing and objective evaluation of
voice activity detectors is designed. Implementation of different VAD, together with the
reference detector in accordance with the recommendationg G.729 are also included. For
testing of proposed voice activity detectors the reference database was created. It contains
about 3 hours of speech signals with anotations indicating the precise boundaries of speech
and noisy segments. A unique feature is the accurate marking of non-speech events, labels,
beginings and ends of events are included for each event. The time marks of environmental
changes are also included.
The second part deals with the design and optimalization of detectors based on GMM
and HMM, commonly with the study of using different speech parametrizations. Concluding the spectral perceptual linear coefficients RASTA are the best speech parameters to
distinguish between speech and noise. The voice activity detector based on discrimination
of distance measure between Markov model of speech and noise was designed. The main
contribution of the VAD is its possibility to continuously change its settings to achieve
more accurate classification either in speech or noise while preserving the structural method of classification using HMM. The 52% reduction of error decision rate has been
achieved in a noisy environment in moving car. Further, the phoneme HMM voice activity detector was tested and optimized. The principle of classification is finding the best
path through the recognition network which consist from HMM of monophones and noise.
The 71% error reduction has been achieved using signals recorded in noisy moving car.
The 85% reduction of error decision rate has been achieved for speech recordings whith
specific non-speech event like gear shifting. Finally the HMM voice activity detector using
two general models of speech and noise was designed and optimized. The different HMM
types were tested – left-right and ergodic HMM. The 61% error reduction was achieved
in the noisy environment in a moving car.
Proposed detectors were compared with referential heuristic algorithms based on
energy and cepstral analysis, and with the VAD according to ITU-T G.729 recommendation. The testing of suggested algorithms was realized using the utterances with real
noise recorded mainly in running car and the contribution of proposed statistical detectors
based on GMM and HMM is evident, especially, for speech signals collected in very noisy
environment. In particular recordings of noisy speech the 85% reduction of error rate was
achieved.
ii
Prohlášení
Prohlašuji, že jsem svou disertační práci vypracoval samostatně a použil jsem pouze podklady uvedené v přiloženém seznamu.
V Praze dne 28. srpna 2010
Jiří Tatarinov
iii
Poděkování
Rád bych poděkoval všem, kteří se zasloužili o vznik této práce. Především děkuji svému
školiteli Doc. Ing. Petru Pollákovi, CSc. za obětavou pomoc, cenné rady a připomínky
v průběhu celého doktorského studia, které vedly k výraznému zkvalitnění této práce.
Dále bych rád poděkoval kolegům doktorandům za řadu diskusí o problematice i doktorském studiu obecně.
Děkuji svým blízkým a přátelům za trpělivost, za duchovní, duševní a materiální podporu
během studia.
Tento výzkum byl podporován granty GAČR 102/03/H085 “Modelování biologických
a řečových signálů”, GAČR 102/08/0707 “Rozpoznávání mluvené řeči v reálných podmínkách” a výzkumným záměrem MSM 6840770014 “Výzkum perspektivních informačních a
komunikačních technologií”. Databáze CZKCC vznikla v rámci společného projektu a za
finanční podpory firmy TEMIC TELEFUNKEN GmbH se sídlem v Ulmu v roce 2001.
Databáze není veřejně dostupná a jejím vlastníkem je v současné době Harman/Becker,
Ulm, Germany.
iv
Obsah
1 Úvod
1
2 Stav problematiky detekce řečové aktivity
2.1 Detekce řečové aktivity . . . . . . . . . . . . . .
2.2 Lidská řeč . . . . . . . . . . . . . . . . . . . . .
2.2.1 Model vytváření řeči . . . . . . . . . . .
2.2.2 Struktura řeči . . . . . . . . . . . . . . .
2.3 Šum . . . . . . . . . . . . . . . . . . . . . . . .
2.4 Rozdíly mezi řečí a šumem . . . . . . . . . . . .
2.5 Základní myšlenky řešení . . . . . . . . . . . . .
2.6 Akustická analýza . . . . . . . . . . . . . . . . .
2.6.1 Výkon (energie) . . . . . . . . . . . . . .
2.6.2 Intenzita . . . . . . . . . . . . . . . . . .
2.6.3 Počet průchodů nulou . . . . . . . . . .
2.6.4 Základní hlasivkový tón, periodicita . . .
2.6.5 Entropie . . . . . . . . . . . . . . . . . .
2.6.6 Koherenční funkce . . . . . . . . . . . .
2.6.7 Koeficienty lineární predikce . . . . . . .
2.6.8 Kepstrální analýza . . . . . . . . . . . .
2.6.9 Kepstrální koeficienty LPC . . . . . . . .
2.6.10 Mel-frekvenční kepstrální koeficienty . .
2.6.11 Perceptivně lineární prediktivní analýza
2.6.12 Metoda RASTA-PLP . . . . . . . . . . .
2.6.13 Delta a akcelerační koeficienty . . . . . .
2.6.14 Srovnání parametrů . . . . . . . . . . . .
2.7 Klasifikace . . . . . . . . . . . . . . . . . . . . .
2.7.1 Detektory řeči založené na prahování . .
2.7.2 LDA . . . . . . . . . . . . . . . . . . . .
2.7.3 LRT . . . . . . . . . . . . . . . . . . . .
2.7.4 Neuronové sítě . . . . . . . . . . . . . .
2.7.5 SVM . . . . . . . . . . . . . . . . . . . .
2.7.6 Směs Gaussovských hustotních funkcí . .
2.7.7 Skryté Markovovy modely . . . . . . . .
2.8 Referenční detektory řečové aktivity . . . . . . .
2.8.1 Kepstrální detektor . . . . . . . . . . . .
2.8.2 ITU-T G.729b VAD . . . . . . . . . . .
v
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
3
4
4
6
6
7
7
7
8
8
8
9
10
10
10
11
12
12
13
14
15
15
15
17
17
18
18
18
19
19
19
20
vi
OBSAH
3 Cíle práce, motivace
23
3.1 Motivace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Vlastní cíle práce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3 Obsah práce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4 Základní experimentální setup
4.1 Získávání parametrů řečového signálu . . . . . . . .
4.2 Kritéria . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Základní kritéria . . . . . . . . . . . . . . .
4.2.2 Rozšířená kritéria . . . . . . . . . . . . . . .
4.3 Další vytvořené nástroje . . . . . . . . . . . . . . .
4.4 Nastavení kepstrálního a energetického VAD . . . .
4.4.1 ROC křivka . . . . . . . . . . . . . . . . . .
4.4.2 Optimalizace hodnoty prahu . . . . . . . . .
4.4.3 Optimalizace prahu kepstrálního detektoru .
4.4.4 Optimalizace prahu energetického detektoru
4.5 Množiny signálů . . . . . . . . . . . . . . . . . . . .
4.5.1 Trénovací množiny . . . . . . . . . . . . . .
4.5.2 Testovací množiny . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
27
27
28
28
29
30
31
31
32
33
33
33
34
34
5 Testovací databáze
5.1 Dostupné řečové databáze . . . . . . . . . . . . . . . . .
5.2 Návrh databáze pro detekci řečové aktivity . . . . . . . .
5.3 Výběr nahrávek . . . . . . . . . . . . . . . . . . . . . . .
5.4 Hranice řečových položek . . . . . . . . . . . . . . . . . .
5.5 Testovací množiny . . . . . . . . . . . . . . . . . . . . .
5.5.1 Databáze CAR2ECS a množina CAR2ECSVAD
5.5.2 Databáze SPEECON a množina SPEECONVAD
5.5.3 Databáze CZKCC a množina CZKCCVAD . . . .
5.6 Analýza testovacích množin . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
37
38
38
38
39
39
39
40
41
.
.
.
.
.
.
.
.
.
.
.
.
45
45
47
47
49
52
53
53
54
55
56
57
57
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6 Detekce na bázi GMM
6.1 Detekce přítomnosti řeči s GMM . . . . . . . . . . . . . .
6.2 Analýza vhodné parametrizace . . . . . . . . . . . . . . . .
6.2.1 Jednorozměrné parametrizace . . . . . . . . . . . .
6.2.2 Vícerozměrné parametrizace . . . . . . . . . . . . .
6.3 Analýza parametrizací pomocí vzdálenosti Kullback-Leibler
6.4 Experimenty . . . . . . . . . . . . . . . . . . . . . . . . . .
6.4.1 Vliv použité parametrizace . . . . . . . . . . . . .
6.4.2 Optimalizace počtu směsí . . . . . . . . . . . . . .
6.4.3 Vliv rušného prostředí automobilu . . . . . . . . . .
6.4.4 Experimenty s neřečovými událostmi . . . . . . . .
6.4.5 Experimenty na dalších typech řečových položek . .
6.4.6 Shrnutí . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7 Detekce na bázi HMM
59
7.1 Dekódování řeči . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
7.2 Akustické modelování řeči pomocí HMM . . . . . . . . . . . . . . . . . . . 60
7.3 Analýza možností využití HMM za účelem detekce přítomnosti řeči . . . . 61
OBSAH
vii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
62
62
63
64
65
65
67
69
70
70
75
80
8 Shrnující experimenty
8.1 Detekce v prostředí automobilu . . . . . . . . . . . . . . .
8.2 Detekce neřečových událostí . . . . . . . . . . . . . . . . .
8.3 Detekce promluv obsahujících další typy řečových položek
8.4 Souhrnné poznámky . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
89
89
90
91
92
7.4
7.5
7.6
7.7
7.3.1 Výběr modelované části promluvy . . . . . . . .
7.3.2 Struktura modelu . . . . . . . . . . . . . . . . .
7.3.3 Klasifikační algoritmus . . . . . . . . . . . . . .
7.3.4 Způsob inicializace a trénování . . . . . . . . .
7.3.5 Shrnutí analýzy . . . . . . . . . . . . . . . . . .
Fonémový detektor řečové aktivity . . . . . . . . . . .
VAD vyhodnocující vzdálenosti HMM (DHMM) . . .
VAD modelující promluvy pomocí dvou HMM . . . . .
Experimenty . . . . . . . . . . . . . . . . . . . . . . . .
7.7.1 Fonémový detektor řečové aktivity . . . . . . .
7.7.2 VAD vyhodnocující vzdálenosti HMM (DHMM)
7.7.3 VAD modelující promluvy pomocí dvou HMM .
9 Závěr
A Tabulky a grafy výsledků experimentů
.
.
.
.
.
.
.
.
.
.
.
.
95
109
viii
OBSAH
Seznam obrázků
2.1
2.2
2.3
2.4
2.5
2.6
2.7
Model vytváření řeči . . . . . . . . . . . . .
Vznik zarušeného řečového signálu . . . . . .
Struktura detektorů řečové aktivity . . . . .
Melovská banka filtrů . . . . . . . . . . . . .
Výpočet Melovských kepstrálních koeficientů
Algoritmus kepstrálního VAD . . . . . . . .
Struktura G729 VAD . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
6
7
11
12
20
21
4.1 Ilustrace kritérií vyhodnocující detektory řečové aktivity . . . . . . . . . . 30
4.2 ROC pro kepstrální VAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.3 ROC pro energetický VAD . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.1
5.2
5.3
5.4
Transkripce řeči . . . . . . . . . . . . . . . . . . . . . . .
SSNR signálů v množině CZKCCVAD a CAR2ECSVAD
SSNR signálů v množině SPEECONVAD . . . . . . . . .
SSNR signálů obsahující neřečové události . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
38
42
44
44
6.1
6.2
6.3
6.4
6.5
6.6
6.7
6.8
6.9
6.10
6.11
6.12
6.13
Ilustrace principu GMM . . . . . . . . . . . . .
Algoritmus GMM VAD . . . . . . . . . . . . . .
Rozložení energie . . . . . . . . . . . . . . . . .
Rozložení počtu průchodů nulou . . . . . . . . .
Rozložení F0 . . . . . . . . . . . . . . . . . . .
Rozložení koeficientů lineární predikce . . . . .
Rozložení DCT kepstrálních koeficientů . . . .
Rozložení kepstrálních koeficientů LPC . . . . .
Rozložení Melovských kepstrálních koeficientů .
Rozložení spektrálních PLP koeficientů . . . . .
Rozložení kepstrálních PLP koeficientů . . . . .
Rozložení spektrální PLP koeficientů RASTA .
Rozložení kepstrálních PLP koeficientů RASTA
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
46
47
48
48
49
49
50
50
50
51
51
51
51
7.1
7.2
7.3
7.4
7.5
7.6
7.7
7.8
Bloky systému pro dekódování řeči
Ilustrace generování posloupnosti .
Levo-pravý model . . . . . . . . . .
Ergodický model . . . . . . . . . .
Model dlouhé pauzy . . . . . . . .
Model krátké pauzy . . . . . . . . .
Blokové schéma fonémového VAD .
Výpočet diskriminační funkce . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
60
61
62
62
62
62
66
68
ix
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x
SEZNAM OBRÁZKŮ
7.9
7.10
7.11
7.12
Blokové schéma VAD modelující promluvy pomocí dvou modelů . . . . .
Rozpoznávací síť s ergodickými modely řeči a šumu . . . . . . . . . . . .
Ilustrace hranic řečových úseků u HMM VAD . . . . . . . . . . . . . . .
Vliv zvyšování počtu stavů modelů na ROC charakteristiky pro DHMM
VAD s CPLP koeficienty v uvedených prostředích. . . . . . . . . . . . . .
7.13 Nastavení prahu pro DHMM VAD pomocí ROC charakteristiky . . . . .
. 69
. 70
. 71
. 75
. 76
A.1 Nastavení prahu DHMM VAD pomocí ROC charakteristiky . . . . . . . . 110
A.2 Vliv zvyšování počtu stavů modelů na ROC charakterisitky pro DHMM
VAD v uvedených prostředích a danou parametrizaci. . . . . . . . . . . . . 113
Seznam tabulek
4.1 Konfúzní matice – absolutní hodnoty . . . . . . . . . . . . . . . . . . . . . 31
4.2 Konfúzní matice – relativní hodnoty . . . . . . . . . . . . . . . . . . . . . . 32
5.1 Řečové položky množiny CZKCCVAD . . . . . . . . . . . . . . . . . . . . 41
5.2 Neřečové položky množiny CZKCCVAD . . . . . . . . . . . . . . . . . . . 41
5.3 Prostředí nahrávek množiny CZKCCVAD . . . . . . . . . . . . . . . . . . 41
6.1 Analýza podobnosti řečových a šumových úseku řeči pomocí vzdáleností
Kullback-Leibler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Vliv použité parametrizace na úspěšnost GMM VAD. . . . . . . . . . . .
6.3 Analýza počtu směsí u GMM VAD v uvedených prostředích . . . . . . .
6.4 Chyby klasifikace optimálně nastaveného GMM VAD . . . . . . . . . . .
6.5 Úspěšnost GMM VAD u promluv obsahujících různé neřečové události. .
6.6 Úspěšnost GMM VAD na dalších typech řečových položek. . . . . . . . .
7.1 Analýza vlivu počtu směsí modelů fonémového HMM VAD . . . . . . . .
7.2 Chyby klasifikace optimálně nastaveného fonémového HMM VAD . . . .
7.3 Úspěšnost fonémového HMM VAD u promluv obsahujících různé neřečové
události. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.4 Úspěšnost fonémového HMM VAD na dalších typech řečových položek. .
7.5 Chyby klasifikace optimálně nastaveného DHMM VAD . . . . . . . . . .
7.6 Úspěšnost DHMM VAD u promluv obsahujících různé neřečové události.
7.7 Úspěšnost DHMM VAD na dalších typech řečových položek. . . . . . . .
7.8 Analýza vlivu počtu směsí LP modelů HMM VAD . . . . . . . . . . . . .
7.9 Analýza počtu stavů LP modelů HMM VAD . . . . . . . . . . . . . . . .
7.10 Analýza počtu stavů modelů HMM VAD při klasifikaci promluv obsahujících slyšitelný blinkr . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.11 Chyby klasifikace optimálně nastaveného HMM VAD využívajícího LP modely . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.12 Chyby klasifikace optimálně nastaveného HMM VAD využívajícího ergodické modely . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.13 Úspěšnost HMM VAD s levo-pravými modely u promluv obsahujících různé
neřečové události. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.14 Úspěšnost HMM VAD s levo-pravými modely na dalších typech řečových
položek. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.15 Úspěšnost HMM VAD s ergodickými modely u promluv obsahujících různé
neřečové události. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.16 Úspěšnost HMM VAD s ergodickými modely na dalších typech řečových
položek. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xi
.
.
.
.
.
.
53
54
55
56
58
58
. 72
. 73
.
.
.
.
.
.
.
74
74
77
78
78
80
81
. 82
. 83
. 84
. 86
. 86
. 87
. 87
xii
SEZNAM TABULEK
8.1 Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv z prostředí automobilu. . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv obsahujících dané neřečové události. . . . . . . . . . . . . . . . . . .
8.3 Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv obsahujících dané neřečové události. . . . . . . . . . . . . . . . . . .
8.4 Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv obsahujících slyšitelné řazení rychlosti. . . . . . . . . . . . . . . . . .
8.5 Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD na
množině CAR2ECSVAD. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.6 Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD na
dalších typech řečových položek. . . . . . . . . . . . . . . . . . . . . . . . .
90
91
92
93
93
93
A.4 Analýza počtu směsí fonémů v prostředí stojícího automobilu se zapnutým
motorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
A.1 Analýza počtu směsí GMM v prostředí stojícího automobilu se zapnutým
motorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
A.2 Analýza počtu směsí modelů HMM VAD s LP modely v prostředí stojícího
automobilu se zapnutým motorem . . . . . . . . . . . . . . . . . . . . . . 111
A.3 Analýza počtu stavů modelů HMM VAD s LP modely v prostředí stojícího
automobilu se zapnutým motorem . . . . . . . . . . . . . . . . . . . . . . 111
A.5 Přehledová tabulka chyb klasifikace v prostředí stojícího automobilu . . . . 112
A.6 Přehledová tabulka chyb klasifikace v prostředí stojícího automobilu se zapnutým motorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
A.7 Přehledová tabulka chyb klasifikace v prostředí jedoucího automobilu . . . 115
A.8 Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelný blinkr116
A.9 Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelný dech
mluvčího . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
A.10 Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelné klapání118
A.11 Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelné listování papírem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
A.12 Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelné řazení rychlostního stupně . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
A.13 Přehledová tabulka chyb klasifikace u nahrávek obsahujících jinou neřečovou událost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
A.14 Přehledová tabulka chyb klasifikace na množině CAR2ECSVAD . . . . . . 122
A.15 Přehledová tabulka chyb klasifikace u nahrávek číslic (SPEECONVAD) . . 123
A.16 Přehledová tabulka chyb klasifikace na signálech obsahujících promluvy
celých vět (SPEECONVAD) . . . . . . . . . . . . . . . . . . . . . . . . . . 124
Kapitola 1
Úvod
Není pochyb o tom, že se nacházíme v době převratných technologických a společenských
změn. Vývoj digitálních a informačních technologií určených k vytváření, zpracování, šíření a užívání informací závažně přispěl k formování nové společnosti. Snad jednou z nejvýznamnějších charakteristik současné informační společnosti je exponenciální nárůst nových informací, dokonce nových vědeckých poznatků a jejich zpřístupnění komunikačními
a informačními technologiemi často v reálném čase, bez ohledu na místo jejich výskytu.
Zároveň se rozvíjí snahy vedoucí ke snadné přístupnosti veškerých informačních zdrojů a
odborných informací.
Nejtypičtějším příkladem komunikace v reálném čase je oblast telefonie, která se rychle
rozvíjí. Pevné linky byly téměř vytlačeny mobilními telefony a dále se rozšiřuje volání po
síti - VoIP1 . Nové technologie sebou přinesly specifické problémy a nedostatky, které je
možné řešit, či dále vylepšovat. Například při telefonním hovoru někdy využíváme hlasitý
odposlech, což vede k přenosu hlasu telefonního partnera zpět do mikrofonu, kde se smísí
s naším hlasem, dochází k akustickému echu. Tento efekt lze potlačit několika způsoby,
některé z nich vedou k využití detektoru řečové aktivity – VAD2 . VAD je přínosem také
pro video konference, kde lokalizuje zdroj rozhovoru. V průběhu konferenčního hovoru je
lokalizován zdroj hovoru a videokamera je směrována na mluvčího ve chvíli, kdy hovoří.
Známější je využití v internetové telefonii pro kompresi řeči, kde lze vynecháním neřečových oblastí signálů zmenšit objem přenesených dat. Účastník hovoru toto vnímá až
nepřirozeným ztišením reproduktoru, protože není přenášen okolní šum. Podobný přínos
má VAD pro mobilní radiové sítě (GSM nebo CDMA), které často využívají DTX3 . To
je metoda umožňující dočasné vypnutí mobilního telefonu nebo zastavení přenosu dat ve
chvíli, kdy není přítomen žádný hlasový vstup. Tím je dosaženo celkového zefektivnění
komunikační sítě. U mobilního telefonu je také prodloužena jeho výdrž na jedno nabití
baterie. VAD je používán také v některých DSVD4 modemech, které umožňují současný
přenos hlasu a digitálních dat po běžné telefonní lince.
Další aplikace najdeme při zvýrazňování řeči, odhadu SNR5 nebo v rozpoznávání řeči.
Nejznámější metodou zvýrazňování řeči je spektrální odečítání, ve které je velmi důležitý
přesný odečet odhadu spektra šumu. Odhad spektra šumového pozadí se získá v řečových
pauzách, ve kterých není přítomna řeč. Pro kvalitu zvýrazněné řeči je tedy rozhodující bezchybná funkce detektoru řečové aktivity. Při vývoji systémů pro snižování úrovně
Voice Over Internet Protocol
Voice Activity Detector
3
Discontinuous Transmission
4
Digital Simultaneous Voice and Data
5
Signal to Noise Ratio
1
2
1
2
KAPITOLA 1. ÚVOD
šumu v řečovém signálu potřebujeme kvantifikovat úroveň šumového pozadí v řečovém
signálu. Standardním kritériem pro měření úrovně šumu v signálu je odstup signálu od
šumu SNR. Nedílnou součástí algoritmů pro výpočet SNR je VAD. VAD se také používá
u rozpoznávačů řeči, kde slouží k detekci přítomnosti hlasového vstupu.
Detekce řečové aktivity hraje důležitou roli v oblasti zpracování signálů a je objektem
současného výzkumu. Detektory řečové aktivity jsou využívány nejen v mnoha různých
oblastech vědy, ale i v průmyslových aplikacích. Hrají důležitou roli v telekomunikacích,
při rozpoznávání a zvýrazňování řeči nebo jejím přenosu. [48, 50, 91, 89]
Kapitola 2
Stav problematiky detekce řečové
aktivity
Detekce řečové aktivity není nová úloha a v tichém prostředí bylo již v některých úlohách
dosaženo velmi vysoké přesnosti. Většina současných prací se proto soustředí na řešení této
úlohy v zarušeném prostředí. Záměrem této kapitoly bude vytvoření přehledu přístupů,
metod a algoritmů, které byly s větším, či menším úspěchem použity pro řešení této úlohy.
Vzhledem k tomu, že bylo v uplynulých letech prezentováno velké množství nejrůznějších
variant přístupů k detekci řečové aktivity, neklade si tato kapitola nároky na úplnost,
ale zmiňuje jen hlavní směry při jejím řešení. Aby tento přehled mohl být srozumitelně
vytvořen, budou současně zavedeny základní pojmy a teoretické informace o řeči, detekci
řečové aktivity a zpracování řečového signálu.
2.1
Detekce řečové aktivity
Detekce řečové aktivity je postup automatické klasifikace čistého řečového signálu, či směsi
řeči a šumu do dvou tříd – řeči a šumu. Zpracování řečového signálu je většinou prováděno
po segmentech, ke kterým je přidělována příslušná třída.
Jde tedy o úlohu, která se snaží najít vzájemné rozdíly mezi řečí a šumem. Principiální
rozdíl mezi řečí a šumem je v obsažené informaci. Hlavním znakem řečových úseků je, že
nesou informaci nutnou k dorozumění mezi lidmi. Zatímco šumové úseky tuto informaci
nenesou. Někde na pomezí mezi řečovými a šumovými úseky jsou krátké řečové pauzy,
jejichž zařazení do příslušné kategorie může být v některých případech velmi subjektivní.
Před samotným návrhem řešení této úlohy je nutné znát vlastnosti řeči a šumu, aby bylo
možné analyzovat jejich rozdíly, a následně najít způsob, jak je vzájemně automaticky
rozlišovat.
2.2
Lidská řeč
Bylo zjištěno, že akustický signál řeči obsahuje o mnoho více informací, než je obsaženo
v jeho skutečném významu. Člověk využívá vnitřní mechanismy [58], které mu umožní
potlačit v řečovém signálu nepotřebné údaje (barva hlasu, intonace, ...) a zdůraznit pouze
několik hlavních zvukových příznaků, které jsou shodné pro všechna stejná slova. Důsledkem tohoto plného porozumění řeči je i schopnost poznat, zda je řeč v promluvě přítomná
či nikoliv. Mechanismy vnímání řeči člověkem jsou neznámé, a proto ani nelze využít jejich
3
4
KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY
analogie při návrhu prostředků pro její automatické zpracování. Nicméně je možné využít
alespoň dostupných znalostí o procesu tvoření řeči.
Zdrojem řeči jsou lidské řečové orgány, které se skládají z hlasivek, dutiny hrdelní,
ústní a nosní, měkkého a tvrdého patra, zubů a jazyka. Zdrojem hlasové energie jsou plíce a
s nimi spjaté dýchací svaly. Kmitající hlasivky jsou zdrojem znělých hlásek, tj. samohlásek
a znělých souhlásek. Frekvence kmitů hlasivek závisí na tlaku vzduchu a na svalovém
napětí hlasivek, pohybuje se kolem 150–400 Hz a charakterizuje základní tón lidského
hlasu. Pro automatické zpracování řeči je možné řeč vhodným způsobem modelovat, což
se s výhodou používá pro popis některých jejich akustických parametrů.
2.2.1
Model vytváření řeči
Základem je model chování hlasivek, model hlasového traktu, který napodobuje přenosové
vlastnosti lidského hlasového traktu, a model vyzařování zvuku ze rtů [58]. Při promluvě
se však rozměry hlasového traktu mění, nicméně lze předpokládat, že vlastnosti hlasového
traktu zůstávají konstantní v časovém úseku 10-30 ms. Budící signál je tvořen periodickým sledem prvků pro znělou řeč nebo “šumovým” signálem pro řeč neznělou. Výsledný
model hlasové produkce lze reprezentovat celo-pólovým filtrem. Model vytváření řeči je
na obrázku 2.1. Šumová podstata neznělých úseků řeči vede v důsledku k problémům při
detekcí řečové aktivity, a to hlavně u neznělých hlásek.
Perioda
základního
tónu
Parametry
hlasového
ústrojí
Generátor
posloupnosti
impulsů
Model
hlasové
produkce
Znělý/Neznělý
Generátor
náhodného
šumu
Zesílení
Obrázek 2.1: Model vytváření řeči
Dále předpoklad, že vlastnosti hlasového traktu zůstávají v takto krátkém časovém
úseku konstantní vede k aplikaci metod krátkodobé analýzy, při nichž se úseky řečového
signálu vydělují a zpracovávají tak, jako by to byly oddělené krátké zvuky. V časové
oblasti je diskrétní výstupní odezva při fixovaných parametrech hlasového ústrojí dána
konvolucí buzení a impulzní odezvy modelu hlasové produkce. Výsledkem analýzy je pak
vektor, který popisuje daný mikrosegment. Volba vhodného popisu mikrosegmentů řečového signálu je stěžejní nejen pro úlohu detekce řečové aktivity.
2.2.2
Struktura řeči
Strukturu lidské řeči lze popsat z různých lingvistických hledisek – akustického, artikulačního, fonetického, fonologického nebo prozodického. Po nasnímání řeči mikrofonem a jeho
digitalizaci, lze poměrně přímočaře získat její akustický popis. Pro následné modelování je
2.2. LIDSKÁ ŘEČ
5
ovšem vhodnější popsat strukturu řeči z hlediska fonetického či fonologického dohromady
s prozodickým popisem.
Z fonologického hlediska je nejmenší jednotkou řeči foném, který je definován jako
nejmenší lingvistická jednotka schopná rozlišovat významové jednotky (např. slova). Fonémy
lze od sebe odlišit podle způsobu a místa tvoření, podle artikulujícího orgánu nebo podle
sluchového dojmu. Počet fonémů ve světových jazycích se pohybuje od 12 do 60. V českém jazyce je jich 36. Spojením několika fonémů do posloupnosti vznikne slabika a jejich
kombinací slovo. Hlásky je možné rozdělit do několika skupin [58]
• Samohlásky – Při artikulaci samohlásek je snahou udržet průchod vzduchu hlasovým
traktem co nejvolnější. V akustickém spektru každé samohlásky se objevuje kromě
základního tónu řada vyšších zesílených tónů, které vznikají rezonancí v dutinách
hlasového traktu.
• Souhlásky – Na rozdíl od samohlásek, souhlásky obsahují v akustické spektru charakteristický šum a jsou vytvářeny vzduchovou turbulencí, která vzniká třením výdechového proudu vzduchu o překážku vytvořenou artikulačními orgány. Překážka,
kterou stavějí mluvidla do cesty výdechovému proudu, může být úplná nebo částečná. Souhlásky můžeme rozdělit na
– závěrové – Tyto samohlásky vznikají při vytvoření úplné překážky. V okamžiku
zrušení překážky vzniká krátký šum, který se podobá výbuchu.
– úžinové – Překážka je tvořena zúžením cesty výdechovému proudu na některém
místě v artikulačním ústrojí. Při tření v této úžině vzniká třecí sum.
– polozávěrové – Při tvorbě těchto souhlásek se postupně objevují oba typy překážek.
Souhlásky je možné též rozdělit podle znělosti. Vyslovením neznělé souhlásky jsou hlasivky od sebe oddáleny podobně jako při volném dýchání a propouštějí výdechový proud,
aniž vytvářejí hlas. Znělé souhlásky jsou naopak při tvoření doprovázeny přítomností základního hlasivkového tónu. Při vyslovování nosních souhlásek se části procesu artikulace
účastní také nosní dutina. Některé souhlásky jsou shodné, liší se jenom znělostí. Takové
souhlásky jsou nazývány párové. Souhlásky, které jsou vždy znělé a nemají svůj neznělý
protějšek se nazývají nepárové.
Při vyslovování hlásek musí různé části hlasového ústrojí zaujímat odpovídající polohu
[58]. Ke změně polohy dojde za určitou dobu, a proto se vyslovení fonému mění v závislosti
na předcházejícím a následujícím zvuku. Tento jev je znám jako koartikulace. Pro jeden
foném může být tolik variací, kolik je přípustných sousedních fonémů. Z tohoto důvodu
byl zaveden pojem fon, jako minimální fonetická jednotka identifikující odlišné primitivní
zvuky řeči. Odlišné fony určitého fonému se pak nazývají alofony.
Struktura řeči je tedy její přirozenou součástí, ale většinou není součástí šumu. Detekce
přítomnosti řeči by tak mohla být založena na hledání přítomnosti nebo nepřítomnosti
této struktury. Je například známo, že je velmi obtížné definovat začátek a konec promluvy
v případech, kdy jsou na začátku či konci promluvy neznělé okluzivy, tj. /p/, /t/, /k/,
slabé neznělé frikativy, tj. /f/, /s/, /š/, /ch/, na konci promluvy znělé okluzivy, tj. /b/,
/d/, /g/, znělé frikativy, tj. /v/, /z/, /ž/, /h/, nebo nosní souhlásky, tj. /m/, /n/, /ň/.
Tento problém by mohl být zmenšen, když by byla využita znalost skutečnosti, že tyto
hlásky jsou součástí strukturálních segmentů řeči. Tato znalost je velmi často využívána
v úlohách zabývající se rozpoznáváním řeči, nicméně pro detekci řečové aktivity se používá
jen zřídka.
6
KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY
replacemen
Aditivní
šum
Řečový signál
Konvoluční
šum
Zarušený
řečový signál
Obrázek 2.2: Vznik zarušeného řečového signálu
2.3
Šum
Zdroje šumu mohou být rozděleny na aditivní šumy a šumy konvoluční. Aditivní šumy
nejsou korelované se signálem a podle jejich spektrálních vlastností lze rozlišit šum bílý
a barevný. Konvoluční šumy jsou způsobeny například odrazy a rušením díky přenosu
signálu nebo díky vlastnostem mikrofonu a zavádí nechtěné artefakty do originálního
signálu, které jsou korelované s originálním signálem.
Aditivní bílý šum se v reálném prostředí nevyskytuje, přesto se často využívá v modelech reálných systémů, kdy může aproximovat širokopásmové rušení, které se mu v limitním případě blíží. Bílý šum má tedy konstantní výkonovou spektrální hustotu, která
je rovna jeho rozptylu σb2 . Dalším důležitým parametrem bílého šumu je jeho střední
hodnota µb , která se většinou uvažuje nulová. Nulové jsou také koeficienty autokorelační
funkce kromě R[0], který je roven rozptylu σb2 .
Nekorelovaný aditivní barevný šum má jiné rozložení energie ve spektru, než bílý šum.
Pro tento šum je průběh autokorelační funkce nenulový nejen pro koeficient R[0], ale i
pro další koeficienty.
Šumový signál může být dále rozdělen na stacionární a nestacionární. Stacionární šum
[59] má výkonovou spektrální hustotu téměř konstantní v čase a bývá způsoben například
zvukem větráku, počítače či klimatizace, hlukem neakcelerujícího automobilového motoru, zvukem deště, šumem vzdálené konverzace apod. V reálných aplikacích se většinou
předpokládá, že neznámý šum je stacionární. Naopak nestacionární šum je charakterizován tím, že se jeho spektrální charakteristiky zřetelně mění v čase [59]. Vzniká například
hlukem projíždějícího auta, bouchnutím dveří, klikáním klávesnice, mlaskáním či hlasitým
dýcháním při mluvení nebo štěkání psa apod. V dnešní době je možné se poměrně často
setkat s nestacionárním šumem, třeba i kvůli možnostem mobilní komunikace, díky které
se akustické pozadí mění v průběhu hovoru.
Na závěr je třeba zmínit, že šum může mít také nepřímý vliv na řečový signál. V případech, kdy lidé mluví v hlučném prostředí, se díky snaze o efektivnější komunikaci mění
i akustické parametry jejich řeči, a to nejen její intenzita, ale i základní tón hlasu, a další
jeho vlastnosti. Tento nepřímý vliv hlučného prostředí je označován jako Lombardův efekt.
2.4
Rozdíly mezi řečí a šumem
Vlastnosti řečového signálu jsou podrobně popsány a analyzovány díky známému zdroji,
tj. hlasovém ústrojí člověka. Je-li znám konkrétní zdroj rušení, potom i jeho vlastnosti jsou
známé. Problém může ovšem nastat v situacích, kdy není znám konkrétní zdroj rušení, a
jeho popis je založen pouze na předpokladu, že patří do nějaké konkrétní kategorie. Zdroje
2.5. ZÁKLADNÍ MYŠLENKY ŘEŠENÍ
7
Parametr 1
Akustická
analýza
Řeč
Klasifikace
Zařazení do třídy
Parametr N
Obrázek 2.3: Struktura detektorů řečové aktivity
rušení jsou však velmi různorodé a v některých případech i neznámé. Pro principiální
vyhodnocení rozdílů mezi řečí a šumem se nejčastěji používá přístup vycházející ze znalostí
vlastností řečového signálu. V neznámém signálu jsou hledány charakteristiky řeči a na
základě jejich přítomnosti či nepřítomnosti se daná část signálu označí jako řeč nebo
šum. Obrácený postup, kdy by se hledaly pouze charakteristické znaky šumu, by obecně
nefungoval díky nepříliš konkrétnímu popisu vlastností šumu. Nejlepších výsledků lze
samozřejmě dosáhnout kombinací obou přístupů.
Téměř pro všechny předpokládatelné zdroje rušení lze najít nejzřetelnější rozdíly mezi
řečí a vzniklým šumem v jejich akustických parametrech. Většinou platí, že řeč má větší
intenzitu než šum a v případech, kdy není rozdíl v intenzitě, například kvůli přítomnosti
hlasitého rušení, lze nalézt rozdíly ve spektrálních vlastnostech řeči a šumu. Pro diskriminaci řeči a šumu lze použít také mnoho dalších akustických parametrů řečového signálu,
které jsou podrobně popsané v další části tohoto textu.
2.5
Základní myšlenky řešení
Obecně jsou algoritmy detekce řečové aktivity založené na různých přístupech, v principu
je však možné všechny modelovat dvěma základními bloky: akustickou analýzou řečového signálu řešící extrakci vhodných příznaků popisujících řečový signál a následným
klasifikačním algoritmem rozlišujícím mezi řečovými a neřečovými úseky.
2.6
Akustická analýza
Blok akustické analýzy řeči je navrhován vždy pro dané prostředí, ve kterém je řečový
signál detekován, přičemž různé charakteristiky mají rozdílnou výpočetní náročnost i odolnost vůči případnému rušivému pozadí. Typickými výstupy akustické analýzy mohou být
jednotlivé parametry jako výkon (energie) signálu, intenzita, počet průchodů nulou, entropie, kepstrální vzdálenost od pozadí, průměrná koherence apod. nebo vektory více
příznaků jako jsou LPC koeficienty, kepstrální koeficienty či koherenční funkce. Dále je
uveden popis a důvody využití těchto řečových parametrů dohromady s odkazy na publikace prezentující využití dané řečové charakteristiky pro detekci řečové aktivity.
2.6.1
Výkon (energie)
Nejstarší a stále používané VAD jsou detektory výkonové (energetické) [25, 94, 39]. Popularita a časté používání těchto algoritmů je dána především velmi malou výpočetní náročností, kde je přítomnost hlasového signálu detekována na základě vyšší energie oproti
úseku neřečovému. Krátkodobou energii lze vypočítat podle vztahu
8
KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY
E[n] =
∞
X
(x[k]w[n − k])2 ,
(2.1)
k=−∞
kde w[n] je příslušný typ váhovacího okna, například Hammingovo, a x[n] je signál. Někdy
se upřednostňuje výpočet logaritmu energie podle vztahu
El [n] = log
∞
X
(x[k]w[n − k])2 .
(2.2)
k=−∞
Znělé úseky řeči mají vyšší energii, proto zde energický detektor funguje výborně.
Naopak nevýhodou je pokles spolehlivosti detekce při intenzivnějším šumovém pozadí,
pro nízkoenergetické neznělé úseky řeči už i pro nižší úrovně rušivého pozadí.
2.6.2
Intenzita
V některých publikacích [57] autoři raději využívají parametru intenzity, než energie.
Výhodou tohoto parametru je, že není tolik citlivý na velké změny úrovně signálu. Krátkodobá intenzita je zaváděna pomocí následujícího vztahu
M [n] =
∞
X
|x[k]|w[n − k].
(2.3)
k=−∞
2.6.3
Počet průchodů nulou
Doplňkovou charakteristikou energetických detektorů, jejíž aplikace přináší zlepšení detekce neznělých úseků u energetických detektorů, může být počet průchodů nulou - ZCR1
[33, 35, 20]. Na rozdíl od předchozích charakteristik zaměřených na sledování amplitudy
signálu, poskytuje krátkodobá funkce středního počtu průchodů signálu nulou informaci
o frekvenčních vlastnostech signálu. V podstatě je toto kritérium využíváno jako jednoduchý odhad výšky tónu. Tento odhad je využitelný u monofonního zvuku. U polyfonních
zvuků je velmi nepřesný. Hodnota ZCR se získá jako počet změn znaménka signálu
ZCR[n] =
∞
X
|sign(s[k]) − sign(s[k − 1])|w[n − k],
(2.4)
k=−∞
kde sign(s[k]) je znaménková funkce definovaná předpisem
(
1
s[k] ≥ 0
sign(s[k]) =
−1 s[k] < 0.
(2.5)
Hodnota ZCR nicméně velmi závisí na šumovém pozadí a i zde dochází ke sbližování
hodnot pro šum a pro neznělé hlásky.
2.6.4
Základní hlasivkový tón, periodicita
Někteří autoři [36, 83] využívají jako další doplňkové kritérium detekci periodických složek řeči. V podstatě se jedná o odhad periody základního hlasivkového tónu2 T0 , či její
1
2
Zero Crossing Rate
pitch period
2.6. AKUSTICKÁ ANALÝZA
9
převrácená hodnoty F0 = 1/T0 - fundamentální frekvence. To je významný parametr řeči,
který odpovídá kmitům hlasivek. Přítomnost základního hlasivkového tónu je indikátor
znělosti/neznělosti promluvy. Hodnota základního tónu je různá pro různé řečníky a tato
frekvence se mění i pro jednotlivce při promluvách různých hlásek. Základní tón není
přítomen v šumu, což může být použito jako důležité kritérium nepřítomnosti promluvy.
K určení F0 je možné přistupovat několika různými způsoby – výpočtem autokorelační
funkce nebo metodou LSPE3 . Podle publikace [59] se jeví jako nejpřesnější metody založené na využití autokorelační funkce. Hodnota periody základního tónu je určena pomocí
prvního maxima autokorelační funkce, tj. pro každý segment je hledáno takové m∗ > 0,
které vyhovuje rovnici
∗
m = argminmR[m] = argminm
L−1−m
X
s[k]s[k + m],
k=0
přičemž délka okénka musí být větší než jedna perioda základního tónu, tj. alespoň
L = 20 − 40 ms . S jiným přístupem přichází technika LSPE, která se snaží zkonstruovat periodickou funkci s periodou, která minimalizuje střední kvadratickou odchylku
mezi signálem a danou periodickou funkcí. Obě metody výrazně snižují citlivost detekce
řeči na bílém šumu. Takto řešený detektor funguje spolehlivě i pří nízkém SNR a je odolný
k neperiodickému šumu [83]. Nicméně při periodickém šumovém pozadí nebo s parazitními
periodickými složkami v signálu se spolehlivost rychle snižuje.
2.6.5
Entropie
Další používané algoritmy jsou založeny na měření entropie H, která vyjadřuje míru
neuspořádanosti soustavy, neboť analýzou spektra velmi zašuměné řeči bylo zjištěno, že
oblasti obsahující řeč jsou více organizované než oblasti šumové. Pro systém s konečným
počtem stavů S ∈ {s1 , s2 , . . . , sN } je entropie definována jako [68]
N
X
H(S) = − P (si)log2 (P (si)),
(2.6)
i=1
kde P (si) je pravděpodobnost, že byl emitován stav si . Pro potřeby detekce řeči je výhodnější tzv. spektrální entropie H(X), která se získá pomocí předpokladu, že normalizované
amplitudové spektrum segmentu signálu lze považovat za pravděpodobnostní rozdělení.
Entropie ve spektrální oblasti potom může být získána substitucí P (si) za pravděpodobnost ω-té spektrální čáry
dosazením získáme
|X(ω)|2
P (|X(ω)|2 ) = P
,
2
ω |(ω)|
H(X) = −
X
P (|X(ω)|2)log2 P (|(ω)|2).
(2.7)
(2.8)
ω
Experimenty potvrdily, že VAD používající k výpočtu entropii pracují v prostředí s nestacionárním šumem spolehlivěji než čistě energetické. Na druhé straně selhávají v případech,
kdy je signál zasažen hudebním šumem. Přínosem je naopak, že tyto VAD nejsou citlivé
na změny dynamiky šumu, reagují pouze na změny spektrální povahy [65].
3
Least Square Periodicity Estimator
10
2.6.6
KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY
Koherenční funkce
V systémech s vícekanálovým řečovým signálem lze zlepšení detekce silného a nestacionárního šumu dosáhnout použitím charakteristik na bázi koherenční funkce [66], která
přináší principiálně novou informaci o podobnosti korelovanosti signálu ve dvou kanálech.
Koherenční funkci lze získat pomoci vztahu
|Sxy (ejθ )|2
,
γ (e ) =
Sx (ejθ )Sy (ejθ )
2
jθ
(2.9)
kde |Sxy (ejθ )|2 je cross spektrum vstupních signálů x [n] a y [n], a Sx (ejθ ) a Sy (ejθ ) jsou
ESD vstupních signálů x [n] a y [n]. Hodnota koherenční funkce se blíží 1, když x [n]
a y [n] jsou nezašuměné signály řeči. Naopak hodnota funkce klesá k nule pro případy,
kdy x [n] a y [n] jsou nekorelované šumy. Většina šumů, například v automobilu, jsou
nekorelované, proto koherenční funkce obsahuje informaci o řečové aktivitě. Nevýhodou
je potřeba použití dvou mikrofonů [73], vyššího počtu vstupních kanálů a s tím související
nároky na použitý hardware. Ty jsou často limitujícími faktory použití těchto algoritmů,
zejména v případech aplikace v jednoduchých a snadno implementovatelných systémech
s hlasovým vstupem.
2.6.7
Koeficienty lineární predikce
Lineárně prediktivní kódování (LPC) je metoda analýzy akustického signálu, která se
snaží na krátkodobém základu odhadnout parametry modelu vytváření řeči při relativně
přijatelné výpočetní zátěži přímo z řečového signálu. Princip metody LPC je založen na
předpokladu, že k-tý vzorek signálu s(k) lze popsat lineární kombinací Q předchozích
vzorků a buzení u(k), tj.
s(k) = −
Q
X
ai s(k − i) + Gu(k),
i=1
kde G je koeficient zesílení a Q je řád modelu. Pokud se modeluje znělá hláska, model se
budí posloupností pulzů u(k) o délce periody základního tónu. Při modelování neznělých
hlásek je buzení naopak provedeno náhodným šumem. Přenosovou funkci modelu H(z)
lze pak zapsat ve tvaru
H(z) =
1+
G
PQ
i=1
aiz −i
.
Pro výpočet LPC koeficientu ai bylo vyvinuto více možných metod výpočtu. Lze je získat
pomocí autokorelační nebo autokovarianční metody. Většinou se při zpracování řeči používá přístup autokorelační. Dále je možné pro výpočet koeficientů ai využít iterativního
Burgova algoritmu nebo algoritmu navrženého Levinsonem a Durbinem. V klasifikačních
úlohách se přímo koeficienty LPC používají jen zřídka, častěji jsou upřednostňovány dále
popsané parametry odvozené z LPC koeficientů.
2.6.8
Kepstrální analýza
Další výraznou skupinou tvoří detektory založené na analýze spektrálních charakteristik
řeči, aproximovaných nejčastěji pomocí kepstrálních koeficientů. Kepstrální detektory řeči
2.6. AKUSTICKÁ ANALÝZA
11
1
0
fmel [mel]
Obrázek 2.4: Melovská banka filtrů
jsou poměrně spolehlivé a hranice použitelnosti pro detekci řeči v zarušeném prostředí je
výrazně nižší než u detektorů energetických.
Kepstrální analýza umožňuje ocenění fonetické struktury řeči, pomocí ní je možné
zjistit, zda je segment řeči znělý či neznělý, periodu budícího signálu, je-li segment znělý,
apod. Dále umožňuje popsat parametry hlasového ústrojí, protože se některé kepstrální
koeficienty mapují na jeho parametry [88]. V důsledku je možné tvrdit, že kepstrální
analýza je předurčena pro úlohy v oblasti zpracování řečového signálu včetně detekce
řečové aktivity.
Základní definice výpočtu kepstrálních koeficientů c [n] ze signálu x [n] je následující
c[n] = Z −1 ln(Z{x[n]},
(2.10)
kde Z{·} je operátor pro z-transformaci. Uvedený vztah však není pro výpočet příliš
praktický. Kepstrální koeficienty dostaneme obvykle náhradou z-transformace za DFT
transformaci
c[n] = IDF T {ln(DF T {x[n]}} .
(2.11)
Tato pravděpodobně nejrozšířenější technika extrakce parametrů signálu je základem robustního VAD spolehlivého i v zašuměných prostředí.
2.6.9
Kepstrální koeficienty LPC
Další možností výpočtu kepstrálních koeficientů je využití LPC koeficientů. K získání
kepstrálních koeficientů je možné postupovat podle následujících vztahů
1
c[0] = ln(α),
2
n−1
1X
c[n] = −an −
(n − k)ak c[n − k],
n
k=1
pro n > 0, přičemž an = 0 pro n ≦ p, kde α je výkon chyby predikce a p je řád autoregresního modelu, an jsou LPC koeficienty a c[n] jsou počítané kepstrální koeficienty.
Takto získané kepstrum má rozdílné vlastnosti od kepstra vypočteného pomocí DCT.
Jelikož LPC koeficienty modelují vyhlazenou spektrální obálku původního signálu, má i
LPC kepstrum vyhlazený charakter, přičemž stupeň vyhlazení závisí na volbě řádu AR
modelu.
12
KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY
Vstupní
signál
Segmentace
váhování
ln
DFT
Spektrum
DCT
Melovská
banka filtrů
Mel-spektrum
Mel-kepstrum
Obrázek 2.5: Výpočet Melovských kepstrálních koeficientů
2.6.10
Mel-frekvenční kepstrální koeficienty
Mel-frekvenční kepstrální koeficienty patří mezi jedny z nejvíce používaných parametrizací. Pro detekci řečové aktivity je prezentovaného jejich použití například v [38]. Jsou
navrženy tak, aby do jisté míry respektovali nelineární vnímání zvuků lidským uchem. Je
totiž známo, že rozlišovací schopnost sluchu nelineárně klesá s rostoucí frekvencí. K tomu
se využívají banky trojúhelníkových pásmových filtrů s lineárním rozložením frekvencí
v tzv. Melovské frekvenční škále, jež je definována vztahem
f
),
(2.12)
700
[mel] je odpovídající frekvence v nelineární
fm = 2595 log10 (1 +
kde f [Hz] je frekvence v lineární škále a fm
Melovské škále.
Celý postup výpočtu mel-kepstrálních koeficientů je znázorněn na obrázku 2.5. Signál je nejdříve segmentován a váhován. Následně je spočítáno spektrum pomocí diskrétní
Fourierovy transformace. Jeho amplitudová část vstupuje do Melovské banky filtrů, která
je tvořena N trojúhelníkovými filtry standardně rozloženými přes celé frekvenční pásmo
od nuly až do Nyquistovy frekvence. Tyto filtry se překrývají o 50% a dosahují maximální jednotkový přenos v polovině intervalu. Logaritmováním mel-spektra a inverzní
Fourierovou transformací dostáváme Melovské kepstrální koeficienty. Jelikož pracujeme
s nezáporným reálným mel-spektrem, je možné ukázat, že Fourierovu transformaci lze
nahradit výpočetně méně náročnou diskrétní kosinovou transformací. Označíme-li logaritmus Melovského spektra jako
(2.13)
mel[k] = ln(Xmel [k]),
můžeme psát
ci =
r
N
2 X
πi
mel[j]cos
(j − 0, 5) ,
N j=1
N
i = 1 . . . Nc ,
(2.14)
kde Nc je počet požadovaných mel-kepstrálních koeficientu.
2.6.11
Perceptivně lineární prediktivní analýza
Perceptivní lineární analýza se podobně jako Melovské kepstrální koeficienty snaží o popis
spektrálních vlastností řečového signálu tak, aby lépe korespondoval ke způsobu, kterým
slyší řečové zvuky člověk. To se dosahuje respektováním způsobu zpracování signálu lidským sluchem. Zohledňuje se několik základních faktorů.
2.6. AKUSTICKÁ ANALÝZA
13
Jednou z vlastností sluchu je, že jeho spektrální rozlišení klesá s rostoucí frekvencí.
Dále platí, že je nejcitlivější uprostřed slyšitelného frekvenčního pásma. Vnímání zvuku je
též ovlivněno tzv. maskováním zvuků, přičemž velikost šířky pásma se mění s frekvencí. Při
výpočtu PLP parametrizace je vstupní signál nejprve segmentován a váhován, vypočteno
výkonové spektrum P (ω), a dále se modelují uvedené jevy pomocí nelineární transformace
původní osy frekvencí ω [rad/s] do Barkovy frekvenční stupnice Ω(ω) [bark] podle vztahu
!
r
ω
ω 2
Ω(ω) = 6 ln
+
+1 ,
(2.15)
1200π
1200π
kde ω = 2πf a f je frekvence v Hz, a dále konstrukcí maskujících křivek, které simulují
kritická pásma slyšení podle vztahů

0




 102,5(Ω+0.5)
Ψ(Ω) =
1


10(0.5−Ω)



0
pro
Ω
pro −1, 3 ≤ Ω
pro −0, 5 < Ω
pro
0, 5 ≤ Ω
pro
Ω
< −1, 3
≤ −0, 5
<
0, 5
≤
2, 5
>
2, 5 .
(2.16)
Vlivem konvoluce výkonového spektra s funkcí Ψ(Ω) dojde ke snížení frekvenčního
rozlišení spektra, což umožňuje zmenšit počet spektrálních čar, aniž by došlo ke ztrátě
informace ve spektru [26].
Dále PLP parametrizace reflektuje nestejnou citlivost sluchu na různých frekvencích.
Tento jev je popsán tzv. křivkami konstantní hlasitosti E(ω), které jsou dány následujícím
vztahem odvozeným pro hladinu hlasitosti 40 Ph
E(ω) =
ω4 (ω2 + 56, 9 · 106 )
,
(ω2 + 6, 3 · 106 )2 (ω2 + 379, 4 · 106 )(ω6 + 9, 6 · 1026 )
fs > 10kHz
Tento vztah platí pro vzorkovací kmitočet fs nad 10 kHz, což je případ všech provedených
experimentů.
Poslední uvažovaná vlastnost sluchu je nelineární vnímání hlasitosti v závislosti na
intenzitě zvuku. Ta je aproximovaná pomocí třetí odmocniny spektra a výsledná hodnota
spektrálních PLP koeficientů Φ(Ω) je dána následujícím vztahem
Φ(Ω) = (E(ω)Ψ[Ω(ω)])0,33 .
Pro zlepšení vlastností PLP parametrizace se provádí její převod do kepstrálního
tvaru. Nejprve následuje přepočet pomocí inverzní diskrétní Fourierovy transformace.
Získáné autokorelační koeficienty jsou dále převedeny pomocí lineárního prediktivního
kódování na LPC koeficienty. Ty jsou nakonec transformovány do kepstrálních PLP koeficientů.
2.6.12
Metoda RASTA-PLP
PLP RASTA parametrizační koeficienty (RelAtive SpecTrA) [27, 59] byly navrženy jako
parametrizace, která zajišťuje ve většině případů ještě větší úspěšnost v oblasti rozpoznávání řeči než PLP koeficienty. Pro úlohu detekce řečové aktivity bylo prezentováno
14
KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY
jejich použití v [21]. Zde je VAD součástí systému pro rozpoznávání řeči a chybí jeho
samostatné vyhodnocení.
Tato parametrizace využívá skutečnosti, že sluchové ústrojí člověka vykazuje jistou
necitlivost na pomalu se měnící podněty. Základní myšlenkou metody RASTA je proto
předpoklad, že rychlost změn neřečových složek promluvy leží vně oblasti typických změn
rychlosti pohybu hlasového ústrojí. RASTA je proto navržena tak, aby potlačovala spektrální složky, které se mění pomaleji nebo rychleji, než je typická rychlost změn řeči.
Metoda RASTA byla navržená jako nadstavba parametrizační metody PLP pro aplikace v prostředí, kde dochází ke zkreslení řečového signálu přenosovým kanálem, popř.
pro aplikace v prostředí s aditivním šumem. Při výpočtu RASTA koeficientů se nejprve
postupuje jako při výpočtu PLP koeficientů, které jsou popsány v předchozí kapitole, tj.
nejprve je lineární frekvenční osa výkonového spektra převedena do Barkovy frekvenční
stupnice a následně je provedena konvoluce spektra s již popsanou křivkou Ψ(Ω). Následně se postup výpočtu liší. Je provedena komprese spektra pomocí statické nelineární
transformace popsané následující rovnicí
y = ln(1 + Jx),
(2.17)
kde J je na signálu závislá kladná konstanta. Následně je proveden krok, který je jádrem
RASTA. Časový vývoj každé spektrální komponenty frekvenčního kanálu je filtrován speciální pásmovou propustí. Tím dojde k tomu, že nový spektrální odhad každého segmentu
je méně citlivý na pomalé změny ve spektru signálu. Dále je provedena zpětná expanze
filtrovaného spektra pomocí inverzní nelineární transformace popsané rovnicí
ex
,
(2.18)
J
kde e je základ přirozeného logaritmu. Zbytek výpočtu je shodný s parametrizací PLP,
tj. je uplatněn vztah vyjadřující závislost mezi intenzitou zvuku a vnímanou hlasitostí a
následnou aproximací spektrem celo-pólového modelu jsou získány spektrální koeficienty
RASTA. Ty jsou pak stejným způsobem jako u PLP převedeny na kepstrální koeficienty
RASTA.
x=
2.6.13
Delta a akcelerační koeficienty
Úspěšnost klasifikace může být zvýšena, když jsou přidány koeficienty dynamické, tj.
delta dt a akcelerační at (delta-delta) koeficienty k základním statickým vícerozměrným
vektorům parametrizačních koeficientů. To znamená, že daný segment řeči není popsán jen
příslušnými koeficienty, ale i parametry, které charakterizují dynamiku (derivaci) časových
změn hodnot parametrizačních koeficientů segmentu.
Delta koeficienty
Delta koeficienty dt jsou vypočteny podle [97]
dt =
PΘ
θ(ct+θ − ct−θ )
,
P
2 Θ
θ=1 θ2
θ=1
(2.19)
kde ct+θ , ct−θ jsou koeficienty příslušné parametrizace v čase t, z kterých je výpočet
proveden. Počet použitých okolních koeficientů je omezen pomocí delta okénka Θ. Obvykle
bývá zvolena hodnota 1.
2.7. KLASIFIKACE
15
Akcelerační koeficienty
Charakterizují dynamiku delta koeficientů a jejich výpočet je analogický rovnici (2.19)
s tím rozdílem, že místo delta koeficientů příslušné parametrizace se použijí delta koeficienty
at =
2.6.14
PΘ
Srovnání parametrů
θ(dt+θ − dt−θ )
.
P
2 Θ
θ=1 d2
θ=1
(2.20)
Veškeré uvedené parametry řeči výborně rozlišují znělé úseky řeči, naopak mají problémy
s neznělými úseky. Důvodem jsou podobné charakteristiky neznělých úseků řeči a šumu.
Díky své jednoduchosti jsou nejpoužívanější detektory používající krátkodobou energii
nebo počet průchodů nulou. Ty jsou velmi rozšířené v telekomunikacích. Pro náročnější
aplikace, ve kterých je vyžadována větší robustnost, však již nestačí. V zašuměném prostředí selhávají. Periodicita pomáhá detekovat periodické složky signálu, především znělé
hlásky. Detektory pak pracují spolehlivě v přítomnosti bílého a impulsního šumu, jsou ale
citlivé na přítomnost periodického rušení. Entropicky založené detektory řečové aktivity
pracují v některých prostředích lépe než detektory energické. Jde především o prostředí
s nestacionárním šumem nebo mechanickými zvuky. Naopak selhávají za přítomnosti hudebního šumu. Kepstrální detektory mají pravděpodobně největší potenciál, a to zvláště
pro případy, kdy se využívají znalosti o vnímání řeči lidským sluchem. Dříve byla jejich
hlavní nevýhoda výpočetní náročnost, nicméně s rostoucím výkonem současných procesorů tato nevýhoda pozbývá na významu.
2.7
Klasifikace
Druhým principiálním blokem algoritmu detekce řečové aktivity je klasifikace na základě
některých výše zmíněných akustických parametrů. V tichém prostředí a zejména při použití jednotlivých akustických příznaků jako je energie či kepstrální vzdálenost se užívají
nejčastěji jednoduché heuristické klasifikační algoritmy na bázi adaptivního či fixního prahování a dosahují akceptovatelné přesnosti detekce. Druhou skupinu pak tvoří algoritmy
vycházející z teorie rozpoznávání, které využívají klasifikační metody na bázi statického
modelování nebo strojového učení; tj. Markovovské modely, neuronové sítě, diskriminační
analýza 4 , či SVM 5 . Obecně by se dalo říci, že jsou hledány taková rozhodovací pravidla,
která nejvíce zlepšují úspěšnost detekce řečové aktivity. V další části textu jsou uvedeny
klasifikační metody s odkazy na literaturu, ve které je uvedená metoda využita pro detekci
řečové aktivity.
2.7.1
Detektory řeči založené na prahování
Detektory využívající prahování rozhodují o absenci nebo přítomnosti řeči na základě srovnávání hodnot parametrů segmentů s prahovou hodnotou, tj. prahem. Hodnota prahu je
většinou získávána různými heuristickými postupy, které jsou již dlouhodobě spolehlivé a
4
5
discriminant analysis
Support Vector Machines
16
KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY
experimentálně ověřené. Hlavní výhodou je, že uživatel má plnou kontrolu nad rozhodováním, protože rozhoduje pouze nad pravidly, jejichž význam je zřejmý, a tím je zřejmý i
primární důsledek případné změny nastavení. Naopak nevýhodou je, že nacházení prahu
může být velmi složité, a to zvláště v případech, kdy je k dispozici rozsáhlá množina
parametrů signálu.
Obecný postup detekce přítomnosti řeči pomocí prahování by se dal rozdělit do několika standardních kroků. Nejprve je řečový signál předzpracován a rozdělen do vzájemně
se přesahujících mikrosegmentů. Dále je pro každý mikrosegment vypočítáván vektor parametrů, na jejichž základě je pak vypočtena hodnota prahu. V následujícím kroku je
vypočtena vzdálenost mezi prahem a aktuálním vektorem parametrů pomocí vhodné metriky, například kepstrální vzdálenosti. Rozhodnutí o přítomnosti řeči je provedeno na
základě vypočtené vzdálenosti z předchozího kroku. V závěrečném kroku většinou proběhne vyhlazení, které odstraňuje případné chybné zákmity prvotní klasifikace.
Pro funkčnost a výslednou spolehlivost detektoru je v takovémto způsobu klasifikace
klíčový postup nastavení prahu, což může být provedeno mnoha různými způsoby. Zde
jsou uvedeny dva základní – buď je práh nastaven fixně nebo je jeho hodnota adaptivně
přizpůsobována na základě průběhu detekce.
V prvním případě bude hodnota prahu konstantní v průběhu detekce řečí celého signálu. Tato hodnota musí být nastavena ze všech vektorů parametrů, a proto nemůže být
prováděna on-line detekce. To je asi největší nevýhoda tohoto způsobu prahování. Výhodou je naopak nepatrně větší přesnost při srovnání s adaptivním prahováním. Pro výpočet
fixního prahu se používá následující výpočet. Nejprve se vybere a procent nejnižších a b
procent nejvyšších hodnot, ze kterých se následně vypočítají střední hodnoty µa a µb .
Tyto hodnoty určují dynamické rozpětí. Výsledný práh se pak vypočte takto
T hr = l(µb − µa ) + µa ,
(2.21)
kde l musí být v rozsahu 0 až 1.
Druhý způsob adaptivního prahování umožňuje on-line detekci. Princip detekce spočívá v tom, že se hodnota prahu aktualizuje v průběhu detekce. Pro aktualizaci prahu se
nejčastěji využívá dvou následujících algoritmů
• blokový odhad - hodnota prahu je vždy aktualizována pouze z několika posledních
vektorů parametrů. Předcházejí vektory nejsou použity. Aktualizace probíhá podle
následujícího vzorce
T hr = µd + zα/2 σd2 ,
(2.22)
kde µd je střední hodnota, σd2 je rozptyl vypočtený z bloku vektorů parametrů d a
zα/2 je empiricky zjišťovaná konstanta.
• průběžný odhad - hodnota prahu je odhadována ze všech předcházejících hodnot,
přičemž starší vektory parametrů mají menší váhu pro aktuální hodnotu prahu.
Výpočet prahu vychází z předpisu pro blokový odhad, tj. rovnice 2.22. Rozdíl je
v tom, že střední hodnota a rozptyl jsou nahrazeny jejich odhady µ̂, σˆ2 , které se
počítají podle následujícího postupu
µ̂d = q · µd + (1 − q)di ,
µ̂d2 = q · µd2 + (1 − q)d2i ,
σ̂d2 = µ̂d2 − µ̂2d .
(2.23)
(2.24)
(2.25)
2.7. KLASIFIKACE
2.7.2
17
LDA6
Použití LDA pro detekci řečové aktivity je možno nalézt například v [38], kde je využita
lineární diskriminační funkce pro diskriminaci vektorů MFCC.
LDA je metoda používaná ve statistice, slouží k nalezení takové lineární kombinace
vektorů parametrů, která nejlépe separuje dvě nebo více tříd. Výsledná kombinace může
být použita budˇ jako lineární klasifikátor, nebo častěji ke snížení dimenze vektorů parametrů.
Parametrický klasifikátor předpokládá známost tvaru pravděpodobnostních charakteristik jednotlivých tříd. Obráceně neparametrický klasifikátor nepředpokládá žádnou
apriorní znalost o pravděpodobnostním rozdělení dat. LDA patří mezi parametrické metody klasifikace a předpokládá normální (Gaussovské) rozdělení dat. V případě, že rozdělení není normální, diskriminační analýza dosahuje stále robustní klasifikace, ale pouze za
předpokladu, že datová množina neobsahuje žádné významné rysy [71].
2.7.3
LRT
Objevují se také publikace, ve kterých je popsáno využití algoritmů vycházejících z LRT7 .
[22, 14, 11, 17, 72]. Neznámé parametry jsou odhadovány pomocí ML kritéria8 . Podrobné
odvození tohoto algoritmu lze najít v publikacích [72, 15], základní myšlenky jsou pak
shrnuty v následujícím odstavci.
Algoritmus předpokládá, že je řeč degradována nekorelovaným aditivním šumem. Pro
každý segment jsou uvažovány dvě hypotézy
H0 :
X =N
signál obsahuje pouze řeč,
H1 : X =N + S signál obsahuje řeč a šum,
kde S, N a X jsou L-dimenzionální DFT koeficienty řeči, šumu a zašuměné řeči. Každý
z vektorů obsahuje Sk , N k a Xk prvků. Předpokládá se, že DFT koeficienty lze modelovat pomocí vícerozměrných normálních rozložení p(X|H0 ) a p(X|H1 ) [72]. Rozhodnutí
o přítomnosti řeči je pak provedeno na základě srovnání věrohodnostní funkce s empiricky
získaným prahem η,
H1
logΛ = ≷ η,
H0
kde pro k-tou frekvenční složku platí
△
Λ(k) =
p(X(k)|H1 )
.
p(X(k)|H0 )
(2.26)
A dále
v
uL−1
uY
L
Λ(k).
Λ= t
k=0
Uvedený algoritmus umožňuje konstrukci statistiky založeného detektoru řeči, který
dosahuje lepších výsledků zvláště u signálů s nízkým SNR.
Linear Discriminant Analysis
Likelihood Ratio Test
8
Maximum Likelihood criterion
6
7
18
KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY
2.7.4
Neuronové sítě
Podobně jako diskriminační analýza, i neuronové sítě a SVM představují parametrické
klasifikátory. Neuronové sítě se skládají z jednotek nazývané neurony, které mají na
vstupu několik signálů a na výstupu generují hodnotu, která se transformuje pomocí
přenosové funkce. Například skoková přenosová funkce generuje hodnotu 1 pokud vážená
suma vstupů je nad prahovou hodnotou. Neurony jsou vzájemně propojeny a navzájem si
předávají signály a transformují je pomocí různých přenosových funkcí. Pro výpočet parametrů neuronových sítí existují různé trénovací algoritmy - asi nejznámější je algoritmus
zpětného šíření 9 .
V článku [34] je pro detekci řečové aktivity používán vícevrstevný perceptron, který
je natrénován pomocí algoritmu zpětného šíření. Algoritmus zpětného šíření má několik
nevýhod. Natrénování neuronové sítě trvá poměrně dlouho, jelikož algoritmus pomalu konverguje. Další nevýhodou je problém s lokálním minimem. Proto byly navrženy rychlejší
a sofistikovanější algoritmy, například Levenberg-Marquadtův algoritmus. V článku [69]
je pro detekci řečové aktivity využit Levenberg-Marquadtův algoritmus. Nicméně chybí
srovnání s VAD, který by použil algoritmus zpětného šíření. V obou případech dosahují
neuronové sítě dobrých výsledků, zvláště u silně zarušeného signálu (SNR = 10dB).
2.7.5
SVM10
SVM využívají trénovací data k nalezní optimální nadplochy, která separuje jednotlivé
třídy. Optimální nadplocha maximalizuje vzdálenost mezi sebou a trénovacími daty jednotlivých tříd. Klasifikátor tak dosahuje zlepšení schopnosti generalizace. Nadplocha pak
může být použita ke klasifikaci neznámých vstupních dat, tj. jejich zařazení do příslušných
tříd. Pokud data nejsou lineárně separovatelná, pak je nutné je transformovat do vyšší
dimenze, ve které jsou lineárně oddělitelná. Někdy je možné vyhnout se transformaci do
vyšší dimenze tím, že data přepočítáme pomocí dané speciální funkce.
SVM byly využity v celé řadě klasifikačních problémů, kde dosáhly výborných výsledků. O jejich využití pro binární klasifikační problém, jako je detekce řečové aktivity,
se zmiňují například publikace [64, 13]. Podle článku [13] dosahují VAD se SVM lepších
výsledků než jednoduchý energetický detektor, zvláště u zašuměného signálu. V některých
případech bylo dosaženo lepších výsledků než u VAD využívající GMM [13].
2.7.6
Směs Gaussovských hustotních funkcí
Možnost modelování signálu pomocí směsi Gaussovských hustotních funkcí – GMM11 se
často využívá u různých detektorů řečové aktivity založených, většinou založených na
Bayesovských metodách klasifikace. S detektory řečové aktivity využívající tento princip
se můžeme setkat například v publikacích [46, 82]. Podle publikace [46] překonává GMM
VAD standardní detektory řečové aktivity jako G.729B nebo AMR VAD.
back-propagation
Support Vector Machines
11
Gaussian Mixture Models
9
10
2.8. REFERENČNÍ DETEKTORY ŘEČOVÉ AKTIVITY
2.7.7
19
Skryté Markovovy modely
Pro detekci řečové aktivity jsou vhodné také statistické klasifikační algoritmy jako jsou
například skryté Markovovy modely – HMM12 . Skryté Markovovy modely nejsou schopny
klasifikovat samostatný vektor parametrů. Pravděpodobnost, že současný vektor patří do
jedné konkrétní třídy závisí na pravděpodobnosti přechodu z předchozího do aktuálního
stavu modelu a pravděpodobnosti, že aktuální vektor parametrů přísluší do přiřazované
třídy.
Většina algoritmů detekce přítomnosti řeči předpokládá, že je šum stacionární v delších úsecích, než je tomu u řeči. Tento předpoklad umožňuje vystihnout charakteristiky
měnícího se šumu, a to i v případě občasného výskytu řeči [72]. Ovšem často je šum nestacionární a mění se jeho statistické parametry. Pro modelování nestacionárních procesů
je možné využít skryté Markovovy modely. Stacionární šum lze modelovat pomocí HMM,
který obsahuje pouze jeden stav, naopak nestacionární šum vystihuje lépe vícestavový
model, kde jsou změny charakteristik šumového signálu modelovány konečným počtem
stacionárních stavů [85]. Tyto úvahy vedou k využití HMM pro detekci řečové aktivity.
Poměrně často se můžeme setkat s HMM šumu při rozpoznávání řeči, kde slouží k oddělení dlouhých, či krátkých mezer. Využití tohoto modelu vede k celkovému zlepšení
rozpoznávání řeči. Prezentace využití HMM přímo pro detekci řečové aktivity lze najít
například v článku [45]. Zde je základem dvoustavový model, kde první stav přísluší řeči a
druhý šumu. Algoritmus předpokládá, že úvodní segment signálu je šum, což je velmi častý
předpoklad i u ostatních algoritmů. Dále adaptuje parametry HMM v průběhu detekce
řeči. Byly dosaženy výsledky lepší, než u standardního detektoru G.729 [5].
2.8
Referenční detektory řečové aktivity
Některé detektory řečové aktivity jsou dnes již poměrně běžnou záležitostí. Je známá jejich
přesnost v daném prostředí, a proto jsou často používány jako referenční. Do této skupiny
patří vyjma energetického detektoru, také detektor kepstrální či detektor řečové aktivity
dle doporučení G.729, navržený a optimalizovaný pro práci s řečovým kodekem ITU-T
G.729 8 kbit/s CS-ACELP pro přenos hovorového signálu telekomunikačním kanálem.
V této sekci jsou vlastnosti těchto detektorů podrobněji popsány.
2.8.1
Kepstrální detektor
Zmiňovaný detektor využívá vlastností kepstrálních koeficientů, popsaných v předešlé
sekci 2.6.8, díky kterým funguje tento detektor i v relativně rušnějším prostředí, a to
bez použití sofistikovanější metody klasifikace. Jako klasifikační algoritmus se používají
různé metody prahování zmíněné v sekci 2.7.1. Využitý algoritmus detekce řečové aktivity
by se dal shrnout do následujícího blokového schématu 2.6. Všechny bloky jsou popsány
v následujících odstavcích.
Segmentace a výpočet kepstra
Vzhledem k nestacionárnímu charakteru řeči, je nutné signál předem segmentovat na
kratší úseky o délce maximálně 40 ms. Je vybrán vhodný typ okna, které má dostatečně
utlumené postranní laloky. Na druhé straně je potřeba frekvenční rozlišení. Je potřeba
12
Hidden Markov Models
20
KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY
segmentace,
vahování
výpočet
kepstra
derivace
prahování
detekce
kumulativní
součet
Obrázek 2.6: Algoritmus kepstrálního VAD
okno s malou šířku hlavního laloku. Kompromisem mezi těmito protichůdnými požadavky
je Hammingovo okno, které je i nejpoužívanější. Pro toto okno je typicky požívaný překryv
50 procent.
Dalším krokem je výpočet reálného kepstra z vybraných segmentů, přičemž výpočet
může probíhat buď přes LPC kepstrální koeficienty (AR kepstrum) nebo pomocí DFT.
Kepstra mají rozdílné vlastnosti. AR kepstrum má na rozdíl od DFT kepstra “vyhlazený”
charakter. Stupeň vyhlazení závisí na volbě řádu AR modelu. Čím více detailů spektra
chceme modelovat, tím větší řád volíme. Podle [74] je možné dosáhnout výrazně lepšího
frekvenčního rozlišení ve srovnání s odhady na bázi DFT.
Výpočet kepstrálních vzdáleností
Nejčastěji se vyhodnocují vzdálenosti mezi dvěma sousedními segmenty. V takovém případě se jedná o tzv. diferenciální kepstrální detektor [73]. Derivováním kepstra můžeme
vystihnout dynamické chování signálu. V řeči jsou ale obsaženy také úseky se spektrem
konstantního charakteru (hlavně dlouhé znělé hlásky), a jelikož derivace konstanty je rovna
nule, je i v kepstrálním prostoru derivace “nulová”. V praxi to znamená, že máme schopnost
detekovat pouze začátky a konce slov [73]. Abychom postihli celá slova je nutné derivované
kepstrální koeficienty “integrovat” zpět. Proto hned za blokem derivace následuje operace
kumulativní součet. Avšak podle článku [73] tímto procesem dochází k vytvoření chyb,
které mírně degradují potenciál kepstrálního VAD. Výsledná vzdálenostní míra se získá
sečtením hodnot všech kepstrálních koeficientů daného segmentu.
Prahování a vyhlazování
Přiřazení příslušné třídy pro každý segment probíhá pomocí prahování, přičemž práh
může být buď statický nebo se jeho hodnota dynamicky aktualizuje. Po ukončení prahování jsou známé třídy jednotlivých segmentů. Nicméně jsou zde obsaženy i rychlé změny
detekovaných tříd - zákmity, které jsou většinou chybné. Uvedené chyby lze řešit poměrně
jednoduchým způsobem - provedením vyhlazení. Proces vyhlazení může být uskutečněn
například pomocí mediánové filtrace. Při filtraci je prohlídnuto okolí prvku, kterému je
přiřazena nejčastěji se vyskytující hodnota.
2.8.2
ITU-T G.729b VAD
Mezinárodní telekomunikační unie (ITU) vydala doporučení G.729b pro algoritmus detekce řeči [5]. Algoritmus VAD G.729b je navržen a optimalizován pro práci s řečovým
2.8. REFERENČNÍ DETEKTORY ŘEČOVÉ AKTIVITY
21
kodekem ITU-T G.729 8 kbit/s CS-ACELP, který je využíván pro přenos hovorové signálu
[29]. Tento algoritmus je navržen tak, aby při přenosu hovoru bylo zahozeno co možná
nejmenší množství řečových segmentů, a je používán jako referenční v mnoha výzkumných
publikacích.
Na obrázku 2.3 je znázorněno funkční schéma detektoru. Ze vstupního signálu jsou
nejprve získány vektory parametrů, ze kterých je následně získána vzdálenostní míra. Rozhodnutí o přítomnosti řeči (primární rozhodnutí) je získáno pomocí lineární rozhodovací
funkce. Sekundární rozhodnutí je zjednodušené a v případě, kdy je detekován šum, slouží
k aktualizaci parametrů detektoru.
Start
Extrakce vektorů parametrů
Výpočet vzdálenostních parametrů
Primární rozhodnutí
Rozhodnutí
Vyhlazení rozhodnutí
Sekundární rozhodnutí
Šum
Řeč
Aktualizace parametrů šumu
Konec
Obrázek 2.7: Struktura G729 VAD
Extrakce vektoru parametrů
Ze vstupního signálu je nejprve odstraněna stejnosměrná složka pomocí horní propusti
s hraničním kmitočtem 140 Hz. Signál je dále rozdělen do 30 milisekundových segmentů
s 2/3-ovým přesahem. Výběrové okénko se skládá ze dvou částí: první polovinu tvoří Hammingovo okno a druhou polovinu představuje čtvrtinu kosinové funkce.
Z každého segmentu jsou získány čtyři typy parametrů: energie z celého spektra (0 – 4
kHz), nízko frekvenční energie (0–1 kHz), počet průchodů nul (ZCR) a LSF13 koeficienty.
Rozhodování
VAD G.729 rozhoduje o přítomnosti řeči ve dvou fázích. V první fázi je rozhodnuto o přítomnosti řeči pomoci lineárních prahových funkcí, které rozdělují 4-dimenzionální vektory
příznaků na řečové a šumové regiony. Dohromady je vytvořeno 14 3-dimenzionálních segmentů. Jejich tvar byl určen a navržen pomocí vizuální analýzy [5].
13
Line Spectral Frequencies
22
KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY
Sekundární rozhodnutí rozhoduje o adaptaci parametrů detektoru, které jsou získávány průměrováním šumu na pozadí. Tyto parametry jsou aktualizovány pouze v případě,
kdy je detekován neřečový segment. Rozhodnutí je jednoduší a je založeno na srovnávání
rozdílů parametrů energie z celého spektra. K aktualizaci dojde pouze při malé změně
energie. Aktualizace je prováděna pomocí autoregresního (AR) modelu prvního řádu, přičemž pro rozdílné typy parametrů jsou použity různé AR koeficienty. Jiné koeficienty
jsou použity také v případech, kdy jsou detekovány rozsáhlejší změny šumového pozadí
[30]. Nicméně v případech, kdy se zvyšuje podíl šumu ve zpracovávaném signálu, může
nastat situace, že se algoritmus zasekne a detekuje pouze řeč. Aby toto nenastalo, jsou
implementovány restartovací mechanismy [5].
Předtím než začne detektor spolehlivě rozpoznávat přítomnost řeči, musí být inicializovány jeho parametry. Pro inicializaci VAD G.729 je potřeba prvních 32 segmentů, které
můžou být i řečové. V průběhu inicializace je rozhodováno pouze s využitím parametru
energie z celého spektra. Pokud energie překročí určitou úroveň, je segment označen jako
řeč, v opačném případě je segment označen jako šum.
Vyhlazení
Vektor, obsahující rozhodnutí o přítomnosti řeči, je vyhlazen pomocí čtyř heuristicky
zjištěných pravidel [5]
• Označení jako řeč – Současný segment je označen jako řeč, pokud je předchozí
segment označen jako řeč a současně je energie segmentu nad daným prahem.
• Označení jako řeč – Současný segment je označen jako řeč, pokud jsou předchozí
dva segmenty označeny jako řeč a současně je rozdíl energie mezi současným a
předchozím segmentem menší než daná prahová hodnota.
• Označení jako šum – Současný segment je označen jako šum, pokud je předchozích
10 segmentů označeno jako šum a současně je rozdíl energie mezi současným a
předchozím segmentem menší než daná prahová hodnota.
• Označení jako šum – Současný řečový segment je označen jako šumový pokud je
jeho energie menší než daná prahová hodnota a současně nebyl proveden krok 1
nebo krok 2.
Vylepšení podle dodatku III
Podle [29] bylo u detektoru VAD G.729 pozorováno několik nedostatků: časté selhání
v průběhu klasifikace u úvodních částech signálu s nízkým SNR nebo výrazné zpomalení detekce řeči u silně zarušených signálů. Tyto nedostatky jsou vyřešeny specifikacemi
uvedenými v tomto dodatku, které pouze upravují parametry detektoru ovlivňující sekundární rozhodnutí.
Kapitola 3
Cíle práce, motivace
3.1
Motivace
Hlavní motivací této práce je prostudovat a srovnat algoritmy detekce řečové aktivity. V tichém prostředí je úloha detekce řeči jednoduchá a je dosahováno velmi dobrých výsledků.
Bohužel v hlučném prostředí jde o úlohu, která dosud nebyla uspokojivě vyřešena a je
zde prostor pro vylepšení stávajících postupů, či vývoj nových algoritmů. V následujících
bodech jsou rozebrány vlastnosti VAD, jejichž vylepšení není jednoduché. Další motivací
této práce je prostudovat možnosti vylepšení VAD v těchto problematických oblastech.
• Schopnost přesného určení hraničních bodů promluvy je asi nejdůležitější vlastností
detektorů řečové aktivity. Při vysokém odstupu signálu od šumu a pečlivé artikulaci
lze nalézt hraniční body promluvy poměrně přesně, nicméně tato přesnost je ovlivněna akustickým pozadím, rušením, či nedokonalou artikulací. Obecně lze říci, že je
velmi obtížné přesně definovat začátek a konec promluvy v případech, kdy jsou na
začátku či konci promluvy neznělé okluzivy (p, t, k) nebo slabé neznělé frikativy (f,
s, š, ch). Problémy způsobují také znělé okluzivy (b, d, k), znělé frikativy (v, z, ž,
h) a nosní souhlásky (m, n, ň) na konci promluvy [59].
• Jedním z důležitých problémů je snížení přesnosti detektoru řečové aktivity v rušném
prostředí, například v kanceláři, v jedoucím automobilu, na ulici nebo v technologických prostorech. Důvodem tohoto zhoršení je nízké SNR prostředí. Detekce řeči
se zdá téměř nemožná za okolností, kdy je řeč utopená v okolním šumu. Někdy je
šum tak silný, že ani člověk není schopen rozlišit řeč v přítomném hluku. Řešením
této problematiky se zabývá robustní klasifikace řeči, která je středem zájmu mnoha
vědeckých pracovišť. Robustní klasifikátor funguje nejen v tichém, ale i v rušném
prostředí. Jedna z možných definic robustního VAD by mohla znít takto: “VAD je
robustní, jestliže dosahuje v rušném prostředí stejně kvalitní rozhodnutí, jako v tichém prostředí”. Znamená to, že bude stejně klasifikovat čistou i zarušenou řeč. Existuje mnoho různých způsobů robustní klasifikace. V tomto procesu není jednoduché
správně detekovat šum a současně zabránit chybné detekci částí řeči. Například detektor, který by veškerý řečový signál označil jako šum, by dosáhl nejlepší možné
úspěšnosti v detekci šumu, byl by ovšem nepoužitelný. Při nastavování detektorů je
často nutné volit kompromis mezi správnou detekcí řeči a správnou detekcí šumu.
• Dalším aspektem algoritmu VAD je jeho možnost využití v aplikacích fungujících
v reálném čase. Například u VAD využívající prahování energie řečového signálu
23
24
KAPITOLA 3. CÍLE PRÁCE, MOTIVACE
toto není problém, bohužel však tento algoritmus není robustní. Naopak robustní
algoritmy mohou být výpočetně velmi náročné a jejich využití v reálných aplikacích je omezené. Úkolem je nalezní kompromisu mezi robustností algoritmu a jeho
výpočetní náročností.
• Důležitou vlastností VAD je také možnost jejich skutečné realizace a využití. Některé postupy detekce řečové aktivity dosahují poměrně přesné a robustní výsledky,
nicméně v případě, že je použitý algoritmus příliš složitý, může složitost implementace zabránit jeho rozšíření. Naopak jednoduše implementovatelné detektory řečové
aktivity se můžou velmi rychlé rozšířit, i když jejich výstup není příliš robustní,
typickým příkladem je rozšířenost jednoduchého energetického VAD.
• Pro skutečné aplikace je důležitá nezávislost detekce řečové aktivity nejen na rušném prostředí, ale i na dalších aspektech promluvy nebo nastavení a vlastnostech
detektoru řečové aktivity. Detektor by neměl být závislý na mluvčím, či samotném
obsahu dialogu. Stejně tak by VAD neměl záviset na nějakém konkrétním šumu a měl
by fungovat při libovolném vstupu. Měl by poskytovat stabilní výstup v nejrůznějších podmínkách, přičemž by za stejných okolností mělo být dosaženo srovnatelných
výsledků. Určitým ospravedlním případné závislosti by mohla být větší úspěšnost
detektoru za daných podmínek.
3.2
Vlastní cíle práce
Na základě diskutovaných skutečností v předchozích částech jsem si stanovil následující
cíle mé práce
• Analyzovat možnosti využití Gaussovských směsových modelů pro úlohu detekce
řečové aktivity a navrhnout detektory řečové aktivity na jejich bázi.
• Nalézt způsoby využití skrytých Markovovských modelů pro detekci řečové aktivity
a navrhnout detektory řečové aktivity na jejich bázi. Teorie skrytých Markovovských
modelů zpřístupňuje poměrně široké možnosti, jak k dané úloze přistupovat a jak ji
vhodně vyřešit.
• Optimalizovat nastavení navržených detektorů řečové aktivity. Nastavení detektorů řečové aktivity může podstatně ovlivnit výslednou přesnost detekce řečových
nebo neřečových úseků. Ovlivňuje také robustnost a úspěšnost v různých prostředí.
Výsledně je možné jednoduchou úpravou nastavení získat detektor řečové aktivity
vhodný pro různé aplikace v reálném prostředí.
• Pro řešenou úlohu existují již delší dobu poměrně běžně používané algoritmy a
nástroje. Aby bylo možné dokázat přínos této práce, je nutné objektivně srovnat
navržené detektory s běžně používanými VAD.
• Jedním z důvodů pro zkoumání nových přístupů k detekci řečové aktivity je snaha
o získání robustního VAD. Proto je nutné provést analýzu spolehlivosti detektorů
řečové aktivity v různém prostředí a za různých podmínek. Pomocí této analýzy je
možné vyhodnotit nejen robustnost VAD, ale také určit výsledné možnosti uplatnění
navrženého algoritmu.
3.3. OBSAH PRÁCE
25
• Jelikož účelem této práce je též vzájemně objektivně srovnat přesnost prezentovaných VAD s běžně používanými VAD, bylo nutné získat, či vytvořit nástroje,
které by to umožnily. Proto je nutné vytvořit platformu pro objektivní zhodnocení
detektorů řečové aktivity.
• Na řečovou databázi určenou pro experimenty s detektory řečové aktivity jsou kladeny některé specifické požadavky, které bohužel nesplňovala žádná s dostupných
databází primárně určených pro úlohy v rozpoznávání řeči. Bylo tedy nutné vytvořit
databázi pro detekci řečové aktivity.
3.3
Obsah práce
V této kapitole byly stručně zmíněny základní problémy, které se mohou naskytnou při
automatické detekci řečové aktivity, a nastíněné směřování výzkumu, které by mělo vést
k důkladnější analýze a k řešení problému pomocí skrytých Markovových modelů. V následujícím textu budou podrobně prezentovány výsledky této práce, které jsou rozčleněny
do kapitol s následujícím obsahem.
V předchozí kapitole 2 byla definovaná úloha detekce řečové aktivity, popsány typické
přístupy k řešení problému a podrobně popsán současný stav problematiky. V kapitole
byly také uvedeny základní termíny a principy, které jsou používány ve zbytku této práce.
Ve 4. kapitole bude popsána platforma, která byla vytvořená a následně využita pro
provedení prezentovaných experimentů. Součástí této kapitoly je také popis kritérií a implementovaných nástrojů určených pro objektivní zhodnocení a srovnání detektorů řečové
aktivity.
Kapitola 5 prezentuje vytvořené testovací databáze, které byly vybrány a automaticky
nebo manuálně upraveny pro účely vyhodnocování úspěšnosti detektorů řečové aktivity
v různých podmínkách.
V 6. kapitole je popsán návrh detektoru řečové aktivity založený na využití GMM.
Dále jsou v této kapitole prezentovány experimenty provedené s tímto VAD. Jsou ukázány
také výsledky experimentů využívající různé parametrizace řečového signálu.
Kapitola 7 podrobně rozebírá principy navržených HMM detektorů, srovnává jejich
výhody a nevýhody a obsahuje popis experimentů, které byly provedeny pro důkladnou
analýzu a srovnání navržených VAD za různých reálných nebo simulovaných podmínek.
V 8. kapitole jsou popsány experimenty, které vzájemně srovnávají všechny prezentované detektory řečové aktivity dohromady s referenčními VAD, které jsou běžně používané
v reálných aplikacích.
Hlavní závěry a přínosy této práce jsou prezentované a diskutované v poslední 9.
kapitole. Jsou zde navrženy i body, kam by měl směřovat budoucí výzkum na zadané
téma.
26
KAPITOLA 3. CÍLE PRÁCE, MOTIVACE
Kapitola 4
Základní experimentální setup
V této kapitole jsou popsáný použité nástroje pro získání parametrů řečového signálu, trénování modelů, výsledné vyhodnocení úspěšnosti VAD a výpočet SNR. Dále jsou zmíněné
implementace prezentovaných GMM a HMM detektorů řečové aktivity a také referenčních
VAD – kepstrálního detektoru a detektoru podle specifikace G.729. Nakonec jsou uvedena
data, která byla použita pro trénování modelů a testování výsledných VAD.
4.1
Získávání parametrů řečového signálu
Vhodný výběr parametrů je stěžejní pro libovolnou aplikaci zabývající se zpracováním
řečového signálu a v této práci je tomuto problému věnován poměrně široký prostor.
Jako příznaky popisují řečový signál byly pro GMM a HMM detektory použity různé
parametrizace většinou používané při rozpoznávání řeči vždy s délkou okénka 32 ms a
krokem 10 ms
• MFCC – 12 mel-frekvenčních kepstrálních koeficientů a energie, spolu s dynamickými delta a akceleračními koeficienty,
• RSPLP – 21 spektrálních percepčně lineárně prediktivních koeficientů RASTA, 21
delta a 21 akceleračních koeficientů,
• RCPLP – 13 kepstrálních percepčně lineárně prediktivních koeficientů RASTA zahrnujících 0-tý koeficient, 13 delta a 13 akceleračních koeficientů,
• SPLP – 21 spektrálních percepčně lineárně prediktivních koeficientů dohromady s 21
delta 21 akceleračními koeficienty,
• CPLP – 13 kepstrálních percepčně lineárně prediktivních koeficientů zahrnujících
0-tý koeficient, 13 delta a 13 akceleračních koeficientů,
• DCTC – 13 kepstrálních koeficientů vypočtených pomocí diskrétní kosínovy transformace (DCT) zahrnujících 0-tý koeficient,
• LPC – 13 kepstrálních koeficientů vypočtených pomocí lineární predikce zahrnujících 0-tý koeficient,
• LPA – 12 koeficientů lineární predikce,
27
28
KAPITOLA 4. ZÁKLADNÍ EXPERIMENTÁLNÍ SETUP
• F0ZCRE – kombinace jednoho koeficientu základního hlasivkového tónu, jednoho
koeficientu počtu průchodů nulou a koeficientu energie.
V uvedeném výčtu se na levé straně vždy objevuje označení parametrizace, které je následně využíváno v přehledových tabulkách v experimentální části. Teoretický popis používaných koeficientů je popsán v předchozích kapitolách 2.6.1, 2.6.3, 2.6.4, 2.6.7, 2.6.8,
2.6.9, 2.6.11 a 2.6.12. Využité parametrizace se liší především způsobem využití informace
v zarušeném prostředí, proto mohou zásadně ovlivnit úspěšnost VAD v hlasitém prostředí
a tím i zvýšit jeho robustnost. Naopak nevýhodou bývá někdy vyšší výpočetní náročnost.
Pro výpočet uvedených parametrizací signálu bylo použito několik různých nástrojů.
Mel-kepstrální koeficienty MFCC byly získány pomocí nástroje HCopy z balíku HTKTool
[97]. Kepstrální koeficienty DCTC a LPC a koeficienty lineární predikce byly vypočteny
pomocí nástroje CTUCopy [18]. Pomocí toolboxu Rastamat [70] pak byly získány spektrální a kepstrální percepčně lineární koeficienty – SPLP, CPLP, RSPLP, RCPLP. Pro
výpočet frekvence základního hlasivkového tónu byl použit robustní algoritmus RAPT
[76], jehož implementace je součástí nástrojů v toolboxu VOICEBOX [9]. Kombinace
různých koeficientů a převody mezi formáty z programů Matlab a HTKTool byly realizovány pomocí vlastních nástrojů, které jsou součástí balíku VADToolkit [80].
4.2
Kritéria
Detektory řečové aktivity jsou v této práci testovány pomocí kriterií, s nimiž lze objektivně posuzovat typ a velikost chyby detekce přítomnosti řeči a které vychází z kritérií
uvedených v [66] a [51]. Předpokládejme, že je k dispozici řečový signál o délce N, který
byl klasifikován pomocí detektoru řečové aktivity. Výstup detektoru řečové aktivity je
označen jako vad(t), kde t přísluší segmentu signálu. Referenční klasifikace, která je většinou získávána pomocí ručního anotování, je pak značena jako ref(t). Je-li znám výstup
VAD a jeho referenční klasifikace, pak mohou být definována následující kritéria.
4.2.1
Základní kritéria
Tyto kritéria jsou založena na jednoduchém sečtení špatných rozhodnutí, většinou se
rozlišují špatná rozhodnutí v celém signálu, v řeči a v šumu
• ERR (ERror Decision Rate) – celková relativní četnost chyby klasifikace je definováno jako
N
1 X
|ref(t) − vad(t)|
ERR =
N t=0
(4.1)
• ERS (ERror Decision in Speech) – relativní četnost chyby klasifikace řečových segmentů je vypočítávána na základě následujícího vztahu
N
1 X
|ref(t) − vad(t)| · ref(t)
ERS =
N t=0
(4.2)
• ERN (ERror Decision in Noise) – relativní četnost chyby klasifikace šumových segmentů je počítána pomocí vztahu
4.2. KRITÉRIA
29
N
1 X
|ref(t) − vad(t)| · (1-ref(t))
ERS =
N t=0
(4.3)
Z uvedených definic vyplývá, že platí následující vztah mezi relativními četnostmi chyby
klasifikace šumových a řečových segmentů
ERR = ERS + ERN.
4.2.2
Rozšířená kritéria
Na základě základních kritérií si lze udělat odpovídající představu o spolehlivosti testovaného VAD. Nicméně tato kritéria přesně nepopisují způsob selhání detektoru řečové
aktivity. Například přesná hranice mezi segmentem řeči a ticha není někdy zcela zřejmá,
a ani zkušený anotátor není schopen tuto hranici přesně určit. V důsledku lze pak tvrdit,
že chyba klasifikace velmi blízko k přechodu mezi řečí a šumem není podstatná. Proto je
vhodné použít rozšířená kritéria, která objektivně vyhodnocují také způsob selhání VAD
a rozliší i nesprávné oříznutí či přesah začátku nebo konce řečového úseku. V následujících
bodech jsou popsány jednotlivá rozšířená kritéria. Matematický popis těchto chyb by nebyl triviální, proto je vhodné si udělat představu na základě ilustrace 4.1, kde jsou všechny
typy rozšířených chyb ilustrovány na základě vyobrazení skutečného průběhu přítomnosti
řeči a výstupů třech různých VAD.
• SDN (Speech Detected as Noise) – relativní četnost chyby uprostřed řečového segmentu, chyby na začátku a konci segmentu nejsou zahrnuty,
• NDS (Noise Detected as Speech) – relativní četnost chyby uprostřed šumového segmentu, chybné určení počátku a konce segmentu neovlivňuje hodnotu chyby,
• OVF (OVerlap at the Front) – tato chyba vznikne, když je detekován začátek řečového segmentu dříve, než se ve skutečnosti vyskytuje,
• OVB (OVerlap at the Back) – tato chyba značí chybné prodloužení řečové segmentu,
tzn. že řeč již skončila, ale je stále chybně detekována,
• TRF (TRuncation at the Front) – tato chyba indikuje, že zatímco začala řeč, tak
detektor řečové aktivity ji stále klasifikuje jako šum,
• TRB (TRuncation at the Back) – tato chyba značí předčasnou nesprávnou klasifikaci
řeči jako šum,
• MIS (MIssed Speech) – chyba indikuje, že byl chybně vynechán celý blok řeči,
• MIN (MIssed Noise) – tato chyba vznikne, když je nesprávně vynechán celý blok
šumu.
Pro správnou interpretaci významu chyb je vhodné si uvědomit, že mezi nimi platí následující vztahy
ERS = TRF + SDN + TRB + MIS,
ERN = NDS + OVF + OVB + MIN.
30
KAPITOLA 4. ZÁKLADNÍ EXPERIMENTÁLNÍ SETUP
replacements
ref(t)
TRF
SDN
TRB
vad1 (t)
vad2 (t)
vad3 (t)
OVF
NDS
OVB
MIN
MIS
Obrázek 4.1: Ilustrace kritérií vyhodnocující detektory řečové aktivity
Uvedené kritéria jsou implementována jako nástroj Vadcritstd, který je napsán v jazyce C++. Je ovladatelný z příkazové řádky a je obsažen v balíku VADToolkit [80]. Na
rozdíl od implementace uvedené v [51] je nástroj Vadcritstd rozšířen i o kritéria používaná
v jiných publikacích [54] a také o možnost vyhodnocení úspěšnosti klasifikátoru pomocí
ROC křivky.
Při srovnávání dosažených výsledku s výsledky prezentovanými v různé literatuře je
někdy možné se setkat i s jiným značením typu chyb [19, 6]
• FEC (Front End Clipping) – ořezání začátku řečového segmentu, tzn.
FEC = TRF,
• MSC (Mid Speech Clipping) – ořezání uprostřed řečového segmentu v důsledku nesprávné klasifikace řeči jako šum, tj.
MSC = SDN+TRB + MIS,
• NDS (Noise Detected as Speech) – odpovídá stejně nazvanému typu chyby,
• OVER – výstup VAD stále indikuje řeč, ale reference již značí šum, tzn.
OVER = OVB.
4.3
Další vytvořené nástroje
Součástí této práce je také implementace dále zmiňovaných detektorů řečové aktivity. Implementace byla provedena v jazyce C/C++. Byla zvolena modulární struktura tak, aby
byla umožněna znovupoužitelnost již vytvořeného kódu. Výhodou využití jazyka C/C++
je pak následná větší rychlost programů a možnost portování na jiné platformy, například
ARM XScale. Pro trénování modelů byla použita sada programů určená pro vývoj rozpoznávačů řeči založených na skrytých Markovových modelech - HTKToolkit [97]. V sadě
jsou obsaženy nejen výše zmiňované programy pro předzpracování řečových signálů, ale
4.4. NASTAVENÍ KEPSTRÁLNÍHO A ENERGETICKÉHO VAD
Skutečně řeč s
Skutečně šum n
Predikována řeč
S
a
c
31
Predikován šum
N
b
d
Tabulka 4.1: Konfúzní matice – absolutní hodnoty
také nástroje pro trénování, stavbu Markovovských modelů, rozpoznávání řeči a jiné nástroje. HTKToolkit byl využit pro trénování HMM a GMM modelů a pro dekódování
řeči pomoci algoritmu cestování žetonů. Implementace VAD G.729 a VAD G.729 A.III
je součástí přílohy B a dodatku III doporučení ITU-T [29]. GMM VAD, energetický a
kepstrální VAD byly napsány v jazyce C/C++ a jsou dostupné na webových stránkách
[80].
4.4
Nastavení kepstrálního a energetického VAD
Jako referenční VAD byl využit kepstrální a energetický detektor. Jelikož jde o detektory, které využívají prahování ke klasifikování promluvy, bylo nutné korektně nastavit
konstanty využívané pro výpočet hodnoty prahu. V literatuře se lze většinou setkat s tvrzením, že daná konstanta byla nastavena na základě empirických zkušeností. Přesná hodnota prahovací konstanty je ovšem většinou vhodná pouze pro klasifikaci signálů nahraných pouze v daném prostředí. Dále je popsán způsob optimálního nastavení prahovací
konstanty pomocí ROC křivky, který byl využit v této práci.
4.4.1
ROC křivka
ROC1 křivka je nástroj, který umožňuje vizualizaci, organizaci a výběr vhodného klasifikátoru v závislosti na jeho přesnosti [16]. Detekce řečové aktivity je klasifikační problém, kde
je ke každému vektoru parametrů řečového signálu známá příslušnost do množiny {s, n},
kde prvek s představuje řeč a prvek n šum. Klasifikátor pak predikuje každému vektoru
parametrů příslušnost k řeči nebo šumu, tj. do množiny predikovaných tříd {S, N }. Pro
takový klasifikátor existují pro danou instanci vektoru parametrů pouze čtyři možné výstupy značené jako {a, b, c, d}. Pokud jde o instanci řeči a daná instance je klasifikována
jako řeč, pak se instance započítá do množiny a, pokud je klasifikována jako šum, započítá
se do množiny b. Pokud jde o instanci šumu a ta je klasifikována jako šum, instance se
započítá do množiny d. Pokud je ale klasifikována jako řeč, pak patří do množiny c. Velmi
často se však používají relativní četnosti, kde prvky z množiny a jsou značeny jako senzitivita, TP – správná pozitivita, prvky z množiny b jako FP – nesprávná pozitivita, prvky
z množiny c jako FN – nesprávná negativita a množina d jako specifita, TN – správná
negativita. Přehledně lze tyto hodnoty vyjádřit pomocí tabulky 4.1 a 4.2.
Pro relativní hodnoty pak platí následující vztahy pro senzitivitu
TP =
pro nesprávnou pozitivitu
1
Receiver Operating Characteristics
a
,
a+b
32
KAPITOLA 4. ZÁKLADNÍ EXPERIMENTÁLNÍ SETUP
Skutečně řeč s
Skutečně šum n
Predikována řeč
S
TP
FN
Predikován šum
N
FP
TN
Tabulka 4.2: Konfúzní matice – relativní hodnoty
FP =
b
,
a+b
FN =
c
,
c+d
TN =
d
.
c+d
pro správnou negativitu
pro specifitu
Základem klasifikace kepstrálního detektoru je kontinuální míra vypočtena z kepstrálních vzdáleností, která se prahuje a na základě srovnání této kontinuální míry s hodnotou
prahu probíhá přiřazení příslušné třídy. Pro danou hodnotu prahu na základě srovnání
s referenční transkripcí lze vypočítat hodnoty TP, FP, FN a TN. Přičemž pro každou
další hodnotu prahu lze získat hodnoty jiné. Podle [16] je ROC křivka graf vyjadřující
vztah mezi senzitivitou TP a nesprávnou pozitivitou FP. V jiných pramenech je možné
najít také ROC křivku definovanou jako vztah mezi senzitivitou a specifitou. Pro případ
klasifikace přítomnosti řeči se jedná o dvourozměrnou křivku, obecně může být však vícerozměrná. ROC křivku lze získat pro každý klasifikátor, pokud je možné z něho získávat
kontinuální míru. Výstup se získává pomocí prahování.
4.4.2
Optimalizace hodnoty prahu
Pro klasifikátor platí, že čím má vyšší senzitivitu a nižší míru nesprávně klasifikovaných
instancí, tím je přesnější. V ideálním případě by pak platilo, že senzitivita TP = 1 a FP =
0. Této vlastnosti se využívá pro optimalizaci hodnoty prahu l. Nejprve je získána ROC
křivka na trénovací množině a dále se hledá takový práh, pro který platí, že vzdálenost
příslušného bodu ROC křivky je nejblíže k levému hornímu rohu. Tzn. je hledáno takové
b
l pro které platí
l̂ = argmin
l
p
FP(l)2 + (1 − TP(l))2 .
Při výpočtu optimálního prahu se vychází z ROC křivky získané průměrováním z více
signálů. Nejpřímočařejší získání křivky ROC by spočívalo ve výpočtu hodnot FP(l) a
TP(l) ke každému prahu l zvlášť. Takový postup je ale příliš výpočetně náročný, využívá se optimalizovaný postup využívající faktu, že podprahové hodnoty přísluší do stejné
kategorie i při zvýšení úrovně prahu. Algoritmus je podrobně popsán v [16] a jeho implementace je součástí nástroje Vadcritstd [80].
4.5. MNOŽINY SIGNÁLŮ
33
1
0.8
TP
0.6
0.4
0.2
ROC
0
0
0.2
0.4
0.6
0.8
1
FP
Obrázek 4.2: ROC pro kepstrální VAD
4.4.3
Optimalizace prahu kepstrálního detektoru
Při prvních experimentech s kepstrálním detektorem bylo zjištěno, že hodnota prahu l
se pro dosažení optimální přesnosti může výrazně lišit pro různé úrovně šumu v signálu,
a to v rozsahu od 0,3 pro tišší prostředí až po 0,7 pro rušné prostředí. Na základě výše
popsané optimalizace prahu byla zjištěna hodnota l̂ = 0, 534 pro trénovací promluvy
obsahující nahrávky z tichého i hlasitého prostředí. Příslušná ROC křivka je znázorněna
na obrázku 4.2, kde je kroužkem vyznačen bod, který je nejblíže k levému hornímu rohu.
4.4.4
Optimalizace prahu energetického detektoru
Energetický VAD pracuje na velmi podobném principu jako VAD kepstrální pouze s tím
rozdílem, že se nepoužívá kepstrální vzdálenost, ale logaritmus energie. Optimalizace hodnoty prahu probíhala stejným způsobem jako u kepstrálního detektoru řečové aktivity.
ROC křivka je jako celek více vzdálená od levého horního rohu, což značí, že využití logaritmu energie vede ke zhoršení schopností klasifikátoru. Nejbližší bod k levému hornímu
rohu byl získán při hodnotě prahu ˆl = 0, 388. To je hodnota prahu vedoucí k nejlepším
výsledkům na trénovacích datech.
4.5
Množiny signálů
Detektory řečové aktivity založené na skrytých Markovovských modelech, gaussovských
směsových modelech, další dále prezentované VAD, ale také rozpoznávače řeči využité
pro získávání modelů fonému potřebují trénovací data. K vyhodnocení úspěšnosti jednotlivých detektorů řečové aktivity jsou navíc nutné testovací promluvy. Před návrhem
trénovací a testovací množiny je nutné brát v potaz několik problémů. Jedním z nich je
nutné zajištění dostatečné generalizační schopnosti klasifikátoru, tzn. že klasifikátor musí
34
KAPITOLA 4. ZÁKLADNÍ EXPERIMENTÁLNÍ SETUP
1
0.8
TP
0.6
0.4
0.2
ROC
0
0
0.2
0.4
0.6
0.8
1
FP
Obrázek 4.3: ROC pro energetický VAD
být schopný klasifikovat data, která nejsou obsažena v trénovací množině. Klasifikátor se
nesmí příliš přizpůsobit dané trénovací množině, aby nenastal tzv. overfitting. Řešením
je pak nutnost vyvážit komplexnost a flexibilitu klasifikátoru vzhledem k množství dat,
která jsou k dispozici. Čím více je klasifikátor komplexní, tím obsahuje většinou více trénováním nastavitelných parametrů modelu a tím více trénovacích dat je potřeba. Druhým
problémem je, že proces trénování je většinou velmi výpočetně a časově náročný a jeho
náročnost vzrůstá s množstvím použitých dat a současně je získání většího množství dat
poměrně náročný úkol, což jsou důvody proč z praktického hlediska je vhodné udržet spíše
menší trénovací množinu.
4.5.1
Trénovací množiny
Byly použity dvě různé trénovací množiny, které byly aplikovány za jiným účelem. První
trénovací množina byla použita pro trénování fonémového rozpoznávače řeči, proto byla
tato množina velmi velká. Bylo nutné natrénovat poměrně velké množství parametrů
modelu. Množina byla vybrana z databáze CZKCC tak, aby se nepřekrývala s množinou
CZKCCVAD, a obsahuje 30 h 2 min všech typů řečových položek ze všech prostředí
obsažených v databázi CZKCC.
Druhá menší trénovací množina byla použita pro trénování všech detektorů řečové
aktivity a obsahuje 5 h 11 min nahrávek. Tato množina byla opět vybírána z databáze
CZKCC a obsahovala všechny typy prostředí a řečových položek obsažených v databázi.
4.5.2
Testovací množiny
Testovací množiny byly vybrány z dále popsané testovací databáze a obsahují signály
z různými typy rušivého pozadí nebo promluvy obsahující různé neřečové položky. Podrobný popis typu prostředí nahrávek je popsán v kapitole 5. Přesné velikosti testovacích
množin dohromady s jejich označením jsou shrnuty v následujících bodech
4.5. MNOŽINY SIGNÁLŮ
• Prostředí stojícího automobilu (CZKCCVAD) – 14 min 16 sec.
• Prostředí automobilu se zapnutým motorem (CZKCCVAD) – 4 min 14 sec.
• Prostředí jedoucího automobilu (CZKCCVAD) – 7 min 25 sec.
• Blinkr (CZKCCVAD) – 1 min 45 sec.
• Klepání (CZKCCVAD) – 3 min 2 sec.
• Řazení (CZKCCVAD) – 25 sec.
• Slyšitelný dech (CZKCCVAD) – 58 sec.
• Obracení listu (CZKCCVAD) – 1 min 19 sec.
• Číslice (SPEECONVAD) – 29 min 50 sec.
• Věty (SPEECONVAD) – 16 min 58 sec.
• CAR2ECSVAD – 28 min 54 sec.
35
36
KAPITOLA 4. ZÁKLADNÍ EXPERIMENTÁLNÍ SETUP
Kapitola 5
Testovací databáze
K vyhodnocení prezentovaných detektorů je nutné nasbírat vhodné nahrávky řečových
signálů, kde budou označeny řečové a šumové části promluvy. Na tuto testovací databázi je nutné klást nároky v souladu s požadavky na řečové databáze. Nejjednodušší
by bylo použití některé z řečových databází dostupných na domácím pracovišti – katedře teorie obvodů ČVUT FEL. K dispozici byly různé řečové databáze, nicméně žádná
z nich nesplňovala podmínky pro využití při vyhodnocení detektorů řečové aktivity. Hlavním nedostatkem byla nepřítomnost přesných hranic mezi řečovými položkami a šumem.
Z tohoto důvodu byla vytvořená testovací databáze signálu, kde byly označeny chybějící
časové hranice řečových položek. Popis návrhu a vlastností této databáze je předmětem
této kapitoly.
5.1
Dostupné řečové databáze
Pro vytvoření testovací databáze bylo možno využít několika stávajících řečových databází - CZKCC [49], CAR2ECS [53] a SPEECON [56]. Výhodou těchto hotových databází
je, že splňují všeobecné požadavky, kladené na řečové databáze, jako jsou například formáty řečových signálů, nároky na zastoupení mluvčích v databázi, či obsažení širokého
množství různých typů řečových položek. Pro testování detektorů řečové aktivity je také
důležitá přítomnost nahrávek z různých prostředí. Jejich nevýhodou je pak skutečnost,
že jsou určené především pro aplikace v rozpoznávání řeči. Řečové databáze obsahují
pouze transkripce posloupností slov, ale neobsahují časové značky začátků a konců nahraných promluv. Pro zhodnocení úspěšnosti rozpoznávače řeči je přítomnost transkripce bez
označení hranic řečových položek dostatečná, protože výstupem rozpoznávače řeči je také
posloupnost rozpoznaných slov a vyhodnocení probíhá na základě srovnání těchto slovních
posloupností. Pro vyhodnocení úspěšnosti VAD je nutné znát přesné hranice řečových položek, protože díky nim je možné srovnat výstup testovaného VAD s referenční transkripcí
obsaženou v testovací databázi. Referenční transkripce se převádí na posloupnosti znaků
identifikující klasifikovaný segment promluvy jako řeč nebo šum. Tato posloupnost je pak
přímo srovnávána s výstupem zkoumaných detektorů řečové aktivity.
37
38
KAPITOLA 5. TESTOVACÍ DATABÁZE
Transkripce
pět
osum
osum
Zarovnání
pět
osum
osum
VAD
0 0 1 1 1 0 0 0 1 1 1 1 0 0 1 1 1 1 0
Obrázek 5.1: Transkripce řeči
5.2
Návrh databáze pro detekci řečové aktivity
Pro návrh databáze určené pro vyhodnocení detektorů řečové aktivity by se měly zohlednit
stejné nároky, jaké jsou kladeny na řečové databáze určené pro rozpoznávání řeči, které
musí zohledňovat maximální pokrytí slovníku k rozpoznávání, variabilitu mluvčích, všech
potřebných hlásek, slabik, apod. Nejvhodnější je tedy využít stávající řečové databáze a
s určitým minimálním úsilím ji doplnit tak, aby je bylo možno využít také pro vyhodnocení
detekce řečové aktivity. Vytvoření databáze se pak zredukuje do dvou kroků – vhodného
výběru řečových nahrávek a přidání chybějících hranic řečových položek.
5.3
Výběr nahrávek
Výběr testovacích množin byl proveden v souladu s nároky kladenými na správné testování
detektorů řečové aktivity, které jsou shrnuty v následujících bodech
• Množství dat – velikost množiny musí být dostatečně velká, aby výsledky byly statisticky relevantní.
• Různé šumové pozadí – přesnost detekce řečové aktivity se výrazně liší v závislosti
na okolním pozadí. V testovacích množinách by proto měly být obsaženy nahrávky
z různých přesně definovaných prostředí.
• Různorodost promluv – v promluvách by měly být obsaženy řečové položky vystihující všechny aspekty řeči, tak aby testy mohly odhalit závislost přesnosti detekce
řečové aktivity na určitých řečových položkách, popřípadě potvrdit možnost obecného využití testovaných detektorů řečové aktivity.
5.4
Hranice řečových položek
Časové hranice řečových položek mohou být přidány buď automaticky nebo ručně. Jednodušší je ruční značení, nicméně tento postup je časově velmi zdlouhavý. Je však možné
předpokládat, že takto získané ohraničení řečových položek bude velmi přesné. Největší
nevýhodou je pak v podstatě nemožnost zpracování většího množství dat.
5.5. TESTOVACÍ MNOŽINY
39
Pro automatické přidání časových značek lze využít proces zarovnání pomocí skrytých
Markovovských modelů. Jde o poměrně standardní proces založený na zarovnávání natrénovaných modelů fonémů získaných z ortografické transkripce podél značkované promluvy.
Výhoda tohoto postupu je, že umožňuje zpracování velkého množství dat. Nevýhodou je
nepřesné umístění značek, což ovšem nemusí vždy vadit, protože jsou většinou posunuty
pouze o vzdálenosti odpovídající chybnému zarovnání fonémů, a tak je celková chyba
dostatečně nízká.
5.5
Testovací množiny
V souladu s výše uvedenými body byly vybrány tři množiny, které dohromady obsahují
cca 3 hodiny ručně nebo automaticky olabelovaných promluv. Předpokládáme, že takovéto
množství dat je dostatečné pro dosažení statisticky relevantních výsledků. Ve vybraných
signálech je zahrnuto 5 různých prostředí (stojící automobil s vypnutým motorem a se zapnutým motorem, jedoucí automobil, kancelářské prostředí, veřejnost, prostředí zábavy) a
mnoho promluv z 5 různých řečových tříd (číslice, příkazy, jména, věty). Jednotlivé množiny byly získány z databází CZKCC, CAR2ECS a SPEECON a jsou podrobně popsány
v následujících odstavcích.
5.5.1
Databáze CAR2ECS a množina CAR2ECSVAD
Databáze CAR2ECS je řečová databáze určená pro využití v oblasti redukce šumu v automobilovém prostředí. Tato databáze obsahuje cca 3.4 hodin nahrávek z prostředí jedoucího
automobilu (62 mluvčích) a stojícího automobilu s vypnutým motorem (54 mluvčích) a
jsou v ní zahrnuty různé typy položek – izolované a spojené číslice, jména a příjmení, příkazy, příkazové věty, jména měst a věty. Dále obsahuje blok samotných rušivých signálů
z auta zahrnujících tři základní typy rušivého pozadí
• stacionární – jízda konstantní rychlostí, bez přeřazení, obvykle po hladkém povrchu,
• nestacionární, relativně pomalé změny – typicky zrychlování či zpomalování bez
přeřazení,
• nestacionární s rychlými změnami – přeřazení, blinkr, klakson, hluk projíždějícího
auta, jízda po dlážděném povrchu, apod.
Z této databáze bylo učiněn výběr pouze z nahrávek z prostředí stojícího automobilu s vypnutým motorem, dohromady cca 30 minut, který byl označen jako množina CAR2ECSVAD.
Ve zdrojové databázi nebyly obsaženy značky pro hranice promluv, proto byly přidány
procesem zarovnání pomocí natrénovaných skrytých Markovovských modelů. Proces zarovnání zafungoval velmi dobře, protože byly použity pouze nahrávky z tichého prostředí.
Zarušenější nahrávky mohou být získány pomocí umělého mixování nezarušených nahrávek a šumových nahrávek, které jsou součástí této databáze nebo jsou získané z jiných
zdrojů.
5.5.2
Databáze SPEECON a množina SPEECONVAD
Druhá zdrojová databáze byla vytvořena v rámci mezinárodního projektu SPEECON
(“Speech Driven Interfaces for Consumer Devices”), jehož účelem bylo vyvinout hlasem
40
KAPITOLA 5. TESTOVACÍ DATABÁZE
ovládaná rozhraní ke spotřebnímu zboží jako jsou televize, videorekordéry, mobilní telefony, PDA, navigace, informační kiosky a hračky. Byly nasbírány nahrávky v různých
jazycích včetně češtiny a pro každý z nich byly shromážděny nahrávky od 600 mluvčích:
550 dospělých a 50 dětských mluvčích. Mluvčí byli vybíráni s respektem k rovnoměrnému zastoupení pohlaví a věku, v ideálním případě neprofesionální řečníci. Od českých
dospělých mluvčích bylo získáno cca 181 hodin nahrávek ze 4 různých prostředí
• kancelář – většinou klidnější prostředí, pokud je přítomen šum na pozadí, tak je
většinou stacionární,
• společnost, domov – domácí prostředí, rušnější, než kancelářské prostředí, šum je
více zabarven a méně stacionární, může obsahovat hudbu a jiné zvuky,
• veřejné prostranství – prostředí uvnitř budovy nebo venku, úroveň šumového pozadí
je velmi těžce předvídatelná,
• automobil – středně až velmi hlučné prostředí obsahující stacionární (motor) i nestacionární šumy (stěrače,...).
Nahrávky obsahují poměrně široké spektrum položek včetně spontánní a čtené řeči, ta
zahrnuje foneticky bohaté věty a slova, číslice, telefonní čísla, označení času, jména a
jména měst, odpovědí ano/ne, emailové adresy a dále různé oborově specifické příkazy.
Z řečové databáze SPEECON bylo vybráno celkem 48 minut nahrávek ze dvou různých
skupin. První skupina obsahuje číslovky (31 minut) a druhá skupina obsahuje celé věty
(17 minut). Ve výběru jsou zahrnuty všechna 4 prostředí obsažená ve zdrojové databázi.
Časové značky byly přidány procesem zarovnání, pomocí kterého byly získány poměrně
přesně umístěné značky hranic číslovek, nicméně získané zarovnání vět bylo nepřesné a
muselo být ještě ručně upravováno.
5.5.3
Databáze CZKCC a množina CZKCCVAD
Nakonec jako poslední zdroj nahrávek byla použita řečová databáze CZKCC, která byla
vytvořena pro úlohy v oblasti rozpoznávání řeči v automobilovém prostředí. Obsahuje
dohromady 98 hodin nahrávek od 300 různých mluvčích a skládá se z různých řečových
položek – foneticky bohaté věty, číslovky, příkazy, jména, hláskované položky, nahraných
ve 3 různých prostředích – stojící automobil s vypnutým motorem, stojící automobil se
zapnutým motorem, jedoucí automobil. Výhodou této databáze je, že jsou k dispozici
původní nesegmentované nahrávky, které nejsou u jiných databází k dispozici. Zatímco
u ostatních řečových databází jsou promluvy členěny tak, že jeden segment nahrávky
obsahuje pouze jednu řečovou položku s úvodní a koncovou pauzou, tak zde je možné
vytvořit segmenty obsahující více řečových položek oddělených pauzou. Využívají se tak
i části záznamu, které nejsou využívány u databází určených pro trénování rozpoznávačů
řeči, naopak jsou záměrně odstraňovány. Pro testování VAD je ovšem vhodné tyto části
využít, protože se pak takto rozsegmentované záznamy více přibližují reálné promluvě.
Do množiny CZKCCVAD bylo vybráno celkem 107 minut nahrávek, ke kterým byly
ručně doznačeny hranice promluv. Vycházelo se z původních nesegmentovaných záznamů
a segmentace byla provedena tak, aby každý výsledný segment obsahoval více řečových
položek oddělených pauzou, tak jak byl čten nahrávací formulář. Každý segment obsahuje
průměrně 4 bloky řečové aktivity. Výběr se skládá z různých řečových položek, které jsou
shrnuty v následující tabulce 5.1.
5.6. ANALÝZA TESTOVACÍCH MNOŽIN
Kategorie
Číslice
Povely
Jméno
Celkem
Počet [-]
2003
951
267
3221
41
Délka [s]
1005
668
209
1882
Tabulka 5.1: Řečové položky množiny CZKCCVAD
Kromě značení řečových položek byly paralelně značeny informace o neřečových událostech probíhajících na pozadí promluvy. Ty se mohou, ale nutně nemusí časově překrývat
s řečovými položkami. Souhrn všech typů značených neřečových událostí a počet výskytů
jednotlivých událostí je v tabulce 5.2.
Typ události Počet [-]
Ticho
3477
Blinkr
53
Klepání
87
Řazení
13
Dýchání
12
Obracení listu
36
Jiné
104
Celkem
3782
Délka [s]
3907
107
89
40
5
150
209
4507
Tabulka 5.2: Neřečové položky množiny CZKCCVAD
Promluvy byly vybrány ze všech prostředí obsažených ve zdrojové databázi. Nevýhodou
zdrojové databáze bylo, že nebyla přesně značená příslušnost k prostředí. Bylo pouze
známo, že úvodní část nahrávky byla zaznamenána ve stojícím automobilu a dále následují nahrávky v automobilu se zapnutým motorem a nakonec v jedoucím automobilu.
Součástí prací spojených se vznikem množiny CZKCCVAD bylo také anotování typu prostředí. V tabulce 5.3 je přehled všech prostředí a počet segmentů příslušejících k danému
prostředí.
Prostředí
Počet segmentů [-]
stojící automobil s vypnutým motorem
511
jedoucí automobil
144
stojící automobil se zapnutým motorem
72
přechody mezi prostředími
35
Tabulka 5.3: Prostředí nahrávek množiny CZKCCVAD
5.6
Analýza testovacích množin
Dohromady byly získány signály z většího množství různě rušných prostředí. Pro bližší
představu o úrovní rušení byla provedena analýza úrovně šumu u všech vybraných množin.
Standardním kritériem pro měření úrovně šumu je odstup signálu od šumu – SNR. V literatuře je možné se setkat s různými definicemi SNR, zde byla využita kritéria uvedena
42
KAPITOLA 5. TESTOVACÍ DATABÁZE
(a) Stojící automobil (CZKCCVAD)
(b) Zapnutý motor (CZKCCVAD)
(c) Jedoucí automobil (CZKCCVAD)
(d) Stojící automobil (CAR2ECSVAD)
Obrázek 5.2: SSNR signálů v množině CZKCCVAD a CAR2ECSVAD
v publikaci [52]. Na základě teoretických rozborů uvedených v publikaci [50] bylo zjištěno, že vhodnějšími kritérii jsou segmentální SNR – SSNR nebo aritmeticko segmentální
SNR – ASNR. Zde byl využit odhad SSNR vypočtený s využitím kepstrálního detektoru
řečové aktivity a exponenciálním průměrováním výkonu šumu v řečových pauzách podle
vztahů
2
L−1
2
σ̂x,i − σ̂n,i
1 X
· VADi ,
10 · log
SSNR=
2
K i=0
σ̂n,i
2
σ̂n,i
(
2
2
p · σ̂n,i
+ (1 − p) · σ̂x,i
, jestliže VADi = 0
=
2
σ̂n,i−1 ,
jestliže VADi = 1,
2
σ̂x,i
M −1
1 X 2
x [n] ,
=
M n=0 i
kde L je celkový počet segmentu signálu, K je počet segmentů s řečovou aktivitou, σ̂n2
odhad výkonu šumu, p je koeficient zapomínání a hodnota VADi nabývající hodnot 1 a
0, nese informaci o řečové aktivitě v i-tém segmentu.
Prostředí stojícího automobilu se vyskytuje v množině CZKCCVAD a také v množině
CAR2ECSVAD. Z rozložení SSNR, které jsou vypočtené a zobrazené do grafu na obrázcích 5.2a a 5.2d, je patrné, že signály obsažené ve výběru 5.2a jsou nahrávány v rušnějším
prostředí, a proto je rozložení posunuté více doleva. Prostředí automobilu se zapnutým
motorem je dle histogramu 5.2b přirozeně rušnější, než u stojícího automobilu a podobně,
dle očekávání, vyšlo jako nejrušnější prostředí jedoucího automobilu, viz. histogram na
5.6. ANALÝZA TESTOVACÍCH MNOŽIN
43
obrázku 5.2c. Ve výběrech z databáze SPEECON jsou obsaženy nahrávky z různých prostředí od tiššího kancelářského až po nahrávky v jedoucím automobilu, čemuž odpovídá
i jejich SSNR, viz. histogramy na obrázcích 5.3a a 5.3b, které se pohybuji v širokém
intervalu od cca od -5 do 35 dB.
Množiny signálů obsahující speciální neřečové události jsou poměrně malé a úroveň
jejich zašumění lze vyčíst z histogramů na obrázcích 5.4a, 5.4b, 5.4c, 5.4d, 5.4e a 5.4f.
Události slyšitelného blinkru nebo řazení se většinou objevují během jízdy, popřípadě
u blinkru také ve stojícím vozidle se zapnutým motorem, čemuž odpovídá i nižší SSNR
signálů. Naopak dýchání, či listování lze zaslechnout spíše ve stojícím vozidle nebo stojícím
vozidle se zapnutým motorem. Během jízdy nejsou tyto události na nahrávkách slyšitelné
ani pro anotátora. Popřípadě se tyto události vyskytovaly méně často. Nakonec s klapáním
se lze setkat u nahrávek všech vyskytujících se prostředí.
44
KAPITOLA 5. TESTOVACÍ DATABÁZE
(a) Věty
(b) Číslovky
Obrázek 5.3: SSNR signálů v množině SPEECONVAD
(a) Blinkr
(b) Dýchání
(c) Řazení
(d) Listování
(e) Klapání
(f) Jiné neřečové události
Obrázek 5.4: SSNR signálů obsahující neřečové události
Kapitola 6
Detekce na bázi GMM
Tato kapitola se zabývá detektory přítomnosti řeči klasifikující řeč pomocí směsi Gaussových hustotních funkcí – GMM1 . Součástí této kapitoly je analýza vhodného výběru
příznaků pro detekci přítomnosti řeči. Nejprve je uveden princip VAD, následuje experimentální část vedoucí k nalezení nejvhodnějších parametrů GMM, k analýze vlastností
VAD a jeho chování v různě zarušeném prostředí.
6.1
Detekce přítomnosti řeči s GMM
Základem použití GMM pro úlohu detekce přítomnosti řeči je předpoklad, že řeč a šum
jsou tvořeny množinami nepřekrývajících se akustických tříd, které mají podobné statistické vlastnosti. Principem GMM detektoru přítomnosti řeči je modelování řeči a šumu
pomocí akustických modelů, které jsou reprezentovány směsí Gaussovských hustotních
funkcí. Jednotlivé třídy l ∈ {ticho, řeč} jsou tedy charakterizovány pomocí modelů λs pro
řeč a λn pro šum tvořených M -složkovou směsí p(o|λl), pro každý vektor parametrů o
tedy platí
M
X
clm N (o; µlm ; Σlm ),
(6.1)
p(o|λl) =
m=1
kde N (o; µ; Σ) je známá hustotní funkce normálního rozložení, tj.
1
1
e− 2 (o − µ)′ Σ−1 (o − µ),
N (o; µ; Σ) = p
n
(2π) |Σ|
(6.2)
přičemž cm jsou váhové koeficienty směsi, µ je střední hodnota a Σ je diagonální kovarianční matice. Vše je znázorněno na obrázku 6.1, kde jsou ilustrovány příklady jednorozměrných bezsměsových rozdělení řeči p(o|λs) a šumu p(o|λn) a jejich průsečík o,
který rozděluje podle hodnoty pravděpodobností množinu vektorů parametrů do dvou
tříd. Známe-li pravděpodobnostní rozložení řeči p(o|λs) a šumu p(o|λn), je klasifikace
poměrně jednoduchá.
Každý vektor parametrů ot v čase t je klasifikován jako řeč, jestliže pro aposteriorní
pravděpodobnosti platí
p(λs|ot ) ≥ p(λn|ot),
1
Gaussian Mixture Model
45
46
KAPITOLA 6. DETEKCE NA BÁZI GMM
p(o|λs)
p(o|λs)
o
Vektory parametrů
Obrázek 6.1: Ilustrace principu GMM
v obraceném případě je vektor parametrů klasifikován jako šum. Pomocí Bayesova vzorce a
předpokladu, že šum a řeč mají stejnou apriorní pravděpodobnost byl získán vztah vhodný
pro detekci řečové aktivity, výstupem je vektor vad (t) obsahující informaci o přítomnosti,
nebo absenci řeči, tj.
(
1
vad (t) =
0
pro p(ot |λs) ≥ p(ot |λn),
pro p(ot |λs) < p(ot |λn).
(6.3)
Parametry každého GMM, tj. přesné hodnoty parametrů hustotních funkcí řeči p(o|λs)
a šumu p(o|λn) se nastaví v rámci trénovacího procesu na posloupnosti vektoru parametrů
O = {o1 , o2 , . . . , oT } tak, aby nejlépe vystihovaly danou třídu signálu. Cílem je tedy
získat takové parametry modelů λ̂l směsi Gaussovských hustotních funkcí, pro kterou
bude pravděpodobnost p(O|λl ) maximální, tzn.
λ̂l = argmax P (O|λl).
λl
Pro trénovací účely je tedy nutné mít k disposici množinu signálů, u kterých je již
dopředu známá klasifikace v jednotlivých časových okamžicích. Vhodným postupem trénování, který je použit i v prezentovaném VAD, je použití Baum-Welchova algoritmu
(konkrétně implementovaného v sadě HTK nástrojů), který lze považovat za implementaci EM algoritmu.
Klíčovou otázkou je volba počtu složek směsi Gaussovských hustotních funkcí, který
není znám a je typickým předmětem optimalizace nastavení detektoru. Počet směsí by
měl odpovídat počtu složek, ze kterých je signál složen. Zjištění optimální hodnoty počtu
směsí je ponecháno na experimentální část této kapitoly.
Jelikož uvedený algoritmus pracuje na bázi krátkodobé analýzy a klasifikace bez kontextu, výstupní detekce obsahuje velké množství krátkých a chybných zákmitů. Ty je
možné odstranit pomocí vyhlazení na bázi mediánové filtrace, což je i poslední krok tohoto algoritmu. V dále testované GMM VAD byl použitý mediánový filtr 10-tého řádu.
Jednotlivé kroky resp. funkční bloky trénování a detekce algoritmu na bázi GMM jsou
znázorněny v přehledovém schématu na obrázku 6.2.
6.2. ANALÝZA VHODNÉ PARAMETRIZACE
47
ce
Trénovací DB
GMM
Signály
řeč
Transkripce
šum
Signál
Testovací DB
Akustický
model
vad(t)
Klasifikace
Vyhlazení
vad(t)
GMM VAD
Signály
Vyhodnocení
testu
Transkripce
Obrázek 6.2: Algoritmus GMM VAD
6.2
Analýza vhodné parametrizace
Pro získání robustního VAD je nutné zajistit nejvhodnější parametrizační popis řečového
signálu. Analýza byla provedena na řečové databázi CZKCCVAD. Kromě běžně používaných parametrizací v oblasti detekci řečového signálu byly analyzovány i parametrizace,
které se spíše používají v úlohách rozpoznávání řeči. Určení vhodnosti parametrizace pro
detekci přítomnosti řeči bylo provedeno pomocí vyhodnocení podobnosti mezi řečovými
a neřečovými úseky. Řeč i šum jsou nejprve charakterizovány odhady parametrů normálního rozložení určených pomocí průměrných hodnot a standardních odchylek vypočtených
z vektorů parametrů jednotlivých parametrizací. Pomocí určení podobnosti rozložení řeči
a šumu u jednotlivých parametrizací je také možné vyhodnotit jejich vhodnost pro řešenou úlohu, přičemž se dá předpokládat, že vhodnější parametrizace budou mít rozdílnější
rozložení řeči a šumu. Nejprve je diskutováno určení rozdílnosti pouze pomocí sledování
jednotlivých hustot pravděpodobností, což je mírně subjektivní hodnocení, nicméně objektivní hodnocení pomocí vzdálenosti Kullback-Leibler je uvedeno dále.
6.2.1
Jednorozměrné parametrizace
Základem velkého množství detektorů řečové aktivity jsou jednorozměrné parametry signálu jako logaritmus energie, počet průchodu nulou a frekvence základního hlasivkového
tónu.
Logaritmus energie
Rozložení hustot pravděpodobností tohoto asi nejdůležitějšího parametru řeči je na obrazcích 6.3a, 6.3b a 6.3c, ze kterých vyplývá, že tento parametr velmi dobře diskriminuje
řeč od šumu a to hlavně v tišším prostředí stojícího automobilu. To odpovídá teoretickým
předpokladům. Je tedy velmi výhodný pro aplikace v méně rušném prostředí.
48
KAPITOLA 6. DETEKCE NA BÁZI GMM
0.25
0.4
Šum
Řeč
0.2
Šum
Řeč
0.25
0.15
0.1
P(Hodnota)
0.3
P(Hodnota)
P(Hodnota)
Šum
Řeč
0.35
0.25
0.2
0.15
0.2
0.15
0.1
0.1
0.05
0.05
0.05
0
0
10
15
20
25
0
30
14
16
18
Hodnota
20
22
24
26
28
16
18
Hodnota
(a) Stojící automobil
20
22
24
26
28
30
Hodnota
(b) Zapnutý motor
(c) Jedoucí automobil
Obrázek 6.3: Rozložení energie
Počet průchodů nulou
Hustoty rozložení pravděpodobností pro ZCR jsou na obrázcích 6.4a, 6.4b, 6.4c, kde je
vidět, že tento parametr není vhodný pro klasifikaci přítomnosti řeči v promluvách nahrávaných v tichém prostředí. V prostředí více zarušeném má však tento parametr větší
vypovídající hodnotu. Zjištěné hustoty pravděpodobností plně korespondují s praktickým
využitím, kdy je tento parametr často využíván ke zvýšení robustnosti čistě energetických
detektorů.
0.0007
Šum
Řeč
0.0006
0.0003
0.00025
0.0002
0.00015
0.0004
0.0003
0.0002
0.0001
0
0.0005
0.0004
0.0003
0.0002
0.0001
5e-05
0.0001
0
-4000 -1000 2000 5000 8000 11000
Hodnota
0
-2000
0
2000 4000 6000 8000
-1000
Hodnota
(a) Stojící automobil
Šum
Řeč
0.0006
0.0005
P(Hodnota)
P(Hodnota)
Šum
Řeč
P(Hodnota)
0.0004
0.00035
(b) Zapnutý motor
0
1000 2000 3000 4000 5000
Hodnota
(c) Jedoucí automobil
Obrázek 6.4: Rozložení počtu průchodů nulou
Základní hlasivkový tón
Výstupem reálných implementací výpočtu periody základního tónu je nejen její hodnota,
ale současně informace o znělosti promluvy, přičemž hodnota T0 nebo F0 je vypočtena
pouze pro znělé části promluvy. Využitá implementace [9] měla na výstupu pro případ
neznělé promluvy hodnotu 0 Hz. Dále popisované detektory řečové aktivity nejsou navrženy pro parametrizace, které mají na výstupu částečně binární hodnotu, proto byla
informace o neznělosti promluvy modelována pomocí frekvence 1000 Hz s náhodným malým rozptylem. Zjištěné hodnoty fundamentálních frekvencí byly vypočteny pro nahrávky
v databázi CZKCCVAD a na obrázcích 6.5a, 6.5c a 6.5c jsou vidět odhady jejich normálních dvousložkových hustot pravděpodobností. Z obrázků je vidět, že VAD využívající
modely s takovýmto rozložením by v podstatě kopíroval rozhodnutí, které je již součástí
výpočtu základního hlasivkového tónu a všechny neznělé úseky by označil jako šum.
6.2. ANALÝZA VHODNÉ PARAMETRIZACE
Šum
Řeč
0.003
0.0014
0.0015
0.001
P(Hodnota)
0.002
Šum
Řeč
0.0016
0.001
P(Hodnota)
P(Hodnota)
Šum
Řeč
0.0012
0.0025
49
0.0008
0.0006
0.0004
0.0012
0.001
0.0008
0.0006
0.0004
0.0005
0.0002
0
-500
0
0
-1000 -500
500 1000 1500 2000 2500
Hodnota
0.0002
0
0
-1000 -500
500 1000 1500 2000 2500
Hodnota
(a) Stojící automobil
0
500 1000 1500 2000 2500
Hodnota
(b) Zapnutý motor
(c) Jedoucí automobil
Obrázek 6.5: Rozložení F0
6.2.2
Vícerozměrné parametrizace
Protože tyto parametrizace popisují segmenty signálu pomocí více koeficientů, tak i jejich
hustoty pravděpodobností jsou vícerozměrné, což znesnadňuje nebo téměř znemožňuje
nejen tyto hustoty zobrazit, ale také manuálně posoudit jejich schopnost separace řeči od
šumu. Určitou představu je možné získat na základě sledování hustot pravděpodobností
jednotlivých koeficientů. Na dále uvedených obrázcích nejsou tedy skutečné hustoty pravděpodobností, ale pouze jednorozměrná projekce získána pomocí výpočtu normy vektoru
středních hodnot a rozptylů.
Koeficienty lineární predikce
Na základě obrázků 6.6a, 6.6b, 6.6c se jeví, že koeficienty lineární predikce umí výborně
rozlišit šum od řeči pouze v tichém prostředí a v prostředí zapnutého motoru, který
obsahuje pouze stacionární šum. V prostředí obsahujícím nestacionární šum jsou pak
hustoty pravděpodobností již velmi podobné.
Hodnota
Šum
Řeč
P(Hodnota)
Šum
Řeč
P(Hodnota)
P(Hodnota)
Šum
Řeč
Hodnota
(a) Stojící automobil
(b) Zapnutý motor
Hodnota
(c) Jedoucí automobil
Obrázek 6.6: Rozložení koeficientů lineární predikce
Kepstrální koeficienty
Kepstrální koeficienty vykazují rozdílnější charakteristiky rozložení řeči a šumu, než vykazovaly koeficienty lineární predikce a jednorozměrné parametry. Jak je patrné na obrázcích
6.7a, 6.7b, 6.7c, 6.8a, 6.8b a 6.8c, jsou rozdíly patrné u všech sledovaných prostředí a to
pro kepstrální koeficienty vypočítané pomocí diskrétní kosínovy transformace i pro LPC
kepstrální koeficienty. Z obrázků 6.9a, 6.9b a 6.9c by tak vyplývalo, že melovské kepstrální
koeficienty rozlišují řeč od šumu hůře než kepstrální koeficienty. Nicméně se domnívám, že
v tomto případě je zkreslení způsobené projekcí do jednorozměrných charakteristik příliš
veliké a je nutné se zaměřit na objektivnější posouzení pomocí K-L vzdálenosti.
50
KAPITOLA 6. DETEKCE NA BÁZI GMM
Percepčně lineárně prediktivní koeficienty
PLP koeficienty vykazují obecně větší rozdíly v charakteristikách šumu a řeči, než všechny
ostatní dosud zmíněné parametrizace. Jak je vidět na obrázcích 6.10a, 6.10b a 6.10c, tak
spektrální PLP koeficienty separují řeč od šumu velmi dobře a to hlavně v prostředí
stojícího automobilu a automobilu se zapnutým motorem. Zdá se, že dokonce vykazují
lepší schopnosti separace řeči od šumu, než mají kepstrální PLP koeficienty na obrázcích
6.11a, 6.11b a 6.11c.
Percepčně lineárně prediktivní koeficienty RASTA
Podle obrázků 6.12a, 6.12b a 6.12c se jeví spektrální PLP koeficienty RASTA jako teoreticky nejlepší parametrizace pro detekci řečové aktivity a to pro všechna sledovaná
prostředí. O něco méně rozdílné charakteristiky řeči a šumu dosahují kepstrální PLP koeficienty, ty jsou zobrazeny na obrázcích 6.13a, 6.13b a 6.13c.
Hodnota
Šum
Řeč
P(Hodnota)
Šum
Řeč
P(Hodnota)
P(Hodnota)
Šum
Řeč
Hodnota
(a) Stojící automobil
Hodnota
(b) Zapnutý motor
(c) Jedoucí automobil
Obrázek 6.7: Rozložení DCT kepstrálních koeficientů
Hodnota
Šum
Řeč
P(Hodnota)
Šum
Řeč
P(Hodnota)
P(Hodnota)
Šum
Řeč
Hodnota
(a) Stojící automobil
Hodnota
(b) Zapnutý motor
(c) Jedoucí automobil
Obrázek 6.8: Rozložení kepstrálních koeficientů LPC
Hodnota
(a) Stojící automobil
Šum
Řeč
P(Hodnota)
Šum
Řeč
P(Hodnota)
P(Hodnota)
Šum
Řeč
Hodnota
(b) Zapnutý motor
Hodnota
(c) Jedoucí automobil
Obrázek 6.9: Rozložení Melovských kepstrálních koeficientů
6.2. ANALÝZA VHODNÉ PARAMETRIZACE
Hodnota
Šum
Řeč
P(Hodnota)
Šum
Řeč
P(Hodnota)
P(Hodnota)
Šum
Řeč
51
Hodnota
(a) Stojící automobil
Hodnota
(b) Zapnutý motor
(c) Jedoucí automobil
Obrázek 6.10: Rozložení spektrálních PLP koeficientů
Hodnota
Šum
Řeč
P(Hodnota)
Šum
Řeč
P(Hodnota)
P(Hodnota)
Šum
Řeč
Hodnota
(a) Stojící automobil
Hodnota
(b) Zapnutý motor
(c) Jedoucí automobil
Obrázek 6.11: Rozložení kepstrálních PLP koeficientů
Hodnota
Šum
Řeč
P(Hodnota)
Šum
Řeč
P(Hodnota)
P(Hodnota)
Šum
Řeč
Hodnota
(a) Stojící automobil
Hodnota
(b) Zapnutý motor
(c) Jedoucí automobil
Obrázek 6.12: Rozložení spektrální PLP koeficientů RASTA
Hodnota
(a) Stojící automobil
Šum
Řeč
P(Hodnota)
Šum
Řeč
P(Hodnota)
P(Hodnota)
Šum
Řeč
Hodnota
(b) Zapnutý motor
Hodnota
(c) Jedoucí automobil
Obrázek 6.13: Rozložení kepstrálních PLP koeficientů RASTA
52
KAPITOLA 6. DETEKCE NA BÁZI GMM
6.3
Analýza parametrizací pomocí vzdálenosti KullbackLeibler
Pro objektivní vyhodnocení rozdílnosti mezi pravděpodobnostními rozloženími lze použít
vzdálenost Kullback-Leibler2 . Tato vzdálenost je míra určující rozdíl mezi dvěma hustotami pravděpodobností. Pro dvě hustoty pravděpodobností p(o) a q(o) je K-L vzdálenost
definována jako
DKL (p||q) =
ˆ
p(o)log
O
p(o)
q(o)
dx.
Obecný výpočet K-L vzdálenosti je velmi složitá úloha a neexistuje analytické řešení,
kromě speciálního případu, kdy p(o) a q(o) představují hustoty normálního N -rozměrného
rozložení. V takovém případě je
pn (o) = N (o; µn; Σn),
qs (o) = N (o; µs ; Σs)
a pro K-L vzdálenost platí
1
DKL (pn||qs ) =
2
ln
detΣs
detΣn
+
tr(Σ−1
s Σn )
+ (µs −
µn)Σ−1
s (µs
− µ n) − N
,
kde tr() představuje součet prvků diagonální matice. Nevýhodou K-L vzdálenosti je, že
to vlastně není míra, tzn. že není symetrická DKL (P ||Q) 6= DKl (Q||P ) a neplatí trojúhelníková nerovnost. Jako alternativa byla použita také symetrická varianta K-L vzdálenosti
definovaná pomocí vztahu
DKLS (p||q) =
1
(DKL (p||q) + DKL (q||p)) .
2
Bude-li představovat hustota pn (o) hustotu pravděpodobností šumu a qs (o) hustotu
pravděpodobnosti řeči, pak lze získat K-L a symetrickou K-L vzdálenost pro jednotlivé
parametrizace a prostředí. Ty jsou vypočteny a zobrazeny v tabulce 6.1. Hodnoty jsou
setříděny tak, že ve spodní části tabulky jsou parametrizace, které by měly mít nejlepší
schopnost rozlišit řeč od šumu a v horní části jsou pak parametrizace, které tuto schopnost
mají horší. Jelikož K-L vzdálenost není skutečná míra, není možné tvrdit, že by číselný
rozdíl mezi hodnotami měl odpovídat míře odlišnosti. Výsledná čísla zhruba odpovídají
očekávatelné skutečnosti, že nejlepší schopnost diskriminace řeči od šumu vykazují parametry získané pomocí perceptivně lineárně prediktivní analýzy. Nejhorší schopnost rozlišení řeči od šumu pak má kombinace parametrů energie, fundamentální frekvence a počtu
průchodů nulou, což potvrzuje také manuální analýza hustot pravděpodobností těchto
parametrů.
2
Kullback–Leibler divergence
6.4. EXPERIMENTY
Parametrizace
F0ZCRE
DCTC
LPC
LPA
CPLP
MFCC
RCPLP
SPLP
RSPLP
Vzdálenost
K-LS K-L
5,3
3,4
10,2 9,0
11,2 9,5
21,7 12,0
30,5 26,2
32,8 27,6
41,0 29,8
305,6 87,5
348,4 92,5
(a) Stojící automobil
53
Parametrizace
F0ZCRE
DCTC
LPC
LPA
MFCC
CPLP
RCPLP
RSPLP
SPLP
Vzdálenost
K-LS K-L
6,2
3,3
11,0 8,9
12,3 9,3
21,0 11,9
35,9 27,9
37,5 27,8
63,5 34,6
659,1 110,3
711,5 110,0
(b) Zapnutý motor
Parametrizace
F0ZCRE
DCTC
LPA
LPC
MFCC
CPLP
RCPLP
SPLP
RSPLP
Vzdálenost
K-LS K-L
2,8
2,3
8,0
7,5
9,3
7,9
9,3
8,3
25,9 23,6
26,4 23,8
41,2 29,4
138,9 66,9
199,0 74,3
(c) Jedoucí automobil
Tabulka 6.1: Analýza podobnosti řečových a šumových úseku řeči pomocí vzdáleností
Kullback-Leibler
6.4
Experimenty
Testy by měly ověřit funkčnost navrhnutého VAD za přítomnosti různě hlasitého rušení a
také v promluvách obsahujících různé typy neřečových událostí. Dále byl ověřen vliv parametrizace a dosažené reálné výsledky jsou srovnány s teoretickou vhodností parametrizace
diskutované v předchozím odstavci. Součástí provedených experimentů bylo také hledání
takových parametrů hustotní směsi, které by měly vést k lepším výsledkům klasifikace.
6.4.1
Vliv použité parametrizace
V tabulkách 6.2a, 6.2b a 6.2c jsou uvedeny celkové chyby klasifikace ERR a chyby klasifikace v řečových segmentech pro všechny výše uvedené parametrizace testované na signálech z tiššího prostředí stojícího automobilu, stojícího automobilu se zapnutým motorem
a z rušného prostředí jedoucího automobilu. Tabulky jsou setříděny podle velikosti celkové
chyby klasifikace. Nejmenší chyby klasifikace bylo dosaženo v tišším prostředí pomocí melfrekvenčních kepstrálních koeficientů V prostředí jedoucího automobilu vedla k nejlepším
výsledkům parametrizace promluvy pomocí kepstrálních koeficientů RASTA, což potvrzuje její vhodnost pro robustní klasifikaci. Porovnají-li se dosažené výsledky GMM VAD
s předpokládanou schopností diskriminace řeči od šumu, tak jsou téměř ve shodě s úvodní
analýzou, až na hodnoty dosažené pomocí spektrálních PLP koeficientů a spektrálních
PLP koeficientů RASTA, které měly podle analýzy vést k nejmenší chybě klasifikace. Naopak podle analýzy méně vhodná kombinace koeficientů energie, ZCR a fundamentální
frekvence vedla k průměrným výsledkům, což potvrzuje její skutečné rozšíření. Na základě
zde dosažených výsledků budou v dalších experimentech upřednostňovány parametrizace,
které vedly k menší chybě klasifikátoru.
54
KAPITOLA 6. DETEKCE NA BÁZI GMM
Parame- ERR ERS
trizace
[%]
[%]
MFCC
12.4
4.0
RCPLP
CPLP
RSPLP
F0ZCRE
LPC
DCTC
SPLP
LPA
± 7.9
± 3.2
13.1
2.8
± 7.6
± 2.8
13.8
5.4
± 7.9
± 3.9
15.5
10.7
± 6.2
± 5.2
19.2
14.5
± 13.3
± 11.2
21.9
7.7
± 14.6
± 5.7
22.9
8.0
± 14.7
± 5.7
24.7
22.8
± 14.3
± 14.9
24.8
23.5
± 10.8
± 10.9
(a) Stojící automobil
Parame- ERR ERS
trizace
[%]
[%]
RCPLP
6.9
5.1
± 3.8
± 3.7
8.7
6.1
± 4.3
± 3.4
9.4
6.4
± 5.0
± 3.7
MFCC
CPLP
F0ZCRE
RSPLP
SPLP
LPA
DCTC
LPC
10.6
8.2
± 6.3
± 3.9
11.4
10.1
± 4.4
± 4.1
11.6
10.9
± 5.1
± 5.2
15.8
14.4
± 6.6
± 6.2
23.0
6.3
± 24.2
± 4.3
23.3
5.9
± 25.4
± 4.2
(b) Zapnutý motor
Parame- ERR ERS
trizace
[%]
[%]
RCPLP 10.7
9.1
CPLP
MFCC
F0ZCRE
RSPLP
LPC
SPLP
DCTC
LPA
± 4.7
± 4.3
11.8
9.0
± 4.7
± 4.3
12.9
9.9
± 5.2
± 4.7
15.0
7.3
± 11.5
± 3.9
15.4
14.0
± 4.9
± 5.0
18.4
7.1
± 17.9
± 4.4
18.4
7.8
± 22.1
± 5.4
20.4
8.7
± 18.1
± 4.8
22.1
13.8
± 12.5
± 6.3
(c) Jedoucí automobil
Tabulka 6.2: Vliv použité parametrizace na úspěšnost GMM VAD.
6.4.2
Optimalizace počtu směsí
Jedním z parametrů GMM je počet směsí, které ji tvoří. V rozpoznávání řeči má tento
parametr poměrně zásadní vliv na úspěšnost klasifikace, což vede k domněnce, že přesnější
modelování rozložení pravděpodobnosti povede ke zlepšení klasifikace také u GMM VAD.
Byl proto proveden experiment zaměřený na analýzu optimálního počtu směsí v GMM
detektoru. Nejprve byl zvyšován počet směsí od 2 do 32, stejně u modelu šumu i řeči. Zjištěné hodnoty chyb pro všechny použité parametrizace jsou v tabulkách 6.3a, A.1 a 6.3b.
Výsledky modelů s nulovým počtem směsí je v tabulce 6.2. Je vidět, že zvyšování počtu
použitých směsí má vliv na výslednou chybovost detektorů. Dalo se očekávat, že použití
většího počtu směsí povede k přesnějšímu modelování pravděpodobnostních rozložení a
tím ke snížení celkové chybovosti ERR. Z výsledků vyplývá, že je takový trend vidět,
ale není výrazný nebo se vyskytuje pouze při navyšování počtu směsí v určitých mezích
a někdy vede navýšení počtu směsí dokonce ke zvýšení chyby ERR. Takové chování je
možné vysvětlit tím, že vrcholy vícesměsových rozložení jsou většinou velmi blízko u sebe,
a proto se ani zásadně nemění jejich tvar. Nicméně lze nalézt optimální počet směsí, který
vede k nejlepším výsledkům detekce přítomnosti řeči v obou prostředích. Jako optimální
nastavení se jeví použití 8mi směsí pro parametrizace MFCC, RCPLP a SPLP, 16 směsí
pro CPLP a RSPLP. Tato nastavení byly následně použita při experimentech srovnávající
prezentované a referenční detektory řečové aktivity.
6.4. EXPERIMENTY
55
MFCC
RCPLP
CPLP
RSPLP
SPLP
Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS
směsí [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
2
11.9 6.8 13.3 7.1 12.3 7.2 20.5 10.4 15.1
8.7
± 6.9 ± 4.1
4
8
16
11.4
6.5
± 4.4
± 8.0
± 4.8
± 9.2
± 5.0 ± 10.7 ± 7.2
13.3
4.9
12.1
7.5
18.5
10.8
± 7.6 ± 4.0
± 7.4
± 3.0
± 8.2
± 5.2
± 7.7
± 4.4 ± 10.9 ± 9.1
11.2
12.0
4.3
11.3
6.1
13.7
± 7.3 ± 4.3
± 7.0
± 3.0
± 8.0
± 4.4
± 6.7
11.3
11.6
4.2
11.5
6.9
12.8
± 6.7
± 3.0
± 8.0
± 5.1
± 6.6
6.7
6.8
± 7.4 ± 4.4
32
± 6.6
11.2
6.4
± 7.3 ± 4.3
12.1
4.7
11.4
6.4
14.5
± 7.0
± 3.2
± 7.9
± 4.5
± 6.1
7.4
17.2
16.9
11.6
10.7
± 3.4 ± 10.5 ± 8.4
6.6
17.3
12.0
± 3.4 ± 10.8 ± 9.1
9.7
17.0
13.8
± 3.9 ± 11.0 ± 9.9
(a) Prostředí stojícího automobilu
MFCC
RCPLP
CPLP
RSPLP
SPLP
Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS
směsí [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
2
12.2
7.7 12.6 11.8 11.9 7.5 11.9 7.6
16.8
5.3
± 7.4
4
13.6
± 4.3 ± 4.6 ± 4.8 ± 6.7 ± 4.3 ± 5.7 ± 3.9 ± 11.5 ± 3.2
6.0
10.3
8.6
11.3
5.3
11.7
8.2
17.6
5.2
± 10.5 ± 3.4 ± 4.3 ± 4.2 ± 6.2 ± 3.4 ± 5.6 ± 4.1 ± 14.5 ± 2.8
8
11.8
± 7.8
16
12.3
5.3
9.6
8.5
10.3
6.4
10.8
9.2
± 3.3 ± 3.9 ± 4.0 ± 6.0 ± 3.8 ± 4.3 ± 4.4
5.1
9.7
9.0
10.0
6.1
11.3
9.7
12.0
6.2
± 8.9
± 3.6
14.7
5.2
± 10.2 ± 3.5 ± 3.9 ± 4.2 ± 4.8 ± 3.7 ± 4.7 ± 4.4 ± 16.7 ± 3.6
32
11.0
± 6.7
5.8
9.9
8.8
10.3
6.6
11.4
9.9
12.6
6.0
± 3.3 ± 3.9 ± 4.0 ± 5.8 ± 3.8 ± 4.4 ± 4.4 ± 14.3 ± 3.7
(b) Prostředí jedoucího automobilu
Tabulka 6.3: Analýza počtu směsí u GMM VAD v uvedených prostředích
6.4.3
Vliv rušného prostředí automobilu
GMM VAD byl nejprve testován na nahrávkách z prostředí automobilu. Kompletní výsledky optimálně nastavených detektorů jsou v tabulce 6.4a pro prostředí stojícího automobilu a v tabulce 6.4b pro prostředí jedoucího automobilu. Pro každý záznam v tabulkách jsou uvedeny průměrné hodnoty a standardní odchylky. Testovány byly vždy
VAD využívající perspektivní parametrizace, tzn. nejvhodnější pro danou úlohu podle
předešlé analýzy. Je vidět, že nižší hodnoty celkových chyb klasifikace ERR byly dosaženy v prostředí jedoucího automobilu než v prostředí automobilustojícího. To je mírně
překvapující. Nicméně důvodem by mohlo být složení trénovací množiny, ve které byly
zastoupeny řečové nahrávky z obou prostředí. V tichém prostředí se jeví jako nejvhodnější
použití parametrizace MFCC. Výsledky jsou zde velmi vyrovnané, kromě výsledků dosažených pomocí parametrizace SPLP, která vede k větší celkové chybě ERR. V prostředí
jedoucího automobilu je dosaženo nejnižší chyby ERR díky využití kepstrálních koeficientů RASTA, přičemž chyba je způsobena především v řečových úsecích. To vyplývá
z vyšší hodnoty ERS. U všech parametrizací lze také pozorovat zvýšenou hodnotu TRB,
56
KAPITOLA 6. DETEKCE NA BÁZI GMM
Parame- ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
trizace [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
MFCC
11.2
6.7
4.5
0.7
4.0
1.9
0.0
0.7
1.7
1.4 0.7
± 7.3
CPLP
11.5
± 8.0
RCPLP
12.0
± 7.0
RSPLP
12.8
± 6.6
SPLP
16.9
± 10.5
± 4.3 ± 5.5
6.9
4.6
± 5.1 ± 6.0
4.3
7.8
± 3.0 ± 6.6
6.6
6.2
± 3.4 ± 6.0
10.7
6.2
± 8.4 ± 7.6
± 1.9 ± 3.1 ± 2.6 ± 0.0
0.5
3.6
2.7
0.0
± 1.9 ± 3.2 ± 3.3 ± 0.0
0.2
1.4
2.7
0.0
± 0.5 ± 1.7 ± 2.6 ± 0.0
0.2
3.1
3.3
0.0
± 0.6 ± 2.6 ± 2.9 ± 0.0
1.2
5.2
4.1
0.3
± 2.9 ± 4.3 ± 5.0 ± 2.1
± 2.7 ± 1.2 ± 3.6
0.6
1.7
1.6
± 2.4 ± 1.2 ± 4.4
1.5
2.1
2.6
± 3.0 ± 1.4 ± 4.5
0.7
2.1
2.5
± 2.3 ± 1.5 ± 4.8
0.6
2.0
2.7
± 2.1 ± 1.5 ± 6.8
± 1.3
0.7
± 1.3
1.5
± 1.8
1.0
± 1.5
1.0
± 1.5
(a) Prostředí stojícího automobilu
Parame- ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
trizace [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
RCPLP 9.6
8.5
1.1
0.9
5.2
2.4
0.0
0.2
0.2
0.7 0.0
± 3.9
CPLP
10.0
± 4.8
RSPLP
11.3
± 4.7
MFCC
11.9
± 8.1
SPLP
12.0
± 8.9
± 4.0 ± 2.3
6.1
3.9
± 3.7 ± 4.6
9.7
1.6
± 4.4 ± 3.0
5.4
6.6
± 3.4 ± 8.7
6.2
5.8
± 3.6 ± 9.5
± 1.2 ± 2.9 ± 1.6 ± 0.0
0.6
4.0
1.5
0.0
± 0.9 ± 2.7 ± 1.5 ± 0.0
0.9
6.0
2.7
0.0
± 1.1 ± 3.2 ± 1.6 ± 0.2
0.5
3.4
1.5
0.0
± 0.8 ± 2.6 ± 1.4 ± 0.0
0.6
3.7
1.9
0.0
± 0.9 ± 2.4 ± 1.7 ± 0.0
± 0.4 ± 0.2 ± 2.0
0.1
0.9
3.0
± 0.2 ± 0.9 ± 4.2
0.0
0.2
1.4
± 0.1 ± 0.2 ± 2.9
0.2
1.2
5.1
± 0.4 ± 2.3 ± 7.2
0.1
0.9
4.9
± 0.2 ± 1.1 ± 8.6
± 0.0
0.0
± 0.0
0.0
± 0.0
0.0
± 0.0
0.0
± 0.0
(b) Prostředí jedoucího automobilu
Tabulka 6.4: Chyby klasifikace optimálně nastaveného GMM VAD
zvláště v prostředí jedoucího automobilu, což ukazuje, že jsou špatně detekovány hlavně
konce slov.
6.4.4
Experimenty s neřečovými událostmi
Další testy byly zaměřeny na zjištění spolehlivosti GMM VAD na promluvách obsahujících
specifické neřečové události. Zjištěné hodnoty chyb klasifikace ERR a ERS jsou v tabulce
6.5 pro 6 událostí – slyšitelný blinkr je v tabulce 6.5a, slyšitelné dýchání je v tabulce 6.5b,
klapání v tabulce 6.5c, listování papírem v tabulce 6.5d a řazení nižšího nebo vyššího
rychlostního stupně v tabulce 6.5e, přičemž události se mohou vyskytovat v přítomnosti
dalších rušení v automobilu, jak je blíže popsáno v kapitole 5. Testy byly provedeny pro
všechny úspěšnější parametrizace v předchozích experimentech. Je vidět, že neřečové události vedou ke zvýšení chyby klasifikace, a to hlavně při listování papírem, při slyšitelném
blinkru, dýchání a řazení. Jedině klapání nevedlo k výraznějšímu zvýšení chyby klasifikace, naopak listování papírem vedlo k nejvýraznějšímu nárůstu chyb klasifikace, a to
především v detekci šumu. Velikost chyby v řečových segmentech zůstala přibližně stejná.
6.4. EXPERIMENTY
6.4.5
57
Experimenty na dalších typech řečových položek
Výše uvedené experimenty byly provedeny pouze na datech z množiny CZKCCVAD, která
obsahuje jen typy řečových položek jako jsou číslice, jména a příkazy. Pro přesnější vyhodnocení byly provedeny také testy na řečových signálech z množiny SPEECONVAD
obsahující nahrávky celých vět a číslic. Zjištěné hodnoty chyb klasifikace jsou v tabulkách 6.6c a 6.6b. Také testy z množiny CAR2ECSVAD dopadly s poměrně nízkou chybou
klasifikace, jak je vidět v tabulce 6.6a. Nejdůležitější závěr uvedeného experimentu je,
že testovaný VAD dosahuje velmi dobré výsledky také na datech z jiných databází s rušivým pozadím odlišným od trénovací množiny. To dokazuje jeho obecnou použitelnost
v reálných aplikacích.
6.4.6
Shrnutí
Byl vytvořen detektor řečové aktivity, který modeluje řečové a šumové úseky pouze pomocí směsi Gaussovských hustotních funkcí. Nejprve byla manuálně analyzována vhodnost devíti parametrizací pro úlohu detekce řečové aktivity a následně pomocí vzdálenosti
Kullback-Leibler. Pro prostředí jedoucího automobilu byla dosažena shoda mezi analýzou
a výsledky GMM VAD. Jako nejvhodnější se jeví využití koeficientů PLP získaných metodou RASTA. U GMM VAD lze pozorovat poměrně výrazné zvýšení chyby klasifikace
na nahrávkách obsahujících neřečové události, kromě promluv obsahující událost klapání,
která nevedla k výraznému zvýšení chyby klasifikace.
58
KAPITOLA 6. DETEKCE NA BÁZI GMM
Parame- ERR ERS
trizace [%]
[%]
RCPLP 12.4 8.0
CPLP
MFCC
RSPLP
SPLP
± 3.5
± 4.0
13.2
6.0
± 4.7
± 3.0
15.6
5.2
± 8.7
± 3.2
15.6
9.0
± 3.6
± 4.0
16.5
5.0
± 8.3
± 3.2
(a) Blinkr
RSPLP
CPLP
SPLP
RCPLP
CPLP
RSPLP
SPLP
± 10.3
± 4.5
15.4
4.1
± 10.1
± 2.8
15.7
7.0
± 12.0
± 6.1
17.0
6.1
± 8.1
± 3.3
19.5
9.7
± 10.1
± 9.5
(b) Dýchání
Parame- ERR ERS
trizace
[%]
[%]
MFCC
20.2
5.6
RCPLP
Parame- ERR ERS
trizace
[%]
[%]
MFCC
14.2
6.2
± 13.4
± 4.6
20.7
3.4
± 13.3
± 3.3
22.0
5.1
± 12.3
± 4.3
22.9
5.8
± 15.0
± 6.3
33.0
7.1
± 16.7
± 8.1
(d) Listování
RSPLP
SPLP
MFCC
CPLP
MFCC
RSPLP
SPLP
± 4.1
± 4.4
10.7
5.7
± 5.8
± 3.3
11.4
4.7
± 8.5
± 2.7
11.6
9.3
± 4.7
± 4.5
11.9
5.8
± 6.9
± 4.0
(c) Klapání
Parame- ERR ERS
trizace [%]
[%]
RCPLP 11.5 6.4
CPLP
Parame- ERR ERS
trizace [%]
[%]
RCPLP 9.2
7.6
± 0.4
± 0.5
12.1
5.8
± 1.8
± 1.3
12.9
7.9
± 2.1
± 0.1
14.1
6.3
± 2.7
± 0.6
14.8
7.2
± 1.2
± 2.6
Parame- ERR ERS
trizace [%]
[%]
RCPLP 9.8
4.9
RSPLP
SPLP
CPLP
MFCC
± 6.1
± 3.4
10.2
5.8
± 5.6
± 3.4
11.1
5.4
± 5.0
± 4.4
11.5
6.2
± 5.2
± 4.0
13.7
6.5
± 7.0
± 4.0
(f) Jiné neřečové události
(e) Řazení
Tabulka 6.5: Úspěšnost GMM VAD u promluv obsahujících různé neřečové události.
Parame- ERR ERS
trizace
[%]
[%]
MFCC
4.7
0.9
CPLP
RSPLP
RCPLP
SPLP
± 3.3
± 1.3
5.8
1.6
± 3.3
± 2.0
8.1
4.8
± 3.7
± 3.3
8.7
2.9
± 4.5
± 2.8
25.8
9.8
± 18.9
± 5.6
(a) CAR2ECSVAD
Parame- ERR ERS
trizace [%]
[%]
CPLP
10.0 8.3
RCPLP
RSPLP
MFCC
SPLP
± 6.8
± 6.7
11.4
7.4
± 6.7
± 5.3
11.8
9.0
± 5.9
± 5.7
12.1
5.9
± 9.6
± 5.2
20.9
17.2
± 9.5
± 9.6
(b) Číslice (SPEECONVAD)
Parame- ERR ERS
trizace [%]
[%]
CPLP
6.1
3.4
MFCC
RCPLP
RSPLP
SPLP
± 5.1
± 3.3
7.1
2.1
± 6.2
± 2.2
7.5
3.2
± 4.2
± 2.9
10.1
6.5
± 3.8
± 2.9
20.0
15.6
± 9.6
± 9.2
(c) Věty (SPEECONVAD)
Tabulka 6.6: Úspěšnost GMM VAD na dalších typech řečových položek.
Kapitola 7
Detekce na bázi HMM
Tato část práce obsahuje návrhy metod využívající skryté Markovovské modely pro detekci řečové aktivity. Nejprve jsou uvedeny základní teoretické informace o skrytých Markovovských modelech a jejich použití pro klasifikaci řeči. Dále jsou diskutovány strategie
možných řešení, která jsou následně podrobně představena. Metody jsou navrhovány především s ohledem na dosažení vysoké přesnosti detekce řečové aktivity v silně zarušeném
prostředí. Navržené metody jsou dále podrobeny detailní analýze a jsou hledány taková
nastavení, která optimalizují jejich přesnost pro rušné prostředí, tak aby nebyla současně
snížena v prostředích jiných.
7.1
Dekódování řeči
Na úlohu detekce řečové aktivity lze nahlížet jako na problém hledání posloupnosti úseků
řeči a šumu W , která byla pronesena řečníkem a transformována na posloupnost pozorování O. Protože posloupnost W je procesem produkce řeči a následnou parametrizací
řečového signálu “zakódována” do posloupnosti pozorování O, a protože cílem je posloupnost řečových úseků obdržet zpět využitím posloupnosti O, lze proces hledání posloupnosti
W z posloupnosti pozorování O označit jako “dekódování”. Detekce řečové aktivity lze též
formulovat jako problém dekódování s maximální aposteriorní pravděpodobností1 [59].
Označme W = {w1 , w2 , . . . , wN } jako posloupnost úseků řeči ws a šumu wn a O =
{o1 , o2 , . . . , oT } jako posloupnost výstupních vektorů odvozených z řečového signálu, který
se snažíme klasifikovat. Úkolem detektoru přítomnosti řeči je najít posloupnost úseků řeči
a šumu Ŵ , která maximalizuje pravděpodobnost posloupnosti úseků řeči a šumu P (W |O)
pro pozorovanou posloupnost výstupních vektorů. Pro posloupnost Ŵ tedy platí
Ŵ = argmax P (W |O) = argmax
W
W
P (W )P (O|W )
,
P (O)
(7.1)
kde P (O|W ) je pravděpodobnost, že při vyslovení posloupnosti W bude generována posloupnost výstupních vektorů O, P (W ) je apriorní pravděpodobnost posloupnosti úseků
řeči a šumu W a P (O) je apriorní pravděpodobnost posloupnosti výstupních vektorů.
Protože pravděpodobnost P (O) není funkcí W , lze ji při hledání maxima 7.2 ignorovat.
Hledaná posloupnost úseků řeči a šumu Ŵ lze tedy určit maximalizací sdružené pravděpodobnosti P (W, O)
1
Maximum A posteriori Probability
59
60
KAPITOLA 7. DETEKCE NA BÁZI HMM
(7.2)
Ŵ = argmax P (W, O) = argmax P (W )P (O|W ).
W
W
Podmíněné rozdělení pravděpodobnosti P (O|W ) nese informaci o akustickém modelu a
apriorní rozdělení P (W ) nese informaci o předpokládaném výskytu řečových, či šumových
úseků, přičemž pravděpodobnostní rozdělení těchto pravděpodobností lze považovat za
určité stochastické zdroje znalostí o řešené úloze [59].
Z uvedeného vyplývá, že úloha detekce řečové aktivity může být rozdělena do následujících částí znázorněných na obrázku 7.1
• Provedení akustické analýzy řečového signálu s cílem určit posloupnost vektorů příznaků O.
• Vytvoření akustického modelu pro ocenění podmíněné pravděpodobnosti P (O|W ).
• Vytvoření modelu předpokládaného rozložení řečových a šumových úseků oceňující
pravděpodobnost P (W ).
• Nalezení nejpravděpodobnější posloupnosti slov aplikací účinné prohledávací strategie.
Řečový signál
Akustická
analýza
O
Akustický
model
P (O|W )
Model rozložení
řeči a šumu
P (W )
Prohledávací strategie
Ŵ = argmax P (W |O)
W
Rozpoznaná posloupnost Ŵ
Obrázek 7.1: Bloky systému pro dekódování řeči
7.2
Akustické modelování řeči pomocí HMM
Skryté Markovovy modely představují velmi efektivním způsob, jak získat co nejpřesnější
a nejrychlejší odhad podmíněné pravděpodobnosti P (O|W) pro libovolnou pozorovanou
posloupnost vektorů příznaků O s každou uvažovanou posloupností řečových a neřečových úseků. Jejich hlavní výhodou je, že jsou flexibilní, přesné a účinné. Díky flexibilitě
HMM je možné využívat modely i ve zcela jiných podmínkách, než ve kterých byly modely
trénovány (odlišné hlasy, odlišný způsob artikulace, odlišné tempo řeči, odlišné akustické
pozadí). Současně HMM umožňují dostatečně přesně odlišit podobné úseky řečového signálu s odlišným významem. A konečně účinnost HMM umožňuje nasazení v reálných
aplikacích, ve kterých musí být odezva klasifikátoru dostupná v reálném čase [59].
Princip metody modelování řeči Markovovými modely vychází z představy o vytváření
řeči. Při generování řeči člověkem si lze představit, že hlasové ústrojí je během krátkého
7.3. ANALÝZA MOŽNOSTÍ VYUŽITÍ HMM ZA ÚČELEM DETEKCE PŘÍTOMNOSTI ŘEČI61
časového intervalu (mikrosegmentů) v jednom z konečného počtu stavů artikulačních konfigurací. V uvažovaném mikrosegmentu je pak hlasovým ústrojím produkován krátký signál, který závisí na stavu artikulačního ústrojí a může být popsán určitými spektrálními
charakteristikami, jež jsou reprezentovány vhodnými příznaky (vektorem příznaků) [59].
Z představy o vytváření řeči vychází i konstrukce klasifikátoru založená na modelování řečového signálu pomocí Markovova procesu. Při tomto procesu jsou generovány dvě
vzájemně svázané časové posloupnosti náhodných proměnných, a to podpůrný Markovův řetězec, který je posloupností konečného počtu stavů, a řetězec vektorů příznaků, jež
reprezentují spektrální charakter krátkých úseků (mikrosegmentů) řečového signálu. Pro
tyto spektrální charakteristiky jsou vytvořeny “náhodné funkce”, které pravděpodobnostně
ohodnocují vztah charakteristik ke všem stavům. Předpokládá se, že v diskrétních časových okamžicích je proces v jediném stavu a lze jej pozorovat prostřednictvím “náhodné
funkce” korespondující s tímto stavem. Podpůrný Markovův řetězec pak mění stavy podle
odpovídajících pravděpodobnostních přechodů. Pozorovatel “vidí” jen výstup “náhodných
funkcí” a nemůže pozorovat stavy podpůrného Markovova řetězce [59].
a33
a22
Markovův
proces
1
a12
b2 (o1 )
Generovaná
posloupnost
a23
a24
2
o1
3
b2 (o2 )
b3 (o3 )
o2
o3
a44
a34
4
b4 (o4 )
o4
a55
a45
a35
b4 (o5 )
o5
5
a56
6
b5 (o6 )
o6
Obrázek 7.2: Ilustrace generování posloupnosti
Skrytý Markovův model je model Markovova procesu, na něhož je možné pohlížet jako
na pravděpodobnostní stavový automat, který v pravidelných intervalech mění svůj stav a
při vstupu do stavu j generuje výstupní vektor ot podle hustoty pravděpodobnosti bj (o).
Přechod ze stavu i do stavu j nastává s pravděpodobností aij . Během tohoto procesu je
tedy generována posloupnost výstupních vektorů. Na obrázku 7.2 je ilustrováno generování
posloupnosti o1 , o2 , o3 , o4 , o5 , o6 při přechodech mezi stavy 1, 2, 2, 3, 4, 4, 5, 6. Pro hustotní
funkci bj (o) bylo navrženo několik tvarů, které byly s úspěchem využity v klasifikaci řeči,
například Gaussova M -složková směs [58, 97].
7.3
Analýza možností využití HMM za účelem detekce
přítomnosti řeči
Úlohu detekce řečové aktivity pomocí HMM lze řešit mnoha různými způsoby. Součástí
této práce by mělo být navržení a srovnání těchto metod. Návrh většiny z nich vychází
z bloků systému pro dekódování řeči ilustrovaném na obrázku 7.1. Všechny navržené
metody vycházejí z vhodně zvolené akustické analýzy, která byla popsána v předešlé
části. Velmi důležitá je správná volba způsobu akustického modelování klasifikovaného
62
KAPITOLA 7. DETEKCE NA BÁZI HMM
Obrázek 7.3: Levo-pravý model
Obrázek 7.4: Ergodický model
Obrázek 7.5: Model dlouhé pauzy
Obrázek 7.6: Model krátké pauzy
signálu. Pro řešenou úlohu je nutné posoudit a zvolit vhodnou strukturu modelů, vhodné
části signálu, které budou modelovány. V neposlední řadě je také nutné zvolit klasifikační
algoritmus a způsob trénování modelů.
7.3.1
Výběr modelované části promluvy
Jak bylo řečeno výše, úloha detekce přítomnosti řeči spočívá v rozlišení úseků signálu,
kde je přítomná řeč nebo šum. Pro tento účel je nutné vhodným způsobem modelovat řečový signál. Nejjednodušší způsob je modelování pomocí dvou modelů - obecného modelů
řeči a obecného modelu šumu. Další možností je využití většího počtu specializovaných
modelů například pro různé typy šumu. Stejně tak jako šum lze takto modelovat řeč pomocí většího počtu modelů. Nabízí se otázka, jestli je vhodné použít spíše modely obecně
popisující řeč a šum nebo šum, či modelovat konkrétní typy šumu. Stejně tak je nutné
zjistit nejvhodnější způsob modelování řeči pro danou úlohu. V mezním případě můžeme
detekci řečové aktivity vnímat jako úlohu rozpoznávání řeči, kde by rozpoznané slova a
řečové pauzy byly popsány pouze jako řeč nebo šum. V takovém případě by pak mohla
být řeč modelovaná pomocí kratších fonetických jednotek – fonémů, difonu, trifonů, či
slabik nebo celých slov spojených do sebe. Předpokládané nevýhody takto postavených
detektorů řečové aktivity by byla jejich větší složitost, nutnost trénování na větším množství dat a menší schopnost generalizace. Naopak díky přesnějšímu modelování signálů lze
očekávat přesnější výslednou klasifikaci.
7.3.2
Struktura modelu
Na základě zkušenosti z oblasti rozpoznávání řeči, se dá předpokládat, že pro výslednou
funkčnost systému detekce řečové aktivity je zásadní výběr vhodné struktury modelu.
7.3. ANALÝZA MOŽNOSTÍ VYUŽITÍ HMM ZA ÚČELEM DETEKCE PŘÍTOMNOSTI ŘEČI63
Opět je nutné oddělit volbu struktury modelu pro řeč od volby vhodné struktury pro
šum.
Při modelování úseků mluvené řeči se využívají zejména levo-pravé Markovovy modely, které jsou zvláště vhodné pro modelování procesů, jejichž vývoj je spojen s postupujícím časem. Základní vlastností uvedených modelů je, že proces začíná příchodem
prvního spektrálního vzoru do počátečního stavu modelu a se vzrůstajícím časem dochází
k přechodům ze stavů s nižšími indexy do stavů s vyššími indexy nebo dochází k setrvání ve stejném stavu. Průchod modelem je tedy zleva doprava. Proces končí příchodem
posledního spektrálního vzoru, přičemž model se v tom okamžiku nachází v koncovém
stavu. Struktura levo-pravého modelu je ukázána na obrázku 7.3. Další otázkou je volba
vhodného počtu stavů modelů. Původní Vintsyukův a Bakisův model slova má počet
stavů odvozen od průměrného počtu mikrosegmentů ve slově (tj. 40 až 60 stavů při délce
mikrosegmentů 10ms) [59]. Přímá cesta modelem pak reprezentuje průměrné trvání slova,
přechody do stejného stavu berou v úvahu prodloužení slova a přechody do příštího stavu
dovolují zkrácení slova. Experimentálně bylo však zjištěno, že výrazným zredukováním
počtu stavů nebyla snížená přesnost rozpoznávání. Proto vhodný počet stavů modelů
mluvené řeči je ponechán na experimentální část této práce.
Pro modelování neřečových úseků se v systémech rozpoznávání řeči většinou používá
buď model krátké pauzy zobrazený na obrázku 7.6, který obsahuje pouze jeden emitující
stav nebo model dlouhé pauzy zobrazený na obrázku 7.5, který obsahuje 3 emitující stavy.
Vše vychází ze skutečnosti, že vlastnosti šumu jsou zcela odlišné od vlastností mluvené
řeči. Zatímco pro slova v mluvené řeči je charakteristický určitý vývoj, struktura řeči,
tak u šumu tato vlastnost většinou chybí. Situaci však komplikuje fakt, že za šum můžou
být považovány i určité neřečové události (šustění listu, zvuk blinkru auta, řazení převodovky,...), u kterých již může být pozorována určitá struktura. Zatímco šum, u kterého
se v průběhu času nemění jeho statistické vlastnosti je nejlepší modelovat jednostavovým
modelem, tak neřečovou událost je vhodnější modelovat více-stavovým modelem. Na základě povahy šumu je pak nutné zvolit buď levo-pravou strukturu nebo ergodický model,
který umožňuje přechody mezi libovolnými stavy, což je ukázáno na příkladu 5-stavového
ergodického modelu na obrázku 7.4. Vhodná volba struktury modelu šumu je ponechána
opět na experimentální část této práce.
Výslednou přesnost detektoru řečové aktivity může ovlivnit i počet směsí. Čím větší
počet směsí, tím je přesněji modelována hustota pravděpodobnosti modelované části signálu, což by mělo vést k přesnější klasifikaci podobných úseků. Nevýhodou je, že je nutno
použít větší množství trénovacích dat.
7.3.3
Klasifikační algoritmus
Úkolem klasifikace je zařazení jednotlivých segmentů signálů do daných tříd. Pomocí
skrytých Markovových modelu lze tento úkol vyřešit několika různými způsoby.
V případě, kdy je nutné klasifikovat daný segment nebo izolovanou řečovou promluvu,
je možné spočítat pravděpodobnost, jakou byla posloupnost pozorovaných vektorů generována modelem λ, tj. P (O|λ). Pro jednotlivé cesty Q stačí vynásobit jednotlivé pravděpodobnosti přechodů s pravděpodobnostmi výstupních vektorů. Protože cesty jsou skryté,
získáme výslednou pravděpodobnost součtem pravděpodobností přes všechny možné po-
64
KAPITOLA 7. DETEKCE NA BÁZI HMM
sloupnosti skrytých stavů tzn.
X
P (O|λ) =
P (O|Q, λ)P (Q|λ)
Q
=
X
πq1 bq1 (o1 )aq1 q2 bq2 (o2 ) . . . aqT −1 qT bqT (oT )
q1 ,q1 ,...,qT
=
X
Q
πq1
T
Y
bq(t) (ot )aq(t)q(t+1),
(7.3)
t=1
kde π je vektor pravděpodobností počátečního stavu [62]. Nicméně výpočet pomocí
vztahu 7.3 je neproveditelný, protože je příliš výpočetně náročný a už i pro malá T by
bylo nutno obrovské množství početních operací. Tento problém se řeší pomocí forwardbackward algoritmu.
Jiné řešení rovnice 7.3 spočívá v nalezení nejpravděpodobnějšího průchodu modelem,
tj.
)
(
T
Y
(7.4)
bq(t) (ot )aq(t)q(t+1) .
P (O|M ) = max πq1
Q
t=1
K vyřešení rovnice 7.4 se používá Viterbiův algoritmus, který je velmi podobný forwardbackward algoritmu, ale místo součtu se používá maximum.
Nevýhoda forward-backward algoritmu je možnost ocenění pouze celého segmentu
promluvy. Zatímco Viterbiho algoritmus najde sám vhodné hranice mezi jednotlivými
třídami, což v důsledku umožňuje jednoduší zobecnění pro klasifikace plynulé řeči. Proto
je tento algoritmus často upřednostňován.
Pro klasifikaci plynulé řeči se nejčastěji využívá algoritmus cestování žetonů2 , který je
určitým rozšířením Viterbiho algoritmu. Žeton je záznam, který reprezentuje uskutečněnou cestu rozpoznávací sítí z času 0 do času t. V čase nula je žeton umístěn do počátečního
uzlu sítě. Funkci algoritmu lze popsat dvěma základními kroky, které se stále opakují s příchodem každého nového vektoru parametrů. V prvním kroku se kopie každého žetonu ve
stavu i pošle do všech připojených stavů j a zároveň se zvýší logaritmická pravděpodobnost každé kopie. Ve druhé části algoritmu jsou postupně načteny žetony v jednotlivých
stavech a jsou zachovány pouze ty s nejvyšší pravděpodobností. Každý žeton putující
sítí obsahuje záznam popisující jeho cestu. Při standardním procesu dekódování se jeví
jako dostačující uchovávat pouze názvy konců slov, kterými daný žeton prošel. Pro účely
detekce řečové aktivity lze však uchovávat kompletní popis cesty žetonu, který obsahuje
časové hranice nalezených modelů, případně i stavů HMM. Podrobný popis algoritmu
cestování žetonů s detaily jeho realizace může být nalezen v [98, 59].
7.3.4
Způsob inicializace a trénování
Trénování HMM může probíhat mnoha různými způsoby v závislosti na úloze, ve které
se budou výsledné modely používat, a na trénovacích datech, které jsou k dispozici. Nejběžnější způsoby trénování se většinou zaměřují na modelované subslovní jednotky, které
se používají v rozpoznávání spojité řeči. Takový druh trénování je označován jako trénování vložených jednotek. Výhodou tohoto způsobu trénování je, že není potřeba znát
přesné hranice promluvy, které přísluší k trénovanému HMM. Stačí když je k trénovacím
2
Token Passing Algorithm
7.4. FONÉMOVÝ DETEKTOR ŘEČOVÉ AKTIVITY
65
akustickým datům známá transkripce obsahující pořadí vložených modelů. Ze subslovních
modelů se pak složí zřetězený model, který se trénuje jako celek. Tento druh trénování se
používá hlavně u rozpoznávačů řeči pro trénování fonémů nebo trifonů. Proto byl použit
i pro trénování fonémů využitých ve fonémovém detektoru řečové aktivity. Na základě
úvodních experimentů však bylo zjištěno, že při trénování pouze dvou modelů řeči a šumu
tento druh trénování vedl k velmi špatným výsledkům výsledného klasifikátoru. To byl i
důvod ke zvolení jiného postupu trénování založeného na prostém využití Baum-Welchova
algoritmu. Nevýhodou tohoto postupu byla nutnost získat hranice vzorů u trénovacích
promluv.
Základní myšlenka trénování parametrů skrytých Markovových modelů většinou vychází z metody maximální věrohodnosti a hledají se takové modely, které maximalizují
věrohodnostní funkci. Ta má tvar
λ̂ = argmax
λ
{Oe }E
e=1
E
X
logP (Oe |λ),
e=1
představuje soubor trénovacích promluv. Pro maximalizaci věrohodnostní
kde
funkce v podstatě neexistuje explicitní řešení a postupuje se většinou pomocí EM algoritmu. Ten zavádí funkci očekávání, jejíž maximalizací získáme nové parametry modelu
λ̄, které vedou k přírůstku věrohodnostní funkce. Iterativním postupem je pak možné
přiblížit se k hledaným parametrům modelu λ̂. Nevýhodou tohoto postupu je, že umožňuje dosáhnout pouze lokálního maxima. Proto je nutné provést také úvodní nastavení
parametrů modelů ve fázi inicializace.
Inicializace HMM může být opět provedena bez toho, aniž by bylo nutné znát přesné
hranice trénovacích částí promluv. Postupuje se většinou tak, že se provede uniformní
segmentace a položí se všechny vložené modely jako sobě rovnocenné. Tento postup se
používá téměř výhradně při inicializaci fonémů či trifonů v řečových rozpoznávačích, pro
trénování modelů pro detektory řečové aktivity se však osvědčil postup vycházejí z inicializace izolovaných položek. V takovém případě se provede uniformní segmentace pouze
v prvním cyklu a v dalších cyklech je nahrazena Viterbiho zarovnáním. Nevýhodou takového postupu je, že je nutné znát přesné hranice trénovacích položek.
7.3.5
Shrnutí analýzy
Na základě předchozích úvah bylo navrženo několik detektorů řečové aktivity. Byly navrhnuty detektory vycházející ze schématu 7.1 a dekódující pomocí algoritmu cestování
žetonu. Byl také vytvořen VAD, který klasifikuje na mírně jiném principu, pomocí vyhodnocování vzdáleností mezi HMM. První VAD je založený na přesném modelování
struktury řeči pomocí monofonů, další VAD využívají pouze dvou obecných modelů řeči
a šumu – levo-pravých nebo ergodických. Tyto detektory řečové aktivity jsou podrobně
popsány v následujících sekcích.
7.4
Fonémový detektor řečové aktivity
Základní myšlenkou fonémového detektoru řečové aktivity je velmi přesné modelování
struktury řeči pomocí zřetězení modelů všech monofonů. Tento způsob modelování řeči
66
KAPITOLA 7. DETEKCE NA BÁZI HMM
HMM
monofonů
Trénovací DB
Signály
a
b
Transkripce
Signál
Testovací DB
Signály
Transkripce
Akustický
model
Gramatika
z
a
b
z
sp
Dekodér
a
b
z
sp
Převod
1 (řeč)
Vyhlazení
vad(t)
0 (šum) vad(t)
Fonémový VAD
Vyhodnocení
testu
Obrázek 7.7: Blokové schéma fonémového VAD
je poměrně běžný v rozpoznávačích řeči. Rozdíl oproti klasickému rozpoznávání řeči je
v tom, že u takto provedeného detektoru řečové aktivity nebude brána v potaz slovní a
gramatická struktura jazyka. Ačkoliv využití této informace by zvýšilo přesnost klasifikace,
nejednalo by se již o obecně použitelný VAD. Výstupem dekodéru řeči bude samozřejmě
posloupnost modelů monofonů ticha/šumu, přičemž není důležitá jazyková smysluplnost
výstupní posloupnosti. Aby byl získán požadovány výstup, budou úseky řeči klasifikované
jako určitý foném interpretovány jako řeč a úseky příslušné k určitému modelu ticha jako
šum.
Fonémový detektor řečové aktivity vychází ze systému pro dekódování řeči, jehož blokové schéma je na obrázku 7.1, pouze s tím rozdílem, že blok modelu rozložení řeči a
šumu bude nahrazen obecným blokem jazykového modelu a posloupnost W bude značit posloupnost monofonů {wa , wb , . . . , wz } a mezislovní nebo řečové pauzy {wsp, wsil }.
Podrobné blokové schéma fonémového VAD je na obrázku 7.7, kde je jazykový model reprezentován prostřednictvím gramatiky. Ta umožňuje přechody mezi jednotlivými modely
monofonů {λa, λb , . . . , λz } a modely ticha {λsp, λsil } se stejnou pravděpodobností. K hledání nejpravděpodobnější cesty skrze rozpoznávací síť je opět použit algoritmus cestování
žetonů. Výstupem dekodéru je nejen posloupnost monofonů a modelů ticha Ŵ , ale také
posloupnosti jejich začátků Tb (Ŵ ) a konců Te (Ŵ ), jejichž členy jsou vypsány v rovnicích
7.6 a 7.7, tj.
Ŵ = {ŵ1 , ŵ2 , . . . , ŵN },
Tb (Ŵ ) = {tb (ŵ1 ), tb (ŵ2 ), . . . , tb (ŵN )},
Te (Ŵ ) = {te (ŵ1 ), te (ŵ2 ), . . . , te (ŵN )}.
(7.5)
(7.6)
(7.7)
Dále se předpokládá, že všechny monofony jsou součástí řečových úseků, a proto jsou
úseky promluvy, ke kterým náleží, označeny jako řeč. Tato transformace je na blokovém
schématu 7.7 provedena blokem “Převod”, jehož výstupem je hledaná posloupnost vad (t),
která v čase t klasifikuje pozorovanou promluvu jako řeč nebo šum, tj.
(
1 pro tb (ŵi ) < t ≤ te (ŵi )|wi∈{wa ,wb ,...,wz } ,
(7.8)
vad (t) =
0 pro tb (ŵi ) < t ≤ te (ŵi )|wi={wsp ,wsil } ,
přičemž ŵi je označení rozpoznaného i-tého monofonu nebo řečové pauzy, které jsou časově
ohraničeným okamžiky tb (ŵi ) a te (ŵi ), kde 1 ≤ i < N .
7.5. VAD VYHODNOCUJÍCÍ VZDÁLENOSTI HMM (DHMM)
67
Uvedený VAD nemívá velký počet chybných a krátkých zákmitů klasifikace, nicméně
i tak je výstup dekodéru vad (t) většinou vhodné vyhladit. K poslednímu kroku tohoto
algoritmu byl použit mediánový filtr 10-tého řádu. Konečným výstupem fonémového detektoru přítomnosti řeči je tedy vyhlazený vektor vad (t).
Asi nejpracnější součástí fonémového detektoru řečové aktivity je nutnost zkonstruovat fonémový rozpoznávač řeči, ze kterého jsou získávány modely monofonů, krátké a
dlouhé pauzy. Jelikož jde o poměrně standardní záležitost, je ponechán přesný popis této
problematiky na jiné publikace [78, 44].
7.5
VAD vyhodnocující vzdálenosti HMM (DHMM)
V předchozím textu byl popsán detektor vycházející z principu dekódování řečového signálu. V podstatě se jednalo o specializovaný rozpoznávač řeči. Motivací vytvoření detektoru popsaného v této kapitole je možnost modelovat části signálu, které obsahují
určitou strukturu bez nutnosti se zabývat akustickým modelováním celé promluvy, které
se může jevit pro úlohu detekce řečové aktivity jako nadbytečné. Navržený detektor vychází z principu srovnávání částí signálu s definovanými vzory vyjádřených pomocí HMM.
První model λn odpovídá šumu a druhý λs řeči. Vzory, HMM, jsou pak srovnávány pomocí
výpočtu jejich vzájemné vzdálenosti D(λs, λn) definované podle [62] jako
1
[logP (O|λs ) − logP (O|λn)],
(7.9)
T
kde T je počet vektorů parametrů aktuální vybrané části signálu. Ohodnocení míry přítomnosti řeči je prováděno v pravidelných intervalech pro vybírané části promluvy tak,
že je nejprve vybrán úsek promluvy na začátku signálu, přičemž se tento výběr posunuje, až je dosaženo konce promluvy. Jde o stejný princip jaký je využit pro krátkodobou
analýzu signálu při kroku parametrizace řeči. Výpočet pravděpodobnosti s jakou HMM
generuje příslušný úsek řeči nebo šumu, logP (O|λ), může být proveden pomocí forward
procedury nebo ekvivalentně pomocí Viterbiho algoritmu. Výstupem výpočtu je diskriminační funkce odpovídající rozdílům pravděpodobnosti predikce příslušnosti daného úseku
signálu k řeči či šumu. Postup detekce řečové aktivity by se dal shrnout v následujících
bodech
D(λs, λn) =
1. Rozdělení signálu – řečový signál je nejprve rozdělen do I překrývajících se částí
{O1 , O2 , . . . , OI }, podobně jako u segmentování signálu při parametrizaci. Části
signálu jsou však delší a obsahují více vektorů parametrů, tj. Oi = {oi1 , oi2 , . . . , oiT }.
Každá část signálu Oi začíná v čase tb (Oi ), přičemž následující část začíná v čase
tb (Oi+1 ) =te (Oi).
2. Výpočet vektorů pravděpodobností – pro každou část signálu je vypočtena
pravděpodobnost s jakou byla daná část generována. Pravděpodobnosti jsou vypočteny pomocí forward procedury nebo Viterbiho algoritmu, které jsou popsány
v literatuře [97, 59]. Výstupem tohoto kroku jsou vektory
1
1
1
Ps (Oi ) =
P (O1 |λs), P (O2|λs), · · · , P (OI|λs ) ,
(7.10)
T
T
T
68
KAPITOLA 7. DETEKCE NA BÁZI HMM
Řeč
te(O1 )
tb (O1 )
O1
Rozdělení signálu
tb (O2 )
te(O2 )
O2
tb (O3 ) te(O3 )
O3
Pravděpodobnost
šumu
P (O1 |λn) P (O2 |λn) P (O3 |λn)
...
...
...
Pravděpodobnost
řeči
P (O1 |λs) P (O2 |λs) P (O3 |λs)
...
...
...
...
...
...
Diskriminační
funkce
D(O1 )
D(O2 )
D(O3 )
Obrázek 7.8: Výpočet diskriminační funkce
Pn(Oi ) =
1
1
1
P (O1 |λn), P (O2|λn), · · · , P (OI|λn) .
T
T
T
(7.11)
3. Diskriminační funkce – vystihuje poměr míry přítomnosti šumu a řeči a je vypočítaná jako rozdíl logaritmů pravděpodobností pomocí vztahu 7.9, tj.
D(Oi , λs , λn ) = Ps (Oi) − Pn(Oi ).
(7.12)
4. Optimalizace prahu – pro vypočítanou diskriminační funkci je na trénovacích
datech hledána optimální hodnota prahu pomocí ROC křivky. V případě, že by
byla hodnota prahu získána jiným způsobem, může být tento krok vynechán.
5. Výpočet prahu – existuje několik metod vhodných pro online nebo offline použití. V prezentovaném algoritmu byla využita procedura vhodná pro offline využití.
Výpočet prahu je proveden z a% nejmenších hodnot a b% nejvyšších hodnot, ze
kterých jsou vypočteny střední hodnoty µa a µb . Práh T hr je získán z následujícího
vztahu
T hr = l(µb − µa ) + µa , l ∈ (0, 1).
(7.13)
6. Klasifikace – probíhá pomocí rozdělení hodnot diskriminační funkce. Části signálu,
které mají větší hodnotu diskriminační funkce než je prahová hodnota, jsou označeny
jako šum. Části signálu, které mají menší hodnotu, jsou označeny jako řeč, tj.
(
1 pro D(Oi , λs , λn ) > T hr, kde tb (Oi ) < t ≤ te (Oi ),
(7.14)
vad (t) =
0 pro D(Oi , λs , λn ) ≤ T hr, kde tb (Oi ) < t ≤ te (Oi ),
přičemž Oi je i-tá část signálu časově ohraničená okamžiky tb (Oi ) a te(Oi ), kde
1 ≤ i < I.
7.6. VAD MODELUJÍCÍ PROMLUVY POMOCÍ DVOU HMM
Trénovací DB
Gramatika
HMM
Signály
řeč
Transkripce
šum
69
Vyhlazení
Signál
vad(t)
Akustický
model
vad(t)
Dekodér
HMM VAD
Testovací DB
Signály
Vyhodnocení
testu
Transkripce
Obrázek 7.9: Blokové schéma VAD modelující promluvy pomocí dvou modelů
7. Vyhlazení – výstup dekodéru vad(t) v tomto bodě obsahuje někdy i větší množství
krátkých a chybných zákmitů, a proto je vhodné tyto zákmity vyhladit. K poslednímu kroku tohoto algoritmu byl použit mediánový filtr 10-tého řádu. Konečným
výstupem detektoru přítomnosti řeči je tedy vyhlazený vektor vad (t).
7.6
VAD modelující promluvy pomocí dvou HMM
Inspirací pro tento VAD byla úvaha nad nutností přesného modelování řeči u fonémového
VAD a snaha o zjednodušení a docílení větší schopnosti generalizace. Předpokládá se, že
je možné řečové a šumové úseky rozdělit na menší části příslušející pouze k řeči či šumu,
přičemž na tyto menší části může být v řečových úsecích nahlíženo jako na sjednocení
charakteristik více monofonů.
Navržený detektor řečové aktivity modeluje signál pomocí dvou HMM reprezentující
řeč a šum. K modelování řečových úseků promluv byl použit model řeči λs a k modelování neřečových úseků promluv pak model šumu λn. Možné přechody mezi modely jsou
vyjádřeny prostřednictvím regulární gramatiky, která umožňuje libovolné přechody mezi
modely. Expandováním gramatiky pomocí HMM řeči a šumu se vytvoří akustický model
λW reprezentovaný rozpoznávací sítí, která je pak využita při dekódování řeči. Jednotlivé
bloky detektoru jsou ukázány na obrázku 7.9, příklad rozpoznávací sítě pro případ, kdy
jsou použity ergodické modely, je na obrázku 7.10.
Jak bylo řečeno v odstavci 7.1, úkolem detektoru přítomnosti řeči je najít posloupnost
úseků řeči a šumu Ŵ , která maximalizuje pravděpodobnost P (W |O). To je ekvivalentní
maximalizaci pravděpodobnosti P (O|λW ), tj. pravděpodobnosti, jakou byla výstupní posloupnost O generována akustickým modelem λW vytvořeného pomocí spojení modelů
řeči λs a šumu λn. Pro posloupnost Ŵ tedy platí
Ŵ ≈ argmax P (O|λW ).
W
(7.15)
70
KAPITOLA 7. DETEKCE NA BÁZI HMM
Model šumu
Model řeči
Obrázek 7.10: Rozpoznávací síť s ergodickými modely řeči a šumu
K výpočtu Ŵ lze využít algoritmus cestování žetonů. Výstupem tohoto algoritmu je
posloupnost Ŵ a současně také posloupnosti začátků Tb (Ŵ ) a konců Te (Ŵ ) těchto úseků.
Členy posloupností jsou rozepsány v rovnicích 7.6 a 7.7 a jejich význam je ilustrován na
obrázku 7.11. Znalost Tb (Ŵ ) a Te(Ŵ ) pak vede k získání posloupnosti vad (t), která v čase
t klasifikuje pozorovanou promluvu jako řeč ws nebo šum wn , tj.
(
1 pro tb (ŵi ) < t ≤ te(ŵi )|wi =ws ,
vad (t) =
(7.16)
0 pro tb (ŵi ) < t ≤ te(ŵi )|wi =wn ,
přičemž ŵi je označení rozpoznaného i-tého úseku, který je časově ohraničený okamžiky
tb (ŵi ) a te (ŵi ), kde 1 ≤ i < N .
Podobně jako u ostatních VAD na bázi skrytých Markovovských modelů výstup dekodéru vad (t) ani v tomto případě nemívá většinou velké množství krátkých a chybných
zákmitů. Přesto je vhodné toto menší množství zákmitů vyhladit. K poslednímu kroku
tohoto algoritmu byl použit mediánový filtr 10-tého řádu. Konečným výstupem HMM
detektoru přítomnosti řeči je tedy vyhlazený vektor vad (t).
7.7
Experimenty
Navržené detektory řečové aktivity byly podrobeny sadě experimentů, jejichž cílem bylo
analyzovat vliv nastavení různých parametrů navržených detektorů a struktury HMM na
jejich úspěšnost a chování za přítomnosti rušivého šumu. Analýza nastavení parametrů
byla provedena na testovací množině CZKCCVAD. Výsledné chování optimálně nastavených VAD pak bylo otestováno také na množinách SPEECONVAD a CAR2ECSVAD, ve
kterých byly obsaženy promluvy, které se výrazněji odlišují od trénovací množiny. Proto
tyto testy vypovídají o možnostech nasazení VAD v reálných podmínkách. Kromě navržených způsobů klasifikace byl současně testován vliv parametrizace, a to ve všech provedených experimentech. Byly použity pouze perspektivní parametrizace, u kterých se potvrdila dobrá funkčnost na předcházejících experimentech s GMM VAD – mel-frekvenční
kepstrální koeficienty, kepstrální a spektrální PLP koeficienty a koeficienty získané metodou RASTA.
7.7.1
Fonémový detektor řečové aktivity
Pro fonémový HMM detektor řečové aktivity byla provedena analýza počtu směsí HMM
fonémů. Dále byl VAD využívající modely s optimálním počtem směsí testován na pro-
ŵ2
ŵ3
ŵ4
ŵ5
te (ŵ6 )
te (ŵ5 )
tb (ŵ6 )
te (ŵ3 )
tb (ŵ4 )
te (ŵ1 )
tb (ŵ2 )
tb (ŵ1 )
ŵ1
te (ŵ4 )
tb (ŵ5 )
71
te (ŵ2 )
tb (ŵ3 )
7.7. EXPERIMENTY
ŵ6
Obrázek 7.11: Ilustrace hranic řečových úseků u HMM VAD
mluvách z množiny CZKCCVAD včetně promluv obsahujících neřečové události. Výsledná
funkčnost byla otestována na signálech z množiny CAR2ECSVAD a SPEECONVAD obsahující promluvy celých vět, číslic a další typy řečových položek.
Jelikož se v podstatě jedná o specializovaný rozpoznávač řeči, základem pro trénování
i klasifikaci byly nástroje z balíku HTKToolkit. Modely byly trénovány klasickým postupem používaným pro trénování modelů fonémových rozpoznávačů řečí, který je popsán
například v [97] nebo [44]. Pro trénování byla použita celá databáze CZKCC s tím, že
byly vyjmuty nahrávky od všech mluvčích, kteří se vyskytují v databázi CZKCCVAD.
Optimalizace počtu směsí
Pro každou parametrizaci byly trénovány fonémy nejprve bez směsí. Následně byl v každém trénovacím kroku zvyšován počet směsí od 8 do 32. S takto získanými fonémy bylo
provedeno vyhodnocení funkčnosti pro prostředí ve stojícím automobilu, stojícím automobilu se zapnutým motorem a v jedoucím automobilu. Výsledky jsou uvedeny v tabulkách
7.1a a 7.1b. Zvyšování počtu směsí se projevilo rozdílně pro každou použitou parametrizaci. Na rozdíl od experimentů s DHMM VAD a HMM VAD, tak zvětšování počtu směsí
vede jednoznačněji ke snížení chyby klasifikace, což je ve shodě se zkušenostmi z oblasti
rozpoznávání řeči. Pro kepstrální PLP koeficienty a PLP koeficienty RASTA vedlo zvětšení počtu stavů ke snížení celkové chyby klasifikace ERR ve všech prostředích kromě
prostředí stojícího automobilu se zapnutým motorem, kde je nejmenší chyba klasifikace
dosažena pro kepstrální PLP koeficienty u modelů bez směsí. Použití mel-kepstrálních
a spektrálních PLP koeficientů vedlo k rozumným výsledkům pouze na signálech z tiššího prostředí. V prostředí jedoucího automobilu vedlo navýšení počtu směsí ke zmenšení
chyby klasifikace hlavně v neřečových úsecích, přičemž zmenšení chyby klasifikace se nejvíce projevilo u PLP koeficientů RASTA. Závěrem provedeného experimentu je zjištění,
že je optimální volbou použítí vysokého počtu směsí fonémů pro všechny parametrizace.
Vliv rušného prostředí automobilu
Chování VAD bylo sledováno pomocí rozšířených kritérií na nahrávkách z prostředí automobilu. Získané hodnoty chyb klasifikace jsou uvedeny v tabulkách 7.2a a 7.2b. Nejnižší
72
KAPITOLA 7. DETEKCE NA BÁZI HMM
RCPLP
CPLP
Počet ERR ERS ERR ERS
směsí [%]
[%]
[%]
[%]
0
13.3 0.6
38.7
1.9
± 8.7
8
16
32
± 1.4
± 22.8
± 4.1
RSPLP
SPLP
MFCC
ERR ERS ERR ERS ERR ERS
[%]
[%]
[%]
[%]
[%]
[%]
21.6
0.6
12.0
4.4
11.6
4.0
± 12.9
± 1.1
± 10.6
± 3.9
± 7.9
± 4.0
10.8
0.9
15.6
10.7
15.8
1.3
14.7
3.7
14.8
9.0
± 8.3
± 1.8
± 11.4
± 11.1
± 9.9
± 1.5
± 10.9
± 3.4
± 10.0
± 9.8
11.2
0.7
12.7
5.4
13.4
1.0
15.3
2.8
13.8
6.4
± 9.0
± 1.7
± 11.4
± 6.7
± 9.3
± 1.3
± 11.9
± 2.9
± 10.0
± 7.6
11.4
0.8
13.4
5.7
13.1
1.0
18.6
2.2
14.1
6.4
± 9.4
± 1.9
± 12.3
± 6.6
± 9.2
± 1.1
± 13.2
± 2.8
± 9.7
± 8.3
(a) Prostředí stojícího automobilu
RCPLP
CPLP
RSPLP
SPLP
MFCC
Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS
směsí [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
0
10.9 9.5
22.3
7.5 12.3 4.1
56.2
1.2
38.1
6.1
8
16
32
± 6.1
± 6.7
± 20.1
± 5.8
± 9.5
± 3.2
± 26.1
± 2.0
± 29.1
± 6.5
11.0
9.9
14.4
9.3
8.5
4.2
58.6
1.3
23.6
6.4
± 6.4
± 6.7
± 11.2
± 5.9
± 6.1
± 2.9
± 24.2
± 2.0
± 20.7
± 5.0
8.9
8.0
13.0
9.1
6.7
4.3
56.0
1.8
25.1
7.0
± 5.8
± 6.2
± 10.6
± 5.8
± 4.4
± 2.7
± 26.0
± 2.4
± 21.4
± 6.5
8.3
7.5
11.3
9.1
5.7
4.1
53.3
1.8
22.7
7.1
± 5.3
± 5.7
± 8.0
± 5.8
± 3.0
± 2.8
± 28.2
± 2.8
± 21.1
± 6.5
(b) Prostředí jedoucího automobilu
Tabulka 7.1: Analýza vlivu počtu směsí modelů fonémového HMM VAD
celkové chyby klasifikace ERR bylo dosaženo použitím parametrizace RSPLP pro prostředí jedoucího automobilu a RCPLP pro prostředí stojícího automobilu. Naopak parametrizace SPLP vedla k selhání VAD v rušném prostředí jedoucího automobilu. Nejmenší
celková chyba byla dosažena v rušnějším prostředí, což lze vysvětlit složením trénovací
množiny. U nejúspěšnější konfigurace využívající RCPLP a RSPLP lze v tišším prostředí
pozorovat, že chybně je klasifikován hlavně šum, a to především díky prodloužení predikce
řečových úseků, tzn. vysoká hodnota OVB, nebo kompletním vynecháním úseků šumu a
jeho nesprávnou predikcí jako řeč, tzn. vysoká chyba MIN. V rušnějším prostředí vzniká
chyba u uvedených parametrizací hlavně díky zkracování řečových úseků, tzn. díky vysoké
chybě TRB.
Neřečové události
Fonémový VAD s modely s počtem 32 směsí byl dále testován na signálech obsahujících
různé neřečové události. Dosažené celkové chyby ERR a chyby v řeči ERS jsou uvedeny
v tabulkách 7.3a až 7.3f. Jsou patrné velké rozdíly při použití jednotlivých parametrizací, kdy použití spektrálních a kepstrálních PLP koeficientů RASTA vede téměř vždy
k velmi nízké chybě klasifikace. Zpracování signálů pomocí spektrálních PLP koeficientů
vede naopak k vysoké chybě klasifikace. Srovnají-li se chyby klasifikace neřečových udá-
7.7. EXPERIMENTY
73
Parame- ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
trizace [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
RCPLP 11.4
0.8
10.5
0.4
0.3
0.2
0.0
3.5
1.2
1.6
4.2
RSPLP
CPLP
± 9.4
± 1.9
± 8.9
13.1
1.0
12.1
± 9.2
± 1.1
± 9.3
13.4
5.7
7.7
± 12.3
MFCC
SPLP
± 6.6 ± 11.2
14.1
6.4
7.6
± 9.7
± 8.3
± 8.6
18.6
2.2
16.4
± 13.2
± 2.8 ± 13.7
± 1.6 ± 0.8 ± 0.6 ± 0.0
0.1
0.6
0.3
0.0
± 0.4 ± 0.9 ± 0.7 ± 0.0
0.7
2.3
0.4
2.3
± 1.9 ± 2.7 ± 2.3 ± 6.0
0.5
2.2
0.1
3.6
± 1.3 ± 2.9 ± 0.5 ± 7.8
0.2
1.7
0.2
0.0
± 1.6 ± 2.3 ± 0.6 ± 0.0
± 5.9 ± 1.8 ± 5.6
3.6
1.7
2.8
± 5.1 ± 1.8 ± 6.6
1.2
1.2
1.6
± 5.3 ± 1.1 ± 7.5
0.7
0.8
1.4
± 3.2 ± 1.4 ± 6.4
2.4
1.1
2.4
± 3.8
4.1
± 4.0
3.8
± 5.7
4.7
± 4.5
10.5
± 7.9 ± 1.7 ± 7.4 ± 10.8
(a) Prostředí stojícího automobilu
Parame- ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
trizace [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
RSPLP
5.7
4.1
1.6
1.0
2.7
0.4
0.0
0.9
0.3
0.4
0.0
RCPLP
CPLP
MFCC
± 3.0
± 2.8
± 2.0
8.3
7.5
0.8
± 5.3
± 5.7
± 1.1
11.3
9.1
2.3
± 8.0
± 5.8
± 5.8
22.7
7.1
15.6
± 21.1
SPLP
53.3
± 28.2
± 6.5 ± 23.7
1.8
51.5
± 2.8 ± 30.2
± 1.0 ± 2.3 ± 0.5 ± 0.0
1.6
2.7
0.2
2.9
± 1.3 ± 2.1 ± 0.5 ± 5.3
1.5
3.3
0.5
3.8
± 1.4 ± 2.9 ± 1.0 ± 6.7
1.0
2.8
0.3
2.9
± 1.1 ± 2.8 ± 0.4 ± 6.5
0.2
1.2
0.4
0.0
± 0.6 ± 2.1 ± 0.8 ± 0.2
± 1.8 ± 0.4 ± 1.0
0.6
0.1
0.0
± 1.0 ± 0.2 ± 0.0
0.8
0.7
0.2
± 2.5 ± 1.7 ± 0.5
4.0
2.0
1.3
± 0.0
0.0
± 0.0
0.6
± 3.5
8.3
± 8.1 ± 5.2 ± 3.2 ± 17.4
6.1
2.8
11.8
30.8
± 9.8 ± 4.8 ± 8.7 ± 27.4
(b) Prostředí jedoucího automobilu
Tabulka 7.2: Chyby klasifikace optimálně nastaveného fonémového HMM VAD
lostí s chybami dosaženými u signálů neobsahujících neřečové události, k výraznějšímu
nárůstu chyby klasifikace dochází pouze u signálů obsahujících slyšitelné dýchání a listování papírem.
Další typy řečových položek
Modely fonémů byly získány na databázi CZKCC. Bylo proto nutné ověřit obecnou funkčnost VAD i na signálech obsahujících jiné rušivé prostředí a jiné typy řečových položek.
Výsledky chyb klasifikace ERR a ERS pro množiny CAR2ECSVAD a SPEECONVAD
jsou v tabulkách 7.4a, 7.4b a 7.4c, je patrné že při využití koeficientů metodou RASTA
jsou dosaženy dobré výsledky i na těchto množinách.
Shrnutí
Byl navržen a otestován VAD, který vychází z fonémového rozpoznávače řeči. Dosahuje
velmi nízkých chyb klasifikace zvláště na nahrávkách z velmi rušného prostředí jedoucího
automobilu, ale také na promluvách obsahujících neřečové události. Jako nejoptimálnější
74
KAPITOLA 7. DETEKCE NA BÁZI HMM
Parame- ERR ERS
trizace
[%]
[%]
RSPLP
6.4
3.0
RCPLP
CPLP
MFCC
SPLP
± 2.3
± 1.5
8.2
7.1
± 5.0
± 5.6
13.0
11.8
± 6.8
± 7.4
15.9
8.6
± 10.2
± 4.6
39.5
1.7
± 26.3
± 1.9
(a) Blinkr
RSPLP
CPLP
SPLP
MFCC
RSPLP
CPLP
SPLP
± 14.6
± 1.1
12.6
9.1
± 7.8
± 6.0
17.1
1.0
± 14.3
± 1.0
17.4
5.0
± 16.9
± 4.3
22.3
3.6
± 16.1
± 4.7
(b) Dýchání
Parame- ERR ERS
trizace
[%]
[%]
MFCC
19.1
3.7
RCPLP
Parame- ERR ERS
trizace
[%]
[%]
RCPLP 12.4
0.9
± 15.6
± 4.6
22.7
0.8
± 16.8
± 1.1
24.2
1.2
± 14.8
± 1.2
32.8
6.2
± 24.2
± 8.3
40.8
0.3
± 12.4
± 0.6
(d) Listování
CPLP
MFCC
SPLP
RCPLP
CPLP
MFCC
SPLP
± 2.7
± 2.8
6.2
5.1
± 2.7
± 3.4
11.1
9.4
± 6.7
± 6.6
24.2
8.3
± 16.6
± 8.6
42.3
2.0
± 29.3
± 2.3
(c) Klapání
Parame- ERR ERS
trizace [%]
[%]
RCPLP 5.6
5.3
RSPLP
Parame- ERR ERS
trizace
[%]
[%]
RSPLP
5.2
3.4
± 0.1
± 0.2
8.1
4.8
± 0.2
± 0.4
10.9
10.7
± 2.7
± 3.0
13.7
13.6
± 0.0
± 0.0
23.2
3.6
± 7.8
± 0.5
Parame- ERR ERS
trizace
[%]
[%]
RCPLP
8.0
0.7
RSPLP
MFCC
CPLP
SPLP
± 9.7
± 0.9
9.7
1.1
± 8.4
± 0.8
14.1
8.7
± 6.0
± 5.6
17.4
6.2
± 17.2
± 5.0
23.0
3.1
± 9.3
± 3.7
(f) Jiné neřečové události
(e) Řazení
Tabulka 7.3: Úspěšnost fonémového HMM VAD u promluv obsahujících různé neřečové
události.
Parame- ERR ERS
trizace
[%]
[%]
RCPLP
9.6
0.4
± 5.4
RSPLP
CPLP
SPLP
MFCC
Parame- ERR ERS
trizace
[%]
[%]
RCPLP
7.9
1.8
± 0.8
13.6
0.4
± 8.5
± 0.8
31.0
18.6
± 20.3
± 19.6
47.2
0.0
± 15.1
± 0.1
62.3
22.0
± 20.8
± 25.4
(a) CAR2ECSVAD
± 5.9
RSPLP
SPLP
CPLP
MFCC
Parame- ERR ERS
trizace
[%]
[%]
RCPLP
5.3
0.4
± 2.1
10.9
2.1
± 7.9
± 2.4
18.8
2.2
± 15.5
± 3.3
29.3
21.0
± 21.8
± 22.1
37.7
23.3
± 21.4
± 22.3
(b) Číslice (SPEECONVAD)
± 3.8
RSPLP
SPLP
CPLP
MFCC
± 1.0
8.9
0.5
± 5.5
± 0.9
13.0
0.5
± 11.5
± 1.0
28.1
22.9
± 23.5
± 23.6
33.8
21.0
± 22.6
± 23.4
(c) Věty (SPEECONVAD)
Tabulka 7.4: Úspěšnost fonémového HMM VAD na dalších typech řečových položek.
7.7. EXPERIMENTY
75
0.8
0.8
0.8
0.6
0.6
0.6
0.4
TP
1
TP
1
TP
1
0.4
3 stavy
5 stavů
7 stavů
9 stavů
0.2
0
0
0.2
0.4
0.6
FP
0.4
3 stavy
5 stavů
7 stavů
9 stavů
0.2
0
0.8
(a) Stojící automobil
1
0
0.2
0.4
0.6
FP
3 stavy
5 stavů
7 stavů
9 stavů
0.2
0
0.8
(b) Zapnutý motor
1
0
0.2
0.4
0.6
FP
0.8
1
(c) Jedoucí automobil
Obrázek 7.12: Vliv zvyšování počtu stavů modelů na ROC charakteristiky pro DHMM
VAD s CPLP koeficienty v uvedených prostředích.
nastavení se ukázalo použití většího počtu směsí, což je ve shodě se zkušenostmi s rozpoznáváním řeči. Použití spektrálních a kepstrálních koeficientů RASTA vedlo k velmi
dobrým výsledkům, naopak v případě využití MFCC parametrizace byla překvapující vysoká chyba v prostředí automobilu. Nevýhoda testovaného VAD je jeho větší složitost, ale
ta je plně vyvážena velmi nízkou chybou klasifikace.
7.7.2
VAD vyhodnocující vzdálenosti HMM (DHMM)
Nejprve byl analyzován vliv počtu stavů a směsí modelů na velikost chyb klasifikace,
dále byla zjištěna optimální hodnota prahu a nakonec byly nastavené VAD otestovány na
množinách obsahujících promluvy s různou úrovní šumu.
Implementace
Pro trénování byly použity nástroje z HTKTool, implementace detektoru je součástí této
práce. Pro výpočet pravděpodobností P (O|λ) byla nejprve využita forward procedura.
To sice vedlo k akceptovatelným výsledkům, nicméně využití Viterbiho algoritmu vedlo
k mírně menší chybě klasifikace a větší rychlosti algoritmu. Předpokládám, že jedním
z důvodů může být přesnější výpočet pravděpodobnosti P (O|λ), respektive log(P (O|λ)),
protože využití logaritmu nevedlo k problémům s přesností vyčíslení. Výpočet pomocí
forward procedury vedl k nepřesným výsledkům, pravděpodobně kvůli problémům s přesností použitého datového typy. Nepomhlo ani normování mezivýsledků algoritmu podle
publikace [62].
76
KAPITOLA 7. DETEKCE NA BÁZI HMM
1
0.8
TP
0.6
0.4
0.2
ROC pro CPLP
0
0
0.2
0.4
0.6
0.8
1
FP
Obrázek 7.13: Nastavení prahu pro DHMM VAD pomocí ROC charakteristiky
Analýza optimálního počtu stavů a směsí modelů
Výpočet vzdáleností mezi modelem řeči a šumu vede k získání diskriminační funkce, která
odpovídá míře rozdílnosti mezí predikcí příslušnosti segmentu k řeči či šumu. Ke zjištění
optimálního nastavení VAD byly využity ROC charakteristiky, které popisují dynamiku
diskriminační funkce, a to pro všechny testované počty stavů a směsí HMM. Analýza
byla provedena na testovacích množinách ze třech různých prostředí a pěti parametrizací. V grafech 7.12a, 7.12b a 7.12c jsou ukázány ROC charakteristiky pro případ, kdy
byly použity kepstrální PLP koeficienty a HMM s normálním rozložením, tj. bez většího počtu směsí. ROC charakteristika se liší pro jednotlivá prostředí a vyplývá z ní, že
diskriminační míra nejlépe rozlišuje řečovou aktivitu v prostředí stojícího automobilu se
zapnutým motorem. Pro prostředí stojícího automobilu a jedoucího automobilu jsou pak
ROC charakteristiky posunuté mírně dolů doprava, což značí mírné zhoršení dynamiky
diskriminace. Při změně počtu stavů HMM se mění i tvar ROC charakteristiky, v každém
z analyzovaných prostředí je změna jiná, nicméně zvýšování počtu stavů, až do sedmi
stavů, vede většinou k posunu charakteristiky doleva nahoru, tzn. ke zlepšení dynamiky,
9 stavů pak dynamiku již zhoršuje. Optimální se jeví použít 7-stavové modely, které vykazují pro koeficienty CPLP nejlepší vlastnosti ROC charakteristiky. V příloze v grafech
A.2a až A.2l jsou zobrazeny ROC charakteristiky pro další parametrizace pro modely od
3 do 9 stavů. Každá z ROC charakteristik příslušející k dané parametrizaci vykazuje jiný
průběh, přičemž počet stavů tento průběh ovlivňuje. I když ve většině případů je jeho
změna spíše menší. Jelikož je hledáno nastavení vedoucí ke zvýšení robustnosti detektoru,
budou upřednostňovány takové hodnoty, které zlepší chování VAD především v rušnějším
prostředí. Pro DHMM VAD s parametrizací CPLP se jeví optimální použít 7 stavové modely se 4 směsmi, pro MFCC 7 stavové modely s 16 stavy, pro RCPLP 3 stavové modely
s 16 stavy, pro SPLP nemá zvyšování počtu stavů ani směsí vliv na zlepšení dynamiky
diskriminační křivky a nejlepší výsledky jsou dosaženy se 3 stavy bez směsí, pro RSPLP
je pak nejlepší použít 7 stavové modely bez většího počtu směsí. Při použití různých parametrizací jsou tedy poměrně velké rozdíly. Zatímco u kepstrálních koeficientů RASTA
nevede navyšování počtu stavů ke zlepšení dynamiky diskriminační funkce, u spektrálních
koeficientů RASTA je situace obrácená a navyšování počtu stavů má výraznější vliv na
zlepšení dynamiky diskriminační funkce.
7.7. EXPERIMENTY
77
Parame- ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
trizace [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
CPLP 13.7 5.0
8.7
0.2
3.1
1.7
0.0
0.7
3.9
2.3 1.8
± 8.3
MFCC
14.1
± 8.1
RCPLP
14.4
± 9.0
SPLP
17.9
± 8.6
RSPLP
20.9
± 8.0
± 4.2 ± 6.9
4.5
9.6
± 3.5 ± 7.2
4.5
9.9
± 7.2 ± 6.2
9.4
8.5
± 4.9 ± 6.4
13.7
7.2
± 7.3 ± 4.2
± 1.5 ± 2.6 ± 3.1 ± 0.0
0.2
2.9
1.4
0.0
± 1.5 ± 2.3 ± 2.2 ± 0.0
0.4
2.1
2.0
0.0
± 3.1 ± 3.7 ± 3.8 ± 0.0
0.4
6.6
2.4
0.0
± 2.2 ± 4.0 ± 3.1 ± 0.0
0.2
9.1
4.3
0.1
± 1.2 ± 6.8 ± 4.4 ± 0.9
± 2.9 ± 2.2 ± 6.1
0.9
4.2
2.5
± 3.1 ± 2.3 ± 6.5
1.0
3.8
2.3
± 2.8 ± 2.5 ± 5.1
0.6
4.4
1.6
± 2.2 ± 2.8 ± 5.5
0.5
4.4
1.2
± 2.1 ± 2.4 ± 3.1
± 2.3
2.0
± 2.3
2.8
± 2.6
1.9
± 2.2
1.1
± 1.5
(a) Prostředí stojícího automobilu
Parame- ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
trizace [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
RCPLP 9.3
3.7
5.6
0.2
3.0
0.6
0.0
0.9
2.2
2.4 0.0
± 5.5 ± 2.9
MFCC
CPLP
SPLP
12.6
7.5
± 7.5 ± 3.1
± 7.9
5.0
7.7
± 6.6 ± 3.0
12.7
± 6.5
12.7
RSPLP
± 5.5
5.1
4.4
8.3
± 6.2 ± 2.6
± 5.9
23.8
2.5
21.3
± 11.8 ± 2.3 ± 12.6
± 0.5 ± 2.6 ± 0.8 ± 0.0
0.2
4.4
0.5
0.0
± 0.6 ± 2.6 ± 0.7 ± 0.0
0.2
4.1
0.6
0.0
± 0.6 ± 2.4 ± 1.0 ± 0.0
0.1
4.2
0.1
0.0
± 0.3 ± 2.4 ± 0.3 ± 0.0
0.0
1.7
0.8
0.0
± 0.1 ± 1.8 ± 0.9 ± 0.0
± 1.6 ± 1.0 ± 3.6
0.2
2.2
5.1
± 0.6 ± 0.9 ± 7.2
0.2
2.3
5.3
± 0.5 ± 0.8 ± 5.9
0.5
3.4
4.4
± 2.0 ± 1.2 ± 5.4
1.5
4.5
15.4
± 2.2 ± 2.3 ± 9.8
± 0.0
0.0
± 0.0
0.0
± 0.0
0.0
± 0.0
0.0
± 0.0
(b) Prostředí jedoucího automobilu
Tabulka 7.5: Chyby klasifikace optimálně nastaveného DHMM VAD
Nastavení prahu
Na základě předchozí analýzy by bylo možné přímo určit vhodnou hodnotu prahu pro dané
prostředí. Nicméně je-li hledáno takové nastavení prahu, které by vyhovovalo univerzálně
všem prostředím, je výhodné využít trénovací množinu obsahující promluvy z různých
prostředí. V experimentech bylo použito statické nastavení prahu a jeho hodnota byla
nastavená pomocí ROC charakteristiky. Optimální hodnota leží v bodě, který je nejblíže
k levému hornímu rohu grafu. ROC charakteristiky byly vypočteny pro všechny zkoumané parametrizace a jsou zobrazeny v grafech 7.13, A.1a až A.1c, kde kroužkem jsou
označeny body vedoucí k optimálnímu nastavení. Pro parametrizaci MFCC byla zjištěna
nejvhodnější hodnota prahu l = 0.355, pro CPLP l = 0.254, pro RCPLP l = 0.572,
pro SPLP l = 0.052 a nakonec pro RSPLP l = 0.049. Tato nastavení pak byla použita
v následujících testech.
78
KAPITOLA 7. DETEKCE NA BÁZI HMM
Parame- ERR ERS
trizace
[%]
[%]
RCPLP 14.9
2.9
CPLP
SPLP
MFCC
RSPLP
± 7.2
± 2.1
20.7
3.1
± 9.7
± 2.2
21.5
2.6
± 6.7
± 1.5
23.1
2.9
± 11.4
± 2.2
37.8
1.6
± 6.5
± 1.3
Parame- ERR ERS
trizace [%]
[%]
CPLP
12.4 3.5
MFCC
SPLP
RSPLP
RCPLP
± 4.4
± 1.7
13.0
3.8
± 3.5
± 1.9
13.6
5.9
± 4.3
± 4.5
17.7
12.2
± 4.8
± 5.3
18.8
7.5
± 9.6
± 10.2
(a) Blinkr
(b) Dýchání
Parame- ERR ERS
trizace
[%]
[%]
RSPLP 23.3 11.5
Parame- ERR ERS
trizace
[%]
[%]
RCPLP 17.8
3.7
± 10.8
RCPLP
MFCC
CPLP
SPLP
± 8.1
24.0
8.1
± 16.4
± 13.4
26.3
5.2
± 17.0
± 4.6
26.7
6.2
± 17.2
± 7.2
28.0
7.0
± 15.7
± 4.6
± 2.9
SPLP
CPLP
RSPLP
MFCC
(d) Listování
Parame- ERR ERS
trizace
[%]
[%]
RCPLP 10.5
3.0
MFCC
SPLP
CPLP
RSPLP
± 6.3
± 2.6
14.5
4.1
± 9.1
± 3.3
14.5
4.2
± 6.4
± 2.4
15.1
3.8
± 7.9
± 2.7
23.6
2.6
± 11.4
± 1.8
(c) Klapání
Parame- ERR ERS
trizace [%]
[%]
RCPLP 12.1 3.7
± 1.4
19.3
7.3
± 1.9
± 5.5
25.9
3.5
± 12.6
± 2.1
26.1
5.2
± 7.7
± 1.4
27.8
3.5
± 14.3
± 2.1
± 6.6
SPLP
RSPLP
MFCC
CPLP
± 3.9
12.8
6.1
± 4.6
± 4.2
13.8
8.6
± 5.7
± 5.1
14.8
5.1
± 4.7
± 4.1
15.0
5.1
± 5.1
± 4.3
(f) Jiné neřečové události
(e) Řazení
Tabulka 7.6: Úspěšnost DHMM VAD u promluv obsahujících různé neřečové události.
Parame- ERR ERS
trizace [%]
[%]
CPLP
5.8
0.8
± 3.4
MFCC
RCPLP
SPLP
RSPLP
Parame- ERR ERS
trizace
[%]
[%]
CPLP
6.8
3.9
± 1.3
7.5
3.0
± 3.9
± 3.4
8.5
1.0
± 4.8
± 1.8
14.8
10.6
± 8.2
± 8.5
20.6
16.5
± 7.0
± 7.4
(a) CAR2ECSVAD
± 5.3
MFCC
RCPLP
SPLP
RSPLP
Parame- ERR ERS
trizace
[%]
[%]
MFCC
5.0
2.2
± 5.0
8.9
6.7
± 7.1
± 7.0
9.4
5.3
± 8.2
± 8.1
14.4
12.7
± 8.8
± 9.1
20.9
18.4
± 11.3
± 12.4
(b) Číslice (SPEECONVAD)
± 3.3
CPLP
RCPLP
SPLP
RSPLP
± 2.8
5.0
1.1
± 3.6
± 1.8
7.7
2.7
± 4.8
± 4.5
9.4
6.9
± 5.6
± 5.6
18.0
14.4
± 10.2
± 10.6
(c) Věty (SPEECONVAD)
Tabulka 7.7: Úspěšnost DHMM VAD na dalších typech řečových položek.
7.7. EXPERIMENTY
79
Vliv rušného prostředí automobilu
Dále byly provedeny testy na množině CZKCCVAD obsahující nahrávky z různých prostředí s různě silnou úrovní šumu. Vliv prostředí byl ukázán již na tvaru ROC charakteristik. Nicméně pro přesnější popis chování a také pro možnost srovnání s ostatními
detektory, byly pro VAD vypočteny míry chyb klasifikace, které jsou v tabulkách 7.5a a
7.5b. Na první pohled zaujme, že jsou chyby klasifikace nižší v prostředí jedoucího automobilu než ve stojícím automobilu. To lze vysvětlit složením trénovací množiny obsahující
promluvy z obou zmiňovaných prostředí. Spektrální PLP koeficienty RASTA vedly k poměrně vysoké míře celkové chyby ERR v tišším prostředí stojícího automobilu i v prostředí
jedoucího automobilu. Kepstrální PLP koeficienty RASTA vedly naopak k nejlepším výsledkům hlavně v rušnějším prostředí. Největší rozdíly lze pozorovat v tišším prostředí
v míře zkracování řečových úseků, tj. v chybě TRB. V rušnějším prostředí jedoucího automobilu se pak změnila úspěšnost v chybné klasifikaci šumu jako řeč, tj. chybě NDS.
Na základě vyšších hodnot chyb TRB a OVF a nižších hodnot chyb TRF a OVB lze
také usuzovat, že VAD nesprávně a předčasně predikuje celé úseky řeči. Toto by mohlo
inspirovat ke změně „post-processingu” detekce, a tím ke zlepšení klasifikace neobsahující
tento typ chyb.
Neřečové události
VAD byl testován také na výběrech signálů obsahujících neřečové události. Výsledky pro
všechny parametrizace jsou v tabulkách 7.6a až 7.6f. Je vidět, že při srovnání s promluvami, které neobsahují neřečové události, přítomnost neřečových událostí většinou zvyšuje
celkovou míru chyby klasifikace ERR, a to hlavně v šumových segmentech. Ke zvýšení míry
chyb došlo hlavně kvůli přítomnosti slyšitelného listování papírem a slyšitelného blinkru.
Naopak přítomnost dechu, který se většinou vyskytoval u promluv v tichém prostředí,
chybu klasifikace ERR nezvýšila.
Další typy řečových položek
Na signálech z množin CAR2ECSVAD a SPEECONVAD byla ověřena použitelnost VAD
za okolností, kdy jsou promluvy výrazněji odlišné od trénovací množiny a je tedy ověřována
schopnost generalizace modelu. Z výsledků, které jsou v tabulkách 7.7a, 7.7b a 7.7c je znát,
že VAD je obecně použitelný. Dokonce byly dosaženy menší chyby klasifikace než pro
množinu CZKCCVAD v předchozím experimentu. Závěrem lze konstatovat, že testovaný
detektor lze nasadit v reálných podmínkách.
Shrnutí
Byl navržen, optimálně nastaven a otestován detektor řečové aktivity, který klasifikuje na
základě vzdálenosti mezi skrytými Markovovskými modely. VAD dosáhl dobrých výsledku
v rušném prostředí převážně v případech použití PLP koeficientů RASTA. Výhoda navrženého VAD spočívá hlavně v možnosti plynulého nastavování prahové hodnoty, tak aby
byla upřednostněna spolehlivost v řečových nebo šumových segmentech, což je vhodné
zvláště pro případ reálného využití, kde se velmi často toleruje vyšší chyba klasifikace
v šumových segmentech, je-li tím docíleno snížení chyby v řečových úsecích, což například u telefonních aplikací zvyšuje porozumění řeči a umožňuje použití VAD, aniž by toho
účastník telefonního hovoru zpozoroval.
80
KAPITOLA 7. DETEKCE NA BÁZI HMM
MFCC
RCPLP
CPLP
RSPLP
SPLP
Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS
směsí [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
0
10.4 3.6 12.2 2.6 10.0 4.2 11.8 5.8
14.8 10.2
± 7.5
4
8
16
32
± 3.3
± 7.2
± 2.7
± 7.0
± 3.9
± 6.8
± 4.3
± 11.7
± 8.8
9.3
3.8
11.3
3.5
10.3
5.0
11.6
6.2
13.8
9.1
± 9.1
± 3.6
± 7.0
± 3.0
± 9.4
± 4.2
± 6.8
± 3.6
± 10.8
± 5.7
9.2
4.7
11.9
3.8
10.0
5.1
11.0
5.3
12.3
8.9
± 7.9
± 4.1
± 7.3
± 3.0
± 8.7
± 4.5
± 6.1
± 3.3
± 7.7
± 5.2
9.6
4.7
11.6
4.2
9.9
4.9
11.3
6.4
13.2
8.6
± 8.7
± 3.6
± 7.2
± 3.0
± 9.0
± 4.2
± 5.8
± 3.8
± 10.0
± 5.2
9.5
5.1
12.0
3.8
10.0
5.1
10.9
6.3
13.0
9.9
± 7.8
± 4.3
± 7.4
± 3.0
± 8.7
± 4.5
± 6.1
± 3.6
± 8.8
± 6.5
(a) Prostředí stojícího automobilu
MFCC
RCPLP
CPLP
RSPLP
SPLP
Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS
směsí [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
0
10.6
6.6
9.7
8.2
8.9
6.4 10.5 9.4
8.9
7.8
± 6.8
4
8
16
32
± 4.1
± 4.2
± 4.3
± 5.9
± 4.1
± 4.7
± 4.8
± 4.8
± 5.2
10.8
5.2
8.0
6.9
8.5
5.6
8.7
7.8
7.6
6.0
± 13.8
± 4.0
± 3.7
± 4.0
± 6.1
± 3.8
± 4.0
± 4.2
± 4.5
± 3.6
11.0
5.7
7.9
6.6
9.0
5.7
8.8
7.8
7.7
6.7
± 13.4
± 4.3
± 3.6
± 3.7
± 7.5
± 3.9
± 4.2
± 4.6
± 3.8
± 3.9
10.4
5.0
8.0
7.0
9.2
5.7
9.2
8.3
10.7
6.3
± 13.3
± 3.8
± 3.7
± 4.0
± 8.2
± 4.0
± 4.1
± 4.3
± 13.6
± 4.4
10.8
5.5
7.9
6.6
9.0
5.6
9.4
8.6
10.8
6.0
± 13.3
± 4.1
± 3.6
± 3.7
± 7.5
± 3.9
± 4.7
± 4.8
± 13.5
± 4.2
(b) Prostředí jedoucího automobilu
Tabulka 7.8: Analýza vlivu počtu směsí LP modelů HMM VAD
7.7.3
VAD modelující promluvy pomocí dvou HMM
Detektor řečové aktivity, využívající obecné modely řeči a šumu, byl testován pro dva
odlišné typy HMM. Nejprve byla analyzována možnost využití levo-pravých modelů –
LPHMM VAD – a následně byl analyzován také VAD postavený pomocí ergodických modelů – EHMM VAD. V obou případech byl analyzován vliv počtu směsí a počet stavů
modelů na míru chyb klasifikace. Na závěr byla provedena stejná sada experimentů jako
v předchozích experimentech určené pro zjištění úspěšnosti klasifikace VAD v různě rušných prostředích, na promluvách obsahujících specifické neřečové události a na množinách
CAR2ECSVAD a SPEECONVAD obsahující celé věty, číslovky a další typy řečových promluv.
Klasifikační část testovaného detektoru řečové aktivity byla implementována pomocí
nástrojů z HTKToolkit. Pro zpracování signálu pak byly použity různé nástroje uvedené
7.7. EXPERIMENTY
81
MFCC
RCPLP
CPLP
RSPLP
SPLP
Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS
stavů [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
3
12.5 4.1 13.0 3.3 11.8 6.6 18.1 10.0 16.9 10.6
± 8.0
5
7
9
± 3.2
± 7.9
± 2.5
± 8.4
± 4.8
± 7.7
± 4.0
± 10.6
± 8.4
9.7
5.0
12.2
4.9
10.7
5.5
13.3
7.3
14.3
11.6
± 6.6
± 4.0
± 7.5
± 3.2
± 9.6
± 4.7
± 6.9
± 3.9
± 9.3
± 7.8
10.4
3.6
11.3
3.5
10.3
5.0
11.6
6.2
12.3
8.9
± 7.5
± 3.3
± 7.0
± 3.0
± 9.4
± 4.2
± 6.8
± 3.6
± 7.7
± 5.2
9.3
3.5
11.3
3.4
10.2
5.0
13.6
7.8
13.0
8.4
± 7.0
± 3.5
± 7.1
± 3.0
± 8.3
± 4.0
± 9.6
± 8.4
± 9.5
± 5.9
(a) Prostředí stojícího automobilu
MFCC
RCPLP
CPLP
RSPLP
SPLP
Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS
stavů [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
3
12.3 9.9
9.4
7.5 11.0 5.4 11.7 7.9
12.0
6.1
5
7
9
± 4.7
± 4.7
± 4.3
± 4.0
± 6.2
± 3.4
± 5.6
± 3.9
± 8.9
± 3.5
10.2
7.8
8.9
7.7
10.2
5.7
10.1
8.3
15.8
6.4
± 4.8
± 4.5
± 3.7
± 4.0
± 8.1
± 4.2
± 4.3
± 4.0
± 22.4
± 4.3
10.6
6.6
8.0
6.9
8.5
5.6
8.7
7.8
7.7
6.7
± 6.8
± 4.1
± 3.7
± 4.0
± 6.1
± 3.8
± 4.0
± 4.2
± 3.8
± 3.9
9.8
6.9
7.6
6.8
8.8
5.2
8.2
6.7
8.7
6.4
± 6.3
± 4.4
± 3.4
± 3.8
± 8.5
± 3.9
± 4.2
± 3.9
± 7.7
± 4.4
(b) Prostředí jedoucího automobilu
Tabulka 7.9: Analýza počtu stavů LP modelů HMM VAD
v kapitole 4. V experimentech byly použity opět stejné parametrizace jako v předchozích
experimentech – melovské kepstrální koeficienty, kepstrální a spektrální PLP koeficienty
a koeficienty získané metodou RASTA.
Trénování a inicializace
V inicializační fázi bylo postupováno stejně jak pro levo-pravé tak pro ergodické modely.
Nejprve byl vytvořen levo-pravý model, který byl inicializován pomocí jednorázové uniformní segmentace a následně pomocí Viterbiho zarovnání. Pro ergodické modely byly
následně přidány všechny požadované přechody, tak aby se levo-pravý model transformoval do požadované struktury. Pro trénování byl v obou případech využit Baum-Welchův
algoritmus.
82
KAPITOLA 7. DETEKCE NA BÁZI HMM
MFCC
RCPLP
CPLP
RSPLP
SPLP
Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS
stavů [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
3
17.7 10.7 13.5 6.4 16.1 5.3 17.4 6.6 16.9 4.9
± 4.5
5
7
9
± 5.2
± 5.3
± 3.4
± 7.7
± 3.1
± 4.6
± 3.0
± 8.4
± 3.2
13.3
8.6
10.4
6.5
8.6
5.0
12.8
7.0
10.0
6.0
± 4.5
± 5.2
± 3.5
± 3.6
± 4.5
± 3.8
± 2.9
± 2.9
± 5.2
± 3.2
15.8
7.1
10.3
6.5
7.7
5.3
9.8
6.9
7.9
6.3
± 5.9
± 4.6
± 3.1
± 4.1
± 3.3
± 3.8
± 4.0
± 4.2
± 3.7
± 3.5
9.9
6.9
8.8
6.2
7.9
4.6
10.9
6.3
7.5
5.8
± 4.3
± 4.4
± 2.8
± 3.6
± 4.5
± 3.6
± 5.3
± 4.1
± 4.4
± 4.6
Tabulka 7.10: Analýza počtu stavů modelů HMM VAD při klasifikaci promluv obsahujících
slyšitelný blinkr
Optimalizace počtu stavů a směsí
V experimentech byly použity modely, u kterých byl navyšován počet směsí v intervalu
0 – 32, kdy hodnota 0 značí, že každý stav byl modelován pouze pomocí vícerozměrného normálního rozložení. Modely řeči a šumu měly stejný počet stavů. Nejprve byla
provedena analýza VAD, který využívá levo-pravé modely. V tabulkách 7.8a a 7.8b jsou
hodnoty, které byly získány pomocí VAD s levo-pravými modely se sedmi stavy. Před začátkem experimentů byl jednoznačně očekáván výsledek, že zvyšování počtu směsí povede
ke zvýšení přesnosti VAD. Bylo zjištěno, že je takto možné zvýšit přesnost klasifikace.
Nicméně není nutné používat vysoký počet směsí, navyšování na 32 směsí už většinou
nevede k dalšímu zlepšení klasifikace. Pro optimální funkčnost detektoru ve všech typech
prostředí, je vhodné použít tyto počty směsí u levo-pravých modelů. Pro parametrizaci
MFCC nepoužívat směsi vůbec. Pro kepstrální i spektrální PLP koeficienty RASTA a
pro kepstrální PLP koeficienty vychází nejlépe 4 směsi a pro spektrální PLP koeficienty
8 směsí. V dále provedených experimentech byly vždy použity uvedené počty směsí.
Další experimenty se zaměřovaly na optimalizaci počtu stavů modelů. U všech modelů
byly použity HMM s počtem směsí optimalizovaných na základě předchozího experimentu,
a to pro prostředí stojícího automobilu, prostředí stojícího automobilu se zapnutým motorem a pro prostředí jedoucího automobilu. Počet stavů modelů byl zvyšován od 3 do
9 stavů. Výsledky těchto experimentů pro levo-pravé modely jsou v tabulkách 7.9a a
7.9b pro zmiňované prostředí. U většiny parametrizací je vidět, že zvětšování počtu stavů
HMM vede ke snížení chyby ERR a to především díky snižování ERS, tj. chyby klasifikace v řečových segmentech. Přičemž tato závislost se projevuje jak v tišším prostředí
stojícího automobilu, tak v prostředí jedoucího automobilu. Velmi výrazná je tato závislost u nahrávek obsahujících neřečové události, například slyšitelný blinkr, což je uvedeno
v tabulce 7.10.
Závěrem těchto experimentů je zjištění optimálních nastavení testovaného HMM VAD
pro nejperspektivnější parametrizace - MFCC, RCPLP, CPLP, RSPLP a SPLP. Nejúspěšnější byly VAD využívající levo-pravé modely s větším počtem stavů, a to 9 stavů pro
parametrizace MFCC a SPLP a 7 stavů pro parametrizace RCPLP, CPLP a RSPLP vždy
s počtem směsí podle předchozího odstavce. Z analýzy VAD, který využívá ergodické modely bylo zjištěno, že pro tento případ je optimální použít pro všechny parametrizace 7
stavové modely kromě parametrizace SPLP, kde je lepší použít 9 stavové modely. Pro
7.7. EXPERIMENTY
83
Parame- ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
trizace [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
MFCC
9.3
3.5
5.8
0.5
2.3
0.7
0.0
1.6
1.7
0.5 2.0
± 7.0
CPLP
10.3
± 9.4
RCPLP
11.3
± 7.0
RSPLP
11.6
± 6.8
SPLP
13.0
± 9.5
± 3.5 ± 5.5
5.0
5.3
± 4.2 ± 8.2
3.5
7.8
± 3.0 ± 6.7
6.2
5.4
± 3.6 ± 6.6
8.4
4.6
± 5.9 ± 6.7
± 1.6 ± 2.7 ± 2.1 ± 0.0
0.6
3.4
1.0
0.0
± 1.8 ± 2.9 ± 3.2 ± 0.0
0.2
2.4
0.9
0.0
± 0.6 ± 2.5 ± 2.0 ± 0.0
0.6
4.2
1.2
0.2
± 1.3 ± 2.9 ± 2.0 ± 1.8
1.6
5.4
0.8
0.5
± 3.6 ± 3.8 ± 1.7 ± 3.1
± 4.7 ± 1.2 ± 1.4
1.6
1.4
0.8
± 6.1 ± 1.1 ± 4.0
1.3
2.0
2.2
± 3.8 ± 2.3 ± 4.2
0.9
1.5
2.1
± 3.3 ± 1.3 ± 4.9
0.7
1.3
1.6
± 2.8 ± 1.1 ± 5.9
± 2.1
1.5
± 2.0
2.3
± 2.3
1.0
± 1.3
1.0
± 1.9
(a) Prostředí stojícího automobilu
Parame- ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
trizace [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
RCPLP 8.0
6.9
1.1
0.8
4.9
1.1
0.0
0.2
0.3
0.7 0.0
± 3.7
CPLP
8.5
± 6.1
RSPLP
8.7
± 4.0
SPLP
8.7
± 7.7
MFCC
9.8
± 6.3
± 4.0 ± 2.0
5.6
2.9
± 3.8 ± 5.8
7.8
0.8
± 4.2 ± 1.7
6.4
2.3
± 4.4 ± 7.5
6.9
2.9
± 4.4 ± 6.6
± 1.1 ± 3.3 ± 1.2 ± 0.0
0.9
4.1
0.7
0.0
± 1.0 ± 3.1 ± 1.0 ± 0.0
1.1
5.6
1.0
0.2
± 1.1 ± 3.2 ± 1.3 ± 1.1
1.1
4.8
0.4
0.2
± 1.0 ± 3.5 ± 0.6 ± 1.1
1.1
5.0
0.7
0.2
± 1.2 ± 3.5 ± 1.0 ± 1.1
± 0.5 ± 0.3 ± 1.8
0.7
0.8
1.4
± 2.4 ± 2.3 ± 2.9
0.0
0.1
0.7
± 0.1 ± 0.2 ± 1.7
1.2
0.7
0.4
± 5.6 ± 2.0 ± 1.0
0.1
0.8
0.9
± 0.2 ± 1.9 ± 2.5
± 0.0
0.0
± 0.0
0.0
± 0.0
0.0
± 0.0
1.1
± 4.2
(b) Prostředí jedoucího automobilu
Tabulka 7.11: Chyby klasifikace optimálně nastaveného HMM VAD využívajícího LP modely
parametrizaci MFCC a CPLP je nejoptimálnější nastavit HMM bez směsí, na rozdíl od
parametrizací RCPLP a RSPLP, kde je lepší použít 32 směsí a u SPLP 16 směsí.
Klasifikace v prostředí automobilu
Detektory využívající modely s optimálním počtem stavů a směsí byly testovány na promluvách z prostředí automobilu. Výsledky všech zjištěných chyb jsou v tabulkách 7.11a,
7.11b, 7.12a a 7.12b. V tišším prostředí byly dosaženy nejlepší výsledky pomocí parametrizací CPLP a MFCC, v rušnějším prostředí pak vede k lepším výsledkům využití
parametrizací RSPLP nebo RCPLP. Parametrizace SPLP pak vede většinou k největší
celkové chybě klasifikace ERR. Při srovnání VAD využívající levo-pravé a ergodické modely je vidět, že byly dosaženy srovnatelné chyby celkové chyby klasifikace ERR a i ostatní
typy chyb klasifikace jsou podobné, což vypovídá o podobném chování VAD, nezávisle na
použití levo-pravých nebo ergodických modelů. Danou skutečnost je možné vysvětlit způsobem úvodní inicializace, která byla stejná pro oba typy HMM. V případě prostředí je-
84
KAPITOLA 7. DETEKCE NA BÁZI HMM
Parame- ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
trizace [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
CPLP
9.9
4.6
5.2
0.3
3.2
1.2
0.0
1.1
1.7
1.0 1.5
± 7.3
MFCC
10.1
± 7.4
RSPLP
11.2
± 6.4
RCPLP
12.3
± 6.9
SPLP
12.6
± 8.5
± 3.8 ± 5.8
4.6
5.5
± 3.5 ± 6.3
4.8
6.4
± 2.8 ± 6.2
3.9
8.4
± 2.6 ± 7.0
8.2
4.5
± 5.0 ± 6.1
± 0.6 ± 3.0 ± 2.9 ± 0.0
0.4
3.4
0.9
0.0
± 1.5 ± 3.0 ± 2.2 ± 0.0
0.7
2.5
1.6
0.0
± 1.3 ± 2.2 ± 2.1 ± 0.0
0.2
2.0
1.7
0.0
± 0.4 ± 2.1 ± 2.2 ± 0.0
0.7
5.1
2.3
0.0
± 1.9 ± 3.5 ± 4.0 ± 0.0
± 3.3 ± 1.2 ± 3.2
1.1
1.7
1.1
± 3.4 ± 1.1 ± 3.7
1.0
1.7
2.6
± 3.0 ± 1.5 ± 4.7
1.4
2.4
3.1
± 3.8 ± 1.9 ± 4.7
0.6
1.7
1.3
± 2.3 ± 1.3 ± 4.7
± 2.1
1.6
± 2.1
1.1
± 1.7
1.4
± 1.8
0.9
± 1.5
(a) Prostředí stojícího automobilu
Parame- ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
trizace [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
RCPLP 7.6
6.4
1.3
0.8
4.1
1.5
0.0
0.1
0.3
0.8 0.0
RSPLP
MFCC
CPLP
± 3.2
± 3.4
± 2.0
7.7
6.4
1.3
± 3.7 ± 3.6
± 2.0
5.4
4.0
± 6.5 ± 3.6
9.4
± 7.2
11.5
5.4
6.1
± 13.6 ± 3.8 ± 14.5
SPLP
12.5
5.2
7.3
± 8.2
± 3.4
± 9.2
± 1.0 ± 2.6 ± 1.4 ± 0.0
0.9
4.2
1.3
0.0
± 1.3 ± 2.6 ± 0.8 ± 0.0
0.7
3.6
1.1
0.0
± 1.0 ± 2.5 ± 1.2 ± 0.0
0.7
3.7
1.0
0.0
± 1.1 ± 2.8 ± 1.1 ± 0.0
0.6
3.3
1.3
0.0
± 1.0 ± 2.3 ± 1.1 ± 0.0
± 0.5 ± 0.3 ± 1.7
0.1
0.3
0.9
± 0.3 ± 0.3 ± 1.9
0.3
0.6
2.7
± 1.1 ± 0.8 ± 5.0
0.9
1.3
3.0
± 3.0 ± 3.8 ± 5.3
0.5
1.3
5.6
± 1.7 ± 2.0 ± 7.0
± 0.0
0.0
± 0.0
0.4
± 2.1
0.9
± 5.2
0.0
± 0.0
(b) Prostředí jedoucího automobilu
Tabulka 7.12: Chyby klasifikace optimálně nastaveného HMM VAD využívajícího ergodické modely
doucího automobilu je nejvýraznější chyba TRB, která ukazuje, že úseky řeči jsou chybně
zkracovány, což platí také pro prostředí stojícího automobilu avšak v menší míře.
Neřečové události
Otestováno bylo 5 různých druhů neřečových událostí. Chyby klasifikace jsou pro levopravé modely uvedeny v tabulce 7.13a pro signály se slyšitelným blinkrem, v tabulce
7.13b pro signály, kde je slyšet dýchání mluvčího, v tabulce 7.13c pro signály obsahující klapání, v tabulce 7.13d pro signály obsahující rušení způsobená listováním papíru a
v tabulce 7.13e pro promluvy se slyšitelným řazením vyššího nebo nižšího převodového
stupně. Pro ergodické modely jsou chyby klasifikace v tabulkách 7.15a až 7.15f. Výrazné
zhoršení klasifikace se projevilo u VAD využívající levo-pravé i ergodické modely pouze
u promluv obsahujících rušení způsobené listováním papíru nebo slyšitelné dýchání mluvčího. Ostatní neřečové události nezpůsobily zvýšení chyb klasifikace. Využití levo-pravých
modelů přispělo k mírnému snížení chyby oproti použití ergodických modelů.
7.7. EXPERIMENTY
85
Další typy řečových položek
V tabulkách 7.14a, 7.14b a 7.14c jsou výsledky experimentů na testovacích množinách
CAR2ECSVAD a SPEECONVAD obsahujících další typy řečových položek a jiné šumové
pozadí oproti množině CZKCCVAD. Vlastnosti testovacích signálů se výrazněji liší oproti
nahrávkám, ke kterým byl detektor přizpůsoben pomocí trénovací množiny a VAD vykazuje lepší nebo srovnatelné výsledky, což dokazuje možnost jeho reálného nasazení.
Shrnutí
Byl vytvořen detektor řečové aktivity, který modeluje řečový signál pomocí dvou obecných
modelů pro řeč a pro šum, který klasifikuje na základě nalezení nepravděpodobnější cesty
skrze rozpoznávací síť vytvořenou spojením těchto modelů. Byly otestovány dvě verze
VAD, první používá levo-pravé modely, druhá pak využívá ergodické modely. Testy ukázaly, že VAD dosahuje nízké chyby klasifikace ve všech testovaných prostředích. V tišším
prostředí se ukazuje výhodné použití mel-kepstrálních nebo kepstrálních PLP koeficientu,
v rušnějším prostředí jedoucího automobilu je dosahováno nejnižší chyby klasifikace pomocí PLP koeficientů RASTA.
86
KAPITOLA 7. DETEKCE NA BÁZI HMM
Parame- ERR ERS
trizace [%]
[%]
SPLP
7.5
5.8
± 4.4
CPLP
RSPLP
MFCC
RCPLP
± 4.6
7.7
5.3
± 3.3
± 3.8
9.8
6.9
± 4.0
± 4.2
9.9
6.9
± 4.3
± 4.4
10.3
6.5
± 3.1
± 4.1
(a) Blinkr
RSPLP
SPLP
CPLP
± 11.1
CPLP
RCPLP
RSPLP
SPLP
± 13.1
± 4.1
20.3
3.1
15.2
6.0
± 13.8
± 4.7
17.8
4.1
± 7.4
± 3.8
18.4
8.4
± 11.9
± 5.9
18.5
12.1
± 13.9
± 6.8
± 12.4
± 4.3
21.9
4.8
± 12.9
± 4.5
26.5
9.8
± 16.6
± 11.2
28.8
3.7
± 18.5
± 5.7
(d) Listování
SPLP
RCPLP
RSPLP
± 3.5
RCPLP
CPLP
MFCC
RSPLP
± 3.5
7.8
6.1
± 3.5
± 3.9
8.1
5.0
± 5.5
± 2.9
8.3
5.8
± 4.0
± 3.5
9.0
7.5
± 4.4
± 4.8
(c) Klapání
Parame- ERR ERS
trizace [%]
[%]
CPLP
7.3
5.9
MFCC
Parame- ERR ERS
trizace [%]
[%]
SPLP
7.7
5.8
± 4.0
(b) Dýchání
Parame- ERR ERS
trizace
[%]
[%]
MFCC
14.5
3.0
RCPLP
Parame- ERR ERS
trizace
[%]
[%]
MFCC
14.8
5.7
± 0.2
± 0.7
8.4
7.0
± 0.5
± 1.2
8.9
6.4
± 2.1
± 0.9
10.1
5.1
± 0.5
± 0.3
12.2
7.9
± 1.6
± 0.8
Parame- ERR ERS
trizace [%]
[%]
SPLP
7.7
4.8
RSPLP
RCPLP
CPLP
MFCC
± 3.2
± 3.5
9.7
6.2
± 5.2
± 3.9
10.6
4.8
± 9.0
± 3.3
10.8
4.8
± 5.1
± 3.2
11.9
4.7
± 7.3
± 3.1
(f) Jiné neřečové události
(e) Řazení
Tabulka 7.13: Úspěšnost HMM VAD s levo-pravými modely u promluv obsahujících různé
neřečové události.
Parame- ERR ERS
trizace
[%]
[%]
RCPLP
4.9
1.5
± 3.1
CPLP
RSPLP
MFCC
SPLP
Parame- ERR ERS
trizace [%]
[%]
MFCC
5.9
3.0
± 2.4
5.1
0.3
± 3.2
± 0.7
5.5
3.4
± 3.1
± 2.7
5.6
0.4
± 3.1
± 1.2
40.4
6.9
± 18.9
± 7.6
(a) CAR2ECSVAD
± 5.2
CPLP
RCPLP
RSPLP
SPLP
Parame- ERR ERS
trizace [%]
[%]
MFCC
3.9
0.6
± 3.7
6.6
3.4
± 6.7
± 4.2
9.0
5.2
± 7.0
± 4.9
12.3
9.6
± 8.0
± 7.4
14.3
12.3
± 9.9
± 10.0
(b) Číslice (SPEECONVAD)
± 3.8
CPLP
RCPLP
RSPLP
SPLP
± 1.2
4.0
0.5
± 4.6
± 1.0
6.1
1.4
± 4.0
± 1.8
6.6
3.0
± 4.0
± 2.8
9.2
6.2
± 8.1
± 6.9
(c) Věty (SPEECONVAD)
Tabulka 7.14: Úspěšnost HMM VAD s levo-pravými modely na dalších typech řečových
položek.
7.7. EXPERIMENTY
Parame- ERR ERS
trizace [%]
[%]
RSPLP
8.5
5.2
± 2.8
CPLP
RCPLP
MFCC
SPLP
9.0
4.9
± 4.4
± 3.5
9.6
5.6
± 2.3
± 3.2
9.8
4.3
± 5.8
± 3.4
12.0
5.1
± 6.0
± 2.6
RCPLP
SPLP
± 5.0
MFCC
CPLP
RSPLP
RCPLP
± 12.8
± 4.8
20.6
4.4
13.3
4.5
± 10.9
± 3.9
13.7
5.5
± 9.6
± 5.0
16.1
4.8
± 6.9
± 3.5
19.4
3.5
± 7.9
± 2.8
± 11.7
± 3.4
21.6
3.6
± 13.6
± 4.4
21.6
3.8
± 11.9
± 3.5
25.0
6.7
± 16.6
± 7.5
(d) Listování
SPLP
RSPLP
RCPLP
± 3.1
RSPLP
CPLP
MFCC
SPLP
± 3.6
8.3
6.3
± 4.2
± 4.4
8.4
4.5
± 5.4
± 2.6
8.5
4.6
± 5.3
± 3.0
9.3
5.2
± 4.9
± 3.2
(c) Klapání
Parame- ERR ERS
trizace [%]
[%]
CPLP
8.8
5.8
MFCC
Parame- ERR ERS
trizace [%]
[%]
RCPLP 7.6
5.8
± 5.1
(b) Dýchání
Parame- ERR ERS
trizace
[%]
[%]
CPLP
19.7
3.4
MFCC
Parame- ERR ERS
trizace
[%]
[%]
SPLP
12.7
7.1
± 1.8
(a) Blinkr
RSPLP
87
± 0.2
± 0.6
9.0
6.4
± 3.2
± 2.7
11.3
7.9
± 1.1
± 0.8
11.8
6.4
± 0.3
± 0.2
12.5
4.7
± 1.8
± 0.5
Parame- ERR ERS
trizace [%]
[%]
RSPLP
8.5
4.7
MFCC
RCPLP
CPLP
SPLP
± 5.1
± 3.1
9.2
4.1
± 4.3
± 2.6
11.0
4.2
± 7.8
± 3.2
11.6
4.4
± 7.0
± 3.4
11.6
5.2
± 7.0
± 3.7
(f) Jiné neřečové události
(e) Řazení
Tabulka 7.15: Úspěšnost HMM VAD s ergodickými modely u promluv obsahujících různé
neřečové události.
Parame- ERR ERS
trizace
[%]
[%]
RSPLP
5.5
2.2
± 3.2
CPLP
RCPLP
MFCC
SPLP
Parame- ERR ERS
trizace
[%]
[%]
CPLP
7.8
5.4
± 2.4
5.7
0.6
± 3.4
± 1.2
5.8
1.5
± 3.5
± 2.0
17.0
0.7
± 17.9
± 1.2
35.4
9.3
± 22.2
± 6.1
(a) CAR2ECSVAD
± 6.9
RSPLP
RCPLP
MFCC
SPLP
Parame- ERR ERS
trizace
[%]
[%]
MFCC
5.0
2.2
± 5.9
10.2
6.9
± 6.2
± 5.5
10.5
5.9
± 7.0
± 4.6
11.4
3.6
± 11.1
± 4.5
18.3
14.9
± 9.6
± 9.2
(b) Číslice (SPEECONVAD)
± 3.3
CPLP
RCPLP
SPLP
RSPLP
± 2.8
5.0
1.1
± 3.6
± 1.8
7.7
2.7
± 4.8
± 4.5
9.4
6.9
± 5.6
± 5.6
18.0
14.4
± 10.2
± 10.6
(c) Věty (SPEECONVAD)
Tabulka 7.16: Úspěšnost HMM VAD s ergodickými modely na dalších typech řečových
položek.
88
KAPITOLA 7. DETEKCE NA BÁZI HMM
Kapitola 8
Shrnující experimenty
V této kapitole jsou srovnány výsledky všech prezentovaných detektorů řečové aktivity
v této práci, tj. GMM VAD, DHMM VAD, fonémového VAD, LPHMM VAD s levopravými modely a EHMM VAD s ergodickými modely, s výsledky referenčních VAD, tj.
s detektorem energetickým, kepstrálním a detektory specifikovanými v příloze B a dodatku
III doporučení G.729. Je vzájemně porovnána jejich úspěšnost v prostředí automobilu, ale
také na promluvách obsahujících neřečové události a na množinách signálů obsahující další
typy řečových položek nahraných v jiném prostředí. U všech detektorů jsou srovnávány
pouze optimálně nastavené varianty pro „univerzální” prostředí. Kompletní přehledové
tabulky obsahující výsledky všech detektorů ke všem testovaným parametrizacím včetně
rozšířených kritérií jsou v dodatku v tabulkách A.5 až A.16. Zde jsou uvedeny pro větší
přehlednost pouze tabulky 8.1a až 8.6b obsahující ke každému typu navrhovaného VAD
jeho nejnižší dosažené chyby klasifikace ERR.
8.1
Detekce v prostředí automobilu
V tišším prostředí stojícího automobilu bylo dosaženo nejnižší celkové chyby klasifikace
pomocí LPHMM VAD, který využívá dva obecné modely řeči a šumu a mel-kepstrální
koeficienty. Oproti referenčnímu energetickému detektoru byla snížena celková chyba klasifikace o 28%. Podobné, nicméně mírně horší, výsledky ukazují i EHMM VAD využívající ergodické modely s parametrizacemi MFCC nebo CPLP. Fonémový VAD dosáhne
nejnižší chyby klasifikace ERR pomocí kepstrálních PLP koeficientů RASTA a na rozdíl od LPHMM VAD a EHMM VAD klasifikuje chybně především neřečové úseky. To
ho více předurčuje pro reálné nasazení, kde je většinou požadované nastavení vedoucí
k přenosu všech řečové segmentů i za cenu zvýšené míry chyby klasifikace neřečových
segmentů. VAD, které využívaly spektrální PLP koeficienty dosahovaly v tišším prostředí
velmi špatných výsledků.
V prostředí jedoucího automobilu je nejvhodnější využít fonémový VAD se spektrálními PLP koeficienty RASTA. Tento VAD dosáhl velmi malou celkovou chybu klasifikace
ERR. Při srovnání s referenčními detektory je celková chyba minimálně o 71% nižší.
LPHMM VAD s levo-pravými a EHMM VAD s ergodickými modely dosahují mírně vyšší
chyby klasifikace, nicméně při srovnání s referenčním VAD, je jejich chyba ERR stále
velmi nízká – až o 61% nižší.
Ve všech zmiňovaných prostředích vedlo využití algoritmů založených na algoritmu
cestování žetonů k nižší míře chyb klasifikace. DHMM VAD detekující řeč pomocí rozdílu
vzdáleností vykazuje ve všech případech mírně větší celkovou klasifikační chybu. Nicméně
89
90
KAPITOLA 8. SHRNUJÍCÍ EXPERIMENTY
VAD
LPHMM
(MFCC)
EHMM
(CPLP)
GMM
(MFCC)
Fonémový
(RCPLP)
ENERG.
ERR ERS ERN
[%]
[%]
[%]
9.3
3.5
5.8
± 7.0 ± 3.5 ± 5.5
9.9
4.6
5.2
± 7.3 ± 3.8 ± 5.8
11.2
6.7
4.5
± 7.3 ± 4.3 ± 5.5
11.4
0.8
10.5
± 9.4 ± 1.9 ± 8.9
12.9
10.0
2.9
± 8.7 ± 5.2 ± 6.5
DHMM
(CPLP)
KEPST.
13.7
5.0
8.7
VAD
Fonémový
(RSPLP)
EHMM
(RCPLP)
LPHMM
(RCPLP)
DHMM
(RCPLP)
GMM
(RCPLP)
ENERG.
± 8.3 ± 4.2 ± 6.9
14.7
12.7
2.0
1.2
29.5
[%]
[%]
[%]
5.7
4.1
1.6
± 3.0 ± 2.8 ± 2.0
7.6
6.4
1.3
± 3.2 ± 3.4 ± 2.0
8.0
6.9
1.1
± 3.7 ± 4.0 ± 2.0
9.3
3.7
5.6
± 5.5 ± 2.9 ± 5.5
9.6
8.5
1.1
± 3.9 ± 4.0 ± 2.3
19.7
9.5
10.3
± 11.1 ± 4.3 ± 12.4
KEPST.
± 8.9 ± 5.6 ± 6.0
G729 AppIII 30.6
ERR ERS ERN
23.8
7.2
16.6
± 11.0 ± 3.7 ± 12.1
G729 AppIII 24.9
± 11.5 ± 1.5 ± 11.6
(a) Stojící automobil
3.6
21.3
± 10.8 ± 2.1 ± 11.4
(b) Jedoucí automobil
Tabulka 8.1: Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv z prostředí automobilu.
oproti referenčním VAD stálé nízkou. Všechny navržené VAD hůře detekují konce řečových
úseků, což vyplývá z hodnoty chyby TRB. Naopak začátky řečových úseku jsou detekovány
spolehlivě, tj. jsou nízké chyby TRF a OVF.
Velmi překvapivé je, že prezentované detektory dosahují nepatrně lepších výsledků
v prostředí jedoucího automobilu, než v tichém prostředí. To lze zdůvodnit složením trénovací množiny, která obsahuje promluvy z obou zmiňovaných prostředí.
8.2
Detekce neřečových událostí
U promluv obsahujících rušivé neřečové události bylo téměř ve všech případech dosaženo
nejnižší celkové chyby klasifikace pomocí fonémového VAD a kepstrálních či spektrálních
PLP koeficientů RASTA. Při porovnání s nejlepšími výsledky referenčních detektorů byla
u signálů obsahujících slyšitelný blinkr snížena celková chyba klasifikace ERR až o 78%,
u promluv obsahujících slyšitelný dech mluvčího pouze o 7%, u promluv obsahujících
slyšitelné klapání až o 75%, u nahrávek obsahujících slyšitelné listování papírem o 41%
a u nahrávek obsahujících slyšitelné řazení rychlostního stupně až o 85%. VAD využívající pouze dva obecné modely řeči má celkovou chybu klasifikace ERR pouze mírně
vyšší než jakou dosahují VAD využívající modely fonémů, přičemž u nahrávek obsahujících slyšitelný blinkr, listování, řazení rychlostního stupně bylo dosaženo nižší chyby vždy
s levo-pravými modely, v ostatních případech byly nižší chyby klasifikace dosaženy díky
ergodickým modelům. GMM VAD vykazuje výrazněji vyšší chyby klasifikace při srovnání
s fonémovým VAD, někdy je jeho celková chyba ERR až dvakrát vyšší, nicméně, kromě
signálu zarušených dechem mluvčího, je jeho chyba ERR výrazně nižší než u referenčních
VAD. DHMM VAD dosáhl nízkou chybu klasifikace pouze u nahrávek se slyšitelným dý-
8.3. DETEKCE PROMLUV OBSAHUJÍCÍCH DALŠÍ TYPY ŘEČOVÝCH POLOŽEK91
VAD
Fonémový
(RSPLP)
LPHMM
(SPLP)
EHMM
(RSPLP)
GMM
(RCPLP)
DHMM
(RCPLP)
KEPST.
ERR ERS ERN
[%]
[%]
[%]
6.4
3.0
3.4
± 2.3 ± 1.5 ± 2.4
7.5
5.8
1.7
± 4.4 ± 4.6 ± 1.6
8.5
5.2
3.3
± 2.8 ± 1.8 ± 3.1
12.4
8.0
4.4
ERR ERS ERN
Fonémový
(RCPLP)
DHMM
(CPLP)
EHMM
(SPLP)
ENERG.
14.9
2.9
12.1
6.1
24.0
30.8
7.9
22.9
± 19.6 ± 5.8 ± 23.5
G729 AppIII 38.0
3.0
35.0
± 13.4 ± 3.0 ± 15.2
(a) Blinkr
[%]
[%]
12.4
0.9
11.6
12.4
3.5
9.0
± 4.4 ± 1.7 ± 4.5
12.7
7.1
5.7
± 5.0 ± 5.1 ± 7.7
13.4
9.3
4.2
± 6.5 ± 3.3 ± 6.9
KEPST.
13.4
± 7.2 ± 2.1 ± 7.7
30.0
[%]
± 14.6 ± 1.1 ± 14.9
± 3.5 ± 4.0 ± 5.1
± 15.0 ± 3.9 ± 16.6
ENERG.
VAD
11.1
2.3
± 4.9 ± 3.7 ± 5.1
GMM
(MFCC)
LPHMM
(MFCC)
G729 AppIII
14.2
6.2
8.0
± 10.3 ± 4.5 ± 12.0
14.8
5.7
9.1
± 11.1 ± 4.0 ± 12.8
32.9
1.9
31.0
± 17.5 ± 1.4 ± 18.5
(b) Dýchání
Tabulka 8.2: Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv obsahujících dané neřečové události.
cháním mluvčího pomocí parametrizace CPLP. U ostatních neřečových událostí dosahuje
horší výsledky, než ostatní HMM VAD. Jeho celková chyba ERR v naprosté většině případů stále nižší než u referenčních detektorů. Chyby detekce řečové aktivity se u nahrávek
obsahujících různé neřečové události objevují z podobných důvodů jako u nahrávek neobsahujících neřečové události, a to díky chybnému zkracování řečových úseků, tj. vyšší
chybě TRB. Nejmenší hodnotu TRB dosahuje fonémový VAD. Fonémový VAD jako jediný vynechává v některých případech celé úseky řeči, což vyplývá z dosažených hodnot
chyby MIS. U promluv obsahujících slyšitelný blinkr, klapání a řazení je většinou vyšší
chyba ERS, než ERN. To znamená, ze je chybně rozhodováno hlavně v řečových úsecích.
U nahrávek se slyšitelným listováním papíru je rozhodováno chybně hlavně v neřečových
úsecích.
8.3
Detekce promluv obsahujících další typy řečových
položek
Nejnižší celkové chyby klasifikace ERR u nahrávek z množiny CAR2ECSVAD dosáhnul
GMM VAD s parametrizací MFCC, o 57% nižší, než referenční energetický detektor. HMM
VAD s levo-pravými modely dosáhl srovnatelné výsledky s GMM VAD. Využití ergodických modelů pak vedlo k mírně vyšší celkové chybě, nicméně byla o 55% nižší než u referenčního energetického detektoru. Fonémový VAD dosahoval u experimentů na nahrávkách z množiny CZKCCVAD nejnižší celkové chyby ERR. Na množině CAR2ECSVAD
při srovnání s LPHMM a EHMM VAD klasifikoval vyšší chybou ERR. To by mohlo vést
k závěru, že fonémový VAD je více citlivý na typu klasifikovaných řečových položek. Na
signálech z množiny SPEECONVAD dosáhl nejlepší výsledky LPHMM VAD používající
92
KAPITOLA 8. SHRNUJÍCÍ EXPERIMENTY
VAD
Fonémový
(RSPLP)
EHMM
(RCPLP)
LPHMM
(SPLP)
GMM
(RCPLP)
DHMM
(RCPLP)
ENERG.
ERR ERS ERN
[%]
[%]
[%]
5.2
3.4
1.7
± 2.7 ± 2.8 ± 1.5
7.6
5.8
1.8
± 3.1 ± 3.6 ± 1.7
7.7
5.8
1.9
± 3.5 ± 3.5 ± 2.0
9.2
7.6
1.6
± 4.1 ± 4.4 ± 1.4
10.5
3.0
7.5
± 6.3 ± 2.6 ± 6.4
20.5
8.9
11.6
VAD
LPHMM
(MFCC)
Fonémový
(MFCC)
EHMM
(CPLP)
GMM
(MFCC)
DHMM
(RSPLP)
ENERG.
± 13.9 ± 4.6 ± 14.7
KEPST.
23.3
7.6
15.7
± 10.1 ± 4.3 ± 10.9
G729 AppIII 24.1
3.2
20.9
± 10.4 ± 2.1 ± 10.6
(a) Klapání
ERR ERS ERN
[%]
[%]
[%]
14.5
3.0
11.5
± 13.1 ± 4.1 ± 11.7
19.1
3.7
15.4
± 15.6 ± 4.6 ± 17.7
19.7
3.4
16.3
± 12.8 ± 4.8 ± 10.9
20.2
5.6
14.6
± 13.4 ± 4.6 ± 10.9
23.3
11.5
11.8
± 10.8 ± 8.1 ± 8.3
24.6
9.1
15.5
± 14.5 ± 5.1 ± 12.8
KEPST.
25.4
10.6
14.8
± 17.2 ± 6.7 ± 13.9
G729 AppIII 46.8
1.4
45.4
± 15.7 ± 2.9 ± 15.2
(b) Listování
Tabulka 8.3: Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv obsahujících dané neřečové události.
mel-kepstrální koeficienty. Při srovnání s referenčním kepstrálním VAD je jeho chyba ERR
u nahrávek číslic o 65% nižší a u nahrávek obsahujících celé věty o 69%. Na těchto množinách dosahuje mírně horších výsledků fonémový VAD, nicméně rozdíl není tak výrazný
jako na množině CAR2ECSVAD. Na množině CAR2ECSVAD klasifikuje EHMM VAD,
DHMM VAD i GMM VAD s kepstrálními PLP koeficienty v podstatě se shodnou o 47%
nižší celkovou chybou ERR než má referenční energetický VAD.
8.4
Souhrnné poznámky
U všech prezentovaných VAD byly použity pro zpracování signálů parametrizace – MFCC,
CPLP, SPLP, RCPLP a RSPLP. Z experimentálních výsledků vyplývá, že se nedá obecně
říct, že pro řešenou úlohu existuje jedna nejvhodnější parametrizace. Nicméně fonémový
VAD dosahoval nejlepší výsledky většinou se spektrálními nebo kepstrálními PLP koeficienty RASTA. S MFCC a SPLP byla jeho celková chyba naopak velmi vysoká. Detektory
využívající pouze dva modely pak v tišších prostředích měly nejnižší chybu klasifikace
většinou s parametrizacemi MFCC a CPLP a v rušnějších prostředích pak s RCPLP nebo
RSPLP. Testované VAD byly nastaveny tak, aby dosahovaly dobrých výsledků ve všech
prostředích. V případě dopředu známých podmínek rušení by bylo možno nastavit VAD
tak, aby byly dosaženy ještě nižší chyby klasifikace. Referenční VAD G729 dosáhl téměř
vždy velmi vysoké celkové chyby ERR, nicméně tento VAD je optimalizován k dosažení
velmi nízké hodnoty chyby ERS, aby v reálných aplikacích vždy přenesl řečové úseky i za
podmínek zvýšení celkové chyby ERR.
8.4. SOUHRNNÉ POZNÁMKY
VAD
Fonémový
(RCPLP)
LPHMM
(CPLP)
EHMM
(CPLP)
GMM
(RCPLP)
DHMM
(RCPLP)
KEPST.
ERR ERS ERN
[%]
[%]
[%]
5.6
5.3
0.3
± 0.1
± 0.2
± 0.3
7.3
5.9
1.4
± 0.2
± 0.7
± 0.9
8.8
5.8
3.0
± 0.2
± 0.6
± 0.4
11.5
6.4
5.1
± 0.4
± 0.5
± 1.0
17.8
3.7
14.0
± 2.9
± 1.4
± 4.3
38.1
7.7
± 12.1 ± 6.1
ENERG.
93
43.8
± 1.3
39.7
LPHMM
(MFCC)
DHMM
(CPLP)
EHMM
(CPLP)
Fonémový
(RCPLP)
GMM
(CPLP)
KEPST.
ENERG.
KEPST.
± 26.2
2.7
45.2
± 2.3
± 3.6
Tabulka 8.4: Nejnižší dosažené chyby
klasifikace navrhovaných a referenčních
VAD u promluv obsahujících slyšitelné
řazení rychlosti.
VAD
GMM
(MFCC)
LPHMM
(RCPLP)
EHMM
(RSPLP)
DHMM
(CPLP)
Fonémový
(RCPLP)
ENERG.
± 18.2
4.1
± 22.2 ± 4.0
G729 AppIII 47.9
30.4
VAD
ERR ERS ERN
[%]
[%]
[%]
5.9
3.0
2.9
± 5.2
± 3.7
± 4.2
6.8
3.9
2.9
± 5.3
± 5.0
± 3.3
7.8
5.4
2.4
± 6.9
± 5.9
± 4.9
7.9
1.8
6.1
± 5.9
± 2.1
± 5.4
10.0
8.3
1.7
± 6.8
± 6.7
± 3.5
17.3
16.9
0.4
± 7.4
± 7.4
± 1.0
ERR ERS ERN
[%]
[%]
[%]
4.7
0.9
3.8
± 3.3
± 1.3
± 3.2
4.9
1.5
3.4
± 3.1
± 2.4
± 2.4
5.5
2.2
3.2
± 3.2
± 2.4
± 2.4
5.8
0.8
5.0
± 3.4
± 1.3
± 3.1
9.6
0.4
9.1
± 5.4
± 0.8
± 5.3
10.9
9.5
1.4
± 5.3
± 5.7
± 1.7
12.2
11.6
0.6
± 4.9
± 5.0
± 1.2
0.7
35.6
G729 AppIII 36.2
± 14.5 ± 0.8
± 14.8
Tabulka 8.5: Nejnižší dosažené chyby
klasifikace navrhovaných a referenčních
VAD na množině CAR2ECSVAD.
VAD
LPHMM
(MFCC)
EHMM
(CPLP)
DHMM
(MFCC)
Fonémový
(RCPLP)
GMM
(CPLP)
ENERG.
[%]
[%]
[%]
3.9
0.6
3.3
± 3.8
± 1.2
± 3.8
4.8
1.2
3.6
± 5.2
± 1.7
± 5.1
5.0
2.2
2.8
± 3.3
± 2.8
± 2.3
5.3
0.4
4.9
± 3.8
± 1.0
± 3.7
6.1
3.4
2.7
± 5.1
± 3.3
± 4.4
12.5
10.1
2.4
± 6.5
± 5.5
± 3.9
19.3
14.9
4.4
12.5
12.0
0.6
± 9.4
± 7.1
± 7.2
± 4.6
± 4.4
± 1.6
2.3
28.7
G729 AppIII 23.2
0.5
22.7
± 0.7
± 8.6
G729 AppIII 31.0
± 11.0 ± 2.6
± 11.7
(a) Číslice (SPEECONVAD)
KEPST.
ERR ERS ERN
± 8.6
(b) Věty (SPEECONVAD)
Tabulka 8.6: Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD na
dalších typech řečových položek.
94
KAPITOLA 8. SHRNUJÍCÍ EXPERIMENTY
Kapitola 9
Závěr
Cílem této práce bylo prostudovat a srovnat algoritmy detekce řečové aktivity využívající
GMM a skryté Markovovy modely a následně navrhnout optimalizované detektory na
jejich bázi. V některých úlohách v tichém prostředí se detektory řečové aktivity běžně používají, například pro segmentaci krátkých studiových nahrávek a je dosahováno relativně
vysoké přesnosti klasifikace. Tato práce byla zaměřena na detekci v relativně silně zarušeném prostředí, kde v současnosti často používané heuristické detektory výrazně selhávají.
Uvedené algoritmy vedly ke konstrukci poměrně robustních detektorů, které fungovaly
spolehlivě jak v rušném tak v tišším prostředí. Jelikož šlo o dichotomický klasifikační problém, použití GMM vedlo přímočaře k řešení úlohy. Skryté Markovovské modely navíc
zohledňují strukturu promluvy, která nebyla u dříve používaných VAD brána v potaz.
Proto jejich využití vedlo ke zvýšení přesnosti klasifikace hlavně v situacích, kdy se povedlo zohlednit tuto skutečnost.
V následujících bodech jsou shrnuty nejdůležitější závěry a konkrétní přínosy této
práce
• Byla provedena podrobná analýza možností zpracování řečového signálu vedoucí
k výběru nejvhodnějších parametrů řeči pro řešenou úlohu. Nejprve byly odhadnuty
hustoty pravděpodobností rozložení parametrů signálů v jeho řečových a neřečových úsecích a následně byla analyzována jejich schopnost rozlišení řeči od šumu
pomocí vzdálenosti Kullback-Leibler. Byly analyzovány jednorozměrné parametry
signálu: energie, počet průchodu nulou a periody základního hlasivkového tónu, a
vícerozměrné parametry: koeficienty lineární predikce, kepstrální koeficienty, percepčně lineární prediktivní koeficienty a percepčně lineárně prediktivní koeficienty
RASTA. Bylo zjištěno, že parametry, které jsou nejlépe schopny rozlišit dvě dané
třídy, jsou spektrální percepčně lineární koeficienty RASTA.
• Byla navržena platforma pro testování a objektivní zhodnocení detektorů řečové aktivity, v rámci které byly provedeny všechny experimenty popisované v této práci.
Součástí této platformy byla implementace kritérií, která umožňují objektivní hodnocení míry a způsobů selhání testovaných VAD. Dále jsou zahrnuty implementace
několika různých referenčních VAD včetně detektoru podle doporučení G.729.
• Byla vytvořena referenční databáze pro testování úspěšnosti VAD obsahující asi
3 hodiny řečových signálů s označením přesných hranic řečových a neřečových segmentů. Databázi tvoří výběr nahrávek ze tří dostupných databází: 30 minut řečových
signálů z automobilu z databáze CAR2ECS, 48 minut pokrývající různá prostředí
z databáze SPEECON a 107 minut řeči z automobilu z databáze CZKCC. První
95
96
KAPITOLA 9. ZÁVĚR
dvě množiny obsahují transkripce získané pomocí automatického procesu zarovnání
a třetí množina obsahuje transkripce získané manuálním značením. Unikátní vlastností je pak přesné značení neřečových událostí. Označen je vždy typ, začátek a
konec události. Paralelně byly označeny také přesné hranice změn jednotlivých prostředí automobilu.
• Byl analyzován a optimalizován GMM detektor pro devět různých parametrizací
včetně vlivu počtu směsí na míru chyb klasifikace. Dále byla otestována chybovost
VAD na promluvách z prostředí automobilu a na řečových signálech obsahujících
různé neřečové události. V prostředí jedoucího automobilu byly nejmenší chyby klasifikace dosaženy pomocí kepstrálních percepčně lineárních koeficientů RASTA, při
srovnání s nejúspěšnějším referenčním VAD byla celková chyba klasifikace snížena
o 51%.
• Byl navržen detektor řečové aktivity klasifikující na základě vzdálenosti mezi HMM
řeči a šumu – DHMM VAD. Přínos navrženého VAD spočívá v možnosti plynulé
změny jeho nastavení tak, aby klasifikoval přesněji buď v řečových nebo v neřečových úsecích signálu při současném zachování strukturálního způsobu klasifikace pomocí HMM. Nevýhodou je větší výpočetní náročnost algoritmu. Na základě analýzy
úspěšnosti klasifikace VAD v závislosti na parametrech použitých HMM byly nalezena optimální nastavení detektoru. Navržený VAD byl otestován na promluvách
z různých prostředí, především pak z prostředí automobilu a na promluvách obsahující různé neřečové události. Při srovnání s referenčními VAD dosahuje navržený
VAD u signálu nahraných v prostředí jedoucího auta 52% snížení celkové chyby
klasifikace.
• Byl testován a optimalizován fonémový HMM VAD, který zjišťuje přítomnost řečové aktivity na základě nejpravděpodobnějšího průchodu rozpoznávací sítí složené
z HMM monofonů a šumu. Byly hledány nejvhodnější způsoby parametrizace signálů
a optimální parametry modelů monofonů, tak aby bylo dosaženo robustní klasifikace.
Pro fonémový VAD se jako nejvhodnější parametrizace signálů ukázaly spektrální
nebo kepstrální percepčně lineární prediktivní koeficienty RASTA. To je ve shodě
s analýzou provedenou pomocí vzdáleností Kullback-Leibler. Největší přínos fonémového VAD spočívá ve zlepšení klasifikace signálů se silnějším šumovým pozadím.
Pro signály nahrané v jedoucím automobilu byla snížena chyba detekce řeči o více
než 71%. Ve specifických případech, ve kterých se projevuje výhodnost modelování
struktury řeči a šumu, například u nahrávek se slyšitelným řazením jiného rychlostního stupně, bylo dosaženo snížení chyby až o 85%.
• Byl navržen a optimalizován detektor řečové aktivity, který modeluje strukturu promluvy pomocí dvou obecných modelů řeči a šumu. Ke klasifikaci používá algoritmus cestování žetonů hledající nejpravděpodobnější průchod skrz rozpoznávací síť.
Byly analyzovány VAD využívající dvě různé struktury modelů – levo-pravé a ergodické HMM. Výhoda uvedeného přístupu spočívá v jednoduchosti daného řešení a
větší schopnosti generalizace obecných modelů, což se projevuje zvláště při srovnání
s fonémovým VAD. Přínos spočívá především v systematické analýze vlivu použité
parametrizace signálů na přesnost klasifikace a testování na řečových signálech nahraných v různě rušivém prostředí. V prostředí jedoucího automobilu bylo dosaženo
snížení chyby klasifikace o 61% při srovnání s nejúspěšnějším referenčním VAD.
97
• Realizované testy na signálech obsahujících reálné rušení různého typu s větším
důrazem na prostředí jedoucího automobilu ukázaly větší přesnost HMM a GMM
detektorů ve srovnání s referenčním detektorem energetickým a kepstrálním, či detektory dle doporučení G.729. Lepší výsledky jsou dosaženy hlavně na signálech
se silnějším šumovým pozadím, kde navržené detektory klasifikují přesněji zejména
neřečové segmenty. Ve specifických případech byla snížena chyba klasifikace o 85%.
Budoucí práce zabývající se detekcí řečové aktivity prostřednictvím skrytých Markovovských modelů by mohla vést k ještě přesnějšímu modelování řeči a šumu, dále by se
mohly zohlednit možnosti využití většího počtu kanálů či doplňujících zdrojů informací
o prostředí a řečníkovi. Další práce by se mohla také zaměřit na využití nových nebo
nově vyvíjených parametrizací, které využívají odlišné přístupy zpracování dat a více zohledňují například kontextovou informaci. Zajímavou úlohou by mohla být také detekce
přítomnosti řeči na spontánně mluvených promluvách obsahující mluvenou řeč na pozadí.
98
KAPITOLA 9. ZÁVĚR
Literatura
[1] Voice Activity Detector (VAD) for Adaptive Multi-Rate (AMR) Speech Traffic Channels. ETSI EN 301 708 Recommendation, 1999.
[2] Ahmadi, S.; Spanias, A. S.: Cepstrum-based pitch detection using a new statistical
V/UV classification algorithm. IEEE Transaction on Speech and Audio Processing,
ročník 7, č. 3, 1999.
[3] Appiah, M. Y.; Makrickaite, R.; Gusaite, M.; aj.: Robust Voice Activity Detector
and Noise Reduction Mechanism Using Higher-order Statistics. Technická zpráva,
Aalborg University, Institute of Electronic Systems, 2005.
[4] Bartůšek, R.; Matoušek, J.; Hanžl, V.: Latest Czech SAMPA Proposal. 2003.
URL http://noeld.feld.cvut.cz/sampa/CZECH-SAMPA.html
[5] Benyassine, A.; Shlimot, E.; Su, H.: A Silence Compression Scheme for Use with
G.729 Optimized for V.70 Digital Simultaneous Voice and Data Applications. IEEE
Communication Magazine, 1997.
[6] Beritelli, F.; Casale, S.; Ruggeri, G.; aj.: Performance evaluation and comparison of
G.729/AMR/fuzzy voice activity detectors. IEEE Signal Processing Letters, ročník 9,
č. 3, 2002: s. 85–88.
[7] Bouquin, R. L.; FawceFaucon, G.: Using the coherence function for noise reduction.
Communications, Speech and Vision, IEE Proceedings I, ročník 276 – 280, č. 3, 1992.
[8] Bořil, H.; Pollák, P.: Design and Collection of Czech Lombard Speech Database.
Interspeech 05, 2005: s. 1577–1580.
[9] Brookes, M.: VOICEBOX: Speech Processing Toolbox for Matlab. [online], 2010.
URL http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html
[10] Cazzanti, L.; Gupta, M. R.: Local Similarity Discriminant Analysis. Proceedings of
the 24th International Conference on Machine Learning, 2007.
[11] Chang, J.-H.; Kim, N. S.; Mitra, S. K.: Voice Activity Detection Based on Multiple
Statistical Models. IEEE Transaction on Signal Processiing, ročník 54, č. 6, 2006.
[12] Chengalvarayan, R.: Robust energy normalization using speech/nonspeech discriminator for German connected digit recognition. EUROSPEECH’99, 1999: s. 61–64.
[13] Chernenko, E.; Kinnunen, T.; Tuononen, M.; aj.: Support Vector Machines in the
Task of Voice Activity Detection. Presentation in the SPECOM’07, 2007.
99
100
KAPITOLA 9. ZÁVĚR
[14] Cho, Y. D.; Al-Naimi, K.; Konder, A.: Improved Voice Activity Detection Based on
a Smoothed Statistical Likelihood Ratio. Acoustics, Speech, and Signal Processing,
ročník 2, 2001: s. 737–740.
[15] Ephraim, Y.; Malah, D.: Speech enhancement using a minimum mean-square error
short-time spectral amplitude estimator. IEEE Transactions on Acoustics, Speech,
and Signal Processing, ročník 32, č. 6, 1984: s. 1109–1121.
[16] Fawcett, T.: An introduction to ROC analysis. Pattern Recognition Letters, 207: s.
861–874.
[17] Fisher, E.; Tabrikian, J.; Dubnov, S.: Generalized Likelihood Ratio Test for Voiced
/ Unvoiced Decision Using the Harmonic Plus Noise Model. Acoustics, Speech, and
Signal Processing, ročník 1, č. 6-10, 2003: s. 440–443.
[18] Fousek, P.: CTUcopy – universal speech enhencer and feature extractor. [online],
2007.
URL http://noel.feld.cvut.cz/speechlab/en/download/ctucopy3.html
[19] Freeman, D. K.; Cosier, G.; Southcott, C. B.; aj.: The voice activity detector for
the pan European digital cellular mobile telephone service. IEEE Transactions on
Acoustics, Speech, and Signal Processing, 1989.
[20] Ganapathiraju, A.; Webster, L.; Trimble, J.; aj.: Comparison Of Energy-Based Endpoint Detectors For Speech Signal Processing. Southeastcon ’96, Proceedings of the
IEEE, 1996: s. 500–503.
[21] Gemello, R.; Mana, F.; Mori, R. D.: Non-linear estimation of voice activity to improve
automatic recognition of noisy speech. Interspeech 2005, 2005.
[22] Górriz, J.; Ramírez, J.; Puntonet, C.: Robust Speech Recognition and Understanding,
kapitola New Advances in Voice Activity Detection using HOS and Optimization
Strategies. Vienna, Austria: I-Tech, 2007.
[23] Haigh, J. A.; Mason, J. S.: A Voice Activity Detector Based on Cepstral Analysis.
Eurospeech’93 - Proceedings of the 3rd European Conference on Speech, Communication, and Technology, 1993.
[24] Hamsici, O. C.; Martinez, A. M.: Bayes Optimality in Linear Discriminant Analysis.
IEEE Transactions on Pattern Analysis and Machine Intelligence, ročník 30, č. 4,
2008: s. 647–657.
[25] Harrison, W.; Lim, J.; Singer, E.: A new application of adaptive noise cancellation.
IEEE Transactions on Acoustics, Speech, and Signal Processing, ročník 34, č. 1, 1986:
s. 21–27.
[26] Hermansky, H.: Perceptual linear predictive (PLP) analysis of speech. The Journal
of the Acoustical Society of America, ročník 87, č. 4, 1990: s. 1738–1752, doi:10.1121/
1.399423.
URL http://link.aip.org/link/?JAS/87/1738/1
[27] Hermansky, H.; Morgan, N.: RASTA processing of speech. In IEEE Transactions on
Speech and Acoustics, ročník 2, October 1994, s. 587–589.
101
[28] Hoyt, J.; Wechsler, H.: Detection of human speech in structured noise. IEEE
Transactions on Acoustics, Speech, and Signal Processing, ročník 2, 1994: s. 237–
240.
[29] International Telecommunication Union - Telecommunication Standartization Sector: Coding of Speech at 8 kbit/s Using Conjugate-Structure Algebraic-Code-Excited
Linear-Prediction (CS-ACELP). 1996.
[30] International Telecommunication Union - Telecommunication Standartization Sector:
A Silence Compression Scheme for G.729 Optimized for Terminals Conforming to
ITU-T V.70. 1996.
[31] Jelínek, F.: Statistical Methods for Speech Recognition. Cambridge, Massachusetts,
London, England: The MIT Press, 1999.
[32] Jelínek, T.: Speech/Pause Detector Based on a Cepstrum Derivation. Diplomová
práce, CTU, 2004.
[33] Junqua, J. C.; Reaves, B.; Mark, B.: A study of endpoint detection algorithms in
adverse conditions: Incidence on a DTW and HMM recognize. Eurospeech, 1991: s.
1371–1374.
[34] Kačur, J.; Rozinaj, G.; Herrera-Garcia, S.: Speech Signal Detection in a Noisy Environment Using Neural Networks and Cepstral Matrices. Electrical Engineering,
ročník 55, č. 5-6, 2004: s. 131–137.
[35] Lamel, L. F.; Rabiner, L. R.; Rosenberg, A. E.; aj.: An Improved Endpoint Detector
for Isolated Word Recognition. IEEE Transactions on Acoustics, Speech, and Signal
Processing, ročník 29, č. 4, 1989.
[36] Lee, I.; Stern, H.; Mahmoud, S.: A Voice Activity Detection Algorithm For Communication System With Dynamically Varying Background Acoustic Noise. IEEE
Vehicular Technology Conference, ročník 2, č. 1214–1218, 1998.
[37] Li, Q.; Zheng, J.; Tsai, A.; aj.: Robust Endpoint Detection and Energy Normalization
for Real-Time Speech and Speaker Recognition. IEEE Transaction on Speech and
Audio Processing, ročník 10, č. 3, 2002: s. 146–157.
[38] Martin, A.; Charlet, D.; Mauuary, L.: Robust speech/non-speech detection using LDA
applied to MFCC. IEEE Transactions on Acoustics, Speech, and Signal Processing,
ročník 1, 2001: s. 237–240.
[39] Martin, A.; Karray, L.; Gilloire, A.: High Order Statistics For Robust Speech/NonSpeech Detection. EUSIPCO 2000, , č. 10, 2000: s. 469–472.
[40] Marzinzik, M.; Kollmeier, B.: Speech Pause Detection for Noise Spectrum Estimation
by Tracking Power Envelope Dynamics. IEEE Transaction on Speech and Audio
Processing, ročník 10, č. 2, 2002.
[41] McKinley, B.; Whipple, G. H.: Model Based Speech Pause Detection. IEEE
Transaction on Speech and Audio Processing, 1997.
102
KAPITOLA 9. ZÁVĚR
[42] Nemer, E.; Goubran, R.; Mahmoud, S.: Robust voice activity detection using higherorder statistics in the LPC Residual domain. IEEE Transaction on Speech and Audio
Processing, ročník 9, č. 3, 2001: s. 217–231.
[43] Novák, D.; Cuest-Frau, D.: Clustering ECG Signal Using Hidden Markov Models.
CTU in Prague, Polytechnic University of Valencia, 2002.
[44] Novotný, J.: Context Dependent HMM Phoneme Model Training and Usage. Technická zpráva, CTU, 2002.
[45] Othman, H.; Abounasr, T.: A semi-continuous state transition probability HMMbased voice activity detection. Acoustics, Speech, and Signal Processing, ročník 5, č.
17-21, 2004: s. 821–824.
[46] Padmanabha, R.; Krishnan, P. S.; Murthy, H. A.: A pattern recognition approach to
VAD using modified group delay. NCC, 2008.
[47] Pencak, J.; Nelson, D.: The NP speech activity detection algorithm. Acoustics, Speech, and Signal Processing, ročník 1, 1995: s. 381–384.
[48] Planková, J.: Fenomén open access v informační společnosti. [online], 2007.
URL http://www.ikaros.cz/?q=node/4303
[49] Pollák, P.: 300 speaker Czech Database from Car. Final report of the project based
on Frame Agreement for the collection of Speech data Corpora. Technická zpráva,
CTU FEL, Temic Germany, 2001.
[50] Pollák, P.: Metody odhadu odstupu signálu od šumu v řečovém signálu. Akustické
listy, ročník 7, 2001.
[51] Pollák, P.: Criteria for VAD classification. Technická zpráva, CTU FEL, 2002.
[52] Pollák, P.: Desing and Creation of Speech Databases for Recognition and Enhancement. 2002.
[53] Pollák, P.; Sovka, P.; Hanžl, V.; aj.: CAR2 - Czech Database of Car Speech. Radioengineering, ročník 8, č. 4, 1999: s. 1–6.
[54] Pollák, P.; Sovka, P.; Uhlíř, J.: Cepstral Speech/Pause Detectors. Proceedings of IEEE
Workshop on Nonlinear Signal and Image Processing, 1995.
[55] Pollák, P.; Černocký, J.: SPEECHDAT(E) Database. 2000.
URL http://www.speechdat.org
[56] Pollák, P.; Černocký, J.: Czech SPEECON Adult Database. 2003.
URL http://www.speechdat.org/speecon
[57] Poruba, J.; Matějíček, L.: Odfiltrování rušivých signálů ze zašumělé řeči. Elektrorevue,
2002.
[58] Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, 1995.
[59] Psutka, J.; Müller, L.; Matoušek, J.; aj.: Mluvíme s počítačem česky. Academia, 2006.
103
[60] Rabiner, L.; Juang, B.-H.: Fundamentals of Speech Recognition. Prentice Hall PTR,
1993, ISBN 0130151572.
[61] Rabiner, L.; Sambur, M.: Voiced-unvoiced-silence detection using the Itakura LPC
distance measure. IEEE Transactions On Acoustics, Speech, and Signal Processing,
ročník 2, 1977: s. 323–326.
[62] Rabiner, L. R.: A tutorial on hidden Markov models and selected applications in
speech recognition. Proceedings of the IEEE, ročník 77, č. 2, 1989: s. 257–286, doi:
10.1109/5.18626.
URL http://dx.doi.org/10.1109/5.18626
[63] Rabiner, L. R.; Lee, C. H.; Juang, B. H.; aj.: HMM Clustering for Connected Word
Recognition. IEEE Transaction on Speech and Audio Processing, 1989.
[64] Ramirez, J.; Yelamos, P.; Gorriz, J.; aj.: SVM-based speech endpoint detection using
contextual speech features. Electronics Letters, ročník 42, č. 7, 2006: s. 426–428.
[65] Renevey, P.; Drygajlo, A.: Entropy Based Voice Activity Detection in Very Noisy
Condition. EUROSPEECH’01, 2001: s. 1887–1890.
[66] Rosca, J.; Balan, R.; Fan, N. P.; aj.: Multichannel voice detection in adverse environments. EUSIPCO 2002, 2002.
[67] Sangwan, A.; Zhu, W.-P.; Ahmad, M.: Design and Performance Analysis of Bayesian,
Neyman–Pearson, and Competitive Neyman–Pearson Voice Activity Detectors. IEEE
Transactions on Acoustics, Speech, and Signal Processing, ročník 55, č. 9, 2007: s.
4341–4353.
[68] Shannon, C. E.: A Mathematical Theory of Communication. Bell System Technical
Journal, ročník 27, 1948: s. 379–423, 623–656.
[69] Shao, C.; Bouchard, M.: Efficient classification of noisy speech using neural networks.
Signal Processing and Its Applications, ročník 1, č. 1-4, 2003: s. 357–360.
[70] Shire, M.: PLP and RASTA in Matlab. [online], 2010.
URL http://labrosa.ee.columbia.edu/matlab/rastamat
[71] Singh, D.; Boland, F.: Voice Activity Detection. [online].
URL http://www.acm.org/crossroads/xrds13-4/voice_detection.html
[72] Sohn, J.; Kim, N. S.; Sung, W.: A Statistical Model-Based Voice Activity Detection.
IEEE Signal Processing Letters, ročník 6, č. 1, 1999.
[73] Sovka, P.; Pollák, P.: The Study of Speech/Pause Detectors for Speech Enhancement
Methods. Eurospeech, 1995.
[74] Sovka, P.; Pollák, P.: Vybrané metody číslicového zpracovávání signálu. ČVUT FEL,
2001.
[75] Stegmann, J.; Schroder, G.: Robust voice-activity detection based on the wavelet
transform. Speech Coding For Telecommunications Proceeding, 1997: s. 99–100.
104
KAPITOLA 9. ZÁVĚR
[76] Talkin, D.: A Robust Algorithm for Pitch Tracking (RAPT). Speech Coding and
Synthesis, 1995.
[77] Tanyer, S. G.; Ozer, H.: Voice Activity Detection in Nonstationary Noise. IEEE
Transaction on Speech and Audio Processing, ročník 8, č. 4, 2000.
[78] Tatarinov, J.: HMM rozpoznávač řeči obsahující hláskování české abecedy. Diplomová
práce, CTU, 2003.
[79] Tatarinov, J.: The Study of The Voice Activity Detector Based on Evaluating of
Changes in Probabilities Computed Using HMM. POSTER 2005, 2005.
[80] Tatarinov, J.: VAD Toolkit. 2009.
URL http://noel.feld.cvut.cz/speechlab
[81] Tatarinov, J.; Pollák, P.: Hidden Markov Models in Voice Activity Detection. Robustness Issues in Conversational Interaction, 2004.
[82] Trmal, J.; Zelinka, J.; Psutka, J.; aj.: Comparison between GMM and decision graphs
based silence/speech detection method. Proceedings of the 11th international conference Speech and computer SPECOM’2006, 2006: s. 376–379.
[83] Tucker, R.: Voice activity detection using a periodicity measure. IEE Proceedings,
Communications, Speech and Vision, ročník 139, č. 4, 1992.
[84] Van Compernolle, D.: Noise Adaptation in Hidden Markov Model Speech Recognition
System. Computer Speech and Language, ročník 3, 1989: s. 151–168.
[85] Vaseghi, S. V.: Advanced Digital Signal Processing and Noise Reduction. Englewood
Cliffs, New Jersey: John Wiley and Sons, New York, Prentice-Hall, 2000.
[86] Černocký, J.: Temporal processing for feature extraction in speech recognition, shortened version of habilitation thesis. Edice Habilitační a inaugurační spisy, sv. 112,
Publishing house of Brno University of Technology VUTIUM, 2003, ISBN 80-2142395-1, str. 30.
URL http://www.fit.vutbr.cz/research/view_pub.php?id=7240
[87] Vlaj, D.; Kotnik, B.; Horvat, B.; aj.: A Computationally Efficient Mel-Bank VAD Algorithm for Distributed Speech Recognition Systems. EURASIP Journal on Applied
Signal Processing, ročník 2005, č. 1, 2005: s. 487–497.
[88] Vondra, M.: Kepstrální analýza řečového signálu. Elektrorevue, 2001.
URL http://www.elektrorevue.cz/clanky/01048/index.html
[89] Vondrášek, M.: Odhad SNR řečového signálu snímaného v hlučném prostředí. Diplomová práce, CTU, 2004.
[90] Vondrášek, M.; Pollák, P.: Methods for Speech SNR estimation: Evaluation Tool and
Analysis of VAD Dependency. RADIOENGINEERING, ročník 14, č. 1, 2005.
[91] Šedivý, J.: Perspektivy počítačového rozpoznávání lidské řeči. [online], 2006.
[92] Ždánský, J.: The Robust HMM Speech Recognizer. Diplomová práce, CTU, 2002.
105
[93] Ždánský, J.; David, P.; Nouza, J.: An Improved Preprocessor for the Automatic
Transcription of Broadcast News Audio Stream. INTERSPEECH 2004 - ICSLP,
2004.
[94] Woo, K.-H.; Yang, T.-Y.; Park, K.-J.; aj.: Robust voice activity detection algorithm
for estimating noise spectrum. Electronics Letters, ročník 36, č. 2, 2000.
[95] Yamamoto, K.; Jabloun, F.; Reinhard, K.; aj.: Robust Endpoint Detection for Speech Recognition Based on Discriminative Feature Extraction. Acoustics, Speech and
Signal Processing, ročník 1, č. 14-19, 2006: s. 807–808.
[96] Yang, S.; Li, Z.-G.; Chen, Y.-Q.: A fractal based voice activity detector for Internet
telephone. Acoustics, Speech, and Signal Processing, ročník 1, č. 6-10, 2003: s. 808–
811.
[97] Young, S.; Evermann, G.; Kershaw, D.; aj.: The HTK Book (for HTK Version 3.1).
UK: Cambridge University Engineering Department, 2001.
[98] Young, S. J.; Russell, N. H.; Thornton, J. H. S.: Token Passing: a Simple Conceptual Model for Connected Speech Recognition Systems. Technická zpráva, Cambridge
University Engineering Department, 1989.
[99] Zhang, J.; Ward, W.; Pellom, B.: Phone Based Voice Activity Detection Using Online
Bayesian Adaptation with Conjugate Normal Distributions. ICASSP ’02, 2002.
106
KAPITOLA 9. ZÁVĚR
Vlastní publikace vztahující se
k disertaci
• Tatarinov, J.: Detekce řečové aktivity při rozpoznávání řeči. In Analýza a zpracování
signálů V. Praha: ČVUT FEL, Katedra teorie obvodů, 2004, díl 1, s. 103–114. ISBN
80-01-03139-X.
• Tatarinov, J. – Pollák, P.: Experiments in Voice Activity Detection Using Hidden
Markov Models. In Speech Processing. Prague: Academy of Sciences of the Czech
Republic, Institute of Radioengineering and Electronics, 2004, vol. 1, p. 102–105.
ISBN 80-86269-11-6.
• Tatarinov, J. – Pollák, P.: Experiments in voice activity detection using Hidden
Markov Models. In 14th Czech-German Workshop. Prague, 2004.
• Tatarinov, J. – Pollák, P.: Hidden Markov Models in Voice Activity Detection. In
Robust2004: Robustness Issues in Conversational Interaction [CD-ROM]. Brussels:
COST Office, 2004.
• Tatarinov, J.: Využití Markovových modelů pro detekci řeči. In Analýza a zpracován
signálů VI. Praha: ČVUT FEL, Katedra teorie obvodů, 2005, díl 1, s. 133–141. ISBN
80-01-03217-5.
• Tatarinov, J.: Detektory řečové aktivity založené na skrytých Markovových modelech. In Analýza a zpracování řečových a biologických signálů. Praha: ČVUT FEL,
Katedra teorie obvodů, 2005, díl 1, s. 46–53. ISBN 80-01-03412-7.
• Tatarinov, J.: The Study of the Voice Activity Detector Based on Evaluating of
Changes in Probabilities Computed Using HMM. Proc. POSTER 2005, Prague, 2005.
• Tatarinov, J. – Pollák, P.: HMM Based VAD Using Token Passing Algorithm and
Generalized Speech and Silence Models. In Proceedings of the 16th Conference Joined
with the 15th Czech-German Workshop "Speech Processing". Dresden: Technical
University, 2005, vol. 1, p. 316–322. ISBN 3-938863-17-X.
• Tatarinov, J. – Pollák, P.: Voice Activity Detector Based on Sample Synchronous
Probability Evaluation Using HMM. In Radioelektronika 2005 - Conference Proceedings. Brno: VUT v Brně, FEI, Ústav radioelektroniky, 2005, vol. 1, p. 440–443.
ISBN 80-214-2904-6.
• Tatarinov, J. – Pollák, P.: HMM and EHMM Based Voice Activity Detectors and
Design of Testing Platform for VAD Classification. In Digital Technologies 2008
[CD-ROM]. Žilina: University of Žilina, Fakulty of electrical engineering, 2008, vol.
1, p. 1–4. ISBN 978-80-8070-953-2.
107
108
KAPITOLA 9. ZÁVĚR
• Tatarinov, J. – Pollák, P.: Řečové detektory využívající ergodické Markovovské modely. In Technical Computing Prague 2008 [CD-ROM]. Praha: Humusoft, 2008, díl
1, s. 1–6. ISBN 978-80-7080-692-0.
• Tatarinov, J. – Pollák, P.: Design and Utilization of Testing Database for VAD
Classification. In 19th Czech-German Workshop on Speech Processing [CD-ROM].
Prague: Institute of Photonics and Electronics AS CR, 2009, p. 42–47. ISBN 97880-86269-18-4.
• Tatarinov, J. - Pollák, P.: Detekce řečové aktivity na bázi HMM a GMM modelování.
Akustické listy, 2010, ročník 16, číslo 2–4, ISSN 1212-4702.
Dodatek A
Tabulky a grafy výsledků experimentů
109
110
DODATEK A. TABULKY A GRAFY VÝSLEDKŮ EXPERIMENTŮ
0.8
0.8
0.6
0.6
TP
1
TP
1
0.4
0.4
0.2
0.2
ROC pro MFCC
0
0
0.2
0.4
0.6
ROC pro RCPLP
0
0.8
1
0
0.2
0.4
FP
0.6
0.8
1
FP
(a) MFCC
(b) RCPLP
0.8
0.8
0.6
0.6
TP
1
TP
1
0.4
0.4
0.2
0.2
ROC pro SPLP
0
0
0.2
0.4
0.6
ROC pro RSPLP
0
0.8
1
0
0.2
0.4
FP
0.6
0.8
1
FP
(c) SPLP
(d) RSPLP
Obrázek A.1: Nastavení prahu DHMM VAD pomocí ROC charakteristiky
MFCC
RCPLP
CPLP
RSPLP
SPLP
Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS
směsí [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
0
7.2
6.5
4.9
1.9
6.4
5.8
15.1
1.8
54.7
1.3
± 3.3
8
30.7
± 3.5 ± 2.5 ± 2.0
7.2
4.4
2.6
± 3.3
± 3.5 ± 13.9 ± 2.3 ± 28.1 ± 2.0
16.4
11.1
± 24.9 ± 7.1 ± 2.0 ± 1.8 ± 10.7 ± 7.5
16
30.2
8.2
4.2
2.2
20.4
9.6
± 25.7 ± 7.6 ± 2.5 ± 2.0 ± 17.8 ± 7.4
32
22.0
10.3
4.5
2.2
16.9
8.6
± 20.9 ± 7.8 ± 2.7 ± 1.9 ± 17.3 ± 7.4
5.5
± 3.0
5.2
± 2.9
5.1
± 2.9
2.2
41.0
2.1
± 1.2 ± 31.0 ± 2.3
2.5
36.8
2.4
± 1.9 ± 31.3 ± 2.0
2.2
25.7
3.1
± 1.4 ± 25.2 ± 2.5
Tabulka A.4: Analýza počtu směsí fonémů v prostředí stojícího automobilu se zapnutým
motorem
111
MFCC
RCPLP
CPLP
RSPLP
SPLP
Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS
směsí [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
2
9.7
6.4
9.5
8.8 11.2 6.6 11.4 6.9 10.5 4.6
± 5.9 ± 3.0 ± 4.0 ± 4.0 ± 5.4 ± 2.9 ± 5.9 ± 3.6 ± 6.3 ± 3.1
4
12.3
5.9
7.5
5.8
9.3
5.3
10.8
7.9
8.8
5.4
± 7.3 ± 2.8 ± 3.5 ± 3.1 ± 5.0 ± 3.2 ± 5.8 ± 4.1 ± 4.3 ± 3.7
8
10.8
5.4
6.7
5.5
9.1
5.3
8.6
7.2
9.0
5.5
± 6.8 ± 3.0 ± 3.5 ± 3.4 ± 6.1 ± 2.9 ± 4.2 ± 3.6 ± 4.5 ± 3.1
16
9.3
5.4
7.3
6.3
8.2
5.4
8.4
7.2
9.0
5.7
± 6.4 ± 2.8 ± 3.8 ± 3.7 ± 4.7 ± 3.1 ± 3.7 ± 3.4 ± 4.9 ± 3.3
32
9.5
5.9
6.8
5.7
9.1
5.5
9.6
8.5
9.0
7.3
± 6.1 ± 3.0 ± 3.6 ± 3.6 ± 5.9 ± 2.9 ± 3.9 ± 3.4 ± 3.9 ± 3.5
Tabulka A.1: Analýza počtu směsí GMM v prostředí stojícího automobilu se zapnutým
motorem
MFCC
RCPLP
CPLP
RSPLP
SPLP
Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS
směsí [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
0
7.8
4.7
7.2
5.5
8.2
5.2
8.6
7.3
7.3
6.7
± 4.7 ± 3.1 ± 3.5 ± 3.3 ± 5.3 ± 3.0 ± 3.9 ± 3.5 ± 3.1 ± 3.2
4
8.6
4.3
6.3
5.3
7.1
4.4
7.5
6.8
7.9
6.1
± 7.3 ± 2.8 ± 3.1 ± 2.9 ± 5.4 ± 3.0 ± 3.3 ± 3.2 ± 4.0 ± 3.2
8
8.7
3.7
7.0
5.7
7.5
4.0
7.8
7.0
7.4
6.3
± 8.3 ± 2.4 ± 3.2 ± 3.0 ± 5.8 ± 2.9 ± 3.3 ± 3.2 ± 3.3 ± 3.1
16
8.1
3.9
6.4
5.4
7.6
4.5
8.1
7.2
8.5
5.8
± 7.2 ± 2.5 ± 3.3 ± 3.2 ± 5.3 ± 3.1 ± 3.4 ± 3.2 ± 5.3 ± 2.9
32
9.5
3.7
6.9
5.7
7.6
4.1
7.2
6.7
8.4
6.3
± 9.7 ± 2.7 ± 3.2 ± 3.0 ± 6.0 ± 2.9 ± 3.1 ± 3.2 ± 5.1 ± 3.2
Tabulka A.2: Analýza počtu směsí modelů HMM VAD s LP modely v prostředí stojícího
automobilu se zapnutým motorem
MFCC
RCPLP
CPLP
RSPLP
SPLP
Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS
stavů [%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
3
8.8
6.2
7.1
4.9
9.0
5.0 10.7 7.5
8.9
5.3
± 4.2 ± 3.3 ± 3.6 ± 3.3 ± 4.9 ± 3.3 ± 5.6 ± 4.1 ± 4.6 ± 3.2
5
8.5
6.1
7.1
6.0
8.5
4.1
8.3
7.2
9.3
6.6
± 4.9 ± 3.1 ± 3.1 ± 3.0 ± 7.2 ± 2.8 ± 3.3 ± 2.9 ± 5.3 ± 3.3
7
7.8
4.7
6.3
5.3
7.1
4.4
7.5
6.8
7.4
6.3
± 4.7 ± 3.1 ± 3.1 ± 2.9 ± 5.4 ± 3.0 ± 3.3 ± 3.2 ± 3.3 ± 3.1
9
8.7
5.1
6.7
5.9
8.5
4.5
7.1
6.1
6.6
5.9
± 6.7 ± 3.1 ± 3.2 ± 3.1 ± 6.8 ± 2.9 ± 3.1 ± 2.9 ± 2.9 ± 3.0
Tabulka A.3: Analýza počtu stavů modelů HMM VAD s LP modely v prostředí stojícího
automobilu se zapnutým motorem
112
DODATEK A. TABULKY A GRAFY VÝSLEDKŮ EXPERIMENTŮ
VAD
ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
[%]
[%]
[%]
LPHMM MFCC 9.3
3.5
5.8
9.9
4.6
5.2
EHMM MFCC 10.1
4.6
5.5
LPHMM CPLP 10.3
5.0
5.3
11.2
6.7
4.5
EHMM RSPLP 11.2
4.8
6.4
LPHMM RCPLP 11.3
3.5
7.8
11.4
0.8
10.5
11.5
6.9
4.6
LPHMM RSPLP 11.6
6.2
5.4
12.0
4.3
7.8
EHMM RCPLP 12.3
3.9
8.4
12.6
8.2
4.5
12.8
6.6
6.2
12.9
10.0
2.9
LPHMM SPLP 13.0
8.4
4.6
13.1
1.0
12.1
13.4
5.7
7.7
13.7
5.0
8.7
14.1
6.4
7.6
DHMM MFCC 14.1
4.5
9.6
DHMM RCPLP 14.4
4.5
9.9
14.7
12.7
2.0
16.9
10.7
6.2
17.9
9.4
8.5
18.6
2.2
16.4
DHMM RSPLP 20.9
13.7
7.2
30.6
1.2
29.5
31.1
3.3
27.8
EHMM CPLP
GMM MFCC
Fon RCPLP
GMM CPLP
GMM RCPLP
EHMM SPLP
GMM RSPLP
ENERG.
Fon RSPLP
Fon CPLP
DHMM CPLP
Fon MFCC
KEPST.
GMM SPLP
DHMM SPLP
Fon SPLP
G729 AppIII
G729
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
0.5
2.3
0.7
0.0
1.6
1.7
0.5
2.0
0.3
3.2
1.2
0.0
1.1
1.7
1.0
1.5
0.4
3.4
0.9
0.0
1.1
1.7
1.1
1.6
0.6
3.4
1.0
0.0
1.6
1.4
0.8
1.5
0.7
4.0
1.9
0.0
0.7
1.7
1.4
0.7
0.7
2.5
1.6
0.0
1.0
1.7
2.6
1.1
0.2
2.4
0.9
0.0
1.3
2.0
2.2
2.3
0.4
0.3
0.2
0.0
3.5
1.2
1.6
4.2
0.5
3.6
2.7
0.0
0.6
1.7
1.6
0.7
0.6
4.2
1.2
0.2
0.9
1.5
2.1
1.0
0.2
1.4
2.7
0.0
1.5
2.1
2.6
1.5
0.2
2.0
1.7
0.0
1.4
2.4
3.1
1.4
0.7
5.1
2.3
0.0
0.6
1.7
1.3
0.9
0.2
3.1
3.3
0.0
0.7
2.1
2.5
1.0
1.2
3.5
5.2
0.0
0.7
0.3
1.6
0.3
1.6
5.4
0.8
0.5
0.7
1.3
1.6
1.0
0.1
0.6
0.3
0.0
3.6
1.7
2.8
4.1
0.7
2.3
0.4
2.3
1.2
1.2
1.6
3.8
0.2
3.1
1.7
0.0
0.7
3.9
2.3
1.8
0.5
2.2
0.1
3.6
0.7
0.8
1.4
4.7
0.2
2.9
1.4
0.0
0.9
4.2
2.5
2.0
0.4
2.1
2.0
0.0
1.0
3.8
2.3
2.8
1.5
5.1
6.2
0.0
0.5
0.2
1.2
0.1
1.2
5.2
4.1
0.3
0.6
2.0
2.7
1.0
0.4
6.6
2.4
0.0
0.6
4.4
1.6
1.9
0.2
1.7
0.2
0.0
2.4
1.1
2.4
10.5
0.2
9.1
4.3
0.1
0.5
4.4
1.2
1.1
0.2
0.1
0.8
0.0
9.5
2.6
8.4
9.0
0.3
0.3
2.7
0.0
8.2
2.1
11.2
6.3
± 7.0 ± 3.5 ± 5.5
± 1.6 ± 2.7 ± 2.1 ± 0.0 ± 4.7 ± 1.2 ± 1.4 ± 2.1
± 7.3 ± 3.8 ± 5.8
± 0.6 ± 3.0 ± 2.9 ± 0.0 ± 3.3 ± 1.2 ± 3.2 ± 2.1
± 7.4 ± 3.5 ± 6.3
± 1.5 ± 3.0 ± 2.2 ± 0.0 ± 3.4 ± 1.1 ± 3.7 ± 2.1
± 9.4 ± 4.2 ± 8.2
± 1.8 ± 2.9 ± 3.2 ± 0.0 ± 6.1 ± 1.1 ± 4.0 ± 2.0
± 7.3 ± 4.3 ± 5.5
± 1.9 ± 3.1 ± 2.6 ± 0.0 ± 2.7 ± 1.2 ± 3.6 ± 1.3
± 6.4 ± 2.8 ± 6.2
± 1.3 ± 2.2 ± 2.1 ± 0.0 ± 3.0 ± 1.5 ± 4.7 ± 1.7
± 7.0 ± 3.0 ± 6.7
± 0.6 ± 2.5 ± 2.0 ± 0.0 ± 3.8 ± 2.3 ± 4.2 ± 2.3
± 9.4 ± 1.9 ± 8.9
± 1.6 ± 0.8 ± 0.6 ± 0.0 ± 5.9 ± 1.8 ± 5.6 ± 3.8
± 8.0 ± 5.1 ± 6.0
± 1.9 ± 3.2 ± 3.3 ± 0.0 ± 2.4 ± 1.2 ± 4.4 ± 1.3
± 6.8 ± 3.6 ± 6.6
± 1.3 ± 2.9 ± 2.0 ± 1.8 ± 3.3 ± 1.3 ± 4.9 ± 1.3
± 7.0 ± 3.0 ± 6.6
± 0.5 ± 1.7 ± 2.6 ± 0.0 ± 3.0 ± 1.4 ± 4.5 ± 1.8
± 6.9 ± 2.6 ± 7.0
± 0.4 ± 2.1 ± 2.2 ± 0.0 ± 3.8 ± 1.9 ± 4.7 ± 1.8
± 8.5 ± 5.0 ± 6.1
± 1.9 ± 3.5 ± 4.0 ± 0.0 ± 2.3 ± 1.3 ± 4.7 ± 1.5
± 6.6 ± 3.4 ± 6.0
± 0.6 ± 2.6 ± 2.9 ± 0.0 ± 2.3 ± 1.5 ± 4.8 ± 1.5
± 8.7 ± 5.2 ± 6.5
± 2.2 ± 2.6 ± 4.1 ± 0.0 ± 3.0 ± 0.5 ± 4.6 ± 1.7
± 9.5 ± 5.9 ± 6.7
± 3.6 ± 3.8 ± 1.7 ± 3.1 ± 2.8 ± 1.1 ± 5.9 ± 1.9
± 9.2 ± 1.1 ± 9.3
± 0.4 ± 0.9 ± 0.7 ± 0.0 ± 5.1 ± 1.8 ± 6.6 ± 4.0
± 12.3 ± 6.6 ± 11.2 ± 1.9 ± 2.7 ± 2.3 ± 6.0 ± 5.3 ± 1.1 ± 7.5 ± 5.7
± 8.3 ± 4.2 ± 6.9
± 1.5 ± 2.6 ± 3.1 ± 0.0 ± 2.9 ± 2.2 ± 6.1 ± 2.3
± 9.7 ± 8.3 ± 8.6
± 1.3 ± 2.9 ± 0.5 ± 7.8 ± 3.2 ± 1.4 ± 6.4 ± 4.5
± 8.1 ± 3.5 ± 7.2
± 1.5 ± 2.3 ± 2.2 ± 0.0 ± 3.1 ± 2.3 ± 6.5 ± 2.3
± 9.0 ± 7.2 ± 6.2
± 3.1 ± 3.7 ± 3.8 ± 0.0 ± 2.8 ± 2.5 ± 5.1 ± 2.6
± 8.9 ± 5.6 ± 6.0
± 2.3 ± 3.0 ± 4.7 ± 0.0 ± 2.2 ± 0.5 ± 4.8 ± 0.6
± 10.5 ± 8.4 ± 7.6
± 2.9 ± 4.3 ± 5.0 ± 2.1 ± 2.1 ± 1.5 ± 6.8 ± 1.5
± 8.6 ± 4.9 ± 6.4
± 2.2 ± 4.0 ± 3.1 ± 0.0 ± 2.2 ± 2.8 ± 5.5 ± 2.2
± 13.2 ± 2.8 ± 13.7 ± 1.6 ± 2.3 ± 0.6 ± 0.0 ± 7.9 ± 1.7 ± 7.4 ± 10.8
± 8.0 ± 7.3 ± 4.2
± 1.2 ± 6.8 ± 4.4 ± 0.9 ± 2.1 ± 2.4 ± 3.1 ± 1.5
± 11.5 ± 1.5 ± 11.6 ± 0.4 ± 0.6 ± 1.3 ± 0.0 ± 9.1 ± 4.9 ± 10.3 ± 9.7
± 11.0 ± 2.9 ± 11.3 ± 0.5 ± 0.7 ± 2.7 ± 0.0 ± 9.0 ± 4.6 ± 11.4 ± 8.7
Tabulka A.5: Přehledová tabulka chyb klasifikace v prostředí stojícího automobilu
113
0.8
0.8
0.8
0.6
0.6
0.6
0.4
TP
1
TP
1
TP
1
0.4
3 stavy
5 stavů
7 stavů
9 stavů
0.2
0
0
0.2
0.4
0.6
FP
0.4
3 stavy
5 stavů
7 stavů
9 stavů
0.2
0
0.8
1
0
(a) MFCC, stojící automobil
0.2
0.4
0.6
FP
0
0.8
1
0
(b) MFCC, zapnutý motor
0.8
0.8
0.6
0.6
0.6
0.4
3 stavy
5 stavů
7 stavů
9 stavů
0
0
0.2
0.4
0.6
FP
3 stavy
5 stavů
7 stavů
9 stavů
0
1
0
(d) RCPLP, stojící automobil
0.2
0.4
0.6
FP
0
0.8
1
0
(e) RCPLP, zapnutý motor
0.8
0.6
0.6
0.6
0.4
0
0
0.2
0.4
0.6
3 stavy
5 stavů
7 stavů
9 stavů
0
1
0
0.2
FP
0.4
0.6
0
0.8
1
0
(h) SPLP, zapnutý motor
0.8
0.6
0.6
0.6
0.4
0
0
0.2
0.4
0.6
FP
3 stavy
5 stavů
7 stavů
9 stavů
0
(j) RSPLP, stojící automobil
1
0.8
1
0.4
0.2
0.8
0.6
TP
0.8
TP
0.8
TP
1
3 stavy
5 stavů
7 stavů
9 stavů
0.4
(i) SPLP, jedoucí automobil
1
0.2
0.2
FP
1
0.4
1
3 stavy
5 stavů
7 stavů
9 stavů
0.2
FP
(g) SPLP, stojící automobil
0.8
0.4
0.2
0.8
0.4
0.6
FP
TP
0.8
TP
0.8
TP
1
3 stavy
5 stavů
7 stavů
9 stavů
0.2
(f) RCPLP, jedoucí automobil
1
0.2
1
3 stavy
5 stavů
7 stavů
9 stavů
0.2
1
0.4
0.8
0.4
0.2
0.8
0.4
0.6
FP
TP
0.8
TP
1
TP
1
0.2
0.2
(c) MFCC, jedoucí automobil
1
0.4
3 stavy
5 stavů
7 stavů
9 stavů
0.2
0
0.2
0.4
0.6
FP
3 stavy
5 stavů
7 stavů
9 stavů
0.2
0
0.8
(k) RSPLP, zapnutý motor
1
0
0.2
0.4
0.6
FP
0.8
1
(l) RSPLP, jedoucí automobil
Obrázek A.2: Vliv zvyšování počtu stavů modelů na ROC charakterisitky pro DHMM
VAD v uvedených prostředích a danou parametrizaci.
114
DODATEK A. TABULKY A GRAFY VÝSLEDKŮ EXPERIMENTŮ
VAD
ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
[%]
[%]
[%]
4.5
2.2
2.4
5.1
2.2
2.9
LPHMM RCPLP 6.3
5.3
1.0
EHMM RCPLP
6.4
5.0
1.4
6.4
5.4
1.0
6.6
5.9
0.6
6.7
5.5
1.1
7.1
4.4
2.8
DHMM RCPLP 7.2
3.2
4.0
LPHMM RSPLP 7.5
6.8
0.7
7.8
4.4
3.5
8.2
5.4
2.7
8.4
7.2
1.2
8.4
4.2
4.3
LPHMM MFCC 8.7
5.1
3.6
8.9
5.1
3.8
9.0
5.5
3.5
DHMM MFCC 10.2
5.2
5.0
DHMM CPLP
10.3
5.0
5.3
10.8
5.4
5.5
11.0
7.8
3.2
11.3
5.5
5.7
DHMM RSPLP 12.8
6.0
6.8
16.1
8.4
7.6
16.9
8.6
8.3
22.0
10.3 11.7
25.0
2.2
22.7
25.7
3.1
22.6
29.6
3.9
25.7
Fon RCPLP
Fon RSPLP
EHMM RSPLP
LPHMM SPLP
GMM RCPLP
LPHMM CPLP
EHMM MFCC
GMM CPLP
GMM RSPLP
EHMM CPLP
EHMM SPLP
GMM SPLP
GMM MFCC
KEPST.
DHMM SPLP
ENERG.
Fon CPLP
Fon MFCC
G729 AppIII
Fon SPLP
G729
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
0.7
1.2
0.1
0.2
1.8
0.5
0.0
0.0
0.3
1.2
0.6
0.0
1.7
1.0
0.1
0.0
0.2
4.9
0.3
0.0
0.1
0.6
0.2
0.0
0.4
3.3
1.3
0.0
0.2
0.7
0.5
0.0
0.6
3.6
1.3
0.0
0.2
0.4
0.4
0.0
0.7
5.1
0.1
0.0
0.1
0.5
0.1
0.0
0.4
2.7
2.5
0.0
0.5
0.4
0.2
0.0
0.4
3.7
0.3
0.0
0.3
0.7
1.8
0.0
0.0
2.2
1.0
0.0
0.6
2.5
0.8
0.0
0.9
5.7
0.2
0.0
0.0
0.4
0.2
0.0
0.4
3.5
0.5
0.0
0.3
0.8
2.3
0.0
0.6
3.7
1.2
0.0
0.3
0.8
1.6
0.0
0.3
4.3
2.6
0.0
0.0
0.6
0.6
0.0
0.4
3.6
0.2
0.0
0.4
1.0
2.9
0.0
0.6
4.4
0.0
0.0
0.4
1.6
1.5
0.0
0.5
3.7
0.9
0.0
0.4
1.6
1.8
0.0
0.5
2.8
2.2
0.0
0.1
1.0
2.5
0.0
0.1
4.5
0.6
0.0
0.2
2.7
2.1
0.0
0.1
4.0
0.9
0.0
0.2
2.5
2.6
0.0
0.7
3.0
1.7
0.0
0.4
1.0
4.1
0.0
0.8
3.2
3.8
0.0
0.0
0.0
3.2
0.0
0.0
5.1
0.5
0.0
0.0
3.5
2.3
0.0
0.0
4.8
1.1
0.0
0.1
3.4
3.3
0.0
1.2
3.5
3.7
0.0
0.1
0.1
7.5
0.0
0.7
2.3
0.1
5.6
1.3
0.4
1.2
5.3
0.7
2.2
0.0
7.4
1.8
1.8
1.5
6.5
0.8
0.7
0.7
0.0
11.4
0.6
5.5
5.2
0.3
2.6
0.2
0.0
4.9
2.0
4.3
11.5
0.7
1.0
2.3
0.0
9.9
0.9
9.8
5.2
± 2.7 ± 1.9 ± 2.0
± 0.8 ± 1.6 ± 0.3 ± 0.9 ± 1.8 ± 0.5 ± 0.0 ± 0.0
± 2.9 ± 1.4 ± 2.4
± 0.3 ± 1.3 ± 1.1 ± 0.0 ± 2.1 ± 0.7 ± 0.5 ± 0.0
± 3.1 ± 2.9 ± 0.6
± 0.3 ± 2.9 ± 0.6 ± 0.0 ± 0.3 ± 0.5 ± 0.5 ± 0.0
± 3.3 ± 3.0 ± 1.0
± 0.4 ± 3.2 ± 1.7 ± 0.0 ± 0.4 ± 0.6 ± 0.8 ± 0.0
± 3.0 ± 2.6 ± 0.9
± 0.6 ± 2.6 ± 1.6 ± 0.0 ± 0.4 ± 0.3 ± 0.8 ± 0.0
± 2.9 ± 3.0 ± 0.5
± 0.7 ± 3.1 ± 0.3 ± 0.0 ± 0.2 ± 0.4 ± 0.3 ± 0.0
± 3.5 ± 3.4 ± 0.9
± 0.3 ± 2.7 ± 2.1 ± 0.0 ± 0.8 ± 0.4 ± 0.4 ± 0.0
± 5.4 ± 3.0 ± 4.9
± 0.5 ± 3.0 ± 0.8 ± 0.0 ± 1.0 ± 0.6 ± 4.1 ± 0.0
± 3.3 ± 2.9 ± 1.5
± 0.1 ± 2.1 ± 1.5 ± 0.0 ± 0.9 ± 0.8 ± 0.9 ± 0.0
± 3.3 ± 3.2 ± 0.7
± 0.9 ± 3.0 ± 0.4 ± 0.0 ± 0.1 ± 0.4 ± 0.6 ± 0.0
± 6.0 ± 2.6 ± 4.9
± 0.5 ± 2.7 ± 1.3 ± 0.0 ± 1.3 ± 0.6 ± 4.0 ± 0.0
± 4.7 ± 3.1 ± 3.4
± 0.7 ± 2.6 ± 1.4 ± 0.0 ± 1.1 ± 0.5 ± 2.5 ± 0.0
± 3.7 ± 3.4 ± 0.9
± 0.3 ± 3.3 ± 2.6 ± 0.0 ± 0.1 ± 0.4 ± 0.8 ± 0.0
± 6.6 ± 2.8 ± 6.6
± 0.4 ± 2.7 ± 0.6 ± 0.0 ± 1.5 ± 1.0 ± 4.9 ± 0.0
± 6.7 ± 3.1 ± 6.0
± 0.9 ± 2.7 ± 0.2 ± 0.0 ± 1.5 ± 3.8 ± 3.9 ± 0.0
± 6.2 ± 2.8 ± 6.1
± 0.5 ± 2.8 ± 1.0 ± 0.0 ± 1.6 ± 3.8 ± 3.8 ± 0.0
± 4.5 ± 3.1 ± 3.4
± 0.6 ± 3.2 ± 1.6 ± 0.0 ± 0.2 ± 0.6 ± 3.0 ± 0.0
± 5.0 ± 2.8 ± 3.5
± 0.3 ± 2.6 ± 0.8 ± 0.0 ± 0.9 ± 0.7 ± 3.0 ± 0.0
± 5.5 ± 2.8 ± 4.5
± 0.4 ± 2.4 ± 0.8 ± 0.0 ± 0.8 ± 0.9 ± 3.8 ± 0.0
± 6.8 ± 3.0 ± 5.8
± 0.8 ± 2.5 ± 1.9 ± 0.0 ± 1.1 ± 0.5 ± 5.0 ± 0.0
± 6.2 ± 3.0 ± 4.6
± 0.5 ± 2.4 ± 1.7 ± 0.0 ± 0.0 ± 0.1 ± 4.6 ± 0.0
± 4.3 ± 3.3 ± 3.2
± 0.0 ± 3.3 ± 0.8 ± 0.0 ± 0.0 ± 0.9 ± 3.0 ± 0.0
± 6.4 ± 4.1 ± 6.4
± 0.0 ± 4.2 ± 1.7 ± 0.0 ± 0.6 ± 0.8 ± 5.4 ± 0.0
± 9.7 ± 4.1 ± 9.8
± 1.0 ± 3.0 ± 2.2 ± 0.0 ± 0.1 ± 0.4 ± 9.5 ± 0.0
± 17.3 ± 7.4 ± 18.7 ± 0.9 ± 2.4 ± 0.2 ± 8.4 ± 4.0 ± 0.5 ± 3.5 ± 15.5
± 20.9 ± 7.8 ± 23.4 ± 0.9 ± 2.4 ± 0.0 ± 8.9 ± 7.7 ± 4.6 ± 3.7 ± 16.3
± 6.5 ± 2.1 ± 6.4
± 0.7 ± 1.2 ± 0.7 ± 0.0 ± 8.0 ± 1.5 ± 6.0 ± 6.4
± 25.2 ± 2.5 ± 26.3 ± 0.5 ± 2.4 ± 0.4 ± 0.0 ± 7.6 ± 3.8 ± 5.8 ± 19.6
± 7.5 ± 2.4 ± 8.2
± 0.8 ± 1.2 ± 1.5 ± 0.0 ± 7.4 ± 1.8 ± 8.9 ± 6.4
Tabulka A.6: Přehledová tabulka chyb klasifikace v prostředí stojícího automobilu se zapnutým motorem
115
VAD
ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
[%]
[%]
[%]
5.7
4.1
1.6
7.6
6.4
1.3
7.7
6.4
1.3
LPHMM RCPLP 8.0
6.9
1.1
8.3
7.5
0.8
8.5
5.6
2.9
LPHMM RSPLP 8.7
7.8
0.8
8.7
6.4
2.3
DHMM RCPLP 9.3
3.7
5.6
EHMM MFCC
9.4
5.4
4.0
9.6
8.5
1.1
LPHMM MFCC 9.8
6.9
2.9
10.0
6.1
3.9
11.3
9.7
1.6
11.3
9.1
2.3
11.5
5.4
6.1
11.9
5.4
6.6
12.0
6.2
5.8
12.5
5.2
7.3
DHMM MFCC 12.6
5.1
7.5
DHMM CPLP
12.7
5.0
7.7
12.7
4.4
8.3
19.7
9.5
10.3
22.7
7.1
23.8
DHMM RSPLP 23.8
Fon RSPLP
EHMM RCPLP
EHMM RSPLP
Fon RCPLP
LPHMM CPLP
LPHMM SPLP
GMM RCPLP
GMM CPLP
GMM RSPLP
Fon CPLP
EHMM CPLP
GMM MFCC
GMM SPLP
EHMM SPLP
DHMM SPLP
ENERG.
Fon MFCC
KEPST.
G729 AppIII
G729
Fon SPLP
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
1.0
2.7
0.4
0.0
0.9
0.3
0.4
0.0
0.8
4.1
1.5
0.0
0.1
0.3
0.8
0.0
0.9
4.2
1.3
0.0
0.1
0.3
0.9
0.0
0.8
4.9
1.1
0.0
0.2
0.3
0.7
0.0
1.6
2.7
0.2
2.9
0.6
0.1
0.0
0.0
0.9
4.1
0.7
0.0
0.7
0.8
1.4
0.0
1.1
5.6
1.0
0.2
0.0
0.1
0.7
0.0
1.1
4.8
0.4
0.2
1.2
0.7
0.4
0.0
0.2
3.0
0.6
0.0
0.9
2.2
2.4
0.0
0.7
3.6
1.1
0.0
0.3
0.6
2.7
0.4
0.9
5.2
2.4
0.0
0.2
0.2
0.7
0.0
1.1
5.0
0.7
0.2
0.1
0.8
0.9
1.1
0.6
4.0
1.5
0.0
0.1
0.9
3.0
0.0
0.9
6.0
2.7
0.0
0.0
0.2
1.4
0.0
1.5
3.3
0.5
3.8
0.8
0.7
0.2
0.6
0.7
3.7
1.0
0.0
0.9
1.3
3.0
0.9
0.5
3.4
1.5
0.0
0.2
1.2
5.1
0.0
0.6
3.7
1.9
0.0
0.1
0.9
4.9
0.0
0.6
3.3
1.3
0.0
0.5
1.3
5.6
0.0
0.2
4.4
0.5
0.0
0.2
2.2
5.1
0.0
0.2
4.1
0.6
0.0
0.2
2.3
5.3
0.0
0.1
4.2
0.1
0.0
0.5
3.4
4.4
0.0
0.9
2.6
6.0
0.0
1.1
0.3
8.8
0.0
15.6
1.0
2.8
0.3
2.9
4.0
2.0
1.3
8.3
7.2
16.6
0.6
1.3
5.3
0.0
0.8
0.4
15.5
0.0
2.5
21.3
0.0
1.7
0.8
0.0
1.5
4.5
15.4
0.0
24.9
3.6
21.3
1.5
1.1
0.9
0.0
11.7
0.2
4.3
5.1
31.2
4.6
26.6
0.8
1.2
2.6
0.0
10.1
0.5
10.9
5.1
53.3
1.8
51.5
0.2
1.2
0.4
0.0
6.1
2.8
11.8
30.8
± 3.0 ± 2.8 ± 2.0
± 1.0 ± 2.3 ± 0.5 ± 0.0 ± 1.8 ± 0.4 ± 1.0 ± 0.0
± 3.2 ± 3.4 ± 2.0
± 1.0 ± 2.6 ± 1.4 ± 0.0 ± 0.5 ± 0.3 ± 1.7 ± 0.0
± 3.7 ± 3.6 ± 2.0
± 1.3 ± 2.6 ± 0.8 ± 0.0 ± 0.3 ± 0.3 ± 1.9 ± 0.0
± 3.7 ± 4.0 ± 2.0
± 1.1 ± 3.3 ± 1.2 ± 0.0 ± 0.5 ± 0.3 ± 1.8 ± 0.0
± 5.3 ± 5.7 ± 1.1
± 1.3 ± 2.1 ± 0.5 ± 5.3 ± 1.0 ± 0.2 ± 0.0 ± 0.0
± 6.1 ± 3.8 ± 5.8
± 1.0 ± 3.1 ± 1.0 ± 0.0 ± 2.4 ± 2.3 ± 2.9 ± 0.0
± 4.0 ± 4.2 ± 1.7
± 1.1 ± 3.2 ± 1.3 ± 1.1 ± 0.1 ± 0.2 ± 1.7 ± 0.0
± 7.7 ± 4.4 ± 7.5
± 1.0 ± 3.5 ± 0.6 ± 1.1 ± 5.6 ± 2.0 ± 1.0 ± 0.0
± 5.5 ± 2.9 ± 5.5
± 0.5 ± 2.6 ± 0.8 ± 0.0 ± 1.6 ± 1.0 ± 3.6 ± 0.0
± 6.5 ± 3.6 ± 7.2
± 1.0 ± 2.5 ± 1.2 ± 0.0 ± 1.1 ± 0.8 ± 5.0 ± 2.1
± 3.9 ± 4.0 ± 2.3
± 1.2 ± 2.9 ± 1.6 ± 0.0 ± 0.4 ± 0.2 ± 2.0 ± 0.0
± 6.3 ± 4.4 ± 6.6
± 1.2 ± 3.5 ± 1.0 ± 1.1 ± 0.2 ± 1.9 ± 2.5 ± 4.2
± 4.8 ± 3.7 ± 4.6
± 0.9 ± 2.7 ± 1.5 ± 0.0 ± 0.2 ± 0.9 ± 4.2 ± 0.0
± 4.7 ± 4.4 ± 3.0
± 1.1 ± 3.2 ± 1.6 ± 0.2 ± 0.1 ± 0.2 ± 2.9 ± 0.0
± 8.0 ± 5.8 ± 5.8
± 1.4 ± 2.9 ± 1.0 ± 6.7 ± 2.5 ± 1.7 ± 0.5 ± 3.5
± 13.6 ± 3.8 ± 14.5 ± 1.1 ± 2.8 ± 1.1 ± 0.0 ± 3.0 ± 3.8 ± 5.3 ± 5.2
± 8.1 ± 3.4 ± 8.7
± 0.8 ± 2.6 ± 1.4 ± 0.0 ± 0.4 ± 2.3 ± 7.2 ± 0.0
± 8.9 ± 3.6 ± 9.5
± 0.9 ± 2.4 ± 1.7 ± 0.0 ± 0.2 ± 1.1 ± 8.6 ± 0.0
± 8.2 ± 3.4 ± 9.2
± 1.0 ± 2.3 ± 1.1 ± 0.0 ± 1.7 ± 2.0 ± 7.0 ± 0.0
± 7.5 ± 3.1 ± 7.9
± 0.6 ± 2.6 ± 0.7 ± 0.0 ± 0.6 ± 0.9 ± 7.2 ± 0.0
± 6.6 ± 3.0 ± 6.5
± 0.6 ± 2.4 ± 1.0 ± 0.0 ± 0.5 ± 0.8 ± 5.9 ± 0.0
± 6.2 ± 2.6 ± 5.9
± 0.3 ± 2.4 ± 0.3 ± 0.0 ± 2.0 ± 1.2 ± 5.4 ± 0.0
± 11.1 ± 4.3 ± 12.4 ± 1.0 ± 1.9 ± 3.5 ± 0.0 ± 3.4 ± 1.1 ± 9.0 ± 0.0
± 21.1 ± 6.5 ± 23.7 ± 1.1 ± 2.8 ± 0.4 ± 6.5 ± 8.1 ± 5.2 ± 3.2 ± 17.4
± 11.0 ± 3.7 ± 12.1 ± 0.8 ± 1.3 ± 2.7 ± 0.0 ± 2.3 ± 0.8 ± 11.1 ± 0.0
± 11.8 ± 2.3 ± 12.6 ± 0.1 ± 1.8 ± 0.9 ± 0.0 ± 2.2 ± 2.3 ± 9.8 ± 0.0
± 10.8 ± 2.1 ± 11.4 ± 1.0 ± 1.4 ± 0.9 ± 0.0 ± 10.4 ± 0.7 ± 4.7 ± 6.8
± 12.5 ± 2.2 ± 13.3 ± 0.7 ± 1.2 ± 1.8 ± 0.0 ± 7.6 ± 0.9 ± 9.8 ± 6.8
± 28.2 ± 2.8 ± 30.2 ± 0.6 ± 2.1 ± 0.8 ± 0.2 ± 9.8 ± 4.8 ± 8.7 ± 27.4
Tabulka A.7: Přehledová tabulka chyb klasifikace v prostředí jedoucího automobilu
116
DODATEK A. TABULKY A GRAFY VÝSLEDKŮ EXPERIMENTŮ
VAD
ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
[%]
[%]
[%]
6.4
3.0
3.4
7.5
5.8
1.7
7.7
5.3
2.4
8.2
7.1
1.2
8.5
5.2
3.3
9.0
4.9
4.1
9.6
5.6
4.0
LPHMM RSPLP 9.8
6.9
2.9
9.8
4.3
5.6
LPHMM MFCC 9.9
6.9
3.1
LPHMM RCPLP 10.3
6.5
3.8
12.0
5.1
6.9
12.4
8.0
4.4
13.0
11.8
1.2
13.2
6.0
7.2
DHMM RCPLP 14.9
2.9
12.1
15.6
5.2
10.4
15.6
9.0
6.6
15.9
8.6
7.2
16.5
5.0
11.4
20.7
3.1
17.6
21.5
2.6
18.9
DHMM MFCC 23.1
2.9
20.2
30.0
6.1
30.8
DHMM RSPLP 37.8
Fon RSPLP
LPHMM SPLP
LPHMM CPLP
Fon RCPLP
EHMM RSPLP
EHMM CPLP
EHMM RCPLP
EHMM MFCC
EHMM SPLP
GMM RCPLP
Fon CPLP
GMM CPLP
GMM MFCC
GMM RSPLP
Fon MFCC
GMM SPLP
DHMM CPLP
DHMM SPLP
KEPST.
ENERG.
G729 AppIII
Fon SPLP
G729
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
0.6
1.8
0.6
0.0
1.7
0.4
1.3
0.0
0.7
4.1
0.4
0.6
0.2
0.3
1.1
0.0
0.8
3.5
1.0
0.0
0.2
0.4
1.8
0.0
1.3
2.9
0.1
2.7
0.8
0.3
0.1
0.0
0.6
3.0
1.7
0.0
0.2
0.2
2.9
0.0
0.7
2.9
1.3
0.0
0.3
0.4
3.3
0.0
0.5
3.6
1.5
0.0
0.1
0.4
3.4
0.0
1.0
4.7
0.6
0.6
0.1
0.2
2.6
0.0
0.5
2.7
1.1
0.0
0.3
0.5
4.8
0.0
0.9
4.6
0.8
0.6
0.2
0.4
2.5
0.0
0.6
4.9
1.0
0.0
0.3
0.4
3.1
0.0
0.3
3.3
1.5
0.0
0.1
0.6
6.2
0.0
0.9
4.4
2.7
0.0
0.4
0.3
3.7
0.0
1.0
1.5
0.1
9.2
0.1
0.3
0.8
0.0
0.6
2.7
2.7
0.0
0.2
0.8
6.3
0.0
0.0
2.0
0.9
0.0
2.0
2.4
7.7
0.0
0.5
2.3
2.3
0.0
0.4
0.8
9.3
0.0
0.7
4.9
3.3
0.1
0.0
0.3
6.2
0.0
1.2
1.9
0.1
5.4
3.5
2.5
1.2
0.0
0.4
2.6
2.0
0.0
0.3
0.6
10.5
0.0
0.0
2.5
0.6
0.0
0.7
2.5
14.5
0.0
0.0
2.4
0.2
0.0
1.1
3.4
14.4
0.0
0.0
2.3
0.6
0.0
0.7
2.5
17.0
0.0
24.0
0.4
1.2
4.4
0.0
1.9
0.4
19.7
2.0
7.9
22.9
0.7
1.6
5.6
0.0
4.6
0.7
15.6
2.0
1.6
36.2
0.0
1.0
0.6
0.0
4.0
5.2
26.9
0.0
38.0
3.0
35.0
1.4
1.1
0.6
0.0
16.2
1.6
11.5
5.7
39.5
1.7
37.8
0.2
1.1
0.3
0.1
13.1
1.6
10.8
12.4
48.1
3.5
44.6
0.6
1.2
1.8
0.0
13.1
1.1
24.8
5.7
± 2.3 ± 1.5 ± 2.4
± 0.5 ± 1.6 ± 1.2 ± 0.0 ± 2.7 ± 0.4 ± 1.7 ± 0.0
± 4.4 ± 4.6 ± 1.6
± 0.7 ± 3.4 ± 0.6 ± 1.8 ± 0.4 ± 0.3 ± 1.7 ± 0.0
± 3.3 ± 3.8 ± 2.5
± 0.9 ± 3.5 ± 1.1 ± 0.0 ± 0.4 ± 0.3 ± 2.4 ± 0.0
± 5.0 ± 5.6 ± 2.0
± 1.1 ± 2.9 ± 0.4 ± 4.1 ± 1.2 ± 0.5 ± 0.4 ± 0.0
± 2.8 ± 1.8 ± 3.1
± 0.4 ± 2.0 ± 1.0 ± 0.0 ± 0.4 ± 0.3 ± 3.0 ± 0.0
± 4.4 ± 3.5 ± 3.9
± 0.7 ± 2.3 ± 1.3 ± 0.0 ± 0.5 ± 0.3 ± 3.8 ± 0.0
± 2.3 ± 3.2 ± 3.5
± 0.5 ± 3.2 ± 1.5 ± 0.0 ± 0.2 ± 0.7 ± 3.1 ± 0.0
± 4.0 ± 4.2 ± 3.2
± 0.8 ± 3.0 ± 0.5 ± 1.8 ± 0.2 ± 0.3 ± 3.1 ± 0.0
± 5.8 ± 3.4 ± 5.5
± 0.4 ± 2.1 ± 1.4 ± 0.0 ± 0.4 ± 0.5 ± 5.2 ± 0.0
± 4.3 ± 4.4 ± 4.0
± 0.9 ± 3.6 ± 1.5 ± 1.8 ± 0.3 ± 0.5 ± 3.8 ± 0.0
± 3.1 ± 4.1 ± 4.6
± 0.8 ± 4.0 ± 1.1 ± 0.0 ± 0.4 ± 0.8 ± 4.0 ± 0.0
± 6.0 ± 2.6 ± 5.5
± 0.3 ± 2.1 ± 1.2 ± 0.0 ± 0.1 ± 0.4 ± 5.4 ± 0.0
± 3.5 ± 4.0 ± 5.1
± 1.0 ± 3.5 ± 1.4 ± 0.0 ± 0.5 ± 0.5 ± 4.6 ± 0.0
± 6.8 ± 7.4 ± 2.6
± 1.2 ± 2.1 ± 0.2 ± 9.2 ± 0.3 ± 0.3 ± 2.3 ± 0.0
± 4.7 ± 3.0 ± 5.8
± 0.9 ± 2.0 ± 1.6 ± 0.0 ± 0.3 ± 0.5 ± 5.5 ± 0.0
± 7.2 ± 2.1 ± 7.7
± 0.1 ± 2.2 ± 1.2 ± 0.0 ± 2.5 ± 1.3 ± 5.2 ± 0.0
± 8.7 ± 3.2 ± 9.5
± 0.8 ± 2.0 ± 1.4 ± 0.0 ± 0.4 ± 0.4 ± 9.2 ± 0.0
± 3.6 ± 4.0 ± 5.1
± 0.6 ± 3.0 ± 1.5 ± 0.3 ± 0.1 ± 0.4 ± 4.8 ± 0.0
± 10.2 ± 4.6 ± 11.7 ± 1.5 ± 1.9 ± 0.3 ± 5.8 ± 6.7 ± 6.7 ± 2.5 ± 0.0
± 8.3 ± 3.2 ± 8.5
± 0.5 ± 2.1 ± 1.8 ± 0.0 ± 0.5 ± 0.4 ± 8.3 ± 0.0
± 9.7 ± 2.2 ± 10.3 ± 0.1 ± 1.5 ± 0.9 ± 0.0 ± 1.0 ± 0.8 ± 9.1 ± 0.0
± 6.7 ± 1.5 ± 7.0
± 0.0 ± 1.3 ± 0.3 ± 0.0 ± 1.3 ± 1.2 ± 6.7 ± 0.0
± 11.4 ± 2.2 ± 12.0 ± 0.1 ± 1.5 ± 0.9 ± 0.0 ± 1.1 ± 0.8 ± 10.9 ± 0.0
± 15.0 ± 3.9 ± 16.6 ± 0.4 ± 0.8 ± 3.2 ± 0.0 ± 3.4 ± 0.7 ± 12.2 ± 6.1
± 19.6 ± 5.8 ± 23.5 ± 1.0 ± 0.9 ± 4.9 ± 0.0 ± 7.3 ± 1.8 ± 12.8 ± 6.1
± 6.5 ± 1.3 ± 7.0
± 0.0 ± 1.0 ± 0.6 ± 0.0 ± 3.3 ± 2.9 ± 4.7 ± 0.0
± 13.4 ± 3.0 ± 15.2 ± 1.4 ± 2.4 ± 0.9 ± 0.0 ± 15.3 ± 3.1 ± 7.0 ± 7.6
± 26.3 ± 1.9 ± 27.7 ± 0.3 ± 1.3 ± 0.6 ± 0.3 ± 14.8 ± 2.4 ± 11.5 ± 18.1
± 11.4 ± 2.8 ± 12.5 ± 0.7 ± 1.7 ± 1.4 ± 0.0 ± 10.3 ± 1.3 ± 8.3 ± 7.6
Tabulka A.8: Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelný blinkr
117
VAD
ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
12.4
0.9
11.6
0.7
0.1
0.0
0.0
4.1
0.9
3.5
3.1
12.4
3.5
9.0
0.0
1.5
1.9
0.0
1.0
2.5
2.3
3.1
12.6
9.1
3.5
0.9
6.2
0.0
2.0
0.7
0.9
0.0
1.9
12.7
7.1
5.7
0.4
5.4
1.2
0.0
2.2
1.3
1.4
0.7
DHMM MFCC 13.0
3.8
9.2
0.0
1.9
1.9
0.0
1.1
2.9
2.0
3.2
EHMM MFCC 13.3
4.5
8.8
0.2
4.1
0.2
0.0
2.5
1.2
3.3
1.9
13.4
9.3
4.2
1.2
3.8
4.2
0.0
1.3
0.4
2.3
0.2
13.4
11.1
2.3
1.8
5.0
4.4
0.0
1.1
0.2
1.0
0.0
13.6
5.9
7.7
0.0
5.5
0.3
0.0
1.1
3.6
1.1
2.0
13.7
5.5
8.3
0.6
4.3
0.6
0.0
2.3
1.1
3.0
1.9
14.2
6.2
8.0
0.5
4.9
0.8
0.0
2.2
1.3
3.8
0.7
LPHMM MFCC 14.8
5.7
9.1
1.1
4.3
0.3
0.0
5.4
1.4
0.7
1.7
LPHMM CPLP 15.2
6.0
9.2
0.9
4.7
0.5
0.0
5.2
0.8
1.5
1.7
GMM RCPLP
15.4
4.1
11.3
0.2
0.9
3.0
0.0
3.6
1.4
4.7
1.6
15.7
7.0
8.7
0.6
5.0
1.4
0.0
2.3
1.0
4.7
0.7
EHMM RSPLP 16.1
4.8
11.3
0.5
2.1
2.2
0.0
2.6
1.0
6.0
1.7
17.0
6.1
10.8
0.0
2.4
3.7
0.0
1.4
2.1
7.0
0.3
17.1
1.0
16.1
0.4
0.5
0.1
0.0
4.0
1.9
7.3
2.8
17.4
5.0
12.4
0.7
4.3
0.0
0.0
6.2
0.7
2.2
3.3
DHMM RSPLP 17.7
12.2
5.5
0.4
9.5
2.3
0.0
0.1
3.8
0.8
0.8
LPHMM RCPLP 17.8
4.1
13.7
0.2
2.8
1.0
0.0
3.5
3.3
5.2
1.7
LPHMM RSPLP 18.4
8.4
10.1
0.2
4.9
0.7
2.6
3.4
1.0
4.9
0.8
LPHMM SPLP 18.5
12.1
6.4
0.5
3.7
1.0
6.9
0.7
1.1
0.0
4.5
DHMM RCPLP 18.8
7.5
11.2
1.0
4.2
2.3
0.0
0.6
5.7
4.5
0.5
EHMM RCPLP 19.4
3.5
15.8
0.1
0.7
2.8
0.0
3.7
2.5
7.9
1.7
19.5
9.7
9.8
0.7
4.7
4.3
0.0
1.9
1.6
5.2
1.1
22.3
3.6
18.7
0.2
3.5
0.0
0.0
6.6
1.0
2.5
8.6
32.3
4.2
28.1
0.3
0.2
3.7
0.0
6.6
1.8
18.1
1.5
32.9
1.9
31.0
0.3
0.1
1.5
0.0
14.1
1.9
13.1
1.9
Fon RCPLP
DHMM CPLP
Fon MFCC
EHMM SPLP
ENERG.
KEPST.
DHMM SPLP
EHMM CPLP
GMM MFCC
± 14.6 ± 1.1 ± 14.9 ± 1.0 ± 0.3 ± 0.0 ± 0.0 ± 7.7 ± 0.8 ± 6.2 ± 6.7
± 4.4 ± 1.7 ± 4.5
± 0.0 ± 0.9 ± 1.3 ± 0.0 ± 2.3 ± 1.5 ± 1.4 ± 4.7
± 7.8 ± 6.0 ± 3.5
± 1.3 ± 4.6 ± 0.0 ± 3.7 ± 1.7 ± 0.8 ± 0.0 ± 3.1
± 5.0 ± 5.1 ± 7.7
± 0.9 ± 4.0 ± 1.6 ± 0.0 ± 3.8 ± 0.7 ± 3.4 ± 1.3
± 3.5 ± 1.9 ± 3.5
± 0.0 ± 1.2 ± 1.4 ± 0.0 ± 2.2 ± 1.7 ± 1.7 ± 4.8
± 10.9 ± 3.9 ± 12.8 ± 0.4 ± 3.9 ± 0.4 ± 0.0 ± 4.2 ± 0.5 ± 8.0 ± 3.1
± 6.5 ± 3.3 ± 6.9
± 1.2 ± 3.1 ± 2.6 ± 0.0 ± 2.5 ± 0.4 ± 3.7 ± 0.4
± 4.9 ± 3.7 ± 5.1
± 2.4 ± 3.2 ± 1.7 ± 0.0 ± 2.4 ± 0.4 ± 2.4 ± 0.0
± 4.3 ± 4.5 ± 6.0
± 0.1 ± 4.3 ± 0.6 ± 0.0 ± 2.4 ± 1.8 ± 2.6 ± 3.3
± 9.6 ± 5.0 ± 11.6 ± 0.9 ± 4.3 ± 1.0 ± 0.0 ± 4.1 ± 0.5 ± 6.8 ± 3.1
± 10.3 ± 4.5 ± 12.0 ± 1.0 ± 4.0 ± 0.9 ± 0.0 ± 4.5 ± 0.9 ± 6.5 ± 1.2
± 11.1 ± 4.0 ± 12.8 ± 1.6 ± 3.8 ± 0.8 ± 0.0 ± 11.5 ± 0.6 ± 1.2 ± 2.9
GMM CPLP
GMM RSPLP
Fon RSPLP
Fon CPLP
± 13.8 ± 4.7 ± 16.1 ± 0.9 ± 4.1 ± 0.9 ± 0.0 ± 11.6 ± 0.4 ± 4.0 ± 2.9
± 10.1 ± 2.8 ± 10.9 ± 0.3 ± 0.9 ± 2.7 ± 0.0 ± 6.4 ± 0.7 ± 4.1 ± 2.9
± 12.0 ± 6.1 ± 14.8 ± 1.2 ± 4.9 ± 1.7 ± 0.0 ± 4.4 ± 0.8 ± 9.3 ± 1.3
± 6.9 ± 3.5 ± 9.3
± 0.8 ± 2.7 ± 2.5 ± 0.0 ± 4.4 ± 0.5 ± 4.5 ± 2.9
± 8.1 ± 3.3 ± 10.4 ± 0.0 ± 1.9 ± 2.9 ± 0.0 ± 2.3 ± 1.8 ± 8.3 ± 0.6
± 14.3 ± 1.0 ± 14.8 ± 0.7 ± 0.5 ± 0.3 ± 0.0 ± 4.7 ± 1.6 ± 8.8 ± 6.8
± 16.9 ± 4.3 ± 19.4 ± 0.9 ± 3.8 ± 0.0 ± 0.0 ± 16.2 ± 0.5 ± 5.8 ± 6.7
± 4.8 ± 5.3 ± 2.9
± 1.0 ± 6.4 ± 2.3 ± 0.0 ± 0.3 ± 2.7 ± 2.0 ± 1.2
± 7.4 ± 3.8 ± 8.9
± 0.6 ± 3.9 ± 2.0 ± 0.0 ± 6.2 ± 3.1 ± 4.4 ± 2.9
± 11.9 ± 5.9 ± 12.1 ± 0.3 ± 3.9 ± 1.2 ± 6.9 ± 6.9 ± 0.4 ± 5.3 ± 1.1
GMM SPLP
Fon SPLP
G729
G729 AppIII
± 13.9 ± 6.8 ± 7.4
± 0.7 ± 3.0 ± 1.2 ± 9.8 ± 1.1 ± 0.1 ± 0.0 ± 6.4
± 9.6 ± 10.2 ± 3.1
± 2.7 ± 8.1 ± 2.8 ± 0.0 ± 0.6 ± 2.5 ± 3.3 ± 1.0
± 7.9 ± 2.8 ± 9.0
± 0.2 ± 0.7 ± 2.8 ± 0.0 ± 6.5 ± 2.3 ± 3.3 ± 3.1
± 10.1 ± 9.5 ± 12.8 ± 1.2 ± 5.2 ± 6.8 ± 0.0 ± 3.3 ± 1.7 ± 8.6 ± 1.4
± 16.1 ± 4.7 ± 19.0 ± 0.4 ± 4.4 ± 0.0 ± 0.0 ± 16.0 ± 1.6 ± 5.7 ± 10.2
± 16.1 ± 2.7 ± 18.4 ± 0.5 ± 0.3 ± 2.4 ± 0.0 ± 4.9 ± 4.0 ± 14.3 ± 3.1
± 17.5 ± 1.4 ± 18.5 ± 0.5 ± 0.3 ± 1.0 ± 0.0 ± 13.3 ± 4.0 ± 6.9 ± 3.0
Tabulka A.9: Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelný dech
mluvčího
118
DODATEK A. TABULKY A GRAFY VÝSLEDKŮ EXPERIMENTŮ
VAD
ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
[%]
[%]
[%]
5.2
3.4
1.7
6.2
5.1
1.0
7.6
5.8
1.8
7.7
5.8
1.9
LPHMM RCPLP 7.8
6.1
1.7
8.1
5.0
3.1
LPHMM MFCC 8.3
5.8
2.5
EHMM RSPLP
8.3
6.3
2.0
8.4
4.5
4.0
8.5
4.6
3.9
LPHMM RSPLP 9.0
7.5
1.5
9.2
7.6
1.6
9.3
5.2
4.1
DHMM RCPLP 10.5
3.0
7.5
10.7
5.7
4.9
11.1
9.4
1.7
11.4
4.7
6.7
11.6
9.3
2.3
11.9
5.8
6.1
DHMM MFCC 14.5
4.1
10.4
DHMM SPLP
14.5
4.2
10.3
15.1
3.8
11.2
20.5
8.9
11.6
23.3
7.6
DHMM RSPLP 23.6
Fon RSPLP
Fon RCPLP
EHMM RCPLP
LPHMM SPLP
LPHMM CPLP
EHMM CPLP
EHMM MFCC
GMM RCPLP
EHMM SPLP
GMM CPLP
Fon CPLP
GMM MFCC
GMM RSPLP
GMM SPLP
DHMM CPLP
ENERG.
KEPST.
G729 AppIII
Fon MFCC
G729
Fon SPLP
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
0.8
2.1
0.5
0.0
0.4
0.7
0.7
0.0
1.8
1.8
0.3
1.2
0.8
0.2
0.0
0.0
0.8
3.3
1.7
0.0
0.1
0.4
1.3
0.0
1.1
4.3
0.4
0.0
0.6
0.3
1.0
0.0
0.7
4.2
1.2
0.0
0.2
0.4
1.1
0.0
0.7
3.5
0.8
0.0
0.9
0.6
1.7
0.0
0.8
4.0
0.9
0.0
0.1
0.7
1.7
0.0
1.0
3.5
1.9
0.0
0.1
0.4
1.4
0.0
0.5
3.1
0.9
0.0
0.2
0.6
3.3
0.0
0.6
3.0
0.9
0.0
0.2
0.6
3.1
0.0
1.0
4.8
1.7
0.0
0.1
0.3
1.1
0.0
0.8
4.6
2.2
0.0
0.2
0.3
1.0
0.0
0.4
3.2
1.5
0.0
0.2
0.7
3.3
0.0
0.1
2.2
0.7
0.0
1.0
2.4
4.1
0.0
0.4
3.4
1.9
0.0
0.0
0.8
4.1
0.0
1.0
2.5
0.7
5.1
0.9
0.4
0.5
0.0
0.4
2.5
1.8
0.0
0.1
0.9
5.6
0.0
1.0
5.2
3.0
0.1
0.0
0.2
2.1
0.0
0.6
3.1
2.1
0.0
0.3
0.8
5.0
0.0
0.1
3.3
0.7
0.0
0.3
2.6
7.4
0.0
0.0
3.8
0.3
0.0
1.0
3.5
5.8
0.0
0.1
2.8
0.9
0.0
0.3
2.6
8.3
0.0
0.9
2.3
5.6
0.0
1.8
0.6
9.2
0.0
15.7
0.7
1.6
5.3
0.0
0.8
0.3
14.6
0.0
2.6
20.9
0.0
1.7
0.9
0.0
1.1
5.3
14.6
0.0
24.1
3.2
20.9
1.5
0.8
0.9
0.0
10.2
0.5
5.9
4.4
24.2
8.3
15.9
0.5
2.3
0.3
5.3
3.5
3.1
1.3
8.0
30.4
4.5
25.9
0.8
0.7
3.0
0.0
8.9
0.6
12.0
4.4
42.3
2.0
40.3
0.2
1.5
0.2
0.1
5.7
3.9
10.6
20.1
± 2.7 ± 2.8 ± 1.5
± 1.0 ± 2.0 ± 0.5 ± 0.0 ± 0.5 ± 0.8 ± 1.3 ± 0.0
± 2.7 ± 3.4 ± 1.2
± 1.3 ± 1.8 ± 0.6 ± 2.5 ± 1.0 ± 0.5 ± 0.0 ± 0.0
± 3.1 ± 3.6 ± 1.7
± 1.0 ± 2.6 ± 1.5 ± 0.0 ± 0.2 ± 0.7 ± 1.5 ± 0.0
± 3.5 ± 3.5 ± 2.0
± 0.9 ± 2.8 ± 0.6 ± 0.0 ± 1.5 ± 0.2 ± 1.4 ± 0.0
± 3.5 ± 3.9 ± 1.5
± 1.0 ± 3.0 ± 1.5 ± 0.0 ± 0.4 ± 0.8 ± 1.4 ± 0.0
± 5.5 ± 2.9 ± 3.5
± 0.9 ± 2.0 ± 1.0 ± 0.0 ± 2.8 ± 0.6 ± 2.2 ± 0.0
± 4.0 ± 3.5 ± 3.4
± 0.9 ± 2.5 ± 1.3 ± 0.0 ± 0.3 ± 0.7 ± 3.3 ± 0.0
± 4.2 ± 4.4 ± 1.9
± 1.4 ± 2.6 ± 1.4 ± 0.0 ± 0.3 ± 0.7 ± 1.7 ± 0.0
± 5.4 ± 2.6 ± 3.7
± 0.8 ± 2.1 ± 0.9 ± 0.0 ± 0.3 ± 0.7 ± 3.8 ± 0.0
± 5.3 ± 3.0 ± 4.8
± 0.8 ± 1.9 ± 1.1 ± 0.0 ± 0.3 ± 0.7 ± 4.6 ± 0.0
± 4.4 ± 4.8 ± 2.0
± 1.1 ± 3.1 ± 2.0 ± 0.0 ± 0.2 ± 0.8 ± 2.0 ± 0.0
± 4.1 ± 4.4 ± 1.4
± 1.0 ± 3.2 ± 1.7 ± 0.0 ± 0.4 ± 0.6 ± 1.4 ± 0.0
± 4.9 ± 3.2 ± 4.2
± 0.8 ± 2.2 ± 1.2 ± 0.0 ± 0.3 ± 0.4 ± 4.1 ± 0.0
± 6.3 ± 2.6 ± 6.4
± 0.4 ± 2.0 ± 0.8 ± 0.0 ± 1.7 ± 1.2 ± 4.0 ± 0.0
± 5.8 ± 3.3 ± 5.1
± 0.6 ± 2.2 ± 1.7 ± 0.0 ± 0.1 ± 0.4 ± 5.1 ± 0.0
± 6.7 ± 6.6 ± 2.5
± 1.0 ± 3.0 ± 1.4 ± 8.0 ± 2.2 ± 0.3 ± 0.8 ± 0.0
± 8.5 ± 2.7 ± 8.5
± 0.7 ± 2.0 ± 1.4 ± 0.0 ± 0.3 ± 0.5 ± 8.2 ± 0.0
± 4.7 ± 4.5 ± 2.8
± 1.1 ± 3.4 ± 1.8 ± 0.2 ± 0.1 ± 0.3 ± 2.8 ± 0.0
± 6.9 ± 4.0 ± 6.1
± 0.8 ± 2.5 ± 1.7 ± 0.0 ± 0.6 ± 0.7 ± 5.9 ± 0.0
± 9.1 ± 3.3 ± 9.3
± 0.5 ± 2.9 ± 0.7 ± 0.0 ± 0.8 ± 1.1 ± 8.4 ± 0.0
± 6.4 ± 2.4 ± 5.4
± 0.1 ± 2.4 ± 0.4 ± 0.0 ± 2.9 ± 1.3 ± 5.2 ± 0.0
± 7.9 ± 2.7 ± 7.3
± 0.2 ± 2.1 ± 1.0 ± 0.0 ± 0.8 ± 0.9 ± 6.8 ± 0.0
± 13.9 ± 4.6 ± 14.7 ± 0.8 ± 2.0 ± 2.9 ± 0.0 ± 4.5 ± 1.6 ± 9.8 ± 0.0
± 10.1 ± 4.3 ± 10.9 ± 0.7 ± 1.3 ± 2.8 ± 0.0 ± 2.5 ± 0.8 ± 11.0 ± 0.0
± 11.4 ± 1.8 ± 11.7 ± 0.0 ± 1.4 ± 1.0 ± 0.0 ± 1.8 ± 2.9 ± 8.6 ± 0.0
± 10.4 ± 2.1 ± 10.6 ± 1.2 ± 0.9 ± 0.8 ± 0.0 ± 7.9 ± 1.1 ± 5.5 ± 6.2
± 16.6 ± 8.6 ± 19.7 ± 0.7 ± 2.6 ± 0.4 ± 9.4 ± 5.4 ± 6.8 ± 2.0 ± 14.7
± 11.8 ± 3.0 ± 12.2 ± 0.8 ± 0.7 ± 2.1 ± 0.0 ± 6.0 ± 0.9 ± 11.0 ± 6.2
± 29.3 ± 2.3 ± 30.7 ± 0.3 ± 1.8 ± 0.4 ± 0.2 ± 7.4 ± 5.3 ± 10.2 ± 23.3
Tabulka A.10: Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelné klapání
119
VAD
ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
3.0
11.5
0.2
0.9
1.9
0.0
6.2
1.1
2.8
1.3
19.1
3.7
15.4
0.9
2.1
0.1
0.6
1.9
0.3
10.4
2.9
19.7
3.4
16.3
0.2
0.7
2.5
0.0
4.5
1.1
9.3
1.4
20.2
5.6
14.6
0.6
1.9
3.1
0.0
2.9
1.2
9.3
1.2
LPHMM RCPLP 20.3
3.1
17.2
0.5
1.3
1.3
0.0
5.1
1.3
9.5
1.3
EHMM RSPLP 20.6
4.4
16.2
0.8
1.6
2.0
0.0
2.7
0.9
11.5
1.0
GMM RCPLP
20.7
3.4
17.3
0.5
0.9
2.0
0.0
4.3
1.1
11.0
0.9
EHMM MFCC 21.6
3.6
18.0
0.2
1.0
2.3
0.0
4.5
0.6
10.8
2.1
EHMM RCPLP 21.6
3.8
17.8
0.3
1.2
2.3
0.0
5.3
1.2
10.3
1.0
LPHMM RSPLP 21.9
4.8
17.2
1.0
2.1
1.7
0.0
3.7
0.9
11.6
1.0
22.0
5.1
16.9
0.6
1.5
2.9
0.0
2.0
1.0
13.1
0.8
22.7
0.8
22.0
0.3
0.2
0.2
0.0
10.0
1.0
8.9
2.0
22.9
5.8
17.1
0.2
1.2
4.5
0.0
2.9
0.7
11.8
1.8
0.8
4.2
6.5
0.0
1.5
1.6
7.3
1.4
1.4
0.4
6.3
0.0
2.3
1.3
10.8
1.5
LPHMM MFCC 14.5
Fon MFCC
EHMM CPLP
GMM MFCC
± 13.1 ± 4.1 ± 11.7 ± 0.4 ± 1.2 ± 3.5 ± 0.0 ± 11.5 ± 0.9 ± 2.3 ± 1.5
± 15.6 ± 4.6 ± 17.7 ± 1.4 ± 4.2 ± 0.4 ± 1.6 ± 2.6 ± 0.3 ± 18.4 ± 3.0
± 12.8 ± 4.8 ± 10.9 ± 0.4 ± 0.8 ± 4.8 ± 0.0 ± 5.0 ± 1.1 ± 7.5 ± 2.1
± 13.4 ± 4.6 ± 10.9 ± 1.4 ± 1.0 ± 4.1 ± 0.0 ± 4.8 ± 1.2 ± 7.6 ± 2.1
± 12.4 ± 4.3 ± 11.8 ± 1.4 ± 1.7 ± 2.2 ± 0.0 ± 7.2 ± 1.3 ± 8.7 ± 1.5
± 11.7 ± 3.4 ± 11.8 ± 1.4 ± 1.7 ± 2.3 ± 0.0 ± 4.1 ± 1.0 ± 10.4 ± 1.5
± 13.3 ± 3.3 ± 12.7 ± 1.0 ± 0.8 ± 2.5 ± 0.0 ± 6.0 ± 0.8 ± 9.5 ± 0.9
± 13.6 ± 4.4 ± 12.1 ± 0.4 ± 1.2 ± 4.2 ± 0.0 ± 5.2 ± 0.7 ± 8.5 ± 2.3
± 11.9 ± 3.5 ± 11.1 ± 0.5 ± 0.9 ± 3.2 ± 0.0 ± 7.5 ± 0.8 ± 7.8 ± 1.5
GMM RSPLP
Fon RCPLP
GMM CPLP
± 12.9 ± 4.5 ± 14.1 ± 1.5 ± 1.6 ± 2.3 ± 0.0 ± 6.7 ± 1.0 ± 12.1 ± 1.5
± 12.3 ± 4.3 ± 12.5 ± 1.7 ± 1.7 ± 3.3 ± 0.0 ± 2.4 ± 1.0 ± 11.2 ± 0.9
± 16.8 ± 1.1 ± 17.0 ± 0.5 ± 0.5 ± 0.7 ± 0.0 ± 15.3 ± 1.2 ± 13.3 ± 2.4
± 15.0 ± 6.3 ± 13.3 ± 0.4 ± 0.9 ± 6.6 ± 0.0 ± 4.7 ± 0.6 ± 10.6 ± 2.5
DHMM RSPLP 23.3
11.5 11.8
DHMM RCPLP 24.0
8.1
15.9
24.2
1.2
23.0
0.2
0.4
0.6
0.0
5.4
1.4
14.7
1.6
24.6
9.1
15.5
0.7
2.0
6.4
0.0
2.2
0.5
12.1
0.8
25.0
6.7
18.3
0.7
1.8
4.2
0.0
2.8
0.6
13.2
1.8
25.4
10.6 14.8
1.4
2.3
6.9
0.0
2.3
0.6
11.5
0.4
DHMM MFCC 26.3
5.2
21.1
0.4
1.3
3.5
0.0
2.4
1.8
15.3
1.6
LPHMM SPLP 26.5
9.8
16.7
4.1
3.4
2.3
0.0
1.9
0.5
13.8
0.5
DHMM CPLP
26.7
6.2
20.5
0.1
1.3
4.9
0.0
2.3
1.6
14.8
1.9
28.0
7.0
21.0
1.2
2.4
3.4
0.0
2.9
1.9
14.8
1.4
LPHMM CPLP 28.8
3.7
25.1
0.2
0.7
2.8
0.0
12.8
1.1
9.9
1.3
32.8
6.2
26.6
0.8
1.7
3.2
0.5
6.7
0.5
17.2
2.2
33.0
7.1
25.9
0.6
1.6
4.9
0.0
2.0
0.7
21.5
1.7
40.8
0.3
40.5
0.0
0.1
0.2
0.0
17.3
0.8
10.3 12.1
45.2
3.1
42.0
0.0
0.3
2.8
0.0
4.8
1.4
32.5
3.4
46.8
1.4
45.4
0.1
0.2
1.2
0.0
14.9
1.7
25.3
3.5
± 10.8 ± 8.1 ± 8.3
Fon RSPLP
ENERG.
EHMM SPLP
KEPST.
± 2.3 ± 4.3 ± 8.6 ± 0.0 ± 2.9 ± 1.5 ± 8.0 ± 1.8
± 16.4 ± 13.4 ± 13.9 ± 2.8 ± 0.8 ± 10.9 ± 0.0 ± 2.3 ± 1.3 ± 13.6 ± 1.6
± 14.8 ± 1.2 ± 15.2 ± 0.4 ± 0.6 ± 0.9 ± 0.0 ± 5.1 ± 1.1 ± 14.0 ± 2.9
± 14.5 ± 5.1 ± 12.8 ± 0.8 ± 1.0 ± 5.6 ± 0.0 ± 3.6 ± 0.7 ± 12.1 ± 1.5
± 16.6 ± 7.5 ± 12.5 ± 1.4 ± 1.5 ± 7.5 ± 0.0 ± 3.9 ± 0.5 ± 11.6 ± 2.5
± 17.2 ± 6.7 ± 13.9 ± 1.5 ± 1.1 ± 7.4 ± 0.0 ± 3.5 ± 0.9 ± 13.1 ± 0.8
± 17.0 ± 4.6 ± 16.5 ± 1.2 ± 1.5 ± 4.3 ± 0.0 ± 3.3 ± 1.6 ± 17.4 ± 2.0
DHMM SPLP
Fon CPLP
GMM SPLP
Fon SPLP
G729
G729 AppIII
± 16.6 ± 11.2 ± 12.1 ± 6.0 ± 3.0 ± 3.7 ± 0.0 ± 3.2 ± 0.4 ± 12.3 ± 0.9
± 17.2 ± 7.2 ± 16.0 ± 0.2 ± 1.2 ± 7.6 ± 0.0 ± 3.4 ± 1.4 ± 16.8 ± 2.4
± 15.7 ± 4.6 ± 14.4 ± 3.2 ± 2.7 ± 4.7 ± 0.0 ± 3.9 ± 1.7 ± 14.6 ± 1.8
± 18.5 ± 5.7 ± 17.9 ± 0.4 ± 1.1 ± 5.4 ± 0.0 ± 16.6 ± 0.9 ± 11.4 ± 1.5
± 24.2 ± 8.3 ± 22.5 ± 1.4 ± 3.8 ± 8.1 ± 1.3 ± 15.2 ± 0.7 ± 21.0 ± 1.9
± 16.7 ± 8.1 ± 15.4 ± 1.6 ± 1.4 ± 8.4 ± 0.0 ± 2.7 ± 0.7 ± 14.7 ± 2.0
± 12.4 ± 0.6 ± 12.4 ± 0.0 ± 0.3 ± 0.6 ± 0.0 ± 21.4 ± 1.6 ± 17.3 ± 12.4
± 13.3 ± 3.3 ± 13.3 ± 0.1 ± 0.6 ± 3.0 ± 0.0 ± 5.3 ± 3.1 ± 14.0 ± 4.2
± 15.7 ± 2.9 ± 15.2 ± 0.1 ± 0.5 ± 2.5 ± 0.0 ± 15.6 ± 3.1 ± 15.3 ± 4.1
Tabulka A.11: Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelné listování papírem
120
DODATEK A. TABULKY A GRAFY VÝSLEDKŮ EXPERIMENTŮ
VAD
ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
[%]
[%]
[%]
5.6
5.3
0.3
7.3
5.9
1.4
8.1
4.8
3.3
LPHMM MFCC 8.4
7.0
1.4
8.8
5.8
3.0
8.9
6.4
2.6
9.0
6.4
2.6
LPHMM RCPLP 10.1
5.1
5.0
10.9
10.7
0.2
11.3
7.9
3.4
11.5
6.4
5.1
EHMM RSPLP 11.8
6.4
5.5
12.1
5.8
6.3
LPHMM RSPLP 12.2
7.9
4.3
EHMM RCPLP 12.5
4.7
7.9
12.9
7.9
5.0
13.7
13.6
0.1
14.1
6.3
7.8
14.8
7.2
7.6
DHMM RCPLP 17.8
3.7
14.0
19.3
7.3
12.0
23.2
3.6
19.7
25.9
3.5
22.4
DHMM RSPLP 26.1
5.2
20.9
DHMM MFCC 27.8
3.5
24.4
38.1
7.7
43.8
Fon RCPLP
LPHMM CPLP
Fon RSPLP
EHMM CPLP
LPHMM SPLP
EHMM MFCC
Fon CPLP
EHMM SPLP
GMM RCPLP
GMM CPLP
GMM RSPLP
Fon MFCC
GMM SPLP
GMM MFCC
DHMM SPLP
Fon SPLP
DHMM CPLP
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
0.2
3.8
0.0
1.4
0.1
0.2
0.0
0.0
0.2
4.8
0.9
0.0
0.0
0.5
0.9
0.0
0.2
4.4
0.2
0.0
0.0
0.3
3.0
0.0
0.2
6.8
0.0
0.0
0.0
0.4
1.0
0.0
0.2
4.9
0.7
0.0
0.0
1.0
2.0
0.0
0.3
5.7
0.4
0.0
0.0
0.2
2.4
0.0
0.1
5.1
1.2
0.0
0.0
0.5
2.1
0.0
0.1
5.0
0.0
0.0
0.0
0.4
4.6
0.0
0.0
3.9
0.0
6.8
0.0
0.2
0.0
0.0
0.1
6.1
1.7
0.0
0.0
0.5
2.9
0.0
0.2
3.6
2.6
0.0
0.0
0.6
4.6
0.0
0.1
4.6
1.7
0.0
0.2
0.2
5.0
0.0
0.1
3.8
1.9
0.0
0.0
1.2
5.1
0.0
1.0
5.8
1.2
0.0
0.0
0.3
4.0
0.0
0.2
2.7
1.8
0.0
0.6
0.7
6.5
0.0
0.2
5.3
2.4
0.0
0.0
0.6
4.4
0.0
0.0
3.9
0.0
9.7
0.0
0.1
0.0
0.0
0.1
3.2
3.0
0.0
0.0
0.5
7.3
0.0
0.1
4.7
2.4
0.0
0.0
1.1
6.5
0.0
0.0
3.0
0.7
0.0
0.3
2.2
11.5
0.0
0.0
6.3
1.0
0.0
1.7
2.3
7.9
0.0
0.1
3.5
0.0
0.0
4.3
5.6
9.8
0.0
0.0
2.6
0.9
0.0
1.2
3.0
18.2
0.0
0.0
3.8
1.4
0.0
0.0
2.5
18.4
0.0
0.0
2.8
0.7
0.0
1.2
2.9
20.3
0.0
30.4
0.5
5.0
2.2
0.0
3.7
0.1
16.5
10.1
4.1
39.7
0.1
1.9
2.1
0.0
10.1
2.4
17.1
10.1
47.9
2.7
45.2
0.3
1.7
0.7
0.0
16.4
12.0 16.7
0.0
48.8
3.6
45.2
0.1
1.1
2.4
0.0
17.1
7.2
0.0
± 0.1 ± 0.2 ± 0.3
± 0.2 ± 1.3 ± 0.0 ± 1.4 ± 0.1 ± 0.2 ± 0.0 ± 0.0
± 0.2 ± 0.7 ± 0.9
± 0.1 ± 0.5 ± 0.3 ± 0.0 ± 0.0 ± 0.0 ± 0.9 ± 0.0
± 0.2 ± 0.4 ± 0.6
± 0.2 ± 0.8 ± 0.2 ± 0.0 ± 0.0 ± 0.2 ± 0.8 ± 0.0
± 0.5 ± 1.2 ± 0.7
± 0.2 ± 1.3 ± 0.0 ± 0.0 ± 0.0 ± 0.2 ± 1.0 ± 0.0
± 0.2 ± 0.6 ± 0.4
± 0.2 ± 0.7 ± 0.2 ± 0.0 ± 0.0 ± 0.4 ± 0.8 ± 0.0
± 2.1 ± 0.9 ± 1.2
± 0.3 ± 1.0 ± 0.4 ± 0.0 ± 0.0 ± 0.0 ± 1.2 ± 0.0
± 3.2 ± 2.7 ± 0.5
± 0.1 ± 2.9 ± 0.1 ± 0.0 ± 0.0 ± 0.5 ± 0.0 ± 0.0
± 0.5 ± 0.3 ± 0.3
± 0.1 ± 0.4 ± 0.0 ± 0.0 ± 0.0 ± 0.3 ± 0.1 ± 0.0
± 2.7 ± 3.0 ± 0.2
± 0.0 ± 3.9 ± 0.0 ± 6.8 ± 0.0 ± 0.2 ± 0.0 ± 0.0
± 1.1 ± 0.8 ± 2.0
± 0.0 ± 0.8 ± 1.7 ± 0.0 ± 0.0 ± 0.3 ± 2.3 ± 0.0
± 0.4 ± 0.5 ± 1.0
± 0.2 ± 0.1 ± 0.8 ± 0.0 ± 0.0 ± 0.3 ± 1.3 ± 0.0
± 0.3 ± 0.2 ± 0.1
± 0.1 ± 0.5 ± 0.4 ± 0.0 ± 0.2 ± 0.2 ± 0.6 ± 0.0
± 1.8 ± 1.3 ± 3.0
± 0.1 ± 0.7 ± 0.6 ± 0.0 ± 0.0 ± 0.5 ± 3.5 ± 0.0
± 1.6 ± 0.8 ± 0.8
± 0.8 ± 0.5 ± 0.4 ± 0.0 ± 0.0 ± 0.1 ± 0.9 ± 0.0
± 1.8 ± 0.5 ± 1.3
± 0.2 ± 0.1 ± 0.5 ± 0.0 ± 0.6 ± 0.6 ± 0.1 ± 0.0
± 2.1 ± 0.1 ± 2.0
± 0.1 ± 0.9 ± 0.7 ± 0.0 ± 0.0 ± 0.1 ± 2.1 ± 0.0
± 0.0 ± 0.0 ± 0.1
± 0.0 ± 3.9 ± 0.0 ± 3.9 ± 0.0 ± 0.1 ± 0.0 ± 0.0
± 2.7 ± 0.6 ± 3.4
± 0.1 ± 0.7 ± 1.4 ± 0.0 ± 0.0 ± 0.2 ± 3.6 ± 0.0
± 1.2 ± 2.6 ± 3.8
± 0.1 ± 2.7 ± 0.0 ± 0.0 ± 0.0 ± 0.4 ± 4.3 ± 0.0
± 2.9 ± 1.4 ± 4.3
± 0.0 ± 1.1 ± 0.3 ± 0.0 ± 0.3 ± 0.5 ± 4.5 ± 0.0
± 1.9 ± 5.5 ± 7.4
± 0.0 ± 4.6 ± 1.0 ± 0.0 ± 1.7 ± 0.0 ± 5.7 ± 0.0
± 7.8 ± 0.5 ± 8.2
± 0.1 ± 0.6 ± 0.0 ± 0.0 ± 4.3 ± 1.1 ± 5.0 ± 0.0
± 12.6 ± 2.1 ± 14.7 ± 0.0 ± 1.1 ± 0.9 ± 0.0 ± 1.2 ± 0.1 ± 13.7 ± 0.0
± 7.7 ± 1.4 ± 9.1
KEPST.
ENERG.
G729 AppIII
G729
± 0.0 ± 0.8 ± 0.6 ± 0.0 ± 0.0 ± 0.4 ± 9.5 ± 0.0
± 14.3 ± 2.1 ± 16.4 ± 0.0 ± 1.5 ± 0.7 ± 0.0 ± 1.2 ± 0.8 ± 15.9 ± 0.0
± 12.1 ± 6.1 ± 18.2 ± 0.0 ± 5.0 ± 1.0 ± 0.0 ± 3.7 ± 0.1 ± 4.6 ± 10.1
± 22.2 ± 4.0 ± 26.2 ± 0.1 ± 1.9 ± 2.0 ± 0.0 ± 10.1 ± 2.0 ± 8.0 ± 10.1
± 1.3 ± 2.3 ± 3.6
± 0.1 ± 1.7 ± 0.7 ± 0.0 ± 2.8 ± 1.8 ± 2.6 ± 0.0
± 1.6 ± 3.3 ± 4.9
± 0.0 ± 1.1 ± 2.2 ± 0.0 ± 3.9 ± 6.3 ± 7.4 ± 0.0
20.9
Tabulka A.12: Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelné řazení rychlostního stupně
121
VAD
ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
[%]
[%]
[%]
7.7
4.8
2.9
8.0
0.7
7.2
8.5
4.7
3.8
9.2
4.1
5.1
LPHMM RSPLP 9.7
6.2
3.5
9.7
1.1
8.6
9.8
4.9
5.0
10.2
5.8
4.4
LPHMM RCPLP 10.6
4.8
5.8
LPHMM CPLP 10.8
4.8
6.0
EHMM RCPLP 11.0
4.2
6.8
11.1
5.4
5.7
11.5
6.2
5.3
11.6
4.4
7.2
11.6
5.2
6.4
LPHMM MFCC 11.9
4.7
7.2
DHMM RCPLP 12.1
3.7
8.4
12.8
6.1
6.7
12.9
8.8
4.1
13.7
6.5
7.2
DHMM RSPLP 13.8
8.6
5.3
14.1
8.7
5.4
14.6
8.5
6.1
DHMM MFCC 14.8
5.1
9.7
DHMM CPLP
15.0
5.1
9.9
17.4
6.2
11.2
23.0
3.1
19.9
34.1
1.8
32.3
36.9
4.0
32.9
LPHMM SPLP
Fon RCPLP
EHMM RSPLP
EHMM MFCC
Fon RSPLP
GMM RCPLP
GMM RSPLP
GMM SPLP
GMM CPLP
EHMM CPLP
EHMM SPLP
DHMM SPLP
KEPST.
GMM MFCC
Fon MFCC
ENERG.
Fon CPLP
Fon SPLP
G729 AppIII
G729
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
0.4
4.2
0.2
0.0
1.0
0.8
0.8
0.3
0.3
0.4
0.1
0.0
4.0
2.3
0.0
1.0
0.5
3.0
1.3
0.0
0.8
0.8
1.9
0.2
0.2
3.4
0.5
0.0
0.7
1.2
3.1
0.2
0.6
4.7
0.8
0.0
0.7
0.8
1.8
0.2
0.2
0.6
0.3
0.0
3.9
1.5
2.2
1.1
0.2
1.7
3.0
0.0
1.0
1.0
2.6
0.4
0.1
2.9
2.9
0.0
0.2
1.1
2.9
0.2
0.1
4.3
0.4
0.0
1.3
2.4
1.9
0.2
0.3
4.0
0.5
0.0
1.2
1.1
3.6
0.2
0.2
1.7
2.3
0.0
1.6
1.7
3.3
0.2
0.3
3.4
1.7
0.0
0.2
1.3
4.1
0.2
0.5
4.6
1.1
0.0
0.5
1.1
3.6
0.2
0.3
3.5
0.6
0.0
0.8
1.6
4.6
0.2
0.4
4.2
0.5
0.0
0.7
2.6
2.9
0.2
0.6
3.8
0.3
0.0
1.6
2.8
2.5
0.2
0.0
2.9
0.8
0.0
1.1
3.7
3.2
0.4
0.0
5.7
0.4
0.0
0.0
3.9
2.5
0.2
0.6
3.5
4.7
0.0
0.0
0.1
4.0
0.0
0.8
4.5
1.2
0.0
0.5
1.0
5.5
0.2
0.0
7.2
1.3
0.0
0.0
3.5
1.6
0.2
0.8
3.3
0.0
4.7
0.7
0.7
0.9
3.1
1.1
3.8
3.6
0.0
0.2
0.1
5.8
0.0
0.1
4.2
0.8
0.0
0.4
3.4
5.7
0.2
0.2
4.1
0.8
0.0
0.3
3.1
6.3
0.2
0.8
3.8
0.0
1.6
1.6
0.6
1.2
7.8
0.1
2.5
0.5
0.0
4.4
2.0
6.3
7.3
0.7
0.5
0.6
0.0
11.2
1.5
11.9
7.7
0.6
0.9
2.5
0.0
10.5
2.2
14.9
5.4
± 3.2 ± 3.5 ± 3.2
± 0.5 ± 3.3 ± 0.3 ± 0.0 ± 2.4 ± 0.5 ± 1.7 ± 0.8
± 9.7 ± 0.9 ± 9.9
± 0.4 ± 0.7 ± 0.2 ± 0.0 ± 5.3 ± 4.2 ± 0.0 ± 1.9
± 5.1 ± 3.1 ± 5.2
± 0.8 ± 2.9 ± 1.6 ± 0.0 ± 1.7 ± 0.4 ± 3.0 ± 0.7
± 4.3 ± 2.6 ± 4.7
± 0.4 ± 2.9 ± 1.0 ± 0.0 ± 1.7 ± 0.6 ± 3.8 ± 0.7
± 5.2 ± 3.9 ± 5.8
± 1.0 ± 3.8 ± 1.2 ± 0.0 ± 2.0 ± 0.4 ± 3.3 ± 0.7
± 8.4 ± 0.8 ± 8.6
± 0.4 ± 0.8 ± 0.6 ± 0.0 ± 3.8 ± 1.3 ± 4.8 ± 1.9
± 6.1 ± 3.4 ± 6.6
± 0.2 ± 2.0 ± 2.3 ± 0.0 ± 2.4 ± 0.6 ± 3.2 ± 0.8
± 5.6 ± 3.4 ± 5.2
± 0.1 ± 2.5 ± 1.9 ± 0.0 ± 0.4 ± 0.5 ± 4.1 ± 0.7
± 9.0 ± 3.3 ± 9.7
± 0.2 ± 3.5 ± 0.9 ± 0.0 ± 3.6 ± 4.8 ± 2.7 ± 0.7
± 5.1 ± 3.2 ± 6.0
± 0.5 ± 3.4 ± 1.1 ± 0.0 ± 2.6 ± 0.6 ± 5.1 ± 0.7
± 7.8 ± 3.2 ± 8.3
± 0.4 ± 1.9 ± 1.8 ± 0.0 ± 3.6 ± 2.0 ± 4.3 ± 0.7
± 5.0 ± 4.4 ± 5.2
± 0.5 ± 3.7 ± 1.2 ± 0.0 ± 0.3 ± 0.6 ± 4.6 ± 0.7
± 5.2 ± 4.0 ± 5.2
± 0.7 ± 4.0 ± 1.1 ± 0.0 ± 1.4 ± 0.6 ± 4.1 ± 0.7
± 7.0 ± 3.4 ± 7.8
± 0.4 ± 3.4 ± 1.0 ± 0.0 ± 1.9 ± 1.1 ± 6.0 ± 0.7
± 7.0 ± 3.7 ± 7.4
± 0.6 ± 3.6 ± 0.5 ± 0.0 ± 2.0 ± 4.9 ± 4.8 ± 0.7
± 7.3 ± 3.1 ± 7.1
± 0.6 ± 3.2 ± 0.8 ± 0.0 ± 2.9 ± 4.9 ± 5.1 ± 0.7
± 6.6 ± 3.9 ± 5.2
± 0.0 ± 3.7 ± 1.1 ± 0.0 ± 2.0 ± 1.5 ± 3.3 ± 0.8
± 4.6 ± 4.2 ± 2.8
± 0.1 ± 4.3 ± 0.5 ± 0.0 ± 0.1 ± 1.4 ± 3.1 ± 0.7
± 6.0 ± 3.2 ± 5.1
± 0.5 ± 2.0 ± 2.0 ± 0.0 ± 0.0 ± 0.1 ± 5.1 ± 0.0
± 7.0 ± 4.0 ± 6.5
± 0.8 ± 3.4 ± 1.1 ± 0.0 ± 1.4 ± 0.5 ± 5.4 ± 0.7
± 5.7 ± 5.1 ± 2.3
± 0.0 ± 5.5 ± 1.0 ± 0.0 ± 0.0 ± 1.2 ± 1.8 ± 0.7
± 6.0 ± 5.6 ± 7.7
± 0.8 ± 2.6 ± 0.0 ± 4.8 ± 1.9 ± 0.6 ± 2.8 ± 7.7
± 5.5 ± 3.7 ± 4.9
± 1.1 ± 3.4 ± 1.9 ± 0.0 ± 0.4 ± 0.2 ± 4.8 ± 0.0
± 4.7 ± 4.1 ± 3.9
± 0.4 ± 3.8 ± 1.1 ± 0.0 ± 1.2 ± 1.2 ± 3.7 ± 0.7
± 5.1 ± 4.3 ± 4.5
± 0.5 ± 4.2 ± 1.1 ± 0.0 ± 1.0 ± 0.9 ± 4.4 ± 0.7
± 17.2 ± 5.0 ± 18.5 ± 0.9 ± 2.5 ± 0.0 ± 3.3 ± 3.2 ± 0.6 ± 3.8 ± 16.3
± 9.3 ± 3.7 ± 10.7 ± 0.2 ± 3.2 ± 1.0 ± 0.0 ± 7.2 ± 2.9 ± 8.5 ± 8.4
± 8.8 ± 1.9 ± 9.7
± 1.0 ± 0.7 ± 0.8 ± 0.0 ± 8.3 ± 2.8 ± 9.7 ± 9.9
± 7.7 ± 2.9 ± 10.0 ± 1.0 ± 1.4 ± 1.7 ± 0.0 ± 8.6 ± 2.9 ± 10.5 ± 8.5
Tabulka A.13: Přehledová tabulka chyb klasifikace u nahrávek obsahujících jinou neřečovou událost
122
DODATEK A. TABULKY A GRAFY VÝSLEDKŮ EXPERIMENTŮ
VAD
ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
[%]
[%]
[%]
[%]
[%]
[%]
[%]
4.7
0.9
3.8
0.1
0.4
0.4
0.0
LPHMM RCPLP 4.9
1.5
3.4
0.2
1.1
0.2
0.0
5.1
0.3
4.8
0.1
0.2
0.0
0.0
LPHMM RSPLP 5.5
3.4
2.2
0.6
2.2
0.6
0.0
EHMM RSPLP
5.5
2.2
3.2
0.5
1.0
0.8
0.0
LPHMM MFCC 5.6
0.4
5.2
0.1
0.4
0.0
0.0
5.7
0.6
5.1
0.1
0.5
0.0
0.0
5.8
1.6
4.2
0.1
0.2
1.3
0.0
5.8
1.5
4.3
0.2
0.6
0.7
0.0
5.8
0.8
5.0
0.0
0.4
0.4
0.0
7.5
3.0
4.5
0.1
1.8
1.1
0.0
8.1
4.8
3.3
0.2
1.7
2.9
0.0
DHMM RCPLP 8.5
1.0
7.5
0.0
0.2
0.8
0.0
8.7
2.9
5.8
0.3
0.5
2.0
0.0
9.6
0.4
9.1
0.4
0.0
0.0
0.0
10.9
9.5
1.4
2.0
1.3
6.3
0.0
12.2
11.6
0.6
2.4
1.7
7.5
0.0
13.6
0.4
13.2
0.2
0.0
0.2
0.0
14.8
10.6
4.2
0.6
6.6
3.1
0.3
EHMM MFCC 17.0
0.7
16.3
0.1
0.5
0.0
0.0
DHMM RSPLP 20.6
16.5
4.2
0.0
9.5
6.9
0.0
25.8
9.8
16.0
1.1
4.1
4.6
0.0
31.0
18.6
12.4
4.7
2.4
0.6
11.0
34.9
1.7
33.2
0.6
0.0
1.2
0.0
35.4
9.3
26.1
1.1
3.4
4.7
0.1
36.2
0.7
35.6
0.6
0.0
0.1
0.0
LPHMM SPLP 40.4
6.9
33.5
0.5
4.5
0.9
1.0
47.2
0.0
47.2
0.0
0.0
0.0
0.0
62.3
22.0
40.3
2.5
8.0
1.8
9.6
GMM MFCC
LPHMM CPLP
EHMM CPLP
GMM CPLP
EHMM RCPLP
DHMM CPLP
DHMM MFCC
GMM RSPLP
GMM RCPLP
Fon RCPLP
ENERG.
KEPST.
Fon RSPLP
DHMM SPLP
GMM SPLP
Fon CPLP
G729
EHMM SPLP
G729 AppIII
Fon SPLP
Fon MFCC
[%]
[%]
[%]
[%]
1.5
1.3
0.9
0.2
1.7
1.0
0.3
0.4
2.8
1.3
0.1
0.5
0.7
1.0
0.3
0.1
1.3
0.9
0.8
0.2
3.0
1.5
0.0
0.6
2.6
1.3
0.7
0.5
1.7
1.4
1.0
0.2
1.9
1.0
1.1
0.3
0.8
3.3
0.7
0.2
0.5
3.6
0.3
0.2
1.0
1.2
1.0
0.2
2.4
3.2
1.4
0.5
2.8
0.8
2.0
0.3
5.3
0.9
1.9
1.0
1.2
0.1
0.1
0.0
0.5
0.0
0.1
0.0
6.2
1.4
3.4
2.3
0.2
3.6
0.3
0.1
2.7
2.8
1.5
9.3
0.0
3.9
0.1
0.1
2.3
3.1
5.5
5.1
2.4
0.6
0.4
8.9
4.5
1.8
2.9
24.0
4.1
4.5
5.0
12.5
5.5
2.0
3.4
24.7
0.4
24.8
0.2
8.2
0.1
0.0
3.9
43.1
3.3
0.6
2.5
33.9
± 3.3 ± 1.3 ± 3.2
± 0.4 ± 0.8 ± 0.8 ± 0.0
± 1.7 ± 1.1 ± 2.2 ± 0.6
± 3.1 ± 2.4 ± 2.4
± 0.3 ± 2.3 ± 0.9 ± 0.0
± 1.7 ± 1.1 ± 0.9 ± 1.1
± 3.2 ± 0.7 ± 3.1
± 0.3 ± 0.6 ± 0.3 ± 0.0
± 2.3 ± 1.5 ± 0.6 ± 1.5
± 3.1 ± 2.7 ± 1.8
± 1.0 ± 2.4 ± 1.3 ± 0.0
± 1.1 ± 0.9 ± 0.8 ± 0.5
± 3.2 ± 2.4 ± 2.4
± 0.9 ± 1.8 ± 1.5 ± 0.0
± 1.5 ± 1.0 ± 1.4 ± 0.7
± 3.1 ± 1.2 ± 3.2
± 0.2 ± 1.2 ± 0.1 ± 0.1
± 2.4 ± 1.3 ± 0.3 ± 1.7
± 3.4 ± 1.2 ± 3.2
± 0.3 ± 1.1 ± 0.3 ± 0.0
± 2.3 ± 1.3 ± 1.7 ± 1.3
± 3.3 ± 2.0 ± 2.7
± 0.2 ± 0.4 ± 1.9 ± 0.0
± 1.6 ± 1.2 ± 1.5 ± 0.5
± 3.5 ± 2.0 ± 2.9
± 0.4 ± 1.3 ± 1.5 ± 0.0
± 2.0 ± 1.1 ± 1.7 ± 1.1
± 3.4 ± 1.3 ± 3.1
± 0.1 ± 0.7 ± 1.0 ± 0.0
± 1.5 ± 1.9 ± 1.4 ± 0.7
± 3.9 ± 3.4 ± 2.8
± 0.3 ± 2.0 ± 2.4 ± 0.0
± 1.3 ± 1.9 ± 0.9 ± 0.6
± 3.7 ± 3.3 ± 2.2
± 0.4 ± 2.4 ± 2.9 ± 0.0
± 1.2 ± 1.0 ± 1.5 ± 0.6
± 4.8 ± 1.8 ± 4.5
± 0.0 ± 0.7 ± 1.6 ± 0.0
± 2.9 ± 1.8 ± 2.2 ± 1.5
± 4.5 ± 2.8 ± 3.4
± 0.4 ± 1.3 ± 2.5 ± 0.0
± 2.7 ± 1.0 ± 2.3 ± 1.0
± 5.4 ± 0.8 ± 5.3
± 0.6 ± 0.1 ± 0.6 ± 0.0
± 4.8 ± 1.1 ± 2.7 ± 2.3
± 5.3 ± 5.7 ± 1.7
± 1.8 ± 1.9 ± 5.2 ± 0.1
± 1.6 ± 0.3 ± 0.3 ± 0.1
± 4.9 ± 5.0 ± 1.2
± 1.8 ± 1.9 ± 5.2 ± 0.1
± 1.2 ± 0.1 ± 0.2 ± 0.1
± 8.5 ± 0.8 ± 8.5
± 0.5 ± 0.2 ± 0.7 ± 0.0
± 7.5 ± 1.4 ± 3.2 ± 4.6
± 8.2 ± 8.5 ± 2.9
± 1.8 ± 5.4 ± 5.5 ± 1.7
± 0.6 ± 2.3 ± 1.0 ± 0.5
± 17.9 ± 1.2 ± 18.2 ± 0.3 ± 1.1 ± 0.3 ± 0.0
± 4.3 ± 6.1 ± 2.8 ± 17.2
± 7.0 ± 7.4 ± 1.7
± 0.3 ± 6.5 ± 7.9 ± 0.0
± 0.2 ± 1.6 ± 0.6 ± 0.4
± 18.9 ± 5.6 ± 18.1 ± 1.6 ± 3.8 ± 4.6 ± 0.6
± 5.8 ± 6.4 ± 7.6 ± 12.6
± 20.3 ± 19.6 ± 16.7 ± 8.8 ± 8.1 ± 4.0 ± 17.2 ± 4.7 ± 1.0 ± 1.6 ± 16.5
± 14.5 ± 1.5 ± 15.3 ± 0.7 ± 0.1 ± 1.3 ± 0.0
± 5.0 ± 7.4 ± 3.5 ± 16.7
± 22.2 ± 6.1 ± 21.8 ± 2.2 ± 3.8 ± 5.5 ± 0.8
± 9.4 ± 8.2 ± 7.1 ± 18.3
± 14.5 ± 0.8 ± 14.8 ± 0.7 ± 0.0 ± 0.3 ± 0.0
± 5.2 ± 7.7 ± 3.4 ± 16.7
± 18.9 ± 7.6 ± 17.8 ± 1.1 ± 4.7 ± 2.8 ± 5.4
± 1.4 ± 15.9 ± 1.4 ± 12.3
± 15.1 ± 0.1 ± 15.1 ± 0.0 ± 0.1 ± 0.0 ± 0.0
± 2.5 ± 0.4 ± 3.0 ± 14.7
± 20.8 ± 25.4 ± 19.7 ± 7.8 ± 15.6 ± 6.7 ± 18.2 ± 9.6 ± 2.6 ± 3.1 ± 20.7
Tabulka A.14: Přehledová tabulka chyb klasifikace na množině CAR2ECSVAD
123
VAD
ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
[%]
[%]
[%]
LPHMM MFCC 5.9
3.0
2.9
LPHMM CPLP
6.6
3.4
3.1
6.8
3.9
2.9
7.8
5.4
2.4
7.9
1.8
6.1
8.9
6.7
2.2
LPHMM RCPLP 9.0
5.2
3.8
DHMM RCPLP 9.4
5.3
4.1
10.0
8.3
1.7
EHMM RSPLP 10.2
6.9
3.2
EHMM RCPLP 10.5
5.9
4.6
10.9
2.1
8.8
11.4
7.4
4.0
EHMM MFCC 11.4
3.6
7.9
GMM RSPLP
11.8
9.0
2.8
12.1
5.9
6.2
LPHMM RSPLP 12.3
9.6
2.6
LPHMM SPLP 14.3
12.3
2.0
DHMM SPLP
14.4
12.7
1.8
17.3
16.9
0.4
18.3
14.9
3.3
18.8
2.2
16.6
19.3
14.9
4.4
20.9
17.2
3.7
DHMM RSPLP 20.9
18.4
2.5
29.3
21.0
8.3
31.0
2.3
32.2
37.7
DHMM CPLP
EHMM CPLP
Fon RCPLP
DHMM MFCC
GMM CPLP
Fon RSPLP
GMM RCPLP
GMM MFCC
KEPST.
EHMM SPLP
Fon SPLP
ENERG.
GMM SPLP
Fon CPLP
G729 AppIII
G729
Fon MFCC
[%]
[%]
[%]
[%]
1.6
0.5
0.8
0.0
1.6
0.5
1.3
0.0
0.4
1.3
2.2
0.0
1.7
1.6
2.1
0.0
1.3
0.1
0.4
0.0
0.8
2.1
3.8
0.0
1.4
1.6
2.2
0.0
0.4
1.3
3.5
0.0
1.9
1.5
4.9
0.0
2.1
1.1
3.6
0.0
1.5
1.2
3.3
0.0
0.8
0.2
1.1
0.0
1.4
1.0
5.1
0.0
1.4
0.9
1.2
0.0
1.5
1.7
5.9
0.0
1.7
1.0
3.2
0.0
2.8
2.2
4.6
0.0
2.5
3.5
5.8
0.5
0.8
5.6
6.1
0.1
3.5
1.6
11.7
0.0
2.1
3.3
9.4
0.1
0.9
0.5
0.8
0.0
2.9
0.8
11.2
0.0
2.0
4.2
10.8
0.2
0.7
6.7
10.9
0.0
5.4
2.3
0.8
12.4
28.7
1.1
0.0
1.2
0.0
6.1
26.1
1.3
0.1
4.6
0.0
23.3
14.4
4.7
4.0
1.2
13.5
[%]
[%]
[%]
[%]
1.8
0.6
0.2
0.2
1.2
1.2
0.6
0.1
0.4
0.9
1.7
0.1
1.0
0.5
0.8
0.1
3.9
0.6
0.6
1.0
0.3
0.7
1.1
0.1
0.7
1.0
2.1
0.1
0.9
1.2
1.8
0.2
0.4
0.1
1.1
0.1
0.6
0.4
2.3
0.0
0.6
0.9
3.0
0.0
3.6
1.2
2.6
1.3
1.1
0.3
2.5
0.0
2.0
1.5
2.7
1.6
0.4
0.3
2.2
0.0
1.4
0.6
3.8
0.4
0.2
0.7
1.7
0.0
0.5
0.7
0.8
0.1
0.1
1.2
0.5
0.0
0.1
0.0
0.3
0.0
0.7
0.4
1.9
0.3
2.4
1.9
4.1
8.1
0.4
0.0
3.9
0.0
0.5
0.5
2.5
0.3
0.1
1.0
1.5
0.0
1.4
0.1
1.9
4.9
8.9
3.9
4.5
11.5
9.4
2.4
6.1
8.3
0.7
0.1
4.3
9.2
± 5.2 ± 3.7 ± 4.2
± 2.2 ± 1.4 ± 2.0 ± 0.0
± 1.8 ± 3.2 ± 1.2 ± 0.7
± 6.7 ± 4.2 ± 6.1
± 2.1 ± 1.2 ± 2.6 ± 0.0
± 1.8 ± 4.6 ± 2.6 ± 0.6
± 5.3 ± 5.0 ± 3.3
± 1.1 ± 1.5 ± 3.9 ± 0.0
± 0.8 ± 1.4 ± 2.6 ± 0.3
± 6.9 ± 5.9 ± 4.9
± 2.1 ± 2.4 ± 3.7 ± 0.0
± 2.1 ± 2.5 ± 2.6 ± 0.4
± 5.9 ± 2.1 ± 5.4
± 1.4 ± 0.4 ± 1.2 ± 0.0
± 2.8 ± 2.7 ± 2.9 ± 1.8
± 7.1 ± 7.0 ± 3.5
± 1.8 ± 2.1 ± 5.5 ± 0.0
± 1.3 ± 1.0 ± 2.4 ± 0.5
± 7.0 ± 4.9 ± 5.8
± 1.6 ± 2.1 ± 3.1 ± 0.4
± 1.3 ± 3.0 ± 4.5 ± 0.3
± 8.2 ± 8.1 ± 3.9
± 1.2 ± 2.0 ± 6.4 ± 0.0
± 1.1 ± 2.0 ± 3.0 ± 0.8
± 6.8 ± 6.7 ± 3.5
± 2.1 ± 1.9 ± 5.0 ± 0.0
± 1.2 ± 0.9 ± 2.6 ± 0.7
± 6.2 ± 5.5 ± 4.2
± 2.2 ± 1.7 ± 4.0 ± 0.4
± 0.7 ± 1.4 ± 3.9 ± 0.1
± 7.0 ± 4.6 ± 6.1
± 1.6 ± 1.5 ± 3.2 ± 0.0
± 0.9 ± 2.8 ± 5.0 ± 0.3
± 7.9 ± 2.4 ± 7.5
± 1.0 ± 0.6 ± 1.7 ± 0.0
± 3.7 ± 3.4 ± 5.5 ± 2.4
± 6.7 ± 5.3 ± 4.8
± 1.4 ± 1.6 ± 4.3 ± 0.0
± 1.4 ± 1.2 ± 4.0 ± 0.3
± 11.1 ± 4.5 ± 11.6 ± 2.0 ± 1.6 ± 2.6 ± 0.0
± 3.7 ± 4.8 ± 5.9 ± 6.0
± 5.9 ± 5.7 ± 3.2
± 1.5 ± 2.1 ± 4.6 ± 0.4
± 0.6 ± 1.2 ± 2.9 ± 0.0
± 9.6 ± 5.2 ± 9.7
± 2.0 ± 1.4 ± 3.7 ± 0.0
± 3.0 ± 2.2 ± 6.0 ± 3.1
± 8.0 ± 7.4 ± 4.4
± 2.9 ± 2.5 ± 5.3 ± 0.4
± 0.4 ± 2.4 ± 3.8 ± 0.1
± 9.9 ± 10.0 ± 4.0
± 3.3 ± 4.2 ± 6.6 ± 3.6
± 1.3 ± 2.2 ± 2.9 ± 0.5
± 8.8 ± 9.1 ± 2.1
± 1.7 ± 4.3 ± 6.9 ± 0.8
± 1.2 ± 0.9 ± 1.3 ± 0.2
± 7.4 ± 7.4 ± 1.0
± 2.8 ± 1.8 ± 6.2 ± 0.0
± 0.3 ± 0.0 ± 0.9 ± 0.0
± 9.6 ± 9.2 ± 5.7
± 2.5 ± 3.9 ± 6.9 ± 0.8
± 2.1 ± 2.1 ± 3.0 ± 2.8
± 15.5 ± 3.3 ± 16.3 ± 1.5 ± 1.2 ± 2.0 ± 0.0
± 5.7 ± 4.6 ± 5.8 ± 13.3
± 9.4 ± 7.1 ± 7.2
± 2.8 ± 1.3 ± 6.3 ± 0.0
± 0.7 ± 0.2 ± 7.1 ± 0.2
± 9.5 ± 9.6 ± 4.9
± 2.2 ± 4.4 ± 7.2 ± 1.4
± 1.0 ± 1.8 ± 3.0 ± 2.7
± 11.3 ± 12.4 ± 3.5
± 1.5 ± 6.3 ± 9.9 ± 0.4
± 0.2 ± 1.0 ± 2.8 ± 0.0
± 21.8 ± 22.1 ± 14.2 ± 9.7 ± 6.5 ± 3.3 ± 21.7 ± 3.7 ± 1.0 ± 4.4 ± 11.4
± 11.0 ± 2.6 ± 11.7 ± 1.6 ± 0.1 ± 1.6 ± 0.0
± 9.9 ± 8.0 ± 6.5 ± 14.3
± 11.2 ± 4.4 ± 12.0 ± 1.8 ± 0.4 ± 3.7 ± 0.0 ± 11.4 ± 5.7 ± 7.3 ± 12.8
± 21.4 ± 22.3 ± 16.6 ± 10.4 ± 8.8 ± 5.6 ± 21.7 ± 3.7 ± 1.0 ± 6.0 ± 13.9
Tabulka A.15: Přehledová tabulka chyb klasifikace u nahrávek číslic (SPEECONVAD)
124
DODATEK A. TABULKY A GRAFY VÝSLEDKŮ EXPERIMENTŮ
VAD
ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN
[%]
[%]
[%]
LPHMM MFCC 3.9
0.6
3.3
LPHMM CPLP
4.0
0.5
3.5
4.8
1.2
3.6
5.0
2.2
2.8
5.0
1.1
3.9
5.3
0.4
4.9
6.1
3.4
2.7
LPHMM RCPLP 6.1
1.4
4.8
LPHMM RSPLP 6.6
3.0
3.6
EHMM RSPLP
6.7
2.8
3.9
7.1
2.1
5.0
7.1
0.7
6.4
7.4
2.0
5.3
7.5
3.2
4.3
DHMM RCPLP 7.7
2.7
4.9
8.9
0.5
8.3
9.2
6.2
3.0
9.4
6.9
2.5
10.1
6.5
3.6
12.5
10.1
2.4
12.5
12.0
0.6
13.0
0.5
12.5
15.5
11.4
4.1
DHMM RSPLP 18.0
14.4
3.6
20.0
15.6
4.4
23.2
0.5
22.7
24.0
3.4
20.6
28.1
22.9
5.2
33.8
21.0
12.8
EHMM CPLP
DHMM MFCC
DHMM CPLP
Fon RCPLP
GMM CPLP
GMM MFCC
EHMM MFCC
EHMM RCPLP
GMM RCPLP
Fon RSPLP
LPHMM SPLP
DHMM SPLP
GMM RSPLP
ENERG.
KEPST.
Fon SPLP
EHMM SPLP
GMM SPLP
G729 AppIII
G729
Fon CPLP
Fon MFCC
[%]
[%]
[%]
[%]
[%]
[%]
[%]
[%]
0.1
0.3
0.1
0.0
1.4
1.0
0.4
0.4
0.1
0.2
0.2
0.0
1.1
1.3
0.7
0.4
0.1
0.7
0.4
0.0
1.0
0.9
0.9
0.7
0.0
1.0
1.1
0.0
0.2
1.7
0.8
0.1
0.0
0.6
0.5
0.0
0.5
1.9
1.2
0.3
0.3
0.0
0.1
0.0
2.6
0.9
0.3
1.1
0.1
0.7
2.6
0.0
0.6
0.7
1.1
0.3
0.1
0.6
0.7
0.0
0.7
1.5
2.0
0.5
0.2
1.2
1.6
0.0
0.3
1.4
1.7
0.2
0.2
0.6
2.0
0.0
0.6
1.0
2.2
0.1
0.1
0.5
1.5
0.0
0.7
0.8
2.9
0.5
0.1
0.4
0.2
0.0
1.7
1.6
1.5
1.7
0.1
0.5
1.5
0.0
0.6
1.5
3.0
0.2
0.1
0.3
2.8
0.0
1.0
1.1
2.0
0.2
0.0
0.7
2.0
0.0
0.7
2.0
1.5
0.7
0.1
0.1
0.4
0.0
3.1
1.7
2.8
0.7
0.4
2.2
3.7
0.0
0.3
2.0
0.5
0.2
0.0
3.6
3.3
0.0
0.0
1.9
0.4
0.1
0.1
0.8
5.5
0.0
0.4
1.1
2.0
0.1
0.4
0.4
9.2
0.0
0.5
0.2
1.6
0.0
0.5
0.7
10.7
0.0
0.1
0.0
0.4
0.0
0.1
0.3
0.1
0.0
1.5
2.6
2.9
5.7
0.4
1.6
9.4
0.0
0.8
1.1
2.0
0.2
0.0
4.1
10.3
0.0
0.0
2.3
1.2
0.0
0.4
2.8
12.5
0.0
0.5
1.0
2.6
0.2
0.2
0.0
0.3
0.0
8.3
2.5
4.0
7.9
0.2
0.2
3.0
0.0
10.2
1.3
5.2
3.8
7.6
2.9
0.5
11.8
1.6
0.2
1.2
2.2
6.3
2.6
1.5
10.6
0.8
0.4
4.9
6.8
± 3.8 ± 1.2 ± 3.8
± 0.3 ± 0.9 ± 0.7 ± 0.0
± 1.6 ± 2.1 ± 1.9 ± 1.1
± 4.6 ± 1.0 ± 4.5
± 0.2 ± 0.7 ± 0.7 ± 0.0
± 1.6 ± 3.1 ± 2.1 ± 1.1
± 5.2 ± 1.7 ± 5.1
± 0.3 ± 1.1 ± 1.2 ± 0.0
± 2.4 ± 1.4 ± 2.6 ± 3.1
± 3.3 ± 2.8 ± 2.3
± 0.2 ± 1.3 ± 2.2 ± 0.0
± 0.7 ± 1.2 ± 1.6 ± 0.6
± 3.6 ± 1.8 ± 3.0
± 0.1 ± 0.9 ± 1.5 ± 0.0
± 1.3 ± 1.6 ± 2.2 ± 0.9
± 3.8 ± 1.0 ± 3.7
± 0.5 ± 0.1 ± 0.7 ± 0.0
± 1.9 ± 2.3 ± 1.3 ± 2.0
± 5.1 ± 3.3 ± 4.4
± 0.3 ± 1.0 ± 2.9 ± 0.0
± 2.2 ± 0.7 ± 2.3 ± 2.3
± 4.0 ± 1.8 ± 4.0
± 0.2 ± 1.1 ± 1.3 ± 0.0
± 0.9 ± 2.3 ± 3.0 ± 1.2
± 4.0 ± 2.8 ± 3.4
± 0.7 ± 1.6 ± 2.2 ± 0.0
± 0.7 ± 2.1 ± 2.7 ± 0.8
± 3.5 ± 2.6 ± 2.8
± 0.4 ± 1.0 ± 2.2 ± 0.0
± 0.8 ± 1.3 ± 2.4 ± 0.5
± 6.2 ± 2.2 ± 6.1
± 0.3 ± 0.9 ± 1.9 ± 0.0
± 1.2 ± 0.7 ± 4.7 ± 3.0
± 7.8 ± 1.1 ± 7.9
± 0.2 ± 0.7 ± 0.7 ± 0.0
± 3.5 ± 2.8 ± 3.2 ± 5.1
± 4.7 ± 2.0 ± 4.4
± 0.3 ± 0.9 ± 1.9 ± 0.0
± 0.8 ± 2.1 ± 3.6 ± 0.8
± 4.2 ± 2.9 ± 3.1
± 0.3 ± 0.7 ± 2.7 ± 0.0
± 1.0 ± 1.5 ± 2.5 ± 0.8
± 4.8 ± 4.5 ± 3.4
± 0.1 ± 1.4 ± 3.7 ± 0.0
± 1.1 ± 1.7 ± 1.9 ± 1.6
± 5.5 ± 0.9 ± 5.7
± 0.3 ± 0.3 ± 0.8 ± 0.0
± 2.8 ± 2.3 ± 4.2 ± 1.5
± 8.1 ± 6.9 ± 4.7
± 0.9 ± 3.3 ± 5.4 ± 0.0
± 0.7 ± 4.2 ± 1.8 ± 0.7
± 5.6 ± 5.6 ± 1.6
± 0.1 ± 2.6 ± 4.3 ± 0.0
± 0.4 ± 1.0 ± 1.2 ± 0.4
± 3.8 ± 2.9 ± 2.7
± 0.3 ± 1.2 ± 2.9 ± 0.0
± 0.6 ± 1.2 ± 2.2 ± 0.6
± 6.5 ± 5.5 ± 3.9
± 0.6 ± 0.9 ± 5.2 ± 0.0
± 1.2 ± 1.5 ± 2.9 ± 0.2
± 4.6 ± 4.4 ± 1.6
± 0.6 ± 0.9 ± 4.0 ± 0.0
± 0.8 ± 0.1 ± 1.4 ± 0.0
± 11.5 ± 1.0 ± 11.7 ± 0.5 ± 0.7 ± 0.4 ± 0.0
± 3.6 ± 4.5 ± 4.3 ± 9.7
± 8.8 ± 7.1 ± 6.0
± 1.3 ± 2.2 ± 6.2 ± 0.0
± 2.6 ± 2.2 ± 3.3 ± 1.9
± 10.2 ± 10.6 ± 2.2
± 0.0 ± 4.2 ± 8.5 ± 0.0
± 0.2 ± 1.5 ± 1.6 ± 0.3
± 9.6 ± 9.2 ± 4.7
± 0.8 ± 3.3 ± 7.8 ± 0.0
± 1.0 ± 2.0 ± 3.2 ± 1.9
± 8.6 ± 0.7 ± 8.6
± 0.4 ± 0.2 ± 0.5 ± 0.0
± 9.6 ± 5.7 ± 6.3 ± 10.8
± 9.3 ± 2.6 ± 8.7
± 0.4 ± 0.6 ± 2.5 ± 0.0 ± 10.1 ± 4.2 ± 6.3 ± 8.4
± 23.5 ± 23.6 ± 9.1 ± 12.4 ± 7.7 ± 2.8 ± 23.1 ± 4.3 ± 0.5 ± 3.3 ± 6.6
± 22.6 ± 23.4 ± 13.3 ± 11.4 ± 7.1 ± 7.2 ± 22.3 ± 3.2 ± 1.5 ± 5.3 ± 11.0
Tabulka A.16: Přehledová tabulka chyb klasifikace na signálech obsahujících promluvy
celých vět (SPEECONVAD)

Podobné dokumenty