Elektronická verze publikace ve formátu pdf
Transkript
Elektronická verze publikace ve formátu pdf
České vysoké učení technické v Praze Fakulta elektrotechnická Disertační práce Srpen 2010 Jiří Tatarinov České vysoké učení technické v Praze Fakulta elektrotechnická Katedra teorie obvodů Detektory řečové aktivity na bázi skrytých Markovových modelů Disertační práce Jiří Tatarinov Praha, srpen 2010 Doktorský studijní program: Elektrotechnika a informatika Studijní obor: Teoretická elektrotechnika Školitel: Doc. Ing. Petr Pollák, CSc. Abstrakt Disertační práce se zabývá detekcí řečové aktivity, procesem klasifikace řečového signálu do dvou tříd – řeči a šumu. Detekce řečové aktivity hraje důležitou roli v oblasti zpracování signálů a je objektem nejen současného výzkumu, ale i aplikací v oblasti řečových technologií. Hraje důležitou roli v telekomunikacích, při rozpoznávání a zvýrazňování řeči nebo jejím přenosu. Primárním cílem této práce je prostudovat a srovnat algoritmy detekce řečové aktivity využívající skryté Markovovy modely a následně navrhnout optimalizované detektory na jejich bázi. Práce se zaměřuje na detekci v relativně silně zarušeném prostředí, kde v současnosti často používané heuristické detektory výrazně selhávají. Uvedené algoritmy vedly ke konstrukci poměrně robustních detektorů, které fungovaly spolehlivě jak v rušném, tak v tišším prostředí. V první části této práce je navržena platforma pro testování a objektivní zhodnocení detektorů řečové aktivity, kde jsou zahrnuty implementace různých referenčních VAD včetně detektoru podle doporučení G.729. Byla vytvořena referenční databáze pro testování úspěšnosti VAD obsahující asi 3 hodiny řečových signálů s označením přesných hranic řečových a neřečových segmentů. Unikátní vlastností je přesné značení neřečových událostí. Označen je vždy typ, začátek, konec události a paralelní označení přesných hranic změn jednotlivých prostředí. Druhá část práce se zabývá návrhem a optimalizací detektorů na bázi GMM a HMM dohromady s analýzou možností zpracování řečového signálu vedoucí k výběru nejvhodnějších parametrů řeči pro řešenou úlohu. Bylo zjištěno, že parametry, které jsou nejlépe schopny rozlišit dvě dané třídy, jsou spektrální percepčně lineární koeficienty RASTA. Je navržen detektor řečové aktivity klasifikující na základě vzdálenosti mezi HMM řeči a šumu. Přínos navrženého VAD spočívá v možnosti plynulé změny jeho nastavení tak, aby klasifikoval přesněji buď v řečových nebo v neřečových úsecích signálu při současném zachování strukturálního způsobu klasifikace pomocí HMM. Při srovnání s referenčními VAD dosahuje u signálu nahraných v prostředí jedoucího auta 52% snížení celkové chyby klasifikace. Dále byl testován a optimalizován fonémový HMM VAD, který přítomnost řečové aktivity zjišťuje na základě nejpravděpodobnějšího průchodu rozpoznávací sítě složené z HMM monofonů a šumu. Pro signály nahrané v jedoucím automobilu byla snížena chyba detekce řeči o více než 71%. Ve specifických případech, ve kterých se projevuje výhodnost modelování struktury řeči a šumu, například u nahrávek se slyšitelným řazením jiného rychlostního stupně, bylo dosaženo snížení chyby o 85%. Na závěr je navržen a optimalizován detektor řečové aktivity, který strukturu promluvy modeluje pomocí dvou obecných modelů řeči a šumu a ke klasifikaci používá algoritmus cestování žetonů. Byly analyzovány dvě různé struktury modelů – levo-pravé a ergodické HMM. V prostředí jedoucího automobilu bylo dosaženo snížení chyby klasifikace o 61%. Realizované testy na signálech obsahujících reálné rušení různého typu s větším důrazem na prostředí jedoucího automobilu ukázaly větší přesnost HMM a GMM detektory ve srovnání s referenčním detektorem energetickým a kepstrálním, či detektory dle doporučení G.729. Lepší výsledky jsou dosaženy hlavně na signálech se silnějším šumovým pozadím, kde navržené detektory klasifikují přesněji zejména neřečové segmenty a ve specifických případech byla snížena chyba klasifikace o 85%. i Abstract This doctoral thesis deals with voice activity detection, a process of speech classification into two classes – speech or noise. The voice activity detection represents an important part of general research in the field of speech processing and is a subject of many contemporary research activities and many applications of speech technology. The primary aim of this work was to study, propose and compare the voice activity detection algorithms based on hidden Markov models. This work focuses on the detection in relatively noisy environment, where heuristic detectors currently often used, significantly fail. Relatively robust detectors operating well in both silent or noisy environment were proposed. In the first part of this work the platform for testing and objective evaluation of voice activity detectors is designed. Implementation of different VAD, together with the reference detector in accordance with the recommendationg G.729 are also included. For testing of proposed voice activity detectors the reference database was created. It contains about 3 hours of speech signals with anotations indicating the precise boundaries of speech and noisy segments. A unique feature is the accurate marking of non-speech events, labels, beginings and ends of events are included for each event. The time marks of environmental changes are also included. The second part deals with the design and optimalization of detectors based on GMM and HMM, commonly with the study of using different speech parametrizations. Concluding the spectral perceptual linear coefficients RASTA are the best speech parameters to distinguish between speech and noise. The voice activity detector based on discrimination of distance measure between Markov model of speech and noise was designed. The main contribution of the VAD is its possibility to continuously change its settings to achieve more accurate classification either in speech or noise while preserving the structural method of classification using HMM. The 52% reduction of error decision rate has been achieved in a noisy environment in moving car. Further, the phoneme HMM voice activity detector was tested and optimized. The principle of classification is finding the best path through the recognition network which consist from HMM of monophones and noise. The 71% error reduction has been achieved using signals recorded in noisy moving car. The 85% reduction of error decision rate has been achieved for speech recordings whith specific non-speech event like gear shifting. Finally the HMM voice activity detector using two general models of speech and noise was designed and optimized. The different HMM types were tested – left-right and ergodic HMM. The 61% error reduction was achieved in the noisy environment in a moving car. Proposed detectors were compared with referential heuristic algorithms based on energy and cepstral analysis, and with the VAD according to ITU-T G.729 recommendation. The testing of suggested algorithms was realized using the utterances with real noise recorded mainly in running car and the contribution of proposed statistical detectors based on GMM and HMM is evident, especially, for speech signals collected in very noisy environment. In particular recordings of noisy speech the 85% reduction of error rate was achieved. ii Prohlášení Prohlašuji, že jsem svou disertační práci vypracoval samostatně a použil jsem pouze podklady uvedené v přiloženém seznamu. V Praze dne 28. srpna 2010 Jiří Tatarinov iii Poděkování Rád bych poděkoval všem, kteří se zasloužili o vznik této práce. Především děkuji svému školiteli Doc. Ing. Petru Pollákovi, CSc. za obětavou pomoc, cenné rady a připomínky v průběhu celého doktorského studia, které vedly k výraznému zkvalitnění této práce. Dále bych rád poděkoval kolegům doktorandům za řadu diskusí o problematice i doktorském studiu obecně. Děkuji svým blízkým a přátelům za trpělivost, za duchovní, duševní a materiální podporu během studia. Tento výzkum byl podporován granty GAČR 102/03/H085 “Modelování biologických a řečových signálů”, GAČR 102/08/0707 “Rozpoznávání mluvené řeči v reálných podmínkách” a výzkumným záměrem MSM 6840770014 “Výzkum perspektivních informačních a komunikačních technologií”. Databáze CZKCC vznikla v rámci společného projektu a za finanční podpory firmy TEMIC TELEFUNKEN GmbH se sídlem v Ulmu v roce 2001. Databáze není veřejně dostupná a jejím vlastníkem je v současné době Harman/Becker, Ulm, Germany. iv Obsah 1 Úvod 1 2 Stav problematiky detekce řečové aktivity 2.1 Detekce řečové aktivity . . . . . . . . . . . . . . 2.2 Lidská řeč . . . . . . . . . . . . . . . . . . . . . 2.2.1 Model vytváření řeči . . . . . . . . . . . 2.2.2 Struktura řeči . . . . . . . . . . . . . . . 2.3 Šum . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Rozdíly mezi řečí a šumem . . . . . . . . . . . . 2.5 Základní myšlenky řešení . . . . . . . . . . . . . 2.6 Akustická analýza . . . . . . . . . . . . . . . . . 2.6.1 Výkon (energie) . . . . . . . . . . . . . . 2.6.2 Intenzita . . . . . . . . . . . . . . . . . . 2.6.3 Počet průchodů nulou . . . . . . . . . . 2.6.4 Základní hlasivkový tón, periodicita . . . 2.6.5 Entropie . . . . . . . . . . . . . . . . . . 2.6.6 Koherenční funkce . . . . . . . . . . . . 2.6.7 Koeficienty lineární predikce . . . . . . . 2.6.8 Kepstrální analýza . . . . . . . . . . . . 2.6.9 Kepstrální koeficienty LPC . . . . . . . . 2.6.10 Mel-frekvenční kepstrální koeficienty . . 2.6.11 Perceptivně lineární prediktivní analýza 2.6.12 Metoda RASTA-PLP . . . . . . . . . . . 2.6.13 Delta a akcelerační koeficienty . . . . . . 2.6.14 Srovnání parametrů . . . . . . . . . . . . 2.7 Klasifikace . . . . . . . . . . . . . . . . . . . . . 2.7.1 Detektory řeči založené na prahování . . 2.7.2 LDA . . . . . . . . . . . . . . . . . . . . 2.7.3 LRT . . . . . . . . . . . . . . . . . . . . 2.7.4 Neuronové sítě . . . . . . . . . . . . . . 2.7.5 SVM . . . . . . . . . . . . . . . . . . . . 2.7.6 Směs Gaussovských hustotních funkcí . . 2.7.7 Skryté Markovovy modely . . . . . . . . 2.8 Referenční detektory řečové aktivity . . . . . . . 2.8.1 Kepstrální detektor . . . . . . . . . . . . 2.8.2 ITU-T G.729b VAD . . . . . . . . . . . v . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 3 4 4 6 6 7 7 7 8 8 8 9 10 10 10 11 12 12 13 14 15 15 15 17 17 18 18 18 19 19 19 20 vi OBSAH 3 Cíle práce, motivace 23 3.1 Motivace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2 Vlastní cíle práce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.3 Obsah práce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4 Základní experimentální setup 4.1 Získávání parametrů řečového signálu . . . . . . . . 4.2 Kritéria . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Základní kritéria . . . . . . . . . . . . . . . 4.2.2 Rozšířená kritéria . . . . . . . . . . . . . . . 4.3 Další vytvořené nástroje . . . . . . . . . . . . . . . 4.4 Nastavení kepstrálního a energetického VAD . . . . 4.4.1 ROC křivka . . . . . . . . . . . . . . . . . . 4.4.2 Optimalizace hodnoty prahu . . . . . . . . . 4.4.3 Optimalizace prahu kepstrálního detektoru . 4.4.4 Optimalizace prahu energetického detektoru 4.5 Množiny signálů . . . . . . . . . . . . . . . . . . . . 4.5.1 Trénovací množiny . . . . . . . . . . . . . . 4.5.2 Testovací množiny . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 27 28 28 29 30 31 31 32 33 33 33 34 34 5 Testovací databáze 5.1 Dostupné řečové databáze . . . . . . . . . . . . . . . . . 5.2 Návrh databáze pro detekci řečové aktivity . . . . . . . . 5.3 Výběr nahrávek . . . . . . . . . . . . . . . . . . . . . . . 5.4 Hranice řečových položek . . . . . . . . . . . . . . . . . . 5.5 Testovací množiny . . . . . . . . . . . . . . . . . . . . . 5.5.1 Databáze CAR2ECS a množina CAR2ECSVAD 5.5.2 Databáze SPEECON a množina SPEECONVAD 5.5.3 Databáze CZKCC a množina CZKCCVAD . . . . 5.6 Analýza testovacích množin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 37 38 38 38 39 39 39 40 41 . . . . . . . . . . . . 45 45 47 47 49 52 53 53 54 55 56 57 57 . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Detekce na bázi GMM 6.1 Detekce přítomnosti řeči s GMM . . . . . . . . . . . . . . 6.2 Analýza vhodné parametrizace . . . . . . . . . . . . . . . . 6.2.1 Jednorozměrné parametrizace . . . . . . . . . . . . 6.2.2 Vícerozměrné parametrizace . . . . . . . . . . . . . 6.3 Analýza parametrizací pomocí vzdálenosti Kullback-Leibler 6.4 Experimenty . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4.1 Vliv použité parametrizace . . . . . . . . . . . . . 6.4.2 Optimalizace počtu směsí . . . . . . . . . . . . . . 6.4.3 Vliv rušného prostředí automobilu . . . . . . . . . . 6.4.4 Experimenty s neřečovými událostmi . . . . . . . . 6.4.5 Experimenty na dalších typech řečových položek . . 6.4.6 Shrnutí . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Detekce na bázi HMM 59 7.1 Dekódování řeči . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 7.2 Akustické modelování řeči pomocí HMM . . . . . . . . . . . . . . . . . . . 60 7.3 Analýza možností využití HMM za účelem detekce přítomnosti řeči . . . . 61 OBSAH vii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 62 63 64 65 65 67 69 70 70 75 80 8 Shrnující experimenty 8.1 Detekce v prostředí automobilu . . . . . . . . . . . . . . . 8.2 Detekce neřečových událostí . . . . . . . . . . . . . . . . . 8.3 Detekce promluv obsahujících další typy řečových položek 8.4 Souhrnné poznámky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 89 90 91 92 7.4 7.5 7.6 7.7 7.3.1 Výběr modelované části promluvy . . . . . . . . 7.3.2 Struktura modelu . . . . . . . . . . . . . . . . . 7.3.3 Klasifikační algoritmus . . . . . . . . . . . . . . 7.3.4 Způsob inicializace a trénování . . . . . . . . . 7.3.5 Shrnutí analýzy . . . . . . . . . . . . . . . . . . Fonémový detektor řečové aktivity . . . . . . . . . . . VAD vyhodnocující vzdálenosti HMM (DHMM) . . . VAD modelující promluvy pomocí dvou HMM . . . . . Experimenty . . . . . . . . . . . . . . . . . . . . . . . . 7.7.1 Fonémový detektor řečové aktivity . . . . . . . 7.7.2 VAD vyhodnocující vzdálenosti HMM (DHMM) 7.7.3 VAD modelující promluvy pomocí dvou HMM . 9 Závěr A Tabulky a grafy výsledků experimentů . . . . . . . . . . . . 95 109 viii OBSAH Seznam obrázků 2.1 2.2 2.3 2.4 2.5 2.6 2.7 Model vytváření řeči . . . . . . . . . . . . . Vznik zarušeného řečového signálu . . . . . . Struktura detektorů řečové aktivity . . . . . Melovská banka filtrů . . . . . . . . . . . . . Výpočet Melovských kepstrálních koeficientů Algoritmus kepstrálního VAD . . . . . . . . Struktura G729 VAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 6 7 11 12 20 21 4.1 Ilustrace kritérií vyhodnocující detektory řečové aktivity . . . . . . . . . . 30 4.2 ROC pro kepstrální VAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.3 ROC pro energetický VAD . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 5.1 5.2 5.3 5.4 Transkripce řeči . . . . . . . . . . . . . . . . . . . . . . . SSNR signálů v množině CZKCCVAD a CAR2ECSVAD SSNR signálů v množině SPEECONVAD . . . . . . . . . SSNR signálů obsahující neřečové události . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 42 44 44 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 6.10 6.11 6.12 6.13 Ilustrace principu GMM . . . . . . . . . . . . . Algoritmus GMM VAD . . . . . . . . . . . . . . Rozložení energie . . . . . . . . . . . . . . . . . Rozložení počtu průchodů nulou . . . . . . . . . Rozložení F0 . . . . . . . . . . . . . . . . . . . Rozložení koeficientů lineární predikce . . . . . Rozložení DCT kepstrálních koeficientů . . . . Rozložení kepstrálních koeficientů LPC . . . . . Rozložení Melovských kepstrálních koeficientů . Rozložení spektrálních PLP koeficientů . . . . . Rozložení kepstrálních PLP koeficientů . . . . . Rozložení spektrální PLP koeficientů RASTA . Rozložení kepstrálních PLP koeficientů RASTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 47 48 48 49 49 50 50 50 51 51 51 51 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 Bloky systému pro dekódování řeči Ilustrace generování posloupnosti . Levo-pravý model . . . . . . . . . . Ergodický model . . . . . . . . . . Model dlouhé pauzy . . . . . . . . Model krátké pauzy . . . . . . . . . Blokové schéma fonémového VAD . Výpočet diskriminační funkce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 61 62 62 62 62 66 68 ix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x SEZNAM OBRÁZKŮ 7.9 7.10 7.11 7.12 Blokové schéma VAD modelující promluvy pomocí dvou modelů . . . . . Rozpoznávací síť s ergodickými modely řeči a šumu . . . . . . . . . . . . Ilustrace hranic řečových úseků u HMM VAD . . . . . . . . . . . . . . . Vliv zvyšování počtu stavů modelů na ROC charakteristiky pro DHMM VAD s CPLP koeficienty v uvedených prostředích. . . . . . . . . . . . . . 7.13 Nastavení prahu pro DHMM VAD pomocí ROC charakteristiky . . . . . . 69 . 70 . 71 . 75 . 76 A.1 Nastavení prahu DHMM VAD pomocí ROC charakteristiky . . . . . . . . 110 A.2 Vliv zvyšování počtu stavů modelů na ROC charakterisitky pro DHMM VAD v uvedených prostředích a danou parametrizaci. . . . . . . . . . . . . 113 Seznam tabulek 4.1 Konfúzní matice – absolutní hodnoty . . . . . . . . . . . . . . . . . . . . . 31 4.2 Konfúzní matice – relativní hodnoty . . . . . . . . . . . . . . . . . . . . . . 32 5.1 Řečové položky množiny CZKCCVAD . . . . . . . . . . . . . . . . . . . . 41 5.2 Neřečové položky množiny CZKCCVAD . . . . . . . . . . . . . . . . . . . 41 5.3 Prostředí nahrávek množiny CZKCCVAD . . . . . . . . . . . . . . . . . . 41 6.1 Analýza podobnosti řečových a šumových úseku řeči pomocí vzdáleností Kullback-Leibler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Vliv použité parametrizace na úspěšnost GMM VAD. . . . . . . . . . . . 6.3 Analýza počtu směsí u GMM VAD v uvedených prostředích . . . . . . . 6.4 Chyby klasifikace optimálně nastaveného GMM VAD . . . . . . . . . . . 6.5 Úspěšnost GMM VAD u promluv obsahujících různé neřečové události. . 6.6 Úspěšnost GMM VAD na dalších typech řečových položek. . . . . . . . . 7.1 Analýza vlivu počtu směsí modelů fonémového HMM VAD . . . . . . . . 7.2 Chyby klasifikace optimálně nastaveného fonémového HMM VAD . . . . 7.3 Úspěšnost fonémového HMM VAD u promluv obsahujících různé neřečové události. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4 Úspěšnost fonémového HMM VAD na dalších typech řečových položek. . 7.5 Chyby klasifikace optimálně nastaveného DHMM VAD . . . . . . . . . . 7.6 Úspěšnost DHMM VAD u promluv obsahujících různé neřečové události. 7.7 Úspěšnost DHMM VAD na dalších typech řečových položek. . . . . . . . 7.8 Analýza vlivu počtu směsí LP modelů HMM VAD . . . . . . . . . . . . . 7.9 Analýza počtu stavů LP modelů HMM VAD . . . . . . . . . . . . . . . . 7.10 Analýza počtu stavů modelů HMM VAD při klasifikaci promluv obsahujících slyšitelný blinkr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.11 Chyby klasifikace optimálně nastaveného HMM VAD využívajícího LP modely . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.12 Chyby klasifikace optimálně nastaveného HMM VAD využívajícího ergodické modely . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.13 Úspěšnost HMM VAD s levo-pravými modely u promluv obsahujících různé neřečové události. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.14 Úspěšnost HMM VAD s levo-pravými modely na dalších typech řečových položek. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.15 Úspěšnost HMM VAD s ergodickými modely u promluv obsahujících různé neřečové události. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.16 Úspěšnost HMM VAD s ergodickými modely na dalších typech řečových položek. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi . . . . . . 53 54 55 56 58 58 . 72 . 73 . . . . . . . 74 74 77 78 78 80 81 . 82 . 83 . 84 . 86 . 86 . 87 . 87 xii SEZNAM TABULEK 8.1 Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv z prostředí automobilu. . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv obsahujících dané neřečové události. . . . . . . . . . . . . . . . . . . 8.3 Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv obsahujících dané neřečové události. . . . . . . . . . . . . . . . . . . 8.4 Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv obsahujících slyšitelné řazení rychlosti. . . . . . . . . . . . . . . . . . 8.5 Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD na množině CAR2ECSVAD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6 Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD na dalších typech řečových položek. . . . . . . . . . . . . . . . . . . . . . . . . 90 91 92 93 93 93 A.4 Analýza počtu směsí fonémů v prostředí stojícího automobilu se zapnutým motorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 A.1 Analýza počtu směsí GMM v prostředí stojícího automobilu se zapnutým motorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 A.2 Analýza počtu směsí modelů HMM VAD s LP modely v prostředí stojícího automobilu se zapnutým motorem . . . . . . . . . . . . . . . . . . . . . . 111 A.3 Analýza počtu stavů modelů HMM VAD s LP modely v prostředí stojícího automobilu se zapnutým motorem . . . . . . . . . . . . . . . . . . . . . . 111 A.5 Přehledová tabulka chyb klasifikace v prostředí stojícího automobilu . . . . 112 A.6 Přehledová tabulka chyb klasifikace v prostředí stojícího automobilu se zapnutým motorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 A.7 Přehledová tabulka chyb klasifikace v prostředí jedoucího automobilu . . . 115 A.8 Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelný blinkr116 A.9 Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelný dech mluvčího . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 A.10 Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelné klapání118 A.11 Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelné listování papírem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 A.12 Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelné řazení rychlostního stupně . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 A.13 Přehledová tabulka chyb klasifikace u nahrávek obsahujících jinou neřečovou událost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 A.14 Přehledová tabulka chyb klasifikace na množině CAR2ECSVAD . . . . . . 122 A.15 Přehledová tabulka chyb klasifikace u nahrávek číslic (SPEECONVAD) . . 123 A.16 Přehledová tabulka chyb klasifikace na signálech obsahujících promluvy celých vět (SPEECONVAD) . . . . . . . . . . . . . . . . . . . . . . . . . . 124 Kapitola 1 Úvod Není pochyb o tom, že se nacházíme v době převratných technologických a společenských změn. Vývoj digitálních a informačních technologií určených k vytváření, zpracování, šíření a užívání informací závažně přispěl k formování nové společnosti. Snad jednou z nejvýznamnějších charakteristik současné informační společnosti je exponenciální nárůst nových informací, dokonce nových vědeckých poznatků a jejich zpřístupnění komunikačními a informačními technologiemi často v reálném čase, bez ohledu na místo jejich výskytu. Zároveň se rozvíjí snahy vedoucí ke snadné přístupnosti veškerých informačních zdrojů a odborných informací. Nejtypičtějším příkladem komunikace v reálném čase je oblast telefonie, která se rychle rozvíjí. Pevné linky byly téměř vytlačeny mobilními telefony a dále se rozšiřuje volání po síti - VoIP1 . Nové technologie sebou přinesly specifické problémy a nedostatky, které je možné řešit, či dále vylepšovat. Například při telefonním hovoru někdy využíváme hlasitý odposlech, což vede k přenosu hlasu telefonního partnera zpět do mikrofonu, kde se smísí s naším hlasem, dochází k akustickému echu. Tento efekt lze potlačit několika způsoby, některé z nich vedou k využití detektoru řečové aktivity – VAD2 . VAD je přínosem také pro video konference, kde lokalizuje zdroj rozhovoru. V průběhu konferenčního hovoru je lokalizován zdroj hovoru a videokamera je směrována na mluvčího ve chvíli, kdy hovoří. Známější je využití v internetové telefonii pro kompresi řeči, kde lze vynecháním neřečových oblastí signálů zmenšit objem přenesených dat. Účastník hovoru toto vnímá až nepřirozeným ztišením reproduktoru, protože není přenášen okolní šum. Podobný přínos má VAD pro mobilní radiové sítě (GSM nebo CDMA), které často využívají DTX3 . To je metoda umožňující dočasné vypnutí mobilního telefonu nebo zastavení přenosu dat ve chvíli, kdy není přítomen žádný hlasový vstup. Tím je dosaženo celkového zefektivnění komunikační sítě. U mobilního telefonu je také prodloužena jeho výdrž na jedno nabití baterie. VAD je používán také v některých DSVD4 modemech, které umožňují současný přenos hlasu a digitálních dat po běžné telefonní lince. Další aplikace najdeme při zvýrazňování řeči, odhadu SNR5 nebo v rozpoznávání řeči. Nejznámější metodou zvýrazňování řeči je spektrální odečítání, ve které je velmi důležitý přesný odečet odhadu spektra šumu. Odhad spektra šumového pozadí se získá v řečových pauzách, ve kterých není přítomna řeč. Pro kvalitu zvýrazněné řeči je tedy rozhodující bezchybná funkce detektoru řečové aktivity. Při vývoji systémů pro snižování úrovně Voice Over Internet Protocol Voice Activity Detector 3 Discontinuous Transmission 4 Digital Simultaneous Voice and Data 5 Signal to Noise Ratio 1 2 1 2 KAPITOLA 1. ÚVOD šumu v řečovém signálu potřebujeme kvantifikovat úroveň šumového pozadí v řečovém signálu. Standardním kritériem pro měření úrovně šumu v signálu je odstup signálu od šumu SNR. Nedílnou součástí algoritmů pro výpočet SNR je VAD. VAD se také používá u rozpoznávačů řeči, kde slouží k detekci přítomnosti hlasového vstupu. Detekce řečové aktivity hraje důležitou roli v oblasti zpracování signálů a je objektem současného výzkumu. Detektory řečové aktivity jsou využívány nejen v mnoha různých oblastech vědy, ale i v průmyslových aplikacích. Hrají důležitou roli v telekomunikacích, při rozpoznávání a zvýrazňování řeči nebo jejím přenosu. [48, 50, 91, 89] Kapitola 2 Stav problematiky detekce řečové aktivity Detekce řečové aktivity není nová úloha a v tichém prostředí bylo již v některých úlohách dosaženo velmi vysoké přesnosti. Většina současných prací se proto soustředí na řešení této úlohy v zarušeném prostředí. Záměrem této kapitoly bude vytvoření přehledu přístupů, metod a algoritmů, které byly s větším, či menším úspěchem použity pro řešení této úlohy. Vzhledem k tomu, že bylo v uplynulých letech prezentováno velké množství nejrůznějších variant přístupů k detekci řečové aktivity, neklade si tato kapitola nároky na úplnost, ale zmiňuje jen hlavní směry při jejím řešení. Aby tento přehled mohl být srozumitelně vytvořen, budou současně zavedeny základní pojmy a teoretické informace o řeči, detekci řečové aktivity a zpracování řečového signálu. 2.1 Detekce řečové aktivity Detekce řečové aktivity je postup automatické klasifikace čistého řečového signálu, či směsi řeči a šumu do dvou tříd – řeči a šumu. Zpracování řečového signálu je většinou prováděno po segmentech, ke kterým je přidělována příslušná třída. Jde tedy o úlohu, která se snaží najít vzájemné rozdíly mezi řečí a šumem. Principiální rozdíl mezi řečí a šumem je v obsažené informaci. Hlavním znakem řečových úseků je, že nesou informaci nutnou k dorozumění mezi lidmi. Zatímco šumové úseky tuto informaci nenesou. Někde na pomezí mezi řečovými a šumovými úseky jsou krátké řečové pauzy, jejichž zařazení do příslušné kategorie může být v některých případech velmi subjektivní. Před samotným návrhem řešení této úlohy je nutné znát vlastnosti řeči a šumu, aby bylo možné analyzovat jejich rozdíly, a následně najít způsob, jak je vzájemně automaticky rozlišovat. 2.2 Lidská řeč Bylo zjištěno, že akustický signál řeči obsahuje o mnoho více informací, než je obsaženo v jeho skutečném významu. Člověk využívá vnitřní mechanismy [58], které mu umožní potlačit v řečovém signálu nepotřebné údaje (barva hlasu, intonace, ...) a zdůraznit pouze několik hlavních zvukových příznaků, které jsou shodné pro všechna stejná slova. Důsledkem tohoto plného porozumění řeči je i schopnost poznat, zda je řeč v promluvě přítomná či nikoliv. Mechanismy vnímání řeči člověkem jsou neznámé, a proto ani nelze využít jejich 3 4 KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY analogie při návrhu prostředků pro její automatické zpracování. Nicméně je možné využít alespoň dostupných znalostí o procesu tvoření řeči. Zdrojem řeči jsou lidské řečové orgány, které se skládají z hlasivek, dutiny hrdelní, ústní a nosní, měkkého a tvrdého patra, zubů a jazyka. Zdrojem hlasové energie jsou plíce a s nimi spjaté dýchací svaly. Kmitající hlasivky jsou zdrojem znělých hlásek, tj. samohlásek a znělých souhlásek. Frekvence kmitů hlasivek závisí na tlaku vzduchu a na svalovém napětí hlasivek, pohybuje se kolem 150–400 Hz a charakterizuje základní tón lidského hlasu. Pro automatické zpracování řeči je možné řeč vhodným způsobem modelovat, což se s výhodou používá pro popis některých jejich akustických parametrů. 2.2.1 Model vytváření řeči Základem je model chování hlasivek, model hlasového traktu, který napodobuje přenosové vlastnosti lidského hlasového traktu, a model vyzařování zvuku ze rtů [58]. Při promluvě se však rozměry hlasového traktu mění, nicméně lze předpokládat, že vlastnosti hlasového traktu zůstávají konstantní v časovém úseku 10-30 ms. Budící signál je tvořen periodickým sledem prvků pro znělou řeč nebo “šumovým” signálem pro řeč neznělou. Výsledný model hlasové produkce lze reprezentovat celo-pólovým filtrem. Model vytváření řeči je na obrázku 2.1. Šumová podstata neznělých úseků řeči vede v důsledku k problémům při detekcí řečové aktivity, a to hlavně u neznělých hlásek. Perioda základního tónu Parametry hlasového ústrojí Generátor posloupnosti impulsů Model hlasové produkce Znělý/Neznělý Generátor náhodného šumu Zesílení Obrázek 2.1: Model vytváření řeči Dále předpoklad, že vlastnosti hlasového traktu zůstávají v takto krátkém časovém úseku konstantní vede k aplikaci metod krátkodobé analýzy, při nichž se úseky řečového signálu vydělují a zpracovávají tak, jako by to byly oddělené krátké zvuky. V časové oblasti je diskrétní výstupní odezva při fixovaných parametrech hlasového ústrojí dána konvolucí buzení a impulzní odezvy modelu hlasové produkce. Výsledkem analýzy je pak vektor, který popisuje daný mikrosegment. Volba vhodného popisu mikrosegmentů řečového signálu je stěžejní nejen pro úlohu detekce řečové aktivity. 2.2.2 Struktura řeči Strukturu lidské řeči lze popsat z různých lingvistických hledisek – akustického, artikulačního, fonetického, fonologického nebo prozodického. Po nasnímání řeči mikrofonem a jeho digitalizaci, lze poměrně přímočaře získat její akustický popis. Pro následné modelování je 2.2. LIDSKÁ ŘEČ 5 ovšem vhodnější popsat strukturu řeči z hlediska fonetického či fonologického dohromady s prozodickým popisem. Z fonologického hlediska je nejmenší jednotkou řeči foném, který je definován jako nejmenší lingvistická jednotka schopná rozlišovat významové jednotky (např. slova). Fonémy lze od sebe odlišit podle způsobu a místa tvoření, podle artikulujícího orgánu nebo podle sluchového dojmu. Počet fonémů ve světových jazycích se pohybuje od 12 do 60. V českém jazyce je jich 36. Spojením několika fonémů do posloupnosti vznikne slabika a jejich kombinací slovo. Hlásky je možné rozdělit do několika skupin [58] • Samohlásky – Při artikulaci samohlásek je snahou udržet průchod vzduchu hlasovým traktem co nejvolnější. V akustickém spektru každé samohlásky se objevuje kromě základního tónu řada vyšších zesílených tónů, které vznikají rezonancí v dutinách hlasového traktu. • Souhlásky – Na rozdíl od samohlásek, souhlásky obsahují v akustické spektru charakteristický šum a jsou vytvářeny vzduchovou turbulencí, která vzniká třením výdechového proudu vzduchu o překážku vytvořenou artikulačními orgány. Překážka, kterou stavějí mluvidla do cesty výdechovému proudu, může být úplná nebo částečná. Souhlásky můžeme rozdělit na – závěrové – Tyto samohlásky vznikají při vytvoření úplné překážky. V okamžiku zrušení překážky vzniká krátký šum, který se podobá výbuchu. – úžinové – Překážka je tvořena zúžením cesty výdechovému proudu na některém místě v artikulačním ústrojí. Při tření v této úžině vzniká třecí sum. – polozávěrové – Při tvorbě těchto souhlásek se postupně objevují oba typy překážek. Souhlásky je možné též rozdělit podle znělosti. Vyslovením neznělé souhlásky jsou hlasivky od sebe oddáleny podobně jako při volném dýchání a propouštějí výdechový proud, aniž vytvářejí hlas. Znělé souhlásky jsou naopak při tvoření doprovázeny přítomností základního hlasivkového tónu. Při vyslovování nosních souhlásek se části procesu artikulace účastní také nosní dutina. Některé souhlásky jsou shodné, liší se jenom znělostí. Takové souhlásky jsou nazývány párové. Souhlásky, které jsou vždy znělé a nemají svůj neznělý protějšek se nazývají nepárové. Při vyslovování hlásek musí různé části hlasového ústrojí zaujímat odpovídající polohu [58]. Ke změně polohy dojde za určitou dobu, a proto se vyslovení fonému mění v závislosti na předcházejícím a následujícím zvuku. Tento jev je znám jako koartikulace. Pro jeden foném může být tolik variací, kolik je přípustných sousedních fonémů. Z tohoto důvodu byl zaveden pojem fon, jako minimální fonetická jednotka identifikující odlišné primitivní zvuky řeči. Odlišné fony určitého fonému se pak nazývají alofony. Struktura řeči je tedy její přirozenou součástí, ale většinou není součástí šumu. Detekce přítomnosti řeči by tak mohla být založena na hledání přítomnosti nebo nepřítomnosti této struktury. Je například známo, že je velmi obtížné definovat začátek a konec promluvy v případech, kdy jsou na začátku či konci promluvy neznělé okluzivy, tj. /p/, /t/, /k/, slabé neznělé frikativy, tj. /f/, /s/, /š/, /ch/, na konci promluvy znělé okluzivy, tj. /b/, /d/, /g/, znělé frikativy, tj. /v/, /z/, /ž/, /h/, nebo nosní souhlásky, tj. /m/, /n/, /ň/. Tento problém by mohl být zmenšen, když by byla využita znalost skutečnosti, že tyto hlásky jsou součástí strukturálních segmentů řeči. Tato znalost je velmi často využívána v úlohách zabývající se rozpoznáváním řeči, nicméně pro detekci řečové aktivity se používá jen zřídka. 6 KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY replacemen Aditivní šum Řečový signál Konvoluční šum Zarušený řečový signál Obrázek 2.2: Vznik zarušeného řečového signálu 2.3 Šum Zdroje šumu mohou být rozděleny na aditivní šumy a šumy konvoluční. Aditivní šumy nejsou korelované se signálem a podle jejich spektrálních vlastností lze rozlišit šum bílý a barevný. Konvoluční šumy jsou způsobeny například odrazy a rušením díky přenosu signálu nebo díky vlastnostem mikrofonu a zavádí nechtěné artefakty do originálního signálu, které jsou korelované s originálním signálem. Aditivní bílý šum se v reálném prostředí nevyskytuje, přesto se často využívá v modelech reálných systémů, kdy může aproximovat širokopásmové rušení, které se mu v limitním případě blíží. Bílý šum má tedy konstantní výkonovou spektrální hustotu, která je rovna jeho rozptylu σb2 . Dalším důležitým parametrem bílého šumu je jeho střední hodnota µb , která se většinou uvažuje nulová. Nulové jsou také koeficienty autokorelační funkce kromě R[0], který je roven rozptylu σb2 . Nekorelovaný aditivní barevný šum má jiné rozložení energie ve spektru, než bílý šum. Pro tento šum je průběh autokorelační funkce nenulový nejen pro koeficient R[0], ale i pro další koeficienty. Šumový signál může být dále rozdělen na stacionární a nestacionární. Stacionární šum [59] má výkonovou spektrální hustotu téměř konstantní v čase a bývá způsoben například zvukem větráku, počítače či klimatizace, hlukem neakcelerujícího automobilového motoru, zvukem deště, šumem vzdálené konverzace apod. V reálných aplikacích se většinou předpokládá, že neznámý šum je stacionární. Naopak nestacionární šum je charakterizován tím, že se jeho spektrální charakteristiky zřetelně mění v čase [59]. Vzniká například hlukem projíždějícího auta, bouchnutím dveří, klikáním klávesnice, mlaskáním či hlasitým dýcháním při mluvení nebo štěkání psa apod. V dnešní době je možné se poměrně často setkat s nestacionárním šumem, třeba i kvůli možnostem mobilní komunikace, díky které se akustické pozadí mění v průběhu hovoru. Na závěr je třeba zmínit, že šum může mít také nepřímý vliv na řečový signál. V případech, kdy lidé mluví v hlučném prostředí, se díky snaze o efektivnější komunikaci mění i akustické parametry jejich řeči, a to nejen její intenzita, ale i základní tón hlasu, a další jeho vlastnosti. Tento nepřímý vliv hlučného prostředí je označován jako Lombardův efekt. 2.4 Rozdíly mezi řečí a šumem Vlastnosti řečového signálu jsou podrobně popsány a analyzovány díky známému zdroji, tj. hlasovém ústrojí člověka. Je-li znám konkrétní zdroj rušení, potom i jeho vlastnosti jsou známé. Problém může ovšem nastat v situacích, kdy není znám konkrétní zdroj rušení, a jeho popis je založen pouze na předpokladu, že patří do nějaké konkrétní kategorie. Zdroje 2.5. ZÁKLADNÍ MYŠLENKY ŘEŠENÍ 7 Parametr 1 Akustická analýza Řeč Klasifikace Zařazení do třídy Parametr N Obrázek 2.3: Struktura detektorů řečové aktivity rušení jsou však velmi různorodé a v některých případech i neznámé. Pro principiální vyhodnocení rozdílů mezi řečí a šumem se nejčastěji používá přístup vycházející ze znalostí vlastností řečového signálu. V neznámém signálu jsou hledány charakteristiky řeči a na základě jejich přítomnosti či nepřítomnosti se daná část signálu označí jako řeč nebo šum. Obrácený postup, kdy by se hledaly pouze charakteristické znaky šumu, by obecně nefungoval díky nepříliš konkrétnímu popisu vlastností šumu. Nejlepších výsledků lze samozřejmě dosáhnout kombinací obou přístupů. Téměř pro všechny předpokládatelné zdroje rušení lze najít nejzřetelnější rozdíly mezi řečí a vzniklým šumem v jejich akustických parametrech. Většinou platí, že řeč má větší intenzitu než šum a v případech, kdy není rozdíl v intenzitě, například kvůli přítomnosti hlasitého rušení, lze nalézt rozdíly ve spektrálních vlastnostech řeči a šumu. Pro diskriminaci řeči a šumu lze použít také mnoho dalších akustických parametrů řečového signálu, které jsou podrobně popsané v další části tohoto textu. 2.5 Základní myšlenky řešení Obecně jsou algoritmy detekce řečové aktivity založené na různých přístupech, v principu je však možné všechny modelovat dvěma základními bloky: akustickou analýzou řečového signálu řešící extrakci vhodných příznaků popisujících řečový signál a následným klasifikačním algoritmem rozlišujícím mezi řečovými a neřečovými úseky. 2.6 Akustická analýza Blok akustické analýzy řeči je navrhován vždy pro dané prostředí, ve kterém je řečový signál detekován, přičemž různé charakteristiky mají rozdílnou výpočetní náročnost i odolnost vůči případnému rušivému pozadí. Typickými výstupy akustické analýzy mohou být jednotlivé parametry jako výkon (energie) signálu, intenzita, počet průchodů nulou, entropie, kepstrální vzdálenost od pozadí, průměrná koherence apod. nebo vektory více příznaků jako jsou LPC koeficienty, kepstrální koeficienty či koherenční funkce. Dále je uveden popis a důvody využití těchto řečových parametrů dohromady s odkazy na publikace prezentující využití dané řečové charakteristiky pro detekci řečové aktivity. 2.6.1 Výkon (energie) Nejstarší a stále používané VAD jsou detektory výkonové (energetické) [25, 94, 39]. Popularita a časté používání těchto algoritmů je dána především velmi malou výpočetní náročností, kde je přítomnost hlasového signálu detekována na základě vyšší energie oproti úseku neřečovému. Krátkodobou energii lze vypočítat podle vztahu 8 KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY E[n] = ∞ X (x[k]w[n − k])2 , (2.1) k=−∞ kde w[n] je příslušný typ váhovacího okna, například Hammingovo, a x[n] je signál. Někdy se upřednostňuje výpočet logaritmu energie podle vztahu El [n] = log ∞ X (x[k]w[n − k])2 . (2.2) k=−∞ Znělé úseky řeči mají vyšší energii, proto zde energický detektor funguje výborně. Naopak nevýhodou je pokles spolehlivosti detekce při intenzivnějším šumovém pozadí, pro nízkoenergetické neznělé úseky řeči už i pro nižší úrovně rušivého pozadí. 2.6.2 Intenzita V některých publikacích [57] autoři raději využívají parametru intenzity, než energie. Výhodou tohoto parametru je, že není tolik citlivý na velké změny úrovně signálu. Krátkodobá intenzita je zaváděna pomocí následujícího vztahu M [n] = ∞ X |x[k]|w[n − k]. (2.3) k=−∞ 2.6.3 Počet průchodů nulou Doplňkovou charakteristikou energetických detektorů, jejíž aplikace přináší zlepšení detekce neznělých úseků u energetických detektorů, může být počet průchodů nulou - ZCR1 [33, 35, 20]. Na rozdíl od předchozích charakteristik zaměřených na sledování amplitudy signálu, poskytuje krátkodobá funkce středního počtu průchodů signálu nulou informaci o frekvenčních vlastnostech signálu. V podstatě je toto kritérium využíváno jako jednoduchý odhad výšky tónu. Tento odhad je využitelný u monofonního zvuku. U polyfonních zvuků je velmi nepřesný. Hodnota ZCR se získá jako počet změn znaménka signálu ZCR[n] = ∞ X |sign(s[k]) − sign(s[k − 1])|w[n − k], (2.4) k=−∞ kde sign(s[k]) je znaménková funkce definovaná předpisem ( 1 s[k] ≥ 0 sign(s[k]) = −1 s[k] < 0. (2.5) Hodnota ZCR nicméně velmi závisí na šumovém pozadí a i zde dochází ke sbližování hodnot pro šum a pro neznělé hlásky. 2.6.4 Základní hlasivkový tón, periodicita Někteří autoři [36, 83] využívají jako další doplňkové kritérium detekci periodických složek řeči. V podstatě se jedná o odhad periody základního hlasivkového tónu2 T0 , či její 1 2 Zero Crossing Rate pitch period 2.6. AKUSTICKÁ ANALÝZA 9 převrácená hodnoty F0 = 1/T0 - fundamentální frekvence. To je významný parametr řeči, který odpovídá kmitům hlasivek. Přítomnost základního hlasivkového tónu je indikátor znělosti/neznělosti promluvy. Hodnota základního tónu je různá pro různé řečníky a tato frekvence se mění i pro jednotlivce při promluvách různých hlásek. Základní tón není přítomen v šumu, což může být použito jako důležité kritérium nepřítomnosti promluvy. K určení F0 je možné přistupovat několika různými způsoby – výpočtem autokorelační funkce nebo metodou LSPE3 . Podle publikace [59] se jeví jako nejpřesnější metody založené na využití autokorelační funkce. Hodnota periody základního tónu je určena pomocí prvního maxima autokorelační funkce, tj. pro každý segment je hledáno takové m∗ > 0, které vyhovuje rovnici ∗ m = argminmR[m] = argminm L−1−m X s[k]s[k + m], k=0 přičemž délka okénka musí být větší než jedna perioda základního tónu, tj. alespoň L = 20 − 40 ms . S jiným přístupem přichází technika LSPE, která se snaží zkonstruovat periodickou funkci s periodou, která minimalizuje střední kvadratickou odchylku mezi signálem a danou periodickou funkcí. Obě metody výrazně snižují citlivost detekce řeči na bílém šumu. Takto řešený detektor funguje spolehlivě i pří nízkém SNR a je odolný k neperiodickému šumu [83]. Nicméně při periodickém šumovém pozadí nebo s parazitními periodickými složkami v signálu se spolehlivost rychle snižuje. 2.6.5 Entropie Další používané algoritmy jsou založeny na měření entropie H, která vyjadřuje míru neuspořádanosti soustavy, neboť analýzou spektra velmi zašuměné řeči bylo zjištěno, že oblasti obsahující řeč jsou více organizované než oblasti šumové. Pro systém s konečným počtem stavů S ∈ {s1 , s2 , . . . , sN } je entropie definována jako [68] N X H(S) = − P (si)log2 (P (si)), (2.6) i=1 kde P (si) je pravděpodobnost, že byl emitován stav si . Pro potřeby detekce řeči je výhodnější tzv. spektrální entropie H(X), která se získá pomocí předpokladu, že normalizované amplitudové spektrum segmentu signálu lze považovat za pravděpodobnostní rozdělení. Entropie ve spektrální oblasti potom může být získána substitucí P (si) za pravděpodobnost ω-té spektrální čáry dosazením získáme |X(ω)|2 P (|X(ω)|2 ) = P , 2 ω |(ω)| H(X) = − X P (|X(ω)|2)log2 P (|(ω)|2). (2.7) (2.8) ω Experimenty potvrdily, že VAD používající k výpočtu entropii pracují v prostředí s nestacionárním šumem spolehlivěji než čistě energetické. Na druhé straně selhávají v případech, kdy je signál zasažen hudebním šumem. Přínosem je naopak, že tyto VAD nejsou citlivé na změny dynamiky šumu, reagují pouze na změny spektrální povahy [65]. 3 Least Square Periodicity Estimator 10 2.6.6 KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY Koherenční funkce V systémech s vícekanálovým řečovým signálem lze zlepšení detekce silného a nestacionárního šumu dosáhnout použitím charakteristik na bázi koherenční funkce [66], která přináší principiálně novou informaci o podobnosti korelovanosti signálu ve dvou kanálech. Koherenční funkci lze získat pomoci vztahu |Sxy (ejθ )|2 , γ (e ) = Sx (ejθ )Sy (ejθ ) 2 jθ (2.9) kde |Sxy (ejθ )|2 je cross spektrum vstupních signálů x [n] a y [n], a Sx (ejθ ) a Sy (ejθ ) jsou ESD vstupních signálů x [n] a y [n]. Hodnota koherenční funkce se blíží 1, když x [n] a y [n] jsou nezašuměné signály řeči. Naopak hodnota funkce klesá k nule pro případy, kdy x [n] a y [n] jsou nekorelované šumy. Většina šumů, například v automobilu, jsou nekorelované, proto koherenční funkce obsahuje informaci o řečové aktivitě. Nevýhodou je potřeba použití dvou mikrofonů [73], vyššího počtu vstupních kanálů a s tím související nároky na použitý hardware. Ty jsou často limitujícími faktory použití těchto algoritmů, zejména v případech aplikace v jednoduchých a snadno implementovatelných systémech s hlasovým vstupem. 2.6.7 Koeficienty lineární predikce Lineárně prediktivní kódování (LPC) je metoda analýzy akustického signálu, která se snaží na krátkodobém základu odhadnout parametry modelu vytváření řeči při relativně přijatelné výpočetní zátěži přímo z řečového signálu. Princip metody LPC je založen na předpokladu, že k-tý vzorek signálu s(k) lze popsat lineární kombinací Q předchozích vzorků a buzení u(k), tj. s(k) = − Q X ai s(k − i) + Gu(k), i=1 kde G je koeficient zesílení a Q je řád modelu. Pokud se modeluje znělá hláska, model se budí posloupností pulzů u(k) o délce periody základního tónu. Při modelování neznělých hlásek je buzení naopak provedeno náhodným šumem. Přenosovou funkci modelu H(z) lze pak zapsat ve tvaru H(z) = 1+ G PQ i=1 aiz −i . Pro výpočet LPC koeficientu ai bylo vyvinuto více možných metod výpočtu. Lze je získat pomocí autokorelační nebo autokovarianční metody. Většinou se při zpracování řeči používá přístup autokorelační. Dále je možné pro výpočet koeficientů ai využít iterativního Burgova algoritmu nebo algoritmu navrženého Levinsonem a Durbinem. V klasifikačních úlohách se přímo koeficienty LPC používají jen zřídka, častěji jsou upřednostňovány dále popsané parametry odvozené z LPC koeficientů. 2.6.8 Kepstrální analýza Další výraznou skupinou tvoří detektory založené na analýze spektrálních charakteristik řeči, aproximovaných nejčastěji pomocí kepstrálních koeficientů. Kepstrální detektory řeči 2.6. AKUSTICKÁ ANALÝZA 11 1 0 fmel [mel] Obrázek 2.4: Melovská banka filtrů jsou poměrně spolehlivé a hranice použitelnosti pro detekci řeči v zarušeném prostředí je výrazně nižší než u detektorů energetických. Kepstrální analýza umožňuje ocenění fonetické struktury řeči, pomocí ní je možné zjistit, zda je segment řeči znělý či neznělý, periodu budícího signálu, je-li segment znělý, apod. Dále umožňuje popsat parametry hlasového ústrojí, protože se některé kepstrální koeficienty mapují na jeho parametry [88]. V důsledku je možné tvrdit, že kepstrální analýza je předurčena pro úlohy v oblasti zpracování řečového signálu včetně detekce řečové aktivity. Základní definice výpočtu kepstrálních koeficientů c [n] ze signálu x [n] je následující c[n] = Z −1 ln(Z{x[n]}, (2.10) kde Z{·} je operátor pro z-transformaci. Uvedený vztah však není pro výpočet příliš praktický. Kepstrální koeficienty dostaneme obvykle náhradou z-transformace za DFT transformaci c[n] = IDF T {ln(DF T {x[n]}} . (2.11) Tato pravděpodobně nejrozšířenější technika extrakce parametrů signálu je základem robustního VAD spolehlivého i v zašuměných prostředí. 2.6.9 Kepstrální koeficienty LPC Další možností výpočtu kepstrálních koeficientů je využití LPC koeficientů. K získání kepstrálních koeficientů je možné postupovat podle následujících vztahů 1 c[0] = ln(α), 2 n−1 1X c[n] = −an − (n − k)ak c[n − k], n k=1 pro n > 0, přičemž an = 0 pro n ≦ p, kde α je výkon chyby predikce a p je řád autoregresního modelu, an jsou LPC koeficienty a c[n] jsou počítané kepstrální koeficienty. Takto získané kepstrum má rozdílné vlastnosti od kepstra vypočteného pomocí DCT. Jelikož LPC koeficienty modelují vyhlazenou spektrální obálku původního signálu, má i LPC kepstrum vyhlazený charakter, přičemž stupeň vyhlazení závisí na volbě řádu AR modelu. 12 KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY Vstupní signál Segmentace váhování ln DFT Spektrum DCT Melovská banka filtrů Mel-spektrum Mel-kepstrum Obrázek 2.5: Výpočet Melovských kepstrálních koeficientů 2.6.10 Mel-frekvenční kepstrální koeficienty Mel-frekvenční kepstrální koeficienty patří mezi jedny z nejvíce používaných parametrizací. Pro detekci řečové aktivity je prezentovaného jejich použití například v [38]. Jsou navrženy tak, aby do jisté míry respektovali nelineární vnímání zvuků lidským uchem. Je totiž známo, že rozlišovací schopnost sluchu nelineárně klesá s rostoucí frekvencí. K tomu se využívají banky trojúhelníkových pásmových filtrů s lineárním rozložením frekvencí v tzv. Melovské frekvenční škále, jež je definována vztahem f ), (2.12) 700 [mel] je odpovídající frekvence v nelineární fm = 2595 log10 (1 + kde f [Hz] je frekvence v lineární škále a fm Melovské škále. Celý postup výpočtu mel-kepstrálních koeficientů je znázorněn na obrázku 2.5. Signál je nejdříve segmentován a váhován. Následně je spočítáno spektrum pomocí diskrétní Fourierovy transformace. Jeho amplitudová část vstupuje do Melovské banky filtrů, která je tvořena N trojúhelníkovými filtry standardně rozloženými přes celé frekvenční pásmo od nuly až do Nyquistovy frekvence. Tyto filtry se překrývají o 50% a dosahují maximální jednotkový přenos v polovině intervalu. Logaritmováním mel-spektra a inverzní Fourierovou transformací dostáváme Melovské kepstrální koeficienty. Jelikož pracujeme s nezáporným reálným mel-spektrem, je možné ukázat, že Fourierovu transformaci lze nahradit výpočetně méně náročnou diskrétní kosinovou transformací. Označíme-li logaritmus Melovského spektra jako (2.13) mel[k] = ln(Xmel [k]), můžeme psát ci = r N 2 X πi mel[j]cos (j − 0, 5) , N j=1 N i = 1 . . . Nc , (2.14) kde Nc je počet požadovaných mel-kepstrálních koeficientu. 2.6.11 Perceptivně lineární prediktivní analýza Perceptivní lineární analýza se podobně jako Melovské kepstrální koeficienty snaží o popis spektrálních vlastností řečového signálu tak, aby lépe korespondoval ke způsobu, kterým slyší řečové zvuky člověk. To se dosahuje respektováním způsobu zpracování signálu lidským sluchem. Zohledňuje se několik základních faktorů. 2.6. AKUSTICKÁ ANALÝZA 13 Jednou z vlastností sluchu je, že jeho spektrální rozlišení klesá s rostoucí frekvencí. Dále platí, že je nejcitlivější uprostřed slyšitelného frekvenčního pásma. Vnímání zvuku je též ovlivněno tzv. maskováním zvuků, přičemž velikost šířky pásma se mění s frekvencí. Při výpočtu PLP parametrizace je vstupní signál nejprve segmentován a váhován, vypočteno výkonové spektrum P (ω), a dále se modelují uvedené jevy pomocí nelineární transformace původní osy frekvencí ω [rad/s] do Barkovy frekvenční stupnice Ω(ω) [bark] podle vztahu ! r ω ω 2 Ω(ω) = 6 ln + +1 , (2.15) 1200π 1200π kde ω = 2πf a f je frekvence v Hz, a dále konstrukcí maskujících křivek, které simulují kritická pásma slyšení podle vztahů 0 102,5(Ω+0.5) Ψ(Ω) = 1 10(0.5−Ω) 0 pro Ω pro −1, 3 ≤ Ω pro −0, 5 < Ω pro 0, 5 ≤ Ω pro Ω < −1, 3 ≤ −0, 5 < 0, 5 ≤ 2, 5 > 2, 5 . (2.16) Vlivem konvoluce výkonového spektra s funkcí Ψ(Ω) dojde ke snížení frekvenčního rozlišení spektra, což umožňuje zmenšit počet spektrálních čar, aniž by došlo ke ztrátě informace ve spektru [26]. Dále PLP parametrizace reflektuje nestejnou citlivost sluchu na různých frekvencích. Tento jev je popsán tzv. křivkami konstantní hlasitosti E(ω), které jsou dány následujícím vztahem odvozeným pro hladinu hlasitosti 40 Ph E(ω) = ω4 (ω2 + 56, 9 · 106 ) , (ω2 + 6, 3 · 106 )2 (ω2 + 379, 4 · 106 )(ω6 + 9, 6 · 1026 ) fs > 10kHz Tento vztah platí pro vzorkovací kmitočet fs nad 10 kHz, což je případ všech provedených experimentů. Poslední uvažovaná vlastnost sluchu je nelineární vnímání hlasitosti v závislosti na intenzitě zvuku. Ta je aproximovaná pomocí třetí odmocniny spektra a výsledná hodnota spektrálních PLP koeficientů Φ(Ω) je dána následujícím vztahem Φ(Ω) = (E(ω)Ψ[Ω(ω)])0,33 . Pro zlepšení vlastností PLP parametrizace se provádí její převod do kepstrálního tvaru. Nejprve následuje přepočet pomocí inverzní diskrétní Fourierovy transformace. Získáné autokorelační koeficienty jsou dále převedeny pomocí lineárního prediktivního kódování na LPC koeficienty. Ty jsou nakonec transformovány do kepstrálních PLP koeficientů. 2.6.12 Metoda RASTA-PLP PLP RASTA parametrizační koeficienty (RelAtive SpecTrA) [27, 59] byly navrženy jako parametrizace, která zajišťuje ve většině případů ještě větší úspěšnost v oblasti rozpoznávání řeči než PLP koeficienty. Pro úlohu detekce řečové aktivity bylo prezentováno 14 KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY jejich použití v [21]. Zde je VAD součástí systému pro rozpoznávání řeči a chybí jeho samostatné vyhodnocení. Tato parametrizace využívá skutečnosti, že sluchové ústrojí člověka vykazuje jistou necitlivost na pomalu se měnící podněty. Základní myšlenkou metody RASTA je proto předpoklad, že rychlost změn neřečových složek promluvy leží vně oblasti typických změn rychlosti pohybu hlasového ústrojí. RASTA je proto navržena tak, aby potlačovala spektrální složky, které se mění pomaleji nebo rychleji, než je typická rychlost změn řeči. Metoda RASTA byla navržená jako nadstavba parametrizační metody PLP pro aplikace v prostředí, kde dochází ke zkreslení řečového signálu přenosovým kanálem, popř. pro aplikace v prostředí s aditivním šumem. Při výpočtu RASTA koeficientů se nejprve postupuje jako při výpočtu PLP koeficientů, které jsou popsány v předchozí kapitole, tj. nejprve je lineární frekvenční osa výkonového spektra převedena do Barkovy frekvenční stupnice a následně je provedena konvoluce spektra s již popsanou křivkou Ψ(Ω). Následně se postup výpočtu liší. Je provedena komprese spektra pomocí statické nelineární transformace popsané následující rovnicí y = ln(1 + Jx), (2.17) kde J je na signálu závislá kladná konstanta. Následně je proveden krok, který je jádrem RASTA. Časový vývoj každé spektrální komponenty frekvenčního kanálu je filtrován speciální pásmovou propustí. Tím dojde k tomu, že nový spektrální odhad každého segmentu je méně citlivý na pomalé změny ve spektru signálu. Dále je provedena zpětná expanze filtrovaného spektra pomocí inverzní nelineární transformace popsané rovnicí ex , (2.18) J kde e je základ přirozeného logaritmu. Zbytek výpočtu je shodný s parametrizací PLP, tj. je uplatněn vztah vyjadřující závislost mezi intenzitou zvuku a vnímanou hlasitostí a následnou aproximací spektrem celo-pólového modelu jsou získány spektrální koeficienty RASTA. Ty jsou pak stejným způsobem jako u PLP převedeny na kepstrální koeficienty RASTA. x= 2.6.13 Delta a akcelerační koeficienty Úspěšnost klasifikace může být zvýšena, když jsou přidány koeficienty dynamické, tj. delta dt a akcelerační at (delta-delta) koeficienty k základním statickým vícerozměrným vektorům parametrizačních koeficientů. To znamená, že daný segment řeči není popsán jen příslušnými koeficienty, ale i parametry, které charakterizují dynamiku (derivaci) časových změn hodnot parametrizačních koeficientů segmentu. Delta koeficienty Delta koeficienty dt jsou vypočteny podle [97] dt = PΘ θ(ct+θ − ct−θ ) , P 2 Θ θ=1 θ2 θ=1 (2.19) kde ct+θ , ct−θ jsou koeficienty příslušné parametrizace v čase t, z kterých je výpočet proveden. Počet použitých okolních koeficientů je omezen pomocí delta okénka Θ. Obvykle bývá zvolena hodnota 1. 2.7. KLASIFIKACE 15 Akcelerační koeficienty Charakterizují dynamiku delta koeficientů a jejich výpočet je analogický rovnici (2.19) s tím rozdílem, že místo delta koeficientů příslušné parametrizace se použijí delta koeficienty at = 2.6.14 PΘ Srovnání parametrů θ(dt+θ − dt−θ ) . P 2 Θ θ=1 d2 θ=1 (2.20) Veškeré uvedené parametry řeči výborně rozlišují znělé úseky řeči, naopak mají problémy s neznělými úseky. Důvodem jsou podobné charakteristiky neznělých úseků řeči a šumu. Díky své jednoduchosti jsou nejpoužívanější detektory používající krátkodobou energii nebo počet průchodů nulou. Ty jsou velmi rozšířené v telekomunikacích. Pro náročnější aplikace, ve kterých je vyžadována větší robustnost, však již nestačí. V zašuměném prostředí selhávají. Periodicita pomáhá detekovat periodické složky signálu, především znělé hlásky. Detektory pak pracují spolehlivě v přítomnosti bílého a impulsního šumu, jsou ale citlivé na přítomnost periodického rušení. Entropicky založené detektory řečové aktivity pracují v některých prostředích lépe než detektory energické. Jde především o prostředí s nestacionárním šumem nebo mechanickými zvuky. Naopak selhávají za přítomnosti hudebního šumu. Kepstrální detektory mají pravděpodobně největší potenciál, a to zvláště pro případy, kdy se využívají znalosti o vnímání řeči lidským sluchem. Dříve byla jejich hlavní nevýhoda výpočetní náročnost, nicméně s rostoucím výkonem současných procesorů tato nevýhoda pozbývá na významu. 2.7 Klasifikace Druhým principiálním blokem algoritmu detekce řečové aktivity je klasifikace na základě některých výše zmíněných akustických parametrů. V tichém prostředí a zejména při použití jednotlivých akustických příznaků jako je energie či kepstrální vzdálenost se užívají nejčastěji jednoduché heuristické klasifikační algoritmy na bázi adaptivního či fixního prahování a dosahují akceptovatelné přesnosti detekce. Druhou skupinu pak tvoří algoritmy vycházející z teorie rozpoznávání, které využívají klasifikační metody na bázi statického modelování nebo strojového učení; tj. Markovovské modely, neuronové sítě, diskriminační analýza 4 , či SVM 5 . Obecně by se dalo říci, že jsou hledány taková rozhodovací pravidla, která nejvíce zlepšují úspěšnost detekce řečové aktivity. V další části textu jsou uvedeny klasifikační metody s odkazy na literaturu, ve které je uvedená metoda využita pro detekci řečové aktivity. 2.7.1 Detektory řeči založené na prahování Detektory využívající prahování rozhodují o absenci nebo přítomnosti řeči na základě srovnávání hodnot parametrů segmentů s prahovou hodnotou, tj. prahem. Hodnota prahu je většinou získávána různými heuristickými postupy, které jsou již dlouhodobě spolehlivé a 4 5 discriminant analysis Support Vector Machines 16 KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY experimentálně ověřené. Hlavní výhodou je, že uživatel má plnou kontrolu nad rozhodováním, protože rozhoduje pouze nad pravidly, jejichž význam je zřejmý, a tím je zřejmý i primární důsledek případné změny nastavení. Naopak nevýhodou je, že nacházení prahu může být velmi složité, a to zvláště v případech, kdy je k dispozici rozsáhlá množina parametrů signálu. Obecný postup detekce přítomnosti řeči pomocí prahování by se dal rozdělit do několika standardních kroků. Nejprve je řečový signál předzpracován a rozdělen do vzájemně se přesahujících mikrosegmentů. Dále je pro každý mikrosegment vypočítáván vektor parametrů, na jejichž základě je pak vypočtena hodnota prahu. V následujícím kroku je vypočtena vzdálenost mezi prahem a aktuálním vektorem parametrů pomocí vhodné metriky, například kepstrální vzdálenosti. Rozhodnutí o přítomnosti řeči je provedeno na základě vypočtené vzdálenosti z předchozího kroku. V závěrečném kroku většinou proběhne vyhlazení, které odstraňuje případné chybné zákmity prvotní klasifikace. Pro funkčnost a výslednou spolehlivost detektoru je v takovémto způsobu klasifikace klíčový postup nastavení prahu, což může být provedeno mnoha různými způsoby. Zde jsou uvedeny dva základní – buď je práh nastaven fixně nebo je jeho hodnota adaptivně přizpůsobována na základě průběhu detekce. V prvním případě bude hodnota prahu konstantní v průběhu detekce řečí celého signálu. Tato hodnota musí být nastavena ze všech vektorů parametrů, a proto nemůže být prováděna on-line detekce. To je asi největší nevýhoda tohoto způsobu prahování. Výhodou je naopak nepatrně větší přesnost při srovnání s adaptivním prahováním. Pro výpočet fixního prahu se používá následující výpočet. Nejprve se vybere a procent nejnižších a b procent nejvyšších hodnot, ze kterých se následně vypočítají střední hodnoty µa a µb . Tyto hodnoty určují dynamické rozpětí. Výsledný práh se pak vypočte takto T hr = l(µb − µa ) + µa , (2.21) kde l musí být v rozsahu 0 až 1. Druhý způsob adaptivního prahování umožňuje on-line detekci. Princip detekce spočívá v tom, že se hodnota prahu aktualizuje v průběhu detekce. Pro aktualizaci prahu se nejčastěji využívá dvou následujících algoritmů • blokový odhad - hodnota prahu je vždy aktualizována pouze z několika posledních vektorů parametrů. Předcházejí vektory nejsou použity. Aktualizace probíhá podle následujícího vzorce T hr = µd + zα/2 σd2 , (2.22) kde µd je střední hodnota, σd2 je rozptyl vypočtený z bloku vektorů parametrů d a zα/2 je empiricky zjišťovaná konstanta. • průběžný odhad - hodnota prahu je odhadována ze všech předcházejících hodnot, přičemž starší vektory parametrů mají menší váhu pro aktuální hodnotu prahu. Výpočet prahu vychází z předpisu pro blokový odhad, tj. rovnice 2.22. Rozdíl je v tom, že střední hodnota a rozptyl jsou nahrazeny jejich odhady µ̂, σˆ2 , které se počítají podle následujícího postupu µ̂d = q · µd + (1 − q)di , µ̂d2 = q · µd2 + (1 − q)d2i , σ̂d2 = µ̂d2 − µ̂2d . (2.23) (2.24) (2.25) 2.7. KLASIFIKACE 2.7.2 17 LDA6 Použití LDA pro detekci řečové aktivity je možno nalézt například v [38], kde je využita lineární diskriminační funkce pro diskriminaci vektorů MFCC. LDA je metoda používaná ve statistice, slouží k nalezení takové lineární kombinace vektorů parametrů, která nejlépe separuje dvě nebo více tříd. Výsledná kombinace může být použita budˇ jako lineární klasifikátor, nebo častěji ke snížení dimenze vektorů parametrů. Parametrický klasifikátor předpokládá známost tvaru pravděpodobnostních charakteristik jednotlivých tříd. Obráceně neparametrický klasifikátor nepředpokládá žádnou apriorní znalost o pravděpodobnostním rozdělení dat. LDA patří mezi parametrické metody klasifikace a předpokládá normální (Gaussovské) rozdělení dat. V případě, že rozdělení není normální, diskriminační analýza dosahuje stále robustní klasifikace, ale pouze za předpokladu, že datová množina neobsahuje žádné významné rysy [71]. 2.7.3 LRT Objevují se také publikace, ve kterých je popsáno využití algoritmů vycházejících z LRT7 . [22, 14, 11, 17, 72]. Neznámé parametry jsou odhadovány pomocí ML kritéria8 . Podrobné odvození tohoto algoritmu lze najít v publikacích [72, 15], základní myšlenky jsou pak shrnuty v následujícím odstavci. Algoritmus předpokládá, že je řeč degradována nekorelovaným aditivním šumem. Pro každý segment jsou uvažovány dvě hypotézy H0 : X =N signál obsahuje pouze řeč, H1 : X =N + S signál obsahuje řeč a šum, kde S, N a X jsou L-dimenzionální DFT koeficienty řeči, šumu a zašuměné řeči. Každý z vektorů obsahuje Sk , N k a Xk prvků. Předpokládá se, že DFT koeficienty lze modelovat pomocí vícerozměrných normálních rozložení p(X|H0 ) a p(X|H1 ) [72]. Rozhodnutí o přítomnosti řeči je pak provedeno na základě srovnání věrohodnostní funkce s empiricky získaným prahem η, H1 logΛ = ≷ η, H0 kde pro k-tou frekvenční složku platí △ Λ(k) = p(X(k)|H1 ) . p(X(k)|H0 ) (2.26) A dále v uL−1 uY L Λ(k). Λ= t k=0 Uvedený algoritmus umožňuje konstrukci statistiky založeného detektoru řeči, který dosahuje lepších výsledků zvláště u signálů s nízkým SNR. Linear Discriminant Analysis Likelihood Ratio Test 8 Maximum Likelihood criterion 6 7 18 KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY 2.7.4 Neuronové sítě Podobně jako diskriminační analýza, i neuronové sítě a SVM představují parametrické klasifikátory. Neuronové sítě se skládají z jednotek nazývané neurony, které mají na vstupu několik signálů a na výstupu generují hodnotu, která se transformuje pomocí přenosové funkce. Například skoková přenosová funkce generuje hodnotu 1 pokud vážená suma vstupů je nad prahovou hodnotou. Neurony jsou vzájemně propojeny a navzájem si předávají signály a transformují je pomocí různých přenosových funkcí. Pro výpočet parametrů neuronových sítí existují různé trénovací algoritmy - asi nejznámější je algoritmus zpětného šíření 9 . V článku [34] je pro detekci řečové aktivity používán vícevrstevný perceptron, který je natrénován pomocí algoritmu zpětného šíření. Algoritmus zpětného šíření má několik nevýhod. Natrénování neuronové sítě trvá poměrně dlouho, jelikož algoritmus pomalu konverguje. Další nevýhodou je problém s lokálním minimem. Proto byly navrženy rychlejší a sofistikovanější algoritmy, například Levenberg-Marquadtův algoritmus. V článku [69] je pro detekci řečové aktivity využit Levenberg-Marquadtův algoritmus. Nicméně chybí srovnání s VAD, který by použil algoritmus zpětného šíření. V obou případech dosahují neuronové sítě dobrých výsledků, zvláště u silně zarušeného signálu (SNR = 10dB). 2.7.5 SVM10 SVM využívají trénovací data k nalezní optimální nadplochy, která separuje jednotlivé třídy. Optimální nadplocha maximalizuje vzdálenost mezi sebou a trénovacími daty jednotlivých tříd. Klasifikátor tak dosahuje zlepšení schopnosti generalizace. Nadplocha pak může být použita ke klasifikaci neznámých vstupních dat, tj. jejich zařazení do příslušných tříd. Pokud data nejsou lineárně separovatelná, pak je nutné je transformovat do vyšší dimenze, ve které jsou lineárně oddělitelná. Někdy je možné vyhnout se transformaci do vyšší dimenze tím, že data přepočítáme pomocí dané speciální funkce. SVM byly využity v celé řadě klasifikačních problémů, kde dosáhly výborných výsledků. O jejich využití pro binární klasifikační problém, jako je detekce řečové aktivity, se zmiňují například publikace [64, 13]. Podle článku [13] dosahují VAD se SVM lepších výsledků než jednoduchý energetický detektor, zvláště u zašuměného signálu. V některých případech bylo dosaženo lepších výsledků než u VAD využívající GMM [13]. 2.7.6 Směs Gaussovských hustotních funkcí Možnost modelování signálu pomocí směsi Gaussovských hustotních funkcí – GMM11 se často využívá u různých detektorů řečové aktivity založených, většinou založených na Bayesovských metodách klasifikace. S detektory řečové aktivity využívající tento princip se můžeme setkat například v publikacích [46, 82]. Podle publikace [46] překonává GMM VAD standardní detektory řečové aktivity jako G.729B nebo AMR VAD. back-propagation Support Vector Machines 11 Gaussian Mixture Models 9 10 2.8. REFERENČNÍ DETEKTORY ŘEČOVÉ AKTIVITY 2.7.7 19 Skryté Markovovy modely Pro detekci řečové aktivity jsou vhodné také statistické klasifikační algoritmy jako jsou například skryté Markovovy modely – HMM12 . Skryté Markovovy modely nejsou schopny klasifikovat samostatný vektor parametrů. Pravděpodobnost, že současný vektor patří do jedné konkrétní třídy závisí na pravděpodobnosti přechodu z předchozího do aktuálního stavu modelu a pravděpodobnosti, že aktuální vektor parametrů přísluší do přiřazované třídy. Většina algoritmů detekce přítomnosti řeči předpokládá, že je šum stacionární v delších úsecích, než je tomu u řeči. Tento předpoklad umožňuje vystihnout charakteristiky měnícího se šumu, a to i v případě občasného výskytu řeči [72]. Ovšem často je šum nestacionární a mění se jeho statistické parametry. Pro modelování nestacionárních procesů je možné využít skryté Markovovy modely. Stacionární šum lze modelovat pomocí HMM, který obsahuje pouze jeden stav, naopak nestacionární šum vystihuje lépe vícestavový model, kde jsou změny charakteristik šumového signálu modelovány konečným počtem stacionárních stavů [85]. Tyto úvahy vedou k využití HMM pro detekci řečové aktivity. Poměrně často se můžeme setkat s HMM šumu při rozpoznávání řeči, kde slouží k oddělení dlouhých, či krátkých mezer. Využití tohoto modelu vede k celkovému zlepšení rozpoznávání řeči. Prezentace využití HMM přímo pro detekci řečové aktivity lze najít například v článku [45]. Zde je základem dvoustavový model, kde první stav přísluší řeči a druhý šumu. Algoritmus předpokládá, že úvodní segment signálu je šum, což je velmi častý předpoklad i u ostatních algoritmů. Dále adaptuje parametry HMM v průběhu detekce řeči. Byly dosaženy výsledky lepší, než u standardního detektoru G.729 [5]. 2.8 Referenční detektory řečové aktivity Některé detektory řečové aktivity jsou dnes již poměrně běžnou záležitostí. Je známá jejich přesnost v daném prostředí, a proto jsou často používány jako referenční. Do této skupiny patří vyjma energetického detektoru, také detektor kepstrální či detektor řečové aktivity dle doporučení G.729, navržený a optimalizovaný pro práci s řečovým kodekem ITU-T G.729 8 kbit/s CS-ACELP pro přenos hovorového signálu telekomunikačním kanálem. V této sekci jsou vlastnosti těchto detektorů podrobněji popsány. 2.8.1 Kepstrální detektor Zmiňovaný detektor využívá vlastností kepstrálních koeficientů, popsaných v předešlé sekci 2.6.8, díky kterým funguje tento detektor i v relativně rušnějším prostředí, a to bez použití sofistikovanější metody klasifikace. Jako klasifikační algoritmus se používají různé metody prahování zmíněné v sekci 2.7.1. Využitý algoritmus detekce řečové aktivity by se dal shrnout do následujícího blokového schématu 2.6. Všechny bloky jsou popsány v následujících odstavcích. Segmentace a výpočet kepstra Vzhledem k nestacionárnímu charakteru řeči, je nutné signál předem segmentovat na kratší úseky o délce maximálně 40 ms. Je vybrán vhodný typ okna, které má dostatečně utlumené postranní laloky. Na druhé straně je potřeba frekvenční rozlišení. Je potřeba 12 Hidden Markov Models 20 KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY segmentace, vahování výpočet kepstra derivace prahování detekce kumulativní součet Obrázek 2.6: Algoritmus kepstrálního VAD okno s malou šířku hlavního laloku. Kompromisem mezi těmito protichůdnými požadavky je Hammingovo okno, které je i nejpoužívanější. Pro toto okno je typicky požívaný překryv 50 procent. Dalším krokem je výpočet reálného kepstra z vybraných segmentů, přičemž výpočet může probíhat buď přes LPC kepstrální koeficienty (AR kepstrum) nebo pomocí DFT. Kepstra mají rozdílné vlastnosti. AR kepstrum má na rozdíl od DFT kepstra “vyhlazený” charakter. Stupeň vyhlazení závisí na volbě řádu AR modelu. Čím více detailů spektra chceme modelovat, tím větší řád volíme. Podle [74] je možné dosáhnout výrazně lepšího frekvenčního rozlišení ve srovnání s odhady na bázi DFT. Výpočet kepstrálních vzdáleností Nejčastěji se vyhodnocují vzdálenosti mezi dvěma sousedními segmenty. V takovém případě se jedná o tzv. diferenciální kepstrální detektor [73]. Derivováním kepstra můžeme vystihnout dynamické chování signálu. V řeči jsou ale obsaženy také úseky se spektrem konstantního charakteru (hlavně dlouhé znělé hlásky), a jelikož derivace konstanty je rovna nule, je i v kepstrálním prostoru derivace “nulová”. V praxi to znamená, že máme schopnost detekovat pouze začátky a konce slov [73]. Abychom postihli celá slova je nutné derivované kepstrální koeficienty “integrovat” zpět. Proto hned za blokem derivace následuje operace kumulativní součet. Avšak podle článku [73] tímto procesem dochází k vytvoření chyb, které mírně degradují potenciál kepstrálního VAD. Výsledná vzdálenostní míra se získá sečtením hodnot všech kepstrálních koeficientů daného segmentu. Prahování a vyhlazování Přiřazení příslušné třídy pro každý segment probíhá pomocí prahování, přičemž práh může být buď statický nebo se jeho hodnota dynamicky aktualizuje. Po ukončení prahování jsou známé třídy jednotlivých segmentů. Nicméně jsou zde obsaženy i rychlé změny detekovaných tříd - zákmity, které jsou většinou chybné. Uvedené chyby lze řešit poměrně jednoduchým způsobem - provedením vyhlazení. Proces vyhlazení může být uskutečněn například pomocí mediánové filtrace. Při filtraci je prohlídnuto okolí prvku, kterému je přiřazena nejčastěji se vyskytující hodnota. 2.8.2 ITU-T G.729b VAD Mezinárodní telekomunikační unie (ITU) vydala doporučení G.729b pro algoritmus detekce řeči [5]. Algoritmus VAD G.729b je navržen a optimalizován pro práci s řečovým 2.8. REFERENČNÍ DETEKTORY ŘEČOVÉ AKTIVITY 21 kodekem ITU-T G.729 8 kbit/s CS-ACELP, který je využíván pro přenos hovorové signálu [29]. Tento algoritmus je navržen tak, aby při přenosu hovoru bylo zahozeno co možná nejmenší množství řečových segmentů, a je používán jako referenční v mnoha výzkumných publikacích. Na obrázku 2.3 je znázorněno funkční schéma detektoru. Ze vstupního signálu jsou nejprve získány vektory parametrů, ze kterých je následně získána vzdálenostní míra. Rozhodnutí o přítomnosti řeči (primární rozhodnutí) je získáno pomocí lineární rozhodovací funkce. Sekundární rozhodnutí je zjednodušené a v případě, kdy je detekován šum, slouží k aktualizaci parametrů detektoru. Start Extrakce vektorů parametrů Výpočet vzdálenostních parametrů Primární rozhodnutí Rozhodnutí Vyhlazení rozhodnutí Sekundární rozhodnutí Šum Řeč Aktualizace parametrů šumu Konec Obrázek 2.7: Struktura G729 VAD Extrakce vektoru parametrů Ze vstupního signálu je nejprve odstraněna stejnosměrná složka pomocí horní propusti s hraničním kmitočtem 140 Hz. Signál je dále rozdělen do 30 milisekundových segmentů s 2/3-ovým přesahem. Výběrové okénko se skládá ze dvou částí: první polovinu tvoří Hammingovo okno a druhou polovinu představuje čtvrtinu kosinové funkce. Z každého segmentu jsou získány čtyři typy parametrů: energie z celého spektra (0 – 4 kHz), nízko frekvenční energie (0–1 kHz), počet průchodů nul (ZCR) a LSF13 koeficienty. Rozhodování VAD G.729 rozhoduje o přítomnosti řeči ve dvou fázích. V první fázi je rozhodnuto o přítomnosti řeči pomoci lineárních prahových funkcí, které rozdělují 4-dimenzionální vektory příznaků na řečové a šumové regiony. Dohromady je vytvořeno 14 3-dimenzionálních segmentů. Jejich tvar byl určen a navržen pomocí vizuální analýzy [5]. 13 Line Spectral Frequencies 22 KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY Sekundární rozhodnutí rozhoduje o adaptaci parametrů detektoru, které jsou získávány průměrováním šumu na pozadí. Tyto parametry jsou aktualizovány pouze v případě, kdy je detekován neřečový segment. Rozhodnutí je jednoduší a je založeno na srovnávání rozdílů parametrů energie z celého spektra. K aktualizaci dojde pouze při malé změně energie. Aktualizace je prováděna pomocí autoregresního (AR) modelu prvního řádu, přičemž pro rozdílné typy parametrů jsou použity různé AR koeficienty. Jiné koeficienty jsou použity také v případech, kdy jsou detekovány rozsáhlejší změny šumového pozadí [30]. Nicméně v případech, kdy se zvyšuje podíl šumu ve zpracovávaném signálu, může nastat situace, že se algoritmus zasekne a detekuje pouze řeč. Aby toto nenastalo, jsou implementovány restartovací mechanismy [5]. Předtím než začne detektor spolehlivě rozpoznávat přítomnost řeči, musí být inicializovány jeho parametry. Pro inicializaci VAD G.729 je potřeba prvních 32 segmentů, které můžou být i řečové. V průběhu inicializace je rozhodováno pouze s využitím parametru energie z celého spektra. Pokud energie překročí určitou úroveň, je segment označen jako řeč, v opačném případě je segment označen jako šum. Vyhlazení Vektor, obsahující rozhodnutí o přítomnosti řeči, je vyhlazen pomocí čtyř heuristicky zjištěných pravidel [5] • Označení jako řeč – Současný segment je označen jako řeč, pokud je předchozí segment označen jako řeč a současně je energie segmentu nad daným prahem. • Označení jako řeč – Současný segment je označen jako řeč, pokud jsou předchozí dva segmenty označeny jako řeč a současně je rozdíl energie mezi současným a předchozím segmentem menší než daná prahová hodnota. • Označení jako šum – Současný segment je označen jako šum, pokud je předchozích 10 segmentů označeno jako šum a současně je rozdíl energie mezi současným a předchozím segmentem menší než daná prahová hodnota. • Označení jako šum – Současný řečový segment je označen jako šumový pokud je jeho energie menší než daná prahová hodnota a současně nebyl proveden krok 1 nebo krok 2. Vylepšení podle dodatku III Podle [29] bylo u detektoru VAD G.729 pozorováno několik nedostatků: časté selhání v průběhu klasifikace u úvodních částech signálu s nízkým SNR nebo výrazné zpomalení detekce řeči u silně zarušených signálů. Tyto nedostatky jsou vyřešeny specifikacemi uvedenými v tomto dodatku, které pouze upravují parametry detektoru ovlivňující sekundární rozhodnutí. Kapitola 3 Cíle práce, motivace 3.1 Motivace Hlavní motivací této práce je prostudovat a srovnat algoritmy detekce řečové aktivity. V tichém prostředí je úloha detekce řeči jednoduchá a je dosahováno velmi dobrých výsledků. Bohužel v hlučném prostředí jde o úlohu, která dosud nebyla uspokojivě vyřešena a je zde prostor pro vylepšení stávajících postupů, či vývoj nových algoritmů. V následujících bodech jsou rozebrány vlastnosti VAD, jejichž vylepšení není jednoduché. Další motivací této práce je prostudovat možnosti vylepšení VAD v těchto problematických oblastech. • Schopnost přesného určení hraničních bodů promluvy je asi nejdůležitější vlastností detektorů řečové aktivity. Při vysokém odstupu signálu od šumu a pečlivé artikulaci lze nalézt hraniční body promluvy poměrně přesně, nicméně tato přesnost je ovlivněna akustickým pozadím, rušením, či nedokonalou artikulací. Obecně lze říci, že je velmi obtížné přesně definovat začátek a konec promluvy v případech, kdy jsou na začátku či konci promluvy neznělé okluzivy (p, t, k) nebo slabé neznělé frikativy (f, s, š, ch). Problémy způsobují také znělé okluzivy (b, d, k), znělé frikativy (v, z, ž, h) a nosní souhlásky (m, n, ň) na konci promluvy [59]. • Jedním z důležitých problémů je snížení přesnosti detektoru řečové aktivity v rušném prostředí, například v kanceláři, v jedoucím automobilu, na ulici nebo v technologických prostorech. Důvodem tohoto zhoršení je nízké SNR prostředí. Detekce řeči se zdá téměř nemožná za okolností, kdy je řeč utopená v okolním šumu. Někdy je šum tak silný, že ani člověk není schopen rozlišit řeč v přítomném hluku. Řešením této problematiky se zabývá robustní klasifikace řeči, která je středem zájmu mnoha vědeckých pracovišť. Robustní klasifikátor funguje nejen v tichém, ale i v rušném prostředí. Jedna z možných definic robustního VAD by mohla znít takto: “VAD je robustní, jestliže dosahuje v rušném prostředí stejně kvalitní rozhodnutí, jako v tichém prostředí”. Znamená to, že bude stejně klasifikovat čistou i zarušenou řeč. Existuje mnoho různých způsobů robustní klasifikace. V tomto procesu není jednoduché správně detekovat šum a současně zabránit chybné detekci částí řeči. Například detektor, který by veškerý řečový signál označil jako šum, by dosáhl nejlepší možné úspěšnosti v detekci šumu, byl by ovšem nepoužitelný. Při nastavování detektorů je často nutné volit kompromis mezi správnou detekcí řeči a správnou detekcí šumu. • Dalším aspektem algoritmu VAD je jeho možnost využití v aplikacích fungujících v reálném čase. Například u VAD využívající prahování energie řečového signálu 23 24 KAPITOLA 3. CÍLE PRÁCE, MOTIVACE toto není problém, bohužel však tento algoritmus není robustní. Naopak robustní algoritmy mohou být výpočetně velmi náročné a jejich využití v reálných aplikacích je omezené. Úkolem je nalezní kompromisu mezi robustností algoritmu a jeho výpočetní náročností. • Důležitou vlastností VAD je také možnost jejich skutečné realizace a využití. Některé postupy detekce řečové aktivity dosahují poměrně přesné a robustní výsledky, nicméně v případě, že je použitý algoritmus příliš složitý, může složitost implementace zabránit jeho rozšíření. Naopak jednoduše implementovatelné detektory řečové aktivity se můžou velmi rychlé rozšířit, i když jejich výstup není příliš robustní, typickým příkladem je rozšířenost jednoduchého energetického VAD. • Pro skutečné aplikace je důležitá nezávislost detekce řečové aktivity nejen na rušném prostředí, ale i na dalších aspektech promluvy nebo nastavení a vlastnostech detektoru řečové aktivity. Detektor by neměl být závislý na mluvčím, či samotném obsahu dialogu. Stejně tak by VAD neměl záviset na nějakém konkrétním šumu a měl by fungovat při libovolném vstupu. Měl by poskytovat stabilní výstup v nejrůznějších podmínkách, přičemž by za stejných okolností mělo být dosaženo srovnatelných výsledků. Určitým ospravedlním případné závislosti by mohla být větší úspěšnost detektoru za daných podmínek. 3.2 Vlastní cíle práce Na základě diskutovaných skutečností v předchozích částech jsem si stanovil následující cíle mé práce • Analyzovat možnosti využití Gaussovských směsových modelů pro úlohu detekce řečové aktivity a navrhnout detektory řečové aktivity na jejich bázi. • Nalézt způsoby využití skrytých Markovovských modelů pro detekci řečové aktivity a navrhnout detektory řečové aktivity na jejich bázi. Teorie skrytých Markovovských modelů zpřístupňuje poměrně široké možnosti, jak k dané úloze přistupovat a jak ji vhodně vyřešit. • Optimalizovat nastavení navržených detektorů řečové aktivity. Nastavení detektorů řečové aktivity může podstatně ovlivnit výslednou přesnost detekce řečových nebo neřečových úseků. Ovlivňuje také robustnost a úspěšnost v různých prostředí. Výsledně je možné jednoduchou úpravou nastavení získat detektor řečové aktivity vhodný pro různé aplikace v reálném prostředí. • Pro řešenou úlohu existují již delší dobu poměrně běžně používané algoritmy a nástroje. Aby bylo možné dokázat přínos této práce, je nutné objektivně srovnat navržené detektory s běžně používanými VAD. • Jedním z důvodů pro zkoumání nových přístupů k detekci řečové aktivity je snaha o získání robustního VAD. Proto je nutné provést analýzu spolehlivosti detektorů řečové aktivity v různém prostředí a za různých podmínek. Pomocí této analýzy je možné vyhodnotit nejen robustnost VAD, ale také určit výsledné možnosti uplatnění navrženého algoritmu. 3.3. OBSAH PRÁCE 25 • Jelikož účelem této práce je též vzájemně objektivně srovnat přesnost prezentovaných VAD s běžně používanými VAD, bylo nutné získat, či vytvořit nástroje, které by to umožnily. Proto je nutné vytvořit platformu pro objektivní zhodnocení detektorů řečové aktivity. • Na řečovou databázi určenou pro experimenty s detektory řečové aktivity jsou kladeny některé specifické požadavky, které bohužel nesplňovala žádná s dostupných databází primárně určených pro úlohy v rozpoznávání řeči. Bylo tedy nutné vytvořit databázi pro detekci řečové aktivity. 3.3 Obsah práce V této kapitole byly stručně zmíněny základní problémy, které se mohou naskytnou při automatické detekci řečové aktivity, a nastíněné směřování výzkumu, které by mělo vést k důkladnější analýze a k řešení problému pomocí skrytých Markovových modelů. V následujícím textu budou podrobně prezentovány výsledky této práce, které jsou rozčleněny do kapitol s následujícím obsahem. V předchozí kapitole 2 byla definovaná úloha detekce řečové aktivity, popsány typické přístupy k řešení problému a podrobně popsán současný stav problematiky. V kapitole byly také uvedeny základní termíny a principy, které jsou používány ve zbytku této práce. Ve 4. kapitole bude popsána platforma, která byla vytvořená a následně využita pro provedení prezentovaných experimentů. Součástí této kapitoly je také popis kritérií a implementovaných nástrojů určených pro objektivní zhodnocení a srovnání detektorů řečové aktivity. Kapitola 5 prezentuje vytvořené testovací databáze, které byly vybrány a automaticky nebo manuálně upraveny pro účely vyhodnocování úspěšnosti detektorů řečové aktivity v různých podmínkách. V 6. kapitole je popsán návrh detektoru řečové aktivity založený na využití GMM. Dále jsou v této kapitole prezentovány experimenty provedené s tímto VAD. Jsou ukázány také výsledky experimentů využívající různé parametrizace řečového signálu. Kapitola 7 podrobně rozebírá principy navržených HMM detektorů, srovnává jejich výhody a nevýhody a obsahuje popis experimentů, které byly provedeny pro důkladnou analýzu a srovnání navržených VAD za různých reálných nebo simulovaných podmínek. V 8. kapitole jsou popsány experimenty, které vzájemně srovnávají všechny prezentované detektory řečové aktivity dohromady s referenčními VAD, které jsou běžně používané v reálných aplikacích. Hlavní závěry a přínosy této práce jsou prezentované a diskutované v poslední 9. kapitole. Jsou zde navrženy i body, kam by měl směřovat budoucí výzkum na zadané téma. 26 KAPITOLA 3. CÍLE PRÁCE, MOTIVACE Kapitola 4 Základní experimentální setup V této kapitole jsou popsáný použité nástroje pro získání parametrů řečového signálu, trénování modelů, výsledné vyhodnocení úspěšnosti VAD a výpočet SNR. Dále jsou zmíněné implementace prezentovaných GMM a HMM detektorů řečové aktivity a také referenčních VAD – kepstrálního detektoru a detektoru podle specifikace G.729. Nakonec jsou uvedena data, která byla použita pro trénování modelů a testování výsledných VAD. 4.1 Získávání parametrů řečového signálu Vhodný výběr parametrů je stěžejní pro libovolnou aplikaci zabývající se zpracováním řečového signálu a v této práci je tomuto problému věnován poměrně široký prostor. Jako příznaky popisují řečový signál byly pro GMM a HMM detektory použity různé parametrizace většinou používané při rozpoznávání řeči vždy s délkou okénka 32 ms a krokem 10 ms • MFCC – 12 mel-frekvenčních kepstrálních koeficientů a energie, spolu s dynamickými delta a akceleračními koeficienty, • RSPLP – 21 spektrálních percepčně lineárně prediktivních koeficientů RASTA, 21 delta a 21 akceleračních koeficientů, • RCPLP – 13 kepstrálních percepčně lineárně prediktivních koeficientů RASTA zahrnujících 0-tý koeficient, 13 delta a 13 akceleračních koeficientů, • SPLP – 21 spektrálních percepčně lineárně prediktivních koeficientů dohromady s 21 delta 21 akceleračními koeficienty, • CPLP – 13 kepstrálních percepčně lineárně prediktivních koeficientů zahrnujících 0-tý koeficient, 13 delta a 13 akceleračních koeficientů, • DCTC – 13 kepstrálních koeficientů vypočtených pomocí diskrétní kosínovy transformace (DCT) zahrnujících 0-tý koeficient, • LPC – 13 kepstrálních koeficientů vypočtených pomocí lineární predikce zahrnujících 0-tý koeficient, • LPA – 12 koeficientů lineární predikce, 27 28 KAPITOLA 4. ZÁKLADNÍ EXPERIMENTÁLNÍ SETUP • F0ZCRE – kombinace jednoho koeficientu základního hlasivkového tónu, jednoho koeficientu počtu průchodů nulou a koeficientu energie. V uvedeném výčtu se na levé straně vždy objevuje označení parametrizace, které je následně využíváno v přehledových tabulkách v experimentální části. Teoretický popis používaných koeficientů je popsán v předchozích kapitolách 2.6.1, 2.6.3, 2.6.4, 2.6.7, 2.6.8, 2.6.9, 2.6.11 a 2.6.12. Využité parametrizace se liší především způsobem využití informace v zarušeném prostředí, proto mohou zásadně ovlivnit úspěšnost VAD v hlasitém prostředí a tím i zvýšit jeho robustnost. Naopak nevýhodou bývá někdy vyšší výpočetní náročnost. Pro výpočet uvedených parametrizací signálu bylo použito několik různých nástrojů. Mel-kepstrální koeficienty MFCC byly získány pomocí nástroje HCopy z balíku HTKTool [97]. Kepstrální koeficienty DCTC a LPC a koeficienty lineární predikce byly vypočteny pomocí nástroje CTUCopy [18]. Pomocí toolboxu Rastamat [70] pak byly získány spektrální a kepstrální percepčně lineární koeficienty – SPLP, CPLP, RSPLP, RCPLP. Pro výpočet frekvence základního hlasivkového tónu byl použit robustní algoritmus RAPT [76], jehož implementace je součástí nástrojů v toolboxu VOICEBOX [9]. Kombinace různých koeficientů a převody mezi formáty z programů Matlab a HTKTool byly realizovány pomocí vlastních nástrojů, které jsou součástí balíku VADToolkit [80]. 4.2 Kritéria Detektory řečové aktivity jsou v této práci testovány pomocí kriterií, s nimiž lze objektivně posuzovat typ a velikost chyby detekce přítomnosti řeči a které vychází z kritérií uvedených v [66] a [51]. Předpokládejme, že je k dispozici řečový signál o délce N, který byl klasifikován pomocí detektoru řečové aktivity. Výstup detektoru řečové aktivity je označen jako vad(t), kde t přísluší segmentu signálu. Referenční klasifikace, která je většinou získávána pomocí ručního anotování, je pak značena jako ref(t). Je-li znám výstup VAD a jeho referenční klasifikace, pak mohou být definována následující kritéria. 4.2.1 Základní kritéria Tyto kritéria jsou založena na jednoduchém sečtení špatných rozhodnutí, většinou se rozlišují špatná rozhodnutí v celém signálu, v řeči a v šumu • ERR (ERror Decision Rate) – celková relativní četnost chyby klasifikace je definováno jako N 1 X |ref(t) − vad(t)| ERR = N t=0 (4.1) • ERS (ERror Decision in Speech) – relativní četnost chyby klasifikace řečových segmentů je vypočítávána na základě následujícího vztahu N 1 X |ref(t) − vad(t)| · ref(t) ERS = N t=0 (4.2) • ERN (ERror Decision in Noise) – relativní četnost chyby klasifikace šumových segmentů je počítána pomocí vztahu 4.2. KRITÉRIA 29 N 1 X |ref(t) − vad(t)| · (1-ref(t)) ERS = N t=0 (4.3) Z uvedených definic vyplývá, že platí následující vztah mezi relativními četnostmi chyby klasifikace šumových a řečových segmentů ERR = ERS + ERN. 4.2.2 Rozšířená kritéria Na základě základních kritérií si lze udělat odpovídající představu o spolehlivosti testovaného VAD. Nicméně tato kritéria přesně nepopisují způsob selhání detektoru řečové aktivity. Například přesná hranice mezi segmentem řeči a ticha není někdy zcela zřejmá, a ani zkušený anotátor není schopen tuto hranici přesně určit. V důsledku lze pak tvrdit, že chyba klasifikace velmi blízko k přechodu mezi řečí a šumem není podstatná. Proto je vhodné použít rozšířená kritéria, která objektivně vyhodnocují také způsob selhání VAD a rozliší i nesprávné oříznutí či přesah začátku nebo konce řečového úseku. V následujících bodech jsou popsány jednotlivá rozšířená kritéria. Matematický popis těchto chyb by nebyl triviální, proto je vhodné si udělat představu na základě ilustrace 4.1, kde jsou všechny typy rozšířených chyb ilustrovány na základě vyobrazení skutečného průběhu přítomnosti řeči a výstupů třech různých VAD. • SDN (Speech Detected as Noise) – relativní četnost chyby uprostřed řečového segmentu, chyby na začátku a konci segmentu nejsou zahrnuty, • NDS (Noise Detected as Speech) – relativní četnost chyby uprostřed šumového segmentu, chybné určení počátku a konce segmentu neovlivňuje hodnotu chyby, • OVF (OVerlap at the Front) – tato chyba vznikne, když je detekován začátek řečového segmentu dříve, než se ve skutečnosti vyskytuje, • OVB (OVerlap at the Back) – tato chyba značí chybné prodloužení řečové segmentu, tzn. že řeč již skončila, ale je stále chybně detekována, • TRF (TRuncation at the Front) – tato chyba indikuje, že zatímco začala řeč, tak detektor řečové aktivity ji stále klasifikuje jako šum, • TRB (TRuncation at the Back) – tato chyba značí předčasnou nesprávnou klasifikaci řeči jako šum, • MIS (MIssed Speech) – chyba indikuje, že byl chybně vynechán celý blok řeči, • MIN (MIssed Noise) – tato chyba vznikne, když je nesprávně vynechán celý blok šumu. Pro správnou interpretaci významu chyb je vhodné si uvědomit, že mezi nimi platí následující vztahy ERS = TRF + SDN + TRB + MIS, ERN = NDS + OVF + OVB + MIN. 30 KAPITOLA 4. ZÁKLADNÍ EXPERIMENTÁLNÍ SETUP replacements ref(t) TRF SDN TRB vad1 (t) vad2 (t) vad3 (t) OVF NDS OVB MIN MIS Obrázek 4.1: Ilustrace kritérií vyhodnocující detektory řečové aktivity Uvedené kritéria jsou implementována jako nástroj Vadcritstd, který je napsán v jazyce C++. Je ovladatelný z příkazové řádky a je obsažen v balíku VADToolkit [80]. Na rozdíl od implementace uvedené v [51] je nástroj Vadcritstd rozšířen i o kritéria používaná v jiných publikacích [54] a také o možnost vyhodnocení úspěšnosti klasifikátoru pomocí ROC křivky. Při srovnávání dosažených výsledku s výsledky prezentovanými v různé literatuře je někdy možné se setkat i s jiným značením typu chyb [19, 6] • FEC (Front End Clipping) – ořezání začátku řečového segmentu, tzn. FEC = TRF, • MSC (Mid Speech Clipping) – ořezání uprostřed řečového segmentu v důsledku nesprávné klasifikace řeči jako šum, tj. MSC = SDN+TRB + MIS, • NDS (Noise Detected as Speech) – odpovídá stejně nazvanému typu chyby, • OVER – výstup VAD stále indikuje řeč, ale reference již značí šum, tzn. OVER = OVB. 4.3 Další vytvořené nástroje Součástí této práce je také implementace dále zmiňovaných detektorů řečové aktivity. Implementace byla provedena v jazyce C/C++. Byla zvolena modulární struktura tak, aby byla umožněna znovupoužitelnost již vytvořeného kódu. Výhodou využití jazyka C/C++ je pak následná větší rychlost programů a možnost portování na jiné platformy, například ARM XScale. Pro trénování modelů byla použita sada programů určená pro vývoj rozpoznávačů řeči založených na skrytých Markovových modelech - HTKToolkit [97]. V sadě jsou obsaženy nejen výše zmiňované programy pro předzpracování řečových signálů, ale 4.4. NASTAVENÍ KEPSTRÁLNÍHO A ENERGETICKÉHO VAD Skutečně řeč s Skutečně šum n Predikována řeč S a c 31 Predikován šum N b d Tabulka 4.1: Konfúzní matice – absolutní hodnoty také nástroje pro trénování, stavbu Markovovských modelů, rozpoznávání řeči a jiné nástroje. HTKToolkit byl využit pro trénování HMM a GMM modelů a pro dekódování řeči pomoci algoritmu cestování žetonů. Implementace VAD G.729 a VAD G.729 A.III je součástí přílohy B a dodatku III doporučení ITU-T [29]. GMM VAD, energetický a kepstrální VAD byly napsány v jazyce C/C++ a jsou dostupné na webových stránkách [80]. 4.4 Nastavení kepstrálního a energetického VAD Jako referenční VAD byl využit kepstrální a energetický detektor. Jelikož jde o detektory, které využívají prahování ke klasifikování promluvy, bylo nutné korektně nastavit konstanty využívané pro výpočet hodnoty prahu. V literatuře se lze většinou setkat s tvrzením, že daná konstanta byla nastavena na základě empirických zkušeností. Přesná hodnota prahovací konstanty je ovšem většinou vhodná pouze pro klasifikaci signálů nahraných pouze v daném prostředí. Dále je popsán způsob optimálního nastavení prahovací konstanty pomocí ROC křivky, který byl využit v této práci. 4.4.1 ROC křivka ROC1 křivka je nástroj, který umožňuje vizualizaci, organizaci a výběr vhodného klasifikátoru v závislosti na jeho přesnosti [16]. Detekce řečové aktivity je klasifikační problém, kde je ke každému vektoru parametrů řečového signálu známá příslušnost do množiny {s, n}, kde prvek s představuje řeč a prvek n šum. Klasifikátor pak predikuje každému vektoru parametrů příslušnost k řeči nebo šumu, tj. do množiny predikovaných tříd {S, N }. Pro takový klasifikátor existují pro danou instanci vektoru parametrů pouze čtyři možné výstupy značené jako {a, b, c, d}. Pokud jde o instanci řeči a daná instance je klasifikována jako řeč, pak se instance započítá do množiny a, pokud je klasifikována jako šum, započítá se do množiny b. Pokud jde o instanci šumu a ta je klasifikována jako šum, instance se započítá do množiny d. Pokud je ale klasifikována jako řeč, pak patří do množiny c. Velmi často se však používají relativní četnosti, kde prvky z množiny a jsou značeny jako senzitivita, TP – správná pozitivita, prvky z množiny b jako FP – nesprávná pozitivita, prvky z množiny c jako FN – nesprávná negativita a množina d jako specifita, TN – správná negativita. Přehledně lze tyto hodnoty vyjádřit pomocí tabulky 4.1 a 4.2. Pro relativní hodnoty pak platí následující vztahy pro senzitivitu TP = pro nesprávnou pozitivitu 1 Receiver Operating Characteristics a , a+b 32 KAPITOLA 4. ZÁKLADNÍ EXPERIMENTÁLNÍ SETUP Skutečně řeč s Skutečně šum n Predikována řeč S TP FN Predikován šum N FP TN Tabulka 4.2: Konfúzní matice – relativní hodnoty FP = b , a+b FN = c , c+d TN = d . c+d pro správnou negativitu pro specifitu Základem klasifikace kepstrálního detektoru je kontinuální míra vypočtena z kepstrálních vzdáleností, která se prahuje a na základě srovnání této kontinuální míry s hodnotou prahu probíhá přiřazení příslušné třídy. Pro danou hodnotu prahu na základě srovnání s referenční transkripcí lze vypočítat hodnoty TP, FP, FN a TN. Přičemž pro každou další hodnotu prahu lze získat hodnoty jiné. Podle [16] je ROC křivka graf vyjadřující vztah mezi senzitivitou TP a nesprávnou pozitivitou FP. V jiných pramenech je možné najít také ROC křivku definovanou jako vztah mezi senzitivitou a specifitou. Pro případ klasifikace přítomnosti řeči se jedná o dvourozměrnou křivku, obecně může být však vícerozměrná. ROC křivku lze získat pro každý klasifikátor, pokud je možné z něho získávat kontinuální míru. Výstup se získává pomocí prahování. 4.4.2 Optimalizace hodnoty prahu Pro klasifikátor platí, že čím má vyšší senzitivitu a nižší míru nesprávně klasifikovaných instancí, tím je přesnější. V ideálním případě by pak platilo, že senzitivita TP = 1 a FP = 0. Této vlastnosti se využívá pro optimalizaci hodnoty prahu l. Nejprve je získána ROC křivka na trénovací množině a dále se hledá takový práh, pro který platí, že vzdálenost příslušného bodu ROC křivky je nejblíže k levému hornímu rohu. Tzn. je hledáno takové b l pro které platí l̂ = argmin l p FP(l)2 + (1 − TP(l))2 . Při výpočtu optimálního prahu se vychází z ROC křivky získané průměrováním z více signálů. Nejpřímočařejší získání křivky ROC by spočívalo ve výpočtu hodnot FP(l) a TP(l) ke každému prahu l zvlášť. Takový postup je ale příliš výpočetně náročný, využívá se optimalizovaný postup využívající faktu, že podprahové hodnoty přísluší do stejné kategorie i při zvýšení úrovně prahu. Algoritmus je podrobně popsán v [16] a jeho implementace je součástí nástroje Vadcritstd [80]. 4.5. MNOŽINY SIGNÁLŮ 33 1 0.8 TP 0.6 0.4 0.2 ROC 0 0 0.2 0.4 0.6 0.8 1 FP Obrázek 4.2: ROC pro kepstrální VAD 4.4.3 Optimalizace prahu kepstrálního detektoru Při prvních experimentech s kepstrálním detektorem bylo zjištěno, že hodnota prahu l se pro dosažení optimální přesnosti může výrazně lišit pro různé úrovně šumu v signálu, a to v rozsahu od 0,3 pro tišší prostředí až po 0,7 pro rušné prostředí. Na základě výše popsané optimalizace prahu byla zjištěna hodnota l̂ = 0, 534 pro trénovací promluvy obsahující nahrávky z tichého i hlasitého prostředí. Příslušná ROC křivka je znázorněna na obrázku 4.2, kde je kroužkem vyznačen bod, který je nejblíže k levému hornímu rohu. 4.4.4 Optimalizace prahu energetického detektoru Energetický VAD pracuje na velmi podobném principu jako VAD kepstrální pouze s tím rozdílem, že se nepoužívá kepstrální vzdálenost, ale logaritmus energie. Optimalizace hodnoty prahu probíhala stejným způsobem jako u kepstrálního detektoru řečové aktivity. ROC křivka je jako celek více vzdálená od levého horního rohu, což značí, že využití logaritmu energie vede ke zhoršení schopností klasifikátoru. Nejbližší bod k levému hornímu rohu byl získán při hodnotě prahu ˆl = 0, 388. To je hodnota prahu vedoucí k nejlepším výsledkům na trénovacích datech. 4.5 Množiny signálů Detektory řečové aktivity založené na skrytých Markovovských modelech, gaussovských směsových modelech, další dále prezentované VAD, ale také rozpoznávače řeči využité pro získávání modelů fonému potřebují trénovací data. K vyhodnocení úspěšnosti jednotlivých detektorů řečové aktivity jsou navíc nutné testovací promluvy. Před návrhem trénovací a testovací množiny je nutné brát v potaz několik problémů. Jedním z nich je nutné zajištění dostatečné generalizační schopnosti klasifikátoru, tzn. že klasifikátor musí 34 KAPITOLA 4. ZÁKLADNÍ EXPERIMENTÁLNÍ SETUP 1 0.8 TP 0.6 0.4 0.2 ROC 0 0 0.2 0.4 0.6 0.8 1 FP Obrázek 4.3: ROC pro energetický VAD být schopný klasifikovat data, která nejsou obsažena v trénovací množině. Klasifikátor se nesmí příliš přizpůsobit dané trénovací množině, aby nenastal tzv. overfitting. Řešením je pak nutnost vyvážit komplexnost a flexibilitu klasifikátoru vzhledem k množství dat, která jsou k dispozici. Čím více je klasifikátor komplexní, tím obsahuje většinou více trénováním nastavitelných parametrů modelu a tím více trénovacích dat je potřeba. Druhým problémem je, že proces trénování je většinou velmi výpočetně a časově náročný a jeho náročnost vzrůstá s množstvím použitých dat a současně je získání většího množství dat poměrně náročný úkol, což jsou důvody proč z praktického hlediska je vhodné udržet spíše menší trénovací množinu. 4.5.1 Trénovací množiny Byly použity dvě různé trénovací množiny, které byly aplikovány za jiným účelem. První trénovací množina byla použita pro trénování fonémového rozpoznávače řeči, proto byla tato množina velmi velká. Bylo nutné natrénovat poměrně velké množství parametrů modelu. Množina byla vybrana z databáze CZKCC tak, aby se nepřekrývala s množinou CZKCCVAD, a obsahuje 30 h 2 min všech typů řečových položek ze všech prostředí obsažených v databázi CZKCC. Druhá menší trénovací množina byla použita pro trénování všech detektorů řečové aktivity a obsahuje 5 h 11 min nahrávek. Tato množina byla opět vybírána z databáze CZKCC a obsahovala všechny typy prostředí a řečových položek obsažených v databázi. 4.5.2 Testovací množiny Testovací množiny byly vybrány z dále popsané testovací databáze a obsahují signály z různými typy rušivého pozadí nebo promluvy obsahující různé neřečové položky. Podrobný popis typu prostředí nahrávek je popsán v kapitole 5. Přesné velikosti testovacích množin dohromady s jejich označením jsou shrnuty v následujících bodech 4.5. MNOŽINY SIGNÁLŮ • Prostředí stojícího automobilu (CZKCCVAD) – 14 min 16 sec. • Prostředí automobilu se zapnutým motorem (CZKCCVAD) – 4 min 14 sec. • Prostředí jedoucího automobilu (CZKCCVAD) – 7 min 25 sec. • Blinkr (CZKCCVAD) – 1 min 45 sec. • Klepání (CZKCCVAD) – 3 min 2 sec. • Řazení (CZKCCVAD) – 25 sec. • Slyšitelný dech (CZKCCVAD) – 58 sec. • Obracení listu (CZKCCVAD) – 1 min 19 sec. • Číslice (SPEECONVAD) – 29 min 50 sec. • Věty (SPEECONVAD) – 16 min 58 sec. • CAR2ECSVAD – 28 min 54 sec. 35 36 KAPITOLA 4. ZÁKLADNÍ EXPERIMENTÁLNÍ SETUP Kapitola 5 Testovací databáze K vyhodnocení prezentovaných detektorů je nutné nasbírat vhodné nahrávky řečových signálů, kde budou označeny řečové a šumové části promluvy. Na tuto testovací databázi je nutné klást nároky v souladu s požadavky na řečové databáze. Nejjednodušší by bylo použití některé z řečových databází dostupných na domácím pracovišti – katedře teorie obvodů ČVUT FEL. K dispozici byly různé řečové databáze, nicméně žádná z nich nesplňovala podmínky pro využití při vyhodnocení detektorů řečové aktivity. Hlavním nedostatkem byla nepřítomnost přesných hranic mezi řečovými položkami a šumem. Z tohoto důvodu byla vytvořená testovací databáze signálu, kde byly označeny chybějící časové hranice řečových položek. Popis návrhu a vlastností této databáze je předmětem této kapitoly. 5.1 Dostupné řečové databáze Pro vytvoření testovací databáze bylo možno využít několika stávajících řečových databází - CZKCC [49], CAR2ECS [53] a SPEECON [56]. Výhodou těchto hotových databází je, že splňují všeobecné požadavky, kladené na řečové databáze, jako jsou například formáty řečových signálů, nároky na zastoupení mluvčích v databázi, či obsažení širokého množství různých typů řečových položek. Pro testování detektorů řečové aktivity je také důležitá přítomnost nahrávek z různých prostředí. Jejich nevýhodou je pak skutečnost, že jsou určené především pro aplikace v rozpoznávání řeči. Řečové databáze obsahují pouze transkripce posloupností slov, ale neobsahují časové značky začátků a konců nahraných promluv. Pro zhodnocení úspěšnosti rozpoznávače řeči je přítomnost transkripce bez označení hranic řečových položek dostatečná, protože výstupem rozpoznávače řeči je také posloupnost rozpoznaných slov a vyhodnocení probíhá na základě srovnání těchto slovních posloupností. Pro vyhodnocení úspěšnosti VAD je nutné znát přesné hranice řečových položek, protože díky nim je možné srovnat výstup testovaného VAD s referenční transkripcí obsaženou v testovací databázi. Referenční transkripce se převádí na posloupnosti znaků identifikující klasifikovaný segment promluvy jako řeč nebo šum. Tato posloupnost je pak přímo srovnávána s výstupem zkoumaných detektorů řečové aktivity. 37 38 KAPITOLA 5. TESTOVACÍ DATABÁZE Transkripce pět osum osum Zarovnání pět osum osum VAD 0 0 1 1 1 0 0 0 1 1 1 1 0 0 1 1 1 1 0 Obrázek 5.1: Transkripce řeči 5.2 Návrh databáze pro detekci řečové aktivity Pro návrh databáze určené pro vyhodnocení detektorů řečové aktivity by se měly zohlednit stejné nároky, jaké jsou kladeny na řečové databáze určené pro rozpoznávání řeči, které musí zohledňovat maximální pokrytí slovníku k rozpoznávání, variabilitu mluvčích, všech potřebných hlásek, slabik, apod. Nejvhodnější je tedy využít stávající řečové databáze a s určitým minimálním úsilím ji doplnit tak, aby je bylo možno využít také pro vyhodnocení detekce řečové aktivity. Vytvoření databáze se pak zredukuje do dvou kroků – vhodného výběru řečových nahrávek a přidání chybějících hranic řečových položek. 5.3 Výběr nahrávek Výběr testovacích množin byl proveden v souladu s nároky kladenými na správné testování detektorů řečové aktivity, které jsou shrnuty v následujících bodech • Množství dat – velikost množiny musí být dostatečně velká, aby výsledky byly statisticky relevantní. • Různé šumové pozadí – přesnost detekce řečové aktivity se výrazně liší v závislosti na okolním pozadí. V testovacích množinách by proto měly být obsaženy nahrávky z různých přesně definovaných prostředí. • Různorodost promluv – v promluvách by měly být obsaženy řečové položky vystihující všechny aspekty řeči, tak aby testy mohly odhalit závislost přesnosti detekce řečové aktivity na určitých řečových položkách, popřípadě potvrdit možnost obecného využití testovaných detektorů řečové aktivity. 5.4 Hranice řečových položek Časové hranice řečových položek mohou být přidány buď automaticky nebo ručně. Jednodušší je ruční značení, nicméně tento postup je časově velmi zdlouhavý. Je však možné předpokládat, že takto získané ohraničení řečových položek bude velmi přesné. Největší nevýhodou je pak v podstatě nemožnost zpracování většího množství dat. 5.5. TESTOVACÍ MNOŽINY 39 Pro automatické přidání časových značek lze využít proces zarovnání pomocí skrytých Markovovských modelů. Jde o poměrně standardní proces založený na zarovnávání natrénovaných modelů fonémů získaných z ortografické transkripce podél značkované promluvy. Výhoda tohoto postupu je, že umožňuje zpracování velkého množství dat. Nevýhodou je nepřesné umístění značek, což ovšem nemusí vždy vadit, protože jsou většinou posunuty pouze o vzdálenosti odpovídající chybnému zarovnání fonémů, a tak je celková chyba dostatečně nízká. 5.5 Testovací množiny V souladu s výše uvedenými body byly vybrány tři množiny, které dohromady obsahují cca 3 hodiny ručně nebo automaticky olabelovaných promluv. Předpokládáme, že takovéto množství dat je dostatečné pro dosažení statisticky relevantních výsledků. Ve vybraných signálech je zahrnuto 5 různých prostředí (stojící automobil s vypnutým motorem a se zapnutým motorem, jedoucí automobil, kancelářské prostředí, veřejnost, prostředí zábavy) a mnoho promluv z 5 různých řečových tříd (číslice, příkazy, jména, věty). Jednotlivé množiny byly získány z databází CZKCC, CAR2ECS a SPEECON a jsou podrobně popsány v následujících odstavcích. 5.5.1 Databáze CAR2ECS a množina CAR2ECSVAD Databáze CAR2ECS je řečová databáze určená pro využití v oblasti redukce šumu v automobilovém prostředí. Tato databáze obsahuje cca 3.4 hodin nahrávek z prostředí jedoucího automobilu (62 mluvčích) a stojícího automobilu s vypnutým motorem (54 mluvčích) a jsou v ní zahrnuty různé typy položek – izolované a spojené číslice, jména a příjmení, příkazy, příkazové věty, jména měst a věty. Dále obsahuje blok samotných rušivých signálů z auta zahrnujících tři základní typy rušivého pozadí • stacionární – jízda konstantní rychlostí, bez přeřazení, obvykle po hladkém povrchu, • nestacionární, relativně pomalé změny – typicky zrychlování či zpomalování bez přeřazení, • nestacionární s rychlými změnami – přeřazení, blinkr, klakson, hluk projíždějícího auta, jízda po dlážděném povrchu, apod. Z této databáze bylo učiněn výběr pouze z nahrávek z prostředí stojícího automobilu s vypnutým motorem, dohromady cca 30 minut, který byl označen jako množina CAR2ECSVAD. Ve zdrojové databázi nebyly obsaženy značky pro hranice promluv, proto byly přidány procesem zarovnání pomocí natrénovaných skrytých Markovovských modelů. Proces zarovnání zafungoval velmi dobře, protože byly použity pouze nahrávky z tichého prostředí. Zarušenější nahrávky mohou být získány pomocí umělého mixování nezarušených nahrávek a šumových nahrávek, které jsou součástí této databáze nebo jsou získané z jiných zdrojů. 5.5.2 Databáze SPEECON a množina SPEECONVAD Druhá zdrojová databáze byla vytvořena v rámci mezinárodního projektu SPEECON (“Speech Driven Interfaces for Consumer Devices”), jehož účelem bylo vyvinout hlasem 40 KAPITOLA 5. TESTOVACÍ DATABÁZE ovládaná rozhraní ke spotřebnímu zboží jako jsou televize, videorekordéry, mobilní telefony, PDA, navigace, informační kiosky a hračky. Byly nasbírány nahrávky v různých jazycích včetně češtiny a pro každý z nich byly shromážděny nahrávky od 600 mluvčích: 550 dospělých a 50 dětských mluvčích. Mluvčí byli vybíráni s respektem k rovnoměrnému zastoupení pohlaví a věku, v ideálním případě neprofesionální řečníci. Od českých dospělých mluvčích bylo získáno cca 181 hodin nahrávek ze 4 různých prostředí • kancelář – většinou klidnější prostředí, pokud je přítomen šum na pozadí, tak je většinou stacionární, • společnost, domov – domácí prostředí, rušnější, než kancelářské prostředí, šum je více zabarven a méně stacionární, může obsahovat hudbu a jiné zvuky, • veřejné prostranství – prostředí uvnitř budovy nebo venku, úroveň šumového pozadí je velmi těžce předvídatelná, • automobil – středně až velmi hlučné prostředí obsahující stacionární (motor) i nestacionární šumy (stěrače,...). Nahrávky obsahují poměrně široké spektrum položek včetně spontánní a čtené řeči, ta zahrnuje foneticky bohaté věty a slova, číslice, telefonní čísla, označení času, jména a jména měst, odpovědí ano/ne, emailové adresy a dále různé oborově specifické příkazy. Z řečové databáze SPEECON bylo vybráno celkem 48 minut nahrávek ze dvou různých skupin. První skupina obsahuje číslovky (31 minut) a druhá skupina obsahuje celé věty (17 minut). Ve výběru jsou zahrnuty všechna 4 prostředí obsažená ve zdrojové databázi. Časové značky byly přidány procesem zarovnání, pomocí kterého byly získány poměrně přesně umístěné značky hranic číslovek, nicméně získané zarovnání vět bylo nepřesné a muselo být ještě ručně upravováno. 5.5.3 Databáze CZKCC a množina CZKCCVAD Nakonec jako poslední zdroj nahrávek byla použita řečová databáze CZKCC, která byla vytvořena pro úlohy v oblasti rozpoznávání řeči v automobilovém prostředí. Obsahuje dohromady 98 hodin nahrávek od 300 různých mluvčích a skládá se z různých řečových položek – foneticky bohaté věty, číslovky, příkazy, jména, hláskované položky, nahraných ve 3 různých prostředích – stojící automobil s vypnutým motorem, stojící automobil se zapnutým motorem, jedoucí automobil. Výhodou této databáze je, že jsou k dispozici původní nesegmentované nahrávky, které nejsou u jiných databází k dispozici. Zatímco u ostatních řečových databází jsou promluvy členěny tak, že jeden segment nahrávky obsahuje pouze jednu řečovou položku s úvodní a koncovou pauzou, tak zde je možné vytvořit segmenty obsahující více řečových položek oddělených pauzou. Využívají se tak i části záznamu, které nejsou využívány u databází určených pro trénování rozpoznávačů řeči, naopak jsou záměrně odstraňovány. Pro testování VAD je ovšem vhodné tyto části využít, protože se pak takto rozsegmentované záznamy více přibližují reálné promluvě. Do množiny CZKCCVAD bylo vybráno celkem 107 minut nahrávek, ke kterým byly ručně doznačeny hranice promluv. Vycházelo se z původních nesegmentovaných záznamů a segmentace byla provedena tak, aby každý výsledný segment obsahoval více řečových položek oddělených pauzou, tak jak byl čten nahrávací formulář. Každý segment obsahuje průměrně 4 bloky řečové aktivity. Výběr se skládá z různých řečových položek, které jsou shrnuty v následující tabulce 5.1. 5.6. ANALÝZA TESTOVACÍCH MNOŽIN Kategorie Číslice Povely Jméno Celkem Počet [-] 2003 951 267 3221 41 Délka [s] 1005 668 209 1882 Tabulka 5.1: Řečové položky množiny CZKCCVAD Kromě značení řečových položek byly paralelně značeny informace o neřečových událostech probíhajících na pozadí promluvy. Ty se mohou, ale nutně nemusí časově překrývat s řečovými položkami. Souhrn všech typů značených neřečových událostí a počet výskytů jednotlivých událostí je v tabulce 5.2. Typ události Počet [-] Ticho 3477 Blinkr 53 Klepání 87 Řazení 13 Dýchání 12 Obracení listu 36 Jiné 104 Celkem 3782 Délka [s] 3907 107 89 40 5 150 209 4507 Tabulka 5.2: Neřečové položky množiny CZKCCVAD Promluvy byly vybrány ze všech prostředí obsažených ve zdrojové databázi. Nevýhodou zdrojové databáze bylo, že nebyla přesně značená příslušnost k prostředí. Bylo pouze známo, že úvodní část nahrávky byla zaznamenána ve stojícím automobilu a dále následují nahrávky v automobilu se zapnutým motorem a nakonec v jedoucím automobilu. Součástí prací spojených se vznikem množiny CZKCCVAD bylo také anotování typu prostředí. V tabulce 5.3 je přehled všech prostředí a počet segmentů příslušejících k danému prostředí. Prostředí Počet segmentů [-] stojící automobil s vypnutým motorem 511 jedoucí automobil 144 stojící automobil se zapnutým motorem 72 přechody mezi prostředími 35 Tabulka 5.3: Prostředí nahrávek množiny CZKCCVAD 5.6 Analýza testovacích množin Dohromady byly získány signály z většího množství různě rušných prostředí. Pro bližší představu o úrovní rušení byla provedena analýza úrovně šumu u všech vybraných množin. Standardním kritériem pro měření úrovně šumu je odstup signálu od šumu – SNR. V literatuře je možné se setkat s různými definicemi SNR, zde byla využita kritéria uvedena 42 KAPITOLA 5. TESTOVACÍ DATABÁZE (a) Stojící automobil (CZKCCVAD) (b) Zapnutý motor (CZKCCVAD) (c) Jedoucí automobil (CZKCCVAD) (d) Stojící automobil (CAR2ECSVAD) Obrázek 5.2: SSNR signálů v množině CZKCCVAD a CAR2ECSVAD v publikaci [52]. Na základě teoretických rozborů uvedených v publikaci [50] bylo zjištěno, že vhodnějšími kritérii jsou segmentální SNR – SSNR nebo aritmeticko segmentální SNR – ASNR. Zde byl využit odhad SSNR vypočtený s využitím kepstrálního detektoru řečové aktivity a exponenciálním průměrováním výkonu šumu v řečových pauzách podle vztahů 2 L−1 2 σ̂x,i − σ̂n,i 1 X · VADi , 10 · log SSNR= 2 K i=0 σ̂n,i 2 σ̂n,i ( 2 2 p · σ̂n,i + (1 − p) · σ̂x,i , jestliže VADi = 0 = 2 σ̂n,i−1 , jestliže VADi = 1, 2 σ̂x,i M −1 1 X 2 x [n] , = M n=0 i kde L je celkový počet segmentu signálu, K je počet segmentů s řečovou aktivitou, σ̂n2 odhad výkonu šumu, p je koeficient zapomínání a hodnota VADi nabývající hodnot 1 a 0, nese informaci o řečové aktivitě v i-tém segmentu. Prostředí stojícího automobilu se vyskytuje v množině CZKCCVAD a také v množině CAR2ECSVAD. Z rozložení SSNR, které jsou vypočtené a zobrazené do grafu na obrázcích 5.2a a 5.2d, je patrné, že signály obsažené ve výběru 5.2a jsou nahrávány v rušnějším prostředí, a proto je rozložení posunuté více doleva. Prostředí automobilu se zapnutým motorem je dle histogramu 5.2b přirozeně rušnější, než u stojícího automobilu a podobně, dle očekávání, vyšlo jako nejrušnější prostředí jedoucího automobilu, viz. histogram na 5.6. ANALÝZA TESTOVACÍCH MNOŽIN 43 obrázku 5.2c. Ve výběrech z databáze SPEECON jsou obsaženy nahrávky z různých prostředí od tiššího kancelářského až po nahrávky v jedoucím automobilu, čemuž odpovídá i jejich SSNR, viz. histogramy na obrázcích 5.3a a 5.3b, které se pohybuji v širokém intervalu od cca od -5 do 35 dB. Množiny signálů obsahující speciální neřečové události jsou poměrně malé a úroveň jejich zašumění lze vyčíst z histogramů na obrázcích 5.4a, 5.4b, 5.4c, 5.4d, 5.4e a 5.4f. Události slyšitelného blinkru nebo řazení se většinou objevují během jízdy, popřípadě u blinkru také ve stojícím vozidle se zapnutým motorem, čemuž odpovídá i nižší SSNR signálů. Naopak dýchání, či listování lze zaslechnout spíše ve stojícím vozidle nebo stojícím vozidle se zapnutým motorem. Během jízdy nejsou tyto události na nahrávkách slyšitelné ani pro anotátora. Popřípadě se tyto události vyskytovaly méně často. Nakonec s klapáním se lze setkat u nahrávek všech vyskytujících se prostředí. 44 KAPITOLA 5. TESTOVACÍ DATABÁZE (a) Věty (b) Číslovky Obrázek 5.3: SSNR signálů v množině SPEECONVAD (a) Blinkr (b) Dýchání (c) Řazení (d) Listování (e) Klapání (f) Jiné neřečové události Obrázek 5.4: SSNR signálů obsahující neřečové události Kapitola 6 Detekce na bázi GMM Tato kapitola se zabývá detektory přítomnosti řeči klasifikující řeč pomocí směsi Gaussových hustotních funkcí – GMM1 . Součástí této kapitoly je analýza vhodného výběru příznaků pro detekci přítomnosti řeči. Nejprve je uveden princip VAD, následuje experimentální část vedoucí k nalezení nejvhodnějších parametrů GMM, k analýze vlastností VAD a jeho chování v různě zarušeném prostředí. 6.1 Detekce přítomnosti řeči s GMM Základem použití GMM pro úlohu detekce přítomnosti řeči je předpoklad, že řeč a šum jsou tvořeny množinami nepřekrývajících se akustických tříd, které mají podobné statistické vlastnosti. Principem GMM detektoru přítomnosti řeči je modelování řeči a šumu pomocí akustických modelů, které jsou reprezentovány směsí Gaussovských hustotních funkcí. Jednotlivé třídy l ∈ {ticho, řeč} jsou tedy charakterizovány pomocí modelů λs pro řeč a λn pro šum tvořených M -složkovou směsí p(o|λl), pro každý vektor parametrů o tedy platí M X clm N (o; µlm ; Σlm ), (6.1) p(o|λl) = m=1 kde N (o; µ; Σ) je známá hustotní funkce normálního rozložení, tj. 1 1 e− 2 (o − µ)′ Σ−1 (o − µ), N (o; µ; Σ) = p n (2π) |Σ| (6.2) přičemž cm jsou váhové koeficienty směsi, µ je střední hodnota a Σ je diagonální kovarianční matice. Vše je znázorněno na obrázku 6.1, kde jsou ilustrovány příklady jednorozměrných bezsměsových rozdělení řeči p(o|λs) a šumu p(o|λn) a jejich průsečík o, který rozděluje podle hodnoty pravděpodobností množinu vektorů parametrů do dvou tříd. Známe-li pravděpodobnostní rozložení řeči p(o|λs) a šumu p(o|λn), je klasifikace poměrně jednoduchá. Každý vektor parametrů ot v čase t je klasifikován jako řeč, jestliže pro aposteriorní pravděpodobnosti platí p(λs|ot ) ≥ p(λn|ot), 1 Gaussian Mixture Model 45 46 KAPITOLA 6. DETEKCE NA BÁZI GMM p(o|λs) p(o|λs) o Vektory parametrů Obrázek 6.1: Ilustrace principu GMM v obraceném případě je vektor parametrů klasifikován jako šum. Pomocí Bayesova vzorce a předpokladu, že šum a řeč mají stejnou apriorní pravděpodobnost byl získán vztah vhodný pro detekci řečové aktivity, výstupem je vektor vad (t) obsahující informaci o přítomnosti, nebo absenci řeči, tj. ( 1 vad (t) = 0 pro p(ot |λs) ≥ p(ot |λn), pro p(ot |λs) < p(ot |λn). (6.3) Parametry každého GMM, tj. přesné hodnoty parametrů hustotních funkcí řeči p(o|λs) a šumu p(o|λn) se nastaví v rámci trénovacího procesu na posloupnosti vektoru parametrů O = {o1 , o2 , . . . , oT } tak, aby nejlépe vystihovaly danou třídu signálu. Cílem je tedy získat takové parametry modelů λ̂l směsi Gaussovských hustotních funkcí, pro kterou bude pravděpodobnost p(O|λl ) maximální, tzn. λ̂l = argmax P (O|λl). λl Pro trénovací účely je tedy nutné mít k disposici množinu signálů, u kterých je již dopředu známá klasifikace v jednotlivých časových okamžicích. Vhodným postupem trénování, který je použit i v prezentovaném VAD, je použití Baum-Welchova algoritmu (konkrétně implementovaného v sadě HTK nástrojů), který lze považovat za implementaci EM algoritmu. Klíčovou otázkou je volba počtu složek směsi Gaussovských hustotních funkcí, který není znám a je typickým předmětem optimalizace nastavení detektoru. Počet směsí by měl odpovídat počtu složek, ze kterých je signál složen. Zjištění optimální hodnoty počtu směsí je ponecháno na experimentální část této kapitoly. Jelikož uvedený algoritmus pracuje na bázi krátkodobé analýzy a klasifikace bez kontextu, výstupní detekce obsahuje velké množství krátkých a chybných zákmitů. Ty je možné odstranit pomocí vyhlazení na bázi mediánové filtrace, což je i poslední krok tohoto algoritmu. V dále testované GMM VAD byl použitý mediánový filtr 10-tého řádu. Jednotlivé kroky resp. funkční bloky trénování a detekce algoritmu na bázi GMM jsou znázorněny v přehledovém schématu na obrázku 6.2. 6.2. ANALÝZA VHODNÉ PARAMETRIZACE 47 ce Trénovací DB GMM Signály řeč Transkripce šum Signál Testovací DB Akustický model vad(t) Klasifikace Vyhlazení vad(t) GMM VAD Signály Vyhodnocení testu Transkripce Obrázek 6.2: Algoritmus GMM VAD 6.2 Analýza vhodné parametrizace Pro získání robustního VAD je nutné zajistit nejvhodnější parametrizační popis řečového signálu. Analýza byla provedena na řečové databázi CZKCCVAD. Kromě běžně používaných parametrizací v oblasti detekci řečového signálu byly analyzovány i parametrizace, které se spíše používají v úlohách rozpoznávání řeči. Určení vhodnosti parametrizace pro detekci přítomnosti řeči bylo provedeno pomocí vyhodnocení podobnosti mezi řečovými a neřečovými úseky. Řeč i šum jsou nejprve charakterizovány odhady parametrů normálního rozložení určených pomocí průměrných hodnot a standardních odchylek vypočtených z vektorů parametrů jednotlivých parametrizací. Pomocí určení podobnosti rozložení řeči a šumu u jednotlivých parametrizací je také možné vyhodnotit jejich vhodnost pro řešenou úlohu, přičemž se dá předpokládat, že vhodnější parametrizace budou mít rozdílnější rozložení řeči a šumu. Nejprve je diskutováno určení rozdílnosti pouze pomocí sledování jednotlivých hustot pravděpodobností, což je mírně subjektivní hodnocení, nicméně objektivní hodnocení pomocí vzdálenosti Kullback-Leibler je uvedeno dále. 6.2.1 Jednorozměrné parametrizace Základem velkého množství detektorů řečové aktivity jsou jednorozměrné parametry signálu jako logaritmus energie, počet průchodu nulou a frekvence základního hlasivkového tónu. Logaritmus energie Rozložení hustot pravděpodobností tohoto asi nejdůležitějšího parametru řeči je na obrazcích 6.3a, 6.3b a 6.3c, ze kterých vyplývá, že tento parametr velmi dobře diskriminuje řeč od šumu a to hlavně v tišším prostředí stojícího automobilu. To odpovídá teoretickým předpokladům. Je tedy velmi výhodný pro aplikace v méně rušném prostředí. 48 KAPITOLA 6. DETEKCE NA BÁZI GMM 0.25 0.4 Šum Řeč 0.2 Šum Řeč 0.25 0.15 0.1 P(Hodnota) 0.3 P(Hodnota) P(Hodnota) Šum Řeč 0.35 0.25 0.2 0.15 0.2 0.15 0.1 0.1 0.05 0.05 0.05 0 0 10 15 20 25 0 30 14 16 18 Hodnota 20 22 24 26 28 16 18 Hodnota (a) Stojící automobil 20 22 24 26 28 30 Hodnota (b) Zapnutý motor (c) Jedoucí automobil Obrázek 6.3: Rozložení energie Počet průchodů nulou Hustoty rozložení pravděpodobností pro ZCR jsou na obrázcích 6.4a, 6.4b, 6.4c, kde je vidět, že tento parametr není vhodný pro klasifikaci přítomnosti řeči v promluvách nahrávaných v tichém prostředí. V prostředí více zarušeném má však tento parametr větší vypovídající hodnotu. Zjištěné hustoty pravděpodobností plně korespondují s praktickým využitím, kdy je tento parametr často využíván ke zvýšení robustnosti čistě energetických detektorů. 0.0007 Šum Řeč 0.0006 0.0003 0.00025 0.0002 0.00015 0.0004 0.0003 0.0002 0.0001 0 0.0005 0.0004 0.0003 0.0002 0.0001 5e-05 0.0001 0 -4000 -1000 2000 5000 8000 11000 Hodnota 0 -2000 0 2000 4000 6000 8000 -1000 Hodnota (a) Stojící automobil Šum Řeč 0.0006 0.0005 P(Hodnota) P(Hodnota) Šum Řeč P(Hodnota) 0.0004 0.00035 (b) Zapnutý motor 0 1000 2000 3000 4000 5000 Hodnota (c) Jedoucí automobil Obrázek 6.4: Rozložení počtu průchodů nulou Základní hlasivkový tón Výstupem reálných implementací výpočtu periody základního tónu je nejen její hodnota, ale současně informace o znělosti promluvy, přičemž hodnota T0 nebo F0 je vypočtena pouze pro znělé části promluvy. Využitá implementace [9] měla na výstupu pro případ neznělé promluvy hodnotu 0 Hz. Dále popisované detektory řečové aktivity nejsou navrženy pro parametrizace, které mají na výstupu částečně binární hodnotu, proto byla informace o neznělosti promluvy modelována pomocí frekvence 1000 Hz s náhodným malým rozptylem. Zjištěné hodnoty fundamentálních frekvencí byly vypočteny pro nahrávky v databázi CZKCCVAD a na obrázcích 6.5a, 6.5c a 6.5c jsou vidět odhady jejich normálních dvousložkových hustot pravděpodobností. Z obrázků je vidět, že VAD využívající modely s takovýmto rozložením by v podstatě kopíroval rozhodnutí, které je již součástí výpočtu základního hlasivkového tónu a všechny neznělé úseky by označil jako šum. 6.2. ANALÝZA VHODNÉ PARAMETRIZACE Šum Řeč 0.003 0.0014 0.0015 0.001 P(Hodnota) 0.002 Šum Řeč 0.0016 0.001 P(Hodnota) P(Hodnota) Šum Řeč 0.0012 0.0025 49 0.0008 0.0006 0.0004 0.0012 0.001 0.0008 0.0006 0.0004 0.0005 0.0002 0 -500 0 0 -1000 -500 500 1000 1500 2000 2500 Hodnota 0.0002 0 0 -1000 -500 500 1000 1500 2000 2500 Hodnota (a) Stojící automobil 0 500 1000 1500 2000 2500 Hodnota (b) Zapnutý motor (c) Jedoucí automobil Obrázek 6.5: Rozložení F0 6.2.2 Vícerozměrné parametrizace Protože tyto parametrizace popisují segmenty signálu pomocí více koeficientů, tak i jejich hustoty pravděpodobností jsou vícerozměrné, což znesnadňuje nebo téměř znemožňuje nejen tyto hustoty zobrazit, ale také manuálně posoudit jejich schopnost separace řeči od šumu. Určitou představu je možné získat na základě sledování hustot pravděpodobností jednotlivých koeficientů. Na dále uvedených obrázcích nejsou tedy skutečné hustoty pravděpodobností, ale pouze jednorozměrná projekce získána pomocí výpočtu normy vektoru středních hodnot a rozptylů. Koeficienty lineární predikce Na základě obrázků 6.6a, 6.6b, 6.6c se jeví, že koeficienty lineární predikce umí výborně rozlišit šum od řeči pouze v tichém prostředí a v prostředí zapnutého motoru, který obsahuje pouze stacionární šum. V prostředí obsahujícím nestacionární šum jsou pak hustoty pravděpodobností již velmi podobné. Hodnota Šum Řeč P(Hodnota) Šum Řeč P(Hodnota) P(Hodnota) Šum Řeč Hodnota (a) Stojící automobil (b) Zapnutý motor Hodnota (c) Jedoucí automobil Obrázek 6.6: Rozložení koeficientů lineární predikce Kepstrální koeficienty Kepstrální koeficienty vykazují rozdílnější charakteristiky rozložení řeči a šumu, než vykazovaly koeficienty lineární predikce a jednorozměrné parametry. Jak je patrné na obrázcích 6.7a, 6.7b, 6.7c, 6.8a, 6.8b a 6.8c, jsou rozdíly patrné u všech sledovaných prostředí a to pro kepstrální koeficienty vypočítané pomocí diskrétní kosínovy transformace i pro LPC kepstrální koeficienty. Z obrázků 6.9a, 6.9b a 6.9c by tak vyplývalo, že melovské kepstrální koeficienty rozlišují řeč od šumu hůře než kepstrální koeficienty. Nicméně se domnívám, že v tomto případě je zkreslení způsobené projekcí do jednorozměrných charakteristik příliš veliké a je nutné se zaměřit na objektivnější posouzení pomocí K-L vzdálenosti. 50 KAPITOLA 6. DETEKCE NA BÁZI GMM Percepčně lineárně prediktivní koeficienty PLP koeficienty vykazují obecně větší rozdíly v charakteristikách šumu a řeči, než všechny ostatní dosud zmíněné parametrizace. Jak je vidět na obrázcích 6.10a, 6.10b a 6.10c, tak spektrální PLP koeficienty separují řeč od šumu velmi dobře a to hlavně v prostředí stojícího automobilu a automobilu se zapnutým motorem. Zdá se, že dokonce vykazují lepší schopnosti separace řeči od šumu, než mají kepstrální PLP koeficienty na obrázcích 6.11a, 6.11b a 6.11c. Percepčně lineárně prediktivní koeficienty RASTA Podle obrázků 6.12a, 6.12b a 6.12c se jeví spektrální PLP koeficienty RASTA jako teoreticky nejlepší parametrizace pro detekci řečové aktivity a to pro všechna sledovaná prostředí. O něco méně rozdílné charakteristiky řeči a šumu dosahují kepstrální PLP koeficienty, ty jsou zobrazeny na obrázcích 6.13a, 6.13b a 6.13c. Hodnota Šum Řeč P(Hodnota) Šum Řeč P(Hodnota) P(Hodnota) Šum Řeč Hodnota (a) Stojící automobil Hodnota (b) Zapnutý motor (c) Jedoucí automobil Obrázek 6.7: Rozložení DCT kepstrálních koeficientů Hodnota Šum Řeč P(Hodnota) Šum Řeč P(Hodnota) P(Hodnota) Šum Řeč Hodnota (a) Stojící automobil Hodnota (b) Zapnutý motor (c) Jedoucí automobil Obrázek 6.8: Rozložení kepstrálních koeficientů LPC Hodnota (a) Stojící automobil Šum Řeč P(Hodnota) Šum Řeč P(Hodnota) P(Hodnota) Šum Řeč Hodnota (b) Zapnutý motor Hodnota (c) Jedoucí automobil Obrázek 6.9: Rozložení Melovských kepstrálních koeficientů 6.2. ANALÝZA VHODNÉ PARAMETRIZACE Hodnota Šum Řeč P(Hodnota) Šum Řeč P(Hodnota) P(Hodnota) Šum Řeč 51 Hodnota (a) Stojící automobil Hodnota (b) Zapnutý motor (c) Jedoucí automobil Obrázek 6.10: Rozložení spektrálních PLP koeficientů Hodnota Šum Řeč P(Hodnota) Šum Řeč P(Hodnota) P(Hodnota) Šum Řeč Hodnota (a) Stojící automobil Hodnota (b) Zapnutý motor (c) Jedoucí automobil Obrázek 6.11: Rozložení kepstrálních PLP koeficientů Hodnota Šum Řeč P(Hodnota) Šum Řeč P(Hodnota) P(Hodnota) Šum Řeč Hodnota (a) Stojící automobil Hodnota (b) Zapnutý motor (c) Jedoucí automobil Obrázek 6.12: Rozložení spektrální PLP koeficientů RASTA Hodnota (a) Stojící automobil Šum Řeč P(Hodnota) Šum Řeč P(Hodnota) P(Hodnota) Šum Řeč Hodnota (b) Zapnutý motor Hodnota (c) Jedoucí automobil Obrázek 6.13: Rozložení kepstrálních PLP koeficientů RASTA 52 KAPITOLA 6. DETEKCE NA BÁZI GMM 6.3 Analýza parametrizací pomocí vzdálenosti KullbackLeibler Pro objektivní vyhodnocení rozdílnosti mezi pravděpodobnostními rozloženími lze použít vzdálenost Kullback-Leibler2 . Tato vzdálenost je míra určující rozdíl mezi dvěma hustotami pravděpodobností. Pro dvě hustoty pravděpodobností p(o) a q(o) je K-L vzdálenost definována jako DKL (p||q) = ˆ p(o)log O p(o) q(o) dx. Obecný výpočet K-L vzdálenosti je velmi složitá úloha a neexistuje analytické řešení, kromě speciálního případu, kdy p(o) a q(o) představují hustoty normálního N -rozměrného rozložení. V takovém případě je pn (o) = N (o; µn; Σn), qs (o) = N (o; µs ; Σs) a pro K-L vzdálenost platí 1 DKL (pn||qs ) = 2 ln detΣs detΣn + tr(Σ−1 s Σn ) + (µs − µn)Σ−1 s (µs − µ n) − N , kde tr() představuje součet prvků diagonální matice. Nevýhodou K-L vzdálenosti je, že to vlastně není míra, tzn. že není symetrická DKL (P ||Q) 6= DKl (Q||P ) a neplatí trojúhelníková nerovnost. Jako alternativa byla použita také symetrická varianta K-L vzdálenosti definovaná pomocí vztahu DKLS (p||q) = 1 (DKL (p||q) + DKL (q||p)) . 2 Bude-li představovat hustota pn (o) hustotu pravděpodobností šumu a qs (o) hustotu pravděpodobnosti řeči, pak lze získat K-L a symetrickou K-L vzdálenost pro jednotlivé parametrizace a prostředí. Ty jsou vypočteny a zobrazeny v tabulce 6.1. Hodnoty jsou setříděny tak, že ve spodní části tabulky jsou parametrizace, které by měly mít nejlepší schopnost rozlišit řeč od šumu a v horní části jsou pak parametrizace, které tuto schopnost mají horší. Jelikož K-L vzdálenost není skutečná míra, není možné tvrdit, že by číselný rozdíl mezi hodnotami měl odpovídat míře odlišnosti. Výsledná čísla zhruba odpovídají očekávatelné skutečnosti, že nejlepší schopnost diskriminace řeči od šumu vykazují parametry získané pomocí perceptivně lineárně prediktivní analýzy. Nejhorší schopnost rozlišení řeči od šumu pak má kombinace parametrů energie, fundamentální frekvence a počtu průchodů nulou, což potvrzuje také manuální analýza hustot pravděpodobností těchto parametrů. 2 Kullback–Leibler divergence 6.4. EXPERIMENTY Parametrizace F0ZCRE DCTC LPC LPA CPLP MFCC RCPLP SPLP RSPLP Vzdálenost K-LS K-L 5,3 3,4 10,2 9,0 11,2 9,5 21,7 12,0 30,5 26,2 32,8 27,6 41,0 29,8 305,6 87,5 348,4 92,5 (a) Stojící automobil 53 Parametrizace F0ZCRE DCTC LPC LPA MFCC CPLP RCPLP RSPLP SPLP Vzdálenost K-LS K-L 6,2 3,3 11,0 8,9 12,3 9,3 21,0 11,9 35,9 27,9 37,5 27,8 63,5 34,6 659,1 110,3 711,5 110,0 (b) Zapnutý motor Parametrizace F0ZCRE DCTC LPA LPC MFCC CPLP RCPLP SPLP RSPLP Vzdálenost K-LS K-L 2,8 2,3 8,0 7,5 9,3 7,9 9,3 8,3 25,9 23,6 26,4 23,8 41,2 29,4 138,9 66,9 199,0 74,3 (c) Jedoucí automobil Tabulka 6.1: Analýza podobnosti řečových a šumových úseku řeči pomocí vzdáleností Kullback-Leibler 6.4 Experimenty Testy by měly ověřit funkčnost navrhnutého VAD za přítomnosti různě hlasitého rušení a také v promluvách obsahujících různé typy neřečových událostí. Dále byl ověřen vliv parametrizace a dosažené reálné výsledky jsou srovnány s teoretickou vhodností parametrizace diskutované v předchozím odstavci. Součástí provedených experimentů bylo také hledání takových parametrů hustotní směsi, které by měly vést k lepším výsledkům klasifikace. 6.4.1 Vliv použité parametrizace V tabulkách 6.2a, 6.2b a 6.2c jsou uvedeny celkové chyby klasifikace ERR a chyby klasifikace v řečových segmentech pro všechny výše uvedené parametrizace testované na signálech z tiššího prostředí stojícího automobilu, stojícího automobilu se zapnutým motorem a z rušného prostředí jedoucího automobilu. Tabulky jsou setříděny podle velikosti celkové chyby klasifikace. Nejmenší chyby klasifikace bylo dosaženo v tišším prostředí pomocí melfrekvenčních kepstrálních koeficientů V prostředí jedoucího automobilu vedla k nejlepším výsledkům parametrizace promluvy pomocí kepstrálních koeficientů RASTA, což potvrzuje její vhodnost pro robustní klasifikaci. Porovnají-li se dosažené výsledky GMM VAD s předpokládanou schopností diskriminace řeči od šumu, tak jsou téměř ve shodě s úvodní analýzou, až na hodnoty dosažené pomocí spektrálních PLP koeficientů a spektrálních PLP koeficientů RASTA, které měly podle analýzy vést k nejmenší chybě klasifikace. Naopak podle analýzy méně vhodná kombinace koeficientů energie, ZCR a fundamentální frekvence vedla k průměrným výsledkům, což potvrzuje její skutečné rozšíření. Na základě zde dosažených výsledků budou v dalších experimentech upřednostňovány parametrizace, které vedly k menší chybě klasifikátoru. 54 KAPITOLA 6. DETEKCE NA BÁZI GMM Parame- ERR ERS trizace [%] [%] MFCC 12.4 4.0 RCPLP CPLP RSPLP F0ZCRE LPC DCTC SPLP LPA ± 7.9 ± 3.2 13.1 2.8 ± 7.6 ± 2.8 13.8 5.4 ± 7.9 ± 3.9 15.5 10.7 ± 6.2 ± 5.2 19.2 14.5 ± 13.3 ± 11.2 21.9 7.7 ± 14.6 ± 5.7 22.9 8.0 ± 14.7 ± 5.7 24.7 22.8 ± 14.3 ± 14.9 24.8 23.5 ± 10.8 ± 10.9 (a) Stojící automobil Parame- ERR ERS trizace [%] [%] RCPLP 6.9 5.1 ± 3.8 ± 3.7 8.7 6.1 ± 4.3 ± 3.4 9.4 6.4 ± 5.0 ± 3.7 MFCC CPLP F0ZCRE RSPLP SPLP LPA DCTC LPC 10.6 8.2 ± 6.3 ± 3.9 11.4 10.1 ± 4.4 ± 4.1 11.6 10.9 ± 5.1 ± 5.2 15.8 14.4 ± 6.6 ± 6.2 23.0 6.3 ± 24.2 ± 4.3 23.3 5.9 ± 25.4 ± 4.2 (b) Zapnutý motor Parame- ERR ERS trizace [%] [%] RCPLP 10.7 9.1 CPLP MFCC F0ZCRE RSPLP LPC SPLP DCTC LPA ± 4.7 ± 4.3 11.8 9.0 ± 4.7 ± 4.3 12.9 9.9 ± 5.2 ± 4.7 15.0 7.3 ± 11.5 ± 3.9 15.4 14.0 ± 4.9 ± 5.0 18.4 7.1 ± 17.9 ± 4.4 18.4 7.8 ± 22.1 ± 5.4 20.4 8.7 ± 18.1 ± 4.8 22.1 13.8 ± 12.5 ± 6.3 (c) Jedoucí automobil Tabulka 6.2: Vliv použité parametrizace na úspěšnost GMM VAD. 6.4.2 Optimalizace počtu směsí Jedním z parametrů GMM je počet směsí, které ji tvoří. V rozpoznávání řeči má tento parametr poměrně zásadní vliv na úspěšnost klasifikace, což vede k domněnce, že přesnější modelování rozložení pravděpodobnosti povede ke zlepšení klasifikace také u GMM VAD. Byl proto proveden experiment zaměřený na analýzu optimálního počtu směsí v GMM detektoru. Nejprve byl zvyšován počet směsí od 2 do 32, stejně u modelu šumu i řeči. Zjištěné hodnoty chyb pro všechny použité parametrizace jsou v tabulkách 6.3a, A.1 a 6.3b. Výsledky modelů s nulovým počtem směsí je v tabulce 6.2. Je vidět, že zvyšování počtu použitých směsí má vliv na výslednou chybovost detektorů. Dalo se očekávat, že použití většího počtu směsí povede k přesnějšímu modelování pravděpodobnostních rozložení a tím ke snížení celkové chybovosti ERR. Z výsledků vyplývá, že je takový trend vidět, ale není výrazný nebo se vyskytuje pouze při navyšování počtu směsí v určitých mezích a někdy vede navýšení počtu směsí dokonce ke zvýšení chyby ERR. Takové chování je možné vysvětlit tím, že vrcholy vícesměsových rozložení jsou většinou velmi blízko u sebe, a proto se ani zásadně nemění jejich tvar. Nicméně lze nalézt optimální počet směsí, který vede k nejlepším výsledkům detekce přítomnosti řeči v obou prostředích. Jako optimální nastavení se jeví použití 8mi směsí pro parametrizace MFCC, RCPLP a SPLP, 16 směsí pro CPLP a RSPLP. Tato nastavení byly následně použita při experimentech srovnávající prezentované a referenční detektory řečové aktivity. 6.4. EXPERIMENTY 55 MFCC RCPLP CPLP RSPLP SPLP Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS směsí [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] 2 11.9 6.8 13.3 7.1 12.3 7.2 20.5 10.4 15.1 8.7 ± 6.9 ± 4.1 4 8 16 11.4 6.5 ± 4.4 ± 8.0 ± 4.8 ± 9.2 ± 5.0 ± 10.7 ± 7.2 13.3 4.9 12.1 7.5 18.5 10.8 ± 7.6 ± 4.0 ± 7.4 ± 3.0 ± 8.2 ± 5.2 ± 7.7 ± 4.4 ± 10.9 ± 9.1 11.2 12.0 4.3 11.3 6.1 13.7 ± 7.3 ± 4.3 ± 7.0 ± 3.0 ± 8.0 ± 4.4 ± 6.7 11.3 11.6 4.2 11.5 6.9 12.8 ± 6.7 ± 3.0 ± 8.0 ± 5.1 ± 6.6 6.7 6.8 ± 7.4 ± 4.4 32 ± 6.6 11.2 6.4 ± 7.3 ± 4.3 12.1 4.7 11.4 6.4 14.5 ± 7.0 ± 3.2 ± 7.9 ± 4.5 ± 6.1 7.4 17.2 16.9 11.6 10.7 ± 3.4 ± 10.5 ± 8.4 6.6 17.3 12.0 ± 3.4 ± 10.8 ± 9.1 9.7 17.0 13.8 ± 3.9 ± 11.0 ± 9.9 (a) Prostředí stojícího automobilu MFCC RCPLP CPLP RSPLP SPLP Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS směsí [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] 2 12.2 7.7 12.6 11.8 11.9 7.5 11.9 7.6 16.8 5.3 ± 7.4 4 13.6 ± 4.3 ± 4.6 ± 4.8 ± 6.7 ± 4.3 ± 5.7 ± 3.9 ± 11.5 ± 3.2 6.0 10.3 8.6 11.3 5.3 11.7 8.2 17.6 5.2 ± 10.5 ± 3.4 ± 4.3 ± 4.2 ± 6.2 ± 3.4 ± 5.6 ± 4.1 ± 14.5 ± 2.8 8 11.8 ± 7.8 16 12.3 5.3 9.6 8.5 10.3 6.4 10.8 9.2 ± 3.3 ± 3.9 ± 4.0 ± 6.0 ± 3.8 ± 4.3 ± 4.4 5.1 9.7 9.0 10.0 6.1 11.3 9.7 12.0 6.2 ± 8.9 ± 3.6 14.7 5.2 ± 10.2 ± 3.5 ± 3.9 ± 4.2 ± 4.8 ± 3.7 ± 4.7 ± 4.4 ± 16.7 ± 3.6 32 11.0 ± 6.7 5.8 9.9 8.8 10.3 6.6 11.4 9.9 12.6 6.0 ± 3.3 ± 3.9 ± 4.0 ± 5.8 ± 3.8 ± 4.4 ± 4.4 ± 14.3 ± 3.7 (b) Prostředí jedoucího automobilu Tabulka 6.3: Analýza počtu směsí u GMM VAD v uvedených prostředích 6.4.3 Vliv rušného prostředí automobilu GMM VAD byl nejprve testován na nahrávkách z prostředí automobilu. Kompletní výsledky optimálně nastavených detektorů jsou v tabulce 6.4a pro prostředí stojícího automobilu a v tabulce 6.4b pro prostředí jedoucího automobilu. Pro každý záznam v tabulkách jsou uvedeny průměrné hodnoty a standardní odchylky. Testovány byly vždy VAD využívající perspektivní parametrizace, tzn. nejvhodnější pro danou úlohu podle předešlé analýzy. Je vidět, že nižší hodnoty celkových chyb klasifikace ERR byly dosaženy v prostředí jedoucího automobilu než v prostředí automobilustojícího. To je mírně překvapující. Nicméně důvodem by mohlo být složení trénovací množiny, ve které byly zastoupeny řečové nahrávky z obou prostředí. V tichém prostředí se jeví jako nejvhodnější použití parametrizace MFCC. Výsledky jsou zde velmi vyrovnané, kromě výsledků dosažených pomocí parametrizace SPLP, která vede k větší celkové chybě ERR. V prostředí jedoucího automobilu je dosaženo nejnižší chyby ERR díky využití kepstrálních koeficientů RASTA, přičemž chyba je způsobena především v řečových úsecích. To vyplývá z vyšší hodnoty ERS. U všech parametrizací lze také pozorovat zvýšenou hodnotu TRB, 56 KAPITOLA 6. DETEKCE NA BÁZI GMM Parame- ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN trizace [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] MFCC 11.2 6.7 4.5 0.7 4.0 1.9 0.0 0.7 1.7 1.4 0.7 ± 7.3 CPLP 11.5 ± 8.0 RCPLP 12.0 ± 7.0 RSPLP 12.8 ± 6.6 SPLP 16.9 ± 10.5 ± 4.3 ± 5.5 6.9 4.6 ± 5.1 ± 6.0 4.3 7.8 ± 3.0 ± 6.6 6.6 6.2 ± 3.4 ± 6.0 10.7 6.2 ± 8.4 ± 7.6 ± 1.9 ± 3.1 ± 2.6 ± 0.0 0.5 3.6 2.7 0.0 ± 1.9 ± 3.2 ± 3.3 ± 0.0 0.2 1.4 2.7 0.0 ± 0.5 ± 1.7 ± 2.6 ± 0.0 0.2 3.1 3.3 0.0 ± 0.6 ± 2.6 ± 2.9 ± 0.0 1.2 5.2 4.1 0.3 ± 2.9 ± 4.3 ± 5.0 ± 2.1 ± 2.7 ± 1.2 ± 3.6 0.6 1.7 1.6 ± 2.4 ± 1.2 ± 4.4 1.5 2.1 2.6 ± 3.0 ± 1.4 ± 4.5 0.7 2.1 2.5 ± 2.3 ± 1.5 ± 4.8 0.6 2.0 2.7 ± 2.1 ± 1.5 ± 6.8 ± 1.3 0.7 ± 1.3 1.5 ± 1.8 1.0 ± 1.5 1.0 ± 1.5 (a) Prostředí stojícího automobilu Parame- ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN trizace [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] RCPLP 9.6 8.5 1.1 0.9 5.2 2.4 0.0 0.2 0.2 0.7 0.0 ± 3.9 CPLP 10.0 ± 4.8 RSPLP 11.3 ± 4.7 MFCC 11.9 ± 8.1 SPLP 12.0 ± 8.9 ± 4.0 ± 2.3 6.1 3.9 ± 3.7 ± 4.6 9.7 1.6 ± 4.4 ± 3.0 5.4 6.6 ± 3.4 ± 8.7 6.2 5.8 ± 3.6 ± 9.5 ± 1.2 ± 2.9 ± 1.6 ± 0.0 0.6 4.0 1.5 0.0 ± 0.9 ± 2.7 ± 1.5 ± 0.0 0.9 6.0 2.7 0.0 ± 1.1 ± 3.2 ± 1.6 ± 0.2 0.5 3.4 1.5 0.0 ± 0.8 ± 2.6 ± 1.4 ± 0.0 0.6 3.7 1.9 0.0 ± 0.9 ± 2.4 ± 1.7 ± 0.0 ± 0.4 ± 0.2 ± 2.0 0.1 0.9 3.0 ± 0.2 ± 0.9 ± 4.2 0.0 0.2 1.4 ± 0.1 ± 0.2 ± 2.9 0.2 1.2 5.1 ± 0.4 ± 2.3 ± 7.2 0.1 0.9 4.9 ± 0.2 ± 1.1 ± 8.6 ± 0.0 0.0 ± 0.0 0.0 ± 0.0 0.0 ± 0.0 0.0 ± 0.0 (b) Prostředí jedoucího automobilu Tabulka 6.4: Chyby klasifikace optimálně nastaveného GMM VAD zvláště v prostředí jedoucího automobilu, což ukazuje, že jsou špatně detekovány hlavně konce slov. 6.4.4 Experimenty s neřečovými událostmi Další testy byly zaměřeny na zjištění spolehlivosti GMM VAD na promluvách obsahujících specifické neřečové události. Zjištěné hodnoty chyb klasifikace ERR a ERS jsou v tabulce 6.5 pro 6 událostí – slyšitelný blinkr je v tabulce 6.5a, slyšitelné dýchání je v tabulce 6.5b, klapání v tabulce 6.5c, listování papírem v tabulce 6.5d a řazení nižšího nebo vyššího rychlostního stupně v tabulce 6.5e, přičemž události se mohou vyskytovat v přítomnosti dalších rušení v automobilu, jak je blíže popsáno v kapitole 5. Testy byly provedeny pro všechny úspěšnější parametrizace v předchozích experimentech. Je vidět, že neřečové události vedou ke zvýšení chyby klasifikace, a to hlavně při listování papírem, při slyšitelném blinkru, dýchání a řazení. Jedině klapání nevedlo k výraznějšímu zvýšení chyby klasifikace, naopak listování papírem vedlo k nejvýraznějšímu nárůstu chyb klasifikace, a to především v detekci šumu. Velikost chyby v řečových segmentech zůstala přibližně stejná. 6.4. EXPERIMENTY 6.4.5 57 Experimenty na dalších typech řečových položek Výše uvedené experimenty byly provedeny pouze na datech z množiny CZKCCVAD, která obsahuje jen typy řečových položek jako jsou číslice, jména a příkazy. Pro přesnější vyhodnocení byly provedeny také testy na řečových signálech z množiny SPEECONVAD obsahující nahrávky celých vět a číslic. Zjištěné hodnoty chyb klasifikace jsou v tabulkách 6.6c a 6.6b. Také testy z množiny CAR2ECSVAD dopadly s poměrně nízkou chybou klasifikace, jak je vidět v tabulce 6.6a. Nejdůležitější závěr uvedeného experimentu je, že testovaný VAD dosahuje velmi dobré výsledky také na datech z jiných databází s rušivým pozadím odlišným od trénovací množiny. To dokazuje jeho obecnou použitelnost v reálných aplikacích. 6.4.6 Shrnutí Byl vytvořen detektor řečové aktivity, který modeluje řečové a šumové úseky pouze pomocí směsi Gaussovských hustotních funkcí. Nejprve byla manuálně analyzována vhodnost devíti parametrizací pro úlohu detekce řečové aktivity a následně pomocí vzdálenosti Kullback-Leibler. Pro prostředí jedoucího automobilu byla dosažena shoda mezi analýzou a výsledky GMM VAD. Jako nejvhodnější se jeví využití koeficientů PLP získaných metodou RASTA. U GMM VAD lze pozorovat poměrně výrazné zvýšení chyby klasifikace na nahrávkách obsahujících neřečové události, kromě promluv obsahující událost klapání, která nevedla k výraznému zvýšení chyby klasifikace. 58 KAPITOLA 6. DETEKCE NA BÁZI GMM Parame- ERR ERS trizace [%] [%] RCPLP 12.4 8.0 CPLP MFCC RSPLP SPLP ± 3.5 ± 4.0 13.2 6.0 ± 4.7 ± 3.0 15.6 5.2 ± 8.7 ± 3.2 15.6 9.0 ± 3.6 ± 4.0 16.5 5.0 ± 8.3 ± 3.2 (a) Blinkr RSPLP CPLP SPLP RCPLP CPLP RSPLP SPLP ± 10.3 ± 4.5 15.4 4.1 ± 10.1 ± 2.8 15.7 7.0 ± 12.0 ± 6.1 17.0 6.1 ± 8.1 ± 3.3 19.5 9.7 ± 10.1 ± 9.5 (b) Dýchání Parame- ERR ERS trizace [%] [%] MFCC 20.2 5.6 RCPLP Parame- ERR ERS trizace [%] [%] MFCC 14.2 6.2 ± 13.4 ± 4.6 20.7 3.4 ± 13.3 ± 3.3 22.0 5.1 ± 12.3 ± 4.3 22.9 5.8 ± 15.0 ± 6.3 33.0 7.1 ± 16.7 ± 8.1 (d) Listování RSPLP SPLP MFCC CPLP MFCC RSPLP SPLP ± 4.1 ± 4.4 10.7 5.7 ± 5.8 ± 3.3 11.4 4.7 ± 8.5 ± 2.7 11.6 9.3 ± 4.7 ± 4.5 11.9 5.8 ± 6.9 ± 4.0 (c) Klapání Parame- ERR ERS trizace [%] [%] RCPLP 11.5 6.4 CPLP Parame- ERR ERS trizace [%] [%] RCPLP 9.2 7.6 ± 0.4 ± 0.5 12.1 5.8 ± 1.8 ± 1.3 12.9 7.9 ± 2.1 ± 0.1 14.1 6.3 ± 2.7 ± 0.6 14.8 7.2 ± 1.2 ± 2.6 Parame- ERR ERS trizace [%] [%] RCPLP 9.8 4.9 RSPLP SPLP CPLP MFCC ± 6.1 ± 3.4 10.2 5.8 ± 5.6 ± 3.4 11.1 5.4 ± 5.0 ± 4.4 11.5 6.2 ± 5.2 ± 4.0 13.7 6.5 ± 7.0 ± 4.0 (f) Jiné neřečové události (e) Řazení Tabulka 6.5: Úspěšnost GMM VAD u promluv obsahujících různé neřečové události. Parame- ERR ERS trizace [%] [%] MFCC 4.7 0.9 CPLP RSPLP RCPLP SPLP ± 3.3 ± 1.3 5.8 1.6 ± 3.3 ± 2.0 8.1 4.8 ± 3.7 ± 3.3 8.7 2.9 ± 4.5 ± 2.8 25.8 9.8 ± 18.9 ± 5.6 (a) CAR2ECSVAD Parame- ERR ERS trizace [%] [%] CPLP 10.0 8.3 RCPLP RSPLP MFCC SPLP ± 6.8 ± 6.7 11.4 7.4 ± 6.7 ± 5.3 11.8 9.0 ± 5.9 ± 5.7 12.1 5.9 ± 9.6 ± 5.2 20.9 17.2 ± 9.5 ± 9.6 (b) Číslice (SPEECONVAD) Parame- ERR ERS trizace [%] [%] CPLP 6.1 3.4 MFCC RCPLP RSPLP SPLP ± 5.1 ± 3.3 7.1 2.1 ± 6.2 ± 2.2 7.5 3.2 ± 4.2 ± 2.9 10.1 6.5 ± 3.8 ± 2.9 20.0 15.6 ± 9.6 ± 9.2 (c) Věty (SPEECONVAD) Tabulka 6.6: Úspěšnost GMM VAD na dalších typech řečových položek. Kapitola 7 Detekce na bázi HMM Tato část práce obsahuje návrhy metod využívající skryté Markovovské modely pro detekci řečové aktivity. Nejprve jsou uvedeny základní teoretické informace o skrytých Markovovských modelech a jejich použití pro klasifikaci řeči. Dále jsou diskutovány strategie možných řešení, která jsou následně podrobně představena. Metody jsou navrhovány především s ohledem na dosažení vysoké přesnosti detekce řečové aktivity v silně zarušeném prostředí. Navržené metody jsou dále podrobeny detailní analýze a jsou hledány taková nastavení, která optimalizují jejich přesnost pro rušné prostředí, tak aby nebyla současně snížena v prostředích jiných. 7.1 Dekódování řeči Na úlohu detekce řečové aktivity lze nahlížet jako na problém hledání posloupnosti úseků řeči a šumu W , která byla pronesena řečníkem a transformována na posloupnost pozorování O. Protože posloupnost W je procesem produkce řeči a následnou parametrizací řečového signálu “zakódována” do posloupnosti pozorování O, a protože cílem je posloupnost řečových úseků obdržet zpět využitím posloupnosti O, lze proces hledání posloupnosti W z posloupnosti pozorování O označit jako “dekódování”. Detekce řečové aktivity lze též formulovat jako problém dekódování s maximální aposteriorní pravděpodobností1 [59]. Označme W = {w1 , w2 , . . . , wN } jako posloupnost úseků řeči ws a šumu wn a O = {o1 , o2 , . . . , oT } jako posloupnost výstupních vektorů odvozených z řečového signálu, který se snažíme klasifikovat. Úkolem detektoru přítomnosti řeči je najít posloupnost úseků řeči a šumu Ŵ , která maximalizuje pravděpodobnost posloupnosti úseků řeči a šumu P (W |O) pro pozorovanou posloupnost výstupních vektorů. Pro posloupnost Ŵ tedy platí Ŵ = argmax P (W |O) = argmax W W P (W )P (O|W ) , P (O) (7.1) kde P (O|W ) je pravděpodobnost, že při vyslovení posloupnosti W bude generována posloupnost výstupních vektorů O, P (W ) je apriorní pravděpodobnost posloupnosti úseků řeči a šumu W a P (O) je apriorní pravděpodobnost posloupnosti výstupních vektorů. Protože pravděpodobnost P (O) není funkcí W , lze ji při hledání maxima 7.2 ignorovat. Hledaná posloupnost úseků řeči a šumu Ŵ lze tedy určit maximalizací sdružené pravděpodobnosti P (W, O) 1 Maximum A posteriori Probability 59 60 KAPITOLA 7. DETEKCE NA BÁZI HMM (7.2) Ŵ = argmax P (W, O) = argmax P (W )P (O|W ). W W Podmíněné rozdělení pravděpodobnosti P (O|W ) nese informaci o akustickém modelu a apriorní rozdělení P (W ) nese informaci o předpokládaném výskytu řečových, či šumových úseků, přičemž pravděpodobnostní rozdělení těchto pravděpodobností lze považovat za určité stochastické zdroje znalostí o řešené úloze [59]. Z uvedeného vyplývá, že úloha detekce řečové aktivity může být rozdělena do následujících částí znázorněných na obrázku 7.1 • Provedení akustické analýzy řečového signálu s cílem určit posloupnost vektorů příznaků O. • Vytvoření akustického modelu pro ocenění podmíněné pravděpodobnosti P (O|W ). • Vytvoření modelu předpokládaného rozložení řečových a šumových úseků oceňující pravděpodobnost P (W ). • Nalezení nejpravděpodobnější posloupnosti slov aplikací účinné prohledávací strategie. Řečový signál Akustická analýza O Akustický model P (O|W ) Model rozložení řeči a šumu P (W ) Prohledávací strategie Ŵ = argmax P (W |O) W Rozpoznaná posloupnost Ŵ Obrázek 7.1: Bloky systému pro dekódování řeči 7.2 Akustické modelování řeči pomocí HMM Skryté Markovovy modely představují velmi efektivním způsob, jak získat co nejpřesnější a nejrychlejší odhad podmíněné pravděpodobnosti P (O|W) pro libovolnou pozorovanou posloupnost vektorů příznaků O s každou uvažovanou posloupností řečových a neřečových úseků. Jejich hlavní výhodou je, že jsou flexibilní, přesné a účinné. Díky flexibilitě HMM je možné využívat modely i ve zcela jiných podmínkách, než ve kterých byly modely trénovány (odlišné hlasy, odlišný způsob artikulace, odlišné tempo řeči, odlišné akustické pozadí). Současně HMM umožňují dostatečně přesně odlišit podobné úseky řečového signálu s odlišným významem. A konečně účinnost HMM umožňuje nasazení v reálných aplikacích, ve kterých musí být odezva klasifikátoru dostupná v reálném čase [59]. Princip metody modelování řeči Markovovými modely vychází z představy o vytváření řeči. Při generování řeči člověkem si lze představit, že hlasové ústrojí je během krátkého 7.3. ANALÝZA MOŽNOSTÍ VYUŽITÍ HMM ZA ÚČELEM DETEKCE PŘÍTOMNOSTI ŘEČI61 časového intervalu (mikrosegmentů) v jednom z konečného počtu stavů artikulačních konfigurací. V uvažovaném mikrosegmentu je pak hlasovým ústrojím produkován krátký signál, který závisí na stavu artikulačního ústrojí a může být popsán určitými spektrálními charakteristikami, jež jsou reprezentovány vhodnými příznaky (vektorem příznaků) [59]. Z představy o vytváření řeči vychází i konstrukce klasifikátoru založená na modelování řečového signálu pomocí Markovova procesu. Při tomto procesu jsou generovány dvě vzájemně svázané časové posloupnosti náhodných proměnných, a to podpůrný Markovův řetězec, který je posloupností konečného počtu stavů, a řetězec vektorů příznaků, jež reprezentují spektrální charakter krátkých úseků (mikrosegmentů) řečového signálu. Pro tyto spektrální charakteristiky jsou vytvořeny “náhodné funkce”, které pravděpodobnostně ohodnocují vztah charakteristik ke všem stavům. Předpokládá se, že v diskrétních časových okamžicích je proces v jediném stavu a lze jej pozorovat prostřednictvím “náhodné funkce” korespondující s tímto stavem. Podpůrný Markovův řetězec pak mění stavy podle odpovídajících pravděpodobnostních přechodů. Pozorovatel “vidí” jen výstup “náhodných funkcí” a nemůže pozorovat stavy podpůrného Markovova řetězce [59]. a33 a22 Markovův proces 1 a12 b2 (o1 ) Generovaná posloupnost a23 a24 2 o1 3 b2 (o2 ) b3 (o3 ) o2 o3 a44 a34 4 b4 (o4 ) o4 a55 a45 a35 b4 (o5 ) o5 5 a56 6 b5 (o6 ) o6 Obrázek 7.2: Ilustrace generování posloupnosti Skrytý Markovův model je model Markovova procesu, na něhož je možné pohlížet jako na pravděpodobnostní stavový automat, který v pravidelných intervalech mění svůj stav a při vstupu do stavu j generuje výstupní vektor ot podle hustoty pravděpodobnosti bj (o). Přechod ze stavu i do stavu j nastává s pravděpodobností aij . Během tohoto procesu je tedy generována posloupnost výstupních vektorů. Na obrázku 7.2 je ilustrováno generování posloupnosti o1 , o2 , o3 , o4 , o5 , o6 při přechodech mezi stavy 1, 2, 2, 3, 4, 4, 5, 6. Pro hustotní funkci bj (o) bylo navrženo několik tvarů, které byly s úspěchem využity v klasifikaci řeči, například Gaussova M -složková směs [58, 97]. 7.3 Analýza možností využití HMM za účelem detekce přítomnosti řeči Úlohu detekce řečové aktivity pomocí HMM lze řešit mnoha různými způsoby. Součástí této práce by mělo být navržení a srovnání těchto metod. Návrh většiny z nich vychází z bloků systému pro dekódování řeči ilustrovaném na obrázku 7.1. Všechny navržené metody vycházejí z vhodně zvolené akustické analýzy, která byla popsána v předešlé části. Velmi důležitá je správná volba způsobu akustického modelování klasifikovaného 62 KAPITOLA 7. DETEKCE NA BÁZI HMM Obrázek 7.3: Levo-pravý model Obrázek 7.4: Ergodický model Obrázek 7.5: Model dlouhé pauzy Obrázek 7.6: Model krátké pauzy signálu. Pro řešenou úlohu je nutné posoudit a zvolit vhodnou strukturu modelů, vhodné části signálu, které budou modelovány. V neposlední řadě je také nutné zvolit klasifikační algoritmus a způsob trénování modelů. 7.3.1 Výběr modelované části promluvy Jak bylo řečeno výše, úloha detekce přítomnosti řeči spočívá v rozlišení úseků signálu, kde je přítomná řeč nebo šum. Pro tento účel je nutné vhodným způsobem modelovat řečový signál. Nejjednodušší způsob je modelování pomocí dvou modelů - obecného modelů řeči a obecného modelu šumu. Další možností je využití většího počtu specializovaných modelů například pro různé typy šumu. Stejně tak jako šum lze takto modelovat řeč pomocí většího počtu modelů. Nabízí se otázka, jestli je vhodné použít spíše modely obecně popisující řeč a šum nebo šum, či modelovat konkrétní typy šumu. Stejně tak je nutné zjistit nejvhodnější způsob modelování řeči pro danou úlohu. V mezním případě můžeme detekci řečové aktivity vnímat jako úlohu rozpoznávání řeči, kde by rozpoznané slova a řečové pauzy byly popsány pouze jako řeč nebo šum. V takovém případě by pak mohla být řeč modelovaná pomocí kratších fonetických jednotek – fonémů, difonu, trifonů, či slabik nebo celých slov spojených do sebe. Předpokládané nevýhody takto postavených detektorů řečové aktivity by byla jejich větší složitost, nutnost trénování na větším množství dat a menší schopnost generalizace. Naopak díky přesnějšímu modelování signálů lze očekávat přesnější výslednou klasifikaci. 7.3.2 Struktura modelu Na základě zkušenosti z oblasti rozpoznávání řeči, se dá předpokládat, že pro výslednou funkčnost systému detekce řečové aktivity je zásadní výběr vhodné struktury modelu. 7.3. ANALÝZA MOŽNOSTÍ VYUŽITÍ HMM ZA ÚČELEM DETEKCE PŘÍTOMNOSTI ŘEČI63 Opět je nutné oddělit volbu struktury modelu pro řeč od volby vhodné struktury pro šum. Při modelování úseků mluvené řeči se využívají zejména levo-pravé Markovovy modely, které jsou zvláště vhodné pro modelování procesů, jejichž vývoj je spojen s postupujícím časem. Základní vlastností uvedených modelů je, že proces začíná příchodem prvního spektrálního vzoru do počátečního stavu modelu a se vzrůstajícím časem dochází k přechodům ze stavů s nižšími indexy do stavů s vyššími indexy nebo dochází k setrvání ve stejném stavu. Průchod modelem je tedy zleva doprava. Proces končí příchodem posledního spektrálního vzoru, přičemž model se v tom okamžiku nachází v koncovém stavu. Struktura levo-pravého modelu je ukázána na obrázku 7.3. Další otázkou je volba vhodného počtu stavů modelů. Původní Vintsyukův a Bakisův model slova má počet stavů odvozen od průměrného počtu mikrosegmentů ve slově (tj. 40 až 60 stavů při délce mikrosegmentů 10ms) [59]. Přímá cesta modelem pak reprezentuje průměrné trvání slova, přechody do stejného stavu berou v úvahu prodloužení slova a přechody do příštího stavu dovolují zkrácení slova. Experimentálně bylo však zjištěno, že výrazným zredukováním počtu stavů nebyla snížená přesnost rozpoznávání. Proto vhodný počet stavů modelů mluvené řeči je ponechán na experimentální část této práce. Pro modelování neřečových úseků se v systémech rozpoznávání řeči většinou používá buď model krátké pauzy zobrazený na obrázku 7.6, který obsahuje pouze jeden emitující stav nebo model dlouhé pauzy zobrazený na obrázku 7.5, který obsahuje 3 emitující stavy. Vše vychází ze skutečnosti, že vlastnosti šumu jsou zcela odlišné od vlastností mluvené řeči. Zatímco pro slova v mluvené řeči je charakteristický určitý vývoj, struktura řeči, tak u šumu tato vlastnost většinou chybí. Situaci však komplikuje fakt, že za šum můžou být považovány i určité neřečové události (šustění listu, zvuk blinkru auta, řazení převodovky,...), u kterých již může být pozorována určitá struktura. Zatímco šum, u kterého se v průběhu času nemění jeho statistické vlastnosti je nejlepší modelovat jednostavovým modelem, tak neřečovou událost je vhodnější modelovat více-stavovým modelem. Na základě povahy šumu je pak nutné zvolit buď levo-pravou strukturu nebo ergodický model, který umožňuje přechody mezi libovolnými stavy, což je ukázáno na příkladu 5-stavového ergodického modelu na obrázku 7.4. Vhodná volba struktury modelu šumu je ponechána opět na experimentální část této práce. Výslednou přesnost detektoru řečové aktivity může ovlivnit i počet směsí. Čím větší počet směsí, tím je přesněji modelována hustota pravděpodobnosti modelované části signálu, což by mělo vést k přesnější klasifikaci podobných úseků. Nevýhodou je, že je nutno použít větší množství trénovacích dat. 7.3.3 Klasifikační algoritmus Úkolem klasifikace je zařazení jednotlivých segmentů signálů do daných tříd. Pomocí skrytých Markovových modelu lze tento úkol vyřešit několika různými způsoby. V případě, kdy je nutné klasifikovat daný segment nebo izolovanou řečovou promluvu, je možné spočítat pravděpodobnost, jakou byla posloupnost pozorovaných vektorů generována modelem λ, tj. P (O|λ). Pro jednotlivé cesty Q stačí vynásobit jednotlivé pravděpodobnosti přechodů s pravděpodobnostmi výstupních vektorů. Protože cesty jsou skryté, získáme výslednou pravděpodobnost součtem pravděpodobností přes všechny možné po- 64 KAPITOLA 7. DETEKCE NA BÁZI HMM sloupnosti skrytých stavů tzn. X P (O|λ) = P (O|Q, λ)P (Q|λ) Q = X πq1 bq1 (o1 )aq1 q2 bq2 (o2 ) . . . aqT −1 qT bqT (oT ) q1 ,q1 ,...,qT = X Q πq1 T Y bq(t) (ot )aq(t)q(t+1), (7.3) t=1 kde π je vektor pravděpodobností počátečního stavu [62]. Nicméně výpočet pomocí vztahu 7.3 je neproveditelný, protože je příliš výpočetně náročný a už i pro malá T by bylo nutno obrovské množství početních operací. Tento problém se řeší pomocí forwardbackward algoritmu. Jiné řešení rovnice 7.3 spočívá v nalezení nejpravděpodobnějšího průchodu modelem, tj. ) ( T Y (7.4) bq(t) (ot )aq(t)q(t+1) . P (O|M ) = max πq1 Q t=1 K vyřešení rovnice 7.4 se používá Viterbiův algoritmus, který je velmi podobný forwardbackward algoritmu, ale místo součtu se používá maximum. Nevýhoda forward-backward algoritmu je možnost ocenění pouze celého segmentu promluvy. Zatímco Viterbiho algoritmus najde sám vhodné hranice mezi jednotlivými třídami, což v důsledku umožňuje jednoduší zobecnění pro klasifikace plynulé řeči. Proto je tento algoritmus často upřednostňován. Pro klasifikaci plynulé řeči se nejčastěji využívá algoritmus cestování žetonů2 , který je určitým rozšířením Viterbiho algoritmu. Žeton je záznam, který reprezentuje uskutečněnou cestu rozpoznávací sítí z času 0 do času t. V čase nula je žeton umístěn do počátečního uzlu sítě. Funkci algoritmu lze popsat dvěma základními kroky, které se stále opakují s příchodem každého nového vektoru parametrů. V prvním kroku se kopie každého žetonu ve stavu i pošle do všech připojených stavů j a zároveň se zvýší logaritmická pravděpodobnost každé kopie. Ve druhé části algoritmu jsou postupně načteny žetony v jednotlivých stavech a jsou zachovány pouze ty s nejvyšší pravděpodobností. Každý žeton putující sítí obsahuje záznam popisující jeho cestu. Při standardním procesu dekódování se jeví jako dostačující uchovávat pouze názvy konců slov, kterými daný žeton prošel. Pro účely detekce řečové aktivity lze však uchovávat kompletní popis cesty žetonu, který obsahuje časové hranice nalezených modelů, případně i stavů HMM. Podrobný popis algoritmu cestování žetonů s detaily jeho realizace může být nalezen v [98, 59]. 7.3.4 Způsob inicializace a trénování Trénování HMM může probíhat mnoha různými způsoby v závislosti na úloze, ve které se budou výsledné modely používat, a na trénovacích datech, které jsou k dispozici. Nejběžnější způsoby trénování se většinou zaměřují na modelované subslovní jednotky, které se používají v rozpoznávání spojité řeči. Takový druh trénování je označován jako trénování vložených jednotek. Výhodou tohoto způsobu trénování je, že není potřeba znát přesné hranice promluvy, které přísluší k trénovanému HMM. Stačí když je k trénovacím 2 Token Passing Algorithm 7.4. FONÉMOVÝ DETEKTOR ŘEČOVÉ AKTIVITY 65 akustickým datům známá transkripce obsahující pořadí vložených modelů. Ze subslovních modelů se pak složí zřetězený model, který se trénuje jako celek. Tento druh trénování se používá hlavně u rozpoznávačů řeči pro trénování fonémů nebo trifonů. Proto byl použit i pro trénování fonémů využitých ve fonémovém detektoru řečové aktivity. Na základě úvodních experimentů však bylo zjištěno, že při trénování pouze dvou modelů řeči a šumu tento druh trénování vedl k velmi špatným výsledkům výsledného klasifikátoru. To byl i důvod ke zvolení jiného postupu trénování založeného na prostém využití Baum-Welchova algoritmu. Nevýhodou tohoto postupu byla nutnost získat hranice vzorů u trénovacích promluv. Základní myšlenka trénování parametrů skrytých Markovových modelů většinou vychází z metody maximální věrohodnosti a hledají se takové modely, které maximalizují věrohodnostní funkci. Ta má tvar λ̂ = argmax λ {Oe }E e=1 E X logP (Oe |λ), e=1 představuje soubor trénovacích promluv. Pro maximalizaci věrohodnostní kde funkce v podstatě neexistuje explicitní řešení a postupuje se většinou pomocí EM algoritmu. Ten zavádí funkci očekávání, jejíž maximalizací získáme nové parametry modelu λ̄, které vedou k přírůstku věrohodnostní funkce. Iterativním postupem je pak možné přiblížit se k hledaným parametrům modelu λ̂. Nevýhodou tohoto postupu je, že umožňuje dosáhnout pouze lokálního maxima. Proto je nutné provést také úvodní nastavení parametrů modelů ve fázi inicializace. Inicializace HMM může být opět provedena bez toho, aniž by bylo nutné znát přesné hranice trénovacích částí promluv. Postupuje se většinou tak, že se provede uniformní segmentace a položí se všechny vložené modely jako sobě rovnocenné. Tento postup se používá téměř výhradně při inicializaci fonémů či trifonů v řečových rozpoznávačích, pro trénování modelů pro detektory řečové aktivity se však osvědčil postup vycházejí z inicializace izolovaných položek. V takovém případě se provede uniformní segmentace pouze v prvním cyklu a v dalších cyklech je nahrazena Viterbiho zarovnáním. Nevýhodou takového postupu je, že je nutné znát přesné hranice trénovacích položek. 7.3.5 Shrnutí analýzy Na základě předchozích úvah bylo navrženo několik detektorů řečové aktivity. Byly navrhnuty detektory vycházející ze schématu 7.1 a dekódující pomocí algoritmu cestování žetonu. Byl také vytvořen VAD, který klasifikuje na mírně jiném principu, pomocí vyhodnocování vzdáleností mezi HMM. První VAD je založený na přesném modelování struktury řeči pomocí monofonů, další VAD využívají pouze dvou obecných modelů řeči a šumu – levo-pravých nebo ergodických. Tyto detektory řečové aktivity jsou podrobně popsány v následujících sekcích. 7.4 Fonémový detektor řečové aktivity Základní myšlenkou fonémového detektoru řečové aktivity je velmi přesné modelování struktury řeči pomocí zřetězení modelů všech monofonů. Tento způsob modelování řeči 66 KAPITOLA 7. DETEKCE NA BÁZI HMM HMM monofonů Trénovací DB Signály a b Transkripce Signál Testovací DB Signály Transkripce Akustický model Gramatika z a b z sp Dekodér a b z sp Převod 1 (řeč) Vyhlazení vad(t) 0 (šum) vad(t) Fonémový VAD Vyhodnocení testu Obrázek 7.7: Blokové schéma fonémového VAD je poměrně běžný v rozpoznávačích řeči. Rozdíl oproti klasickému rozpoznávání řeči je v tom, že u takto provedeného detektoru řečové aktivity nebude brána v potaz slovní a gramatická struktura jazyka. Ačkoliv využití této informace by zvýšilo přesnost klasifikace, nejednalo by se již o obecně použitelný VAD. Výstupem dekodéru řeči bude samozřejmě posloupnost modelů monofonů ticha/šumu, přičemž není důležitá jazyková smysluplnost výstupní posloupnosti. Aby byl získán požadovány výstup, budou úseky řeči klasifikované jako určitý foném interpretovány jako řeč a úseky příslušné k určitému modelu ticha jako šum. Fonémový detektor řečové aktivity vychází ze systému pro dekódování řeči, jehož blokové schéma je na obrázku 7.1, pouze s tím rozdílem, že blok modelu rozložení řeči a šumu bude nahrazen obecným blokem jazykového modelu a posloupnost W bude značit posloupnost monofonů {wa , wb , . . . , wz } a mezislovní nebo řečové pauzy {wsp, wsil }. Podrobné blokové schéma fonémového VAD je na obrázku 7.7, kde je jazykový model reprezentován prostřednictvím gramatiky. Ta umožňuje přechody mezi jednotlivými modely monofonů {λa, λb , . . . , λz } a modely ticha {λsp, λsil } se stejnou pravděpodobností. K hledání nejpravděpodobnější cesty skrze rozpoznávací síť je opět použit algoritmus cestování žetonů. Výstupem dekodéru je nejen posloupnost monofonů a modelů ticha Ŵ , ale také posloupnosti jejich začátků Tb (Ŵ ) a konců Te (Ŵ ), jejichž členy jsou vypsány v rovnicích 7.6 a 7.7, tj. Ŵ = {ŵ1 , ŵ2 , . . . , ŵN }, Tb (Ŵ ) = {tb (ŵ1 ), tb (ŵ2 ), . . . , tb (ŵN )}, Te (Ŵ ) = {te (ŵ1 ), te (ŵ2 ), . . . , te (ŵN )}. (7.5) (7.6) (7.7) Dále se předpokládá, že všechny monofony jsou součástí řečových úseků, a proto jsou úseky promluvy, ke kterým náleží, označeny jako řeč. Tato transformace je na blokovém schématu 7.7 provedena blokem “Převod”, jehož výstupem je hledaná posloupnost vad (t), která v čase t klasifikuje pozorovanou promluvu jako řeč nebo šum, tj. ( 1 pro tb (ŵi ) < t ≤ te (ŵi )|wi∈{wa ,wb ,...,wz } , (7.8) vad (t) = 0 pro tb (ŵi ) < t ≤ te (ŵi )|wi={wsp ,wsil } , přičemž ŵi je označení rozpoznaného i-tého monofonu nebo řečové pauzy, které jsou časově ohraničeným okamžiky tb (ŵi ) a te (ŵi ), kde 1 ≤ i < N . 7.5. VAD VYHODNOCUJÍCÍ VZDÁLENOSTI HMM (DHMM) 67 Uvedený VAD nemívá velký počet chybných a krátkých zákmitů klasifikace, nicméně i tak je výstup dekodéru vad (t) většinou vhodné vyhladit. K poslednímu kroku tohoto algoritmu byl použit mediánový filtr 10-tého řádu. Konečným výstupem fonémového detektoru přítomnosti řeči je tedy vyhlazený vektor vad (t). Asi nejpracnější součástí fonémového detektoru řečové aktivity je nutnost zkonstruovat fonémový rozpoznávač řeči, ze kterého jsou získávány modely monofonů, krátké a dlouhé pauzy. Jelikož jde o poměrně standardní záležitost, je ponechán přesný popis této problematiky na jiné publikace [78, 44]. 7.5 VAD vyhodnocující vzdálenosti HMM (DHMM) V předchozím textu byl popsán detektor vycházející z principu dekódování řečového signálu. V podstatě se jednalo o specializovaný rozpoznávač řeči. Motivací vytvoření detektoru popsaného v této kapitole je možnost modelovat části signálu, které obsahují určitou strukturu bez nutnosti se zabývat akustickým modelováním celé promluvy, které se může jevit pro úlohu detekce řečové aktivity jako nadbytečné. Navržený detektor vychází z principu srovnávání částí signálu s definovanými vzory vyjádřených pomocí HMM. První model λn odpovídá šumu a druhý λs řeči. Vzory, HMM, jsou pak srovnávány pomocí výpočtu jejich vzájemné vzdálenosti D(λs, λn) definované podle [62] jako 1 [logP (O|λs ) − logP (O|λn)], (7.9) T kde T je počet vektorů parametrů aktuální vybrané části signálu. Ohodnocení míry přítomnosti řeči je prováděno v pravidelných intervalech pro vybírané části promluvy tak, že je nejprve vybrán úsek promluvy na začátku signálu, přičemž se tento výběr posunuje, až je dosaženo konce promluvy. Jde o stejný princip jaký je využit pro krátkodobou analýzu signálu při kroku parametrizace řeči. Výpočet pravděpodobnosti s jakou HMM generuje příslušný úsek řeči nebo šumu, logP (O|λ), může být proveden pomocí forward procedury nebo ekvivalentně pomocí Viterbiho algoritmu. Výstupem výpočtu je diskriminační funkce odpovídající rozdílům pravděpodobnosti predikce příslušnosti daného úseku signálu k řeči či šumu. Postup detekce řečové aktivity by se dal shrnout v následujících bodech D(λs, λn) = 1. Rozdělení signálu – řečový signál je nejprve rozdělen do I překrývajících se částí {O1 , O2 , . . . , OI }, podobně jako u segmentování signálu při parametrizaci. Části signálu jsou však delší a obsahují více vektorů parametrů, tj. Oi = {oi1 , oi2 , . . . , oiT }. Každá část signálu Oi začíná v čase tb (Oi ), přičemž následující část začíná v čase tb (Oi+1 ) =te (Oi). 2. Výpočet vektorů pravděpodobností – pro každou část signálu je vypočtena pravděpodobnost s jakou byla daná část generována. Pravděpodobnosti jsou vypočteny pomocí forward procedury nebo Viterbiho algoritmu, které jsou popsány v literatuře [97, 59]. Výstupem tohoto kroku jsou vektory 1 1 1 Ps (Oi ) = P (O1 |λs), P (O2|λs), · · · , P (OI|λs ) , (7.10) T T T 68 KAPITOLA 7. DETEKCE NA BÁZI HMM Řeč te(O1 ) tb (O1 ) O1 Rozdělení signálu tb (O2 ) te(O2 ) O2 tb (O3 ) te(O3 ) O3 Pravděpodobnost šumu P (O1 |λn) P (O2 |λn) P (O3 |λn) ... ... ... Pravděpodobnost řeči P (O1 |λs) P (O2 |λs) P (O3 |λs) ... ... ... ... ... ... Diskriminační funkce D(O1 ) D(O2 ) D(O3 ) Obrázek 7.8: Výpočet diskriminační funkce Pn(Oi ) = 1 1 1 P (O1 |λn), P (O2|λn), · · · , P (OI|λn) . T T T (7.11) 3. Diskriminační funkce – vystihuje poměr míry přítomnosti šumu a řeči a je vypočítaná jako rozdíl logaritmů pravděpodobností pomocí vztahu 7.9, tj. D(Oi , λs , λn ) = Ps (Oi) − Pn(Oi ). (7.12) 4. Optimalizace prahu – pro vypočítanou diskriminační funkci je na trénovacích datech hledána optimální hodnota prahu pomocí ROC křivky. V případě, že by byla hodnota prahu získána jiným způsobem, může být tento krok vynechán. 5. Výpočet prahu – existuje několik metod vhodných pro online nebo offline použití. V prezentovaném algoritmu byla využita procedura vhodná pro offline využití. Výpočet prahu je proveden z a% nejmenších hodnot a b% nejvyšších hodnot, ze kterých jsou vypočteny střední hodnoty µa a µb . Práh T hr je získán z následujícího vztahu T hr = l(µb − µa ) + µa , l ∈ (0, 1). (7.13) 6. Klasifikace – probíhá pomocí rozdělení hodnot diskriminační funkce. Části signálu, které mají větší hodnotu diskriminační funkce než je prahová hodnota, jsou označeny jako šum. Části signálu, které mají menší hodnotu, jsou označeny jako řeč, tj. ( 1 pro D(Oi , λs , λn ) > T hr, kde tb (Oi ) < t ≤ te (Oi ), (7.14) vad (t) = 0 pro D(Oi , λs , λn ) ≤ T hr, kde tb (Oi ) < t ≤ te (Oi ), přičemž Oi je i-tá část signálu časově ohraničená okamžiky tb (Oi ) a te(Oi ), kde 1 ≤ i < I. 7.6. VAD MODELUJÍCÍ PROMLUVY POMOCÍ DVOU HMM Trénovací DB Gramatika HMM Signály řeč Transkripce šum 69 Vyhlazení Signál vad(t) Akustický model vad(t) Dekodér HMM VAD Testovací DB Signály Vyhodnocení testu Transkripce Obrázek 7.9: Blokové schéma VAD modelující promluvy pomocí dvou modelů 7. Vyhlazení – výstup dekodéru vad(t) v tomto bodě obsahuje někdy i větší množství krátkých a chybných zákmitů, a proto je vhodné tyto zákmity vyhladit. K poslednímu kroku tohoto algoritmu byl použit mediánový filtr 10-tého řádu. Konečným výstupem detektoru přítomnosti řeči je tedy vyhlazený vektor vad (t). 7.6 VAD modelující promluvy pomocí dvou HMM Inspirací pro tento VAD byla úvaha nad nutností přesného modelování řeči u fonémového VAD a snaha o zjednodušení a docílení větší schopnosti generalizace. Předpokládá se, že je možné řečové a šumové úseky rozdělit na menší části příslušející pouze k řeči či šumu, přičemž na tyto menší části může být v řečových úsecích nahlíženo jako na sjednocení charakteristik více monofonů. Navržený detektor řečové aktivity modeluje signál pomocí dvou HMM reprezentující řeč a šum. K modelování řečových úseků promluv byl použit model řeči λs a k modelování neřečových úseků promluv pak model šumu λn. Možné přechody mezi modely jsou vyjádřeny prostřednictvím regulární gramatiky, která umožňuje libovolné přechody mezi modely. Expandováním gramatiky pomocí HMM řeči a šumu se vytvoří akustický model λW reprezentovaný rozpoznávací sítí, která je pak využita při dekódování řeči. Jednotlivé bloky detektoru jsou ukázány na obrázku 7.9, příklad rozpoznávací sítě pro případ, kdy jsou použity ergodické modely, je na obrázku 7.10. Jak bylo řečeno v odstavci 7.1, úkolem detektoru přítomnosti řeči je najít posloupnost úseků řeči a šumu Ŵ , která maximalizuje pravděpodobnost P (W |O). To je ekvivalentní maximalizaci pravděpodobnosti P (O|λW ), tj. pravděpodobnosti, jakou byla výstupní posloupnost O generována akustickým modelem λW vytvořeného pomocí spojení modelů řeči λs a šumu λn. Pro posloupnost Ŵ tedy platí Ŵ ≈ argmax P (O|λW ). W (7.15) 70 KAPITOLA 7. DETEKCE NA BÁZI HMM Model šumu Model řeči Obrázek 7.10: Rozpoznávací síť s ergodickými modely řeči a šumu K výpočtu Ŵ lze využít algoritmus cestování žetonů. Výstupem tohoto algoritmu je posloupnost Ŵ a současně také posloupnosti začátků Tb (Ŵ ) a konců Te (Ŵ ) těchto úseků. Členy posloupností jsou rozepsány v rovnicích 7.6 a 7.7 a jejich význam je ilustrován na obrázku 7.11. Znalost Tb (Ŵ ) a Te(Ŵ ) pak vede k získání posloupnosti vad (t), která v čase t klasifikuje pozorovanou promluvu jako řeč ws nebo šum wn , tj. ( 1 pro tb (ŵi ) < t ≤ te(ŵi )|wi =ws , vad (t) = (7.16) 0 pro tb (ŵi ) < t ≤ te(ŵi )|wi =wn , přičemž ŵi je označení rozpoznaného i-tého úseku, který je časově ohraničený okamžiky tb (ŵi ) a te (ŵi ), kde 1 ≤ i < N . Podobně jako u ostatních VAD na bázi skrytých Markovovských modelů výstup dekodéru vad (t) ani v tomto případě nemívá většinou velké množství krátkých a chybných zákmitů. Přesto je vhodné toto menší množství zákmitů vyhladit. K poslednímu kroku tohoto algoritmu byl použit mediánový filtr 10-tého řádu. Konečným výstupem HMM detektoru přítomnosti řeči je tedy vyhlazený vektor vad (t). 7.7 Experimenty Navržené detektory řečové aktivity byly podrobeny sadě experimentů, jejichž cílem bylo analyzovat vliv nastavení různých parametrů navržených detektorů a struktury HMM na jejich úspěšnost a chování za přítomnosti rušivého šumu. Analýza nastavení parametrů byla provedena na testovací množině CZKCCVAD. Výsledné chování optimálně nastavených VAD pak bylo otestováno také na množinách SPEECONVAD a CAR2ECSVAD, ve kterých byly obsaženy promluvy, které se výrazněji odlišují od trénovací množiny. Proto tyto testy vypovídají o možnostech nasazení VAD v reálných podmínkách. Kromě navržených způsobů klasifikace byl současně testován vliv parametrizace, a to ve všech provedených experimentech. Byly použity pouze perspektivní parametrizace, u kterých se potvrdila dobrá funkčnost na předcházejících experimentech s GMM VAD – mel-frekvenční kepstrální koeficienty, kepstrální a spektrální PLP koeficienty a koeficienty získané metodou RASTA. 7.7.1 Fonémový detektor řečové aktivity Pro fonémový HMM detektor řečové aktivity byla provedena analýza počtu směsí HMM fonémů. Dále byl VAD využívající modely s optimálním počtem směsí testován na pro- ŵ2 ŵ3 ŵ4 ŵ5 te (ŵ6 ) te (ŵ5 ) tb (ŵ6 ) te (ŵ3 ) tb (ŵ4 ) te (ŵ1 ) tb (ŵ2 ) tb (ŵ1 ) ŵ1 te (ŵ4 ) tb (ŵ5 ) 71 te (ŵ2 ) tb (ŵ3 ) 7.7. EXPERIMENTY ŵ6 Obrázek 7.11: Ilustrace hranic řečových úseků u HMM VAD mluvách z množiny CZKCCVAD včetně promluv obsahujících neřečové události. Výsledná funkčnost byla otestována na signálech z množiny CAR2ECSVAD a SPEECONVAD obsahující promluvy celých vět, číslic a další typy řečových položek. Jelikož se v podstatě jedná o specializovaný rozpoznávač řeči, základem pro trénování i klasifikaci byly nástroje z balíku HTKToolkit. Modely byly trénovány klasickým postupem používaným pro trénování modelů fonémových rozpoznávačů řečí, který je popsán například v [97] nebo [44]. Pro trénování byla použita celá databáze CZKCC s tím, že byly vyjmuty nahrávky od všech mluvčích, kteří se vyskytují v databázi CZKCCVAD. Optimalizace počtu směsí Pro každou parametrizaci byly trénovány fonémy nejprve bez směsí. Následně byl v každém trénovacím kroku zvyšován počet směsí od 8 do 32. S takto získanými fonémy bylo provedeno vyhodnocení funkčnosti pro prostředí ve stojícím automobilu, stojícím automobilu se zapnutým motorem a v jedoucím automobilu. Výsledky jsou uvedeny v tabulkách 7.1a a 7.1b. Zvyšování počtu směsí se projevilo rozdílně pro každou použitou parametrizaci. Na rozdíl od experimentů s DHMM VAD a HMM VAD, tak zvětšování počtu směsí vede jednoznačněji ke snížení chyby klasifikace, což je ve shodě se zkušenostmi z oblasti rozpoznávání řeči. Pro kepstrální PLP koeficienty a PLP koeficienty RASTA vedlo zvětšení počtu stavů ke snížení celkové chyby klasifikace ERR ve všech prostředích kromě prostředí stojícího automobilu se zapnutým motorem, kde je nejmenší chyba klasifikace dosažena pro kepstrální PLP koeficienty u modelů bez směsí. Použití mel-kepstrálních a spektrálních PLP koeficientů vedlo k rozumným výsledkům pouze na signálech z tiššího prostředí. V prostředí jedoucího automobilu vedlo navýšení počtu směsí ke zmenšení chyby klasifikace hlavně v neřečových úsecích, přičemž zmenšení chyby klasifikace se nejvíce projevilo u PLP koeficientů RASTA. Závěrem provedeného experimentu je zjištění, že je optimální volbou použítí vysokého počtu směsí fonémů pro všechny parametrizace. Vliv rušného prostředí automobilu Chování VAD bylo sledováno pomocí rozšířených kritérií na nahrávkách z prostředí automobilu. Získané hodnoty chyb klasifikace jsou uvedeny v tabulkách 7.2a a 7.2b. Nejnižší 72 KAPITOLA 7. DETEKCE NA BÁZI HMM RCPLP CPLP Počet ERR ERS ERR ERS směsí [%] [%] [%] [%] 0 13.3 0.6 38.7 1.9 ± 8.7 8 16 32 ± 1.4 ± 22.8 ± 4.1 RSPLP SPLP MFCC ERR ERS ERR ERS ERR ERS [%] [%] [%] [%] [%] [%] 21.6 0.6 12.0 4.4 11.6 4.0 ± 12.9 ± 1.1 ± 10.6 ± 3.9 ± 7.9 ± 4.0 10.8 0.9 15.6 10.7 15.8 1.3 14.7 3.7 14.8 9.0 ± 8.3 ± 1.8 ± 11.4 ± 11.1 ± 9.9 ± 1.5 ± 10.9 ± 3.4 ± 10.0 ± 9.8 11.2 0.7 12.7 5.4 13.4 1.0 15.3 2.8 13.8 6.4 ± 9.0 ± 1.7 ± 11.4 ± 6.7 ± 9.3 ± 1.3 ± 11.9 ± 2.9 ± 10.0 ± 7.6 11.4 0.8 13.4 5.7 13.1 1.0 18.6 2.2 14.1 6.4 ± 9.4 ± 1.9 ± 12.3 ± 6.6 ± 9.2 ± 1.1 ± 13.2 ± 2.8 ± 9.7 ± 8.3 (a) Prostředí stojícího automobilu RCPLP CPLP RSPLP SPLP MFCC Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS směsí [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] 0 10.9 9.5 22.3 7.5 12.3 4.1 56.2 1.2 38.1 6.1 8 16 32 ± 6.1 ± 6.7 ± 20.1 ± 5.8 ± 9.5 ± 3.2 ± 26.1 ± 2.0 ± 29.1 ± 6.5 11.0 9.9 14.4 9.3 8.5 4.2 58.6 1.3 23.6 6.4 ± 6.4 ± 6.7 ± 11.2 ± 5.9 ± 6.1 ± 2.9 ± 24.2 ± 2.0 ± 20.7 ± 5.0 8.9 8.0 13.0 9.1 6.7 4.3 56.0 1.8 25.1 7.0 ± 5.8 ± 6.2 ± 10.6 ± 5.8 ± 4.4 ± 2.7 ± 26.0 ± 2.4 ± 21.4 ± 6.5 8.3 7.5 11.3 9.1 5.7 4.1 53.3 1.8 22.7 7.1 ± 5.3 ± 5.7 ± 8.0 ± 5.8 ± 3.0 ± 2.8 ± 28.2 ± 2.8 ± 21.1 ± 6.5 (b) Prostředí jedoucího automobilu Tabulka 7.1: Analýza vlivu počtu směsí modelů fonémového HMM VAD celkové chyby klasifikace ERR bylo dosaženo použitím parametrizace RSPLP pro prostředí jedoucího automobilu a RCPLP pro prostředí stojícího automobilu. Naopak parametrizace SPLP vedla k selhání VAD v rušném prostředí jedoucího automobilu. Nejmenší celková chyba byla dosažena v rušnějším prostředí, což lze vysvětlit složením trénovací množiny. U nejúspěšnější konfigurace využívající RCPLP a RSPLP lze v tišším prostředí pozorovat, že chybně je klasifikován hlavně šum, a to především díky prodloužení predikce řečových úseků, tzn. vysoká hodnota OVB, nebo kompletním vynecháním úseků šumu a jeho nesprávnou predikcí jako řeč, tzn. vysoká chyba MIN. V rušnějším prostředí vzniká chyba u uvedených parametrizací hlavně díky zkracování řečových úseků, tzn. díky vysoké chybě TRB. Neřečové události Fonémový VAD s modely s počtem 32 směsí byl dále testován na signálech obsahujících různé neřečové události. Dosažené celkové chyby ERR a chyby v řeči ERS jsou uvedeny v tabulkách 7.3a až 7.3f. Jsou patrné velké rozdíly při použití jednotlivých parametrizací, kdy použití spektrálních a kepstrálních PLP koeficientů RASTA vede téměř vždy k velmi nízké chybě klasifikace. Zpracování signálů pomocí spektrálních PLP koeficientů vede naopak k vysoké chybě klasifikace. Srovnají-li se chyby klasifikace neřečových udá- 7.7. EXPERIMENTY 73 Parame- ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN trizace [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] RCPLP 11.4 0.8 10.5 0.4 0.3 0.2 0.0 3.5 1.2 1.6 4.2 RSPLP CPLP ± 9.4 ± 1.9 ± 8.9 13.1 1.0 12.1 ± 9.2 ± 1.1 ± 9.3 13.4 5.7 7.7 ± 12.3 MFCC SPLP ± 6.6 ± 11.2 14.1 6.4 7.6 ± 9.7 ± 8.3 ± 8.6 18.6 2.2 16.4 ± 13.2 ± 2.8 ± 13.7 ± 1.6 ± 0.8 ± 0.6 ± 0.0 0.1 0.6 0.3 0.0 ± 0.4 ± 0.9 ± 0.7 ± 0.0 0.7 2.3 0.4 2.3 ± 1.9 ± 2.7 ± 2.3 ± 6.0 0.5 2.2 0.1 3.6 ± 1.3 ± 2.9 ± 0.5 ± 7.8 0.2 1.7 0.2 0.0 ± 1.6 ± 2.3 ± 0.6 ± 0.0 ± 5.9 ± 1.8 ± 5.6 3.6 1.7 2.8 ± 5.1 ± 1.8 ± 6.6 1.2 1.2 1.6 ± 5.3 ± 1.1 ± 7.5 0.7 0.8 1.4 ± 3.2 ± 1.4 ± 6.4 2.4 1.1 2.4 ± 3.8 4.1 ± 4.0 3.8 ± 5.7 4.7 ± 4.5 10.5 ± 7.9 ± 1.7 ± 7.4 ± 10.8 (a) Prostředí stojícího automobilu Parame- ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN trizace [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] RSPLP 5.7 4.1 1.6 1.0 2.7 0.4 0.0 0.9 0.3 0.4 0.0 RCPLP CPLP MFCC ± 3.0 ± 2.8 ± 2.0 8.3 7.5 0.8 ± 5.3 ± 5.7 ± 1.1 11.3 9.1 2.3 ± 8.0 ± 5.8 ± 5.8 22.7 7.1 15.6 ± 21.1 SPLP 53.3 ± 28.2 ± 6.5 ± 23.7 1.8 51.5 ± 2.8 ± 30.2 ± 1.0 ± 2.3 ± 0.5 ± 0.0 1.6 2.7 0.2 2.9 ± 1.3 ± 2.1 ± 0.5 ± 5.3 1.5 3.3 0.5 3.8 ± 1.4 ± 2.9 ± 1.0 ± 6.7 1.0 2.8 0.3 2.9 ± 1.1 ± 2.8 ± 0.4 ± 6.5 0.2 1.2 0.4 0.0 ± 0.6 ± 2.1 ± 0.8 ± 0.2 ± 1.8 ± 0.4 ± 1.0 0.6 0.1 0.0 ± 1.0 ± 0.2 ± 0.0 0.8 0.7 0.2 ± 2.5 ± 1.7 ± 0.5 4.0 2.0 1.3 ± 0.0 0.0 ± 0.0 0.6 ± 3.5 8.3 ± 8.1 ± 5.2 ± 3.2 ± 17.4 6.1 2.8 11.8 30.8 ± 9.8 ± 4.8 ± 8.7 ± 27.4 (b) Prostředí jedoucího automobilu Tabulka 7.2: Chyby klasifikace optimálně nastaveného fonémového HMM VAD lostí s chybami dosaženými u signálů neobsahujících neřečové události, k výraznějšímu nárůstu chyby klasifikace dochází pouze u signálů obsahujících slyšitelné dýchání a listování papírem. Další typy řečových položek Modely fonémů byly získány na databázi CZKCC. Bylo proto nutné ověřit obecnou funkčnost VAD i na signálech obsahujících jiné rušivé prostředí a jiné typy řečových položek. Výsledky chyb klasifikace ERR a ERS pro množiny CAR2ECSVAD a SPEECONVAD jsou v tabulkách 7.4a, 7.4b a 7.4c, je patrné že při využití koeficientů metodou RASTA jsou dosaženy dobré výsledky i na těchto množinách. Shrnutí Byl navržen a otestován VAD, který vychází z fonémového rozpoznávače řeči. Dosahuje velmi nízkých chyb klasifikace zvláště na nahrávkách z velmi rušného prostředí jedoucího automobilu, ale také na promluvách obsahujících neřečové události. Jako nejoptimálnější 74 KAPITOLA 7. DETEKCE NA BÁZI HMM Parame- ERR ERS trizace [%] [%] RSPLP 6.4 3.0 RCPLP CPLP MFCC SPLP ± 2.3 ± 1.5 8.2 7.1 ± 5.0 ± 5.6 13.0 11.8 ± 6.8 ± 7.4 15.9 8.6 ± 10.2 ± 4.6 39.5 1.7 ± 26.3 ± 1.9 (a) Blinkr RSPLP CPLP SPLP MFCC RSPLP CPLP SPLP ± 14.6 ± 1.1 12.6 9.1 ± 7.8 ± 6.0 17.1 1.0 ± 14.3 ± 1.0 17.4 5.0 ± 16.9 ± 4.3 22.3 3.6 ± 16.1 ± 4.7 (b) Dýchání Parame- ERR ERS trizace [%] [%] MFCC 19.1 3.7 RCPLP Parame- ERR ERS trizace [%] [%] RCPLP 12.4 0.9 ± 15.6 ± 4.6 22.7 0.8 ± 16.8 ± 1.1 24.2 1.2 ± 14.8 ± 1.2 32.8 6.2 ± 24.2 ± 8.3 40.8 0.3 ± 12.4 ± 0.6 (d) Listování CPLP MFCC SPLP RCPLP CPLP MFCC SPLP ± 2.7 ± 2.8 6.2 5.1 ± 2.7 ± 3.4 11.1 9.4 ± 6.7 ± 6.6 24.2 8.3 ± 16.6 ± 8.6 42.3 2.0 ± 29.3 ± 2.3 (c) Klapání Parame- ERR ERS trizace [%] [%] RCPLP 5.6 5.3 RSPLP Parame- ERR ERS trizace [%] [%] RSPLP 5.2 3.4 ± 0.1 ± 0.2 8.1 4.8 ± 0.2 ± 0.4 10.9 10.7 ± 2.7 ± 3.0 13.7 13.6 ± 0.0 ± 0.0 23.2 3.6 ± 7.8 ± 0.5 Parame- ERR ERS trizace [%] [%] RCPLP 8.0 0.7 RSPLP MFCC CPLP SPLP ± 9.7 ± 0.9 9.7 1.1 ± 8.4 ± 0.8 14.1 8.7 ± 6.0 ± 5.6 17.4 6.2 ± 17.2 ± 5.0 23.0 3.1 ± 9.3 ± 3.7 (f) Jiné neřečové události (e) Řazení Tabulka 7.3: Úspěšnost fonémového HMM VAD u promluv obsahujících různé neřečové události. Parame- ERR ERS trizace [%] [%] RCPLP 9.6 0.4 ± 5.4 RSPLP CPLP SPLP MFCC Parame- ERR ERS trizace [%] [%] RCPLP 7.9 1.8 ± 0.8 13.6 0.4 ± 8.5 ± 0.8 31.0 18.6 ± 20.3 ± 19.6 47.2 0.0 ± 15.1 ± 0.1 62.3 22.0 ± 20.8 ± 25.4 (a) CAR2ECSVAD ± 5.9 RSPLP SPLP CPLP MFCC Parame- ERR ERS trizace [%] [%] RCPLP 5.3 0.4 ± 2.1 10.9 2.1 ± 7.9 ± 2.4 18.8 2.2 ± 15.5 ± 3.3 29.3 21.0 ± 21.8 ± 22.1 37.7 23.3 ± 21.4 ± 22.3 (b) Číslice (SPEECONVAD) ± 3.8 RSPLP SPLP CPLP MFCC ± 1.0 8.9 0.5 ± 5.5 ± 0.9 13.0 0.5 ± 11.5 ± 1.0 28.1 22.9 ± 23.5 ± 23.6 33.8 21.0 ± 22.6 ± 23.4 (c) Věty (SPEECONVAD) Tabulka 7.4: Úspěšnost fonémového HMM VAD na dalších typech řečových položek. 7.7. EXPERIMENTY 75 0.8 0.8 0.8 0.6 0.6 0.6 0.4 TP 1 TP 1 TP 1 0.4 3 stavy 5 stavů 7 stavů 9 stavů 0.2 0 0 0.2 0.4 0.6 FP 0.4 3 stavy 5 stavů 7 stavů 9 stavů 0.2 0 0.8 (a) Stojící automobil 1 0 0.2 0.4 0.6 FP 3 stavy 5 stavů 7 stavů 9 stavů 0.2 0 0.8 (b) Zapnutý motor 1 0 0.2 0.4 0.6 FP 0.8 1 (c) Jedoucí automobil Obrázek 7.12: Vliv zvyšování počtu stavů modelů na ROC charakteristiky pro DHMM VAD s CPLP koeficienty v uvedených prostředích. nastavení se ukázalo použití většího počtu směsí, což je ve shodě se zkušenostmi s rozpoznáváním řeči. Použití spektrálních a kepstrálních koeficientů RASTA vedlo k velmi dobrým výsledkům, naopak v případě využití MFCC parametrizace byla překvapující vysoká chyba v prostředí automobilu. Nevýhoda testovaného VAD je jeho větší složitost, ale ta je plně vyvážena velmi nízkou chybou klasifikace. 7.7.2 VAD vyhodnocující vzdálenosti HMM (DHMM) Nejprve byl analyzován vliv počtu stavů a směsí modelů na velikost chyb klasifikace, dále byla zjištěna optimální hodnota prahu a nakonec byly nastavené VAD otestovány na množinách obsahujících promluvy s různou úrovní šumu. Implementace Pro trénování byly použity nástroje z HTKTool, implementace detektoru je součástí této práce. Pro výpočet pravděpodobností P (O|λ) byla nejprve využita forward procedura. To sice vedlo k akceptovatelným výsledkům, nicméně využití Viterbiho algoritmu vedlo k mírně menší chybě klasifikace a větší rychlosti algoritmu. Předpokládám, že jedním z důvodů může být přesnější výpočet pravděpodobnosti P (O|λ), respektive log(P (O|λ)), protože využití logaritmu nevedlo k problémům s přesností vyčíslení. Výpočet pomocí forward procedury vedl k nepřesným výsledkům, pravděpodobně kvůli problémům s přesností použitého datového typy. Nepomhlo ani normování mezivýsledků algoritmu podle publikace [62]. 76 KAPITOLA 7. DETEKCE NA BÁZI HMM 1 0.8 TP 0.6 0.4 0.2 ROC pro CPLP 0 0 0.2 0.4 0.6 0.8 1 FP Obrázek 7.13: Nastavení prahu pro DHMM VAD pomocí ROC charakteristiky Analýza optimálního počtu stavů a směsí modelů Výpočet vzdáleností mezi modelem řeči a šumu vede k získání diskriminační funkce, která odpovídá míře rozdílnosti mezí predikcí příslušnosti segmentu k řeči či šumu. Ke zjištění optimálního nastavení VAD byly využity ROC charakteristiky, které popisují dynamiku diskriminační funkce, a to pro všechny testované počty stavů a směsí HMM. Analýza byla provedena na testovacích množinách ze třech různých prostředí a pěti parametrizací. V grafech 7.12a, 7.12b a 7.12c jsou ukázány ROC charakteristiky pro případ, kdy byly použity kepstrální PLP koeficienty a HMM s normálním rozložením, tj. bez většího počtu směsí. ROC charakteristika se liší pro jednotlivá prostředí a vyplývá z ní, že diskriminační míra nejlépe rozlišuje řečovou aktivitu v prostředí stojícího automobilu se zapnutým motorem. Pro prostředí stojícího automobilu a jedoucího automobilu jsou pak ROC charakteristiky posunuté mírně dolů doprava, což značí mírné zhoršení dynamiky diskriminace. Při změně počtu stavů HMM se mění i tvar ROC charakteristiky, v každém z analyzovaných prostředí je změna jiná, nicméně zvýšování počtu stavů, až do sedmi stavů, vede většinou k posunu charakteristiky doleva nahoru, tzn. ke zlepšení dynamiky, 9 stavů pak dynamiku již zhoršuje. Optimální se jeví použít 7-stavové modely, které vykazují pro koeficienty CPLP nejlepší vlastnosti ROC charakteristiky. V příloze v grafech A.2a až A.2l jsou zobrazeny ROC charakteristiky pro další parametrizace pro modely od 3 do 9 stavů. Každá z ROC charakteristik příslušející k dané parametrizaci vykazuje jiný průběh, přičemž počet stavů tento průběh ovlivňuje. I když ve většině případů je jeho změna spíše menší. Jelikož je hledáno nastavení vedoucí ke zvýšení robustnosti detektoru, budou upřednostňovány takové hodnoty, které zlepší chování VAD především v rušnějším prostředí. Pro DHMM VAD s parametrizací CPLP se jeví optimální použít 7 stavové modely se 4 směsmi, pro MFCC 7 stavové modely s 16 stavy, pro RCPLP 3 stavové modely s 16 stavy, pro SPLP nemá zvyšování počtu stavů ani směsí vliv na zlepšení dynamiky diskriminační křivky a nejlepší výsledky jsou dosaženy se 3 stavy bez směsí, pro RSPLP je pak nejlepší použít 7 stavové modely bez většího počtu směsí. Při použití různých parametrizací jsou tedy poměrně velké rozdíly. Zatímco u kepstrálních koeficientů RASTA nevede navyšování počtu stavů ke zlepšení dynamiky diskriminační funkce, u spektrálních koeficientů RASTA je situace obrácená a navyšování počtu stavů má výraznější vliv na zlepšení dynamiky diskriminační funkce. 7.7. EXPERIMENTY 77 Parame- ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN trizace [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] CPLP 13.7 5.0 8.7 0.2 3.1 1.7 0.0 0.7 3.9 2.3 1.8 ± 8.3 MFCC 14.1 ± 8.1 RCPLP 14.4 ± 9.0 SPLP 17.9 ± 8.6 RSPLP 20.9 ± 8.0 ± 4.2 ± 6.9 4.5 9.6 ± 3.5 ± 7.2 4.5 9.9 ± 7.2 ± 6.2 9.4 8.5 ± 4.9 ± 6.4 13.7 7.2 ± 7.3 ± 4.2 ± 1.5 ± 2.6 ± 3.1 ± 0.0 0.2 2.9 1.4 0.0 ± 1.5 ± 2.3 ± 2.2 ± 0.0 0.4 2.1 2.0 0.0 ± 3.1 ± 3.7 ± 3.8 ± 0.0 0.4 6.6 2.4 0.0 ± 2.2 ± 4.0 ± 3.1 ± 0.0 0.2 9.1 4.3 0.1 ± 1.2 ± 6.8 ± 4.4 ± 0.9 ± 2.9 ± 2.2 ± 6.1 0.9 4.2 2.5 ± 3.1 ± 2.3 ± 6.5 1.0 3.8 2.3 ± 2.8 ± 2.5 ± 5.1 0.6 4.4 1.6 ± 2.2 ± 2.8 ± 5.5 0.5 4.4 1.2 ± 2.1 ± 2.4 ± 3.1 ± 2.3 2.0 ± 2.3 2.8 ± 2.6 1.9 ± 2.2 1.1 ± 1.5 (a) Prostředí stojícího automobilu Parame- ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN trizace [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] RCPLP 9.3 3.7 5.6 0.2 3.0 0.6 0.0 0.9 2.2 2.4 0.0 ± 5.5 ± 2.9 MFCC CPLP SPLP 12.6 7.5 ± 7.5 ± 3.1 ± 7.9 5.0 7.7 ± 6.6 ± 3.0 12.7 ± 6.5 12.7 RSPLP ± 5.5 5.1 4.4 8.3 ± 6.2 ± 2.6 ± 5.9 23.8 2.5 21.3 ± 11.8 ± 2.3 ± 12.6 ± 0.5 ± 2.6 ± 0.8 ± 0.0 0.2 4.4 0.5 0.0 ± 0.6 ± 2.6 ± 0.7 ± 0.0 0.2 4.1 0.6 0.0 ± 0.6 ± 2.4 ± 1.0 ± 0.0 0.1 4.2 0.1 0.0 ± 0.3 ± 2.4 ± 0.3 ± 0.0 0.0 1.7 0.8 0.0 ± 0.1 ± 1.8 ± 0.9 ± 0.0 ± 1.6 ± 1.0 ± 3.6 0.2 2.2 5.1 ± 0.6 ± 0.9 ± 7.2 0.2 2.3 5.3 ± 0.5 ± 0.8 ± 5.9 0.5 3.4 4.4 ± 2.0 ± 1.2 ± 5.4 1.5 4.5 15.4 ± 2.2 ± 2.3 ± 9.8 ± 0.0 0.0 ± 0.0 0.0 ± 0.0 0.0 ± 0.0 0.0 ± 0.0 (b) Prostředí jedoucího automobilu Tabulka 7.5: Chyby klasifikace optimálně nastaveného DHMM VAD Nastavení prahu Na základě předchozí analýzy by bylo možné přímo určit vhodnou hodnotu prahu pro dané prostředí. Nicméně je-li hledáno takové nastavení prahu, které by vyhovovalo univerzálně všem prostředím, je výhodné využít trénovací množinu obsahující promluvy z různých prostředí. V experimentech bylo použito statické nastavení prahu a jeho hodnota byla nastavená pomocí ROC charakteristiky. Optimální hodnota leží v bodě, který je nejblíže k levému hornímu rohu grafu. ROC charakteristiky byly vypočteny pro všechny zkoumané parametrizace a jsou zobrazeny v grafech 7.13, A.1a až A.1c, kde kroužkem jsou označeny body vedoucí k optimálnímu nastavení. Pro parametrizaci MFCC byla zjištěna nejvhodnější hodnota prahu l = 0.355, pro CPLP l = 0.254, pro RCPLP l = 0.572, pro SPLP l = 0.052 a nakonec pro RSPLP l = 0.049. Tato nastavení pak byla použita v následujících testech. 78 KAPITOLA 7. DETEKCE NA BÁZI HMM Parame- ERR ERS trizace [%] [%] RCPLP 14.9 2.9 CPLP SPLP MFCC RSPLP ± 7.2 ± 2.1 20.7 3.1 ± 9.7 ± 2.2 21.5 2.6 ± 6.7 ± 1.5 23.1 2.9 ± 11.4 ± 2.2 37.8 1.6 ± 6.5 ± 1.3 Parame- ERR ERS trizace [%] [%] CPLP 12.4 3.5 MFCC SPLP RSPLP RCPLP ± 4.4 ± 1.7 13.0 3.8 ± 3.5 ± 1.9 13.6 5.9 ± 4.3 ± 4.5 17.7 12.2 ± 4.8 ± 5.3 18.8 7.5 ± 9.6 ± 10.2 (a) Blinkr (b) Dýchání Parame- ERR ERS trizace [%] [%] RSPLP 23.3 11.5 Parame- ERR ERS trizace [%] [%] RCPLP 17.8 3.7 ± 10.8 RCPLP MFCC CPLP SPLP ± 8.1 24.0 8.1 ± 16.4 ± 13.4 26.3 5.2 ± 17.0 ± 4.6 26.7 6.2 ± 17.2 ± 7.2 28.0 7.0 ± 15.7 ± 4.6 ± 2.9 SPLP CPLP RSPLP MFCC (d) Listování Parame- ERR ERS trizace [%] [%] RCPLP 10.5 3.0 MFCC SPLP CPLP RSPLP ± 6.3 ± 2.6 14.5 4.1 ± 9.1 ± 3.3 14.5 4.2 ± 6.4 ± 2.4 15.1 3.8 ± 7.9 ± 2.7 23.6 2.6 ± 11.4 ± 1.8 (c) Klapání Parame- ERR ERS trizace [%] [%] RCPLP 12.1 3.7 ± 1.4 19.3 7.3 ± 1.9 ± 5.5 25.9 3.5 ± 12.6 ± 2.1 26.1 5.2 ± 7.7 ± 1.4 27.8 3.5 ± 14.3 ± 2.1 ± 6.6 SPLP RSPLP MFCC CPLP ± 3.9 12.8 6.1 ± 4.6 ± 4.2 13.8 8.6 ± 5.7 ± 5.1 14.8 5.1 ± 4.7 ± 4.1 15.0 5.1 ± 5.1 ± 4.3 (f) Jiné neřečové události (e) Řazení Tabulka 7.6: Úspěšnost DHMM VAD u promluv obsahujících různé neřečové události. Parame- ERR ERS trizace [%] [%] CPLP 5.8 0.8 ± 3.4 MFCC RCPLP SPLP RSPLP Parame- ERR ERS trizace [%] [%] CPLP 6.8 3.9 ± 1.3 7.5 3.0 ± 3.9 ± 3.4 8.5 1.0 ± 4.8 ± 1.8 14.8 10.6 ± 8.2 ± 8.5 20.6 16.5 ± 7.0 ± 7.4 (a) CAR2ECSVAD ± 5.3 MFCC RCPLP SPLP RSPLP Parame- ERR ERS trizace [%] [%] MFCC 5.0 2.2 ± 5.0 8.9 6.7 ± 7.1 ± 7.0 9.4 5.3 ± 8.2 ± 8.1 14.4 12.7 ± 8.8 ± 9.1 20.9 18.4 ± 11.3 ± 12.4 (b) Číslice (SPEECONVAD) ± 3.3 CPLP RCPLP SPLP RSPLP ± 2.8 5.0 1.1 ± 3.6 ± 1.8 7.7 2.7 ± 4.8 ± 4.5 9.4 6.9 ± 5.6 ± 5.6 18.0 14.4 ± 10.2 ± 10.6 (c) Věty (SPEECONVAD) Tabulka 7.7: Úspěšnost DHMM VAD na dalších typech řečových položek. 7.7. EXPERIMENTY 79 Vliv rušného prostředí automobilu Dále byly provedeny testy na množině CZKCCVAD obsahující nahrávky z různých prostředí s různě silnou úrovní šumu. Vliv prostředí byl ukázán již na tvaru ROC charakteristik. Nicméně pro přesnější popis chování a také pro možnost srovnání s ostatními detektory, byly pro VAD vypočteny míry chyb klasifikace, které jsou v tabulkách 7.5a a 7.5b. Na první pohled zaujme, že jsou chyby klasifikace nižší v prostředí jedoucího automobilu než ve stojícím automobilu. To lze vysvětlit složením trénovací množiny obsahující promluvy z obou zmiňovaných prostředí. Spektrální PLP koeficienty RASTA vedly k poměrně vysoké míře celkové chyby ERR v tišším prostředí stojícího automobilu i v prostředí jedoucího automobilu. Kepstrální PLP koeficienty RASTA vedly naopak k nejlepším výsledkům hlavně v rušnějším prostředí. Největší rozdíly lze pozorovat v tišším prostředí v míře zkracování řečových úseků, tj. v chybě TRB. V rušnějším prostředí jedoucího automobilu se pak změnila úspěšnost v chybné klasifikaci šumu jako řeč, tj. chybě NDS. Na základě vyšších hodnot chyb TRB a OVF a nižších hodnot chyb TRF a OVB lze také usuzovat, že VAD nesprávně a předčasně predikuje celé úseky řeči. Toto by mohlo inspirovat ke změně „post-processingu” detekce, a tím ke zlepšení klasifikace neobsahující tento typ chyb. Neřečové události VAD byl testován také na výběrech signálů obsahujících neřečové události. Výsledky pro všechny parametrizace jsou v tabulkách 7.6a až 7.6f. Je vidět, že při srovnání s promluvami, které neobsahují neřečové události, přítomnost neřečových událostí většinou zvyšuje celkovou míru chyby klasifikace ERR, a to hlavně v šumových segmentech. Ke zvýšení míry chyb došlo hlavně kvůli přítomnosti slyšitelného listování papírem a slyšitelného blinkru. Naopak přítomnost dechu, který se většinou vyskytoval u promluv v tichém prostředí, chybu klasifikace ERR nezvýšila. Další typy řečových položek Na signálech z množin CAR2ECSVAD a SPEECONVAD byla ověřena použitelnost VAD za okolností, kdy jsou promluvy výrazněji odlišné od trénovací množiny a je tedy ověřována schopnost generalizace modelu. Z výsledků, které jsou v tabulkách 7.7a, 7.7b a 7.7c je znát, že VAD je obecně použitelný. Dokonce byly dosaženy menší chyby klasifikace než pro množinu CZKCCVAD v předchozím experimentu. Závěrem lze konstatovat, že testovaný detektor lze nasadit v reálných podmínkách. Shrnutí Byl navržen, optimálně nastaven a otestován detektor řečové aktivity, který klasifikuje na základě vzdálenosti mezi skrytými Markovovskými modely. VAD dosáhl dobrých výsledku v rušném prostředí převážně v případech použití PLP koeficientů RASTA. Výhoda navrženého VAD spočívá hlavně v možnosti plynulého nastavování prahové hodnoty, tak aby byla upřednostněna spolehlivost v řečových nebo šumových segmentech, což je vhodné zvláště pro případ reálného využití, kde se velmi často toleruje vyšší chyba klasifikace v šumových segmentech, je-li tím docíleno snížení chyby v řečových úsecích, což například u telefonních aplikací zvyšuje porozumění řeči a umožňuje použití VAD, aniž by toho účastník telefonního hovoru zpozoroval. 80 KAPITOLA 7. DETEKCE NA BÁZI HMM MFCC RCPLP CPLP RSPLP SPLP Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS směsí [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] 0 10.4 3.6 12.2 2.6 10.0 4.2 11.8 5.8 14.8 10.2 ± 7.5 4 8 16 32 ± 3.3 ± 7.2 ± 2.7 ± 7.0 ± 3.9 ± 6.8 ± 4.3 ± 11.7 ± 8.8 9.3 3.8 11.3 3.5 10.3 5.0 11.6 6.2 13.8 9.1 ± 9.1 ± 3.6 ± 7.0 ± 3.0 ± 9.4 ± 4.2 ± 6.8 ± 3.6 ± 10.8 ± 5.7 9.2 4.7 11.9 3.8 10.0 5.1 11.0 5.3 12.3 8.9 ± 7.9 ± 4.1 ± 7.3 ± 3.0 ± 8.7 ± 4.5 ± 6.1 ± 3.3 ± 7.7 ± 5.2 9.6 4.7 11.6 4.2 9.9 4.9 11.3 6.4 13.2 8.6 ± 8.7 ± 3.6 ± 7.2 ± 3.0 ± 9.0 ± 4.2 ± 5.8 ± 3.8 ± 10.0 ± 5.2 9.5 5.1 12.0 3.8 10.0 5.1 10.9 6.3 13.0 9.9 ± 7.8 ± 4.3 ± 7.4 ± 3.0 ± 8.7 ± 4.5 ± 6.1 ± 3.6 ± 8.8 ± 6.5 (a) Prostředí stojícího automobilu MFCC RCPLP CPLP RSPLP SPLP Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS směsí [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] 0 10.6 6.6 9.7 8.2 8.9 6.4 10.5 9.4 8.9 7.8 ± 6.8 4 8 16 32 ± 4.1 ± 4.2 ± 4.3 ± 5.9 ± 4.1 ± 4.7 ± 4.8 ± 4.8 ± 5.2 10.8 5.2 8.0 6.9 8.5 5.6 8.7 7.8 7.6 6.0 ± 13.8 ± 4.0 ± 3.7 ± 4.0 ± 6.1 ± 3.8 ± 4.0 ± 4.2 ± 4.5 ± 3.6 11.0 5.7 7.9 6.6 9.0 5.7 8.8 7.8 7.7 6.7 ± 13.4 ± 4.3 ± 3.6 ± 3.7 ± 7.5 ± 3.9 ± 4.2 ± 4.6 ± 3.8 ± 3.9 10.4 5.0 8.0 7.0 9.2 5.7 9.2 8.3 10.7 6.3 ± 13.3 ± 3.8 ± 3.7 ± 4.0 ± 8.2 ± 4.0 ± 4.1 ± 4.3 ± 13.6 ± 4.4 10.8 5.5 7.9 6.6 9.0 5.6 9.4 8.6 10.8 6.0 ± 13.3 ± 4.1 ± 3.6 ± 3.7 ± 7.5 ± 3.9 ± 4.7 ± 4.8 ± 13.5 ± 4.2 (b) Prostředí jedoucího automobilu Tabulka 7.8: Analýza vlivu počtu směsí LP modelů HMM VAD 7.7.3 VAD modelující promluvy pomocí dvou HMM Detektor řečové aktivity, využívající obecné modely řeči a šumu, byl testován pro dva odlišné typy HMM. Nejprve byla analyzována možnost využití levo-pravých modelů – LPHMM VAD – a následně byl analyzován také VAD postavený pomocí ergodických modelů – EHMM VAD. V obou případech byl analyzován vliv počtu směsí a počet stavů modelů na míru chyb klasifikace. Na závěr byla provedena stejná sada experimentů jako v předchozích experimentech určené pro zjištění úspěšnosti klasifikace VAD v různě rušných prostředích, na promluvách obsahujících specifické neřečové události a na množinách CAR2ECSVAD a SPEECONVAD obsahující celé věty, číslovky a další typy řečových promluv. Klasifikační část testovaného detektoru řečové aktivity byla implementována pomocí nástrojů z HTKToolkit. Pro zpracování signálu pak byly použity různé nástroje uvedené 7.7. EXPERIMENTY 81 MFCC RCPLP CPLP RSPLP SPLP Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS stavů [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] 3 12.5 4.1 13.0 3.3 11.8 6.6 18.1 10.0 16.9 10.6 ± 8.0 5 7 9 ± 3.2 ± 7.9 ± 2.5 ± 8.4 ± 4.8 ± 7.7 ± 4.0 ± 10.6 ± 8.4 9.7 5.0 12.2 4.9 10.7 5.5 13.3 7.3 14.3 11.6 ± 6.6 ± 4.0 ± 7.5 ± 3.2 ± 9.6 ± 4.7 ± 6.9 ± 3.9 ± 9.3 ± 7.8 10.4 3.6 11.3 3.5 10.3 5.0 11.6 6.2 12.3 8.9 ± 7.5 ± 3.3 ± 7.0 ± 3.0 ± 9.4 ± 4.2 ± 6.8 ± 3.6 ± 7.7 ± 5.2 9.3 3.5 11.3 3.4 10.2 5.0 13.6 7.8 13.0 8.4 ± 7.0 ± 3.5 ± 7.1 ± 3.0 ± 8.3 ± 4.0 ± 9.6 ± 8.4 ± 9.5 ± 5.9 (a) Prostředí stojícího automobilu MFCC RCPLP CPLP RSPLP SPLP Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS stavů [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] 3 12.3 9.9 9.4 7.5 11.0 5.4 11.7 7.9 12.0 6.1 5 7 9 ± 4.7 ± 4.7 ± 4.3 ± 4.0 ± 6.2 ± 3.4 ± 5.6 ± 3.9 ± 8.9 ± 3.5 10.2 7.8 8.9 7.7 10.2 5.7 10.1 8.3 15.8 6.4 ± 4.8 ± 4.5 ± 3.7 ± 4.0 ± 8.1 ± 4.2 ± 4.3 ± 4.0 ± 22.4 ± 4.3 10.6 6.6 8.0 6.9 8.5 5.6 8.7 7.8 7.7 6.7 ± 6.8 ± 4.1 ± 3.7 ± 4.0 ± 6.1 ± 3.8 ± 4.0 ± 4.2 ± 3.8 ± 3.9 9.8 6.9 7.6 6.8 8.8 5.2 8.2 6.7 8.7 6.4 ± 6.3 ± 4.4 ± 3.4 ± 3.8 ± 8.5 ± 3.9 ± 4.2 ± 3.9 ± 7.7 ± 4.4 (b) Prostředí jedoucího automobilu Tabulka 7.9: Analýza počtu stavů LP modelů HMM VAD v kapitole 4. V experimentech byly použity opět stejné parametrizace jako v předchozích experimentech – melovské kepstrální koeficienty, kepstrální a spektrální PLP koeficienty a koeficienty získané metodou RASTA. Trénování a inicializace V inicializační fázi bylo postupováno stejně jak pro levo-pravé tak pro ergodické modely. Nejprve byl vytvořen levo-pravý model, který byl inicializován pomocí jednorázové uniformní segmentace a následně pomocí Viterbiho zarovnání. Pro ergodické modely byly následně přidány všechny požadované přechody, tak aby se levo-pravý model transformoval do požadované struktury. Pro trénování byl v obou případech využit Baum-Welchův algoritmus. 82 KAPITOLA 7. DETEKCE NA BÁZI HMM MFCC RCPLP CPLP RSPLP SPLP Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS stavů [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] 3 17.7 10.7 13.5 6.4 16.1 5.3 17.4 6.6 16.9 4.9 ± 4.5 5 7 9 ± 5.2 ± 5.3 ± 3.4 ± 7.7 ± 3.1 ± 4.6 ± 3.0 ± 8.4 ± 3.2 13.3 8.6 10.4 6.5 8.6 5.0 12.8 7.0 10.0 6.0 ± 4.5 ± 5.2 ± 3.5 ± 3.6 ± 4.5 ± 3.8 ± 2.9 ± 2.9 ± 5.2 ± 3.2 15.8 7.1 10.3 6.5 7.7 5.3 9.8 6.9 7.9 6.3 ± 5.9 ± 4.6 ± 3.1 ± 4.1 ± 3.3 ± 3.8 ± 4.0 ± 4.2 ± 3.7 ± 3.5 9.9 6.9 8.8 6.2 7.9 4.6 10.9 6.3 7.5 5.8 ± 4.3 ± 4.4 ± 2.8 ± 3.6 ± 4.5 ± 3.6 ± 5.3 ± 4.1 ± 4.4 ± 4.6 Tabulka 7.10: Analýza počtu stavů modelů HMM VAD při klasifikaci promluv obsahujících slyšitelný blinkr Optimalizace počtu stavů a směsí V experimentech byly použity modely, u kterých byl navyšován počet směsí v intervalu 0 – 32, kdy hodnota 0 značí, že každý stav byl modelován pouze pomocí vícerozměrného normálního rozložení. Modely řeči a šumu měly stejný počet stavů. Nejprve byla provedena analýza VAD, který využívá levo-pravé modely. V tabulkách 7.8a a 7.8b jsou hodnoty, které byly získány pomocí VAD s levo-pravými modely se sedmi stavy. Před začátkem experimentů byl jednoznačně očekáván výsledek, že zvyšování počtu směsí povede ke zvýšení přesnosti VAD. Bylo zjištěno, že je takto možné zvýšit přesnost klasifikace. Nicméně není nutné používat vysoký počet směsí, navyšování na 32 směsí už většinou nevede k dalšímu zlepšení klasifikace. Pro optimální funkčnost detektoru ve všech typech prostředí, je vhodné použít tyto počty směsí u levo-pravých modelů. Pro parametrizaci MFCC nepoužívat směsi vůbec. Pro kepstrální i spektrální PLP koeficienty RASTA a pro kepstrální PLP koeficienty vychází nejlépe 4 směsi a pro spektrální PLP koeficienty 8 směsí. V dále provedených experimentech byly vždy použity uvedené počty směsí. Další experimenty se zaměřovaly na optimalizaci počtu stavů modelů. U všech modelů byly použity HMM s počtem směsí optimalizovaných na základě předchozího experimentu, a to pro prostředí stojícího automobilu, prostředí stojícího automobilu se zapnutým motorem a pro prostředí jedoucího automobilu. Počet stavů modelů byl zvyšován od 3 do 9 stavů. Výsledky těchto experimentů pro levo-pravé modely jsou v tabulkách 7.9a a 7.9b pro zmiňované prostředí. U většiny parametrizací je vidět, že zvětšování počtu stavů HMM vede ke snížení chyby ERR a to především díky snižování ERS, tj. chyby klasifikace v řečových segmentech. Přičemž tato závislost se projevuje jak v tišším prostředí stojícího automobilu, tak v prostředí jedoucího automobilu. Velmi výrazná je tato závislost u nahrávek obsahujících neřečové události, například slyšitelný blinkr, což je uvedeno v tabulce 7.10. Závěrem těchto experimentů je zjištění optimálních nastavení testovaného HMM VAD pro nejperspektivnější parametrizace - MFCC, RCPLP, CPLP, RSPLP a SPLP. Nejúspěšnější byly VAD využívající levo-pravé modely s větším počtem stavů, a to 9 stavů pro parametrizace MFCC a SPLP a 7 stavů pro parametrizace RCPLP, CPLP a RSPLP vždy s počtem směsí podle předchozího odstavce. Z analýzy VAD, který využívá ergodické modely bylo zjištěno, že pro tento případ je optimální použít pro všechny parametrizace 7 stavové modely kromě parametrizace SPLP, kde je lepší použít 9 stavové modely. Pro 7.7. EXPERIMENTY 83 Parame- ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN trizace [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] MFCC 9.3 3.5 5.8 0.5 2.3 0.7 0.0 1.6 1.7 0.5 2.0 ± 7.0 CPLP 10.3 ± 9.4 RCPLP 11.3 ± 7.0 RSPLP 11.6 ± 6.8 SPLP 13.0 ± 9.5 ± 3.5 ± 5.5 5.0 5.3 ± 4.2 ± 8.2 3.5 7.8 ± 3.0 ± 6.7 6.2 5.4 ± 3.6 ± 6.6 8.4 4.6 ± 5.9 ± 6.7 ± 1.6 ± 2.7 ± 2.1 ± 0.0 0.6 3.4 1.0 0.0 ± 1.8 ± 2.9 ± 3.2 ± 0.0 0.2 2.4 0.9 0.0 ± 0.6 ± 2.5 ± 2.0 ± 0.0 0.6 4.2 1.2 0.2 ± 1.3 ± 2.9 ± 2.0 ± 1.8 1.6 5.4 0.8 0.5 ± 3.6 ± 3.8 ± 1.7 ± 3.1 ± 4.7 ± 1.2 ± 1.4 1.6 1.4 0.8 ± 6.1 ± 1.1 ± 4.0 1.3 2.0 2.2 ± 3.8 ± 2.3 ± 4.2 0.9 1.5 2.1 ± 3.3 ± 1.3 ± 4.9 0.7 1.3 1.6 ± 2.8 ± 1.1 ± 5.9 ± 2.1 1.5 ± 2.0 2.3 ± 2.3 1.0 ± 1.3 1.0 ± 1.9 (a) Prostředí stojícího automobilu Parame- ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN trizace [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] RCPLP 8.0 6.9 1.1 0.8 4.9 1.1 0.0 0.2 0.3 0.7 0.0 ± 3.7 CPLP 8.5 ± 6.1 RSPLP 8.7 ± 4.0 SPLP 8.7 ± 7.7 MFCC 9.8 ± 6.3 ± 4.0 ± 2.0 5.6 2.9 ± 3.8 ± 5.8 7.8 0.8 ± 4.2 ± 1.7 6.4 2.3 ± 4.4 ± 7.5 6.9 2.9 ± 4.4 ± 6.6 ± 1.1 ± 3.3 ± 1.2 ± 0.0 0.9 4.1 0.7 0.0 ± 1.0 ± 3.1 ± 1.0 ± 0.0 1.1 5.6 1.0 0.2 ± 1.1 ± 3.2 ± 1.3 ± 1.1 1.1 4.8 0.4 0.2 ± 1.0 ± 3.5 ± 0.6 ± 1.1 1.1 5.0 0.7 0.2 ± 1.2 ± 3.5 ± 1.0 ± 1.1 ± 0.5 ± 0.3 ± 1.8 0.7 0.8 1.4 ± 2.4 ± 2.3 ± 2.9 0.0 0.1 0.7 ± 0.1 ± 0.2 ± 1.7 1.2 0.7 0.4 ± 5.6 ± 2.0 ± 1.0 0.1 0.8 0.9 ± 0.2 ± 1.9 ± 2.5 ± 0.0 0.0 ± 0.0 0.0 ± 0.0 0.0 ± 0.0 1.1 ± 4.2 (b) Prostředí jedoucího automobilu Tabulka 7.11: Chyby klasifikace optimálně nastaveného HMM VAD využívajícího LP modely parametrizaci MFCC a CPLP je nejoptimálnější nastavit HMM bez směsí, na rozdíl od parametrizací RCPLP a RSPLP, kde je lepší použít 32 směsí a u SPLP 16 směsí. Klasifikace v prostředí automobilu Detektory využívající modely s optimálním počtem stavů a směsí byly testovány na promluvách z prostředí automobilu. Výsledky všech zjištěných chyb jsou v tabulkách 7.11a, 7.11b, 7.12a a 7.12b. V tišším prostředí byly dosaženy nejlepší výsledky pomocí parametrizací CPLP a MFCC, v rušnějším prostředí pak vede k lepším výsledkům využití parametrizací RSPLP nebo RCPLP. Parametrizace SPLP pak vede většinou k největší celkové chybě klasifikace ERR. Při srovnání VAD využívající levo-pravé a ergodické modely je vidět, že byly dosaženy srovnatelné chyby celkové chyby klasifikace ERR a i ostatní typy chyb klasifikace jsou podobné, což vypovídá o podobném chování VAD, nezávisle na použití levo-pravých nebo ergodických modelů. Danou skutečnost je možné vysvětlit způsobem úvodní inicializace, která byla stejná pro oba typy HMM. V případě prostředí je- 84 KAPITOLA 7. DETEKCE NA BÁZI HMM Parame- ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN trizace [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] CPLP 9.9 4.6 5.2 0.3 3.2 1.2 0.0 1.1 1.7 1.0 1.5 ± 7.3 MFCC 10.1 ± 7.4 RSPLP 11.2 ± 6.4 RCPLP 12.3 ± 6.9 SPLP 12.6 ± 8.5 ± 3.8 ± 5.8 4.6 5.5 ± 3.5 ± 6.3 4.8 6.4 ± 2.8 ± 6.2 3.9 8.4 ± 2.6 ± 7.0 8.2 4.5 ± 5.0 ± 6.1 ± 0.6 ± 3.0 ± 2.9 ± 0.0 0.4 3.4 0.9 0.0 ± 1.5 ± 3.0 ± 2.2 ± 0.0 0.7 2.5 1.6 0.0 ± 1.3 ± 2.2 ± 2.1 ± 0.0 0.2 2.0 1.7 0.0 ± 0.4 ± 2.1 ± 2.2 ± 0.0 0.7 5.1 2.3 0.0 ± 1.9 ± 3.5 ± 4.0 ± 0.0 ± 3.3 ± 1.2 ± 3.2 1.1 1.7 1.1 ± 3.4 ± 1.1 ± 3.7 1.0 1.7 2.6 ± 3.0 ± 1.5 ± 4.7 1.4 2.4 3.1 ± 3.8 ± 1.9 ± 4.7 0.6 1.7 1.3 ± 2.3 ± 1.3 ± 4.7 ± 2.1 1.6 ± 2.1 1.1 ± 1.7 1.4 ± 1.8 0.9 ± 1.5 (a) Prostředí stojícího automobilu Parame- ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN trizace [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] RCPLP 7.6 6.4 1.3 0.8 4.1 1.5 0.0 0.1 0.3 0.8 0.0 RSPLP MFCC CPLP ± 3.2 ± 3.4 ± 2.0 7.7 6.4 1.3 ± 3.7 ± 3.6 ± 2.0 5.4 4.0 ± 6.5 ± 3.6 9.4 ± 7.2 11.5 5.4 6.1 ± 13.6 ± 3.8 ± 14.5 SPLP 12.5 5.2 7.3 ± 8.2 ± 3.4 ± 9.2 ± 1.0 ± 2.6 ± 1.4 ± 0.0 0.9 4.2 1.3 0.0 ± 1.3 ± 2.6 ± 0.8 ± 0.0 0.7 3.6 1.1 0.0 ± 1.0 ± 2.5 ± 1.2 ± 0.0 0.7 3.7 1.0 0.0 ± 1.1 ± 2.8 ± 1.1 ± 0.0 0.6 3.3 1.3 0.0 ± 1.0 ± 2.3 ± 1.1 ± 0.0 ± 0.5 ± 0.3 ± 1.7 0.1 0.3 0.9 ± 0.3 ± 0.3 ± 1.9 0.3 0.6 2.7 ± 1.1 ± 0.8 ± 5.0 0.9 1.3 3.0 ± 3.0 ± 3.8 ± 5.3 0.5 1.3 5.6 ± 1.7 ± 2.0 ± 7.0 ± 0.0 0.0 ± 0.0 0.4 ± 2.1 0.9 ± 5.2 0.0 ± 0.0 (b) Prostředí jedoucího automobilu Tabulka 7.12: Chyby klasifikace optimálně nastaveného HMM VAD využívajícího ergodické modely doucího automobilu je nejvýraznější chyba TRB, která ukazuje, že úseky řeči jsou chybně zkracovány, což platí také pro prostředí stojícího automobilu avšak v menší míře. Neřečové události Otestováno bylo 5 různých druhů neřečových událostí. Chyby klasifikace jsou pro levopravé modely uvedeny v tabulce 7.13a pro signály se slyšitelným blinkrem, v tabulce 7.13b pro signály, kde je slyšet dýchání mluvčího, v tabulce 7.13c pro signály obsahující klapání, v tabulce 7.13d pro signály obsahující rušení způsobená listováním papíru a v tabulce 7.13e pro promluvy se slyšitelným řazením vyššího nebo nižšího převodového stupně. Pro ergodické modely jsou chyby klasifikace v tabulkách 7.15a až 7.15f. Výrazné zhoršení klasifikace se projevilo u VAD využívající levo-pravé i ergodické modely pouze u promluv obsahujících rušení způsobené listováním papíru nebo slyšitelné dýchání mluvčího. Ostatní neřečové události nezpůsobily zvýšení chyb klasifikace. Využití levo-pravých modelů přispělo k mírnému snížení chyby oproti použití ergodických modelů. 7.7. EXPERIMENTY 85 Další typy řečových položek V tabulkách 7.14a, 7.14b a 7.14c jsou výsledky experimentů na testovacích množinách CAR2ECSVAD a SPEECONVAD obsahujících další typy řečových položek a jiné šumové pozadí oproti množině CZKCCVAD. Vlastnosti testovacích signálů se výrazněji liší oproti nahrávkám, ke kterým byl detektor přizpůsoben pomocí trénovací množiny a VAD vykazuje lepší nebo srovnatelné výsledky, což dokazuje možnost jeho reálného nasazení. Shrnutí Byl vytvořen detektor řečové aktivity, který modeluje řečový signál pomocí dvou obecných modelů pro řeč a pro šum, který klasifikuje na základě nalezení nepravděpodobnější cesty skrze rozpoznávací síť vytvořenou spojením těchto modelů. Byly otestovány dvě verze VAD, první používá levo-pravé modely, druhá pak využívá ergodické modely. Testy ukázaly, že VAD dosahuje nízké chyby klasifikace ve všech testovaných prostředích. V tišším prostředí se ukazuje výhodné použití mel-kepstrálních nebo kepstrálních PLP koeficientu, v rušnějším prostředí jedoucího automobilu je dosahováno nejnižší chyby klasifikace pomocí PLP koeficientů RASTA. 86 KAPITOLA 7. DETEKCE NA BÁZI HMM Parame- ERR ERS trizace [%] [%] SPLP 7.5 5.8 ± 4.4 CPLP RSPLP MFCC RCPLP ± 4.6 7.7 5.3 ± 3.3 ± 3.8 9.8 6.9 ± 4.0 ± 4.2 9.9 6.9 ± 4.3 ± 4.4 10.3 6.5 ± 3.1 ± 4.1 (a) Blinkr RSPLP SPLP CPLP ± 11.1 CPLP RCPLP RSPLP SPLP ± 13.1 ± 4.1 20.3 3.1 15.2 6.0 ± 13.8 ± 4.7 17.8 4.1 ± 7.4 ± 3.8 18.4 8.4 ± 11.9 ± 5.9 18.5 12.1 ± 13.9 ± 6.8 ± 12.4 ± 4.3 21.9 4.8 ± 12.9 ± 4.5 26.5 9.8 ± 16.6 ± 11.2 28.8 3.7 ± 18.5 ± 5.7 (d) Listování SPLP RCPLP RSPLP ± 3.5 RCPLP CPLP MFCC RSPLP ± 3.5 7.8 6.1 ± 3.5 ± 3.9 8.1 5.0 ± 5.5 ± 2.9 8.3 5.8 ± 4.0 ± 3.5 9.0 7.5 ± 4.4 ± 4.8 (c) Klapání Parame- ERR ERS trizace [%] [%] CPLP 7.3 5.9 MFCC Parame- ERR ERS trizace [%] [%] SPLP 7.7 5.8 ± 4.0 (b) Dýchání Parame- ERR ERS trizace [%] [%] MFCC 14.5 3.0 RCPLP Parame- ERR ERS trizace [%] [%] MFCC 14.8 5.7 ± 0.2 ± 0.7 8.4 7.0 ± 0.5 ± 1.2 8.9 6.4 ± 2.1 ± 0.9 10.1 5.1 ± 0.5 ± 0.3 12.2 7.9 ± 1.6 ± 0.8 Parame- ERR ERS trizace [%] [%] SPLP 7.7 4.8 RSPLP RCPLP CPLP MFCC ± 3.2 ± 3.5 9.7 6.2 ± 5.2 ± 3.9 10.6 4.8 ± 9.0 ± 3.3 10.8 4.8 ± 5.1 ± 3.2 11.9 4.7 ± 7.3 ± 3.1 (f) Jiné neřečové události (e) Řazení Tabulka 7.13: Úspěšnost HMM VAD s levo-pravými modely u promluv obsahujících různé neřečové události. Parame- ERR ERS trizace [%] [%] RCPLP 4.9 1.5 ± 3.1 CPLP RSPLP MFCC SPLP Parame- ERR ERS trizace [%] [%] MFCC 5.9 3.0 ± 2.4 5.1 0.3 ± 3.2 ± 0.7 5.5 3.4 ± 3.1 ± 2.7 5.6 0.4 ± 3.1 ± 1.2 40.4 6.9 ± 18.9 ± 7.6 (a) CAR2ECSVAD ± 5.2 CPLP RCPLP RSPLP SPLP Parame- ERR ERS trizace [%] [%] MFCC 3.9 0.6 ± 3.7 6.6 3.4 ± 6.7 ± 4.2 9.0 5.2 ± 7.0 ± 4.9 12.3 9.6 ± 8.0 ± 7.4 14.3 12.3 ± 9.9 ± 10.0 (b) Číslice (SPEECONVAD) ± 3.8 CPLP RCPLP RSPLP SPLP ± 1.2 4.0 0.5 ± 4.6 ± 1.0 6.1 1.4 ± 4.0 ± 1.8 6.6 3.0 ± 4.0 ± 2.8 9.2 6.2 ± 8.1 ± 6.9 (c) Věty (SPEECONVAD) Tabulka 7.14: Úspěšnost HMM VAD s levo-pravými modely na dalších typech řečových položek. 7.7. EXPERIMENTY Parame- ERR ERS trizace [%] [%] RSPLP 8.5 5.2 ± 2.8 CPLP RCPLP MFCC SPLP 9.0 4.9 ± 4.4 ± 3.5 9.6 5.6 ± 2.3 ± 3.2 9.8 4.3 ± 5.8 ± 3.4 12.0 5.1 ± 6.0 ± 2.6 RCPLP SPLP ± 5.0 MFCC CPLP RSPLP RCPLP ± 12.8 ± 4.8 20.6 4.4 13.3 4.5 ± 10.9 ± 3.9 13.7 5.5 ± 9.6 ± 5.0 16.1 4.8 ± 6.9 ± 3.5 19.4 3.5 ± 7.9 ± 2.8 ± 11.7 ± 3.4 21.6 3.6 ± 13.6 ± 4.4 21.6 3.8 ± 11.9 ± 3.5 25.0 6.7 ± 16.6 ± 7.5 (d) Listování SPLP RSPLP RCPLP ± 3.1 RSPLP CPLP MFCC SPLP ± 3.6 8.3 6.3 ± 4.2 ± 4.4 8.4 4.5 ± 5.4 ± 2.6 8.5 4.6 ± 5.3 ± 3.0 9.3 5.2 ± 4.9 ± 3.2 (c) Klapání Parame- ERR ERS trizace [%] [%] CPLP 8.8 5.8 MFCC Parame- ERR ERS trizace [%] [%] RCPLP 7.6 5.8 ± 5.1 (b) Dýchání Parame- ERR ERS trizace [%] [%] CPLP 19.7 3.4 MFCC Parame- ERR ERS trizace [%] [%] SPLP 12.7 7.1 ± 1.8 (a) Blinkr RSPLP 87 ± 0.2 ± 0.6 9.0 6.4 ± 3.2 ± 2.7 11.3 7.9 ± 1.1 ± 0.8 11.8 6.4 ± 0.3 ± 0.2 12.5 4.7 ± 1.8 ± 0.5 Parame- ERR ERS trizace [%] [%] RSPLP 8.5 4.7 MFCC RCPLP CPLP SPLP ± 5.1 ± 3.1 9.2 4.1 ± 4.3 ± 2.6 11.0 4.2 ± 7.8 ± 3.2 11.6 4.4 ± 7.0 ± 3.4 11.6 5.2 ± 7.0 ± 3.7 (f) Jiné neřečové události (e) Řazení Tabulka 7.15: Úspěšnost HMM VAD s ergodickými modely u promluv obsahujících různé neřečové události. Parame- ERR ERS trizace [%] [%] RSPLP 5.5 2.2 ± 3.2 CPLP RCPLP MFCC SPLP Parame- ERR ERS trizace [%] [%] CPLP 7.8 5.4 ± 2.4 5.7 0.6 ± 3.4 ± 1.2 5.8 1.5 ± 3.5 ± 2.0 17.0 0.7 ± 17.9 ± 1.2 35.4 9.3 ± 22.2 ± 6.1 (a) CAR2ECSVAD ± 6.9 RSPLP RCPLP MFCC SPLP Parame- ERR ERS trizace [%] [%] MFCC 5.0 2.2 ± 5.9 10.2 6.9 ± 6.2 ± 5.5 10.5 5.9 ± 7.0 ± 4.6 11.4 3.6 ± 11.1 ± 4.5 18.3 14.9 ± 9.6 ± 9.2 (b) Číslice (SPEECONVAD) ± 3.3 CPLP RCPLP SPLP RSPLP ± 2.8 5.0 1.1 ± 3.6 ± 1.8 7.7 2.7 ± 4.8 ± 4.5 9.4 6.9 ± 5.6 ± 5.6 18.0 14.4 ± 10.2 ± 10.6 (c) Věty (SPEECONVAD) Tabulka 7.16: Úspěšnost HMM VAD s ergodickými modely na dalších typech řečových položek. 88 KAPITOLA 7. DETEKCE NA BÁZI HMM Kapitola 8 Shrnující experimenty V této kapitole jsou srovnány výsledky všech prezentovaných detektorů řečové aktivity v této práci, tj. GMM VAD, DHMM VAD, fonémového VAD, LPHMM VAD s levopravými modely a EHMM VAD s ergodickými modely, s výsledky referenčních VAD, tj. s detektorem energetickým, kepstrálním a detektory specifikovanými v příloze B a dodatku III doporučení G.729. Je vzájemně porovnána jejich úspěšnost v prostředí automobilu, ale také na promluvách obsahujících neřečové události a na množinách signálů obsahující další typy řečových položek nahraných v jiném prostředí. U všech detektorů jsou srovnávány pouze optimálně nastavené varianty pro „univerzální” prostředí. Kompletní přehledové tabulky obsahující výsledky všech detektorů ke všem testovaným parametrizacím včetně rozšířených kritérií jsou v dodatku v tabulkách A.5 až A.16. Zde jsou uvedeny pro větší přehlednost pouze tabulky 8.1a až 8.6b obsahující ke každému typu navrhovaného VAD jeho nejnižší dosažené chyby klasifikace ERR. 8.1 Detekce v prostředí automobilu V tišším prostředí stojícího automobilu bylo dosaženo nejnižší celkové chyby klasifikace pomocí LPHMM VAD, který využívá dva obecné modely řeči a šumu a mel-kepstrální koeficienty. Oproti referenčnímu energetickému detektoru byla snížena celková chyba klasifikace o 28%. Podobné, nicméně mírně horší, výsledky ukazují i EHMM VAD využívající ergodické modely s parametrizacemi MFCC nebo CPLP. Fonémový VAD dosáhne nejnižší chyby klasifikace ERR pomocí kepstrálních PLP koeficientů RASTA a na rozdíl od LPHMM VAD a EHMM VAD klasifikuje chybně především neřečové úseky. To ho více předurčuje pro reálné nasazení, kde je většinou požadované nastavení vedoucí k přenosu všech řečové segmentů i za cenu zvýšené míry chyby klasifikace neřečových segmentů. VAD, které využívaly spektrální PLP koeficienty dosahovaly v tišším prostředí velmi špatných výsledků. V prostředí jedoucího automobilu je nejvhodnější využít fonémový VAD se spektrálními PLP koeficienty RASTA. Tento VAD dosáhl velmi malou celkovou chybu klasifikace ERR. Při srovnání s referenčními detektory je celková chyba minimálně o 71% nižší. LPHMM VAD s levo-pravými a EHMM VAD s ergodickými modely dosahují mírně vyšší chyby klasifikace, nicméně při srovnání s referenčním VAD, je jejich chyba ERR stále velmi nízká – až o 61% nižší. Ve všech zmiňovaných prostředích vedlo využití algoritmů založených na algoritmu cestování žetonů k nižší míře chyb klasifikace. DHMM VAD detekující řeč pomocí rozdílu vzdáleností vykazuje ve všech případech mírně větší celkovou klasifikační chybu. Nicméně 89 90 KAPITOLA 8. SHRNUJÍCÍ EXPERIMENTY VAD LPHMM (MFCC) EHMM (CPLP) GMM (MFCC) Fonémový (RCPLP) ENERG. ERR ERS ERN [%] [%] [%] 9.3 3.5 5.8 ± 7.0 ± 3.5 ± 5.5 9.9 4.6 5.2 ± 7.3 ± 3.8 ± 5.8 11.2 6.7 4.5 ± 7.3 ± 4.3 ± 5.5 11.4 0.8 10.5 ± 9.4 ± 1.9 ± 8.9 12.9 10.0 2.9 ± 8.7 ± 5.2 ± 6.5 DHMM (CPLP) KEPST. 13.7 5.0 8.7 VAD Fonémový (RSPLP) EHMM (RCPLP) LPHMM (RCPLP) DHMM (RCPLP) GMM (RCPLP) ENERG. ± 8.3 ± 4.2 ± 6.9 14.7 12.7 2.0 1.2 29.5 [%] [%] [%] 5.7 4.1 1.6 ± 3.0 ± 2.8 ± 2.0 7.6 6.4 1.3 ± 3.2 ± 3.4 ± 2.0 8.0 6.9 1.1 ± 3.7 ± 4.0 ± 2.0 9.3 3.7 5.6 ± 5.5 ± 2.9 ± 5.5 9.6 8.5 1.1 ± 3.9 ± 4.0 ± 2.3 19.7 9.5 10.3 ± 11.1 ± 4.3 ± 12.4 KEPST. ± 8.9 ± 5.6 ± 6.0 G729 AppIII 30.6 ERR ERS ERN 23.8 7.2 16.6 ± 11.0 ± 3.7 ± 12.1 G729 AppIII 24.9 ± 11.5 ± 1.5 ± 11.6 (a) Stojící automobil 3.6 21.3 ± 10.8 ± 2.1 ± 11.4 (b) Jedoucí automobil Tabulka 8.1: Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv z prostředí automobilu. oproti referenčním VAD stálé nízkou. Všechny navržené VAD hůře detekují konce řečových úseků, což vyplývá z hodnoty chyby TRB. Naopak začátky řečových úseku jsou detekovány spolehlivě, tj. jsou nízké chyby TRF a OVF. Velmi překvapivé je, že prezentované detektory dosahují nepatrně lepších výsledků v prostředí jedoucího automobilu, než v tichém prostředí. To lze zdůvodnit složením trénovací množiny, která obsahuje promluvy z obou zmiňovaných prostředí. 8.2 Detekce neřečových událostí U promluv obsahujících rušivé neřečové události bylo téměř ve všech případech dosaženo nejnižší celkové chyby klasifikace pomocí fonémového VAD a kepstrálních či spektrálních PLP koeficientů RASTA. Při porovnání s nejlepšími výsledky referenčních detektorů byla u signálů obsahujících slyšitelný blinkr snížena celková chyba klasifikace ERR až o 78%, u promluv obsahujících slyšitelný dech mluvčího pouze o 7%, u promluv obsahujících slyšitelné klapání až o 75%, u nahrávek obsahujících slyšitelné listování papírem o 41% a u nahrávek obsahujících slyšitelné řazení rychlostního stupně až o 85%. VAD využívající pouze dva obecné modely řeči má celkovou chybu klasifikace ERR pouze mírně vyšší než jakou dosahují VAD využívající modely fonémů, přičemž u nahrávek obsahujících slyšitelný blinkr, listování, řazení rychlostního stupně bylo dosaženo nižší chyby vždy s levo-pravými modely, v ostatních případech byly nižší chyby klasifikace dosaženy díky ergodickým modelům. GMM VAD vykazuje výrazněji vyšší chyby klasifikace při srovnání s fonémovým VAD, někdy je jeho celková chyba ERR až dvakrát vyšší, nicméně, kromě signálu zarušených dechem mluvčího, je jeho chyba ERR výrazně nižší než u referenčních VAD. DHMM VAD dosáhl nízkou chybu klasifikace pouze u nahrávek se slyšitelným dý- 8.3. DETEKCE PROMLUV OBSAHUJÍCÍCH DALŠÍ TYPY ŘEČOVÝCH POLOŽEK91 VAD Fonémový (RSPLP) LPHMM (SPLP) EHMM (RSPLP) GMM (RCPLP) DHMM (RCPLP) KEPST. ERR ERS ERN [%] [%] [%] 6.4 3.0 3.4 ± 2.3 ± 1.5 ± 2.4 7.5 5.8 1.7 ± 4.4 ± 4.6 ± 1.6 8.5 5.2 3.3 ± 2.8 ± 1.8 ± 3.1 12.4 8.0 4.4 ERR ERS ERN Fonémový (RCPLP) DHMM (CPLP) EHMM (SPLP) ENERG. 14.9 2.9 12.1 6.1 24.0 30.8 7.9 22.9 ± 19.6 ± 5.8 ± 23.5 G729 AppIII 38.0 3.0 35.0 ± 13.4 ± 3.0 ± 15.2 (a) Blinkr [%] [%] 12.4 0.9 11.6 12.4 3.5 9.0 ± 4.4 ± 1.7 ± 4.5 12.7 7.1 5.7 ± 5.0 ± 5.1 ± 7.7 13.4 9.3 4.2 ± 6.5 ± 3.3 ± 6.9 KEPST. 13.4 ± 7.2 ± 2.1 ± 7.7 30.0 [%] ± 14.6 ± 1.1 ± 14.9 ± 3.5 ± 4.0 ± 5.1 ± 15.0 ± 3.9 ± 16.6 ENERG. VAD 11.1 2.3 ± 4.9 ± 3.7 ± 5.1 GMM (MFCC) LPHMM (MFCC) G729 AppIII 14.2 6.2 8.0 ± 10.3 ± 4.5 ± 12.0 14.8 5.7 9.1 ± 11.1 ± 4.0 ± 12.8 32.9 1.9 31.0 ± 17.5 ± 1.4 ± 18.5 (b) Dýchání Tabulka 8.2: Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv obsahujících dané neřečové události. cháním mluvčího pomocí parametrizace CPLP. U ostatních neřečových událostí dosahuje horší výsledky, než ostatní HMM VAD. Jeho celková chyba ERR v naprosté většině případů stále nižší než u referenčních detektorů. Chyby detekce řečové aktivity se u nahrávek obsahujících různé neřečové události objevují z podobných důvodů jako u nahrávek neobsahujících neřečové události, a to díky chybnému zkracování řečových úseků, tj. vyšší chybě TRB. Nejmenší hodnotu TRB dosahuje fonémový VAD. Fonémový VAD jako jediný vynechává v některých případech celé úseky řeči, což vyplývá z dosažených hodnot chyby MIS. U promluv obsahujících slyšitelný blinkr, klapání a řazení je většinou vyšší chyba ERS, než ERN. To znamená, ze je chybně rozhodováno hlavně v řečových úsecích. U nahrávek se slyšitelným listováním papíru je rozhodováno chybně hlavně v neřečových úsecích. 8.3 Detekce promluv obsahujících další typy řečových položek Nejnižší celkové chyby klasifikace ERR u nahrávek z množiny CAR2ECSVAD dosáhnul GMM VAD s parametrizací MFCC, o 57% nižší, než referenční energetický detektor. HMM VAD s levo-pravými modely dosáhl srovnatelné výsledky s GMM VAD. Využití ergodických modelů pak vedlo k mírně vyšší celkové chybě, nicméně byla o 55% nižší než u referenčního energetického detektoru. Fonémový VAD dosahoval u experimentů na nahrávkách z množiny CZKCCVAD nejnižší celkové chyby ERR. Na množině CAR2ECSVAD při srovnání s LPHMM a EHMM VAD klasifikoval vyšší chybou ERR. To by mohlo vést k závěru, že fonémový VAD je více citlivý na typu klasifikovaných řečových položek. Na signálech z množiny SPEECONVAD dosáhl nejlepší výsledky LPHMM VAD používající 92 KAPITOLA 8. SHRNUJÍCÍ EXPERIMENTY VAD Fonémový (RSPLP) EHMM (RCPLP) LPHMM (SPLP) GMM (RCPLP) DHMM (RCPLP) ENERG. ERR ERS ERN [%] [%] [%] 5.2 3.4 1.7 ± 2.7 ± 2.8 ± 1.5 7.6 5.8 1.8 ± 3.1 ± 3.6 ± 1.7 7.7 5.8 1.9 ± 3.5 ± 3.5 ± 2.0 9.2 7.6 1.6 ± 4.1 ± 4.4 ± 1.4 10.5 3.0 7.5 ± 6.3 ± 2.6 ± 6.4 20.5 8.9 11.6 VAD LPHMM (MFCC) Fonémový (MFCC) EHMM (CPLP) GMM (MFCC) DHMM (RSPLP) ENERG. ± 13.9 ± 4.6 ± 14.7 KEPST. 23.3 7.6 15.7 ± 10.1 ± 4.3 ± 10.9 G729 AppIII 24.1 3.2 20.9 ± 10.4 ± 2.1 ± 10.6 (a) Klapání ERR ERS ERN [%] [%] [%] 14.5 3.0 11.5 ± 13.1 ± 4.1 ± 11.7 19.1 3.7 15.4 ± 15.6 ± 4.6 ± 17.7 19.7 3.4 16.3 ± 12.8 ± 4.8 ± 10.9 20.2 5.6 14.6 ± 13.4 ± 4.6 ± 10.9 23.3 11.5 11.8 ± 10.8 ± 8.1 ± 8.3 24.6 9.1 15.5 ± 14.5 ± 5.1 ± 12.8 KEPST. 25.4 10.6 14.8 ± 17.2 ± 6.7 ± 13.9 G729 AppIII 46.8 1.4 45.4 ± 15.7 ± 2.9 ± 15.2 (b) Listování Tabulka 8.3: Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv obsahujících dané neřečové události. mel-kepstrální koeficienty. Při srovnání s referenčním kepstrálním VAD je jeho chyba ERR u nahrávek číslic o 65% nižší a u nahrávek obsahujících celé věty o 69%. Na těchto množinách dosahuje mírně horších výsledků fonémový VAD, nicméně rozdíl není tak výrazný jako na množině CAR2ECSVAD. Na množině CAR2ECSVAD klasifikuje EHMM VAD, DHMM VAD i GMM VAD s kepstrálními PLP koeficienty v podstatě se shodnou o 47% nižší celkovou chybou ERR než má referenční energetický VAD. 8.4 Souhrnné poznámky U všech prezentovaných VAD byly použity pro zpracování signálů parametrizace – MFCC, CPLP, SPLP, RCPLP a RSPLP. Z experimentálních výsledků vyplývá, že se nedá obecně říct, že pro řešenou úlohu existuje jedna nejvhodnější parametrizace. Nicméně fonémový VAD dosahoval nejlepší výsledky většinou se spektrálními nebo kepstrálními PLP koeficienty RASTA. S MFCC a SPLP byla jeho celková chyba naopak velmi vysoká. Detektory využívající pouze dva modely pak v tišších prostředích měly nejnižší chybu klasifikace většinou s parametrizacemi MFCC a CPLP a v rušnějších prostředích pak s RCPLP nebo RSPLP. Testované VAD byly nastaveny tak, aby dosahovaly dobrých výsledků ve všech prostředích. V případě dopředu známých podmínek rušení by bylo možno nastavit VAD tak, aby byly dosaženy ještě nižší chyby klasifikace. Referenční VAD G729 dosáhl téměř vždy velmi vysoké celkové chyby ERR, nicméně tento VAD je optimalizován k dosažení velmi nízké hodnoty chyby ERS, aby v reálných aplikacích vždy přenesl řečové úseky i za podmínek zvýšení celkové chyby ERR. 8.4. SOUHRNNÉ POZNÁMKY VAD Fonémový (RCPLP) LPHMM (CPLP) EHMM (CPLP) GMM (RCPLP) DHMM (RCPLP) KEPST. ERR ERS ERN [%] [%] [%] 5.6 5.3 0.3 ± 0.1 ± 0.2 ± 0.3 7.3 5.9 1.4 ± 0.2 ± 0.7 ± 0.9 8.8 5.8 3.0 ± 0.2 ± 0.6 ± 0.4 11.5 6.4 5.1 ± 0.4 ± 0.5 ± 1.0 17.8 3.7 14.0 ± 2.9 ± 1.4 ± 4.3 38.1 7.7 ± 12.1 ± 6.1 ENERG. 93 43.8 ± 1.3 39.7 LPHMM (MFCC) DHMM (CPLP) EHMM (CPLP) Fonémový (RCPLP) GMM (CPLP) KEPST. ENERG. KEPST. ± 26.2 2.7 45.2 ± 2.3 ± 3.6 Tabulka 8.4: Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv obsahujících slyšitelné řazení rychlosti. VAD GMM (MFCC) LPHMM (RCPLP) EHMM (RSPLP) DHMM (CPLP) Fonémový (RCPLP) ENERG. ± 18.2 4.1 ± 22.2 ± 4.0 G729 AppIII 47.9 30.4 VAD ERR ERS ERN [%] [%] [%] 5.9 3.0 2.9 ± 5.2 ± 3.7 ± 4.2 6.8 3.9 2.9 ± 5.3 ± 5.0 ± 3.3 7.8 5.4 2.4 ± 6.9 ± 5.9 ± 4.9 7.9 1.8 6.1 ± 5.9 ± 2.1 ± 5.4 10.0 8.3 1.7 ± 6.8 ± 6.7 ± 3.5 17.3 16.9 0.4 ± 7.4 ± 7.4 ± 1.0 ERR ERS ERN [%] [%] [%] 4.7 0.9 3.8 ± 3.3 ± 1.3 ± 3.2 4.9 1.5 3.4 ± 3.1 ± 2.4 ± 2.4 5.5 2.2 3.2 ± 3.2 ± 2.4 ± 2.4 5.8 0.8 5.0 ± 3.4 ± 1.3 ± 3.1 9.6 0.4 9.1 ± 5.4 ± 0.8 ± 5.3 10.9 9.5 1.4 ± 5.3 ± 5.7 ± 1.7 12.2 11.6 0.6 ± 4.9 ± 5.0 ± 1.2 0.7 35.6 G729 AppIII 36.2 ± 14.5 ± 0.8 ± 14.8 Tabulka 8.5: Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD na množině CAR2ECSVAD. VAD LPHMM (MFCC) EHMM (CPLP) DHMM (MFCC) Fonémový (RCPLP) GMM (CPLP) ENERG. [%] [%] [%] 3.9 0.6 3.3 ± 3.8 ± 1.2 ± 3.8 4.8 1.2 3.6 ± 5.2 ± 1.7 ± 5.1 5.0 2.2 2.8 ± 3.3 ± 2.8 ± 2.3 5.3 0.4 4.9 ± 3.8 ± 1.0 ± 3.7 6.1 3.4 2.7 ± 5.1 ± 3.3 ± 4.4 12.5 10.1 2.4 ± 6.5 ± 5.5 ± 3.9 19.3 14.9 4.4 12.5 12.0 0.6 ± 9.4 ± 7.1 ± 7.2 ± 4.6 ± 4.4 ± 1.6 2.3 28.7 G729 AppIII 23.2 0.5 22.7 ± 0.7 ± 8.6 G729 AppIII 31.0 ± 11.0 ± 2.6 ± 11.7 (a) Číslice (SPEECONVAD) KEPST. ERR ERS ERN ± 8.6 (b) Věty (SPEECONVAD) Tabulka 8.6: Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD na dalších typech řečových položek. 94 KAPITOLA 8. SHRNUJÍCÍ EXPERIMENTY Kapitola 9 Závěr Cílem této práce bylo prostudovat a srovnat algoritmy detekce řečové aktivity využívající GMM a skryté Markovovy modely a následně navrhnout optimalizované detektory na jejich bázi. V některých úlohách v tichém prostředí se detektory řečové aktivity běžně používají, například pro segmentaci krátkých studiových nahrávek a je dosahováno relativně vysoké přesnosti klasifikace. Tato práce byla zaměřena na detekci v relativně silně zarušeném prostředí, kde v současnosti často používané heuristické detektory výrazně selhávají. Uvedené algoritmy vedly ke konstrukci poměrně robustních detektorů, které fungovaly spolehlivě jak v rušném tak v tišším prostředí. Jelikož šlo o dichotomický klasifikační problém, použití GMM vedlo přímočaře k řešení úlohy. Skryté Markovovské modely navíc zohledňují strukturu promluvy, která nebyla u dříve používaných VAD brána v potaz. Proto jejich využití vedlo ke zvýšení přesnosti klasifikace hlavně v situacích, kdy se povedlo zohlednit tuto skutečnost. V následujících bodech jsou shrnuty nejdůležitější závěry a konkrétní přínosy této práce • Byla provedena podrobná analýza možností zpracování řečového signálu vedoucí k výběru nejvhodnějších parametrů řeči pro řešenou úlohu. Nejprve byly odhadnuty hustoty pravděpodobností rozložení parametrů signálů v jeho řečových a neřečových úsecích a následně byla analyzována jejich schopnost rozlišení řeči od šumu pomocí vzdálenosti Kullback-Leibler. Byly analyzovány jednorozměrné parametry signálu: energie, počet průchodu nulou a periody základního hlasivkového tónu, a vícerozměrné parametry: koeficienty lineární predikce, kepstrální koeficienty, percepčně lineární prediktivní koeficienty a percepčně lineárně prediktivní koeficienty RASTA. Bylo zjištěno, že parametry, které jsou nejlépe schopny rozlišit dvě dané třídy, jsou spektrální percepčně lineární koeficienty RASTA. • Byla navržena platforma pro testování a objektivní zhodnocení detektorů řečové aktivity, v rámci které byly provedeny všechny experimenty popisované v této práci. Součástí této platformy byla implementace kritérií, která umožňují objektivní hodnocení míry a způsobů selhání testovaných VAD. Dále jsou zahrnuty implementace několika různých referenčních VAD včetně detektoru podle doporučení G.729. • Byla vytvořena referenční databáze pro testování úspěšnosti VAD obsahující asi 3 hodiny řečových signálů s označením přesných hranic řečových a neřečových segmentů. Databázi tvoří výběr nahrávek ze tří dostupných databází: 30 minut řečových signálů z automobilu z databáze CAR2ECS, 48 minut pokrývající různá prostředí z databáze SPEECON a 107 minut řeči z automobilu z databáze CZKCC. První 95 96 KAPITOLA 9. ZÁVĚR dvě množiny obsahují transkripce získané pomocí automatického procesu zarovnání a třetí množina obsahuje transkripce získané manuálním značením. Unikátní vlastností je pak přesné značení neřečových událostí. Označen je vždy typ, začátek a konec události. Paralelně byly označeny také přesné hranice změn jednotlivých prostředí automobilu. • Byl analyzován a optimalizován GMM detektor pro devět různých parametrizací včetně vlivu počtu směsí na míru chyb klasifikace. Dále byla otestována chybovost VAD na promluvách z prostředí automobilu a na řečových signálech obsahujících různé neřečové události. V prostředí jedoucího automobilu byly nejmenší chyby klasifikace dosaženy pomocí kepstrálních percepčně lineárních koeficientů RASTA, při srovnání s nejúspěšnějším referenčním VAD byla celková chyba klasifikace snížena o 51%. • Byl navržen detektor řečové aktivity klasifikující na základě vzdálenosti mezi HMM řeči a šumu – DHMM VAD. Přínos navrženého VAD spočívá v možnosti plynulé změny jeho nastavení tak, aby klasifikoval přesněji buď v řečových nebo v neřečových úsecích signálu při současném zachování strukturálního způsobu klasifikace pomocí HMM. Nevýhodou je větší výpočetní náročnost algoritmu. Na základě analýzy úspěšnosti klasifikace VAD v závislosti na parametrech použitých HMM byly nalezena optimální nastavení detektoru. Navržený VAD byl otestován na promluvách z různých prostředí, především pak z prostředí automobilu a na promluvách obsahující různé neřečové události. Při srovnání s referenčními VAD dosahuje navržený VAD u signálu nahraných v prostředí jedoucího auta 52% snížení celkové chyby klasifikace. • Byl testován a optimalizován fonémový HMM VAD, který zjišťuje přítomnost řečové aktivity na základě nejpravděpodobnějšího průchodu rozpoznávací sítí složené z HMM monofonů a šumu. Byly hledány nejvhodnější způsoby parametrizace signálů a optimální parametry modelů monofonů, tak aby bylo dosaženo robustní klasifikace. Pro fonémový VAD se jako nejvhodnější parametrizace signálů ukázaly spektrální nebo kepstrální percepčně lineární prediktivní koeficienty RASTA. To je ve shodě s analýzou provedenou pomocí vzdáleností Kullback-Leibler. Největší přínos fonémového VAD spočívá ve zlepšení klasifikace signálů se silnějším šumovým pozadím. Pro signály nahrané v jedoucím automobilu byla snížena chyba detekce řeči o více než 71%. Ve specifických případech, ve kterých se projevuje výhodnost modelování struktury řeči a šumu, například u nahrávek se slyšitelným řazením jiného rychlostního stupně, bylo dosaženo snížení chyby až o 85%. • Byl navržen a optimalizován detektor řečové aktivity, který modeluje strukturu promluvy pomocí dvou obecných modelů řeči a šumu. Ke klasifikaci používá algoritmus cestování žetonů hledající nejpravděpodobnější průchod skrz rozpoznávací síť. Byly analyzovány VAD využívající dvě různé struktury modelů – levo-pravé a ergodické HMM. Výhoda uvedeného přístupu spočívá v jednoduchosti daného řešení a větší schopnosti generalizace obecných modelů, což se projevuje zvláště při srovnání s fonémovým VAD. Přínos spočívá především v systematické analýze vlivu použité parametrizace signálů na přesnost klasifikace a testování na řečových signálech nahraných v různě rušivém prostředí. V prostředí jedoucího automobilu bylo dosaženo snížení chyby klasifikace o 61% při srovnání s nejúspěšnějším referenčním VAD. 97 • Realizované testy na signálech obsahujících reálné rušení různého typu s větším důrazem na prostředí jedoucího automobilu ukázaly větší přesnost HMM a GMM detektorů ve srovnání s referenčním detektorem energetickým a kepstrálním, či detektory dle doporučení G.729. Lepší výsledky jsou dosaženy hlavně na signálech se silnějším šumovým pozadím, kde navržené detektory klasifikují přesněji zejména neřečové segmenty. Ve specifických případech byla snížena chyba klasifikace o 85%. Budoucí práce zabývající se detekcí řečové aktivity prostřednictvím skrytých Markovovských modelů by mohla vést k ještě přesnějšímu modelování řeči a šumu, dále by se mohly zohlednit možnosti využití většího počtu kanálů či doplňujících zdrojů informací o prostředí a řečníkovi. Další práce by se mohla také zaměřit na využití nových nebo nově vyvíjených parametrizací, které využívají odlišné přístupy zpracování dat a více zohledňují například kontextovou informaci. Zajímavou úlohou by mohla být také detekce přítomnosti řeči na spontánně mluvených promluvách obsahující mluvenou řeč na pozadí. 98 KAPITOLA 9. ZÁVĚR Literatura [1] Voice Activity Detector (VAD) for Adaptive Multi-Rate (AMR) Speech Traffic Channels. ETSI EN 301 708 Recommendation, 1999. [2] Ahmadi, S.; Spanias, A. S.: Cepstrum-based pitch detection using a new statistical V/UV classification algorithm. IEEE Transaction on Speech and Audio Processing, ročník 7, č. 3, 1999. [3] Appiah, M. Y.; Makrickaite, R.; Gusaite, M.; aj.: Robust Voice Activity Detector and Noise Reduction Mechanism Using Higher-order Statistics. Technická zpráva, Aalborg University, Institute of Electronic Systems, 2005. [4] Bartůšek, R.; Matoušek, J.; Hanžl, V.: Latest Czech SAMPA Proposal. 2003. URL http://noeld.feld.cvut.cz/sampa/CZECH-SAMPA.html [5] Benyassine, A.; Shlimot, E.; Su, H.: A Silence Compression Scheme for Use with G.729 Optimized for V.70 Digital Simultaneous Voice and Data Applications. IEEE Communication Magazine, 1997. [6] Beritelli, F.; Casale, S.; Ruggeri, G.; aj.: Performance evaluation and comparison of G.729/AMR/fuzzy voice activity detectors. IEEE Signal Processing Letters, ročník 9, č. 3, 2002: s. 85–88. [7] Bouquin, R. L.; FawceFaucon, G.: Using the coherence function for noise reduction. Communications, Speech and Vision, IEE Proceedings I, ročník 276 – 280, č. 3, 1992. [8] Bořil, H.; Pollák, P.: Design and Collection of Czech Lombard Speech Database. Interspeech 05, 2005: s. 1577–1580. [9] Brookes, M.: VOICEBOX: Speech Processing Toolbox for Matlab. [online], 2010. URL http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html [10] Cazzanti, L.; Gupta, M. R.: Local Similarity Discriminant Analysis. Proceedings of the 24th International Conference on Machine Learning, 2007. [11] Chang, J.-H.; Kim, N. S.; Mitra, S. K.: Voice Activity Detection Based on Multiple Statistical Models. IEEE Transaction on Signal Processiing, ročník 54, č. 6, 2006. [12] Chengalvarayan, R.: Robust energy normalization using speech/nonspeech discriminator for German connected digit recognition. EUROSPEECH’99, 1999: s. 61–64. [13] Chernenko, E.; Kinnunen, T.; Tuononen, M.; aj.: Support Vector Machines in the Task of Voice Activity Detection. Presentation in the SPECOM’07, 2007. 99 100 KAPITOLA 9. ZÁVĚR [14] Cho, Y. D.; Al-Naimi, K.; Konder, A.: Improved Voice Activity Detection Based on a Smoothed Statistical Likelihood Ratio. Acoustics, Speech, and Signal Processing, ročník 2, 2001: s. 737–740. [15] Ephraim, Y.; Malah, D.: Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator. IEEE Transactions on Acoustics, Speech, and Signal Processing, ročník 32, č. 6, 1984: s. 1109–1121. [16] Fawcett, T.: An introduction to ROC analysis. Pattern Recognition Letters, 207: s. 861–874. [17] Fisher, E.; Tabrikian, J.; Dubnov, S.: Generalized Likelihood Ratio Test for Voiced / Unvoiced Decision Using the Harmonic Plus Noise Model. Acoustics, Speech, and Signal Processing, ročník 1, č. 6-10, 2003: s. 440–443. [18] Fousek, P.: CTUcopy – universal speech enhencer and feature extractor. [online], 2007. URL http://noel.feld.cvut.cz/speechlab/en/download/ctucopy3.html [19] Freeman, D. K.; Cosier, G.; Southcott, C. B.; aj.: The voice activity detector for the pan European digital cellular mobile telephone service. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1989. [20] Ganapathiraju, A.; Webster, L.; Trimble, J.; aj.: Comparison Of Energy-Based Endpoint Detectors For Speech Signal Processing. Southeastcon ’96, Proceedings of the IEEE, 1996: s. 500–503. [21] Gemello, R.; Mana, F.; Mori, R. D.: Non-linear estimation of voice activity to improve automatic recognition of noisy speech. Interspeech 2005, 2005. [22] Górriz, J.; Ramírez, J.; Puntonet, C.: Robust Speech Recognition and Understanding, kapitola New Advances in Voice Activity Detection using HOS and Optimization Strategies. Vienna, Austria: I-Tech, 2007. [23] Haigh, J. A.; Mason, J. S.: A Voice Activity Detector Based on Cepstral Analysis. Eurospeech’93 - Proceedings of the 3rd European Conference on Speech, Communication, and Technology, 1993. [24] Hamsici, O. C.; Martinez, A. M.: Bayes Optimality in Linear Discriminant Analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, ročník 30, č. 4, 2008: s. 647–657. [25] Harrison, W.; Lim, J.; Singer, E.: A new application of adaptive noise cancellation. IEEE Transactions on Acoustics, Speech, and Signal Processing, ročník 34, č. 1, 1986: s. 21–27. [26] Hermansky, H.: Perceptual linear predictive (PLP) analysis of speech. The Journal of the Acoustical Society of America, ročník 87, č. 4, 1990: s. 1738–1752, doi:10.1121/ 1.399423. URL http://link.aip.org/link/?JAS/87/1738/1 [27] Hermansky, H.; Morgan, N.: RASTA processing of speech. In IEEE Transactions on Speech and Acoustics, ročník 2, October 1994, s. 587–589. 101 [28] Hoyt, J.; Wechsler, H.: Detection of human speech in structured noise. IEEE Transactions on Acoustics, Speech, and Signal Processing, ročník 2, 1994: s. 237– 240. [29] International Telecommunication Union - Telecommunication Standartization Sector: Coding of Speech at 8 kbit/s Using Conjugate-Structure Algebraic-Code-Excited Linear-Prediction (CS-ACELP). 1996. [30] International Telecommunication Union - Telecommunication Standartization Sector: A Silence Compression Scheme for G.729 Optimized for Terminals Conforming to ITU-T V.70. 1996. [31] Jelínek, F.: Statistical Methods for Speech Recognition. Cambridge, Massachusetts, London, England: The MIT Press, 1999. [32] Jelínek, T.: Speech/Pause Detector Based on a Cepstrum Derivation. Diplomová práce, CTU, 2004. [33] Junqua, J. C.; Reaves, B.; Mark, B.: A study of endpoint detection algorithms in adverse conditions: Incidence on a DTW and HMM recognize. Eurospeech, 1991: s. 1371–1374. [34] Kačur, J.; Rozinaj, G.; Herrera-Garcia, S.: Speech Signal Detection in a Noisy Environment Using Neural Networks and Cepstral Matrices. Electrical Engineering, ročník 55, č. 5-6, 2004: s. 131–137. [35] Lamel, L. F.; Rabiner, L. R.; Rosenberg, A. E.; aj.: An Improved Endpoint Detector for Isolated Word Recognition. IEEE Transactions on Acoustics, Speech, and Signal Processing, ročník 29, č. 4, 1989. [36] Lee, I.; Stern, H.; Mahmoud, S.: A Voice Activity Detection Algorithm For Communication System With Dynamically Varying Background Acoustic Noise. IEEE Vehicular Technology Conference, ročník 2, č. 1214–1218, 1998. [37] Li, Q.; Zheng, J.; Tsai, A.; aj.: Robust Endpoint Detection and Energy Normalization for Real-Time Speech and Speaker Recognition. IEEE Transaction on Speech and Audio Processing, ročník 10, č. 3, 2002: s. 146–157. [38] Martin, A.; Charlet, D.; Mauuary, L.: Robust speech/non-speech detection using LDA applied to MFCC. IEEE Transactions on Acoustics, Speech, and Signal Processing, ročník 1, 2001: s. 237–240. [39] Martin, A.; Karray, L.; Gilloire, A.: High Order Statistics For Robust Speech/NonSpeech Detection. EUSIPCO 2000, , č. 10, 2000: s. 469–472. [40] Marzinzik, M.; Kollmeier, B.: Speech Pause Detection for Noise Spectrum Estimation by Tracking Power Envelope Dynamics. IEEE Transaction on Speech and Audio Processing, ročník 10, č. 2, 2002. [41] McKinley, B.; Whipple, G. H.: Model Based Speech Pause Detection. IEEE Transaction on Speech and Audio Processing, 1997. 102 KAPITOLA 9. ZÁVĚR [42] Nemer, E.; Goubran, R.; Mahmoud, S.: Robust voice activity detection using higherorder statistics in the LPC Residual domain. IEEE Transaction on Speech and Audio Processing, ročník 9, č. 3, 2001: s. 217–231. [43] Novák, D.; Cuest-Frau, D.: Clustering ECG Signal Using Hidden Markov Models. CTU in Prague, Polytechnic University of Valencia, 2002. [44] Novotný, J.: Context Dependent HMM Phoneme Model Training and Usage. Technická zpráva, CTU, 2002. [45] Othman, H.; Abounasr, T.: A semi-continuous state transition probability HMMbased voice activity detection. Acoustics, Speech, and Signal Processing, ročník 5, č. 17-21, 2004: s. 821–824. [46] Padmanabha, R.; Krishnan, P. S.; Murthy, H. A.: A pattern recognition approach to VAD using modified group delay. NCC, 2008. [47] Pencak, J.; Nelson, D.: The NP speech activity detection algorithm. Acoustics, Speech, and Signal Processing, ročník 1, 1995: s. 381–384. [48] Planková, J.: Fenomén open access v informační společnosti. [online], 2007. URL http://www.ikaros.cz/?q=node/4303 [49] Pollák, P.: 300 speaker Czech Database from Car. Final report of the project based on Frame Agreement for the collection of Speech data Corpora. Technická zpráva, CTU FEL, Temic Germany, 2001. [50] Pollák, P.: Metody odhadu odstupu signálu od šumu v řečovém signálu. Akustické listy, ročník 7, 2001. [51] Pollák, P.: Criteria for VAD classification. Technická zpráva, CTU FEL, 2002. [52] Pollák, P.: Desing and Creation of Speech Databases for Recognition and Enhancement. 2002. [53] Pollák, P.; Sovka, P.; Hanžl, V.; aj.: CAR2 - Czech Database of Car Speech. Radioengineering, ročník 8, č. 4, 1999: s. 1–6. [54] Pollák, P.; Sovka, P.; Uhlíř, J.: Cepstral Speech/Pause Detectors. Proceedings of IEEE Workshop on Nonlinear Signal and Image Processing, 1995. [55] Pollák, P.; Černocký, J.: SPEECHDAT(E) Database. 2000. URL http://www.speechdat.org [56] Pollák, P.; Černocký, J.: Czech SPEECON Adult Database. 2003. URL http://www.speechdat.org/speecon [57] Poruba, J.; Matějíček, L.: Odfiltrování rušivých signálů ze zašumělé řeči. Elektrorevue, 2002. [58] Psutka, J.: Komunikace s počítačem mluvenou řečí. Academia, 1995. [59] Psutka, J.; Müller, L.; Matoušek, J.; aj.: Mluvíme s počítačem česky. Academia, 2006. 103 [60] Rabiner, L.; Juang, B.-H.: Fundamentals of Speech Recognition. Prentice Hall PTR, 1993, ISBN 0130151572. [61] Rabiner, L.; Sambur, M.: Voiced-unvoiced-silence detection using the Itakura LPC distance measure. IEEE Transactions On Acoustics, Speech, and Signal Processing, ročník 2, 1977: s. 323–326. [62] Rabiner, L. R.: A tutorial on hidden Markov models and selected applications in speech recognition. Proceedings of the IEEE, ročník 77, č. 2, 1989: s. 257–286, doi: 10.1109/5.18626. URL http://dx.doi.org/10.1109/5.18626 [63] Rabiner, L. R.; Lee, C. H.; Juang, B. H.; aj.: HMM Clustering for Connected Word Recognition. IEEE Transaction on Speech and Audio Processing, 1989. [64] Ramirez, J.; Yelamos, P.; Gorriz, J.; aj.: SVM-based speech endpoint detection using contextual speech features. Electronics Letters, ročník 42, č. 7, 2006: s. 426–428. [65] Renevey, P.; Drygajlo, A.: Entropy Based Voice Activity Detection in Very Noisy Condition. EUROSPEECH’01, 2001: s. 1887–1890. [66] Rosca, J.; Balan, R.; Fan, N. P.; aj.: Multichannel voice detection in adverse environments. EUSIPCO 2002, 2002. [67] Sangwan, A.; Zhu, W.-P.; Ahmad, M.: Design and Performance Analysis of Bayesian, Neyman–Pearson, and Competitive Neyman–Pearson Voice Activity Detectors. IEEE Transactions on Acoustics, Speech, and Signal Processing, ročník 55, č. 9, 2007: s. 4341–4353. [68] Shannon, C. E.: A Mathematical Theory of Communication. Bell System Technical Journal, ročník 27, 1948: s. 379–423, 623–656. [69] Shao, C.; Bouchard, M.: Efficient classification of noisy speech using neural networks. Signal Processing and Its Applications, ročník 1, č. 1-4, 2003: s. 357–360. [70] Shire, M.: PLP and RASTA in Matlab. [online], 2010. URL http://labrosa.ee.columbia.edu/matlab/rastamat [71] Singh, D.; Boland, F.: Voice Activity Detection. [online]. URL http://www.acm.org/crossroads/xrds13-4/voice_detection.html [72] Sohn, J.; Kim, N. S.; Sung, W.: A Statistical Model-Based Voice Activity Detection. IEEE Signal Processing Letters, ročník 6, č. 1, 1999. [73] Sovka, P.; Pollák, P.: The Study of Speech/Pause Detectors for Speech Enhancement Methods. Eurospeech, 1995. [74] Sovka, P.; Pollák, P.: Vybrané metody číslicového zpracovávání signálu. ČVUT FEL, 2001. [75] Stegmann, J.; Schroder, G.: Robust voice-activity detection based on the wavelet transform. Speech Coding For Telecommunications Proceeding, 1997: s. 99–100. 104 KAPITOLA 9. ZÁVĚR [76] Talkin, D.: A Robust Algorithm for Pitch Tracking (RAPT). Speech Coding and Synthesis, 1995. [77] Tanyer, S. G.; Ozer, H.: Voice Activity Detection in Nonstationary Noise. IEEE Transaction on Speech and Audio Processing, ročník 8, č. 4, 2000. [78] Tatarinov, J.: HMM rozpoznávač řeči obsahující hláskování české abecedy. Diplomová práce, CTU, 2003. [79] Tatarinov, J.: The Study of The Voice Activity Detector Based on Evaluating of Changes in Probabilities Computed Using HMM. POSTER 2005, 2005. [80] Tatarinov, J.: VAD Toolkit. 2009. URL http://noel.feld.cvut.cz/speechlab [81] Tatarinov, J.; Pollák, P.: Hidden Markov Models in Voice Activity Detection. Robustness Issues in Conversational Interaction, 2004. [82] Trmal, J.; Zelinka, J.; Psutka, J.; aj.: Comparison between GMM and decision graphs based silence/speech detection method. Proceedings of the 11th international conference Speech and computer SPECOM’2006, 2006: s. 376–379. [83] Tucker, R.: Voice activity detection using a periodicity measure. IEE Proceedings, Communications, Speech and Vision, ročník 139, č. 4, 1992. [84] Van Compernolle, D.: Noise Adaptation in Hidden Markov Model Speech Recognition System. Computer Speech and Language, ročník 3, 1989: s. 151–168. [85] Vaseghi, S. V.: Advanced Digital Signal Processing and Noise Reduction. Englewood Cliffs, New Jersey: John Wiley and Sons, New York, Prentice-Hall, 2000. [86] Černocký, J.: Temporal processing for feature extraction in speech recognition, shortened version of habilitation thesis. Edice Habilitační a inaugurační spisy, sv. 112, Publishing house of Brno University of Technology VUTIUM, 2003, ISBN 80-2142395-1, str. 30. URL http://www.fit.vutbr.cz/research/view_pub.php?id=7240 [87] Vlaj, D.; Kotnik, B.; Horvat, B.; aj.: A Computationally Efficient Mel-Bank VAD Algorithm for Distributed Speech Recognition Systems. EURASIP Journal on Applied Signal Processing, ročník 2005, č. 1, 2005: s. 487–497. [88] Vondra, M.: Kepstrální analýza řečového signálu. Elektrorevue, 2001. URL http://www.elektrorevue.cz/clanky/01048/index.html [89] Vondrášek, M.: Odhad SNR řečového signálu snímaného v hlučném prostředí. Diplomová práce, CTU, 2004. [90] Vondrášek, M.; Pollák, P.: Methods for Speech SNR estimation: Evaluation Tool and Analysis of VAD Dependency. RADIOENGINEERING, ročník 14, č. 1, 2005. [91] Šedivý, J.: Perspektivy počítačového rozpoznávání lidské řeči. [online], 2006. [92] Ždánský, J.: The Robust HMM Speech Recognizer. Diplomová práce, CTU, 2002. 105 [93] Ždánský, J.; David, P.; Nouza, J.: An Improved Preprocessor for the Automatic Transcription of Broadcast News Audio Stream. INTERSPEECH 2004 - ICSLP, 2004. [94] Woo, K.-H.; Yang, T.-Y.; Park, K.-J.; aj.: Robust voice activity detection algorithm for estimating noise spectrum. Electronics Letters, ročník 36, č. 2, 2000. [95] Yamamoto, K.; Jabloun, F.; Reinhard, K.; aj.: Robust Endpoint Detection for Speech Recognition Based on Discriminative Feature Extraction. Acoustics, Speech and Signal Processing, ročník 1, č. 14-19, 2006: s. 807–808. [96] Yang, S.; Li, Z.-G.; Chen, Y.-Q.: A fractal based voice activity detector for Internet telephone. Acoustics, Speech, and Signal Processing, ročník 1, č. 6-10, 2003: s. 808– 811. [97] Young, S.; Evermann, G.; Kershaw, D.; aj.: The HTK Book (for HTK Version 3.1). UK: Cambridge University Engineering Department, 2001. [98] Young, S. J.; Russell, N. H.; Thornton, J. H. S.: Token Passing: a Simple Conceptual Model for Connected Speech Recognition Systems. Technická zpráva, Cambridge University Engineering Department, 1989. [99] Zhang, J.; Ward, W.; Pellom, B.: Phone Based Voice Activity Detection Using Online Bayesian Adaptation with Conjugate Normal Distributions. ICASSP ’02, 2002. 106 KAPITOLA 9. ZÁVĚR Vlastní publikace vztahující se k disertaci • Tatarinov, J.: Detekce řečové aktivity při rozpoznávání řeči. In Analýza a zpracování signálů V. Praha: ČVUT FEL, Katedra teorie obvodů, 2004, díl 1, s. 103–114. ISBN 80-01-03139-X. • Tatarinov, J. – Pollák, P.: Experiments in Voice Activity Detection Using Hidden Markov Models. In Speech Processing. Prague: Academy of Sciences of the Czech Republic, Institute of Radioengineering and Electronics, 2004, vol. 1, p. 102–105. ISBN 80-86269-11-6. • Tatarinov, J. – Pollák, P.: Experiments in voice activity detection using Hidden Markov Models. In 14th Czech-German Workshop. Prague, 2004. • Tatarinov, J. – Pollák, P.: Hidden Markov Models in Voice Activity Detection. In Robust2004: Robustness Issues in Conversational Interaction [CD-ROM]. Brussels: COST Office, 2004. • Tatarinov, J.: Využití Markovových modelů pro detekci řeči. In Analýza a zpracován signálů VI. Praha: ČVUT FEL, Katedra teorie obvodů, 2005, díl 1, s. 133–141. ISBN 80-01-03217-5. • Tatarinov, J.: Detektory řečové aktivity založené na skrytých Markovových modelech. In Analýza a zpracování řečových a biologických signálů. Praha: ČVUT FEL, Katedra teorie obvodů, 2005, díl 1, s. 46–53. ISBN 80-01-03412-7. • Tatarinov, J.: The Study of the Voice Activity Detector Based on Evaluating of Changes in Probabilities Computed Using HMM. Proc. POSTER 2005, Prague, 2005. • Tatarinov, J. – Pollák, P.: HMM Based VAD Using Token Passing Algorithm and Generalized Speech and Silence Models. In Proceedings of the 16th Conference Joined with the 15th Czech-German Workshop "Speech Processing". Dresden: Technical University, 2005, vol. 1, p. 316–322. ISBN 3-938863-17-X. • Tatarinov, J. – Pollák, P.: Voice Activity Detector Based on Sample Synchronous Probability Evaluation Using HMM. In Radioelektronika 2005 - Conference Proceedings. Brno: VUT v Brně, FEI, Ústav radioelektroniky, 2005, vol. 1, p. 440–443. ISBN 80-214-2904-6. • Tatarinov, J. – Pollák, P.: HMM and EHMM Based Voice Activity Detectors and Design of Testing Platform for VAD Classification. In Digital Technologies 2008 [CD-ROM]. Žilina: University of Žilina, Fakulty of electrical engineering, 2008, vol. 1, p. 1–4. ISBN 978-80-8070-953-2. 107 108 KAPITOLA 9. ZÁVĚR • Tatarinov, J. – Pollák, P.: Řečové detektory využívající ergodické Markovovské modely. In Technical Computing Prague 2008 [CD-ROM]. Praha: Humusoft, 2008, díl 1, s. 1–6. ISBN 978-80-7080-692-0. • Tatarinov, J. – Pollák, P.: Design and Utilization of Testing Database for VAD Classification. In 19th Czech-German Workshop on Speech Processing [CD-ROM]. Prague: Institute of Photonics and Electronics AS CR, 2009, p. 42–47. ISBN 97880-86269-18-4. • Tatarinov, J. - Pollák, P.: Detekce řečové aktivity na bázi HMM a GMM modelování. Akustické listy, 2010, ročník 16, číslo 2–4, ISSN 1212-4702. Dodatek A Tabulky a grafy výsledků experimentů 109 110 DODATEK A. TABULKY A GRAFY VÝSLEDKŮ EXPERIMENTŮ 0.8 0.8 0.6 0.6 TP 1 TP 1 0.4 0.4 0.2 0.2 ROC pro MFCC 0 0 0.2 0.4 0.6 ROC pro RCPLP 0 0.8 1 0 0.2 0.4 FP 0.6 0.8 1 FP (a) MFCC (b) RCPLP 0.8 0.8 0.6 0.6 TP 1 TP 1 0.4 0.4 0.2 0.2 ROC pro SPLP 0 0 0.2 0.4 0.6 ROC pro RSPLP 0 0.8 1 0 0.2 0.4 FP 0.6 0.8 1 FP (c) SPLP (d) RSPLP Obrázek A.1: Nastavení prahu DHMM VAD pomocí ROC charakteristiky MFCC RCPLP CPLP RSPLP SPLP Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS směsí [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] 0 7.2 6.5 4.9 1.9 6.4 5.8 15.1 1.8 54.7 1.3 ± 3.3 8 30.7 ± 3.5 ± 2.5 ± 2.0 7.2 4.4 2.6 ± 3.3 ± 3.5 ± 13.9 ± 2.3 ± 28.1 ± 2.0 16.4 11.1 ± 24.9 ± 7.1 ± 2.0 ± 1.8 ± 10.7 ± 7.5 16 30.2 8.2 4.2 2.2 20.4 9.6 ± 25.7 ± 7.6 ± 2.5 ± 2.0 ± 17.8 ± 7.4 32 22.0 10.3 4.5 2.2 16.9 8.6 ± 20.9 ± 7.8 ± 2.7 ± 1.9 ± 17.3 ± 7.4 5.5 ± 3.0 5.2 ± 2.9 5.1 ± 2.9 2.2 41.0 2.1 ± 1.2 ± 31.0 ± 2.3 2.5 36.8 2.4 ± 1.9 ± 31.3 ± 2.0 2.2 25.7 3.1 ± 1.4 ± 25.2 ± 2.5 Tabulka A.4: Analýza počtu směsí fonémů v prostředí stojícího automobilu se zapnutým motorem 111 MFCC RCPLP CPLP RSPLP SPLP Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS směsí [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] 2 9.7 6.4 9.5 8.8 11.2 6.6 11.4 6.9 10.5 4.6 ± 5.9 ± 3.0 ± 4.0 ± 4.0 ± 5.4 ± 2.9 ± 5.9 ± 3.6 ± 6.3 ± 3.1 4 12.3 5.9 7.5 5.8 9.3 5.3 10.8 7.9 8.8 5.4 ± 7.3 ± 2.8 ± 3.5 ± 3.1 ± 5.0 ± 3.2 ± 5.8 ± 4.1 ± 4.3 ± 3.7 8 10.8 5.4 6.7 5.5 9.1 5.3 8.6 7.2 9.0 5.5 ± 6.8 ± 3.0 ± 3.5 ± 3.4 ± 6.1 ± 2.9 ± 4.2 ± 3.6 ± 4.5 ± 3.1 16 9.3 5.4 7.3 6.3 8.2 5.4 8.4 7.2 9.0 5.7 ± 6.4 ± 2.8 ± 3.8 ± 3.7 ± 4.7 ± 3.1 ± 3.7 ± 3.4 ± 4.9 ± 3.3 32 9.5 5.9 6.8 5.7 9.1 5.5 9.6 8.5 9.0 7.3 ± 6.1 ± 3.0 ± 3.6 ± 3.6 ± 5.9 ± 2.9 ± 3.9 ± 3.4 ± 3.9 ± 3.5 Tabulka A.1: Analýza počtu směsí GMM v prostředí stojícího automobilu se zapnutým motorem MFCC RCPLP CPLP RSPLP SPLP Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS směsí [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] 0 7.8 4.7 7.2 5.5 8.2 5.2 8.6 7.3 7.3 6.7 ± 4.7 ± 3.1 ± 3.5 ± 3.3 ± 5.3 ± 3.0 ± 3.9 ± 3.5 ± 3.1 ± 3.2 4 8.6 4.3 6.3 5.3 7.1 4.4 7.5 6.8 7.9 6.1 ± 7.3 ± 2.8 ± 3.1 ± 2.9 ± 5.4 ± 3.0 ± 3.3 ± 3.2 ± 4.0 ± 3.2 8 8.7 3.7 7.0 5.7 7.5 4.0 7.8 7.0 7.4 6.3 ± 8.3 ± 2.4 ± 3.2 ± 3.0 ± 5.8 ± 2.9 ± 3.3 ± 3.2 ± 3.3 ± 3.1 16 8.1 3.9 6.4 5.4 7.6 4.5 8.1 7.2 8.5 5.8 ± 7.2 ± 2.5 ± 3.3 ± 3.2 ± 5.3 ± 3.1 ± 3.4 ± 3.2 ± 5.3 ± 2.9 32 9.5 3.7 6.9 5.7 7.6 4.1 7.2 6.7 8.4 6.3 ± 9.7 ± 2.7 ± 3.2 ± 3.0 ± 6.0 ± 2.9 ± 3.1 ± 3.2 ± 5.1 ± 3.2 Tabulka A.2: Analýza počtu směsí modelů HMM VAD s LP modely v prostředí stojícího automobilu se zapnutým motorem MFCC RCPLP CPLP RSPLP SPLP Počet ERR ERS ERR ERS ERR ERS ERR ERS ERR ERS stavů [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] 3 8.8 6.2 7.1 4.9 9.0 5.0 10.7 7.5 8.9 5.3 ± 4.2 ± 3.3 ± 3.6 ± 3.3 ± 4.9 ± 3.3 ± 5.6 ± 4.1 ± 4.6 ± 3.2 5 8.5 6.1 7.1 6.0 8.5 4.1 8.3 7.2 9.3 6.6 ± 4.9 ± 3.1 ± 3.1 ± 3.0 ± 7.2 ± 2.8 ± 3.3 ± 2.9 ± 5.3 ± 3.3 7 7.8 4.7 6.3 5.3 7.1 4.4 7.5 6.8 7.4 6.3 ± 4.7 ± 3.1 ± 3.1 ± 2.9 ± 5.4 ± 3.0 ± 3.3 ± 3.2 ± 3.3 ± 3.1 9 8.7 5.1 6.7 5.9 8.5 4.5 7.1 6.1 6.6 5.9 ± 6.7 ± 3.1 ± 3.2 ± 3.1 ± 6.8 ± 2.9 ± 3.1 ± 2.9 ± 2.9 ± 3.0 Tabulka A.3: Analýza počtu stavů modelů HMM VAD s LP modely v prostředí stojícího automobilu se zapnutým motorem 112 DODATEK A. TABULKY A GRAFY VÝSLEDKŮ EXPERIMENTŮ VAD ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN [%] [%] [%] LPHMM MFCC 9.3 3.5 5.8 9.9 4.6 5.2 EHMM MFCC 10.1 4.6 5.5 LPHMM CPLP 10.3 5.0 5.3 11.2 6.7 4.5 EHMM RSPLP 11.2 4.8 6.4 LPHMM RCPLP 11.3 3.5 7.8 11.4 0.8 10.5 11.5 6.9 4.6 LPHMM RSPLP 11.6 6.2 5.4 12.0 4.3 7.8 EHMM RCPLP 12.3 3.9 8.4 12.6 8.2 4.5 12.8 6.6 6.2 12.9 10.0 2.9 LPHMM SPLP 13.0 8.4 4.6 13.1 1.0 12.1 13.4 5.7 7.7 13.7 5.0 8.7 14.1 6.4 7.6 DHMM MFCC 14.1 4.5 9.6 DHMM RCPLP 14.4 4.5 9.9 14.7 12.7 2.0 16.9 10.7 6.2 17.9 9.4 8.5 18.6 2.2 16.4 DHMM RSPLP 20.9 13.7 7.2 30.6 1.2 29.5 31.1 3.3 27.8 EHMM CPLP GMM MFCC Fon RCPLP GMM CPLP GMM RCPLP EHMM SPLP GMM RSPLP ENERG. Fon RSPLP Fon CPLP DHMM CPLP Fon MFCC KEPST. GMM SPLP DHMM SPLP Fon SPLP G729 AppIII G729 [%] [%] [%] [%] [%] [%] [%] [%] 0.5 2.3 0.7 0.0 1.6 1.7 0.5 2.0 0.3 3.2 1.2 0.0 1.1 1.7 1.0 1.5 0.4 3.4 0.9 0.0 1.1 1.7 1.1 1.6 0.6 3.4 1.0 0.0 1.6 1.4 0.8 1.5 0.7 4.0 1.9 0.0 0.7 1.7 1.4 0.7 0.7 2.5 1.6 0.0 1.0 1.7 2.6 1.1 0.2 2.4 0.9 0.0 1.3 2.0 2.2 2.3 0.4 0.3 0.2 0.0 3.5 1.2 1.6 4.2 0.5 3.6 2.7 0.0 0.6 1.7 1.6 0.7 0.6 4.2 1.2 0.2 0.9 1.5 2.1 1.0 0.2 1.4 2.7 0.0 1.5 2.1 2.6 1.5 0.2 2.0 1.7 0.0 1.4 2.4 3.1 1.4 0.7 5.1 2.3 0.0 0.6 1.7 1.3 0.9 0.2 3.1 3.3 0.0 0.7 2.1 2.5 1.0 1.2 3.5 5.2 0.0 0.7 0.3 1.6 0.3 1.6 5.4 0.8 0.5 0.7 1.3 1.6 1.0 0.1 0.6 0.3 0.0 3.6 1.7 2.8 4.1 0.7 2.3 0.4 2.3 1.2 1.2 1.6 3.8 0.2 3.1 1.7 0.0 0.7 3.9 2.3 1.8 0.5 2.2 0.1 3.6 0.7 0.8 1.4 4.7 0.2 2.9 1.4 0.0 0.9 4.2 2.5 2.0 0.4 2.1 2.0 0.0 1.0 3.8 2.3 2.8 1.5 5.1 6.2 0.0 0.5 0.2 1.2 0.1 1.2 5.2 4.1 0.3 0.6 2.0 2.7 1.0 0.4 6.6 2.4 0.0 0.6 4.4 1.6 1.9 0.2 1.7 0.2 0.0 2.4 1.1 2.4 10.5 0.2 9.1 4.3 0.1 0.5 4.4 1.2 1.1 0.2 0.1 0.8 0.0 9.5 2.6 8.4 9.0 0.3 0.3 2.7 0.0 8.2 2.1 11.2 6.3 ± 7.0 ± 3.5 ± 5.5 ± 1.6 ± 2.7 ± 2.1 ± 0.0 ± 4.7 ± 1.2 ± 1.4 ± 2.1 ± 7.3 ± 3.8 ± 5.8 ± 0.6 ± 3.0 ± 2.9 ± 0.0 ± 3.3 ± 1.2 ± 3.2 ± 2.1 ± 7.4 ± 3.5 ± 6.3 ± 1.5 ± 3.0 ± 2.2 ± 0.0 ± 3.4 ± 1.1 ± 3.7 ± 2.1 ± 9.4 ± 4.2 ± 8.2 ± 1.8 ± 2.9 ± 3.2 ± 0.0 ± 6.1 ± 1.1 ± 4.0 ± 2.0 ± 7.3 ± 4.3 ± 5.5 ± 1.9 ± 3.1 ± 2.6 ± 0.0 ± 2.7 ± 1.2 ± 3.6 ± 1.3 ± 6.4 ± 2.8 ± 6.2 ± 1.3 ± 2.2 ± 2.1 ± 0.0 ± 3.0 ± 1.5 ± 4.7 ± 1.7 ± 7.0 ± 3.0 ± 6.7 ± 0.6 ± 2.5 ± 2.0 ± 0.0 ± 3.8 ± 2.3 ± 4.2 ± 2.3 ± 9.4 ± 1.9 ± 8.9 ± 1.6 ± 0.8 ± 0.6 ± 0.0 ± 5.9 ± 1.8 ± 5.6 ± 3.8 ± 8.0 ± 5.1 ± 6.0 ± 1.9 ± 3.2 ± 3.3 ± 0.0 ± 2.4 ± 1.2 ± 4.4 ± 1.3 ± 6.8 ± 3.6 ± 6.6 ± 1.3 ± 2.9 ± 2.0 ± 1.8 ± 3.3 ± 1.3 ± 4.9 ± 1.3 ± 7.0 ± 3.0 ± 6.6 ± 0.5 ± 1.7 ± 2.6 ± 0.0 ± 3.0 ± 1.4 ± 4.5 ± 1.8 ± 6.9 ± 2.6 ± 7.0 ± 0.4 ± 2.1 ± 2.2 ± 0.0 ± 3.8 ± 1.9 ± 4.7 ± 1.8 ± 8.5 ± 5.0 ± 6.1 ± 1.9 ± 3.5 ± 4.0 ± 0.0 ± 2.3 ± 1.3 ± 4.7 ± 1.5 ± 6.6 ± 3.4 ± 6.0 ± 0.6 ± 2.6 ± 2.9 ± 0.0 ± 2.3 ± 1.5 ± 4.8 ± 1.5 ± 8.7 ± 5.2 ± 6.5 ± 2.2 ± 2.6 ± 4.1 ± 0.0 ± 3.0 ± 0.5 ± 4.6 ± 1.7 ± 9.5 ± 5.9 ± 6.7 ± 3.6 ± 3.8 ± 1.7 ± 3.1 ± 2.8 ± 1.1 ± 5.9 ± 1.9 ± 9.2 ± 1.1 ± 9.3 ± 0.4 ± 0.9 ± 0.7 ± 0.0 ± 5.1 ± 1.8 ± 6.6 ± 4.0 ± 12.3 ± 6.6 ± 11.2 ± 1.9 ± 2.7 ± 2.3 ± 6.0 ± 5.3 ± 1.1 ± 7.5 ± 5.7 ± 8.3 ± 4.2 ± 6.9 ± 1.5 ± 2.6 ± 3.1 ± 0.0 ± 2.9 ± 2.2 ± 6.1 ± 2.3 ± 9.7 ± 8.3 ± 8.6 ± 1.3 ± 2.9 ± 0.5 ± 7.8 ± 3.2 ± 1.4 ± 6.4 ± 4.5 ± 8.1 ± 3.5 ± 7.2 ± 1.5 ± 2.3 ± 2.2 ± 0.0 ± 3.1 ± 2.3 ± 6.5 ± 2.3 ± 9.0 ± 7.2 ± 6.2 ± 3.1 ± 3.7 ± 3.8 ± 0.0 ± 2.8 ± 2.5 ± 5.1 ± 2.6 ± 8.9 ± 5.6 ± 6.0 ± 2.3 ± 3.0 ± 4.7 ± 0.0 ± 2.2 ± 0.5 ± 4.8 ± 0.6 ± 10.5 ± 8.4 ± 7.6 ± 2.9 ± 4.3 ± 5.0 ± 2.1 ± 2.1 ± 1.5 ± 6.8 ± 1.5 ± 8.6 ± 4.9 ± 6.4 ± 2.2 ± 4.0 ± 3.1 ± 0.0 ± 2.2 ± 2.8 ± 5.5 ± 2.2 ± 13.2 ± 2.8 ± 13.7 ± 1.6 ± 2.3 ± 0.6 ± 0.0 ± 7.9 ± 1.7 ± 7.4 ± 10.8 ± 8.0 ± 7.3 ± 4.2 ± 1.2 ± 6.8 ± 4.4 ± 0.9 ± 2.1 ± 2.4 ± 3.1 ± 1.5 ± 11.5 ± 1.5 ± 11.6 ± 0.4 ± 0.6 ± 1.3 ± 0.0 ± 9.1 ± 4.9 ± 10.3 ± 9.7 ± 11.0 ± 2.9 ± 11.3 ± 0.5 ± 0.7 ± 2.7 ± 0.0 ± 9.0 ± 4.6 ± 11.4 ± 8.7 Tabulka A.5: Přehledová tabulka chyb klasifikace v prostředí stojícího automobilu 113 0.8 0.8 0.8 0.6 0.6 0.6 0.4 TP 1 TP 1 TP 1 0.4 3 stavy 5 stavů 7 stavů 9 stavů 0.2 0 0 0.2 0.4 0.6 FP 0.4 3 stavy 5 stavů 7 stavů 9 stavů 0.2 0 0.8 1 0 (a) MFCC, stojící automobil 0.2 0.4 0.6 FP 0 0.8 1 0 (b) MFCC, zapnutý motor 0.8 0.8 0.6 0.6 0.6 0.4 3 stavy 5 stavů 7 stavů 9 stavů 0 0 0.2 0.4 0.6 FP 3 stavy 5 stavů 7 stavů 9 stavů 0 1 0 (d) RCPLP, stojící automobil 0.2 0.4 0.6 FP 0 0.8 1 0 (e) RCPLP, zapnutý motor 0.8 0.6 0.6 0.6 0.4 0 0 0.2 0.4 0.6 3 stavy 5 stavů 7 stavů 9 stavů 0 1 0 0.2 FP 0.4 0.6 0 0.8 1 0 (h) SPLP, zapnutý motor 0.8 0.6 0.6 0.6 0.4 0 0 0.2 0.4 0.6 FP 3 stavy 5 stavů 7 stavů 9 stavů 0 (j) RSPLP, stojící automobil 1 0.8 1 0.4 0.2 0.8 0.6 TP 0.8 TP 0.8 TP 1 3 stavy 5 stavů 7 stavů 9 stavů 0.4 (i) SPLP, jedoucí automobil 1 0.2 0.2 FP 1 0.4 1 3 stavy 5 stavů 7 stavů 9 stavů 0.2 FP (g) SPLP, stojící automobil 0.8 0.4 0.2 0.8 0.4 0.6 FP TP 0.8 TP 0.8 TP 1 3 stavy 5 stavů 7 stavů 9 stavů 0.2 (f) RCPLP, jedoucí automobil 1 0.2 1 3 stavy 5 stavů 7 stavů 9 stavů 0.2 1 0.4 0.8 0.4 0.2 0.8 0.4 0.6 FP TP 0.8 TP 1 TP 1 0.2 0.2 (c) MFCC, jedoucí automobil 1 0.4 3 stavy 5 stavů 7 stavů 9 stavů 0.2 0 0.2 0.4 0.6 FP 3 stavy 5 stavů 7 stavů 9 stavů 0.2 0 0.8 (k) RSPLP, zapnutý motor 1 0 0.2 0.4 0.6 FP 0.8 1 (l) RSPLP, jedoucí automobil Obrázek A.2: Vliv zvyšování počtu stavů modelů na ROC charakterisitky pro DHMM VAD v uvedených prostředích a danou parametrizaci. 114 DODATEK A. TABULKY A GRAFY VÝSLEDKŮ EXPERIMENTŮ VAD ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN [%] [%] [%] 4.5 2.2 2.4 5.1 2.2 2.9 LPHMM RCPLP 6.3 5.3 1.0 EHMM RCPLP 6.4 5.0 1.4 6.4 5.4 1.0 6.6 5.9 0.6 6.7 5.5 1.1 7.1 4.4 2.8 DHMM RCPLP 7.2 3.2 4.0 LPHMM RSPLP 7.5 6.8 0.7 7.8 4.4 3.5 8.2 5.4 2.7 8.4 7.2 1.2 8.4 4.2 4.3 LPHMM MFCC 8.7 5.1 3.6 8.9 5.1 3.8 9.0 5.5 3.5 DHMM MFCC 10.2 5.2 5.0 DHMM CPLP 10.3 5.0 5.3 10.8 5.4 5.5 11.0 7.8 3.2 11.3 5.5 5.7 DHMM RSPLP 12.8 6.0 6.8 16.1 8.4 7.6 16.9 8.6 8.3 22.0 10.3 11.7 25.0 2.2 22.7 25.7 3.1 22.6 29.6 3.9 25.7 Fon RCPLP Fon RSPLP EHMM RSPLP LPHMM SPLP GMM RCPLP LPHMM CPLP EHMM MFCC GMM CPLP GMM RSPLP EHMM CPLP EHMM SPLP GMM SPLP GMM MFCC KEPST. DHMM SPLP ENERG. Fon CPLP Fon MFCC G729 AppIII Fon SPLP G729 [%] [%] [%] [%] [%] [%] [%] [%] 0.7 1.2 0.1 0.2 1.8 0.5 0.0 0.0 0.3 1.2 0.6 0.0 1.7 1.0 0.1 0.0 0.2 4.9 0.3 0.0 0.1 0.6 0.2 0.0 0.4 3.3 1.3 0.0 0.2 0.7 0.5 0.0 0.6 3.6 1.3 0.0 0.2 0.4 0.4 0.0 0.7 5.1 0.1 0.0 0.1 0.5 0.1 0.0 0.4 2.7 2.5 0.0 0.5 0.4 0.2 0.0 0.4 3.7 0.3 0.0 0.3 0.7 1.8 0.0 0.0 2.2 1.0 0.0 0.6 2.5 0.8 0.0 0.9 5.7 0.2 0.0 0.0 0.4 0.2 0.0 0.4 3.5 0.5 0.0 0.3 0.8 2.3 0.0 0.6 3.7 1.2 0.0 0.3 0.8 1.6 0.0 0.3 4.3 2.6 0.0 0.0 0.6 0.6 0.0 0.4 3.6 0.2 0.0 0.4 1.0 2.9 0.0 0.6 4.4 0.0 0.0 0.4 1.6 1.5 0.0 0.5 3.7 0.9 0.0 0.4 1.6 1.8 0.0 0.5 2.8 2.2 0.0 0.1 1.0 2.5 0.0 0.1 4.5 0.6 0.0 0.2 2.7 2.1 0.0 0.1 4.0 0.9 0.0 0.2 2.5 2.6 0.0 0.7 3.0 1.7 0.0 0.4 1.0 4.1 0.0 0.8 3.2 3.8 0.0 0.0 0.0 3.2 0.0 0.0 5.1 0.5 0.0 0.0 3.5 2.3 0.0 0.0 4.8 1.1 0.0 0.1 3.4 3.3 0.0 1.2 3.5 3.7 0.0 0.1 0.1 7.5 0.0 0.7 2.3 0.1 5.6 1.3 0.4 1.2 5.3 0.7 2.2 0.0 7.4 1.8 1.8 1.5 6.5 0.8 0.7 0.7 0.0 11.4 0.6 5.5 5.2 0.3 2.6 0.2 0.0 4.9 2.0 4.3 11.5 0.7 1.0 2.3 0.0 9.9 0.9 9.8 5.2 ± 2.7 ± 1.9 ± 2.0 ± 0.8 ± 1.6 ± 0.3 ± 0.9 ± 1.8 ± 0.5 ± 0.0 ± 0.0 ± 2.9 ± 1.4 ± 2.4 ± 0.3 ± 1.3 ± 1.1 ± 0.0 ± 2.1 ± 0.7 ± 0.5 ± 0.0 ± 3.1 ± 2.9 ± 0.6 ± 0.3 ± 2.9 ± 0.6 ± 0.0 ± 0.3 ± 0.5 ± 0.5 ± 0.0 ± 3.3 ± 3.0 ± 1.0 ± 0.4 ± 3.2 ± 1.7 ± 0.0 ± 0.4 ± 0.6 ± 0.8 ± 0.0 ± 3.0 ± 2.6 ± 0.9 ± 0.6 ± 2.6 ± 1.6 ± 0.0 ± 0.4 ± 0.3 ± 0.8 ± 0.0 ± 2.9 ± 3.0 ± 0.5 ± 0.7 ± 3.1 ± 0.3 ± 0.0 ± 0.2 ± 0.4 ± 0.3 ± 0.0 ± 3.5 ± 3.4 ± 0.9 ± 0.3 ± 2.7 ± 2.1 ± 0.0 ± 0.8 ± 0.4 ± 0.4 ± 0.0 ± 5.4 ± 3.0 ± 4.9 ± 0.5 ± 3.0 ± 0.8 ± 0.0 ± 1.0 ± 0.6 ± 4.1 ± 0.0 ± 3.3 ± 2.9 ± 1.5 ± 0.1 ± 2.1 ± 1.5 ± 0.0 ± 0.9 ± 0.8 ± 0.9 ± 0.0 ± 3.3 ± 3.2 ± 0.7 ± 0.9 ± 3.0 ± 0.4 ± 0.0 ± 0.1 ± 0.4 ± 0.6 ± 0.0 ± 6.0 ± 2.6 ± 4.9 ± 0.5 ± 2.7 ± 1.3 ± 0.0 ± 1.3 ± 0.6 ± 4.0 ± 0.0 ± 4.7 ± 3.1 ± 3.4 ± 0.7 ± 2.6 ± 1.4 ± 0.0 ± 1.1 ± 0.5 ± 2.5 ± 0.0 ± 3.7 ± 3.4 ± 0.9 ± 0.3 ± 3.3 ± 2.6 ± 0.0 ± 0.1 ± 0.4 ± 0.8 ± 0.0 ± 6.6 ± 2.8 ± 6.6 ± 0.4 ± 2.7 ± 0.6 ± 0.0 ± 1.5 ± 1.0 ± 4.9 ± 0.0 ± 6.7 ± 3.1 ± 6.0 ± 0.9 ± 2.7 ± 0.2 ± 0.0 ± 1.5 ± 3.8 ± 3.9 ± 0.0 ± 6.2 ± 2.8 ± 6.1 ± 0.5 ± 2.8 ± 1.0 ± 0.0 ± 1.6 ± 3.8 ± 3.8 ± 0.0 ± 4.5 ± 3.1 ± 3.4 ± 0.6 ± 3.2 ± 1.6 ± 0.0 ± 0.2 ± 0.6 ± 3.0 ± 0.0 ± 5.0 ± 2.8 ± 3.5 ± 0.3 ± 2.6 ± 0.8 ± 0.0 ± 0.9 ± 0.7 ± 3.0 ± 0.0 ± 5.5 ± 2.8 ± 4.5 ± 0.4 ± 2.4 ± 0.8 ± 0.0 ± 0.8 ± 0.9 ± 3.8 ± 0.0 ± 6.8 ± 3.0 ± 5.8 ± 0.8 ± 2.5 ± 1.9 ± 0.0 ± 1.1 ± 0.5 ± 5.0 ± 0.0 ± 6.2 ± 3.0 ± 4.6 ± 0.5 ± 2.4 ± 1.7 ± 0.0 ± 0.0 ± 0.1 ± 4.6 ± 0.0 ± 4.3 ± 3.3 ± 3.2 ± 0.0 ± 3.3 ± 0.8 ± 0.0 ± 0.0 ± 0.9 ± 3.0 ± 0.0 ± 6.4 ± 4.1 ± 6.4 ± 0.0 ± 4.2 ± 1.7 ± 0.0 ± 0.6 ± 0.8 ± 5.4 ± 0.0 ± 9.7 ± 4.1 ± 9.8 ± 1.0 ± 3.0 ± 2.2 ± 0.0 ± 0.1 ± 0.4 ± 9.5 ± 0.0 ± 17.3 ± 7.4 ± 18.7 ± 0.9 ± 2.4 ± 0.2 ± 8.4 ± 4.0 ± 0.5 ± 3.5 ± 15.5 ± 20.9 ± 7.8 ± 23.4 ± 0.9 ± 2.4 ± 0.0 ± 8.9 ± 7.7 ± 4.6 ± 3.7 ± 16.3 ± 6.5 ± 2.1 ± 6.4 ± 0.7 ± 1.2 ± 0.7 ± 0.0 ± 8.0 ± 1.5 ± 6.0 ± 6.4 ± 25.2 ± 2.5 ± 26.3 ± 0.5 ± 2.4 ± 0.4 ± 0.0 ± 7.6 ± 3.8 ± 5.8 ± 19.6 ± 7.5 ± 2.4 ± 8.2 ± 0.8 ± 1.2 ± 1.5 ± 0.0 ± 7.4 ± 1.8 ± 8.9 ± 6.4 Tabulka A.6: Přehledová tabulka chyb klasifikace v prostředí stojícího automobilu se zapnutým motorem 115 VAD ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN [%] [%] [%] 5.7 4.1 1.6 7.6 6.4 1.3 7.7 6.4 1.3 LPHMM RCPLP 8.0 6.9 1.1 8.3 7.5 0.8 8.5 5.6 2.9 LPHMM RSPLP 8.7 7.8 0.8 8.7 6.4 2.3 DHMM RCPLP 9.3 3.7 5.6 EHMM MFCC 9.4 5.4 4.0 9.6 8.5 1.1 LPHMM MFCC 9.8 6.9 2.9 10.0 6.1 3.9 11.3 9.7 1.6 11.3 9.1 2.3 11.5 5.4 6.1 11.9 5.4 6.6 12.0 6.2 5.8 12.5 5.2 7.3 DHMM MFCC 12.6 5.1 7.5 DHMM CPLP 12.7 5.0 7.7 12.7 4.4 8.3 19.7 9.5 10.3 22.7 7.1 23.8 DHMM RSPLP 23.8 Fon RSPLP EHMM RCPLP EHMM RSPLP Fon RCPLP LPHMM CPLP LPHMM SPLP GMM RCPLP GMM CPLP GMM RSPLP Fon CPLP EHMM CPLP GMM MFCC GMM SPLP EHMM SPLP DHMM SPLP ENERG. Fon MFCC KEPST. G729 AppIII G729 Fon SPLP [%] [%] [%] [%] [%] [%] [%] [%] 1.0 2.7 0.4 0.0 0.9 0.3 0.4 0.0 0.8 4.1 1.5 0.0 0.1 0.3 0.8 0.0 0.9 4.2 1.3 0.0 0.1 0.3 0.9 0.0 0.8 4.9 1.1 0.0 0.2 0.3 0.7 0.0 1.6 2.7 0.2 2.9 0.6 0.1 0.0 0.0 0.9 4.1 0.7 0.0 0.7 0.8 1.4 0.0 1.1 5.6 1.0 0.2 0.0 0.1 0.7 0.0 1.1 4.8 0.4 0.2 1.2 0.7 0.4 0.0 0.2 3.0 0.6 0.0 0.9 2.2 2.4 0.0 0.7 3.6 1.1 0.0 0.3 0.6 2.7 0.4 0.9 5.2 2.4 0.0 0.2 0.2 0.7 0.0 1.1 5.0 0.7 0.2 0.1 0.8 0.9 1.1 0.6 4.0 1.5 0.0 0.1 0.9 3.0 0.0 0.9 6.0 2.7 0.0 0.0 0.2 1.4 0.0 1.5 3.3 0.5 3.8 0.8 0.7 0.2 0.6 0.7 3.7 1.0 0.0 0.9 1.3 3.0 0.9 0.5 3.4 1.5 0.0 0.2 1.2 5.1 0.0 0.6 3.7 1.9 0.0 0.1 0.9 4.9 0.0 0.6 3.3 1.3 0.0 0.5 1.3 5.6 0.0 0.2 4.4 0.5 0.0 0.2 2.2 5.1 0.0 0.2 4.1 0.6 0.0 0.2 2.3 5.3 0.0 0.1 4.2 0.1 0.0 0.5 3.4 4.4 0.0 0.9 2.6 6.0 0.0 1.1 0.3 8.8 0.0 15.6 1.0 2.8 0.3 2.9 4.0 2.0 1.3 8.3 7.2 16.6 0.6 1.3 5.3 0.0 0.8 0.4 15.5 0.0 2.5 21.3 0.0 1.7 0.8 0.0 1.5 4.5 15.4 0.0 24.9 3.6 21.3 1.5 1.1 0.9 0.0 11.7 0.2 4.3 5.1 31.2 4.6 26.6 0.8 1.2 2.6 0.0 10.1 0.5 10.9 5.1 53.3 1.8 51.5 0.2 1.2 0.4 0.0 6.1 2.8 11.8 30.8 ± 3.0 ± 2.8 ± 2.0 ± 1.0 ± 2.3 ± 0.5 ± 0.0 ± 1.8 ± 0.4 ± 1.0 ± 0.0 ± 3.2 ± 3.4 ± 2.0 ± 1.0 ± 2.6 ± 1.4 ± 0.0 ± 0.5 ± 0.3 ± 1.7 ± 0.0 ± 3.7 ± 3.6 ± 2.0 ± 1.3 ± 2.6 ± 0.8 ± 0.0 ± 0.3 ± 0.3 ± 1.9 ± 0.0 ± 3.7 ± 4.0 ± 2.0 ± 1.1 ± 3.3 ± 1.2 ± 0.0 ± 0.5 ± 0.3 ± 1.8 ± 0.0 ± 5.3 ± 5.7 ± 1.1 ± 1.3 ± 2.1 ± 0.5 ± 5.3 ± 1.0 ± 0.2 ± 0.0 ± 0.0 ± 6.1 ± 3.8 ± 5.8 ± 1.0 ± 3.1 ± 1.0 ± 0.0 ± 2.4 ± 2.3 ± 2.9 ± 0.0 ± 4.0 ± 4.2 ± 1.7 ± 1.1 ± 3.2 ± 1.3 ± 1.1 ± 0.1 ± 0.2 ± 1.7 ± 0.0 ± 7.7 ± 4.4 ± 7.5 ± 1.0 ± 3.5 ± 0.6 ± 1.1 ± 5.6 ± 2.0 ± 1.0 ± 0.0 ± 5.5 ± 2.9 ± 5.5 ± 0.5 ± 2.6 ± 0.8 ± 0.0 ± 1.6 ± 1.0 ± 3.6 ± 0.0 ± 6.5 ± 3.6 ± 7.2 ± 1.0 ± 2.5 ± 1.2 ± 0.0 ± 1.1 ± 0.8 ± 5.0 ± 2.1 ± 3.9 ± 4.0 ± 2.3 ± 1.2 ± 2.9 ± 1.6 ± 0.0 ± 0.4 ± 0.2 ± 2.0 ± 0.0 ± 6.3 ± 4.4 ± 6.6 ± 1.2 ± 3.5 ± 1.0 ± 1.1 ± 0.2 ± 1.9 ± 2.5 ± 4.2 ± 4.8 ± 3.7 ± 4.6 ± 0.9 ± 2.7 ± 1.5 ± 0.0 ± 0.2 ± 0.9 ± 4.2 ± 0.0 ± 4.7 ± 4.4 ± 3.0 ± 1.1 ± 3.2 ± 1.6 ± 0.2 ± 0.1 ± 0.2 ± 2.9 ± 0.0 ± 8.0 ± 5.8 ± 5.8 ± 1.4 ± 2.9 ± 1.0 ± 6.7 ± 2.5 ± 1.7 ± 0.5 ± 3.5 ± 13.6 ± 3.8 ± 14.5 ± 1.1 ± 2.8 ± 1.1 ± 0.0 ± 3.0 ± 3.8 ± 5.3 ± 5.2 ± 8.1 ± 3.4 ± 8.7 ± 0.8 ± 2.6 ± 1.4 ± 0.0 ± 0.4 ± 2.3 ± 7.2 ± 0.0 ± 8.9 ± 3.6 ± 9.5 ± 0.9 ± 2.4 ± 1.7 ± 0.0 ± 0.2 ± 1.1 ± 8.6 ± 0.0 ± 8.2 ± 3.4 ± 9.2 ± 1.0 ± 2.3 ± 1.1 ± 0.0 ± 1.7 ± 2.0 ± 7.0 ± 0.0 ± 7.5 ± 3.1 ± 7.9 ± 0.6 ± 2.6 ± 0.7 ± 0.0 ± 0.6 ± 0.9 ± 7.2 ± 0.0 ± 6.6 ± 3.0 ± 6.5 ± 0.6 ± 2.4 ± 1.0 ± 0.0 ± 0.5 ± 0.8 ± 5.9 ± 0.0 ± 6.2 ± 2.6 ± 5.9 ± 0.3 ± 2.4 ± 0.3 ± 0.0 ± 2.0 ± 1.2 ± 5.4 ± 0.0 ± 11.1 ± 4.3 ± 12.4 ± 1.0 ± 1.9 ± 3.5 ± 0.0 ± 3.4 ± 1.1 ± 9.0 ± 0.0 ± 21.1 ± 6.5 ± 23.7 ± 1.1 ± 2.8 ± 0.4 ± 6.5 ± 8.1 ± 5.2 ± 3.2 ± 17.4 ± 11.0 ± 3.7 ± 12.1 ± 0.8 ± 1.3 ± 2.7 ± 0.0 ± 2.3 ± 0.8 ± 11.1 ± 0.0 ± 11.8 ± 2.3 ± 12.6 ± 0.1 ± 1.8 ± 0.9 ± 0.0 ± 2.2 ± 2.3 ± 9.8 ± 0.0 ± 10.8 ± 2.1 ± 11.4 ± 1.0 ± 1.4 ± 0.9 ± 0.0 ± 10.4 ± 0.7 ± 4.7 ± 6.8 ± 12.5 ± 2.2 ± 13.3 ± 0.7 ± 1.2 ± 1.8 ± 0.0 ± 7.6 ± 0.9 ± 9.8 ± 6.8 ± 28.2 ± 2.8 ± 30.2 ± 0.6 ± 2.1 ± 0.8 ± 0.2 ± 9.8 ± 4.8 ± 8.7 ± 27.4 Tabulka A.7: Přehledová tabulka chyb klasifikace v prostředí jedoucího automobilu 116 DODATEK A. TABULKY A GRAFY VÝSLEDKŮ EXPERIMENTŮ VAD ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN [%] [%] [%] 6.4 3.0 3.4 7.5 5.8 1.7 7.7 5.3 2.4 8.2 7.1 1.2 8.5 5.2 3.3 9.0 4.9 4.1 9.6 5.6 4.0 LPHMM RSPLP 9.8 6.9 2.9 9.8 4.3 5.6 LPHMM MFCC 9.9 6.9 3.1 LPHMM RCPLP 10.3 6.5 3.8 12.0 5.1 6.9 12.4 8.0 4.4 13.0 11.8 1.2 13.2 6.0 7.2 DHMM RCPLP 14.9 2.9 12.1 15.6 5.2 10.4 15.6 9.0 6.6 15.9 8.6 7.2 16.5 5.0 11.4 20.7 3.1 17.6 21.5 2.6 18.9 DHMM MFCC 23.1 2.9 20.2 30.0 6.1 30.8 DHMM RSPLP 37.8 Fon RSPLP LPHMM SPLP LPHMM CPLP Fon RCPLP EHMM RSPLP EHMM CPLP EHMM RCPLP EHMM MFCC EHMM SPLP GMM RCPLP Fon CPLP GMM CPLP GMM MFCC GMM RSPLP Fon MFCC GMM SPLP DHMM CPLP DHMM SPLP KEPST. ENERG. G729 AppIII Fon SPLP G729 [%] [%] [%] [%] [%] [%] [%] [%] 0.6 1.8 0.6 0.0 1.7 0.4 1.3 0.0 0.7 4.1 0.4 0.6 0.2 0.3 1.1 0.0 0.8 3.5 1.0 0.0 0.2 0.4 1.8 0.0 1.3 2.9 0.1 2.7 0.8 0.3 0.1 0.0 0.6 3.0 1.7 0.0 0.2 0.2 2.9 0.0 0.7 2.9 1.3 0.0 0.3 0.4 3.3 0.0 0.5 3.6 1.5 0.0 0.1 0.4 3.4 0.0 1.0 4.7 0.6 0.6 0.1 0.2 2.6 0.0 0.5 2.7 1.1 0.0 0.3 0.5 4.8 0.0 0.9 4.6 0.8 0.6 0.2 0.4 2.5 0.0 0.6 4.9 1.0 0.0 0.3 0.4 3.1 0.0 0.3 3.3 1.5 0.0 0.1 0.6 6.2 0.0 0.9 4.4 2.7 0.0 0.4 0.3 3.7 0.0 1.0 1.5 0.1 9.2 0.1 0.3 0.8 0.0 0.6 2.7 2.7 0.0 0.2 0.8 6.3 0.0 0.0 2.0 0.9 0.0 2.0 2.4 7.7 0.0 0.5 2.3 2.3 0.0 0.4 0.8 9.3 0.0 0.7 4.9 3.3 0.1 0.0 0.3 6.2 0.0 1.2 1.9 0.1 5.4 3.5 2.5 1.2 0.0 0.4 2.6 2.0 0.0 0.3 0.6 10.5 0.0 0.0 2.5 0.6 0.0 0.7 2.5 14.5 0.0 0.0 2.4 0.2 0.0 1.1 3.4 14.4 0.0 0.0 2.3 0.6 0.0 0.7 2.5 17.0 0.0 24.0 0.4 1.2 4.4 0.0 1.9 0.4 19.7 2.0 7.9 22.9 0.7 1.6 5.6 0.0 4.6 0.7 15.6 2.0 1.6 36.2 0.0 1.0 0.6 0.0 4.0 5.2 26.9 0.0 38.0 3.0 35.0 1.4 1.1 0.6 0.0 16.2 1.6 11.5 5.7 39.5 1.7 37.8 0.2 1.1 0.3 0.1 13.1 1.6 10.8 12.4 48.1 3.5 44.6 0.6 1.2 1.8 0.0 13.1 1.1 24.8 5.7 ± 2.3 ± 1.5 ± 2.4 ± 0.5 ± 1.6 ± 1.2 ± 0.0 ± 2.7 ± 0.4 ± 1.7 ± 0.0 ± 4.4 ± 4.6 ± 1.6 ± 0.7 ± 3.4 ± 0.6 ± 1.8 ± 0.4 ± 0.3 ± 1.7 ± 0.0 ± 3.3 ± 3.8 ± 2.5 ± 0.9 ± 3.5 ± 1.1 ± 0.0 ± 0.4 ± 0.3 ± 2.4 ± 0.0 ± 5.0 ± 5.6 ± 2.0 ± 1.1 ± 2.9 ± 0.4 ± 4.1 ± 1.2 ± 0.5 ± 0.4 ± 0.0 ± 2.8 ± 1.8 ± 3.1 ± 0.4 ± 2.0 ± 1.0 ± 0.0 ± 0.4 ± 0.3 ± 3.0 ± 0.0 ± 4.4 ± 3.5 ± 3.9 ± 0.7 ± 2.3 ± 1.3 ± 0.0 ± 0.5 ± 0.3 ± 3.8 ± 0.0 ± 2.3 ± 3.2 ± 3.5 ± 0.5 ± 3.2 ± 1.5 ± 0.0 ± 0.2 ± 0.7 ± 3.1 ± 0.0 ± 4.0 ± 4.2 ± 3.2 ± 0.8 ± 3.0 ± 0.5 ± 1.8 ± 0.2 ± 0.3 ± 3.1 ± 0.0 ± 5.8 ± 3.4 ± 5.5 ± 0.4 ± 2.1 ± 1.4 ± 0.0 ± 0.4 ± 0.5 ± 5.2 ± 0.0 ± 4.3 ± 4.4 ± 4.0 ± 0.9 ± 3.6 ± 1.5 ± 1.8 ± 0.3 ± 0.5 ± 3.8 ± 0.0 ± 3.1 ± 4.1 ± 4.6 ± 0.8 ± 4.0 ± 1.1 ± 0.0 ± 0.4 ± 0.8 ± 4.0 ± 0.0 ± 6.0 ± 2.6 ± 5.5 ± 0.3 ± 2.1 ± 1.2 ± 0.0 ± 0.1 ± 0.4 ± 5.4 ± 0.0 ± 3.5 ± 4.0 ± 5.1 ± 1.0 ± 3.5 ± 1.4 ± 0.0 ± 0.5 ± 0.5 ± 4.6 ± 0.0 ± 6.8 ± 7.4 ± 2.6 ± 1.2 ± 2.1 ± 0.2 ± 9.2 ± 0.3 ± 0.3 ± 2.3 ± 0.0 ± 4.7 ± 3.0 ± 5.8 ± 0.9 ± 2.0 ± 1.6 ± 0.0 ± 0.3 ± 0.5 ± 5.5 ± 0.0 ± 7.2 ± 2.1 ± 7.7 ± 0.1 ± 2.2 ± 1.2 ± 0.0 ± 2.5 ± 1.3 ± 5.2 ± 0.0 ± 8.7 ± 3.2 ± 9.5 ± 0.8 ± 2.0 ± 1.4 ± 0.0 ± 0.4 ± 0.4 ± 9.2 ± 0.0 ± 3.6 ± 4.0 ± 5.1 ± 0.6 ± 3.0 ± 1.5 ± 0.3 ± 0.1 ± 0.4 ± 4.8 ± 0.0 ± 10.2 ± 4.6 ± 11.7 ± 1.5 ± 1.9 ± 0.3 ± 5.8 ± 6.7 ± 6.7 ± 2.5 ± 0.0 ± 8.3 ± 3.2 ± 8.5 ± 0.5 ± 2.1 ± 1.8 ± 0.0 ± 0.5 ± 0.4 ± 8.3 ± 0.0 ± 9.7 ± 2.2 ± 10.3 ± 0.1 ± 1.5 ± 0.9 ± 0.0 ± 1.0 ± 0.8 ± 9.1 ± 0.0 ± 6.7 ± 1.5 ± 7.0 ± 0.0 ± 1.3 ± 0.3 ± 0.0 ± 1.3 ± 1.2 ± 6.7 ± 0.0 ± 11.4 ± 2.2 ± 12.0 ± 0.1 ± 1.5 ± 0.9 ± 0.0 ± 1.1 ± 0.8 ± 10.9 ± 0.0 ± 15.0 ± 3.9 ± 16.6 ± 0.4 ± 0.8 ± 3.2 ± 0.0 ± 3.4 ± 0.7 ± 12.2 ± 6.1 ± 19.6 ± 5.8 ± 23.5 ± 1.0 ± 0.9 ± 4.9 ± 0.0 ± 7.3 ± 1.8 ± 12.8 ± 6.1 ± 6.5 ± 1.3 ± 7.0 ± 0.0 ± 1.0 ± 0.6 ± 0.0 ± 3.3 ± 2.9 ± 4.7 ± 0.0 ± 13.4 ± 3.0 ± 15.2 ± 1.4 ± 2.4 ± 0.9 ± 0.0 ± 15.3 ± 3.1 ± 7.0 ± 7.6 ± 26.3 ± 1.9 ± 27.7 ± 0.3 ± 1.3 ± 0.6 ± 0.3 ± 14.8 ± 2.4 ± 11.5 ± 18.1 ± 11.4 ± 2.8 ± 12.5 ± 0.7 ± 1.7 ± 1.4 ± 0.0 ± 10.3 ± 1.3 ± 8.3 ± 7.6 Tabulka A.8: Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelný blinkr 117 VAD ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] 12.4 0.9 11.6 0.7 0.1 0.0 0.0 4.1 0.9 3.5 3.1 12.4 3.5 9.0 0.0 1.5 1.9 0.0 1.0 2.5 2.3 3.1 12.6 9.1 3.5 0.9 6.2 0.0 2.0 0.7 0.9 0.0 1.9 12.7 7.1 5.7 0.4 5.4 1.2 0.0 2.2 1.3 1.4 0.7 DHMM MFCC 13.0 3.8 9.2 0.0 1.9 1.9 0.0 1.1 2.9 2.0 3.2 EHMM MFCC 13.3 4.5 8.8 0.2 4.1 0.2 0.0 2.5 1.2 3.3 1.9 13.4 9.3 4.2 1.2 3.8 4.2 0.0 1.3 0.4 2.3 0.2 13.4 11.1 2.3 1.8 5.0 4.4 0.0 1.1 0.2 1.0 0.0 13.6 5.9 7.7 0.0 5.5 0.3 0.0 1.1 3.6 1.1 2.0 13.7 5.5 8.3 0.6 4.3 0.6 0.0 2.3 1.1 3.0 1.9 14.2 6.2 8.0 0.5 4.9 0.8 0.0 2.2 1.3 3.8 0.7 LPHMM MFCC 14.8 5.7 9.1 1.1 4.3 0.3 0.0 5.4 1.4 0.7 1.7 LPHMM CPLP 15.2 6.0 9.2 0.9 4.7 0.5 0.0 5.2 0.8 1.5 1.7 GMM RCPLP 15.4 4.1 11.3 0.2 0.9 3.0 0.0 3.6 1.4 4.7 1.6 15.7 7.0 8.7 0.6 5.0 1.4 0.0 2.3 1.0 4.7 0.7 EHMM RSPLP 16.1 4.8 11.3 0.5 2.1 2.2 0.0 2.6 1.0 6.0 1.7 17.0 6.1 10.8 0.0 2.4 3.7 0.0 1.4 2.1 7.0 0.3 17.1 1.0 16.1 0.4 0.5 0.1 0.0 4.0 1.9 7.3 2.8 17.4 5.0 12.4 0.7 4.3 0.0 0.0 6.2 0.7 2.2 3.3 DHMM RSPLP 17.7 12.2 5.5 0.4 9.5 2.3 0.0 0.1 3.8 0.8 0.8 LPHMM RCPLP 17.8 4.1 13.7 0.2 2.8 1.0 0.0 3.5 3.3 5.2 1.7 LPHMM RSPLP 18.4 8.4 10.1 0.2 4.9 0.7 2.6 3.4 1.0 4.9 0.8 LPHMM SPLP 18.5 12.1 6.4 0.5 3.7 1.0 6.9 0.7 1.1 0.0 4.5 DHMM RCPLP 18.8 7.5 11.2 1.0 4.2 2.3 0.0 0.6 5.7 4.5 0.5 EHMM RCPLP 19.4 3.5 15.8 0.1 0.7 2.8 0.0 3.7 2.5 7.9 1.7 19.5 9.7 9.8 0.7 4.7 4.3 0.0 1.9 1.6 5.2 1.1 22.3 3.6 18.7 0.2 3.5 0.0 0.0 6.6 1.0 2.5 8.6 32.3 4.2 28.1 0.3 0.2 3.7 0.0 6.6 1.8 18.1 1.5 32.9 1.9 31.0 0.3 0.1 1.5 0.0 14.1 1.9 13.1 1.9 Fon RCPLP DHMM CPLP Fon MFCC EHMM SPLP ENERG. KEPST. DHMM SPLP EHMM CPLP GMM MFCC ± 14.6 ± 1.1 ± 14.9 ± 1.0 ± 0.3 ± 0.0 ± 0.0 ± 7.7 ± 0.8 ± 6.2 ± 6.7 ± 4.4 ± 1.7 ± 4.5 ± 0.0 ± 0.9 ± 1.3 ± 0.0 ± 2.3 ± 1.5 ± 1.4 ± 4.7 ± 7.8 ± 6.0 ± 3.5 ± 1.3 ± 4.6 ± 0.0 ± 3.7 ± 1.7 ± 0.8 ± 0.0 ± 3.1 ± 5.0 ± 5.1 ± 7.7 ± 0.9 ± 4.0 ± 1.6 ± 0.0 ± 3.8 ± 0.7 ± 3.4 ± 1.3 ± 3.5 ± 1.9 ± 3.5 ± 0.0 ± 1.2 ± 1.4 ± 0.0 ± 2.2 ± 1.7 ± 1.7 ± 4.8 ± 10.9 ± 3.9 ± 12.8 ± 0.4 ± 3.9 ± 0.4 ± 0.0 ± 4.2 ± 0.5 ± 8.0 ± 3.1 ± 6.5 ± 3.3 ± 6.9 ± 1.2 ± 3.1 ± 2.6 ± 0.0 ± 2.5 ± 0.4 ± 3.7 ± 0.4 ± 4.9 ± 3.7 ± 5.1 ± 2.4 ± 3.2 ± 1.7 ± 0.0 ± 2.4 ± 0.4 ± 2.4 ± 0.0 ± 4.3 ± 4.5 ± 6.0 ± 0.1 ± 4.3 ± 0.6 ± 0.0 ± 2.4 ± 1.8 ± 2.6 ± 3.3 ± 9.6 ± 5.0 ± 11.6 ± 0.9 ± 4.3 ± 1.0 ± 0.0 ± 4.1 ± 0.5 ± 6.8 ± 3.1 ± 10.3 ± 4.5 ± 12.0 ± 1.0 ± 4.0 ± 0.9 ± 0.0 ± 4.5 ± 0.9 ± 6.5 ± 1.2 ± 11.1 ± 4.0 ± 12.8 ± 1.6 ± 3.8 ± 0.8 ± 0.0 ± 11.5 ± 0.6 ± 1.2 ± 2.9 GMM CPLP GMM RSPLP Fon RSPLP Fon CPLP ± 13.8 ± 4.7 ± 16.1 ± 0.9 ± 4.1 ± 0.9 ± 0.0 ± 11.6 ± 0.4 ± 4.0 ± 2.9 ± 10.1 ± 2.8 ± 10.9 ± 0.3 ± 0.9 ± 2.7 ± 0.0 ± 6.4 ± 0.7 ± 4.1 ± 2.9 ± 12.0 ± 6.1 ± 14.8 ± 1.2 ± 4.9 ± 1.7 ± 0.0 ± 4.4 ± 0.8 ± 9.3 ± 1.3 ± 6.9 ± 3.5 ± 9.3 ± 0.8 ± 2.7 ± 2.5 ± 0.0 ± 4.4 ± 0.5 ± 4.5 ± 2.9 ± 8.1 ± 3.3 ± 10.4 ± 0.0 ± 1.9 ± 2.9 ± 0.0 ± 2.3 ± 1.8 ± 8.3 ± 0.6 ± 14.3 ± 1.0 ± 14.8 ± 0.7 ± 0.5 ± 0.3 ± 0.0 ± 4.7 ± 1.6 ± 8.8 ± 6.8 ± 16.9 ± 4.3 ± 19.4 ± 0.9 ± 3.8 ± 0.0 ± 0.0 ± 16.2 ± 0.5 ± 5.8 ± 6.7 ± 4.8 ± 5.3 ± 2.9 ± 1.0 ± 6.4 ± 2.3 ± 0.0 ± 0.3 ± 2.7 ± 2.0 ± 1.2 ± 7.4 ± 3.8 ± 8.9 ± 0.6 ± 3.9 ± 2.0 ± 0.0 ± 6.2 ± 3.1 ± 4.4 ± 2.9 ± 11.9 ± 5.9 ± 12.1 ± 0.3 ± 3.9 ± 1.2 ± 6.9 ± 6.9 ± 0.4 ± 5.3 ± 1.1 GMM SPLP Fon SPLP G729 G729 AppIII ± 13.9 ± 6.8 ± 7.4 ± 0.7 ± 3.0 ± 1.2 ± 9.8 ± 1.1 ± 0.1 ± 0.0 ± 6.4 ± 9.6 ± 10.2 ± 3.1 ± 2.7 ± 8.1 ± 2.8 ± 0.0 ± 0.6 ± 2.5 ± 3.3 ± 1.0 ± 7.9 ± 2.8 ± 9.0 ± 0.2 ± 0.7 ± 2.8 ± 0.0 ± 6.5 ± 2.3 ± 3.3 ± 3.1 ± 10.1 ± 9.5 ± 12.8 ± 1.2 ± 5.2 ± 6.8 ± 0.0 ± 3.3 ± 1.7 ± 8.6 ± 1.4 ± 16.1 ± 4.7 ± 19.0 ± 0.4 ± 4.4 ± 0.0 ± 0.0 ± 16.0 ± 1.6 ± 5.7 ± 10.2 ± 16.1 ± 2.7 ± 18.4 ± 0.5 ± 0.3 ± 2.4 ± 0.0 ± 4.9 ± 4.0 ± 14.3 ± 3.1 ± 17.5 ± 1.4 ± 18.5 ± 0.5 ± 0.3 ± 1.0 ± 0.0 ± 13.3 ± 4.0 ± 6.9 ± 3.0 Tabulka A.9: Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelný dech mluvčího 118 DODATEK A. TABULKY A GRAFY VÝSLEDKŮ EXPERIMENTŮ VAD ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN [%] [%] [%] 5.2 3.4 1.7 6.2 5.1 1.0 7.6 5.8 1.8 7.7 5.8 1.9 LPHMM RCPLP 7.8 6.1 1.7 8.1 5.0 3.1 LPHMM MFCC 8.3 5.8 2.5 EHMM RSPLP 8.3 6.3 2.0 8.4 4.5 4.0 8.5 4.6 3.9 LPHMM RSPLP 9.0 7.5 1.5 9.2 7.6 1.6 9.3 5.2 4.1 DHMM RCPLP 10.5 3.0 7.5 10.7 5.7 4.9 11.1 9.4 1.7 11.4 4.7 6.7 11.6 9.3 2.3 11.9 5.8 6.1 DHMM MFCC 14.5 4.1 10.4 DHMM SPLP 14.5 4.2 10.3 15.1 3.8 11.2 20.5 8.9 11.6 23.3 7.6 DHMM RSPLP 23.6 Fon RSPLP Fon RCPLP EHMM RCPLP LPHMM SPLP LPHMM CPLP EHMM CPLP EHMM MFCC GMM RCPLP EHMM SPLP GMM CPLP Fon CPLP GMM MFCC GMM RSPLP GMM SPLP DHMM CPLP ENERG. KEPST. G729 AppIII Fon MFCC G729 Fon SPLP [%] [%] [%] [%] [%] [%] [%] [%] 0.8 2.1 0.5 0.0 0.4 0.7 0.7 0.0 1.8 1.8 0.3 1.2 0.8 0.2 0.0 0.0 0.8 3.3 1.7 0.0 0.1 0.4 1.3 0.0 1.1 4.3 0.4 0.0 0.6 0.3 1.0 0.0 0.7 4.2 1.2 0.0 0.2 0.4 1.1 0.0 0.7 3.5 0.8 0.0 0.9 0.6 1.7 0.0 0.8 4.0 0.9 0.0 0.1 0.7 1.7 0.0 1.0 3.5 1.9 0.0 0.1 0.4 1.4 0.0 0.5 3.1 0.9 0.0 0.2 0.6 3.3 0.0 0.6 3.0 0.9 0.0 0.2 0.6 3.1 0.0 1.0 4.8 1.7 0.0 0.1 0.3 1.1 0.0 0.8 4.6 2.2 0.0 0.2 0.3 1.0 0.0 0.4 3.2 1.5 0.0 0.2 0.7 3.3 0.0 0.1 2.2 0.7 0.0 1.0 2.4 4.1 0.0 0.4 3.4 1.9 0.0 0.0 0.8 4.1 0.0 1.0 2.5 0.7 5.1 0.9 0.4 0.5 0.0 0.4 2.5 1.8 0.0 0.1 0.9 5.6 0.0 1.0 5.2 3.0 0.1 0.0 0.2 2.1 0.0 0.6 3.1 2.1 0.0 0.3 0.8 5.0 0.0 0.1 3.3 0.7 0.0 0.3 2.6 7.4 0.0 0.0 3.8 0.3 0.0 1.0 3.5 5.8 0.0 0.1 2.8 0.9 0.0 0.3 2.6 8.3 0.0 0.9 2.3 5.6 0.0 1.8 0.6 9.2 0.0 15.7 0.7 1.6 5.3 0.0 0.8 0.3 14.6 0.0 2.6 20.9 0.0 1.7 0.9 0.0 1.1 5.3 14.6 0.0 24.1 3.2 20.9 1.5 0.8 0.9 0.0 10.2 0.5 5.9 4.4 24.2 8.3 15.9 0.5 2.3 0.3 5.3 3.5 3.1 1.3 8.0 30.4 4.5 25.9 0.8 0.7 3.0 0.0 8.9 0.6 12.0 4.4 42.3 2.0 40.3 0.2 1.5 0.2 0.1 5.7 3.9 10.6 20.1 ± 2.7 ± 2.8 ± 1.5 ± 1.0 ± 2.0 ± 0.5 ± 0.0 ± 0.5 ± 0.8 ± 1.3 ± 0.0 ± 2.7 ± 3.4 ± 1.2 ± 1.3 ± 1.8 ± 0.6 ± 2.5 ± 1.0 ± 0.5 ± 0.0 ± 0.0 ± 3.1 ± 3.6 ± 1.7 ± 1.0 ± 2.6 ± 1.5 ± 0.0 ± 0.2 ± 0.7 ± 1.5 ± 0.0 ± 3.5 ± 3.5 ± 2.0 ± 0.9 ± 2.8 ± 0.6 ± 0.0 ± 1.5 ± 0.2 ± 1.4 ± 0.0 ± 3.5 ± 3.9 ± 1.5 ± 1.0 ± 3.0 ± 1.5 ± 0.0 ± 0.4 ± 0.8 ± 1.4 ± 0.0 ± 5.5 ± 2.9 ± 3.5 ± 0.9 ± 2.0 ± 1.0 ± 0.0 ± 2.8 ± 0.6 ± 2.2 ± 0.0 ± 4.0 ± 3.5 ± 3.4 ± 0.9 ± 2.5 ± 1.3 ± 0.0 ± 0.3 ± 0.7 ± 3.3 ± 0.0 ± 4.2 ± 4.4 ± 1.9 ± 1.4 ± 2.6 ± 1.4 ± 0.0 ± 0.3 ± 0.7 ± 1.7 ± 0.0 ± 5.4 ± 2.6 ± 3.7 ± 0.8 ± 2.1 ± 0.9 ± 0.0 ± 0.3 ± 0.7 ± 3.8 ± 0.0 ± 5.3 ± 3.0 ± 4.8 ± 0.8 ± 1.9 ± 1.1 ± 0.0 ± 0.3 ± 0.7 ± 4.6 ± 0.0 ± 4.4 ± 4.8 ± 2.0 ± 1.1 ± 3.1 ± 2.0 ± 0.0 ± 0.2 ± 0.8 ± 2.0 ± 0.0 ± 4.1 ± 4.4 ± 1.4 ± 1.0 ± 3.2 ± 1.7 ± 0.0 ± 0.4 ± 0.6 ± 1.4 ± 0.0 ± 4.9 ± 3.2 ± 4.2 ± 0.8 ± 2.2 ± 1.2 ± 0.0 ± 0.3 ± 0.4 ± 4.1 ± 0.0 ± 6.3 ± 2.6 ± 6.4 ± 0.4 ± 2.0 ± 0.8 ± 0.0 ± 1.7 ± 1.2 ± 4.0 ± 0.0 ± 5.8 ± 3.3 ± 5.1 ± 0.6 ± 2.2 ± 1.7 ± 0.0 ± 0.1 ± 0.4 ± 5.1 ± 0.0 ± 6.7 ± 6.6 ± 2.5 ± 1.0 ± 3.0 ± 1.4 ± 8.0 ± 2.2 ± 0.3 ± 0.8 ± 0.0 ± 8.5 ± 2.7 ± 8.5 ± 0.7 ± 2.0 ± 1.4 ± 0.0 ± 0.3 ± 0.5 ± 8.2 ± 0.0 ± 4.7 ± 4.5 ± 2.8 ± 1.1 ± 3.4 ± 1.8 ± 0.2 ± 0.1 ± 0.3 ± 2.8 ± 0.0 ± 6.9 ± 4.0 ± 6.1 ± 0.8 ± 2.5 ± 1.7 ± 0.0 ± 0.6 ± 0.7 ± 5.9 ± 0.0 ± 9.1 ± 3.3 ± 9.3 ± 0.5 ± 2.9 ± 0.7 ± 0.0 ± 0.8 ± 1.1 ± 8.4 ± 0.0 ± 6.4 ± 2.4 ± 5.4 ± 0.1 ± 2.4 ± 0.4 ± 0.0 ± 2.9 ± 1.3 ± 5.2 ± 0.0 ± 7.9 ± 2.7 ± 7.3 ± 0.2 ± 2.1 ± 1.0 ± 0.0 ± 0.8 ± 0.9 ± 6.8 ± 0.0 ± 13.9 ± 4.6 ± 14.7 ± 0.8 ± 2.0 ± 2.9 ± 0.0 ± 4.5 ± 1.6 ± 9.8 ± 0.0 ± 10.1 ± 4.3 ± 10.9 ± 0.7 ± 1.3 ± 2.8 ± 0.0 ± 2.5 ± 0.8 ± 11.0 ± 0.0 ± 11.4 ± 1.8 ± 11.7 ± 0.0 ± 1.4 ± 1.0 ± 0.0 ± 1.8 ± 2.9 ± 8.6 ± 0.0 ± 10.4 ± 2.1 ± 10.6 ± 1.2 ± 0.9 ± 0.8 ± 0.0 ± 7.9 ± 1.1 ± 5.5 ± 6.2 ± 16.6 ± 8.6 ± 19.7 ± 0.7 ± 2.6 ± 0.4 ± 9.4 ± 5.4 ± 6.8 ± 2.0 ± 14.7 ± 11.8 ± 3.0 ± 12.2 ± 0.8 ± 0.7 ± 2.1 ± 0.0 ± 6.0 ± 0.9 ± 11.0 ± 6.2 ± 29.3 ± 2.3 ± 30.7 ± 0.3 ± 1.8 ± 0.4 ± 0.2 ± 7.4 ± 5.3 ± 10.2 ± 23.3 Tabulka A.10: Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelné klapání 119 VAD ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] [%] 3.0 11.5 0.2 0.9 1.9 0.0 6.2 1.1 2.8 1.3 19.1 3.7 15.4 0.9 2.1 0.1 0.6 1.9 0.3 10.4 2.9 19.7 3.4 16.3 0.2 0.7 2.5 0.0 4.5 1.1 9.3 1.4 20.2 5.6 14.6 0.6 1.9 3.1 0.0 2.9 1.2 9.3 1.2 LPHMM RCPLP 20.3 3.1 17.2 0.5 1.3 1.3 0.0 5.1 1.3 9.5 1.3 EHMM RSPLP 20.6 4.4 16.2 0.8 1.6 2.0 0.0 2.7 0.9 11.5 1.0 GMM RCPLP 20.7 3.4 17.3 0.5 0.9 2.0 0.0 4.3 1.1 11.0 0.9 EHMM MFCC 21.6 3.6 18.0 0.2 1.0 2.3 0.0 4.5 0.6 10.8 2.1 EHMM RCPLP 21.6 3.8 17.8 0.3 1.2 2.3 0.0 5.3 1.2 10.3 1.0 LPHMM RSPLP 21.9 4.8 17.2 1.0 2.1 1.7 0.0 3.7 0.9 11.6 1.0 22.0 5.1 16.9 0.6 1.5 2.9 0.0 2.0 1.0 13.1 0.8 22.7 0.8 22.0 0.3 0.2 0.2 0.0 10.0 1.0 8.9 2.0 22.9 5.8 17.1 0.2 1.2 4.5 0.0 2.9 0.7 11.8 1.8 0.8 4.2 6.5 0.0 1.5 1.6 7.3 1.4 1.4 0.4 6.3 0.0 2.3 1.3 10.8 1.5 LPHMM MFCC 14.5 Fon MFCC EHMM CPLP GMM MFCC ± 13.1 ± 4.1 ± 11.7 ± 0.4 ± 1.2 ± 3.5 ± 0.0 ± 11.5 ± 0.9 ± 2.3 ± 1.5 ± 15.6 ± 4.6 ± 17.7 ± 1.4 ± 4.2 ± 0.4 ± 1.6 ± 2.6 ± 0.3 ± 18.4 ± 3.0 ± 12.8 ± 4.8 ± 10.9 ± 0.4 ± 0.8 ± 4.8 ± 0.0 ± 5.0 ± 1.1 ± 7.5 ± 2.1 ± 13.4 ± 4.6 ± 10.9 ± 1.4 ± 1.0 ± 4.1 ± 0.0 ± 4.8 ± 1.2 ± 7.6 ± 2.1 ± 12.4 ± 4.3 ± 11.8 ± 1.4 ± 1.7 ± 2.2 ± 0.0 ± 7.2 ± 1.3 ± 8.7 ± 1.5 ± 11.7 ± 3.4 ± 11.8 ± 1.4 ± 1.7 ± 2.3 ± 0.0 ± 4.1 ± 1.0 ± 10.4 ± 1.5 ± 13.3 ± 3.3 ± 12.7 ± 1.0 ± 0.8 ± 2.5 ± 0.0 ± 6.0 ± 0.8 ± 9.5 ± 0.9 ± 13.6 ± 4.4 ± 12.1 ± 0.4 ± 1.2 ± 4.2 ± 0.0 ± 5.2 ± 0.7 ± 8.5 ± 2.3 ± 11.9 ± 3.5 ± 11.1 ± 0.5 ± 0.9 ± 3.2 ± 0.0 ± 7.5 ± 0.8 ± 7.8 ± 1.5 GMM RSPLP Fon RCPLP GMM CPLP ± 12.9 ± 4.5 ± 14.1 ± 1.5 ± 1.6 ± 2.3 ± 0.0 ± 6.7 ± 1.0 ± 12.1 ± 1.5 ± 12.3 ± 4.3 ± 12.5 ± 1.7 ± 1.7 ± 3.3 ± 0.0 ± 2.4 ± 1.0 ± 11.2 ± 0.9 ± 16.8 ± 1.1 ± 17.0 ± 0.5 ± 0.5 ± 0.7 ± 0.0 ± 15.3 ± 1.2 ± 13.3 ± 2.4 ± 15.0 ± 6.3 ± 13.3 ± 0.4 ± 0.9 ± 6.6 ± 0.0 ± 4.7 ± 0.6 ± 10.6 ± 2.5 DHMM RSPLP 23.3 11.5 11.8 DHMM RCPLP 24.0 8.1 15.9 24.2 1.2 23.0 0.2 0.4 0.6 0.0 5.4 1.4 14.7 1.6 24.6 9.1 15.5 0.7 2.0 6.4 0.0 2.2 0.5 12.1 0.8 25.0 6.7 18.3 0.7 1.8 4.2 0.0 2.8 0.6 13.2 1.8 25.4 10.6 14.8 1.4 2.3 6.9 0.0 2.3 0.6 11.5 0.4 DHMM MFCC 26.3 5.2 21.1 0.4 1.3 3.5 0.0 2.4 1.8 15.3 1.6 LPHMM SPLP 26.5 9.8 16.7 4.1 3.4 2.3 0.0 1.9 0.5 13.8 0.5 DHMM CPLP 26.7 6.2 20.5 0.1 1.3 4.9 0.0 2.3 1.6 14.8 1.9 28.0 7.0 21.0 1.2 2.4 3.4 0.0 2.9 1.9 14.8 1.4 LPHMM CPLP 28.8 3.7 25.1 0.2 0.7 2.8 0.0 12.8 1.1 9.9 1.3 32.8 6.2 26.6 0.8 1.7 3.2 0.5 6.7 0.5 17.2 2.2 33.0 7.1 25.9 0.6 1.6 4.9 0.0 2.0 0.7 21.5 1.7 40.8 0.3 40.5 0.0 0.1 0.2 0.0 17.3 0.8 10.3 12.1 45.2 3.1 42.0 0.0 0.3 2.8 0.0 4.8 1.4 32.5 3.4 46.8 1.4 45.4 0.1 0.2 1.2 0.0 14.9 1.7 25.3 3.5 ± 10.8 ± 8.1 ± 8.3 Fon RSPLP ENERG. EHMM SPLP KEPST. ± 2.3 ± 4.3 ± 8.6 ± 0.0 ± 2.9 ± 1.5 ± 8.0 ± 1.8 ± 16.4 ± 13.4 ± 13.9 ± 2.8 ± 0.8 ± 10.9 ± 0.0 ± 2.3 ± 1.3 ± 13.6 ± 1.6 ± 14.8 ± 1.2 ± 15.2 ± 0.4 ± 0.6 ± 0.9 ± 0.0 ± 5.1 ± 1.1 ± 14.0 ± 2.9 ± 14.5 ± 5.1 ± 12.8 ± 0.8 ± 1.0 ± 5.6 ± 0.0 ± 3.6 ± 0.7 ± 12.1 ± 1.5 ± 16.6 ± 7.5 ± 12.5 ± 1.4 ± 1.5 ± 7.5 ± 0.0 ± 3.9 ± 0.5 ± 11.6 ± 2.5 ± 17.2 ± 6.7 ± 13.9 ± 1.5 ± 1.1 ± 7.4 ± 0.0 ± 3.5 ± 0.9 ± 13.1 ± 0.8 ± 17.0 ± 4.6 ± 16.5 ± 1.2 ± 1.5 ± 4.3 ± 0.0 ± 3.3 ± 1.6 ± 17.4 ± 2.0 DHMM SPLP Fon CPLP GMM SPLP Fon SPLP G729 G729 AppIII ± 16.6 ± 11.2 ± 12.1 ± 6.0 ± 3.0 ± 3.7 ± 0.0 ± 3.2 ± 0.4 ± 12.3 ± 0.9 ± 17.2 ± 7.2 ± 16.0 ± 0.2 ± 1.2 ± 7.6 ± 0.0 ± 3.4 ± 1.4 ± 16.8 ± 2.4 ± 15.7 ± 4.6 ± 14.4 ± 3.2 ± 2.7 ± 4.7 ± 0.0 ± 3.9 ± 1.7 ± 14.6 ± 1.8 ± 18.5 ± 5.7 ± 17.9 ± 0.4 ± 1.1 ± 5.4 ± 0.0 ± 16.6 ± 0.9 ± 11.4 ± 1.5 ± 24.2 ± 8.3 ± 22.5 ± 1.4 ± 3.8 ± 8.1 ± 1.3 ± 15.2 ± 0.7 ± 21.0 ± 1.9 ± 16.7 ± 8.1 ± 15.4 ± 1.6 ± 1.4 ± 8.4 ± 0.0 ± 2.7 ± 0.7 ± 14.7 ± 2.0 ± 12.4 ± 0.6 ± 12.4 ± 0.0 ± 0.3 ± 0.6 ± 0.0 ± 21.4 ± 1.6 ± 17.3 ± 12.4 ± 13.3 ± 3.3 ± 13.3 ± 0.1 ± 0.6 ± 3.0 ± 0.0 ± 5.3 ± 3.1 ± 14.0 ± 4.2 ± 15.7 ± 2.9 ± 15.2 ± 0.1 ± 0.5 ± 2.5 ± 0.0 ± 15.6 ± 3.1 ± 15.3 ± 4.1 Tabulka A.11: Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelné listování papírem 120 DODATEK A. TABULKY A GRAFY VÝSLEDKŮ EXPERIMENTŮ VAD ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN [%] [%] [%] 5.6 5.3 0.3 7.3 5.9 1.4 8.1 4.8 3.3 LPHMM MFCC 8.4 7.0 1.4 8.8 5.8 3.0 8.9 6.4 2.6 9.0 6.4 2.6 LPHMM RCPLP 10.1 5.1 5.0 10.9 10.7 0.2 11.3 7.9 3.4 11.5 6.4 5.1 EHMM RSPLP 11.8 6.4 5.5 12.1 5.8 6.3 LPHMM RSPLP 12.2 7.9 4.3 EHMM RCPLP 12.5 4.7 7.9 12.9 7.9 5.0 13.7 13.6 0.1 14.1 6.3 7.8 14.8 7.2 7.6 DHMM RCPLP 17.8 3.7 14.0 19.3 7.3 12.0 23.2 3.6 19.7 25.9 3.5 22.4 DHMM RSPLP 26.1 5.2 20.9 DHMM MFCC 27.8 3.5 24.4 38.1 7.7 43.8 Fon RCPLP LPHMM CPLP Fon RSPLP EHMM CPLP LPHMM SPLP EHMM MFCC Fon CPLP EHMM SPLP GMM RCPLP GMM CPLP GMM RSPLP Fon MFCC GMM SPLP GMM MFCC DHMM SPLP Fon SPLP DHMM CPLP [%] [%] [%] [%] [%] [%] [%] [%] 0.2 3.8 0.0 1.4 0.1 0.2 0.0 0.0 0.2 4.8 0.9 0.0 0.0 0.5 0.9 0.0 0.2 4.4 0.2 0.0 0.0 0.3 3.0 0.0 0.2 6.8 0.0 0.0 0.0 0.4 1.0 0.0 0.2 4.9 0.7 0.0 0.0 1.0 2.0 0.0 0.3 5.7 0.4 0.0 0.0 0.2 2.4 0.0 0.1 5.1 1.2 0.0 0.0 0.5 2.1 0.0 0.1 5.0 0.0 0.0 0.0 0.4 4.6 0.0 0.0 3.9 0.0 6.8 0.0 0.2 0.0 0.0 0.1 6.1 1.7 0.0 0.0 0.5 2.9 0.0 0.2 3.6 2.6 0.0 0.0 0.6 4.6 0.0 0.1 4.6 1.7 0.0 0.2 0.2 5.0 0.0 0.1 3.8 1.9 0.0 0.0 1.2 5.1 0.0 1.0 5.8 1.2 0.0 0.0 0.3 4.0 0.0 0.2 2.7 1.8 0.0 0.6 0.7 6.5 0.0 0.2 5.3 2.4 0.0 0.0 0.6 4.4 0.0 0.0 3.9 0.0 9.7 0.0 0.1 0.0 0.0 0.1 3.2 3.0 0.0 0.0 0.5 7.3 0.0 0.1 4.7 2.4 0.0 0.0 1.1 6.5 0.0 0.0 3.0 0.7 0.0 0.3 2.2 11.5 0.0 0.0 6.3 1.0 0.0 1.7 2.3 7.9 0.0 0.1 3.5 0.0 0.0 4.3 5.6 9.8 0.0 0.0 2.6 0.9 0.0 1.2 3.0 18.2 0.0 0.0 3.8 1.4 0.0 0.0 2.5 18.4 0.0 0.0 2.8 0.7 0.0 1.2 2.9 20.3 0.0 30.4 0.5 5.0 2.2 0.0 3.7 0.1 16.5 10.1 4.1 39.7 0.1 1.9 2.1 0.0 10.1 2.4 17.1 10.1 47.9 2.7 45.2 0.3 1.7 0.7 0.0 16.4 12.0 16.7 0.0 48.8 3.6 45.2 0.1 1.1 2.4 0.0 17.1 7.2 0.0 ± 0.1 ± 0.2 ± 0.3 ± 0.2 ± 1.3 ± 0.0 ± 1.4 ± 0.1 ± 0.2 ± 0.0 ± 0.0 ± 0.2 ± 0.7 ± 0.9 ± 0.1 ± 0.5 ± 0.3 ± 0.0 ± 0.0 ± 0.0 ± 0.9 ± 0.0 ± 0.2 ± 0.4 ± 0.6 ± 0.2 ± 0.8 ± 0.2 ± 0.0 ± 0.0 ± 0.2 ± 0.8 ± 0.0 ± 0.5 ± 1.2 ± 0.7 ± 0.2 ± 1.3 ± 0.0 ± 0.0 ± 0.0 ± 0.2 ± 1.0 ± 0.0 ± 0.2 ± 0.6 ± 0.4 ± 0.2 ± 0.7 ± 0.2 ± 0.0 ± 0.0 ± 0.4 ± 0.8 ± 0.0 ± 2.1 ± 0.9 ± 1.2 ± 0.3 ± 1.0 ± 0.4 ± 0.0 ± 0.0 ± 0.0 ± 1.2 ± 0.0 ± 3.2 ± 2.7 ± 0.5 ± 0.1 ± 2.9 ± 0.1 ± 0.0 ± 0.0 ± 0.5 ± 0.0 ± 0.0 ± 0.5 ± 0.3 ± 0.3 ± 0.1 ± 0.4 ± 0.0 ± 0.0 ± 0.0 ± 0.3 ± 0.1 ± 0.0 ± 2.7 ± 3.0 ± 0.2 ± 0.0 ± 3.9 ± 0.0 ± 6.8 ± 0.0 ± 0.2 ± 0.0 ± 0.0 ± 1.1 ± 0.8 ± 2.0 ± 0.0 ± 0.8 ± 1.7 ± 0.0 ± 0.0 ± 0.3 ± 2.3 ± 0.0 ± 0.4 ± 0.5 ± 1.0 ± 0.2 ± 0.1 ± 0.8 ± 0.0 ± 0.0 ± 0.3 ± 1.3 ± 0.0 ± 0.3 ± 0.2 ± 0.1 ± 0.1 ± 0.5 ± 0.4 ± 0.0 ± 0.2 ± 0.2 ± 0.6 ± 0.0 ± 1.8 ± 1.3 ± 3.0 ± 0.1 ± 0.7 ± 0.6 ± 0.0 ± 0.0 ± 0.5 ± 3.5 ± 0.0 ± 1.6 ± 0.8 ± 0.8 ± 0.8 ± 0.5 ± 0.4 ± 0.0 ± 0.0 ± 0.1 ± 0.9 ± 0.0 ± 1.8 ± 0.5 ± 1.3 ± 0.2 ± 0.1 ± 0.5 ± 0.0 ± 0.6 ± 0.6 ± 0.1 ± 0.0 ± 2.1 ± 0.1 ± 2.0 ± 0.1 ± 0.9 ± 0.7 ± 0.0 ± 0.0 ± 0.1 ± 2.1 ± 0.0 ± 0.0 ± 0.0 ± 0.1 ± 0.0 ± 3.9 ± 0.0 ± 3.9 ± 0.0 ± 0.1 ± 0.0 ± 0.0 ± 2.7 ± 0.6 ± 3.4 ± 0.1 ± 0.7 ± 1.4 ± 0.0 ± 0.0 ± 0.2 ± 3.6 ± 0.0 ± 1.2 ± 2.6 ± 3.8 ± 0.1 ± 2.7 ± 0.0 ± 0.0 ± 0.0 ± 0.4 ± 4.3 ± 0.0 ± 2.9 ± 1.4 ± 4.3 ± 0.0 ± 1.1 ± 0.3 ± 0.0 ± 0.3 ± 0.5 ± 4.5 ± 0.0 ± 1.9 ± 5.5 ± 7.4 ± 0.0 ± 4.6 ± 1.0 ± 0.0 ± 1.7 ± 0.0 ± 5.7 ± 0.0 ± 7.8 ± 0.5 ± 8.2 ± 0.1 ± 0.6 ± 0.0 ± 0.0 ± 4.3 ± 1.1 ± 5.0 ± 0.0 ± 12.6 ± 2.1 ± 14.7 ± 0.0 ± 1.1 ± 0.9 ± 0.0 ± 1.2 ± 0.1 ± 13.7 ± 0.0 ± 7.7 ± 1.4 ± 9.1 KEPST. ENERG. G729 AppIII G729 ± 0.0 ± 0.8 ± 0.6 ± 0.0 ± 0.0 ± 0.4 ± 9.5 ± 0.0 ± 14.3 ± 2.1 ± 16.4 ± 0.0 ± 1.5 ± 0.7 ± 0.0 ± 1.2 ± 0.8 ± 15.9 ± 0.0 ± 12.1 ± 6.1 ± 18.2 ± 0.0 ± 5.0 ± 1.0 ± 0.0 ± 3.7 ± 0.1 ± 4.6 ± 10.1 ± 22.2 ± 4.0 ± 26.2 ± 0.1 ± 1.9 ± 2.0 ± 0.0 ± 10.1 ± 2.0 ± 8.0 ± 10.1 ± 1.3 ± 2.3 ± 3.6 ± 0.1 ± 1.7 ± 0.7 ± 0.0 ± 2.8 ± 1.8 ± 2.6 ± 0.0 ± 1.6 ± 3.3 ± 4.9 ± 0.0 ± 1.1 ± 2.2 ± 0.0 ± 3.9 ± 6.3 ± 7.4 ± 0.0 20.9 Tabulka A.12: Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelné řazení rychlostního stupně 121 VAD ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN [%] [%] [%] 7.7 4.8 2.9 8.0 0.7 7.2 8.5 4.7 3.8 9.2 4.1 5.1 LPHMM RSPLP 9.7 6.2 3.5 9.7 1.1 8.6 9.8 4.9 5.0 10.2 5.8 4.4 LPHMM RCPLP 10.6 4.8 5.8 LPHMM CPLP 10.8 4.8 6.0 EHMM RCPLP 11.0 4.2 6.8 11.1 5.4 5.7 11.5 6.2 5.3 11.6 4.4 7.2 11.6 5.2 6.4 LPHMM MFCC 11.9 4.7 7.2 DHMM RCPLP 12.1 3.7 8.4 12.8 6.1 6.7 12.9 8.8 4.1 13.7 6.5 7.2 DHMM RSPLP 13.8 8.6 5.3 14.1 8.7 5.4 14.6 8.5 6.1 DHMM MFCC 14.8 5.1 9.7 DHMM CPLP 15.0 5.1 9.9 17.4 6.2 11.2 23.0 3.1 19.9 34.1 1.8 32.3 36.9 4.0 32.9 LPHMM SPLP Fon RCPLP EHMM RSPLP EHMM MFCC Fon RSPLP GMM RCPLP GMM RSPLP GMM SPLP GMM CPLP EHMM CPLP EHMM SPLP DHMM SPLP KEPST. GMM MFCC Fon MFCC ENERG. Fon CPLP Fon SPLP G729 AppIII G729 [%] [%] [%] [%] [%] [%] [%] [%] 0.4 4.2 0.2 0.0 1.0 0.8 0.8 0.3 0.3 0.4 0.1 0.0 4.0 2.3 0.0 1.0 0.5 3.0 1.3 0.0 0.8 0.8 1.9 0.2 0.2 3.4 0.5 0.0 0.7 1.2 3.1 0.2 0.6 4.7 0.8 0.0 0.7 0.8 1.8 0.2 0.2 0.6 0.3 0.0 3.9 1.5 2.2 1.1 0.2 1.7 3.0 0.0 1.0 1.0 2.6 0.4 0.1 2.9 2.9 0.0 0.2 1.1 2.9 0.2 0.1 4.3 0.4 0.0 1.3 2.4 1.9 0.2 0.3 4.0 0.5 0.0 1.2 1.1 3.6 0.2 0.2 1.7 2.3 0.0 1.6 1.7 3.3 0.2 0.3 3.4 1.7 0.0 0.2 1.3 4.1 0.2 0.5 4.6 1.1 0.0 0.5 1.1 3.6 0.2 0.3 3.5 0.6 0.0 0.8 1.6 4.6 0.2 0.4 4.2 0.5 0.0 0.7 2.6 2.9 0.2 0.6 3.8 0.3 0.0 1.6 2.8 2.5 0.2 0.0 2.9 0.8 0.0 1.1 3.7 3.2 0.4 0.0 5.7 0.4 0.0 0.0 3.9 2.5 0.2 0.6 3.5 4.7 0.0 0.0 0.1 4.0 0.0 0.8 4.5 1.2 0.0 0.5 1.0 5.5 0.2 0.0 7.2 1.3 0.0 0.0 3.5 1.6 0.2 0.8 3.3 0.0 4.7 0.7 0.7 0.9 3.1 1.1 3.8 3.6 0.0 0.2 0.1 5.8 0.0 0.1 4.2 0.8 0.0 0.4 3.4 5.7 0.2 0.2 4.1 0.8 0.0 0.3 3.1 6.3 0.2 0.8 3.8 0.0 1.6 1.6 0.6 1.2 7.8 0.1 2.5 0.5 0.0 4.4 2.0 6.3 7.3 0.7 0.5 0.6 0.0 11.2 1.5 11.9 7.7 0.6 0.9 2.5 0.0 10.5 2.2 14.9 5.4 ± 3.2 ± 3.5 ± 3.2 ± 0.5 ± 3.3 ± 0.3 ± 0.0 ± 2.4 ± 0.5 ± 1.7 ± 0.8 ± 9.7 ± 0.9 ± 9.9 ± 0.4 ± 0.7 ± 0.2 ± 0.0 ± 5.3 ± 4.2 ± 0.0 ± 1.9 ± 5.1 ± 3.1 ± 5.2 ± 0.8 ± 2.9 ± 1.6 ± 0.0 ± 1.7 ± 0.4 ± 3.0 ± 0.7 ± 4.3 ± 2.6 ± 4.7 ± 0.4 ± 2.9 ± 1.0 ± 0.0 ± 1.7 ± 0.6 ± 3.8 ± 0.7 ± 5.2 ± 3.9 ± 5.8 ± 1.0 ± 3.8 ± 1.2 ± 0.0 ± 2.0 ± 0.4 ± 3.3 ± 0.7 ± 8.4 ± 0.8 ± 8.6 ± 0.4 ± 0.8 ± 0.6 ± 0.0 ± 3.8 ± 1.3 ± 4.8 ± 1.9 ± 6.1 ± 3.4 ± 6.6 ± 0.2 ± 2.0 ± 2.3 ± 0.0 ± 2.4 ± 0.6 ± 3.2 ± 0.8 ± 5.6 ± 3.4 ± 5.2 ± 0.1 ± 2.5 ± 1.9 ± 0.0 ± 0.4 ± 0.5 ± 4.1 ± 0.7 ± 9.0 ± 3.3 ± 9.7 ± 0.2 ± 3.5 ± 0.9 ± 0.0 ± 3.6 ± 4.8 ± 2.7 ± 0.7 ± 5.1 ± 3.2 ± 6.0 ± 0.5 ± 3.4 ± 1.1 ± 0.0 ± 2.6 ± 0.6 ± 5.1 ± 0.7 ± 7.8 ± 3.2 ± 8.3 ± 0.4 ± 1.9 ± 1.8 ± 0.0 ± 3.6 ± 2.0 ± 4.3 ± 0.7 ± 5.0 ± 4.4 ± 5.2 ± 0.5 ± 3.7 ± 1.2 ± 0.0 ± 0.3 ± 0.6 ± 4.6 ± 0.7 ± 5.2 ± 4.0 ± 5.2 ± 0.7 ± 4.0 ± 1.1 ± 0.0 ± 1.4 ± 0.6 ± 4.1 ± 0.7 ± 7.0 ± 3.4 ± 7.8 ± 0.4 ± 3.4 ± 1.0 ± 0.0 ± 1.9 ± 1.1 ± 6.0 ± 0.7 ± 7.0 ± 3.7 ± 7.4 ± 0.6 ± 3.6 ± 0.5 ± 0.0 ± 2.0 ± 4.9 ± 4.8 ± 0.7 ± 7.3 ± 3.1 ± 7.1 ± 0.6 ± 3.2 ± 0.8 ± 0.0 ± 2.9 ± 4.9 ± 5.1 ± 0.7 ± 6.6 ± 3.9 ± 5.2 ± 0.0 ± 3.7 ± 1.1 ± 0.0 ± 2.0 ± 1.5 ± 3.3 ± 0.8 ± 4.6 ± 4.2 ± 2.8 ± 0.1 ± 4.3 ± 0.5 ± 0.0 ± 0.1 ± 1.4 ± 3.1 ± 0.7 ± 6.0 ± 3.2 ± 5.1 ± 0.5 ± 2.0 ± 2.0 ± 0.0 ± 0.0 ± 0.1 ± 5.1 ± 0.0 ± 7.0 ± 4.0 ± 6.5 ± 0.8 ± 3.4 ± 1.1 ± 0.0 ± 1.4 ± 0.5 ± 5.4 ± 0.7 ± 5.7 ± 5.1 ± 2.3 ± 0.0 ± 5.5 ± 1.0 ± 0.0 ± 0.0 ± 1.2 ± 1.8 ± 0.7 ± 6.0 ± 5.6 ± 7.7 ± 0.8 ± 2.6 ± 0.0 ± 4.8 ± 1.9 ± 0.6 ± 2.8 ± 7.7 ± 5.5 ± 3.7 ± 4.9 ± 1.1 ± 3.4 ± 1.9 ± 0.0 ± 0.4 ± 0.2 ± 4.8 ± 0.0 ± 4.7 ± 4.1 ± 3.9 ± 0.4 ± 3.8 ± 1.1 ± 0.0 ± 1.2 ± 1.2 ± 3.7 ± 0.7 ± 5.1 ± 4.3 ± 4.5 ± 0.5 ± 4.2 ± 1.1 ± 0.0 ± 1.0 ± 0.9 ± 4.4 ± 0.7 ± 17.2 ± 5.0 ± 18.5 ± 0.9 ± 2.5 ± 0.0 ± 3.3 ± 3.2 ± 0.6 ± 3.8 ± 16.3 ± 9.3 ± 3.7 ± 10.7 ± 0.2 ± 3.2 ± 1.0 ± 0.0 ± 7.2 ± 2.9 ± 8.5 ± 8.4 ± 8.8 ± 1.9 ± 9.7 ± 1.0 ± 0.7 ± 0.8 ± 0.0 ± 8.3 ± 2.8 ± 9.7 ± 9.9 ± 7.7 ± 2.9 ± 10.0 ± 1.0 ± 1.4 ± 1.7 ± 0.0 ± 8.6 ± 2.9 ± 10.5 ± 8.5 Tabulka A.13: Přehledová tabulka chyb klasifikace u nahrávek obsahujících jinou neřečovou událost 122 DODATEK A. TABULKY A GRAFY VÝSLEDKŮ EXPERIMENTŮ VAD ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN [%] [%] [%] [%] [%] [%] [%] 4.7 0.9 3.8 0.1 0.4 0.4 0.0 LPHMM RCPLP 4.9 1.5 3.4 0.2 1.1 0.2 0.0 5.1 0.3 4.8 0.1 0.2 0.0 0.0 LPHMM RSPLP 5.5 3.4 2.2 0.6 2.2 0.6 0.0 EHMM RSPLP 5.5 2.2 3.2 0.5 1.0 0.8 0.0 LPHMM MFCC 5.6 0.4 5.2 0.1 0.4 0.0 0.0 5.7 0.6 5.1 0.1 0.5 0.0 0.0 5.8 1.6 4.2 0.1 0.2 1.3 0.0 5.8 1.5 4.3 0.2 0.6 0.7 0.0 5.8 0.8 5.0 0.0 0.4 0.4 0.0 7.5 3.0 4.5 0.1 1.8 1.1 0.0 8.1 4.8 3.3 0.2 1.7 2.9 0.0 DHMM RCPLP 8.5 1.0 7.5 0.0 0.2 0.8 0.0 8.7 2.9 5.8 0.3 0.5 2.0 0.0 9.6 0.4 9.1 0.4 0.0 0.0 0.0 10.9 9.5 1.4 2.0 1.3 6.3 0.0 12.2 11.6 0.6 2.4 1.7 7.5 0.0 13.6 0.4 13.2 0.2 0.0 0.2 0.0 14.8 10.6 4.2 0.6 6.6 3.1 0.3 EHMM MFCC 17.0 0.7 16.3 0.1 0.5 0.0 0.0 DHMM RSPLP 20.6 16.5 4.2 0.0 9.5 6.9 0.0 25.8 9.8 16.0 1.1 4.1 4.6 0.0 31.0 18.6 12.4 4.7 2.4 0.6 11.0 34.9 1.7 33.2 0.6 0.0 1.2 0.0 35.4 9.3 26.1 1.1 3.4 4.7 0.1 36.2 0.7 35.6 0.6 0.0 0.1 0.0 LPHMM SPLP 40.4 6.9 33.5 0.5 4.5 0.9 1.0 47.2 0.0 47.2 0.0 0.0 0.0 0.0 62.3 22.0 40.3 2.5 8.0 1.8 9.6 GMM MFCC LPHMM CPLP EHMM CPLP GMM CPLP EHMM RCPLP DHMM CPLP DHMM MFCC GMM RSPLP GMM RCPLP Fon RCPLP ENERG. KEPST. Fon RSPLP DHMM SPLP GMM SPLP Fon CPLP G729 EHMM SPLP G729 AppIII Fon SPLP Fon MFCC [%] [%] [%] [%] 1.5 1.3 0.9 0.2 1.7 1.0 0.3 0.4 2.8 1.3 0.1 0.5 0.7 1.0 0.3 0.1 1.3 0.9 0.8 0.2 3.0 1.5 0.0 0.6 2.6 1.3 0.7 0.5 1.7 1.4 1.0 0.2 1.9 1.0 1.1 0.3 0.8 3.3 0.7 0.2 0.5 3.6 0.3 0.2 1.0 1.2 1.0 0.2 2.4 3.2 1.4 0.5 2.8 0.8 2.0 0.3 5.3 0.9 1.9 1.0 1.2 0.1 0.1 0.0 0.5 0.0 0.1 0.0 6.2 1.4 3.4 2.3 0.2 3.6 0.3 0.1 2.7 2.8 1.5 9.3 0.0 3.9 0.1 0.1 2.3 3.1 5.5 5.1 2.4 0.6 0.4 8.9 4.5 1.8 2.9 24.0 4.1 4.5 5.0 12.5 5.5 2.0 3.4 24.7 0.4 24.8 0.2 8.2 0.1 0.0 3.9 43.1 3.3 0.6 2.5 33.9 ± 3.3 ± 1.3 ± 3.2 ± 0.4 ± 0.8 ± 0.8 ± 0.0 ± 1.7 ± 1.1 ± 2.2 ± 0.6 ± 3.1 ± 2.4 ± 2.4 ± 0.3 ± 2.3 ± 0.9 ± 0.0 ± 1.7 ± 1.1 ± 0.9 ± 1.1 ± 3.2 ± 0.7 ± 3.1 ± 0.3 ± 0.6 ± 0.3 ± 0.0 ± 2.3 ± 1.5 ± 0.6 ± 1.5 ± 3.1 ± 2.7 ± 1.8 ± 1.0 ± 2.4 ± 1.3 ± 0.0 ± 1.1 ± 0.9 ± 0.8 ± 0.5 ± 3.2 ± 2.4 ± 2.4 ± 0.9 ± 1.8 ± 1.5 ± 0.0 ± 1.5 ± 1.0 ± 1.4 ± 0.7 ± 3.1 ± 1.2 ± 3.2 ± 0.2 ± 1.2 ± 0.1 ± 0.1 ± 2.4 ± 1.3 ± 0.3 ± 1.7 ± 3.4 ± 1.2 ± 3.2 ± 0.3 ± 1.1 ± 0.3 ± 0.0 ± 2.3 ± 1.3 ± 1.7 ± 1.3 ± 3.3 ± 2.0 ± 2.7 ± 0.2 ± 0.4 ± 1.9 ± 0.0 ± 1.6 ± 1.2 ± 1.5 ± 0.5 ± 3.5 ± 2.0 ± 2.9 ± 0.4 ± 1.3 ± 1.5 ± 0.0 ± 2.0 ± 1.1 ± 1.7 ± 1.1 ± 3.4 ± 1.3 ± 3.1 ± 0.1 ± 0.7 ± 1.0 ± 0.0 ± 1.5 ± 1.9 ± 1.4 ± 0.7 ± 3.9 ± 3.4 ± 2.8 ± 0.3 ± 2.0 ± 2.4 ± 0.0 ± 1.3 ± 1.9 ± 0.9 ± 0.6 ± 3.7 ± 3.3 ± 2.2 ± 0.4 ± 2.4 ± 2.9 ± 0.0 ± 1.2 ± 1.0 ± 1.5 ± 0.6 ± 4.8 ± 1.8 ± 4.5 ± 0.0 ± 0.7 ± 1.6 ± 0.0 ± 2.9 ± 1.8 ± 2.2 ± 1.5 ± 4.5 ± 2.8 ± 3.4 ± 0.4 ± 1.3 ± 2.5 ± 0.0 ± 2.7 ± 1.0 ± 2.3 ± 1.0 ± 5.4 ± 0.8 ± 5.3 ± 0.6 ± 0.1 ± 0.6 ± 0.0 ± 4.8 ± 1.1 ± 2.7 ± 2.3 ± 5.3 ± 5.7 ± 1.7 ± 1.8 ± 1.9 ± 5.2 ± 0.1 ± 1.6 ± 0.3 ± 0.3 ± 0.1 ± 4.9 ± 5.0 ± 1.2 ± 1.8 ± 1.9 ± 5.2 ± 0.1 ± 1.2 ± 0.1 ± 0.2 ± 0.1 ± 8.5 ± 0.8 ± 8.5 ± 0.5 ± 0.2 ± 0.7 ± 0.0 ± 7.5 ± 1.4 ± 3.2 ± 4.6 ± 8.2 ± 8.5 ± 2.9 ± 1.8 ± 5.4 ± 5.5 ± 1.7 ± 0.6 ± 2.3 ± 1.0 ± 0.5 ± 17.9 ± 1.2 ± 18.2 ± 0.3 ± 1.1 ± 0.3 ± 0.0 ± 4.3 ± 6.1 ± 2.8 ± 17.2 ± 7.0 ± 7.4 ± 1.7 ± 0.3 ± 6.5 ± 7.9 ± 0.0 ± 0.2 ± 1.6 ± 0.6 ± 0.4 ± 18.9 ± 5.6 ± 18.1 ± 1.6 ± 3.8 ± 4.6 ± 0.6 ± 5.8 ± 6.4 ± 7.6 ± 12.6 ± 20.3 ± 19.6 ± 16.7 ± 8.8 ± 8.1 ± 4.0 ± 17.2 ± 4.7 ± 1.0 ± 1.6 ± 16.5 ± 14.5 ± 1.5 ± 15.3 ± 0.7 ± 0.1 ± 1.3 ± 0.0 ± 5.0 ± 7.4 ± 3.5 ± 16.7 ± 22.2 ± 6.1 ± 21.8 ± 2.2 ± 3.8 ± 5.5 ± 0.8 ± 9.4 ± 8.2 ± 7.1 ± 18.3 ± 14.5 ± 0.8 ± 14.8 ± 0.7 ± 0.0 ± 0.3 ± 0.0 ± 5.2 ± 7.7 ± 3.4 ± 16.7 ± 18.9 ± 7.6 ± 17.8 ± 1.1 ± 4.7 ± 2.8 ± 5.4 ± 1.4 ± 15.9 ± 1.4 ± 12.3 ± 15.1 ± 0.1 ± 15.1 ± 0.0 ± 0.1 ± 0.0 ± 0.0 ± 2.5 ± 0.4 ± 3.0 ± 14.7 ± 20.8 ± 25.4 ± 19.7 ± 7.8 ± 15.6 ± 6.7 ± 18.2 ± 9.6 ± 2.6 ± 3.1 ± 20.7 Tabulka A.14: Přehledová tabulka chyb klasifikace na množině CAR2ECSVAD 123 VAD ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN [%] [%] [%] LPHMM MFCC 5.9 3.0 2.9 LPHMM CPLP 6.6 3.4 3.1 6.8 3.9 2.9 7.8 5.4 2.4 7.9 1.8 6.1 8.9 6.7 2.2 LPHMM RCPLP 9.0 5.2 3.8 DHMM RCPLP 9.4 5.3 4.1 10.0 8.3 1.7 EHMM RSPLP 10.2 6.9 3.2 EHMM RCPLP 10.5 5.9 4.6 10.9 2.1 8.8 11.4 7.4 4.0 EHMM MFCC 11.4 3.6 7.9 GMM RSPLP 11.8 9.0 2.8 12.1 5.9 6.2 LPHMM RSPLP 12.3 9.6 2.6 LPHMM SPLP 14.3 12.3 2.0 DHMM SPLP 14.4 12.7 1.8 17.3 16.9 0.4 18.3 14.9 3.3 18.8 2.2 16.6 19.3 14.9 4.4 20.9 17.2 3.7 DHMM RSPLP 20.9 18.4 2.5 29.3 21.0 8.3 31.0 2.3 32.2 37.7 DHMM CPLP EHMM CPLP Fon RCPLP DHMM MFCC GMM CPLP Fon RSPLP GMM RCPLP GMM MFCC KEPST. EHMM SPLP Fon SPLP ENERG. GMM SPLP Fon CPLP G729 AppIII G729 Fon MFCC [%] [%] [%] [%] 1.6 0.5 0.8 0.0 1.6 0.5 1.3 0.0 0.4 1.3 2.2 0.0 1.7 1.6 2.1 0.0 1.3 0.1 0.4 0.0 0.8 2.1 3.8 0.0 1.4 1.6 2.2 0.0 0.4 1.3 3.5 0.0 1.9 1.5 4.9 0.0 2.1 1.1 3.6 0.0 1.5 1.2 3.3 0.0 0.8 0.2 1.1 0.0 1.4 1.0 5.1 0.0 1.4 0.9 1.2 0.0 1.5 1.7 5.9 0.0 1.7 1.0 3.2 0.0 2.8 2.2 4.6 0.0 2.5 3.5 5.8 0.5 0.8 5.6 6.1 0.1 3.5 1.6 11.7 0.0 2.1 3.3 9.4 0.1 0.9 0.5 0.8 0.0 2.9 0.8 11.2 0.0 2.0 4.2 10.8 0.2 0.7 6.7 10.9 0.0 5.4 2.3 0.8 12.4 28.7 1.1 0.0 1.2 0.0 6.1 26.1 1.3 0.1 4.6 0.0 23.3 14.4 4.7 4.0 1.2 13.5 [%] [%] [%] [%] 1.8 0.6 0.2 0.2 1.2 1.2 0.6 0.1 0.4 0.9 1.7 0.1 1.0 0.5 0.8 0.1 3.9 0.6 0.6 1.0 0.3 0.7 1.1 0.1 0.7 1.0 2.1 0.1 0.9 1.2 1.8 0.2 0.4 0.1 1.1 0.1 0.6 0.4 2.3 0.0 0.6 0.9 3.0 0.0 3.6 1.2 2.6 1.3 1.1 0.3 2.5 0.0 2.0 1.5 2.7 1.6 0.4 0.3 2.2 0.0 1.4 0.6 3.8 0.4 0.2 0.7 1.7 0.0 0.5 0.7 0.8 0.1 0.1 1.2 0.5 0.0 0.1 0.0 0.3 0.0 0.7 0.4 1.9 0.3 2.4 1.9 4.1 8.1 0.4 0.0 3.9 0.0 0.5 0.5 2.5 0.3 0.1 1.0 1.5 0.0 1.4 0.1 1.9 4.9 8.9 3.9 4.5 11.5 9.4 2.4 6.1 8.3 0.7 0.1 4.3 9.2 ± 5.2 ± 3.7 ± 4.2 ± 2.2 ± 1.4 ± 2.0 ± 0.0 ± 1.8 ± 3.2 ± 1.2 ± 0.7 ± 6.7 ± 4.2 ± 6.1 ± 2.1 ± 1.2 ± 2.6 ± 0.0 ± 1.8 ± 4.6 ± 2.6 ± 0.6 ± 5.3 ± 5.0 ± 3.3 ± 1.1 ± 1.5 ± 3.9 ± 0.0 ± 0.8 ± 1.4 ± 2.6 ± 0.3 ± 6.9 ± 5.9 ± 4.9 ± 2.1 ± 2.4 ± 3.7 ± 0.0 ± 2.1 ± 2.5 ± 2.6 ± 0.4 ± 5.9 ± 2.1 ± 5.4 ± 1.4 ± 0.4 ± 1.2 ± 0.0 ± 2.8 ± 2.7 ± 2.9 ± 1.8 ± 7.1 ± 7.0 ± 3.5 ± 1.8 ± 2.1 ± 5.5 ± 0.0 ± 1.3 ± 1.0 ± 2.4 ± 0.5 ± 7.0 ± 4.9 ± 5.8 ± 1.6 ± 2.1 ± 3.1 ± 0.4 ± 1.3 ± 3.0 ± 4.5 ± 0.3 ± 8.2 ± 8.1 ± 3.9 ± 1.2 ± 2.0 ± 6.4 ± 0.0 ± 1.1 ± 2.0 ± 3.0 ± 0.8 ± 6.8 ± 6.7 ± 3.5 ± 2.1 ± 1.9 ± 5.0 ± 0.0 ± 1.2 ± 0.9 ± 2.6 ± 0.7 ± 6.2 ± 5.5 ± 4.2 ± 2.2 ± 1.7 ± 4.0 ± 0.4 ± 0.7 ± 1.4 ± 3.9 ± 0.1 ± 7.0 ± 4.6 ± 6.1 ± 1.6 ± 1.5 ± 3.2 ± 0.0 ± 0.9 ± 2.8 ± 5.0 ± 0.3 ± 7.9 ± 2.4 ± 7.5 ± 1.0 ± 0.6 ± 1.7 ± 0.0 ± 3.7 ± 3.4 ± 5.5 ± 2.4 ± 6.7 ± 5.3 ± 4.8 ± 1.4 ± 1.6 ± 4.3 ± 0.0 ± 1.4 ± 1.2 ± 4.0 ± 0.3 ± 11.1 ± 4.5 ± 11.6 ± 2.0 ± 1.6 ± 2.6 ± 0.0 ± 3.7 ± 4.8 ± 5.9 ± 6.0 ± 5.9 ± 5.7 ± 3.2 ± 1.5 ± 2.1 ± 4.6 ± 0.4 ± 0.6 ± 1.2 ± 2.9 ± 0.0 ± 9.6 ± 5.2 ± 9.7 ± 2.0 ± 1.4 ± 3.7 ± 0.0 ± 3.0 ± 2.2 ± 6.0 ± 3.1 ± 8.0 ± 7.4 ± 4.4 ± 2.9 ± 2.5 ± 5.3 ± 0.4 ± 0.4 ± 2.4 ± 3.8 ± 0.1 ± 9.9 ± 10.0 ± 4.0 ± 3.3 ± 4.2 ± 6.6 ± 3.6 ± 1.3 ± 2.2 ± 2.9 ± 0.5 ± 8.8 ± 9.1 ± 2.1 ± 1.7 ± 4.3 ± 6.9 ± 0.8 ± 1.2 ± 0.9 ± 1.3 ± 0.2 ± 7.4 ± 7.4 ± 1.0 ± 2.8 ± 1.8 ± 6.2 ± 0.0 ± 0.3 ± 0.0 ± 0.9 ± 0.0 ± 9.6 ± 9.2 ± 5.7 ± 2.5 ± 3.9 ± 6.9 ± 0.8 ± 2.1 ± 2.1 ± 3.0 ± 2.8 ± 15.5 ± 3.3 ± 16.3 ± 1.5 ± 1.2 ± 2.0 ± 0.0 ± 5.7 ± 4.6 ± 5.8 ± 13.3 ± 9.4 ± 7.1 ± 7.2 ± 2.8 ± 1.3 ± 6.3 ± 0.0 ± 0.7 ± 0.2 ± 7.1 ± 0.2 ± 9.5 ± 9.6 ± 4.9 ± 2.2 ± 4.4 ± 7.2 ± 1.4 ± 1.0 ± 1.8 ± 3.0 ± 2.7 ± 11.3 ± 12.4 ± 3.5 ± 1.5 ± 6.3 ± 9.9 ± 0.4 ± 0.2 ± 1.0 ± 2.8 ± 0.0 ± 21.8 ± 22.1 ± 14.2 ± 9.7 ± 6.5 ± 3.3 ± 21.7 ± 3.7 ± 1.0 ± 4.4 ± 11.4 ± 11.0 ± 2.6 ± 11.7 ± 1.6 ± 0.1 ± 1.6 ± 0.0 ± 9.9 ± 8.0 ± 6.5 ± 14.3 ± 11.2 ± 4.4 ± 12.0 ± 1.8 ± 0.4 ± 3.7 ± 0.0 ± 11.4 ± 5.7 ± 7.3 ± 12.8 ± 21.4 ± 22.3 ± 16.6 ± 10.4 ± 8.8 ± 5.6 ± 21.7 ± 3.7 ± 1.0 ± 6.0 ± 13.9 Tabulka A.15: Přehledová tabulka chyb klasifikace u nahrávek číslic (SPEECONVAD) 124 DODATEK A. TABULKY A GRAFY VÝSLEDKŮ EXPERIMENTŮ VAD ERR ERS ERN TRF TRB SDN MIS OVB OVF NDS MIN [%] [%] [%] LPHMM MFCC 3.9 0.6 3.3 LPHMM CPLP 4.0 0.5 3.5 4.8 1.2 3.6 5.0 2.2 2.8 5.0 1.1 3.9 5.3 0.4 4.9 6.1 3.4 2.7 LPHMM RCPLP 6.1 1.4 4.8 LPHMM RSPLP 6.6 3.0 3.6 EHMM RSPLP 6.7 2.8 3.9 7.1 2.1 5.0 7.1 0.7 6.4 7.4 2.0 5.3 7.5 3.2 4.3 DHMM RCPLP 7.7 2.7 4.9 8.9 0.5 8.3 9.2 6.2 3.0 9.4 6.9 2.5 10.1 6.5 3.6 12.5 10.1 2.4 12.5 12.0 0.6 13.0 0.5 12.5 15.5 11.4 4.1 DHMM RSPLP 18.0 14.4 3.6 20.0 15.6 4.4 23.2 0.5 22.7 24.0 3.4 20.6 28.1 22.9 5.2 33.8 21.0 12.8 EHMM CPLP DHMM MFCC DHMM CPLP Fon RCPLP GMM CPLP GMM MFCC EHMM MFCC EHMM RCPLP GMM RCPLP Fon RSPLP LPHMM SPLP DHMM SPLP GMM RSPLP ENERG. KEPST. Fon SPLP EHMM SPLP GMM SPLP G729 AppIII G729 Fon CPLP Fon MFCC [%] [%] [%] [%] [%] [%] [%] [%] 0.1 0.3 0.1 0.0 1.4 1.0 0.4 0.4 0.1 0.2 0.2 0.0 1.1 1.3 0.7 0.4 0.1 0.7 0.4 0.0 1.0 0.9 0.9 0.7 0.0 1.0 1.1 0.0 0.2 1.7 0.8 0.1 0.0 0.6 0.5 0.0 0.5 1.9 1.2 0.3 0.3 0.0 0.1 0.0 2.6 0.9 0.3 1.1 0.1 0.7 2.6 0.0 0.6 0.7 1.1 0.3 0.1 0.6 0.7 0.0 0.7 1.5 2.0 0.5 0.2 1.2 1.6 0.0 0.3 1.4 1.7 0.2 0.2 0.6 2.0 0.0 0.6 1.0 2.2 0.1 0.1 0.5 1.5 0.0 0.7 0.8 2.9 0.5 0.1 0.4 0.2 0.0 1.7 1.6 1.5 1.7 0.1 0.5 1.5 0.0 0.6 1.5 3.0 0.2 0.1 0.3 2.8 0.0 1.0 1.1 2.0 0.2 0.0 0.7 2.0 0.0 0.7 2.0 1.5 0.7 0.1 0.1 0.4 0.0 3.1 1.7 2.8 0.7 0.4 2.2 3.7 0.0 0.3 2.0 0.5 0.2 0.0 3.6 3.3 0.0 0.0 1.9 0.4 0.1 0.1 0.8 5.5 0.0 0.4 1.1 2.0 0.1 0.4 0.4 9.2 0.0 0.5 0.2 1.6 0.0 0.5 0.7 10.7 0.0 0.1 0.0 0.4 0.0 0.1 0.3 0.1 0.0 1.5 2.6 2.9 5.7 0.4 1.6 9.4 0.0 0.8 1.1 2.0 0.2 0.0 4.1 10.3 0.0 0.0 2.3 1.2 0.0 0.4 2.8 12.5 0.0 0.5 1.0 2.6 0.2 0.2 0.0 0.3 0.0 8.3 2.5 4.0 7.9 0.2 0.2 3.0 0.0 10.2 1.3 5.2 3.8 7.6 2.9 0.5 11.8 1.6 0.2 1.2 2.2 6.3 2.6 1.5 10.6 0.8 0.4 4.9 6.8 ± 3.8 ± 1.2 ± 3.8 ± 0.3 ± 0.9 ± 0.7 ± 0.0 ± 1.6 ± 2.1 ± 1.9 ± 1.1 ± 4.6 ± 1.0 ± 4.5 ± 0.2 ± 0.7 ± 0.7 ± 0.0 ± 1.6 ± 3.1 ± 2.1 ± 1.1 ± 5.2 ± 1.7 ± 5.1 ± 0.3 ± 1.1 ± 1.2 ± 0.0 ± 2.4 ± 1.4 ± 2.6 ± 3.1 ± 3.3 ± 2.8 ± 2.3 ± 0.2 ± 1.3 ± 2.2 ± 0.0 ± 0.7 ± 1.2 ± 1.6 ± 0.6 ± 3.6 ± 1.8 ± 3.0 ± 0.1 ± 0.9 ± 1.5 ± 0.0 ± 1.3 ± 1.6 ± 2.2 ± 0.9 ± 3.8 ± 1.0 ± 3.7 ± 0.5 ± 0.1 ± 0.7 ± 0.0 ± 1.9 ± 2.3 ± 1.3 ± 2.0 ± 5.1 ± 3.3 ± 4.4 ± 0.3 ± 1.0 ± 2.9 ± 0.0 ± 2.2 ± 0.7 ± 2.3 ± 2.3 ± 4.0 ± 1.8 ± 4.0 ± 0.2 ± 1.1 ± 1.3 ± 0.0 ± 0.9 ± 2.3 ± 3.0 ± 1.2 ± 4.0 ± 2.8 ± 3.4 ± 0.7 ± 1.6 ± 2.2 ± 0.0 ± 0.7 ± 2.1 ± 2.7 ± 0.8 ± 3.5 ± 2.6 ± 2.8 ± 0.4 ± 1.0 ± 2.2 ± 0.0 ± 0.8 ± 1.3 ± 2.4 ± 0.5 ± 6.2 ± 2.2 ± 6.1 ± 0.3 ± 0.9 ± 1.9 ± 0.0 ± 1.2 ± 0.7 ± 4.7 ± 3.0 ± 7.8 ± 1.1 ± 7.9 ± 0.2 ± 0.7 ± 0.7 ± 0.0 ± 3.5 ± 2.8 ± 3.2 ± 5.1 ± 4.7 ± 2.0 ± 4.4 ± 0.3 ± 0.9 ± 1.9 ± 0.0 ± 0.8 ± 2.1 ± 3.6 ± 0.8 ± 4.2 ± 2.9 ± 3.1 ± 0.3 ± 0.7 ± 2.7 ± 0.0 ± 1.0 ± 1.5 ± 2.5 ± 0.8 ± 4.8 ± 4.5 ± 3.4 ± 0.1 ± 1.4 ± 3.7 ± 0.0 ± 1.1 ± 1.7 ± 1.9 ± 1.6 ± 5.5 ± 0.9 ± 5.7 ± 0.3 ± 0.3 ± 0.8 ± 0.0 ± 2.8 ± 2.3 ± 4.2 ± 1.5 ± 8.1 ± 6.9 ± 4.7 ± 0.9 ± 3.3 ± 5.4 ± 0.0 ± 0.7 ± 4.2 ± 1.8 ± 0.7 ± 5.6 ± 5.6 ± 1.6 ± 0.1 ± 2.6 ± 4.3 ± 0.0 ± 0.4 ± 1.0 ± 1.2 ± 0.4 ± 3.8 ± 2.9 ± 2.7 ± 0.3 ± 1.2 ± 2.9 ± 0.0 ± 0.6 ± 1.2 ± 2.2 ± 0.6 ± 6.5 ± 5.5 ± 3.9 ± 0.6 ± 0.9 ± 5.2 ± 0.0 ± 1.2 ± 1.5 ± 2.9 ± 0.2 ± 4.6 ± 4.4 ± 1.6 ± 0.6 ± 0.9 ± 4.0 ± 0.0 ± 0.8 ± 0.1 ± 1.4 ± 0.0 ± 11.5 ± 1.0 ± 11.7 ± 0.5 ± 0.7 ± 0.4 ± 0.0 ± 3.6 ± 4.5 ± 4.3 ± 9.7 ± 8.8 ± 7.1 ± 6.0 ± 1.3 ± 2.2 ± 6.2 ± 0.0 ± 2.6 ± 2.2 ± 3.3 ± 1.9 ± 10.2 ± 10.6 ± 2.2 ± 0.0 ± 4.2 ± 8.5 ± 0.0 ± 0.2 ± 1.5 ± 1.6 ± 0.3 ± 9.6 ± 9.2 ± 4.7 ± 0.8 ± 3.3 ± 7.8 ± 0.0 ± 1.0 ± 2.0 ± 3.2 ± 1.9 ± 8.6 ± 0.7 ± 8.6 ± 0.4 ± 0.2 ± 0.5 ± 0.0 ± 9.6 ± 5.7 ± 6.3 ± 10.8 ± 9.3 ± 2.6 ± 8.7 ± 0.4 ± 0.6 ± 2.5 ± 0.0 ± 10.1 ± 4.2 ± 6.3 ± 8.4 ± 23.5 ± 23.6 ± 9.1 ± 12.4 ± 7.7 ± 2.8 ± 23.1 ± 4.3 ± 0.5 ± 3.3 ± 6.6 ± 22.6 ± 23.4 ± 13.3 ± 11.4 ± 7.1 ± 7.2 ± 22.3 ± 3.2 ± 1.5 ± 5.3 ± 11.0 Tabulka A.16: Přehledová tabulka chyb klasifikace na signálech obsahujících promluvy celých vět (SPEECONVAD)