poster - Studentská konference Fakulty mechatroniky 2010

Transkript

poster - Studentská konference Fakulty mechatroniky 2010
Studentská konference Fakulty mechatroniky, informatiky a mezioborových studií 2010,
15. červen 2010, Liberec, Česká republika
Hlasový dialogový systém
Autor: Bc. Michaela Kuchařová
Vedoucí práce: prof. Ing. Jan Nouza, CSc.
Fakulta mechatroniky, informatiky a mezioborových studií, Ústav informačních technologií a informatiky
Abstrakt
This project deals with design and realization of simple voice dialog system for automatic airplane
ticket reservation. System is based on recognition of separated words and on voice synthesis from
prearranged sentence segments.
Main program works on principles of nondeterministic state
automaton. In each state the automaton plays recordings, records the answer and calls a function,
which recognizes the words. Automaton changes its state according to detected words. Program asks
the user to input continent, state and the city. There are 7 continents available, 18 states and 47 cities.
After that, the user is asked to input month and day of departure. In the end the order must be confirmed
or canceled. After each input, the program announces which word has been recognized. So it is possible
to check if the detection has been successful. The program offers also optical check of input by
displaying recognized word in prearranged form.
Cíl projektu
Cílem toho projektu bylo vytvořit jednoduchý funkční dialogový systém pro rezervaci letenky, který
využívá funkci pro rozpoznávání izolovaných slov. Program umožňuje uživateli zadat cílové místo letu,
datum odletu a informuje uživatele o rozpoznaném slově. Uživatel má možnost kdykoliv se vrátit o jeden
stupeň nazpátek. Program také na požádání přehraje všechny možnosti a simuluje připojení na živého
operátora, pokud o to uživatel požádá.
Výsledky
Výsledný program pro rezervaci letenek umožňuje zvolení cílového města (přes postupné zadávání
kontinentu a země) a data odletu, viz Obrázek 4. K dispozici je výběr ze všech sedmi kontinentů (včetně
Antarktidy), pro každý kontinent je možnost zadat nejméně tři státy (až na Austrálii a Antarktidu, kde se
rovnou zadává cílové město). V každém státě je možné zadat jedno až sedm měst, celkem je k dispozici
47 měst. Dále je potřeba zadat den odletu, který se zadává ve tvaru řadové číslovky, např. „třetího“,
„dvacátého osmého“. Jako poslední ze zadávaných údajů pro rezervaci je třeba zadat měsíc. Poté je
uživatel vyzván, aby potvrdil či stornoval letenku.
Metodika
Základem celého programu je funkce pro rozpoznávání izolovaných slov, která byla vytvořena
v průběhu semestru pro předmět Počítačové zpracování řeči. Rozpoznávač načte zvukový signál
(formát wav, 8kHz vzorkovací frekvence a 16 bitů rozlišení) a rozdělí jej do stejně dlouhých segmentů.
Abychom nepracovali zbytečně s více daty, je třeba v nahrávce detekovat slovo a zparametrizovat jej.
Pro nalezení začátku a konce slova využijeme toho, že ticho má oproti užitečnému signálu malou
energii. Pro každý segment tedy vypočteme energii a porovnáváme ji s předem určenou hodnotou
prahu. Pokud je hodnota energie větší než hodnota prahu, můžeme tvrdit, že daný segment obsahuje
část vysloveného slova.
Segmenty slova se parametrizují, abychom získali příznaky pro následné porovnávání. Celkem bylo
zvoleno osmnáct různých příznaků. Prvních devět příznaků tvoří statické příznaky, které obsahují již
vypočtenou energii signálu a osm spektrálních příznaků. Z těchto devíti příznaků vypočteme devět
dynamických příznaků.
Pro samotnou klasifikaci potřebujeme sadu referenčních nahrávek, se kterými budeme neznámé
slovo porovnávat. Referenční nahrávky se parametrizují stejně jako neznámé slovo. Při klasifikaci se
pomocí výpočtu Mahalanobisovy vzdálenosti (vychází z Euklidovy vzdálenosti, ale na rozdíl od ní
zohledňuje dynamický rozsah příznaků) určuje vzdálenost mezi neznámým slovem a referenčními slovy.
Tam, kde vyjde vzdálenost příznakových vektorů nejmenší, můžeme předpokládat shodu a neznámé
slovo přiřadit k referenčnímu.
Všechna slova reference i neznámá slova jsou různě dlouhá. Pro výpočet vzdálenosti potřebujeme,
aby byla referenční slova stejně dlouhá jako neznámé slovo. Tento problém řešíme pomocí metody
DTW (Dynamic Time Warping), která referenční slova ze slovníku upraví tak, aby měla stejnou délku
jako neznámé slovo. Metoda DTW je podrobně popsána ve sborníku [1].
Hlavní program má strukturu nedeterministického konečného automatu (viz Obrázek 1). Většina
stavů má obdobnou strukturu – přehrání nahrávky, nahrání zvuku, zavolání rozpoznávače a rozhodnutí
o další akci. Je-li slovo rozpoznáno jako jedno ze speciálních funkčních slov, vykoná se akce přesně
podle jeho významu: slovo možnosti přehraje nahrávku se všemi povolenými slovy, slovo operátor
simuluje připojení na operátora a slovo zpět se (až na speciální situace) vrací o jeden stav zpět. Pokud
je rozpoznané slovo z aktuálního slovníku (např. v druhém stavu název kontinentu), přehraje se
nahrávka podle daného výběru, která uživatele informuje o detekci slova. Uživatel si tak může
zkontrolovat správnost rozpoznaného slova. Automat pak postoupí do dalšího stavu. Jednotlivé stavy se
liší převážně přehrávanými nahrávkami a slovníky, které se posílají rozpoznávacímu programu.
V každém místě stromu možností lze použít kterékoliv ze speciálních slov a program na něj při
správné detekci zareaguje. V předposledním stavu automatu, kde se od uživatele požaduje potvrzení
rezervace, se uživateli přehraje nejprve nahrávka, která mu zopakuje jeho konečný výběr města a data,
přehraje žádost o potvrzení rezervace a čeká na potvrzení či stornování. Pokud uživatel rezervaci
stornuje, program mu přehraje oznámení o stornování. Pokud uživatel potvrdí rezervaci, program
přehraje nahrávku s potvrzením a vyzve ho k vyzvednutí letenky.
Program celkem využívá slovník o 120 slovech. Pro tato slova bylo nahráno 1339 referenčních
nahrávek. V konkrétních dialogových stavech automat používá vždy odpovídající podmnožinu slov
(např. názvy kontinentů, nebo názvy destinací na vybraném kontinentu). Nejvíce slov v jednom stavu se
vyskytuje při zadávání dne, kdy je možné říct jedno z 34 slov (číslovky 1-31 a 3 speciální slova).
Závěr, diskuse
Navržený ukázkový dialogový systém pracuje poměrně spolehlivě pro konkrétní osobu, na jejíž hlas
se rozpoznávací hlas naučil (osoba, která dodala referenční nahrávky) a v prostředí bez hluku. Pokud
by měl stejně dobře pracovat i pro jiné osoby, musely by se nahrát referenční nahrávky od většího počtu
lidí. Rozpoznávací program by však musel být výrazně rychlejší, aby stačil provést mnohem větší
množství porovnání. Jiným a samozřejmě lepším, ale také složitějším řešením by bylo použití metody
HMM (skryté markovské modely).
Program by se dal rozšířit o zadávání místa odletu (v tuto chvíli se zadává pouze cílové město), což
by znamenalo přidat další tři stavy, které by byly shodné se zadáváním kontinentu, státu a města pro cíl
letu. Jediný rozdíl by byl v mluvených nahrávkách. Při rozšiřování výběru států a měst je potřeba nahrát
sadu referenčních nahrávek pro každou přidávanou možnost, zparametrizovat je pomocí připraveného
programu a vložit tyto parametry do správného slovníku. Také je třeba namluvit nahrávky, které uživatele
upozorňují, jaké slovo bylo detekováno. Samotný program ovšem zůstává beze změny.
Okno programu obsahuje předem připravený formulář (viz Obrázek 2), který se postupně vyplňuje
podle rozpoznaných slov. Pokud program rozpozná speciální slovo zpět, vymaže se poslední zadaný
údaj. Pokud byla zvolena Austrálie nebo Antarktida jako kontinent, na kterém se nachází destinace,
vyplní se ve formuláři rovnou i kolonka Stát a automat přejde do stavu, ve kterém zjišťuje město. Pokud
se má v tomto případě automat vrátit o jednu úroveň zpět, vymaže se kolonka státu i kontinentu
a uživatel je vyzván k zadání kontinentu.
Součástí programu je formulář, který se postupně vyplňuje a uživatel má kontrolu údajů jak
zvukovou, tak i optickou. Na Obrázku 3 je vidět část reálné komunikace. V tomto konkrétním případě je
znázorněna simulace špatně rozpoznaného slova.
Reference
[1]
Nouza, J., Koldovský, Z., Vích, R., Řeč a počítač: principy hlasové komunikace, úlohy, metody
a aplikace, Liberec, 2009.
Prezentace této práce byla podpořena z projektu SGS 2010

Podobné dokumenty

obálka

obálka Řídicí jednotka může být vybavena řadou externích čidel. K tomu je zapotřebí volitelná deska pro čidla. Kromě toho může být detekční hlava připojena k řadě varovných signálních lamp.

Více

Systém rozpoznávání SPZ pro parkovací a vjezdové systémy

Systém rozpoznávání SPZ pro parkovací a vjezdové systémy V seznamu bude zobrazeno: SPZ, datum a as p íjezdu a p ípadn odjezdu, identifikace kamery z níž byla SPZ po ízena na p íjezdu a odjezdu, filtra ní modul umož ující vyhledávat v seznamu podle data, ...

Více

Project 2 - Midterm presentation

Project 2 - Midterm presentation Gesture-based Dicom Image Viewer Control

Více

Phonexia Identifikace jazyka

Phonexia Identifikace jazyka Založeno na aktuálních výsledcích mezinárodní výzkumných týmů a na poslední generaci technologie rozpoznání jazyka Algoritmy ověřeny v mezinárodním srovnání (organizuje americký NIST)

Více

pokyny pro účastníky leteckých zájezdů do řecka

pokyny pro účastníky leteckých zájezdů do řecka do Chorvatska můžete cestovat buď na platný občanský průkaz vydaný po roce 1993, nebo na cestovní pas platný minimálně 1 den po návratu z dovolené. Ujistěte se před odjezdem, že máte doklad v pořád...

Více

Všeobecnými smluvními podmínkami CA Tulips

Všeobecnými smluvními podmínkami CA Tulips 9.1 Zákazník je oprávněn odstoupit od smlouvy kdykoliv před odjezdem na zájezd. Zrušení zájezdu musí být provedeno písemně (tzn. i e-mailem) a způsobem nepochybným. Pro určení doby zrušení zájezdu ...

Více

HEDA export-import, spol. s ro, Purkyňova 99, 61200

HEDA export-import, spol. s ro, Purkyňova 99, 61200 Koncovým zákazníkům posíláme potvrzené zboží naší spediční službou nebo poštou na dobírku, popř. předem dohodnutým osobním odběrem z našeho skladu. Prodejcům do obchodů je zboží dodáváno za velkoob...

Více

Minibdominoplastika - Pardubická nemocnice

Minibdominoplastika - Pardubická nemocnice zaměstnání závisí na druhu vykonávané činnosti, u manuálně pracujících by to nemělo být dříve než po 2-3 týdnech. Hojení je proces postupný, otok může přetrvávat několik týdnů. Cvičení a podobné fy...

Více