Application of deformable grids and hidden Markov models for isolated word recognition from facial image sequences of a speaking person

Nowak, H.

Artykuł - szczegóły

Tytuł artykułu

Application of deformable grids and hidden Markov models for isolated word recognition from facial image sequences of a speaking person

Autorzy

Nowak H.

Wybrane pełne teksty z tego czasopisma

http://cybra.lodz.pl/dlibra/collectiondescription?dirids=8

Identyfikatory

Warianty tytułu

Wykorzystanie modeli deformowalnych i niejawnych modeli Markowa do rozpoznawania słów na podstawie sekwencji obrazów twarzy osoby mówiącej

Języki publikacji

Abstrakty

The paper reports a method of word recognition using visual information only derived from a video speech recording. Combination of the discriminative deformable grid approach to individual frame analysis with the Hidden Markov Model technique, applied to a sequence analysis, is proposed to solve the lip-reading problem. The main research objective was to develop the deformable grid construction method and to extract the visual speech characteristics from the mouth images that could be used in a speech recognition. The visual speech recognition system has been described. Similarly, the method of verification with isolated phones and digits recognition experiments has been presented.

Celem badań było opracowanie metody rozpoznawania słów na podstawie sekwencji obrazów twarzy z zarejestrowaną wypowiedzią. Do rozwiązania tak postawionego zadania zaproponowano koncepcję połączenia metody dyskryminacyjnej siatki deformowalnej do analizy pojedynczych klatek video oraz Niejawnych Modeli Markova (HMM) do analizy sekwencji. Głównym przedmiotem badań było opracowanie metody projektowania siatki deformowalnej i ekstrakcji charakterystyk wizualnych mowy na podstawie obrazów ust. Siatka deformowalna jest abstrakcyjną strukturą złożoną z elastycznie połączonych węzłów, które przechowują wartości lokalnej cechy obrazu. Odpowiednio skonstruowana siatka jest wykorzystywana do ekstrakcji deskryptora obrazu ust w procesie jej iteracyjnego dopasowania do obrazu. W przedstawionym systemie zaimplementowano procedury lokalizacji twarzy i ust oraz analizy sekwencji. W pierwszym kroku przetwarzania, siatka deformowalna jest wykorzystana do obliczenia deskryptora obrazu ust dla każdej klatki sekwencji. Uzyskane dane są następnie kodowane i analizowane za pomocą HMM. Podsumowując, zaproponowaną metodę rozpoznawania słów w oparciu jedynie o informację obrazową przetestowano przy użyciu eksperymentów z rozpoznawaniem pojedynczych głosek oraz wypowiadanych cyfr. Metoda może służyć rozpoznawaniu słów z większego słownika lub w systemach rozpoznawania na podstawie obrazu i dźwięku.

Słowa kluczowe

hidden Markov model deformable grid word recognition speech recognition visual information

Niejawny Model Markova model deformowalny rozpoznawanie słów rozpoznawanie mowy informacja obrazowa

Wydawca

Wydawnictwo Politechniki Łódzkiej

Czasopismo

Zeszyty Naukowe. Elektryka / Politechnika Łódzka

Rocznik

2008

Tom

z. 115

Strony

87--93

Opis fizyczny

Bibliogr. 6 poz.

Twórcy

autor

Nowak H.

Technical University of Łódź, Institute of Electronics

Bibliografia

[1] Duchnowski P., Hunke M.: Toward movement-invariant automatic lip-reading and speech recognition. ICCASP 1995.
[2] Mase K., Pentland A.: Automatic Lipreadingby Optical-Flow Analysis, System and Computers in Japan, 22(6), 1991 pp. 67-76.
[3] Foo S.W., Lian Y., Dong L.: Recognition of visual speech elements using adap-tively boosted hidden Markov models, IEEE Trans, on Circuits and Systems for Video Technology, 2004.
[4] Dupont S., Luettin J.: Audio-Visual Speech Modeling for Continuous Speech Recognition, IEEE Transaction on Multimedia, Vol. 2, No 3, 2000.
[5] Szczypinski P., Materka A.: Object Tracking and Recognition Using Deformable Grid with Geometrical Templates, Proc. of ICSES, Poland 2000, pp. 169-174.
[6] Nowak H., Ślot K.: Object classification with intermediate deformable models, Proc. of ECCTD, pp. 240-243, Kraków 2003.

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-article-LOD1-0015-0009