PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Application of deformable grids and hidden Markov models for isolated word recognition from facial image sequences of a speaking person

Autorzy
Wybrane pełne teksty z tego czasopisma
Identyfikatory
Warianty tytułu
PL
Wykorzystanie modeli deformowalnych i niejawnych modeli Markowa do rozpoznawania słów na podstawie sekwencji obrazów twarzy osoby mówiącej
Języki publikacji
EN
Abstrakty
EN
The paper reports a method of word recognition using visual information only derived from a video speech recording. Combination of the discriminative deformable grid approach to individual frame analysis with the Hidden Markov Model technique, applied to a sequence analysis, is proposed to solve the lip-reading problem. The main research objective was to develop the deformable grid construction method and to extract the visual speech characteristics from the mouth images that could be used in a speech recognition. The visual speech recognition system has been described. Similarly, the method of verification with isolated phones and digits recognition experiments has been presented.
PL
Celem badań było opracowanie metody rozpoznawania słów na podstawie sekwencji obrazów twarzy z zarejestrowaną wypowiedzią. Do rozwiązania tak postawionego zadania zaproponowano koncepcję połączenia metody dyskryminacyjnej siatki deformowalnej do analizy pojedynczych klatek video oraz Niejawnych Modeli Markova (HMM) do analizy sekwencji. Głównym przedmiotem badań było opracowanie metody projektowania siatki deformowalnej i ekstrakcji charakterystyk wizualnych mowy na podstawie obrazów ust. Siatka deformowalna jest abstrakcyjną strukturą złożoną z elastycznie połączonych węzłów, które przechowują wartości lokalnej cechy obrazu. Odpowiednio skonstruowana siatka jest wykorzystywana do ekstrakcji deskryptora obrazu ust w procesie jej iteracyjnego dopasowania do obrazu. W przedstawionym systemie zaimplementowano procedury lokalizacji twarzy i ust oraz analizy sekwencji. W pierwszym kroku przetwarzania, siatka deformowalna jest wykorzystana do obliczenia deskryptora obrazu ust dla każdej klatki sekwencji. Uzyskane dane są następnie kodowane i analizowane za pomocą HMM. Podsumowując, zaproponowaną metodę rozpoznawania słów w oparciu jedynie o informację obrazową przetestowano przy użyciu eksperymentów z rozpoznawaniem pojedynczych głosek oraz wypowiadanych cyfr. Metoda może służyć rozpoznawaniu słów z większego słownika lub w systemach rozpoznawania na podstawie obrazu i dźwięku.
Rocznik
Tom
Strony
87--93
Opis fizyczny
Bibliogr. 6 poz.
Twórcy
autor
  • Technical University of Łódź, Institute of Electronics
Bibliografia
  • [1] Duchnowski P., Hunke M.: Toward movement-invariant automatic lip-reading and speech recognition. ICCASP 1995.
  • [2] Mase K., Pentland A.: Automatic Lipreadingby Optical-Flow Analysis, System and Computers in Japan, 22(6), 1991 pp. 67-76.
  • [3] Foo S.W., Lian Y., Dong L.: Recognition of visual speech elements using adap-tively boosted hidden Markov models, IEEE Trans, on Circuits and Systems for Video Technology, 2004.
  • [4] Dupont S., Luettin J.: Audio-Visual Speech Modeling for Continuous Speech Recognition, IEEE Transaction on Multimedia, Vol. 2, No 3, 2000.
  • [5] Szczypinski P., Materka A.: Object Tracking and Recognition Using Deformable Grid with Geometrical Templates, Proc. of ICSES, Poland 2000, pp. 169-174.
  • [6] Nowak H., Ślot K.: Object classification with intermediate deformable models, Proc. of ECCTD, pp. 240-243, Kraków 2003.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-LOD1-0015-0009
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.