Praktyczne aspekty wykorzystywania systemów rozpoznawania mowy opartych na HMM

Mietła, A.; Iwaniec, M.

Artykuł - szczegóły

Tytuł artykułu

Praktyczne aspekty wykorzystywania systemów rozpoznawania mowy opartych na HMM

Autorzy

Mietła A. , Iwaniec M.

Identyfikatory

Warianty tytułu

Practical aspects of use automatic speech recognition systems based on HMM

Języki publikacji

Abstrakty

W artykule poruszono problem tworzenia systemów automatycznego rozpoznawania mowy zbudowanych na bazie ukrytych modeli Markowa. Przedstawiono matematyczne podstawy HMM oraz odniesiono je do rzeczywistego problemu. Wykazano, że niezwykle istotny jest odpowiedni dobór liczby stanów oraz rozkładów w systemie. Zaprezentowano także wyniki testów stwierdzające przewagę współczynników RASTA-PLP nad MFCC oraz konieczność stosowania parametrów delta oraz delta-delta.

Article discusses problems associated with automatic speech recognition systems based on Hidden Markov Model. Mathematical basis of HMM have been presented and it is shown how it can be applied to the real problem. Extremely important is the proper selection of the quantity of states and Gaussian distributions. Test results indicating the advantage of RASTA-PLP coefficients over MFCCs and necessity of using delta and delta-delta parameters are presented.

Słowa kluczowe

rozpoznawanie mowy kodowanie mowy ukryte modele Markova HMM

speech recognition speech coding hidden Markov models HMM

Wydawca

Polskie Towarzystwo Mechaniki Teoretycznej i Stosowanej. Oddział Gliwice

Czasopismo

Modelowanie Inżynierskie

Rocznik

2010

Tom

T. 9, nr 40

Strony

171--178

Opis fizyczny

Bibliogr. 9 poz.

Twórcy

autor

Mietła A.

autor

Iwaniec M.

Katedra Automatyzacji Procesów, Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie, mietla@agh.edu.pl

Bibliografia

1. Haleem M.S.: Voice controlled automation system. Multitopic Conference IEEE International, Karachi 2008, p. 508-512.
2. Kubik T., Sugisaka M.: Use of a cellular phone in mobile robot voice control. SICE Proceedings of the 40th SICE Annual Conference, Nagoya 2001, p. 106-111.
3. Simpson R.C., Levine S.P.: Voice control of a powered wheelchair. “Neural Systems and Rehabilitation Engineering” 2002, 10, 2, p. 122-125.
4. Elliott R.J., Aggoun L., Moore J.B.: Hidden Markov models: estimation and control. New York : Springer, 1995, p. 3-19.
5. Juang B.H., Rabiner L.R.: Hidden Markov models for speech recognition. “Technometrics” 1991, 33, 3, p. 251-272.
6. Ma G., Zhou W., Zheng J., You X., Ye W.: A Comparison between HTK and SPHINX on Chinese Mandarin. “Artificial Intelligence” 2009, p. 394-397.
7. Young S.J, Woodland P.C., Byrne W.J.: Spontaneous speech recognition for the credit card corpus using the HTK toolkit. Speech and Audio Processing, IEEE Transactions on, 2, 4, 1994, p. 615-621.
8. Openshaw J.P., Sun Z.P., Mason J.S.: A comparison of composite features under degraded speech in speaker recognition. “Acoustic, Speech and Signal Processing” 1993, 2, 2, p. 371-374.
9. Tolba H., O’Shaughnessy D.: Automatic speech recognition based on cepstral coefficients and a mel-based discrete energy operator. “Acoustic, Speech and Signal Processing” 1998, 2, 2, p. 973-976.

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-article-BSL7-0050-0035