PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Szczegóły implementacyjne algorytmów do rozpoznawania mowy

Identyfikatory
Warianty tytułu
EN
Implementation details of speech recognition algorithms
Języki publikacji
PL
Abstrakty
PL
W artykule zaprezentowano i porównano algorytmy do rozpoznawania mowy w kontekście ich późniejszej implementacji na platformie sprzętowej DSK OMAP. Głównym zadaniem było dogłębne porównanie dwóch klasycznych metod wykorzystywanych w rozpoznawaniu mowy GMM vs HMM (ang. GMM Gaussian Mixtures Models, ang. HMM – Hidden Markov Models). W artykule jest również opisana i porównana metoda ulepszonych mikstur gaussowskich GMM-UBM (ang. GMM UBM – Gaussian Mixtures Model Universal Background Model). Parametryzacja sygnału w oparciu o współczynniki MFCC oraz LPCC (ang. Mel Frequency Cepstral Coefficients, ang. Linear Prediction Cepstral Coefficients) została opisana [1]. Analizowany model składał się ze zbioru 10-elementowego reprezentującego cyfry mowy polskiej 0-9. Badania zostały przeprowadzone na zbiorze 3000 nagrań, które zostały przygotowane przez nasz zespół. Porównanie wyników wykonano dla rozłącznych zbiorów uczących oraz trenujących. Każda z opisywanych metod klasyfikacji operuje na tych samych danych wejściowych. Daje to możliwość miarodajnego porównania jakości tych klasyfikatorów jako skutecznych narzędzi do rozpoznawania izolowanych fraz głosowych.
EN
This paper presents and compares the speech recognition algorithms in the context of their subsequent implementation on the hardware platform OMAP DSK. The main task was to compare two classical methods used in speech recognition systems GMM vs HMM (GMM – Gaussian Mixtures Models, HMM – Hidden Markov Models). In the article improved Gaussian Mixtures Model called GMM-UBM (Gaussian Mixtures Model Universal Background Model) were described and compared. Preprocessing of the input signal using MFCC and LPCC coefficients (Mel Frequency Cepstral Coefficients, Linear Prediction Cepstral Coefficients) were described [1]. Analyzed data model consists set of 10-elements that represents Polish language digits 0-9. Research is done on a set of 3000 records prepared by our team with disjoint sets of learners and trainees. Methods are compared on the same input data. The same set of input data allows for reliable comparison of these classifiers to choose effective classifier for identifying isolated voice phases.
Rocznik
Strony
40--44
Opis fizyczny
Bibliogr. 10 poz., wykr.
Twórcy
autor
  • Wojskowa Akademia Techniczna, Wydział Elektroniki, Instytut Telekomunikacji, Warszawa
autor
  • Wojskowa Akademia Techniczna, Wydział Elektroniki, Instytut Telekomunikacji, Warszawa
  • Wojskowa Akademia Techniczna, Wydział Elektroniki, Instytut Telekomunikacji, Warszawa
autor
  • Wojskowa Akademia Techniczna, Wydział Elektroniki, Instytut Telekomunikacji, Warszawa
Bibliografia
  • [1] Performance evaluation of MLPC and MFCC for HMM based noisy speech recognition, Computer and Information Technology (ICCIT), 2010 13th International Conference on, Print ISBN: 978-1-4244-8496-6.
  • [2] Christopher M. Bishop, Pattern Recognition and Machine Learning, Microsoft Research Ltd, Cambridge CB3 0FB, U.K., ISBN-10: 0-387-31073-8,ISBN-13: 978-0387-31073-2.
  • [3] S. Young, G. Evermann, M. Gales, i inni: “The HTK Book (for HTK Version 3.4)”. Cambridge University Engineering Department. Grudzień 2006.
  • [4] Przemysław Dymarski, Hidden Markov Models Theory and Applications, SBN 978-953-307-207-1, InTechOpen 2011.
  • [5] Zieliński T. P. „Cyfrowe przetwarzanie sygnałów w telekomunikacji”, Wydawnictwo Naukowe PWN, ISBN: 978-83-01- 17445-3, 2014.
  • [6] Z. Piotrowski, J. Wojtuń, K. Kamiński, Subscriber authentication using GMM and TMS320C6713DSP, Przegląd Elektrotechniczny, 2012 | R. 88, nr 12a | 127–130.
  • [7] Kamiński K., Majda E., Dobrowolski A. „Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models”, 17th Signal Processing: Algorithms, Architectures, Arrangements, and Applications, SPA 2013.
  • [8] Kamiński K., Majda E., Dobrowolski A. „Ocena funkcjonalności systemu rozpoznawania mówcy dla zdegradowanej jakości sygnału głosowego”, Przegląd Elektrotechniczny, ISSN: 0033-2097, Nr. 8/2014.
  • [9] Speaker recognition based on dynamic MFCC parameters, Image Analysis and Signal Processing, 2009. IASP 2009. International Conference on, Print ISBN: 978-1-4244-3987-4, IEEE.
  • [10] Polony Identification Using the EM Algorithm Based on a Gaussian Mixture Model, BioInformatics and BioEngineering (BIBE), 2010 IEEE International Conference on, Print ISBN: 978-1-4244-7494-3.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-4c976e38-1937-48e8-9cd9-4acbfdc688fb
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.