PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Parametryzacja sygnału mowy w algorytmach rozpoznawania mowy

Identyfikatory
Warianty tytułu
EN
Parameterization of the speech signal in speech recognition algorithms
Języki publikacji
PL
Abstrakty
PL
Historia systemów automatycznego rozpoznawania mowy ma już kilkadziesiąt lat. Pierwsze prace badawcze z tego zakresu pochodzą z lat 50. XX wieku (prace w laboratoriach Bella oraz MIT). Pomimo iż zagadnieniem tym zajmuje się wiele zespołów badawczych na całym świecie, problem automatycznego rozpoznawania mowy nie został definitywne rozwiązany. Dostępne systemy rozpoznawania mowy nadal charakteryzują się gorszą skutecznością w porównaniu do umiejętności człowieka. W artykule przedstawiono schemat systemu rozpoznawania mowy na przykładzie rozpoznawania izolowanych słów języka polskiego. Zaprezentowano szczegółowy opis wyznaczania cech dystynktywnych sygnału mowy w oparciu o współczynniki mel – cepstralne oraz cepstralne współczynniki liniowej predykcji. Przedstawiono wyniki skuteczności rozpoznawania poszczególnych fraz.
EN
The first research in automatic speech recognition systems dates back to the fifties of the 20th century (the works of Bell Labs and MIT). Although this issue has been treated by many research teams, the problem of automatic speech recognition has not been definitively resolved and remains open. Available voice recognition systems still have a poorer efficiency compared to human skills. This article presents a diagram of speech recognition system for isolated words of the Polish language. A detailed description of the determination of distinctive features of the speech signal is presented based on the mel-frequency cepstral coefficient and linear predictive cepstral coefficients. Efficiency results are also presented.
Rocznik
Strony
34--39
Opis fizyczny
Bibliogr. 20 poz., wykr.
Twórcy
autor
  • Wojskowa Akademia Techniczna, Wydział Elektroniki, Instytut Telekomunikacji, Warszawa
autor
  • Wojskowa Akademia Techniczna, Wydział Elektroniki, Instytut Telekomunikacji, Warszawa
  • Wojskowa Akademia Techniczna, Wydział Elektroniki, Instytut Telekomunikacji, Warszawa
autor
  • Wojskowa Akademia Techniczna, Wydział Elektroniki, Instytut Telekomunikacji, Warszawa
Bibliografia
  • [1] Davis K. H., Biddulph R., Balashek S. „Automatic Recognition of Spoken Digits”, Journal of the Acoustical Society of America, ISSN: 0001- 4966 Vol. 24, Issue 6, 1952.
  • [2] Olson H. F., Belar H. „Phonetic typewriter”, Journal of the Acoustical Society of America, ISSN: 0001-4966 Vol. 28, Issue 6, 1956.
  • [3] Forgie J. W., Forgie C. D. „Results Obtained from a Vowel Recognition Computer Program”, Journal of the Acoustical Society of America, ISSN: 0001-4966 Vol. 13, Issue 11, 1959.
  • [4] Dulas J. „Automatyczna identyfikacja cyfr dla mówców polskojęzycznych”, Przegląd Elektrotechniczny, ISSN: 0033-2097, Nr. 5/2010.
  • [5] Marciniak T., Krzykowska A., Weychan R. „Speaker recognition based on telephone quality short Polish sequences with removed silence”, Przegląd Elektrotechniczny, ISSN: 0033-2097, Nr. 6/2012.
  • [6] Kamiński K., Majda E., Dobrowolski A. „Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models”, 17th Signal Processing: Algorithms, Architectures, Arrangements, and Applications, SPA 2013.
  • [7] Zieliński T. P. „Cyfrowe przetwarzanie sygnałów w telekomunikacji”, Wydawnictwo Naukowe PWN, ISBN: 978-83-01-17445-3, 2014.
  • [8] Kamiński K., Majda E., Dobrowolski A. „Ocena funkcjonalności systemu rozpoznawania mówcy dla zdegradowanej jakości sygnału głosowego”, Przegląd Elektrotechniczny, ISSN: 0033-2097, Nr. 8/2014.
  • [9] Basztura Cz. „Źródła, sygnały i obraz akustyczne”, Wydawnictwa Komunikacji i Łączności, ISBN: 83-206-0740-X, 1988.
  • [10] Tadeusiewicz R. „Sygnał mowy”, Wydawnictwa Komunikacji i Łączności, ISBN: 83-206-0705-1, 1988.
  • [11] Beigi H. „Fundamentals of Speaker Recognition”, Springer, ISBN: 978-0-387-77591-3, 2011.
  • [12] Rabiner L., Juang B. H. „Fundamentals of Speech Recognition”, PTR Prentice Hall, ISBN: 0-13-285826-6, 1990.
  • [13] Tyagi V., Mccowan L., Misra H., Bourlard H. „Mel-Cepstrum Modulation Spectrum (MCMS) Features for Robust ASR”, IEEE Workshop Automatic Speech Recognition and Understanding, ASRU 2003.
  • [14] Gowdy J. N., Tufekci Z. Mel-scaled discrete wavelet coefficients for speech recognition, International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2000.
  • [15] Tufekci, Z., Gurbuz S. „Noise Robust Speaker Verification Using Mel-Frequency Discrete Wavelet Coefficients and Parallel Model Compensation”, International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2005.
  • [16] Chan W. N., Zheng N., Lee T. „Discrimination Power of Vocal Source and Vocal Tract Related Features for Speaker Segmentation”, IEEE Transactions on Audio, Speech, and Language Processing, ISSN: 1558-7916, 2007.
  • [17] Grimm M., Kroschel K. „Robust Speech Recognition and Understanding”, I-Tech Education and Publishing, ISBN: 978-3-902613-08- 0, 2007.
  • [18] Hermansky H. „Perceptual linear predictive (PLP) analysis for speech”, Journal of the Acoustical Society of America, ISSN: 0001- 4966 Vol. 87, Issue 4, 1990.
  • [19] Hermansky H., Morgan N., Bayya A., Kohn P. „RASTA-PLP speech analysis technique”, International Conference on Acoustic, Speech, and Signal Processing, ICASSP 1992.
  • [20] Ośka J., Wojtuń J., Piotrowski Z., Bernat M. „Szczegóły implementacyjne algorytmów do rozpoznawania mowy”, X Konferencja Naukowo-Techniczna Systemy Rozpoznania i Walki Elektronicznej, KNTWE 2014.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-2c182ad0-28a3-41b3-bbbe-8d8699f67969
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.