PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Speech recognizer-based non-uniform spectral compression for robust MFCC feature extraction

Wybrane pełne teksty z tego czasopisma
Identyfikatory
Warianty tytułu
PL
Niejednorodna kompresja spektralna do odpornej ekstrakcji cech MFCC
Języki publikacji
EN
Abstrakty
EN
Spectral compression is an effective robust feature extraction technique to reduce the mismatch between training and testing data in feature domain. In this paper we propose a new MFCC feature extraction method with non-uniform spectral compression for speech recognition in noisy environments. In this method, the energies of the outputs of the mel-scaled band pass filters are compressed by different root values adjusted based on information from the back-end of speech recognition system. Using this new scheme of speech recognizer based non-uniform spectral compression (SRNSC) for mel-scaled filter-bank-based cepstral coefficients, substantial improvement is found for recognition in presence of different additive noises with different SNR values on TIMIT database, as compared to the standard MFCC and features derived with cubic root spectral compression.
PL
Kompresja spektralna jest efektywną i niezawodną techniką wyodrębniania cech w celu zmniejszenia niedopasowania między danymi uczącymi i testowymi w domenie cech. W tym artykule proponujemy nową metodę wyodrębniania cech MFCC z niejednorodną kompresją spektralną do rozpoznawania mowy w hałaśliwym otoczeniu. W opisywanej metodzie, energie wyjść pasmowych filtrów skali melowej są kompresowane przez różne wartości bazowe wyznaczone na podstawie informacji z back-endu systemu rozpoznawania mowy. Stosując ten nowy schemat niejednorodnej kompresji spektralnej (SRNSC) opartej na rozpoznawaniu mowy dla współczynników cepstralnych opartych na banku filtrów o skali melowej, stwierdzono znaczną poprawę rozpoznawania w obecności różnych szumów addytywnych o różnych wartościach SNR z bazy danych TIMIT, w porównaniu do standardowego MFCC i cech wyznaczonych za pomocą pierwiastkowej kompresji spektralnej.
Rocznik
Strony
90--93
Opis fizyczny
Bibliogr. 8 poz., rys., tab.
Twórcy
autor
  • School of Statistics, Mathematics and Computer Science, College of Science, University of Tehran, 16th Azar St., Enghelab Sq., Tehran, Iran
autor
  • Lublin University of Technology, Institute of Electronics and Information Technology, Nadbystrzycka 38A, 20- 618 Lublin, Poland
  • Institute of Information and Computational Technologies, Pushkin 125, 050010 Almaty, Kazakhstan
  • Institute of Information and Computational Technologies, Pushkin 125, 050010 Almaty, Kazakhstan
autor
  • Institute of Information and Computational Technologies, Pushkin 125, 050010 Almaty, Kazakhstan
Bibliografia
  • [1] Acero A., Stern R.M., Robust speech recognition by normalization of the acoustic space, in IEEE International Conference on Acoustics, Speech, and Signal Processing., (1991), 893-896
  • [2] Alexandre P., Lockwood P., Root cepstral analysis: a unified view: application to speech processing in car noise environments, Speech Communication, 12 (1993), 277-288
  • [3] Chu K. K., Leung S. H., SNR-dependent non-uniform spectral compression for noisy speech recognition, in IEEE International Conference on Acoustics, Speech, and Signal Processing, (2004)
  • [4] Nasersharif B., Akbari A., SNR-dependent compression of enhanced Mel sub-band energies for compensation of noise effects on MFCC features, Pattern Recognition Letters, 28 (2007)
  • [5] Nafalski A., Wibawa A.P., Machine translation with Javanese speech levels’ classification, IAPGOS, 6 (2016), No. 1, 21-25
  • [6] Varga A., The Noise-92 Study on the Effect of Additive Noise on Automatic Speech Recognition, DRA Speech Research Unit, St. Andrew’s Rd., Malvern, Worcestershire, WR14 3PS UK, (1992).
  • [7] Kamińska D., Pelikant A., Spontaneous emotion recognition from speech signal using multimodal classification, IAPGOS, 2 (2012), No. 3, 36-39
  • [8] Sameti H., Veisi H., Bahrani M., Babaali B., Hosseinzadeh K., NEVISA, A Persian Continuous Speech Recognition System, in 13th International CSI Computer Conference, Kish Island, Persian Gulf, Iran, (2008).
Uwagi
Opracowanie rekordu w ramach umowy 509/P-DUN/2018 ze środków MNiSW przeznaczonych na działalność upowszechniającą naukę (2018).
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-ca5ce40b-aa00-4f6c-a39b-1063c4de3e36
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.