PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

The use of pitch in Large-Vocabulary Continuous Speech Recognition System

Wybrane pełne teksty z tego czasopisma
Identyfikatory
Warianty tytułu
PL
Wykorzystanie wysokości tonu głosu w systemach rozpoznawania mowy ciągłej z dużą ilością słów
Języki publikacji
EN
Abstrakty
EN
In this article the authors normalize the speech signal based on the publicly available AN4 database. The authors added to the algorithm of calculating the MFCC coefficients, the normalization procedure, that uses pitch of the voice. As demonstrated by empirical tests authors were able to improve speech recognition accuracy rate of about 20%.
PL
W niniejszym artykule autorzy normalizują sygnał mowy wykorzystując publicznie dostępną bazę danych AN4. Autorzy dodali do algorytmu obliczania współczynników MFCC, procedurę normalizacji, wykorzystującą wysokość tonu głosu. Jak wynika z przeprowadzonych testów, autorzy uzyskali poprawę dokładności rozpoznawania mowy o około 20%.
Rocznik
Strony
78--81
Opis fizyczny
Bibliogr. 17 poz., tab., wykr.
Twórcy
  • Katolicki Uniwersytet Lubelski Jana Pawła II, Instytut Matematyki, Katedra Systemów Operacyjnych i Sieciowych, ul. Konstantynów 1H, 20-708 Lublin
  • Katolicki Uniwersytet Lubelski Jana Pawła II, Instytut Matematyki, Katedra Systemów Operacyjnych i Sieciowych, ul. Konstantynów 1H, 20-708 Lublin
Bibliografia
  • [1] Benesty J., Sondhi M.M., Huang Y., Springer Handbook of Speech Processing, Springer, Berlin, 2008
  • [2] Peterson G.E., Barney H.L., Control methods used in a study of the vowels, Journal of the Acoustical Society of America, 24 (1952), 175–184
  • [3] Fitch W.T., Giedd J., Morphology and development of the human vocal tract: a study using magnetic resonance imaging, Journal of the Acoustical Society of America, 106 (1999), n.3, 1511-1522
  • [4] Zhan, P., Waibel, A., Vocal Tract Length Normalization for Large Vocabulary Continuous Speech Recognition, CMU-CS- 97-148, Carnegie Mellon University, Pittsburgh, PA. May. 1997
  • [5] Kamm T., Andreou G., Cohen J., Vocal Tract Normalization in Speech Recognition: Compensating for Systematic Speaker Variability, Proc. of the 15th Annual Speech Research Symposium, pp. 161-167, CLSP, Johns Hopkins University, Baltimore, MD, June 1995
  • [6] Tuerk C., Robinson T., A new frequency shift function for reducing inter-speaker variance. In: Proc. Eurospeech 1993, 351-354
  • [7] Oppenheim A.V., Johnson D.H., Discrete representation of signals. Proc. of the IEEE, 60 (1972), n.6, 681-691
  • [8] Acero, A., Acoustical and Environmental Robustness in Automatic Speech Recognition. PhD thesis, Carnegie Mellon University, Pittsburgh, Pennsylvania, 1990
  • [9] McDonough, John W., Speaker Compensation with All-Pass Transforms. PhD thesis, Johns Hopkins University, 2000
  • [10] Waibel A., Lee K.F., Readings in Speech Recognition, Morgan Kaufmann, 1990
  • [11] Traunmüller, H., Eriksson, A., The frequency range of the voice fundamental in the speech of male and female adults. http://www.ling.su.se/staff/hartmut/aktupub.htm
  • [12] Johnson, K. Speaker Normalization in speech perception. In Pisoni, D.B. & Remez, R. (eds) The Handbook of Speech Perception. Oxford: Blackwell Publishers, (2005), 363-389
  • [13] Boersma P., Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a sampled sound, Proceedings of the Institute of Phonetic Sciences University of Amsterdam, 17 (1993), 97-110
  • [14] A brief explanation of Praat's pitch detection algorithm, http://www.ucl.ac.uk/~ucjt465/tutorials/praatpitch.html
  • [15] The CMU Audio Databases, AN4 database, http://www.speech.cs.cmu.edu/databases/an4/
  • [16] Płonkowski M., Urbanowicz P., Tuning a CMU Sphinx-III Speech Recognition System for Polish Language, Przegląd Elektrotechniczny (2014), n.4, 181-184
  • [17] Płonkowski M., Using bands of frequencies for vowel recognition for Polish language, International Journal of Speech Technology, 18 (2014), n.2, 187-193
Uwagi
Opracowanie ze środków MNiSW w ramach umowy 812/P-DUN/2016 na działalność upowszechniającą naukę.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-f416d02f-465d-486a-b0b9-d558af0229f5
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.