PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Kaldi Toolkit in polish whispery peech ecognition

Wybrane pełne teksty z tego czasopisma
Identyfikatory
Warianty tytułu
PL
Narzędzia Kaldi w rozpoznawaniu polskiej mowy szeptanej
Języki publikacji
EN
Abstrakty
EN
In this paper, the automatic speech recognition task has been presented. Used toolkits, libraries and prepared speech corpus have been described. The obtained results suggest, that using different acoustic models for normal speech and whispered speech can reduce word error rate. The optimal training steps has been also selected. Thanks to the additional simulations it has been found that used corpus (over 9 hours of normal speech and the same of the whispery speech) is definitely too small and must be enlarged in the future.
PL
W artykule przedstawiono automatyczne rozpoznawanie mowy. Wykorzystane narzędzia, biblioteki i korpus opisano w artykule. Uzyskane wyniki wskazują, że wykorzystując różne modele akustyczne dla mowy zwykłej i szeptanej uzyskuje się polepszenie skuteczności rozpoznawania mowy. W wyniku wykonanych badań wskazano również optymalną kolejność kroków treningu. Dzięki dodatkowym obliczeniom stwierdzono, że użyty korpus (ponad 9 godzin zwykłej mowy i drugie tyle szeptu) jest zdecydowanie za mały do dobrego wytrenowania systemu rozpoznawania mowy i w przyszłości musi zostać powiększony.
Rocznik
Strony
301--304
Opis fizyczny
Bibliogr. 16 poz., tab., wykr.
Twórcy
autor
  • Poznan University of Technology, Faculty of Computing, Chair of Control and Systems Engineering, Division of Signal Processing and Electronic Systems and Faculty of Electrical Engineering, Institute of Control and Information Engineering, Division of Control and Robotics, Piotrowo 3a street, 60-965 Poznań
autor
  • Poznan University of Technology, Faculty of Electrical Engineering, Institute of Control and Information Engineering, Division of Control and Robotics
autor
  • Poznan University of Technology, Faculty of Computing, Chair of Control and Systems Engineering, Division of Signal Processing and Electronic Systems
  • Poznan University of Technology, Faculty of Computing, Chair of Control and Systems Engineering, Division of Signal Processing and Electronic Systems
autor
  • Poznan University of Technology, Faculty of Electrical Engineering, Institute of Control and Information Engineering, Division of Control and Robotics
Bibliografia
  • [1] Hong S.J., Method and Apparatus for Recognizing Whisper, U.S. Patent Application, No. US14579134 (filed December 22, 2014)
  • [2] Huang X., Acero A., Alleva F., Hwang M.Y., Jiang L., Mahajan M., Microsoft Windows Highly Intelligent Speech Recognizer: Whisper, In Acoustics, Speech, and Signal Processing, 1995 International Conference on (ICASSP-95), 1 (May 1995), 93-96
  • [3] Sharifzadeh H.R., McLoughlin I.V., Ahmadi F., Reconstruction of Normal Sounding Speech for Laryngectomy Patients through a Modified CELP Codec, Biomedical Engineering, IEEE Transactions on, 57 (2010), No. 10, 2448-2458
  • [4] Cummins F., Grimaldi M., Leonard T., Simko J., The Chains Corpus: Characterizing Individual Speakers, In Proc. of SPECOM, 6 (2006), 431-435
  • [5] Żelasko P., Ziółko B., Jadczyk T., Skurzok D., AGH Corpus of Polish Speech, Language Resources and Evaluation, (2015), 1-17, DOI: 10.1007/s10579-015-9302-y
  • [6] Szostek K., Optimization of HMM models and their application in speech recognition (in Polish), Elektrotechnika i Elektronika, 24 (2005), No. 2, 172-182
  • [7] Plannerer B., An Introduction to Speech Recognition, Munich, Germany (2005)
  • [8] Wanat I., Iwaniec M., Creation of the acoustic model for speaker recognition using hidden Markov models (in Polish), Modelowanie Inżynierskie, 9 (2010), No. 40, 249-256
  • [9] Miao Y., Kaldi+PDNN: Building DNN-based ASR Systems with Kaldi and PDNN, arXiv preprint arXiv:1401.6984 (2014)
  • [10] Mohanty R., Mohanty P., A Review: Neural Networks used for Speech Recognition, IJRECE, 4 (2016), No. 1, 01-05
  • [11] Povey D., Ghoshal A., Boulianne G., Burget L., et al., The Kaldi Speech Recognition Toolkit, In IEEE 2011 workshop on automatic speech recognition and understanding, (2011), No. EPFL-CONF-192584
  • [12] Platek O., Speech Recognition using KALDI, Master thesis, Charles University in Prague, Faculty of Mathematics and Physics (2014)
  • [13] Allauzen C., Riley M., Schalkwyk J., Skut W., Mohri M., OpenFst: A General and Efficient Eeighted Finite-State Transducer Library, In Implementation and Application of Automata, Springer Berlin Heidelberg (2007), 11-23
  • [14] Stolcke A., SRILM-an Extensible Language Modeling Toolkit, In Proc. Intl. Conf. Spoken Language Processing (INTERSPEECH), Denver, Colorado (September 2002)
  • [15] Bisani M., Ney H., Joint-Sequence Models for Grapheme-to- Phoneme Conversion, Speech Communication, 50 (2008), No. 5, 434-451
  • [16] Wypych M., Baranowska E., Demenko G., A Grapheme-to- Phoneme Transcription Algorithm Based on the SAMPA Alphabet Extension for the Polish Language, Phonetic Sciences, 15th International Congress of (ICPhS), Barcelona (August 2003), 2601-2604
Uwagi
Opracowanie ze środków MNiSW w ramach umowy 812/P-DUN/2016 na działalność upowszechniającą naukę.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-19695dfb-03d8-401f-bb88-c90abebe2bf5
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.