Warianty tytułu
Badania efektywności rozpoznawania mówcy opartego na krótkich wypowiedziach w języku polskim
Języki publikacji
Abstrakty
This paper presents the effectiveness of speaker identification based on short Polish sequences. An impact of automatic removal of silence on the speaker recognition accuracy is considered. Several methods to detect the beginnings and ends of the voice signal have been used. Experimental research was carried out in Matlab environment with the use of a specially prepared database of short speech sequences in Polish. The construction of speaker models was realized with two techniques: Vector Quantization (VQ) and Gaussian Mixture Models (GMM). We also tested the influence of the sampling rate reduction on the speaker recognition performance.
Artykuł przedstawia badania efektywności rozpoznawania mówcy opartego na krótkich wypowiedziach w języku polskim. Sprawdzono wpływ automatycznego wykrywania i usuwania ciszy na jakość rozpoznawania mówcy. Przebadano kilka różnych metod wykrywania początku i końca fragmentów mowy w wypowiadanych sekwencjach. Eksperymenty zostały przeprowadzone z użyciem środowiska Matlab i specjalnie utworzonej bazy krótkich wypowiedzi w języku polskim. Do budowy modeli mówców wykorzystano kwantyzacja wektorowa (VQ) oraz Gaussian Mixture Models (GMM). Podczas badań sprawdzono także wpływ obniżenia szybkości próbkowania na skuteczność identyfikacji mówcy.
Czasopismo
Rocznik
Tom
Strony
42-46
Opis fizyczny
Bibliogr. 14 poz., tab., wykr.
Twórcy
Bibliografia
- [1] Keshet J., Bengio S., Automatic Speech and Speaker Recognition, John Wiley & Sons Ltd, (2009)
- [2] Govindaraju V., Advances in Biometrics - Sensors, Algorithms and Systems, Springer-Verlag London Limited, (2008)
- [3] Marciniak T., Weychan R., Drgas Sz., Dąbrowski A., Krzykowska A., Speaker recognition based on short Polish sequences, Proc. of SIGNAL PROCESSING SPA‘2010, Poland Section, Chapter Circuits and Systems IEEE, Poznań, Poland, (2010), 95-98.
- [4] Dąbrowski A. Marciniak T., Krzykowska A. Weychan R., Influence of silence removal on speaker recognition based on short Polish sequences, Proc. of SIGNAL PROCESSING SPA’2011, Poland Section, Chapter Circuits and Systems IEEE, Poznań, Poland, (2011), 159-163
- [5] Qi Li, Jinsong Zheng, Tsai A., Qiru Zhou, Robust endpoint detection and energy normalization for real-time speech and speaker recognition, IEEE Transactions on Speech and Audio Processing, Volume : 10 , Issue:3 (2002), 146 – 157
- [6] Varela, O., San-Segundo R.,Hernandez L.A., Robust speech detection for noisy environments, IEEE Aerospace and Electronic Systems Magazine, Volume: 26, Issue:11, (2011), 16 – 23
- [7] Kudinov M., Comparison of some algorithms for endpoint detection for speech recognition device used in cars, Proc. of International Siberian Conference on Control and Communications (SIBCON), (2011), 230 - 233
- [8] Marciniak T., Dąbrowski A., Rochówniak R., Subband wavelet signal denoising for voice activity detection, Proc. of NTAV/SPA‘2008, Poznań, Poland, (2008), 93-96.
- [9] Jyh-Shing Roger Jang, ASR (Automatic Speech Recognition) Toolbox, available from the link at the author's homepage at http://mirlab.org/jang.
- [10] DSP Mini-Project: An Automatic Speaker Recognition System http://www.ifp.uiuc.edu/~minhdo/teaching/speaker_recognition
- [11] Voicebox: speech processing toolbox for Matlab http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html
- [12] Alexander A., Drygajlo A., Speaker identification: A demonstration using Matlab, http://scgwww.epfl.ch/matlab/student_labs/2005/labs/
- [13] DET-Curve Plotting software for use with MATLAB, http://nist.gov/itl/iad/mig/tools.cfm
- [14] R. Tahmasbi, S. Rezaei, Change point detection in GARCH models for voice activity detection, IEEE Transaction on Audio, Speech, and Language Processing, Vol. 16, No.5, (2008),1038–1046
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.baztech-article-BPOK-0039-0008