Tytuł artykułu
Autorzy
Identyfikatory
Warianty tytułu
Speaker clustering and its effectiveness for Polish language
Języki publikacji
Abstrakty
Grupowanie mówców w zbiory o podobnych cechach akustycznych ich mowy, obok normalizacji i adaptacji, jest skuteczną metodą poprawy jakości systemów automatycznego rozpoznawania mowy. W pracy przedstawiono metody grupowania, dla których punktem wyjścia jest model akustyczny wszystkich mówców oraz ich efektywność dla mowy polskiej w odniesieniu głównie do samogłosek. Rozwiązania te okazały się być skuteczne nawet przy wykorzystaniu superkrótkiej wypowiedzi. Uzyskana poprawa jakości rozpoznawania ramek mierzona za pomocą frame error rate wynosi około 4%.
Clustering of speakers into groups of similar acoustic features is, besides for normalization and adaptation, an efficient method of improving the quality of systems of automatic speech recognition. New approaches of speaker clustering based on the acoustic model for all speakers and their efficiency for Polish speech, mostly regarding vowels, are presented and discussed in this paper. Results show the strong performance of the new solutions, even when super short speech segments were used. The obtained quality improvement of frame recognition measured by frame error rate was about 4%.
Wydawca
Rocznik
Tom
Strony
45--50
Opis fizyczny
Bibliogr. 11 poz., rys., tab.
Twórcy
autor
- Politechnika Wrocławska, Wydział Elektroniki
autor
- Politechnika Wrocławska, Wydział Elektroniki
autor
- Politechnika Wrocławska, Wydział Elektroniki
Bibliografia
- [1] Anderson T.W. 2003. “An Introduction to Multivariate Statistical Analysis”. 3rd ed., John Wiley & Sons Inc, New York.
- [2] Basseville M. 1989. “Distance Measures for Signal Processing and Pattern Recognition”. Signal Processing 18: 349-369.
- [3] Bishop C.M. 2006. “Pattern Recognition and Machine Learning”. Springer, New York.
- [4] Chu S.M., Tang H., Huang T.S. 2009a. “Locality Preserving Speaker Clustering”. Proceedings of IEEE International Conference on Multimedia and Expo: 494-497. Mexico.
- [5] Chu S.M., Tang H., Huang T.S. 2009b. “Fishervoice and Semi-Supervised Speaker Clustering”. International Conference on Acoustics, Speech and Signal Processing: 4089-4092. Taipei.
- [6] Davis S.B., Mermelstein P. 1980. “Comparison of Parametric Representation for Monosyllabis Recognition in Continuously Spoken Sentences”. IEEE Trans. Acoustics, Speech and Signal Processing 28: 357-366.
- [7] Dempster A., Laird N., Rubin D. 1977. “Maximum Likelihood from Incomplete Data via EM Algorithm”. Journal of Royal Statistical Society 39: 1-38.
- [8] Duda R., Hart P., Stork D. 2000. “Pattern Classication”. 2-nd ed., John Wiley & Sons Inc. New York.
- [9] Furui S. 1989. “Unsupervised Speaker Adaptation Method Based on Hierarchical Spectral Clustering”. International Conference on Acoustics, Speech and Signal Processing.
- [10] Gauvain J.L., Lee C.-H. 1994. “Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains”. IEEE Transactions on Speech and Audio Processing 2.
- [11] Hazen T.J. 2000. “A Comparison of Novel Techniques for Rapid Speaker Adaptation”. Speech Communication 31: 15-33.
Uwagi
PL
Opracowanie ze środków MNiSW w ramach umowy 812/P-DUN/2016 na działalność upowszechniającą naukę.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-9ba2c660-2e09-4a4c-a1a0-4f14828efb74