PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Grupowanie mówców i jego skuteczność dla języka polskiego

Identyfikatory
Warianty tytułu
EN
Speaker clustering and its effectiveness for Polish language
Języki publikacji
PL
Abstrakty
PL
Grupowanie mówców w zbiory o podobnych cechach akustycznych ich mowy, obok normalizacji i adaptacji, jest skuteczną metodą poprawy jakości systemów automatycznego rozpoznawania mowy. W pracy przedstawiono metody grupowania, dla których punktem wyjścia jest model akustyczny wszystkich mówców oraz ich efektywność dla mowy polskiej w odniesieniu głównie do samogłosek. Rozwiązania te okazały się być skuteczne nawet przy wykorzystaniu superkrótkiej wypowiedzi. Uzyskana poprawa jakości rozpoznawania ramek mierzona za pomocą frame error rate wynosi około 4%.
EN
Clustering of speakers into groups of similar acoustic features is, besides for normalization and adaptation, an efficient method of improving the quality of systems of automatic speech recognition. New approaches of speaker clustering based on the acoustic model for all speakers and their efficiency for Polish speech, mostly regarding vowels, are presented and discussed in this paper. Results show the strong performance of the new solutions, even when super short speech segments were used. The obtained quality improvement of frame recognition measured by frame error rate was about 4%.
Rocznik
Strony
45--50
Opis fizyczny
Bibliogr. 11 poz., rys., tab.
Twórcy
  • Politechnika Wrocławska, Wydział Elektroniki
autor
  • Politechnika Wrocławska, Wydział Elektroniki
autor
  • Politechnika Wrocławska, Wydział Elektroniki
Bibliografia
  • [1] Anderson T.W. 2003. “An Introduction to Multivariate Statistical Analysis”. 3rd ed., John Wiley & Sons Inc, New York.
  • [2] Basseville M. 1989. “Distance Measures for Signal Processing and Pattern Recognition”. Signal Processing 18: 349-369.
  • [3] Bishop C.M. 2006. “Pattern Recognition and Machine Learning”. Springer, New York.
  • [4] Chu S.M., Tang H., Huang T.S. 2009a. “Locality Preserving Speaker Clustering”. Proceedings of IEEE International Conference on Multimedia and Expo: 494-497. Mexico.
  • [5] Chu S.M., Tang H., Huang T.S. 2009b. “Fishervoice and Semi-Supervised Speaker Clustering”. International Conference on Acoustics, Speech and Signal Processing: 4089-4092. Taipei.
  • [6] Davis S.B., Mermelstein P. 1980. “Comparison of Parametric Representation for Monosyllabis Recognition in Continuously Spoken Sentences”. IEEE Trans. Acoustics, Speech and Signal Processing 28: 357-366.
  • [7] Dempster A., Laird N., Rubin D. 1977. “Maximum Likelihood from Incomplete Data via EM Algorithm”. Journal of Royal Statistical Society 39: 1-38.
  • [8] Duda R., Hart P., Stork D. 2000. “Pattern Classication”. 2-nd ed., John Wiley & Sons Inc. New York.
  • [9] Furui S. 1989. “Unsupervised Speaker Adaptation Method Based on Hierarchical Spectral Clustering”. International Conference on Acoustics, Speech and Signal Processing.
  • [10] Gauvain J.L., Lee C.-H. 1994. “Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains”. IEEE Transactions on Speech and Audio Processing 2.
  • [11] Hazen T.J. 2000. “A Comparison of Novel Techniques for Rapid Speaker Adaptation”. Speech Communication 31: 15-33.
Uwagi
PL
Opracowanie ze środków MNiSW w ramach umowy 812/P-DUN/2016 na działalność upowszechniającą naukę.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-9ba2c660-2e09-4a4c-a1a0-4f14828efb74
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.