Grupowanie mówców i jego skuteczność dla języka polskiego

Zambrzycka, A.; Makowski, R.; Hossa, R.

doi:10.15199/13.2016.7.12

Artykuł - szczegóły

Tytuł artykułu

Grupowanie mówców i jego skuteczność dla języka polskiego

Autorzy

Zambrzycka A. , Makowski R. , Hossa R.

Identyfikatory

DOI

10.15199/13.2016.7.12

Warianty tytułu

Speaker clustering and its effectiveness for Polish language

Języki publikacji

Abstrakty

Grupowanie mówców w zbiory o podobnych cechach akustycznych ich mowy, obok normalizacji i adaptacji, jest skuteczną metodą poprawy jakości systemów automatycznego rozpoznawania mowy. W pracy przedstawiono metody grupowania, dla których punktem wyjścia jest model akustyczny wszystkich mówców oraz ich efektywność dla mowy polskiej w odniesieniu głównie do samogłosek. Rozwiązania te okazały się być skuteczne nawet przy wykorzystaniu superkrótkiej wypowiedzi. Uzyskana poprawa jakości rozpoznawania ramek mierzona za pomocą frame error rate wynosi około 4%.

Clustering of speakers into groups of similar acoustic features is, besides for normalization and adaptation, an efficient method of improving the quality of systems of automatic speech recognition. New approaches of speaker clustering based on the acoustic model for all speakers and their efficiency for Polish speech, mostly regarding vowels, are presented and discussed in this paper. Results show the strong performance of the new solutions, even when super short speech segments were used. The obtained quality improvement of frame recognition measured by frame error rate was about 4%.

Słowa kluczowe

rozpoznawanie mowy automatyczne kompensacja różnic międzyosobniczych grupowanie mówców model UBM adaptacja współczynników wagowych GMM

automatic speech recognition interindividual difference compensation speaker clustering universal background model GMM weighting factor adaptation

Wydawca

Wydawnictwo SIGMA-NOT

Czasopismo

Elektronika : konstrukcje, technologie, zastosowania

Rocznik

2016

Tom

Vol. 57, nr 7

Strony

45--50

Opis fizyczny

Bibliogr. 11 poz., rys., tab.

Twórcy

autor

Zambrzycka A.

Politechnika Wrocławska, Wydział Elektroniki

autor

Makowski R.

Politechnika Wrocławska, Wydział Elektroniki

autor

Hossa R.

Politechnika Wrocławska, Wydział Elektroniki

Bibliografia

[1] Anderson T.W. 2003. “An Introduction to Multivariate Statistical Analysis”. 3rd ed., John Wiley & Sons Inc, New York.
[2] Basseville M. 1989. “Distance Measures for Signal Processing and Pattern Recognition”. Signal Processing 18: 349-369.
[3] Bishop C.M. 2006. “Pattern Recognition and Machine Learning”. Springer, New York.
[4] Chu S.M., Tang H., Huang T.S. 2009a. “Locality Preserving Speaker Clustering”. Proceedings of IEEE International Conference on Multimedia and Expo: 494-497. Mexico.
[5] Chu S.M., Tang H., Huang T.S. 2009b. “Fishervoice and Semi-Supervised Speaker Clustering”. International Conference on Acoustics, Speech and Signal Processing: 4089-4092. Taipei.
[6] Davis S.B., Mermelstein P. 1980. “Comparison of Parametric Representation for Monosyllabis Recognition in Continuously Spoken Sentences”. IEEE Trans. Acoustics, Speech and Signal Processing 28: 357-366.
[7] Dempster A., Laird N., Rubin D. 1977. “Maximum Likelihood from Incomplete Data via EM Algorithm”. Journal of Royal Statistical Society 39: 1-38.
[8] Duda R., Hart P., Stork D. 2000. “Pattern Classication”. 2-nd ed., John Wiley & Sons Inc. New York.
[9] Furui S. 1989. “Unsupervised Speaker Adaptation Method Based on Hierarchical Spectral Clustering”. International Conference on Acoustics, Speech and Signal Processing.
[10] Gauvain J.L., Lee C.-H. 1994. “Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains”. IEEE Transactions on Speech and Audio Processing 2.
[11] Hazen T.J. 2000. “A Comparison of Novel Techniques for Rapid Speaker Adaptation”. Speech Communication 31: 15-33.

Uwagi

Opracowanie ze środków MNiSW w ramach umowy 812/P-DUN/2016 na działalność upowszechniającą naukę.

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-9ba2c660-2e09-4a4c-a1a0-4f14828efb74