Modeling and optimization of the feature generator for speaker recognition systems

Majda, E.; Dobrowolski, A. P.

Artykuł - szczegóły

Tytuł artykułu

Modeling and optimization of the feature generator for speaker recognition systems

Autorzy

Majda E. , Dobrowolski A. P.

Wybrane pełne teksty z tego czasopisma

http://pe.org.pl/

Identyfikatory

Warianty tytułu

Modelowanie i optymalizacja generatora cech dla systemu rozpoznawania mówcy

Języki publikacji

Abstrakty

This paper presents issues related to modeling and optimization of the feature generator for the speaker recognition system (ASR – Automatic Speakers Recognition). The parameterization stage of generating a speech signal (features generation) is fundamental in this type of system because the unique vector of features is crucial in the process of speech recognition. The task is to describe the speech signal using as few descriptors as possible without loss of relevant information for speaker recognition. In addition, the parameterization should be robust to acoustic and technical registration conditions and to the recorded linguistic material. The research presented in this paper focused primarily on the multicriteria optimization of selected parameters of the feature generator based on cepstral analysis that additionally enables the selection of features. Finally, the evaluation of the results was based on the analysis of the main components of a set of descriptors for the samples of voice acquired from 24 speakers.

W referacie przedstawiono zagadnienia związane z modelowaniem i optymalizacją generatora cech dla systemu automatycznego rozpoznawania mówcy (ang. Automatic Speaker Recognition – ASR). Etap generacji cech (parametryzacji sygnału mowy) jest fundamentalny w tego typu systemach, z uwagi na fakt, że unikatowy wektor cech ma decydujące znaczenie w procesie rozpoznawania. Zadaniem generatora cech jest opisanie sygnału mowy za pomocą możliwie mało licznego zbioru deskryptorów, bez utraty informacji istotnych z punktu widzenia rozpoznawania mówcy. Ponadto parametryzacja powinna wykazywać odporność na warunki akustyczne i techniczne rejestracji oraz na zawartość lingwistyczną rejestrowanego materiału. Badania przedstawione w referacie koncentrowały się przede wszystkim na wielokryterialnej optymalizacji wybranych parametrów generatora cech opartego na analizie cepstralnej, uwzgledniającej dodatkowo selekcję cech. Oceny otrzymanych wyników dokonano w oparciu o analizę składników głównych (ang. Principal Component Analysis – PCA) zbioru deskryptorów wyznaczonych dla próbek głosu pochodzących od 24 mówców.

Słowa kluczowe

automatic speaker recognition feature extraction features selection principal component analysis

rozpoznawanie mówcy automatyczne ekstrakcja cech selekcja cech analiza składników głównych

Wydawca

Wydawnictwo SIGMA-NOT

Czasopismo

Przegląd Elektrotechniczny

Rocznik

2012

Tom

R. 88, nr 12a

Strony

131--136

Opis fizyczny

Bibliogr. 5 poz., rys.

Twórcy

autor

Majda E.

autor

Dobrowolski A. P.

Military University of Technology, Faculty of Electronics, Institute of Electronic System, 2 Kaliskiego street, 00-908 Warsaw, Ewelina.Majda@wat.edu.pl

Bibliografia

[1] S. Furui, “Recent advantages in speaker recognition,” Pattern Recognition Letters 18, pp. 1859-1872, 1997.
[2] T. Kinnunen, H. Li, “ An overview of text-independent speaker recognition: From feature to supervectors”, Speech Communication, pp. 12-40, 2010.
[3] A. Dobrowolski, E. Majda, “Cepstral analysis in the speakers recognition systems,” 15th IEEE SPA Conference, Poznan, Poland, pp. 85-90, 2011.
[4] A. P. Dobrowolski, E. Majda, “Application of homomorphic methods of speech signal processing in speakers recognition system”, Electrical Review, pp. 12-16, 2012.
[5] M. Kruk, S. Osowski, R. Koktysz, “Recognition of Colon Cells Using Ensemble of Classifiers”, International Conference on Neural networks, Orlando, Florida, USA, 2007, pp. 288 - 293.

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-article-BPS1-0050-0052