Selekcja cech osobniczych sygnału mowy z wykorzystaniem algorytmów genetycznych

Kamiński, Kamil; Dobrowolski, Andrzej P.; Majda, Ewelina

Artykuł - szczegóły

Tytuł artykułu

Selekcja cech osobniczych sygnału mowy z wykorzystaniem algorytmów genetycznych

Autorzy

Kamiński Kamil , Dobrowolski Andrzej P. , Majda Ewelina

Treść / Zawartość

Pełne teksty:

Pobierz

Identyfikatory

Warianty tytułu

Języki publikacji

Abstrakty

W referacie przedstawiono system automatycznego rozpoznawania mówcy zaimplementowany w środowisku Matlab oraz pokazano sposoby realizacji i optymalizacji poszczególnych elementów tego systemu. Główny nacisk położono na wyselekcjonowanie cech dystynktywnych głosu mówcy z wykorzystaniem algorytmu genetycznego, który pozwala na uwzględnienie synergii cech podczas selekcji. Pokazano również wyniki optymalizacji wybranych elementów klasyfikatora, m.in. liczby rozkładów Gaussa użytych do zamodelowania każdego z głosów. Ponadto, podczas tworzenia modeli głosów zastosowano model głosu uniwersalnego.

The paper presents automatic speaker recognition system, implemented in the Matlab environment, and demonstrates how to achieve and optimize various elements of the system. The main emphasis was put on features selection of speech signal using a genetic algorithm, which takes into account synergy of features. The results of the selected elements of optimizing classifier have been also shown, including the number of Gaussian distributions used to model each of the voices. In addition during creating voice models, the universal voice model have been used.

Słowa kluczowe

mowa głos system automatycznego rozpoznawania mowy przetwarzanie sygnałów

speech voice speech recognition system signal processing

Wydawca

Centrum Rzeczoznawstwa Budowlanego Sp. z o.o.

Czasopismo

Inżynieria Bezpieczeństwa Obiektów Antropogenicznych

Rocznik

2019

Tom

Nr 1-2

Strony

8--16

Opis fizyczny

Bibliogr. 9 poz., tab., rys., wykr.

Twórcy

autor

Kamiński Kamil

Wojskowa Akademia Techniczna, Warszawa

autor

Dobrowolski Andrzej P.

Wojskowa Akademia Techniczna, Warszawa

autor

Majda Ewelina

Wojskowa Akademia Techniczna, Warszawa

Bibliografia

1) Osowski S., Metody i narzędzia eksploracji danych, BTC, Legionowo, 2013.
2) Garofolo J. S. et al., TIMIT Acoustic-Phonetic Continuous Speech Corpus LDC93S1, Linguistic Data Consortium, Philadelphia, 1993.
3) Martin A., Przybocki M., 2002 NIST Speaker Recognition Evaluation LDC2004S04, Linguistic Data Consortium, Philadelphia, 2004.
4) Brookes M., VOICEBOX: Speech Processing Toolbox for MATLAB, http://www.ee.ic.ac.uk/np/staff/dmb/voicebox/voicebox.html, 2002.
5) Kamiński K., Majda E., Dobrowolski A. P., Automatic speaker recognition using Gaussian Mixture Models, 17th IEEE SPA Conference, 2013, s. 220-225.
6) Dobrowolski A. P., Majda E., Cepstral analysis in the speakers recognition systems, 15th IEEE SPA Conference, 2011, s. 85-90.
7) Ludwig O., Nunes U., Novel Maximum-Margin Training Algorithms for Supervised Neural Networks, IEEE Transactions on Neural Networks, tom 21, nr 6, s. 972-984, 2010.
8) Reynolds, D. A., Quatieri, T. F., Dunn, R. B., Speaker Verification Using Adapted Gaussian Mixture Models, Digital Signal Processing, nr 10, s. 19-41, 2000.
9) Goldberg D. E., Algorytmy genetyczne i ich zastosowanie, WNT, Warszawa, 2003

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-daa88375-76c7-425e-9dab-2ce2305532e0