In this paper, text-independent speaker recognition method based on Wavelet Transform and melcepstrum is presented. The results of experiments point the best parameters of Wavelet Transform for speaker identification, and can be useful for design speaker identification systems. This kind method of person identification is useful in services such as banking by telephone, access authorization to resources and for forensic purpose.
W artykule przedstawiono zaprojektowany w środowisku Matlab interfejsu użytkownika, służący do badania wpływu szumów i zakłóceń na skuteczność automatycznego systemu rozpoznawania mówcy.
The article presents the user interface, designed in the Matlab environment, used to study the impact of noise and interference on the effectiveness of the automatic speaker recognition system.
The purpose of this work is to explain the theoretical issues and implementational techniques related to the fascinating field of speech recognition. The topic of discussion are focused on some of the well-established and widely used speech coding standards, required to speech recognition and speaker identification. By studying the most successful standards and understanding their principles, performance and limitations, it is possible to apply a particular technique to a given situation according to the underlying constraints - with the ultimate goal being the development of next-generation algorithms, with improvements in all aspects. This document contains own created methods to determine the beginning and end of isolated words in audio speech. To extraction of the audio features of person's speech, in this work it was applied the mechanism of cepstral speech analysis. Finally, the paper will show results of speech coding.
In this paper results of experiments with the prototype speaker recognition system based on Gaussian mixture model (GMM) and mel-cepstral coefficients (MFCCs) are presented for Polish Corpora database [4]. The minimum amount of data to train a reliable model and the minimum length of a signal to recognize speakers have been determined. Furthermore, the speaker discriminative properties of Polish phonemes have been investigated. The phonemes with the best speaker discriminative properties have been determined.
Przedstawiono eksperymenty identyfikacji mówcy za pomocą prototypowego systemu rozpoznawania mowy na podstawie sumy rozkładów normalnych (GMM) i współczynników mel-cepstralnych, (MFCC), uzyskanych z wykorzystaniem polskojęzycznej bazy Corpora [4]. W eksperymentach zbadano minimalną ilość danych potrzebnych do wytrenowania wiarygodnego modelu oraz długość sygnału wymaganą do poprawnej klasyfikacji. Ponadto przebadano dyskryminacyjne właściwości polskich fonemów do identyfikacji mówcy. Wyodrębniono fonemy, które w największym stopniu przyczyniają się do poprawnego rozpoznawania.
W artykule omówiono problemy związane z identyfikacją mówcy i przedstawiono propozycję procedury ułatwiającej proces identyfikacji w części akustycznej. Koncepcja opiera się na metodach programowania dynamicznego, a w szczególności algorytmu znanego jako DTW (dynamic time warping). Przeprowadzone zostały testy wskazujące na przydatność proponowanej procedury przy próbie ustalenia, które samogłoski oraz formanty pozwalają dostatecznie zróżnicować mówców, dostatecznie indywidualizując każdego z nich.
The paper discusses issues concerning forensic speaker identification and proposes a procedure simplifying the process of speaker identification in the acoustic scope. The idea revolves around methods of dynamic programming, especially the DTW (dynamic time warping) algorithm described further in the paper. Tests which were carried out demonstrated the usefulness of the suggested procedure when trying to determine which vowels and formants are the best differentiating and characterizing a speaker.
