Zastosowanie transformaty falkowej do synchronicznej analizy sygnału mowy w systemach rozpoznawania głosu

Materka, A.; Al-Rawi, M.

Artykuł - szczegóły

Tytuł artykułu

Zastosowanie transformaty falkowej do synchronicznej analizy sygnału mowy w systemach rozpoznawania głosu

Autorzy

Materka A. , Al-Rawi M.

Identyfikatory

Warianty tytułu

Application of wavelet transform for pitch-synchronous analysis of speech signals in speaker recognition systems

Języki publikacji

Abstrakty

W artykule opisano próbę zbadania przydatności transformaty falkowej do wyznaczania cech sygnału mowy w systemach rozpoznawania głosu. Transformatę tę użyto do detekcji segmentów dźwięcznych sygnału i chwil pobudzenia głośni impulsami generowanymi przez fałdy głosowe, a także do wyznaczania cech sygnału. Odstępy czasu pomiędzy poszczególnymi pobudzeniami znormalizowano uzyskując po zastosowaniu transformaty falkowej obrazy o ustalonych rozmiarach w dziedzinie czas-współczynnik skali. Dla ustalonej głoski i testowanej populacji mówców, obrazy takie poddawano analizie składowych głównych (PCA) w celu redukcji danych. Otrzymane cechy służą do uczenia klasyfikatora neuronowego do rozpoznawania głosu. W odróżnieniu od metod liniowej predykcji, która odwzorowuje w zasadzie tylko właściwości traktu głosowego, proponowana metoda uwzględnia w procesie rozpoznawania mówców także osobnicze właściwości sygnału pobudzenia krtaniowego, dając możliwość poprawy skuteczności rozpoznawania. Przeprowadzono eksperymenty uczenia i testowania klasyfikatora przy użyciu sygnałów z bazy danych CSLU i stwierdzono, dla wybranych głosek dźwięcznych, bardzo małe błędy klasyfikacji - mniejsze od uzyskanych przy użyciu współczynników cepstralnych, uznawanych za najbardziej odpowiednie cechy sygnału mowy w dyskutowanym zastosowaniu.

This paper describes an effort to investigate the usefulness of wavelet transform as a feature-extraction tool for speaker recognition systems. The transform has been used for detection of voiced portions of speech signal and location of time moments in which the vocal tract is excited by acoustic pressure pulses generated by vocal folds, as well as for feature extraction. The time periods between consecutive pulses were normalized such that the wavelet transform produced fixed-size 2D images in time-scale space. For every selected voiced phoneme and speaker population tested, the principal component analysis was applied to the images for data compression. The features thus obtained were used for training of an artificial neural network classifier applied for speaker recognition. Unlike the standard linear prediction coding which takes into account the vocal tract properties only, the proposed method of feature extraction takes account of the individual properties of the excitation signal, which potentially leads to superior performance of speaker recognition system. Experiments were carried out using pre-segmented speech signals from the CSLU database. They showed, for selected voiced phonemes, very small misclassification errors - smaller than those obtainable from a system using cepstral coefficients that are believed as most appropriate ones in the application discussed.

Słowa kluczowe

transformata falkowa rozpoznawanie mowy baza CSLU sygnał mowy

wavelet transform speaker recognition CSLU database speech signals

Wydawca

Politechnika Łódzka, Instytut Elektroniki

Czasopismo

Elektronika : prace naukowe

Rocznik

2000

Tom

nr 5

Strony

80--96

Opis fizyczny

Bibliogr. 23 poz.

Twórcy

autor

Materka A.

autor

Al-Rawi M.

Institute of Electronics, Technical University of Łódź, materka@ck-sg.p.lodz.pl

Bibliografia

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-article-LOD1-0023-0022