PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Zastosowanie transformaty falkowej do synchronicznej analizy sygnału mowy w systemach rozpoznawania głosu

Identyfikatory
Warianty tytułu
EN
Application of wavelet transform for pitch-synchronous analysis of speech signals in speaker recognition systems
Języki publikacji
PL
Abstrakty
PL
W artykule opisano próbę zbadania przydatności transformaty falkowej do wyznaczania cech sygnału mowy w systemach rozpoznawania głosu. Transformatę tę użyto do detekcji segmentów dźwięcznych sygnału i chwil pobudzenia głośni impulsami generowanymi przez fałdy głosowe, a także do wyznaczania cech sygnału. Odstępy czasu pomiędzy poszczególnymi pobudzeniami znormalizowano uzyskując po zastosowaniu transformaty falkowej obrazy o ustalonych rozmiarach w dziedzinie czas-współczynnik skali. Dla ustalonej głoski i testowanej populacji mówców, obrazy takie poddawano analizie składowych głównych (PCA) w celu redukcji danych. Otrzymane cechy służą do uczenia klasyfikatora neuronowego do rozpoznawania głosu. W odróżnieniu od metod liniowej predykcji, która odwzorowuje w zasadzie tylko właściwości traktu głosowego, proponowana metoda uwzględnia w procesie rozpoznawania mówców także osobnicze właściwości sygnału pobudzenia krtaniowego, dając możliwość poprawy skuteczności rozpoznawania. Przeprowadzono eksperymenty uczenia i testowania klasyfikatora przy użyciu sygnałów z bazy danych CSLU i stwierdzono, dla wybranych głosek dźwięcznych, bardzo małe błędy klasyfikacji - mniejsze od uzyskanych przy użyciu współczynników cepstralnych, uznawanych za najbardziej odpowiednie cechy sygnału mowy w dyskutowanym zastosowaniu.
EN
This paper describes an effort to investigate the usefulness of wavelet transform as a feature-extraction tool for speaker recognition systems. The transform has been used for detection of voiced portions of speech signal and location of time moments in which the vocal tract is excited by acoustic pressure pulses generated by vocal folds, as well as for feature extraction. The time periods between consecutive pulses were normalized such that the wavelet transform produced fixed-size 2D images in time-scale space. For every selected voiced phoneme and speaker population tested, the principal component analysis was applied to the images for data compression. The features thus obtained were used for training of an artificial neural network classifier applied for speaker recognition. Unlike the standard linear prediction coding which takes into account the vocal tract properties only, the proposed method of feature extraction takes account of the individual properties of the excitation signal, which potentially leads to superior performance of speaker recognition system. Experiments were carried out using pre-segmented speech signals from the CSLU database. They showed, for selected voiced phonemes, very small misclassification errors - smaller than those obtainable from a system using cepstral coefficients that are believed as most appropriate ones in the application discussed.
Rocznik
Tom
Strony
80--96
Opis fizyczny
Bibliogr. 23 poz.
Twórcy
autor
autor
Bibliografia
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-LOD1-0023-0022
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.