Wyniki wyszukiwania - BazTech

1

Poprawa obiektywnych wskaźników jakości mowy w warunkach hałasu

Kąkol K., Kostek B.

Zeszyty Naukowe Wydziału Elektrotechniki i Automatyki Politechniki Gdańskiej

|

2018

|

Nr 60

45--50

PL

Celem pracy jest modyfikacja sygnału mowy, aby uzyskać zwiększenie poprawy obiektywnych wskaźników jakości mowy po zmiksowaniu sygnału użytecznego z szumem bądź z sygnałem zakłócającym. Wykonane modyfikacje sygnału bazują na cechach mowy lombardzkiej, a w szczególności na efekcie podniesienia częstotliwości podstawowej F0. Sesja nagraniowa obejmowała zestawy słów i zdań w języku polskim, nagrane w warunkach ciszy, jak również w obecności sygnałów zakłócających, tj. szumu różowego oraz tzw. gwaru (ang. babble speech), określanego też jako efekt „cocktail-party”. W ramach badań przetwarzano próbki mowy głosów męskich. W pracy wykazano, że podniesienie częstotliwości podstawowej skutkuje zwiększonymi wartościami wskaźnika jakości mowy, mierzonymi przy użyciu standardu PESQ (Perceptual Evaluation of Speech Quality).

EN

The aim of the work is to modify the speech signal in order to improve objective speech quality indicators after mixing the useful signal with noise or with an interfering signal. Modifications made to the signal are based on the characteristics of the Lombard speech, and in particular on the effect of raising the fundamental frequency F0. The recording session included sets of words and sentences in Polish, recorded in silence, as well as in the presence of interfering signals, i.e. pink noise and so-called babble speech, also referred to as the "cocktail-party" effect. As a part of the research, speech samples were processed - both sentences and words spoken by men. The study shows that raising the fundamental frequency results in increased values of the speech quality index, measured using the PESQ (Perceptual Evaluation of Speech Quality) standard.

2

Implementacja systemu identyfikacji słów izolowanych przy zastosowaniu Modeli Mikstur Gaussowskich

Kamiński K.

Zeszyty Naukowe Wydziału ETI Politechniki Gdańskiej. Technologie Informacyjne

|

2012

|

T. 20

111--119

PL

W referacie przedstawiony został sposób działania systemu identyfikacji słów izolowanych, który w etapie klasyfikacji wykorzystuje Modele Mikstur Gaussowskich. Referat zawiera również wyniki testów skuteczności omawianego systemu w rozpoznawaniu cyfr. System został zaimplementowany w środowisku Matlab. Kolejnym etapem pracy autora będzie implementacja powyższego systemu na zestawie uruchomieniowym DSK 6713.

EN

The paper presents a method of identifying isolated words, which uses at the classification stage Gaussian Mixture Models. The paper also concerns test results of effectiveness of the discussed system in numbers recognition. The system was implemented in Matlab environment. The next stage of developer work is to implement the aforementioned system on a runtime set DSK 6713.

3

Możliwości zastosowania sygnałów mowy w energetyce

Dulas J.

Zeszyty Naukowe. Elektryka / Politechnika Opolska

|

2002

|

Vol. 280, z. 51

195-200

PL

Niniejszy artykuł przedstawia możliwości zastosowań urządzeń sterowanych ludzkim głosem. Ukazane są problemy związane z automatyzacją rozpoznawania sygnałów mowy, oraz nowatorska metoda rozpoznawania- obecnie testowana na Wydziale Elektrotechniki i Automatyki Politechniki Opolskiej. W artykule omówiono również podstawowe właściwości najmniejszych jednostek fonetycznych - fonemów. Przedstawiono również wymagania, jakim musi sprostać system identyfikacji sygnalów mowy. W końcowej części artykułu zaprezentowano najnowsze wyniki badań. Pozwalają one sądzić, iż przedstawiona metoda może zostać wykorzystana w energetyce czyniąc ludzką pracę bardziej bezpieczną.

EN

The paper presents abilities of using devices controlled by the human voice. The problems showed in the article are connected with automation of voice recognition and the innovative method of recognition which is currently being tested at the Faculty of Electrical Engineering and Automatic Control in the Technical University of Opole. This work discusses also requirements which must be met by the voice recognition system. They lead to the conclusion that the power engineering can make use of the presented method, making human work more safe.

4

Zastosowanie transformaty falkowej do synchronicznej analizy sygnału mowy w systemach rozpoznawania głosu

Materka A., Al-Rawi M.

Elektronika : prace naukowe

|

2000

|

nr 5

80-96

PL

W artykule opisano próbę zbadania przydatności transformaty falkowej do wyznaczania cech sygnału mowy w systemach rozpoznawania głosu. Transformatę tę użyto do detekcji segmentów dźwięcznych sygnału i chwil pobudzenia głośni impulsami generowanymi przez fałdy głosowe, a także do wyznaczania cech sygnału. Odstępy czasu pomiędzy poszczególnymi pobudzeniami znormalizowano uzyskując po zastosowaniu transformaty falkowej obrazy o ustalonych rozmiarach w dziedzinie czas-współczynnik skali. Dla ustalonej głoski i testowanej populacji mówców, obrazy takie poddawano analizie składowych głównych (PCA) w celu redukcji danych. Otrzymane cechy służą do uczenia klasyfikatora neuronowego do rozpoznawania głosu. W odróżnieniu od metod liniowej predykcji, która odwzorowuje w zasadzie tylko właściwości traktu głosowego, proponowana metoda uwzględnia w procesie rozpoznawania mówców także osobnicze właściwości sygnału pobudzenia krtaniowego, dając możliwość poprawy skuteczności rozpoznawania. Przeprowadzono eksperymenty uczenia i testowania klasyfikatora przy użyciu sygnałów z bazy danych CSLU i stwierdzono, dla wybranych głosek dźwięcznych, bardzo małe błędy klasyfikacji - mniejsze od uzyskanych przy użyciu współczynników cepstralnych, uznawanych za najbardziej odpowiednie cechy sygnału mowy w dyskutowanym zastosowaniu.

EN

This paper describes an effort to investigate the usefulness of wavelet transform as a feature-extraction tool for speaker recognition systems. The transform has been used for detection of voiced portions of speech signal and location of time moments in which the vocal tract is excited by acoustic pressure pulses generated by vocal folds, as well as for feature extraction. The time periods between consecutive pulses were normalized such that the wavelet transform produced fixed-size 2D images in time-scale space. For every selected voiced phoneme and speaker population tested, the principal component analysis was applied to the images for data compression. The features thus obtained were used for training of an artificial neural network classifier applied for speaker recognition. Unlike the standard linear prediction coding which takes into account the vocal tract properties only, the proposed method of feature extraction takes account of the individual properties of the excitation signal, which potentially leads to superior performance of speaker recognition system. Experiments were carried out using pre-segmented speech signals from the CSLU database. They showed, for selected voiced phonemes, very small misclassification errors - smaller than those obtainable from a system using cepstral coefficients that are believed as most appropriate ones in the application discussed.