Wyniki wyszukiwania - BazTech

1

Ocena funkcjonalności systemu rozpoznawania mówcy dla zdegradowanej jakości sygnału głosowego

Kamiński K., Dobrowolski A.P., Majda E.

Przegląd Elektrotechniczny

|

2014

|

R. 90, nr 8

164-167

PL

W artykule przedstawiono wyniki badań automatycznego systemu rozpoznawania mówcy (ASR – ang. Automatic Speaker Recognition), przeprowadzonych na podstawie komercyjnej bazy głosów TIMIT. Badania prowadzone były pod kątem zastosowania ASR jako systemu automatycznego rozpoznawania rozmówcy telefonicznego. Przedstawiono również wpływ liczebności bazy głosów oraz stopień oddziaływania kompresji stratnej MP3 na skuteczność rozpoznawania mówcy.

EN

The article presents the results of tests of an automatic speaker recognition system (ASR) conducted on the basis of the TIMIT commercial voice database. The research was conducted with the aim of using ASR as a system for automatic recognition of telephone callers. The impact of the number of voices in the database and the effect of lossy MP3 compression on the effectiveness of speaker recognition has also been shown.

2

Projekt systemu automatycznego rozpoznawania mówcy w oparciu o techniki homomorficzne

Majda E., Dobrowolski A. P.

Elektronika : konstrukcje, technologie, zastosowania

|

2013

|

Vol. 54, nr 3

41-44

PL

W referacie przedstawiono zagadnienia związane z opracowaniem systemu automatycznego rozpoznawania mówcy. Autorzy skupili się na wykorzystaniu metod przetwarzania sygnału mowy uwzględniając zjawiska związane z procesem generacji sygnału mowy uwzględniając zjawiska związane z procesem generacji sygnału mowy, co w konsekwencji wiązało się z wykorzystaniem tzw. technik homomorficznych. W zaprojektowanym systemie kluczowe znaczenie ma zarówno proces ekstrakcji cech osobniczych, jak i towarzyszący mu proces klasyfikacji. Badania przedstawione w referacie skupiały się więc w pierwszym etapie na opracowaniu generatora cech opartego na fuzji cech cepstralnych i melcepstralnych oraz odpowiedniej selekcji deskryptorów. W drugim etapie autorzy dokonali optymalizacji parametrów generatora z uwzględnieniem docelowej metody klasyfikacji. Oceny otrzymanych wyników dokonano w oparciu o zbiór 500 próbek głosu od 50 mówców (po 10 próbek od każdego mówcy) i otrzymano 489 poprawnych klasyfikacji, co daje błąd klasyfikacji na poziomie 2,2%.

EN

The paper examines issues related to the determination of automatic speaker recognition systems. The authors focus on the use of speech signal processing methods that consider the phenomena connected with the speech generation process, which in turn connected to using a homomorphic processing methods. In a designed system crucial issue have both the extraction process of individual characteristics and classification process. The research presented in this paper focused primarily in the first stage on determination of features distinctive to sound generators using a fusion of cepstral and mel-cepstral information and also considers the feature selection. In the second stage optimization of the generator parameters taking account of suitable classification methods has been done by the authors. Finally, the evaluation of the results was based on the set of 500 samples of the acoustic signal from the 50 speakers (10 samples for each speaker) and 489 correct classification, which gives clasification error on 2,2% level.

3

Modeling and optimization of the feature generator for speaker recognition systems

Majda E., Dobrowolski A. P.

Przegląd Elektrotechniczny

|

2012

|

R. 88, nr 12a

131-136

EN

This paper presents issues related to modeling and optimization of the feature generator for the speaker recognition system (ASR – Automatic Speakers Recognition). The parameterization stage of generating a speech signal (features generation) is fundamental in this type of system because the unique vector of features is crucial in the process of speech recognition. The task is to describe the speech signal using as few descriptors as possible without loss of relevant information for speaker recognition. In addition, the parameterization should be robust to acoustic and technical registration conditions and to the recorded linguistic material. The research presented in this paper focused primarily on the multicriteria optimization of selected parameters of the feature generator based on cepstral analysis that additionally enables the selection of features. Finally, the evaluation of the results was based on the analysis of the main components of a set of descriptors for the samples of voice acquired from 24 speakers.

PL

W referacie przedstawiono zagadnienia związane z modelowaniem i optymalizacją generatora cech dla systemu automatycznego rozpoznawania mówcy (ang. Automatic Speaker Recognition – ASR). Etap generacji cech (parametryzacji sygnału mowy) jest fundamentalny w tego typu systemach, z uwagi na fakt, że unikatowy wektor cech ma decydujące znaczenie w procesie rozpoznawania. Zadaniem generatora cech jest opisanie sygnału mowy za pomocą możliwie mało licznego zbioru deskryptorów, bez utraty informacji istotnych z punktu widzenia rozpoznawania mówcy. Ponadto parametryzacja powinna wykazywać odporność na warunki akustyczne i techniczne rejestracji oraz na zawartość lingwistyczną rejestrowanego materiału. Badania przedstawione w referacie koncentrowały się przede wszystkim na wielokryterialnej optymalizacji wybranych parametrów generatora cech opartego na analizie cepstralnej, uwzgledniającej dodatkowo selekcję cech. Oceny otrzymanych wyników dokonano w oparciu o analizę składników głównych (ang. Principal Component Analysis – PCA) zbioru deskryptorów wyznaczonych dla próbek głosu pochodzących od 24 mówców.

4

Application of homomorphic methods of speech signal processing in speakers recognition system

Dobrowolski A.P., Majda E.

Przegląd Elektrotechniczny

|

2012

|

R. 88, nr 6

12-16

EN

The paper presents the problem of automatic speaker recognition system. Automatic recognition of speaker is a process designed to determine, whether a particular statement belongs to the speaker. The speech signal is a carrier of both physiological and behavioral features. No two individuals sound identical, because their vocal tract shapes, larynx sizes, and other parts of their voice production organs are different. This paper contains a description of the speech signal analysis algorithms, designed based on normalized real cepstrum. The authors have attempted to select the optimal set of parameters describing the speaker. The study has primarily focused on assessing applicability of the cepstral analysis of speech signal. In addition results of experiments are presented using a PCA method.

PL

W prezentowanym referacie poruszono problematykę systemu rozpoznawania mówcy. Automatyczne rozpoznawanie mówcy jest procesem mającym na celu określenie, czy dana wypowiedź należy do określonego mówcy. Sygnał mowy jest nośnikiem zarówno cech fizjologicznych, jak i behawioralnych. Nie ma dwóch identycznie brzmiących osób, ze względu na fakt występujących różnic w budowie krtani, głośni, traktu wokalnego oraz innych organów artykulacyjnych u każdego człowieka. Praca zawiera opis algorytmów analizy sygnału mowy opracowanych w oparciu o rzeczywiste cepstrum. Dzięki tej technice multiplikatywny związek pobudzenia i traktu głosowego zastąpiony zostaje związkiem addytywnym, co znacznie upraszcza separację obu składników. Autorzy podjęli się próby wyboru optymalnego zestawu cech charakteryzujących danego mówcę. Badania koncentrowały się przede wszystkim na ocenie użyteczności analizy cepstralnej sygnału mowy. Dodatkowo uzyskane wyniki eksperymentów przedstawiono przy pomocy metody PCA.

5

Modelowanie i optymalizacja generatora cech dla systemu rozpoznawania mówcy

Majda E., Dobrowolski A. P., Smólski B. L.

Biuletyn Wojskowej Akademii Technicznej

|

2012

|

Vol. 61, nr 4

153-168

PL

W pracy przedstawiono zagadnienia związane z modelowaniem i optymalizacją generatora cech dla systemu automatycznego rozpoznawania mówcy (ang. Automatic Speaker Recognition - ASR). Etap generacji cech (parametryzacji sygnału mowy) jest fundamentalny w tego typu systemach, z uwagi na fakt, że unikatowy wektor cech ma decydujące znaczenie w procesie rozpoznawania. Zadaniem generatora cech jest opisanie sygnału mowy za pomocą możliwie mało licznego zbioru deskryptorów, bez utraty informacji istotnych z punktu widzenia rozpoznawania mówcy. Ponadto parametryzacja powinna wykazywać odporność na warunki akustyczne i techniczne rejestracji oraz na zawartość lingwistyczną rejestrowanego materiału. Badania przedstawione w referacie koncentrowały się przede wszystkim na wielokryterialnej optymalizacji wybranych parametrów generatora cech opartego na analizie cepstralnej, uwzględniającej dodatkowo selekcję cech. Oceny otrzymanych wyników dokonano w oparciu o analizę składników głównych (ang. Principal Component Analysis - PCA) zbioru deskryptorów wyznaczonych dla próbek głosu pochodzących od 24 mówców.

EN

The paper presents issues related to modeling and optimization of the features generator for the speaker recognition system (ASR - Automatic Speakers Recognition). Parameterization's stage of the speech signal (features generation) is fundamental in this type of systems, due to the fact that the unique vector of features is crucial in the process of recognition. The task is to describe the speech signal using descriptors as little as possible, without loss of relevant information to the speaker recognition. In addition, parametrization should have robust to acoustic and technical registration conditions and the recorded linguistic material. The research presented in this paper is focused primarily on the multicriteria optimization of selected parameters of the features generator based on cepstral analysis, additionally allowing features selection. Finally, evaluation of the results was based on the analysis of main components, a set of descriptors for the samples voice acquired from 24 speakers.

6

Ocena przydatności wybranych cech sygnału mowy w systemach automatycznego rozpoznawania mówcy

Dobrowolski A. P., Majda E.

Przegląd Elektrotechniczny

|

2011

|

R. 87, nr 10

193-197

PL

W prezentowanym referacie przedstawiono problematykę systemów automatycznego rozpoznawania mówców (ASR – ang. Automatic Speakers Recognition) wraz z ich szczegółową klasyfikacją. Ze względu na to, że etap ekstrakcji cech ma decydujące znaczenie przy ocenie skuteczności systemów niezależnych od tekstu, dokonano przeglądu wybranych cech sygnału mowy istotnych z punktu widzenia ich przydatności w zadaniach automatycznego rozpoznawania mówców. Ponadto w referacie zaprezentowano przykładowe widma dźwięcznej głoski „ i” oraz dokonano oceny użyteczności reprezentacji częstotliwościowej sygnału mowy w automatycznych systemach rozpoznawania mówcy.

EN

The paper presents the problem of automatic speakers recognition (ASR) systems together with their detailed classification. Due to the fact, that the stage of feature extraction is crucial in assessing the effectiveness of text-independent systems, it was reviewed of selected characteristics of the speech signal relevant to their suitability to the tasks of automatic speaker recognition. In addition, the paper presents examples of the spectrums of resonant vowel "i", and assesses the usefulness of the spectral representation of a speech signal for ASR systems.

7

Analiza cepstralna w systemach rozpoznawania mówców

Dobrowolski A., Majda E.

Logistyka

|

2011

|

nr 6

PL

W prezentowanym referacie poruszono problematykę systemu rozpoznawania mówcy (ASR – ang. Automatic Speakers Recognition). Sygnał mowy w postaci pierwotnej charakteryzuje się dużą nadmiarowością, dlatego konieczna jest ekstrakcja specyficznych cech sygnału, za pomocą których możliwy będzie efektywny opis właściwości sygnał, ważnych z punktu widzenia rozpoznawania mówcy. Z tego względu parametryzacja sygnału w procesie rozpoznawania jest niezwykle istotna. Autorzy podjęli się próby wyboru optymalnego (najbardziej dyskryminującego) zestawu parametrów opisujących sygnału w oparciu o metody przetwarzania homomorficznego. Badania koncentrowały się przede wszystkim na ocenie użyteczności analizy cepstralnej sygnału mowy w systemach rozpoznawania na podstawie pozyskanych w postaci cyfrowej próbek głosu.

EN

The present paper addresses issues related to the speaker recognition system (ASR – Automatic Speakers Recognition). In its primary form, a speech signal is characterized by a high redundancy, so it is necessary to extract the specific features of the signal that would allow to efficiently describing the properties thereof that are important from the viewpoint of speaker recognition. Therefore, parameterization of the signal in the process of recognition is extremely important. The authors have attempted to select the optimal (most discriminating) set of parameters describing the signal by using a homomorphic processing method. The study has primarily focused on assessing applicability of the cepstral analysis in speakers recognition systems based on the acquired digitized voice samples.

8

Badania układu nadawczego łącza optoelektronicznego drugiej generacji

Mikołajczyk J., Majda E.

Spektrum

|

2008

|

nr 6-7

XVIII-XX

PL

Przedstawiono wyniki badań dotyczące dwóch układów nadawczych łącza optoelektronicznego wykorzystujących laser kaskadowy QCL firmy Alpes Laser oraz laser firmy Cascade Technologies. Układy nadawcze wykorzystywane w badaniu eksperymentalnym składają się z interfejsu, układu zasilania i sterowania laserem oraz układu optycznego. Przeprowadzone doświadczenia miały na celu dokonanie oceny przydatności analizowanych laserów QCL w łączu optoelektronicznym. Przeprowadzono również porównania właściwości rozpatrywanych systemów laserowych i określenia najkorzystniejszego układu do budowy mobilnego łącza, które będzie się charakteryzować zasięgiem min. 1 km.

EN

Presented are results of tests concerning two optoelectronic link transmission systems using produced by Alpes Laser QCL cascade laser and a laser produced by Cascade Technologies. Transmission systems used for the experiment test consist of interface and supply, laser control and optical systems. The experiments had in view assessment of the analysed QCL lasers usefulness in an optoelectronic link. Compared are the discussed laser systems’ features and specified is the most advantageous system for building a mobile link which will have a range of min. 1 km.