Wyniki wyszukiwania - BazTech

1

Behavioral features of the speech signal as part of improving the effectiveness of the automatic speaker recognition system

Mały Dominik, Dobrowolski Andrzej

Inżynieria Bezpieczeństwa Obiektów Antropogenicznych

|

2023

|

Nr 4

26--34

EN

The current reality is saturated with intelligent telecommunications solutions, and automatic speaker recognition systems are an integral part of many of them. They are widely used in sectors such as banking, telecommunications and forensics. The ease of performing automatic analysis and efficient extraction of the distinctive characteristics of the human voice makes it possible to identify, verify, as well as authorize the speaker under investigation. Currently, the vast majority of solutions in the field of speaker recognition systems are based on the distinctive features resulting from the structure of the speaker's vocal tract (laryngeal sound analysis), called physical features of the voice. Despite the high efficiency of such systems - oscillating at more than 95% - their further development is already very difficult, due to the fact that the possibilities of distinctive physical features have been exhausted. Further opportunities to increase the effectiveness of ASR systems based on physical features appear after additional consideration of the behavioral features of the speech signal in the system, which is the subject of this article.

2

Selekcja cech osobniczych sygnału mowy z wykorzystaniem algorytmów genetycznych

Kamiński K., Dobrowolski A. P., Majda-Zdancewicz E.

Biuletyn Wojskowej Akademii Technicznej

|

2016

|

Vol. 65, nr 1

147--158

PL

W artykule przedstawiono system automatycznego rozpoznawania mówcy zaimplementowany w środowisku Matlab oraz pokazano sposoby realizacji i optymalizacji poszczególnych elementów tego systemu. Główny nacisk położono na wyselekcjonowanie cech dystynktywnych głosu mówcy z wykorzystaniem algorytmu genetycznego, który pozwala na uwzględnienie synergii cech podczas selekcji. Pokazano również wyniki optymalizacji wybranych elementów klasyfikatora, m.in. liczby rozkładów Gaussa użytych do zamodelowania każdego z głosów. Ponadto, podczas tworzenia modeli poszczególnych głosów zastosowano uniwersalny model głosów.

EN

The paper presents an automatic speaker’s recognition system, implemented in the Matlab environment, and demonstrates how to achieve and optimize various elements of the system. The main emphasis was put on features selection of a speech signal using a genetic algorithm which takes into account synergy of features. The results of optimization of selected elements of a classifier have been also shown, including the number of Gaussian distributions used to model each of the voices. In addition, for creating voice models, a universal voice model has been used.

3

Text Independent Automatic Speaker Recognition System using fusion of features

Majda-Zdancewicz E., Dobrowolski A. P.

Przegląd Elektrotechniczny

|

2015

|

R. 91, nr 10

247-251

EN

This paper presents a speaker recognition system, which is independent of the linguistic context. The solved task includes: the preprocessing stage, the segmentation of speech signal leading to the extraction of features based on three techniques, selection of the most important features, and the classification stage involving a serial combination of classifiers. Sets of descriptors were obtained using three techniques: cepstral coefficients, mel-cepstral coefficients and original weighted cepstral coefficients. Optimal robust “Voice Print” has been determined using fisher coefficients and PCA analysis. Experiments on the 2002 NIST Speaker Recognition Evaluation corpus show that the proposed system is able to recognise the speaker, regardless on the speech content, even language content with great accuracy.

PL

W pracy przedstawiono system rozpoznawania mówcy niezależny od tekstu wypowiedzi. Rozwiązane problemy obejmują: etap przetwarzania wstępnego, segmentację sygnału mowy prowadzącą do etapu ekstrakcji cech bazującej na trzech technikach analizy sygnału mowy, selekcję najbardziej istotnych cech oraz etap klasyfikacji obejmujący analizę kaskady klasyfikatorów. Zestaw cech uzyskano przy użyciu trzech technik: cepstrum, mel-cepstrum oraz autorskich ważonych cech cesptralnych. Optymalny wektor cech wyekstrahowano przy użyciu współczynników istotności Fishera oraz analizy PCA. Eksperymenty z wykorzystaniem bazy 2002 NIST Speaker Recognition Evaluation pokazują, że przedstawiony system rozpoznaje mówcę niezależnie od ograniczeń lingwistycznych treści, a nawet języka wypowiedzi, z zadowalającą dokładnością.

4

Optymalizacja systemu automatycznego rozpoznawania mówcy w warunkach zróżnicowanych torów akustycznych

Kamiński K., Dobrowolski A. P., Majda-Zdancewicz E., Posiadała D.

Przegląd Elektrotechniczny

|

2015

|

R. 91, nr 9

89-92

PL

W referacie pokazano sposoby optymalizacji poszczególnych elementów systemu automatycznego rozpoznawania mówcy w warunkach zróżnicowanych torów akustycznych. Dokonano tego za pomocą algorytmu genetycznego poprzez wyselekcjonowanie optymalnego zbioru cech silnie zależnych od głosu mówcy przy jednoczesnej minimalizacji wzajemnej korelacji cech oraz ich wrażliwości na zróżnicowanie toru akustycznego. Przedstawiono również wyniki optymalizacji wybranych elementów klasyfikatora, m.in. liczby rozkładów Gaussa.

EN

This paper presents optimization methods of an automatic speaker recognition system parameters for various acoustic paths. This idea has been performed using the genetic algorithm. The main goal of the proposed algorithm is to select the most important features, minimize correlation between the features and their sensitivity for various acoustic path. Additionally results of classifier optimization (for example number of Gaussian distributions), have been shown.

5

Projekt systemu automatycznego rozpoznawania mówcy w oparciu o techniki homomorficzne

Majda E., Dobrowolski A. P.

Elektronika : konstrukcje, technologie, zastosowania

|

2013

|

Vol. 54, nr 3

41-44

PL

W referacie przedstawiono zagadnienia związane z opracowaniem systemu automatycznego rozpoznawania mówcy. Autorzy skupili się na wykorzystaniu metod przetwarzania sygnału mowy uwzględniając zjawiska związane z procesem generacji sygnału mowy uwzględniając zjawiska związane z procesem generacji sygnału mowy, co w konsekwencji wiązało się z wykorzystaniem tzw. technik homomorficznych. W zaprojektowanym systemie kluczowe znaczenie ma zarówno proces ekstrakcji cech osobniczych, jak i towarzyszący mu proces klasyfikacji. Badania przedstawione w referacie skupiały się więc w pierwszym etapie na opracowaniu generatora cech opartego na fuzji cech cepstralnych i melcepstralnych oraz odpowiedniej selekcji deskryptorów. W drugim etapie autorzy dokonali optymalizacji parametrów generatora z uwzględnieniem docelowej metody klasyfikacji. Oceny otrzymanych wyników dokonano w oparciu o zbiór 500 próbek głosu od 50 mówców (po 10 próbek od każdego mówcy) i otrzymano 489 poprawnych klasyfikacji, co daje błąd klasyfikacji na poziomie 2,2%.

EN

The paper examines issues related to the determination of automatic speaker recognition systems. The authors focus on the use of speech signal processing methods that consider the phenomena connected with the speech generation process, which in turn connected to using a homomorphic processing methods. In a designed system crucial issue have both the extraction process of individual characteristics and classification process. The research presented in this paper focused primarily in the first stage on determination of features distinctive to sound generators using a fusion of cepstral and mel-cepstral information and also considers the feature selection. In the second stage optimization of the generator parameters taking account of suitable classification methods has been done by the authors. Finally, the evaluation of the results was based on the set of 500 samples of the acoustic signal from the 50 speakers (10 samples for each speaker) and 489 correct classification, which gives clasification error on 2,2% level.

6

Speaker verification using various dynamic kernels for prosodic features combined with spectral information

Drgas S., Dąbrowski A., Zamorski D.

Przegląd Elektrotechniczny

|

2012

|

R. 88, nr 6

51-54

EN

In this article the text independent speaker verification problem is considered. The approach, in which SVM and prosodic features are employed, has been chosen. Prosodic features are modelled by Legendre polynomials. In order to map a sequence of prosodic vectors to the fixed dimensional vector, three kernels were used: VQ kernel, GMM supervector kernel, and Fisher kernel. These three kernels were compared and their combination was evaluated. Finally, a combination with spectral features was investigated.

PL

W artykule jest rozważany problem automatycznej weryfikacji mówcy niezależnej od tekstu. Przedstowiono system oparty na maszynach wektorów nośnych (SVM - support vector machines) oraz cechach prozodycznych. Cechy prozodyczne są modelowane z wykorzystaniem wielomianów Legendre’a. W celu przekształcenia wektorów prozodycznych na wektory o ustalonej liczbie elementów zasotosowano trzy funkcje jądra: VQ, superwektor GMM oraz jądro Fishera. Wymienione funkcje zostały porównane oraz przetestowano skuteczność systemu w przypadku kombinacji wektorów. Zbadano także skuteczność systemu w połączeniu z cechami spektralnymi.

7

Modeling and optimization of the feature generator for speaker recognition systems

Majda E., Dobrowolski A. P.

Przegląd Elektrotechniczny

|

2012

|

R. 88, nr 12a

131-136

EN

This paper presents issues related to modeling and optimization of the feature generator for the speaker recognition system (ASR – Automatic Speakers Recognition). The parameterization stage of generating a speech signal (features generation) is fundamental in this type of system because the unique vector of features is crucial in the process of speech recognition. The task is to describe the speech signal using as few descriptors as possible without loss of relevant information for speaker recognition. In addition, the parameterization should be robust to acoustic and technical registration conditions and to the recorded linguistic material. The research presented in this paper focused primarily on the multicriteria optimization of selected parameters of the feature generator based on cepstral analysis that additionally enables the selection of features. Finally, the evaluation of the results was based on the analysis of the main components of a set of descriptors for the samples of voice acquired from 24 speakers.

PL

W referacie przedstawiono zagadnienia związane z modelowaniem i optymalizacją generatora cech dla systemu automatycznego rozpoznawania mówcy (ang. Automatic Speaker Recognition – ASR). Etap generacji cech (parametryzacji sygnału mowy) jest fundamentalny w tego typu systemach, z uwagi na fakt, że unikatowy wektor cech ma decydujące znaczenie w procesie rozpoznawania. Zadaniem generatora cech jest opisanie sygnału mowy za pomocą możliwie mało licznego zbioru deskryptorów, bez utraty informacji istotnych z punktu widzenia rozpoznawania mówcy. Ponadto parametryzacja powinna wykazywać odporność na warunki akustyczne i techniczne rejestracji oraz na zawartość lingwistyczną rejestrowanego materiału. Badania przedstawione w referacie koncentrowały się przede wszystkim na wielokryterialnej optymalizacji wybranych parametrów generatora cech opartego na analizie cepstralnej, uwzgledniającej dodatkowo selekcję cech. Oceny otrzymanych wyników dokonano w oparciu o analizę składników głównych (ang. Principal Component Analysis – PCA) zbioru deskryptorów wyznaczonych dla próbek głosu pochodzących od 24 mówców.

8

Modelowanie i optymalizacja generatora cech dla systemu rozpoznawania mówcy

Majda E., Dobrowolski A. P., Smólski B. L.

Biuletyn Wojskowej Akademii Technicznej

|

2012

|

Vol. 61, nr 4

153-168

PL

W pracy przedstawiono zagadnienia związane z modelowaniem i optymalizacją generatora cech dla systemu automatycznego rozpoznawania mówcy (ang. Automatic Speaker Recognition - ASR). Etap generacji cech (parametryzacji sygnału mowy) jest fundamentalny w tego typu systemach, z uwagi na fakt, że unikatowy wektor cech ma decydujące znaczenie w procesie rozpoznawania. Zadaniem generatora cech jest opisanie sygnału mowy za pomocą możliwie mało licznego zbioru deskryptorów, bez utraty informacji istotnych z punktu widzenia rozpoznawania mówcy. Ponadto parametryzacja powinna wykazywać odporność na warunki akustyczne i techniczne rejestracji oraz na zawartość lingwistyczną rejestrowanego materiału. Badania przedstawione w referacie koncentrowały się przede wszystkim na wielokryterialnej optymalizacji wybranych parametrów generatora cech opartego na analizie cepstralnej, uwzględniającej dodatkowo selekcję cech. Oceny otrzymanych wyników dokonano w oparciu o analizę składników głównych (ang. Principal Component Analysis - PCA) zbioru deskryptorów wyznaczonych dla próbek głosu pochodzących od 24 mówców.

EN

The paper presents issues related to modeling and optimization of the features generator for the speaker recognition system (ASR - Automatic Speakers Recognition). Parameterization's stage of the speech signal (features generation) is fundamental in this type of systems, due to the fact that the unique vector of features is crucial in the process of recognition. The task is to describe the speech signal using descriptors as little as possible, without loss of relevant information to the speaker recognition. In addition, parametrization should have robust to acoustic and technical registration conditions and the recorded linguistic material. The research presented in this paper is focused primarily on the multicriteria optimization of selected parameters of the features generator based on cepstral analysis, additionally allowing features selection. Finally, evaluation of the results was based on the analysis of main components, a set of descriptors for the samples voice acquired from 24 speakers.

9

Przetwarzanie sygnau mowy w systemach ASR

Górecka J.

Zeszyty Naukowe Politechniki Rzeszowskiej. Elektrotechnika

|

2006

|

z. 29 [233]

129-139

PL

W artykule przedstawiono typowy system automatycznego rozpoznawania mówcy ASR (zależny/niezależny od tekstu) i jego komponenty. Zaprezentowano również analizę sygnału mowy przy użyciu współczynników liniowego kodowania predykcyjnego oraz rozpoznawanie mówcy na podstawie ukrytych modeli Markova.

EN

In this paper author performance a typical system (text dependent/independent) and its components for automatic speaker recognition. Author presented also analysis of speech signal based on LPC parameters (Linear Predictive Coding) and recognition of speaker using the most popular method (based on Hidden Markov Models).