PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Identyfikacja głosów na podstawie długookresowego histogramu amplitud sygnału mowy

Wybrane pełne teksty z tego czasopisma
Identyfikatory
Warianty tytułu
EN
Voice identification based on long-term amplitude histograms of speech signal
Języki publikacji
PL
Abstrakty
PL
W niniejszym artykule dokonano oceny jakości nowej metody rozpoznawania głosu opartej na opisie sygnału mowy w dziedzinie czasu za pomocą wektorów cech będących długookresowymi histogramami amplitud. Jako metodę klasyfikacji użyto nowo zaproponowaną metodę potencjałów najbliższych pkNN sąsiadów, będącą połączeniem idei metody kNN oraz metody funkcji potencjalnych. Ocenę jakości identyfikacji dokonano na podstawie procentu błędnych decyzji o akceptacji przez klasy obcych obiektów lub procentu błędnego odrzucania własnych obiektów. W związku z tym podjęto również szeroką dyskusję dotyczącą błędów identyfikacji wraz z ich zależnością od sposobu rozdzielania przestrzeni oraz założenia o otwartości (bądź nie) zbioru identyfikowanych klas. Główny nacisk kładziono na analizę jakości wyników w zależności od długości badanego fragmentu wypowiedzi, na podstawie której decyduje się o identyfikacji mówcy. Doświadczenie z identyfikacją głosów, opisane w artykule, oparto na nagraniach zarejestrowanych w warunkach pokojowych za pomocą karty dźwiękowej komputera PC. Zarejestrowano i zbadano głosy 21 osób. W artykule zamieszczono najistotniejszą część wyników wyczerpujących badań dotyczących struktury klas oraz jakości identyfikacji. Na uwagę zasługuje fakt, iż uzyskano 100% jakość identyfikacji nawet dla otwartego zbioru rozpoznawanych klas. Ponadto względnie duża liczba mówców, ich zbliżony wiek, przewaga osób z jednej płci oraz silna dyskryminacja bardzo podobnych głosów trzech braci stanowią dodatkowe uwiarygodnienie uzyskanych wyników. Tym samym udowodniono, że opis sygnału mowy za pomocą histogramów amplitudowych dla celów rozpoznawania głosów jest opisem prostym, skutecznym i zarazem niezależnym ani od języka ani od treści wypowiedzi.
EN
In this paper, the performance of a new speaker recognition method, based on amplitude discrimination of speech signal, was confirmed. In this method, various voices are represented by long-term amplitude histograms (feature vectors) extracted from time-domain speech signal. A new template matching method built as a combination of two classification methods (namely kNN and potential functions) and called "The Potential of the k Nearest Neighbors pkNN", was proposed as the pattern identification method. The identification accuracy was estimated through the percentages of false acceptation and false rejection decisions. Therefore the dependence of these decisions on the manner in which the features' space is divided and the type of the considered class set, being opened or closed, was thoroughly discussed. One of the principle aims of the analyzes carried out here was to examine the dependence of identification accuracy on testing-utterance's length used for speaker identification. The identification experiments carried out for purposes of method verification were based on continuous text-readings' recordings collected for 21 speakers in office environment using a PC multimedia card. The presented results are only these related to the most essential parts of a very comprehensive analysis concerning class structure and identification accuracy. It should be noted that the achieved 100% accuracy applies also for open-class sets. In addition, the reltively large number of speakers, their close age, male sex outnumbering, and powerful discrimination of similar voices of three brothers, increase the reliability of the accomplished results. Thereby time-domain amplitude histogram proved to be a simple and effective feature vector for speaker recognition tasks that additionally preserves identification independence of the utterances' text and language.
Wydawca
Rocznik
Strony
15--33
Opis fizyczny
Bibliogr. 25 poz., rys., wykr., tab.
Twórcy
autor
autor
  • Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki, Akademia Górniczo-Hutnicza
Bibliografia
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-AGH1-0025-0010
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.