PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Evaluation of speech corpora for speech and speaker recognition systems

Autorzy
Treść / Zawartość
Identyfikatory
Warianty tytułu
PL
Wykorzystanie baz mowy do testowania systemów rozpoznawania mowy oraz mówcy
Języki publikacji
EN
Abstrakty
EN
Creating advanced speech processing and speech recognition techniques involves the need of working with real voice samples. Access to various speech corpora is extremely helpful in such a situation. Having this type of resources available during the development process, it is possible to detect errors quicker, as well as estimate algorithm parameters better. Selecting a proper voice sample set is a key element in the development of a speech processing application. Each speech corpus has been adapted to support different aspects of speech processing. The goal of this paper is to present available speech corpora. Each of them is shown in the form of a table. The tables contain the description of features helpful in choosing a suitable set of voice samples.
PL
Tworzenie zaawansowanych technik przetwarzania oraz rozpoznawania mowy wiąże się z koniecznością pracy z rzeczywistymi próbkami głosu. Dostęp do różnorodnych zbiorów sygnałów mowy jest w tej sytuacji niezwykle pomocny. Posiadając tego typu zasoby, możliwe jest szybsze wykrywanie błędów, jak również lepsze oszacowanie parametrów algorytmów. Celem niniejszego artukułu jest zaprezentowanie dostępnych zbiorów próbek głosu. Dostępne bazy mowy różnią się między sobą między innym jakością, warunkami nagrywania oraz możliwymi zastosowaniami. Część baz zawiera rejestrowane rozmowy telefoniczne, z kolei inne zawierają wypowiedzi zarejestrowane przy użyciu wielu mikrofonów wysokiej jakości. Wykorzystywanie publicznych baz danych ma jeszcze jedną ważną zaletę - umożliwia porównywanie algorytmów stworzonych przez różne ośrodki badawcze, wykorzystujące tę samą metodologię. Uzyskiwane wyniki są prezentowane w postaci benchmarków, co umożliwia szybkie porównywanie opracowanych rozwiązań. Z tego powodu, wybór odpowiedniej bazy mowy jest kluczowy z punktu widzenia skuteczności działania systemu. Każdy ze zbiorów został przedstawiony w formie tabeli. Tabele zawierają opis cech pomocnych podczas wyboru odpowiedniego zbioru próbek głosu.
Wydawca
Rocznik
Strony
373--375
Opis fizyczny
Bibliogr. 9 poz., tab.
Twórcy
autor
  • Silesian University of Technology, Faculty of Automatic Control, Electronics and Computer Science
autor
  • Silesian University of Technology, Faculty of Automatic Control, Electronics and Computer Science
Bibliografia
  • [1] Rabiner L. R., Schafer R.W.: Introduction to Digital Speech Processing, Foundations and Trends in Signal Processing, Vol. 1, Nos. 1–2 (2007) pp. 1–194.
  • [2] Przybocki M., Martin A.: NIST Speaker Recognition Evaluation Chronicles, Speaker and Language Recognition Workshop, 2006.
  • [3] Garofolo J., Lamel L., Fisher W., Fiscus J., Pallett D., Dahlgren N.: DARPA TIMIT Accoustic-Phonetic Continuous Speech Corpus, February 1993
  • [4] Fernandez S., Graves A.: Schmidhuber J.: Phoneme recognition in TIMIT with BLSTM-CTC, April 2008.
  • [5] Lopes C., Perdigao F.: Speech Technologies, Chapter 14: Phoneme Recognition on the TIMIT Database, June 2011.
  • [6] Campbell, J.P., Jr.: Testing with the YOHO CD-ROM voice verification corpus, May 1995.
  • [7] Brandschain L., Graff D., Cieri C., Walker K., Caruso C., Neely A.: The Mixer 6 Corpus: Resources for Cross-Channel and Text Independent Speaker Recognition.
  • [8] Greenberg C., Martin A., Brandschain L., Campbell J., Doddington G., Godfrey J.: Human Assisted Speaker Recognition (HASR) in NIST SRE 10, July 2010.
  • [9] Kelly F., Drygajlo A., Harte N.: Speaker Verification with Long-Term Ageing Data, Proceedings 2012 5th IAPR International Conference on Biometrics (ICB), March-April 2012.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-d1ed5ffe-0afa-4f72-8419-b96ca3ad8ccc
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.