PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Using full covariance matrix for CMU Sphinx-III speech recognition system

Wybrane pełne teksty z tego czasopisma
Identyfikatory
Warianty tytułu
PL
Wykorzystanie pełnej macierzy kowariancji w systemie rozpoznawania mowy CMU Sphinx III
Języki publikacji
EN
Abstrakty
EN
In this article authors proposed a hybrid system in which the full covariance matrix is used only at the initial stage of learning. At the further stage of learning, the amount of covariance matrix increases significantly, which, combined with rounding errors, causes problems with matrix inversion. Therefore, when the number of matrices with a determinant of 0 exceeds 1%, the system goes into the model of diagonal covariance matrices. Thanks to this, the hybrid system has achieved a better result of about 11%.
PL
W niniejszym artykule autorzy zaproponowali system hybrydowy, w którym pełna macierz kowariancji wykorzystywana jest tylko w początkowym etapie procedury treningowej. W dalszym etapie uczenia, znacząco wzrasta liczba macierzy kowariancji, co w połączeniu z błędami zaokrąglania powoduje problemy z odwróceniem tego typu macierzy. Dlatego też, gdy liczba macierzy o wyznaczniku równym 0 przekracza 1%, system przechodzi do modelu wykorzystującego macierze diagonalne. Dzięki temu system hybrydowy osiągnął wynik lepszy o około 11%.
Rocznik
Strony
102--104
Opis fizyczny
Bibliogr. 7 poz., tab.
Twórcy
  • Katolicki Uniwersytet Lubelski Jana Pawła II
  • Katolicki Uniwersytet Lubelski Jana Pawła II
  • Instytut Matematyki, Katedra Systemów Operacyjnych i Sieciowych, ul. Konstantynów 1H, 20-708 Lublin
Bibliografia
  • [1] The Carnegie Mellon Sphinx Project: CMU Sphinx. http://cmusphinx.sourceforge.net/, Apr 2017
  • [2] The Carnegie Mellon Sphinx Project: CMU Sphinx Trainer. http://cmusphinx.sourceforge.net/wiki/sphinx4:sphinx4trainer, Apr 2017
  • [3] Bell P., Full Covariance Modelling for Speech Recognition. PhD thesis, The University of Edinburgh 2010
  • [4] Chen S., Kingsbury B., Mangu L., Povey D., Saon G., Soltau H., Zweig, G., Advances in speech transcription at IBM under the darpa ears program. IEEE Transactions on Audio, Speech and Language Processing, 14 (2006), nr 5, 1596–1608
  • [5] Płonkowski M., Urbanowicz P., Tuning a CMU Sphinx-III Speech Recognition System for Polish Language, Przegląd Elektrotechniczny, 90 (2014), nr 4, 181-184
  • [6] Wang R., Zhu X., Chen Y., Liu J., Liu R., Fast likelihood computation method using block-diagonal covariance matrices in Hidden Markov Model. In Proceedings of ICSLP 2002 Taipei, Taiwan, August (2002)
  • [7] The CMU Audio Databases, AN4 database, http://www.speech.cs.cmu.edu/databases/an4/, Apr 2017
Uwagi
Opracowanie rekordu w ramach umowy 509/P-DUN/2018 ze środków MNiSW przeznaczonych na działalność upowszechniającą naukę (2018).
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-cfd235fb-1ab8-4ef9-a847-608b0d262cd6
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.