In this article the authors normalize the speech signal based on the publicly available AN4 database. The authors added to the algorithm of calculating the MFCC coefficients, the normalization procedure, that uses pitch of the voice. As demonstrated by empirical tests authors were able to improve speech recognition accuracy rate of about 20%.
PL
W niniejszym artykule autorzy normalizują sygnał mowy wykorzystując publicznie dostępną bazę danych AN4. Autorzy dodali do algorytmu obliczania współczynników MFCC, procedurę normalizacji, wykorzystującą wysokość tonu głosu. Jak wynika z przeprowadzonych testów, autorzy uzyskali poprawę dokładności rozpoznawania mowy o około 20%.
2
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
In this article authors proposed a hybrid system in which the full covariance matrix is used only at the initial stage of learning. At the further stage of learning, the amount of covariance matrix increases significantly, which, combined with rounding errors, causes problems with matrix inversion. Therefore, when the number of matrices with a determinant of 0 exceeds 1%, the system goes into the model of diagonal covariance matrices. Thanks to this, the hybrid system has achieved a better result of about 11%.
PL
W niniejszym artykule autorzy zaproponowali system hybrydowy, w którym pełna macierz kowariancji wykorzystywana jest tylko w początkowym etapie procedury treningowej. W dalszym etapie uczenia, znacząco wzrasta liczba macierzy kowariancji, co w połączeniu z błędami zaokrąglania powoduje problemy z odwróceniem tego typu macierzy. Dlatego też, gdy liczba macierzy o wyznaczniku równym 0 przekracza 1%, system przechodzi do modelu wykorzystującego macierze diagonalne. Dzięki temu system hybrydowy osiągnął wynik lepszy o około 11%.
3
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
In this paper, authors describe parameters which may be tuned to obtain the best performance and accuracy for a large vocabulary continuous speech recognition task. Behavior of certain parameters should be similar regardless of the language speech recognition. However, some parameters will have a different impact on the accuracy of the Polish speech recognition as compared to the English speech recognition.
PL
W niniejszym artykule autorzy opisują paramenty, które mogą być dostosowywane, w celu uzyskania większej wydajności i dokładności w zadaniach rozpoznawania mowy ciągłej. Zachowania pewnych parametrów powinny być podobne bez względu na używany język. Jednakże niektóre parametry będą miały inny wpływ na dokładność rozpoznawania mowy polskiej w porównaniu do zadań rozpoznawania mowy angielskiej.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.