Automatic speech recognition systems are used in vehicles. With this application it is possible to control the navigation system, air conditioning system, media player, and make phone calls by using voice commands. The effectiveness of speech recognition systems depends largely on the acoustic conditions in the cabin of the vehicle. Recognition accuracy determines the ability to extend the functionality of such systems beyond the basic functions listed above. The article shows the preliminary results of research on speech recognition and evaluation of speech intelligibility in the vehicle cabin. The purpose of this article is to present the influence of the background noise levels in a car cabin on speech intelligibility, and to investigate the discriminant analysis as a robust classifier for the speech recognition process.
PL
Automatyczne systemy rozpoznawania mowy są stosowane w pojazdach. Dzięki tej aplikacji możliwe jest sterowanie systemem nawigacji, klimatyzacją, odtwarzaczem multimedialnym i wykonywanie połączeń telefonicznych za pomocą poleceń głosowych. Skuteczność systemów rozpoznawania mowy zależy w dużej mierze od warunków akustycznych w kabinie pojazdu. Dokładność rozpoznawania określa zdolność do rozszerzenia funkcjonalności takich systemów poza podstawowe funkcje wymienione powyżej. W pracy przedstawiono wstępne wyniki badań nad rozpoznawaniem mowy i oceną zrozumiałości mowy w kabinie pojazdu. Celem pracy było przedstawienie wpływu poziomu tła w kabinie samochodu na zrozumiałość mowy i zbadanie analizy dyskryminacyjnej jako klasyfikatora w procesie rozpoznawania mowy.
The aim of this study was to compare normal (NL) and esophageal (ES) speech signals in scope of vowels in order to show differences between signals. A discriminant analysis based on cepstral features extracted from vowels of NL and ES speech was performed. The comparison was made on the basis of the classification function coefficients and the results of the classification for each speech. Vowels recordings were acquired from 10 NL speakers and 10 ES speakers. The discriminant analysis was based on cepstral features extracted from vowel recordings, and was performed separately for NL speech and ES speech. Then a comparison between coefficients of classification functions of NL and ES vowels using the Euclidean distance was made. Based on the resulting classification matrix of NL and ES speech, the results of classification were compared. The discriminant analysis based on cepstral features showed 76% of the mean classification score for ES speech and 90% for NL speech. The Euclidean distance showed low differences between the vowel /a/ of NL speech and the vowel /a/ of ES speech and between the vowel /e/ of NL speech and the vowel /e/ of ES speech.
PL
Celem pracy było porównanie sygnału mowy normalnej (NL) i przełykowej (ES) w zakresie samogłosek w celu wykazania różnic pomiędzy sygnałami. Przeprowadzono analizę dyskryminacyjną współczynników cepstralnych uzyskanych z samogłosek mowy NL i ES. Porównania dokonano na podstawie uzyskanych współczynników funkcji klasyfikacyjnych oraz otrzymanych wyników klasyfikacji dla każdej mowy. Sygnał mowy każdej samogłoski pozyskany został od 10 mówców mowy NL i 10 mówców mowy ES. Analizę dyskryminacyjną przeprowadzono w oparciu o współczynniki cepstralne oddzielnie dla mowy NL i mowy ES. Następnie dokonano porównania uzyskanych współczynników funkcji klasyfikacyjnych samogłosek mowy NL i mowy ES, wykorzystując do tego celu odległość Euklidesa. Na podstawie macierzy klasyfikacji otrzymanej dla mowy NL i ES porównano rezultaty klasyfikacji. Analiza dyskryminacyjna w oparciu o współczynniki cepstralne wykazała 76% jako średni wynik klasyfikacji dla mowy ES, natomiast 90% dla mowy NL. Odległość Euklidesa wskazuje na najmniejsze różnice w zakresie samogłoski /a/ i /e/ mowy NL i ES.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.