Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 3

Liczba wyników na stronie
first rewind previous Strona / 1 next fast forward last
Wyniki wyszukiwania
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 1 next fast forward last
PL
W artykule zaprezentowano i porównano algorytmy do rozpoznawania mowy w kontekście ich późniejszej implementacji na platformie sprzętowej DSK OMAP. Głównym zadaniem było dogłębne porównanie dwóch klasycznych metod wykorzystywanych w rozpoznawaniu mowy GMM vs HMM (ang. GMM Gaussian Mixtures Models, ang. HMM – Hidden Markov Models). W artykule jest również opisana i porównana metoda ulepszonych mikstur gaussowskich GMM-UBM (ang. GMM UBM – Gaussian Mixtures Model Universal Background Model). Parametryzacja sygnału w oparciu o współczynniki MFCC oraz LPCC (ang. Mel Frequency Cepstral Coefficients, ang. Linear Prediction Cepstral Coefficients) została opisana [1]. Analizowany model składał się ze zbioru 10-elementowego reprezentującego cyfry mowy polskiej 0-9. Badania zostały przeprowadzone na zbiorze 3000 nagrań, które zostały przygotowane przez nasz zespół. Porównanie wyników wykonano dla rozłącznych zbiorów uczących oraz trenujących. Każda z opisywanych metod klasyfikacji operuje na tych samych danych wejściowych. Daje to możliwość miarodajnego porównania jakości tych klasyfikatorów jako skutecznych narzędzi do rozpoznawania izolowanych fraz głosowych.
EN
This paper presents and compares the speech recognition algorithms in the context of their subsequent implementation on the hardware platform OMAP DSK. The main task was to compare two classical methods used in speech recognition systems GMM vs HMM (GMM – Gaussian Mixtures Models, HMM – Hidden Markov Models). In the article improved Gaussian Mixtures Model called GMM-UBM (Gaussian Mixtures Model Universal Background Model) were described and compared. Preprocessing of the input signal using MFCC and LPCC coefficients (Mel Frequency Cepstral Coefficients, Linear Prediction Cepstral Coefficients) were described [1]. Analyzed data model consists set of 10-elements that represents Polish language digits 0-9. Research is done on a set of 3000 records prepared by our team with disjoint sets of learners and trainees. Methods are compared on the same input data. The same set of input data allows for reliable comparison of these classifiers to choose effective classifier for identifying isolated voice phases.
PL
Historia systemów automatycznego rozpoznawania mowy ma już kilkadziesiąt lat. Pierwsze prace badawcze z tego zakresu pochodzą z lat 50. XX wieku (prace w laboratoriach Bella oraz MIT). Pomimo iż zagadnieniem tym zajmuje się wiele zespołów badawczych na całym świecie, problem automatycznego rozpoznawania mowy nie został definitywne rozwiązany. Dostępne systemy rozpoznawania mowy nadal charakteryzują się gorszą skutecznością w porównaniu do umiejętności człowieka. W artykule przedstawiono schemat systemu rozpoznawania mowy na przykładzie rozpoznawania izolowanych słów języka polskiego. Zaprezentowano szczegółowy opis wyznaczania cech dystynktywnych sygnału mowy w oparciu o współczynniki mel – cepstralne oraz cepstralne współczynniki liniowej predykcji. Przedstawiono wyniki skuteczności rozpoznawania poszczególnych fraz.
EN
The first research in automatic speech recognition systems dates back to the fifties of the 20th century (the works of Bell Labs and MIT). Although this issue has been treated by many research teams, the problem of automatic speech recognition has not been definitively resolved and remains open. Available voice recognition systems still have a poorer efficiency compared to human skills. This article presents a diagram of speech recognition system for isolated words of the Polish language. A detailed description of the determination of distinctive features of the speech signal is presented based on the mel-frequency cepstral coefficient and linear predictive cepstral coefficients. Efficiency results are also presented.
3
Content available remote Hardware watermark token for VoIP telephony
EN
The developed electronic device is a digital watermark token used to authenticate the subscriber in VoIP telephony. The device converts the signal in real-time, full-duplex, allowing simultaneous embedding of a watermark in the speech signal, as well as the extraction of the binary signature of a watermark on the receiving side of the Internet VoIP link. This paper presents a procedure for subscriber authentication in VoIP telephony and the structure of the hardware token, along with a functional diagram.
PL
Opracowane urządzenie elektroniczne stanowi token cyfrowego znaku wodnego wykorzystywanego do uwierzytelniania abonenta w telefonii internetowej VoIP. Urządzenie przetwarza sygnał w czasie rzeczywistym, w pełnym dupleksie, pozwalając na jednoczesne osadzanie znaku wodnego w sygnale mowy jak również ekstrakcję binarnej sygnatury znaku wodnego po stronie odbiorczej łącza internetowego VoIP. W artykule przedstawiono procedurę uwierzytelniania abonenta w telefonii VoIP oraz budowę sprzętowego tokena wraz ze schematem funkcjonalnym.
first rewind previous Strona / 1 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.