Speech recognition system extract the textual data from the speech signal. The research in speech recognition domain is challenging due to the large variabilities involved with the speech signal. Variety of signal processing and machine learning techniques have been explored to achieve better recognition accuracy. Speech is highly non-stationary in nature and therefore analysis is carried out by considering short time-domain window or frame. In the speech recognition task, cepstral (Mel frequency cepstral coefficients (MFCC)) features are commonly used and are extracted for short time-frame. The effectiveness of features depend upon duration of the time-window chosen. The present study is aimed at investigation of optimal time-window duration for extraction of cepstral features in the context of speech recognition task. A speaker independent speech recognition system for the Kannada language has been considered for the analysis. In the current work, speech utterances of Kannada news corpus recorded from different speakers have been used to create speech database. The hidden Markov tool kit (HTK) has been used to implement the speech recognition system. The MFCC along with their first and second derivative coefficients are considered as feature vectors. Pronunciation dictionary required for the study has been built manually for mono-phone system. Experiments have been carried out and results have been analyzed for different time-window lengths. The overlapping Hamming window has been considered in this study. The best average word recognition accuracy of 61.58% has been obtained for a window length of 110 msec duration. This recognition accuracy is comparable with the similar work found in literature. The experiments have shown that best word recognition performance can be achieved by tuning the window length to its optimum value.
The evaluation of system performance plays an increasingly important role in the reliability analysis of cyber-physical systems. Factors of external instability affect the evaluation results in complex systems. Taking the running gear in high-speed trains as an example, its complex operating environment is the most critical factor affecting the performance evaluation design. In order to optimize the evaluation while improving accuracy, this paper develops a performance evaluation method based on slow feature analysis and a hidden Markov model (SFA-HMM). The utilization of SFA can screen out the slowest features as HMM inputs, based on which a new HMM is established for performance evaluation of running gear systems. In addition to directly classical performance evaluation for running gear systems of high-speed trains, the slow feature statistic is proposed to detect the difference in the system state through test data, and then eliminate the error evaluation of the HMM in the stable state. In addition, indicator planning and status classification of the data are performed through historical information and expert knowledge. Finally, a case study of the running gear system in high-speed trains is discussed. After comparison, the result shows that the proposed method can enhance evaluation performance.
3
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
n recent years, the integration of human-robot interaction with speech recognition has gained a lot of pace in the manufacturing industries. Conventional methods to control the robots include semi-autonomous, fully-autonomous, and wired methods. Operating through a teaching pendant or a joystick is easy to implement but is not effective when the robot is deployed to perform complex repetitive tasks. Speech and touch are natural ways of communicating for humans and speech recognition, being the best option, is a heavily researched technology. In this study, we aim at developing a stable and robust speech recognition system to allow humans to communicate with machines (robotic-arm) in a seamless manner. This paper investigates the potential of the linear predictive coding technique to develop a stable and robust HMM-based phoneme speech recognition system for applications in robotics. Our system is divided into three segments: a microphone array, a voice module, and a robotic arm with three degrees of freedom (DOF). To validate our approach, we performed experiments with simple and complex sentences for various robotic activities such as manipulating a cube and pick and place tasks. Moreover, we also analyzed the test results to rectify problems including accuracy and recognition score.
Uncertainty is a key problem in remaining useful life (RUL) prediction, and measures to reduce uncertainty are necessary to make RUL prediction truly practical. In this paper, a right-time prediction method is proposed to reduce the prognostics uncertainty of mechanical systems under unobservable degradation. Correspondingly, the whole RUL prediction process is divided into three parts, including offline modelling, online state estimating and online life predicting. In the offline modelling part, hidden Markov model (HMM) and proportional hazard model (PHM) are built to map the whole degradation path. During operation, the degradation state of the object is estimated in real time. Once the last degradation state reached, the degradation characteristics are extracted, and the survival function is obtained with the fitted PHM. The proposed method is demonstrated on an engine dataset and shows higher accuracy than traditional method. By fusing the extracted degradation characteristics, the obtained survival function can be basis for optimal maintenance with lower uncertainty.
The paper presents the algorithm of recognition of selected Human-Computer Interaction (HCI) gestures acquired by inertial motion sensors. The possibilities of using Hidden Markov Models as classifiers have been verified. The experiments investigated the possibility of using a methodology dedicated to the recognition of virtual reality (VR) game gestures to classify HCI gestures. The paper compares the accuracy of classification depending on the method of discretization of the forearm orientation signals. The evaluation of the accuracy of the classification was carried out with the use of 3-fold cross validation. The paper uses author’s data corpus containing in total 720 time series acquired from 20 human subjects.
PL
Artykuł przedstawia algorytm rozpoznawania wybranych gestów interakcji człowiek-komputer zarejestrowanych przy pomocy inercyjnych czujników ruchu. W niniejszej pracy zweryfikowano możliwości wykorzystania niejawnych Modeli Markova jako klasyfikatora. Zbadano możliwości zastosowania metodyki dedykowanej rozpoznawaniu gestów gry VR do klasyfikacji gestów HCI. W pracy dokonano porównania skuteczności klasyfikacji w zależności od sposobu dyskretyzacji zarejestrowanych sygnałów orientacji przedramienia. Ocena skuteczności klasyfikacji odbyła się z wykorzystaniem trójkrotnej walidacji krzyżowej. W pracy wykorzystano autorski korpus danych zawierający 20 uczestników oraz łącznie 720 szeregów czasowych.
Predykcja stanu kanału, czyli oszacowanie prawdopodobieństwa, czy kanał będzie wolny, czy zajęty, pozwala na skuteczniejsze zarządzanie widmem w sieciach radia kognitywnego. W artykule przedstawiono ocenę zastosowania ukrytych modeli Markowa do predykcji stanu kanału radiowego, na podstawie oszacowania prawdopodobieństwa poprawnej i fałszywej detekcji. Uzyskane prawdopodobieństwo predykcji stanu kanału potwierdza potencjalne możliwości modelu dla sieci radia kognitywnego z oportunistycznym dostępem do widma.
EN
Cognitive radio (CR) networks can be designed to manage the radio spectrum more efficiently by utilizing of temporarily not used channels in licensed frequency bands. In this paper, we propose to use so called Hidden Markov Models (HMM) to predict the spectrum occupancy of sharing radio bands. The results obtained using HMM are very promising and they show that HMM offer a new paradigm for predicting channel behavior in cognitive radio.
In the work authors applied speech recognition techniques to find disfluent events. The recognition system based on the Hidden Markov Model Toolkit was built and tested. The set of context dependent HMM models was trained and used to locate speech disturbances. Authors were not concentrated on specific disfluency type but tried to find any extraneous sounds in a speech signal. Patients read prepared sentences, the system recognized them and then results were compared to manual transcriptions. It allowed the system to be more robust and enabled to find all disfluencies types appearing at word boundaries. Such system can by utilized in many ways, for example like a "preprocessor" that finds strange sounds in a speech to be analyzed or classified by other algorithms later, to evaluate or track therapy process of stuttering people, to evaluate speech fluency by ´normal´ speakers, etc.
W artykule zaprezentowano i porównano algorytmy do rozpoznawania mowy w kontekście ich późniejszej implementacji na platformie sprzętowej DSK OMAP. Głównym zadaniem było dogłębne porównanie dwóch klasycznych metod wykorzystywanych w rozpoznawaniu mowy GMM vs HMM (ang. GMM Gaussian Mixtures Models, ang. HMM – Hidden Markov Models). W artykule jest również opisana i porównana metoda ulepszonych mikstur gaussowskich GMM-UBM (ang. GMM UBM – Gaussian Mixtures Model Universal Background Model). Parametryzacja sygnału w oparciu o współczynniki MFCC oraz LPCC (ang. Mel Frequency Cepstral Coefficients, ang. Linear Prediction Cepstral Coefficients) została opisana [1]. Analizowany model składał się ze zbioru 10-elementowego reprezentującego cyfry mowy polskiej 0-9. Badania zostały przeprowadzone na zbiorze 3000 nagrań, które zostały przygotowane przez nasz zespół. Porównanie wyników wykonano dla rozłącznych zbiorów uczących oraz trenujących. Każda z opisywanych metod klasyfikacji operuje na tych samych danych wejściowych. Daje to możliwość miarodajnego porównania jakości tych klasyfikatorów jako skutecznych narzędzi do rozpoznawania izolowanych fraz głosowych.
EN
This paper presents and compares the speech recognition algorithms in the context of their subsequent implementation on the hardware platform OMAP DSK. The main task was to compare two classical methods used in speech recognition systems GMM vs HMM (GMM – Gaussian Mixtures Models, HMM – Hidden Markov Models). In the article improved Gaussian Mixtures Model called GMM-UBM (Gaussian Mixtures Model Universal Background Model) were described and compared. Preprocessing of the input signal using MFCC and LPCC coefficients (Mel Frequency Cepstral Coefficients, Linear Prediction Cepstral Coefficients) were described [1]. Analyzed data model consists set of 10-elements that represents Polish language digits 0-9. Research is done on a set of 3000 records prepared by our team with disjoint sets of learners and trainees. Methods are compared on the same input data. The same set of input data allows for reliable comparison of these classifiers to choose effective classifier for identifying isolated voice phases.
9
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
Based on Hidden Markov Model, a new prediction method on driving status is advanced. In which, the velocity of following car, the velocity difference and distance headway is input as observation variables, the driving status is output as hidden variable. First the probability of observation status needed is calculated by forward algorithm, then the probability of observation status and driving status appeared together is calculated, at last, the prediction value of driving status could be got by conditional probability. The warning character of the prediction method could be evaluated not only by the accuracy but also by a new index [delta]ATp, which could show the degree of warning time at p probability. The results of simulation show that the method is right, which is in agreement with the result of eye movement checking method named PERCLOS, and it could complete the predictionprediction: when P%= 30%, �[delta]ATp = 2min7 sec, when P%= 40%,[delta]ATp = 1min51 sec; when; when P%= 50%, �[delta]ATp = 56 sec, when P%= 60%, [delta]ATp = 34 sec.
PL
Bazując na ukrytym modelu Markova przedstawiono nową metodę przewidywania status pojazdu. Jako obserwowalne zmiany podaje się szybkość pojazdu z tyłu, odległość a jako zmienne ukryte status pojazdu.
The therapy of stuttering people is based on a proper selection of texts and then on a practice of their articulation by reading or narration. The texts are chosen on the basis of kind and intensity of dysfluencies appearing in a speech. Thus there is still a requirement to find effective and objective methods of analysis of dysfluent speech. Hidden Markov models are stochastic models widely used in recognition of any patterns appearing in a signal. In the work a simple monophone system based on the Hidden Markov Model Toolkit was built and tested in the context of detection and classification of phoneme repetitions - a common speech disorder in the Polish language.
W artykule poruszono problem tworzenia systemów automatycznego rozpoznawania mowy zbudowanych na bazie ukrytych modeli Markowa. Przedstawiono matematyczne podstawy HMM oraz odniesiono je do rzeczywistego problemu. Wykazano, że niezwykle istotny jest odpowiedni dobór liczby stanów oraz rozkładów w systemie. Zaprezentowano także wyniki testów stwierdzające przewagę współczynników RASTA-PLP nad MFCC oraz konieczność stosowania parametrów delta oraz delta-delta.
EN
Article discusses problems associated with automatic speech recognition systems based on Hidden Markov Model. Mathematical basis of HMM have been presented and it is shown how it can be applied to the real problem. Extremely important is the proper selection of the quantity of states and Gaussian distributions. Test results indicating the advantage of RASTA-PLP coefficients over MFCCs and necessity of using delta and delta-delta parameters are presented.
In the work algorithms commonly utilized in continuous speech recognition systems were applied to detection of speech disorders. The used algorithms were briefly described and the final method of speech disorders detection was presented. The article includes the results of the short test performed in order to check the effectiveness and accuracy of the method. The aim of the test was detection and classification of fricative phonemes prolongation one of the most common speech disorders in the Polish language. It is worth emphasizing that this method enables detection of a category of speech disturbance (e.g. fricative, nasal, vowels, etc… prolongation), but also provides the information about a specific phoneme being disturbed.
Hidden Markov models are widely applied in data classification. They are used in many areas. The choice of parameters of HMM is very important because of efficiency of whole identification system. Individual parameters should be matched individually for each system in the experiment way.
PL
Ukryte modele Markowa (ang. Hidden Markov Models - HMM) są szeroko stosowane do klasyfikacji danych w wielu dziedzinach, np. w biometryce do rozpoznawania twarzy lub głosu, rozpoznawania obrazów i dźwięku. Pozwala to na budowanie skutecznych systemów kontroli dostępu do zasobów oraz systemów identyfikacji/autoryzacji osób. Każde z tych zastosowań wymaga specyficznego podejścia do problemu i odpowiedniego zaprojektowania HMM. Dobór Parametrów HMM jest bardzo ważny ze względu za skuteczność systemu identyfikacji. Poszczególne parametry powinny być dobierane indywidualnie dla każdego systemu w sposób eksperymentalny, a badania powinny być przeprowadzone na reprezentatywnej liczbie wzorców. Najważniejszym problemem w projektowaniu systemów opartych o HMM jest wybór architektury modelu, czyli topologii oraz liczby stanów i obserwacji. Wpływ na te parametry ma złożoność i zróżnicowanie danych- sygnałów wejściowych. W przypadku topologii do dyspozycji mamy modele ergodyczne lub left-right. Natomiast przy doborze liczby stanów i obserwacji uwzględniamy typ sygnału wejściowego. Im bardziej złożony i różnorodny, tym te wartości powinny być większe. Należy jednak pamiętać, że im więcej stanów i obserwacji wybierzemy, tym czas estymacji parametrów i czas testowania wydłuży się wykładniczo. Ponadto istnieje granica, powyżej której system nie będzie wykazywał większej skuteczności.
The Hidden Markov Model (HMM) is a stochastic approach to recognition of patterns appearing in an input signal. In the work author's implementation of the HMM were used to recognize speech disorders - prolonged fricative phonemes. To achieve the best recognition effectiveness and simultaneously preserve reasonable time required for calculations two problems need to be addressed: the choice of the HMM and the proper preparation of an input data. Tests results for recognition of the considered type of speech disorders are presented for HMM models with different number of states and for different sizes of codebooks.
Artykuł dotyczy problemu tworzenia ukrytych modeli Markowa na podstawie zarejestrowanych wypowiedzi. Kluczowym problemem jest tu wyznaczenie zbioru stanów modelu Markowa. Przyjęto, że stany modelu są określone przez skupienia obserwacji. Skupienia te można uzyskać drogą grupowania sekwencji obserwacji sygnału mowy.
EN
A problem of hidden Markov models formation on the basis of recorded speech is considered in this paper. The key issue is the designation of a Markov model set. The assumption is that each HMM state is associated with clusters of observations. The clusters may be obtained by gathering of observations sequences for a speech signal.
Artykuł przedstawia podstawy i zastosowanie zwykłych i równoległych ukrytych modeli Markowa w rozpoznawaniu zachowań osób na podstawie informacji wizyjnej. Skupiono się na reprezentatywnym zadaniu rozpoznawania wypowiedzi w języku migowym.
EN
The article considers application of regular and parallel hidden Markov models to vision-based recognition of human actions. We focus on the representative problem of automatic recognition of signed expressions.
Zbadano osobliwości algorytmów segmentacji sygnału mowy polskiej, sposoby tworzenia i uczenia odpowiednich modeli HMM (Hidden Markov Model) z uwzględnieniem warunków występujących w technikach rozpoznawania mowy. Eksperymentalnie udowodniono, że zastosowanie HMM stanowi podstawę w systemach do rozpoznawania mowy polskiej, a tworzenie i uczenie HMM dla stów izolowanych tegoż samego mówcy przebiega w sposób szybki. Udowodniono również, że przedstawienie słowa w postaci sekwencji obserwacji jest najskuteczniejszą metodą reprezentacji stów. Do badań stworzono oryginalny system programowy AudioSter, funkcjonujący w środowisku programistycznym Matlab.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.