Ograniczanie wyników
Czasopisma help
Autorzy help
Lata help
Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 71

Liczba wyników na stronie
first rewind previous Strona / 4 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  speech recognition
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 4 next fast forward last
EN
Hereby there is given the speaker identification basic system. There is discussed application and usage of the voice interfaces, in particular, speaker voice identification upon robot and human being communication. There is given description of the information system for speaker automatic identification according to the voice to apply to robotic-verbal systems. There is carried out review of algorithms and computer-aided learning libraries and selected the most appropriate, according to the necessary criteria, ALGLIB. There is conducted the research of identification model operation performance assessment at different set of the fundamental voice tone. As the criterion of accuracy there has been used the percentage of improperly classified cases of a speaker identification.
PL
Ten dwuczęściowy artykuł przedstawia interfejs do Narodowej Platformy Cyberbezpieczeństwa (NPC). Wykorzystuje on gesty i komendy wydawane głosem do sterowania pracą platformy. Ta część artykułu przedstawia strukturę interfejsu oraz sposób jego działania, ponadto prezentuje zagadnienia związane z jego implementacją. Do specyfikacji interfejsu wykorzystano podejście oparte na agentach upostaciowionych, wykazując że podejście to może być stosowane do tworzenia nie tylko systemów robotycznych, do czego było wykorzystywane wielokrotnie uprzednio. Aby dostosować to podejście do agentów, które działają na pograniczu środowiska fizycznego i cyberprzestrzeni, należało ekran monitora potraktować jako część środowiska, natomiast okienka i kursory potraktować jako elementy agentów. W konsekwencji uzyskano bardzo przejrzystą strukturę projektowanego systemu. Część druga tego artykułu przedstawia algorytmy wykorzystane do rozpoznawania mowy i mówców oraz gestów, a także rezultaty testów tych algorytmów.
EN
This two part paper presents an interface to the National Cybersecurity Platform utilising gestures and voice commands as the means of interaction between the operator and the platform. Cyberspace and its underlying infrastructure are vulnerable to a broad range of risk stemming from diverse cyber-threats. The main role of this interface is to support security analysts and operators controlling visualisation of cyberspace events like incidents or cyber-attacks especially when manipulating graphical information. Main visualization control modalities are gesture- and voice-based commands. Thus the design of gesture recognition and speech-recognition modules is provided. The speech module is also responsible for speaker identification in order to limit the access to trusted users only, registered with the visualisation control system. This part of the paper focuses on the structure and the activities of the interface, while the second part concentrates on the algorithms employed for the recognition of: gestures, voice commands and speakers.
PL
Ten dwuczęściowy artykuł przedstawia interfejs do Narodowej Platformy Cyberbezpieczeństwa (NPC). Wykorzystuje on gesty i komendy wydawane głosem do sterowania pracą platformy. Ta część artykułu przedstawia strukturę interfejsu oraz sposób jego działania, ponadto prezentuje zagadnienia związane z jego implementacją. Do specyfikacji interfejsu wykorzystano podejście oparte na agentach upostaciowionych, wykazując że podejście to może być stosowane do tworzenia nie tylko systemów robotycznych, do czego było wykorzystywane wielokrotnie uprzednio. Aby dostosować to podejście do agentów, które działają na pograniczu środowiska fizycznego i cyberprzestrzeni, należało ekran monitora potraktować jako część środowiska, natomiast okienka i kursory potraktować jako elementy agentów. W konsekwencji uzyskano bardzo przejrzystą strukturę projektowanego systemu. Część druga tego artykułu przedstawia algorytmy wykorzystane do rozpoznawania mowy i mówców oraz gestów, a także rezultaty testów tych algorytmów.
EN
This two part paper presents an interface to the National Cybersecurity Platform utilising gestures and voice commands as the means of interaction between the operator and the platform. Cyberspace and its underlying infrastructure are vulnerable to a broad range of risk stemming from diverse cyber-threats. The main role of this interface is to support security analysts and operators controlling visualisation of cyberspace events like incidents or cyber-attacks especially when manipulating graphical information. Main visualization control modalities are gesture- and voice-based commands. Thus the design of gesture recognition and speech-recognition modules is provided. The speech module is also responsible for speaker identification in order to limit the access to trusted users only, registered with the visualisation control system. This part of the paper focuses on the structure and the activities of the interface, while the second part concentrates on the algorithms employed for the recognition of: gestures, voice commands and speakers.
PL
Poniższy artykuł przedstawia wyniki badań wpływu zastosowania uczenia maszynowego w budowie interfejsu sterowanego głosem. Do analizy wykorzystane zostały dwa różne modele: jednokierunkowa sieć neuronowa zawierająca jedną warstwę ukrytą oraz bardziej skomplikowana konwolucyjna sieć neuronowa. Dodatkowo wykonane zostało porównanie modeli użytych w celu realizacji badań pod względem jakości oraz przebiegu treningu.
EN
The following paper presents the results of research on the impact of machine learning in the construction of a voice-controlled interface. Two different models were used for the analysys: a feedforward neural network containing one hidden layer and a more complicated convolutional neural network. What is more, a comparison of the applied models was presented. This comparison was performed in terms of quality and the course of training.
PL
W artykule zaprezentowano badania dwóch systemów sterowania głosowego w zakresie komend dedykowanych dla inteligentnego budynku. Opisano implementację rozpoznawania mowy opartą na platformach Google Cloud Speech API i BitVoicer. Przeprowadzono badania w celu weryfikacji poprawności działania sterowania głosowego i określono dalsze możliwości rozwoju.
EN
The article presents the research of two voice control systems in the field of commands dedicated to the intelligent building. An implementation of speech recognition based on the Google Cloud Speech API and BitVoicer platform is described. Research was carried out to verify the correctness of voice control and further development options were identified.
6
Content available remote Using full covariance matrix for CMU Sphinx-III speech recognition system
EN
In this article authors proposed a hybrid system in which the full covariance matrix is used only at the initial stage of learning. At the further stage of learning, the amount of covariance matrix increases significantly, which, combined with rounding errors, causes problems with matrix inversion. Therefore, when the number of matrices with a determinant of 0 exceeds 1%, the system goes into the model of diagonal covariance matrices. Thanks to this, the hybrid system has achieved a better result of about 11%.
PL
W niniejszym artykule autorzy zaproponowali system hybrydowy, w którym pełna macierz kowariancji wykorzystywana jest tylko w początkowym etapie procedury treningowej. W dalszym etapie uczenia, znacząco wzrasta liczba macierzy kowariancji, co w połączeniu z błędami zaokrąglania powoduje problemy z odwróceniem tego typu macierzy. Dlatego też, gdy liczba macierzy o wyznaczniku równym 0 przekracza 1%, system przechodzi do modelu wykorzystującego macierze diagonalne. Dzięki temu system hybrydowy osiągnął wynik lepszy o około 11%.
EN
Huge growth is observed in the speech and speaker recognition field due to many artificial intelligence algorithms being applied. Speech is used to convey messages via the language being spoken, emotions, gender and speaker identity. Many real applications in healthcare are based upon speech and speaker recognition, e.g. a voice-controlled wheelchair helps control the chair. In this paper, we use a genetic algorithm (GA) for combined speaker and speech recognition, relying on optimized Mel Frequency Cepstral Coefficient (MFCC) speech features, and classification is performed using a Deep Neural Network (DNN). In the first phase, feature extraction using MFCC is executed. Then, feature optimization is performed using GA. In the second phase training is conducted using DNN. Evaluation and validation of the proposed work model is done by setting a real environment, and efficiency is calculated on the basis of such parameters as accuracy, precision rate, recall rate, sensitivity, and specificity. Also, this paper presents an evaluation of such feature extraction methods as linear predictive coding coefficient (LPCC), perceptual linear prediction (PLP), mel frequency cepstral coefficients (MFCC) and relative spectra filtering (RASTA), with all of them used for combined speaker and speech recognition systems. A comparison of different methods based on existing techniques for both clean and noisy environments is made as well.
PL
W referacie zaprezentowano audiowizualny korpus mowy zawierający 31 godzin nagrań mowy w języku angielskim. Korpus dedykowany jest do celów automatycznego audiowizualnego rozpoznawania mowy. Korpus zawiera nagrania wideo pochodzące z szybkoklatkowej kamery stereowizyjnej oraz dźwięk zarejestrowany przez matrycę mikrofonową i mikrofon komputera przenośnego. Dzięki uwzględnieniu nagrań zarejestrowanych w warunkach szumowych korpus może być wykorzystany do badania wpływu zakłóceń na skuteczność rozpoznawania mowy.
EN
An audiovisual corpus containing 31 hours of English speech recordings is presented. The new corpus was created in order to assist the development of audiovisual speech recognition systems (AVSR). The corpus includes high-framerate stereoscopic video streams and audio recorded by both microphone array and a microphone built in a mobile computer. Owing to the inclusion of recordings made in noisy conditions, the corpus can be used to assess the robustness of speech recognition systems in the presence of acoustic noise.
9
Content available remote Czy można rozmawiać z robotem spawalniczym?
PL
W artykule przedstawiono zagadnienia związane ze sterowaniem głosowym robotami przemysłowymi, w tym robotami spawalniczymi. Omówiono celowość wykorzystania automatycznego rozpoznawania mowy w robotyce, potencjalny zakres zastosowań oraz specyficzne wymagania dotyczące aplikacji sterowania głosowego związanych z robotami przemysłowymi. W szczególności skoncentrowano się na głosowym wspomaganiu programowania robotów przez uczenie. Poruszone zostało zagadnienie definiowania języka komend głosowych oraz różne aspekty integracji systemu rozpoznawania mowy z układem sterowania robota przemysłowego. Rozważania poparto przykładami ze zrealizowanej implementacji sterowania głosowego robotem Movemaster.
EN
Current paper deals with various aspects of voice control system that could be applied to industrial robots, particularly in welding applications. It discusses the usefulness of voice-based human-machine interfaces, potential areas of application, restrictions as well as specific requirements regarding these systems. In particular, it focuses on speech-aided teach-in robot programming. A separate chapter is dedicated to the issue of voice command language description. Integration of speech recognition system and robot controller is also broadly discussed. Description of these issues is illustrated by example of practically implemented voice control system applied to educational robot Movemaster.
10
Content available remote The use of pitch in Large-Vocabulary Continuous Speech Recognition System
EN
In this article the authors normalize the speech signal based on the publicly available AN4 database. The authors added to the algorithm of calculating the MFCC coefficients, the normalization procedure, that uses pitch of the voice. As demonstrated by empirical tests authors were able to improve speech recognition accuracy rate of about 20%.
PL
W niniejszym artykule autorzy normalizują sygnał mowy wykorzystując publicznie dostępną bazę danych AN4. Autorzy dodali do algorytmu obliczania współczynników MFCC, procedurę normalizacji, wykorzystującą wysokość tonu głosu. Jak wynika z przeprowadzonych testów, autorzy uzyskali poprawę dokładności rozpoznawania mowy o około 20%.
11
Content available remote Kaldi Toolkit in polish whispery peech ecognition
EN
In this paper, the automatic speech recognition task has been presented. Used toolkits, libraries and prepared speech corpus have been described. The obtained results suggest, that using different acoustic models for normal speech and whispered speech can reduce word error rate. The optimal training steps has been also selected. Thanks to the additional simulations it has been found that used corpus (over 9 hours of normal speech and the same of the whispery speech) is definitely too small and must be enlarged in the future.
PL
W artykule przedstawiono automatyczne rozpoznawanie mowy. Wykorzystane narzędzia, biblioteki i korpus opisano w artykule. Uzyskane wyniki wskazują, że wykorzystując różne modele akustyczne dla mowy zwykłej i szeptanej uzyskuje się polepszenie skuteczności rozpoznawania mowy. W wyniku wykonanych badań wskazano również optymalną kolejność kroków treningu. Dzięki dodatkowym obliczeniom stwierdzono, że użyty korpus (ponad 9 godzin zwykłej mowy i drugie tyle szeptu) jest zdecydowanie za mały do dobrego wytrenowania systemu rozpoznawania mowy i w przyszłości musi zostać powiększony.
EN
The aim of this work was to measure subjective speech intelligibility in an enclosure with a long reverberation time and comparison of these results with objective parameters. Impulse Responses (IRs) were first determined with a dummy head in different measurement points of the enclosure. The following objective parameters were calculated with Dirac 4.1 software: Reverberation Time (RT), Early Decay Time (EDT), weighted Clarity (C50) and Speech Transmission Index (STI). For the chosen measurement points, a convolution of the IRs with the Polish Sentence Test (PST) and logatome tests was made. PST was presented at a background of a babble noise and speech reception threshold – SRT (i.e. SNR yielding 50% speech intelligibility) for those points were evaluated. A relationship of the sentence and logatome recognition vs. STI was determined. It was found that the final SRT data are well correlated with speech transmission index (STI), and can be expressed by a psychometric function. The difference between SRT determined in condition without reverberation and in reverberation conditions appeared to be a good measure of the effect of reverberation on speech intelligibility in a room. In addition, speech intelligibility, with and without use of the sound amplification system installed in the enclosure, was compared.
EN
Laughter is one of the most important paralinguistic events, and it has specific roles in human conversation. The automatic detection of laughter occurrences in human speech can aid automatic speech recognition systems as well as some paralinguistic tasks such as emotion detection. In this study we apply Deep Neural Networks (DNN) for laughter detection, as this technology is nowadays considered state-of-the-art in similar tasks like phoneme identification. We carry out our experiments using two corpora containing spontaneous speech in two languages (Hungarian and English). Also, as we find it reasonable that not all frequency regions are required for efficient laughter detection, we will perform feature selection to find the sufficient feature subset.
14
Content available remote Using gesture and voice commands for the Tribot robot control
EN
Presented project integrates seamlessly modern device control methods into one, solid solution. The Project is in touch-less control algorithm to the robotics, considered as a technology sampler for feature industrial usage. It implements gesture and voice recognition based solution to control the mobile Tribot robot driving over flat, two dimensional surface. It integrates Microsoft Kinect sensor, Lego Mindstorms NXT robot and a PC computer all together. It also provides voice con-trolled calibration of the human to machine interface.
PL
W dokumencie opisano projekt, w którym zintegrowano nowoczesne metody sterowania bezdotykowego robotem mobilnym przy użyciu gestów oraz rozpoznawania głosu. Przedmiotem sterowania jest robot zbudowany na platformie Lego Mindstorms NXT, poruszający się po dwuwymiarowej przestrzeni. Rozwiązanie integruje sensor Microsoft Kinect do sterowania robotem oraz metodę kalibracji położenia użytkownika za pomocą rozpoznawania komend głosowych.
PL
W artykule zaprezentowano i porównano algorytmy do rozpoznawania mowy w kontekście ich późniejszej implementacji na platformie sprzętowej DSK OMAP. Głównym zadaniem było dogłębne porównanie dwóch klasycznych metod wykorzystywanych w rozpoznawaniu mowy GMM vs HMM (ang. GMM Gaussian Mixtures Models, ang. HMM – Hidden Markov Models). W artykule jest również opisana i porównana metoda ulepszonych mikstur gaussowskich GMM-UBM (ang. GMM UBM – Gaussian Mixtures Model Universal Background Model). Parametryzacja sygnału w oparciu o współczynniki MFCC oraz LPCC (ang. Mel Frequency Cepstral Coefficients, ang. Linear Prediction Cepstral Coefficients) została opisana [1]. Analizowany model składał się ze zbioru 10-elementowego reprezentującego cyfry mowy polskiej 0-9. Badania zostały przeprowadzone na zbiorze 3000 nagrań, które zostały przygotowane przez nasz zespół. Porównanie wyników wykonano dla rozłącznych zbiorów uczących oraz trenujących. Każda z opisywanych metod klasyfikacji operuje na tych samych danych wejściowych. Daje to możliwość miarodajnego porównania jakości tych klasyfikatorów jako skutecznych narzędzi do rozpoznawania izolowanych fraz głosowych.
EN
This paper presents and compares the speech recognition algorithms in the context of their subsequent implementation on the hardware platform OMAP DSK. The main task was to compare two classical methods used in speech recognition systems GMM vs HMM (GMM – Gaussian Mixtures Models, HMM – Hidden Markov Models). In the article improved Gaussian Mixtures Model called GMM-UBM (Gaussian Mixtures Model Universal Background Model) were described and compared. Preprocessing of the input signal using MFCC and LPCC coefficients (Mel Frequency Cepstral Coefficients, Linear Prediction Cepstral Coefficients) were described [1]. Analyzed data model consists set of 10-elements that represents Polish language digits 0-9. Research is done on a set of 3000 records prepared by our team with disjoint sets of learners and trainees. Methods are compared on the same input data. The same set of input data allows for reliable comparison of these classifiers to choose effective classifier for identifying isolated voice phases.
PL
Historia systemów automatycznego rozpoznawania mowy ma już kilkadziesiąt lat. Pierwsze prace badawcze z tego zakresu pochodzą z lat 50. XX wieku (prace w laboratoriach Bella oraz MIT). Pomimo iż zagadnieniem tym zajmuje się wiele zespołów badawczych na całym świecie, problem automatycznego rozpoznawania mowy nie został definitywne rozwiązany. Dostępne systemy rozpoznawania mowy nadal charakteryzują się gorszą skutecznością w porównaniu do umiejętności człowieka. W artykule przedstawiono schemat systemu rozpoznawania mowy na przykładzie rozpoznawania izolowanych słów języka polskiego. Zaprezentowano szczegółowy opis wyznaczania cech dystynktywnych sygnału mowy w oparciu o współczynniki mel – cepstralne oraz cepstralne współczynniki liniowej predykcji. Przedstawiono wyniki skuteczności rozpoznawania poszczególnych fraz.
EN
The first research in automatic speech recognition systems dates back to the fifties of the 20th century (the works of Bell Labs and MIT). Although this issue has been treated by many research teams, the problem of automatic speech recognition has not been definitively resolved and remains open. Available voice recognition systems still have a poorer efficiency compared to human skills. This article presents a diagram of speech recognition system for isolated words of the Polish language. A detailed description of the determination of distinctive features of the speech signal is presented based on the mel-frequency cepstral coefficient and linear predictive cepstral coefficients. Efficiency results are also presented.
EN
In this paper, a new feature-extraction method is proposed to achieve robustness of speech recognition systems. This method combines the benefits of phase autocorrelation (PAC) with bark wavelet transform. PAC uses the angle to measure correlation instead of the traditional autocorrelation measure, whereas the bark wavelet transform is a special type of wavelet transform that is particularly designed for speech signals. The extracted features from this combined method are called phase autocorrelation bark wavelet transform (PACWT) features. The speech recognition performance of the PACWT features is evaluated and compared to the conventional feature extraction method mel frequency cepstrum coefficients (MFCC) using TI-Digits database under different types of noise and noise levels. This database has been divided into male and female data. The result shows that the word recognition rate using the PACWT features for noisy male data (white noise at 0 dB SNR) is 60%, whereas it is 41.35% for the MFCC features under identical conditions.
EN
This paper describes a Deep Belief Neural Network (DBNN) and Bidirectional Long-Short Term Memory (LSTM) hybrid used as an acoustic model for Speech Recognition. It was demonstrated by many independent researchers that DBNNs exhibit superior performance to other known machine learning frameworks in terms of speech recognition accuracy. Their superiority comes from the fact that these are deep learning networks. However, a trained DBNN is simply a feed-forward network with no internal memory, unlike Recurrent Neural Networks (RNNs) which are Turing complete and do posses internal memory, thus allowing them to make use of longer context. In this paper, an experiment is performed to make a hybrid of a DBNN with an advanced bidirectional RNN used to process its output. Results show that the use of the new DBNN-BLSTM hybrid as the acoustic model for the Large Vocabulary Continuous Speech Recognition (LVCSR) increases word recognition accuracy. However, the new model has many parameters and in some cases it may suffer performance issues in real-time applications.
PL
Przedstawiony artykuł dotyczy zagadnień związanych z funkcjonowaniem systemów automatycznej translacji mowy ciągłej. W systemach tych wykorzystuje się techniki przetwarzania języka naturalnego realizowane z wykorzystaniem algorytmów automatycznego rozpoznawania mowy, automatycznej translacji tekstów oraz zamiany tekstu na mowę za pomocą syntezy mowy. W artykule zaproponowano także metodę usprawnienia procesu automatycznej translacji mowy przez zastosowanie algorytmów automatycznej identyfikacji mówcy, pozwalających na automatyczną segmentację mowy pochodzącej od różnych mówców.
EN
This paper concerns the machine translation of continuous speech. These systems use machine language processing techniques implemented using algorithms of automatic speech recognition, automatic text translation and text-to-speech conversion using speech synthesis.
20
Content available remote Tuning a CMU Sphinx-III Speech Recognition System for Polish Language
EN
In this paper, authors describe parameters which may be tuned to obtain the best performance and accuracy for a large vocabulary continuous speech recognition task. Behavior of certain parameters should be similar regardless of the language speech recognition. However, some parameters will have a different impact on the accuracy of the Polish speech recognition as compared to the English speech recognition.
PL
W niniejszym artykule autorzy opisują paramenty, które mogą być dostosowywane, w celu uzyskania większej wydajności i dokładności w zadaniach rozpoznawania mowy ciągłej. Zachowania pewnych parametrów powinny być podobne bez względu na używany język. Jednakże niektóre parametry będą miały inny wpływ na dokładność rozpoznawania mowy polskiej w porównaniu do zadań rozpoznawania mowy angielskiej.
first rewind previous Strona / 4 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.