Ograniczanie wyników
Czasopisma help
Autorzy help
Lata help
Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 38

Liczba wyników na stronie
first rewind previous Strona / 2 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  automatic speech recognition
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 2 next fast forward last
EN
The paper presents the analysis of modern Artificial Intelligence algorithms for the automated system supporting human beings during their conversation in Polish language. Their task is to perform Automatic Speech Recognition (ASR) and process it further, for instance fill the computer-based form or perform the Natural Language Processing (NLP) to assign the conversation to one of predefined categories. The State-of-the-Art review is required to select the optimal set of tools to process speech in the difficult conditions, which degrade accuracy of ASR. The paper presents the top-level architecture of the system applicable for the task. Characteristics of Polish language are discussed. Next, existing ASR solutions and architectures with the End-To-End (E2E) deep neural network (DNN) based ASR models are presented in detail. Differences between Recurrent Neural Networks (RNN), Convolutional Neural Networks (CNN) and Transformers in the context of ASR technology are also discussed.
PL
W niniejszej pracy przedstawiono ogólnie rozwój technologii rozpoznawania mowy, począwszy od pierwszych eksperymentów XIX wieku, aż po współczesne osiągnięcia w tej dziedzinie. Przeanalizowano przekształcenia technologiczne na przestrzeni ostatnich lat, omówiono kluczowe odkrycia oraz najważniejsze wydarzenia, które odegrały istotną rolę w rozwoju tej dziedziny, wskazując jednocześnie wybrane procesy wspomagające skuteczność rozpoznawania mowy pod kątem identyfikacji biometrycznej. Przedstawiono w zarysie charakterystyczne cechy wymowy dla języka polskiego.
EN
This paper presents a general overview of the development of speech recognition technology, from the first experiments of the 19th century to modern developments in this field. It analyses technological transformations over the past years, discusses key discoveries and key events that have played a significant role in the development of this field, while highlighting selected processes that support the effectiveness of speech recognition in terms of biometric identification. The characteristic features of pronunciation for the Polish language are outlined.
EN
This article presents the application of an automatic speech recognition by continuous speech commands recognition with Thai language as a speaker verification model, this is a case study of speech commands control of mobile robots. The design of the automatic speech recognition system consisted of 3 steps: The first we analyzed the signal processing of the continuous speech commands and compared the accuracy of the speech recognition with a time frame adjustment and the overlapped period of signal filtered with the window function, The second we proceed to find the feature extraction of speech commands using format frequency techniques and configured the feature extraction with format frequencies of F1, F2, and F3,The last step was to design the recognition using Support Vector Machine technique to check the accuracy of an automatic speech recognition. These is support vector machine classification algorithm provides a comparison of the filtered function window and compares the accuracy of the time frame scaled and the overlapped time of the filtered, which gives different values of precision. From the experiment, the researcher found that are applied a Hanging function the test results of the test result of the "forward" speech commands has an accuracy of 81.92% but kind of Gaussian function the test results of the "backward" speech commands has an accuracy of 83.69%, the "turn left" speech commands had an accuracy of 82.81%, the "turn right" speech commands had an accuracy of 85.56% and the "Stop first" speech commands has an accuracy of 86.78% and speech recognition by continuous speech commands recognition with Thai language was applied an every function the test results of the overall performance of the speech commands has an accuracy of 83.88%.
PL
Artykuł przedstawia zastosowanie automatycznego rozpoznawania mowy poprzez ciągłe rozpoznawanie poleceń głosowych z językiem tajskim jako modelem weryfikacji mówiącego, jest to studium przypadku sterowania poleceniami głosowymi robotów mobilnych. Projekt systemu automatycznego rozpoznawania mowy składał się z 3 etapów: W pierwszym przeanalizowano przetwarzanie sygnału ciągłych poleceń głosowych i porównano dokładność rozpoznawania mowy z dopasowaniem przedziału czasowego i nakładającym się okresem sygnału filtrowanego funkcją okna, Następnie przystępujemy do znalezienia ekstrakcji funkcji poleceń głosowych przy użyciu technik formatowania częstotliwości i skonfigurowania ekstrakcji cech z częstotliwościami formatu F1, F2 i F3. Ostatnim krokiem było zaprojektowanie rozpoznawania przy użyciu techniki maszyny wektorów nośnych w celu sprawdzenia dokładności automatyczne rozpoznawanie mowy. Jest to algorytm klasyfikacji maszyny wektorów nośnych, który zapewnia porównanie przefiltrowanego okna funkcji i porównuje dokładność skalowanych ram czasowych oraz nakładających się czasów filtrowanych, co daje różne wartości precyzji. Na podstawie eksperymentu badacz odkrył, że po zastosowaniu funkcji wiszącej wyniki testu wyników poleceń głosowych „do przodu” mają dokładność 81,92%, ale rodzaj funkcji Gaussa wyniki testu poleceń głosowych „wstecz” mają dokładność 81,92% dokładność 83,69%, polecenia głosowe „skręć w lewo” miały dokładność 82,81%, polecenia głosowe „skręć w prawo” miały dokładność 85,56%, a polecenia głosowe „Najpierw zatrzymaj” mają dokładność 86,78%, a rozpoznawanie mowy przez zastosowano ciągłe rozpoznawanie poleceń głosowych w języku tajskim, a wyniki testu ogólnej wydajności poleceń głosowych mają dokładność 83,88%.
EN
For the past few years, artificial neural networks (ANNs) have been one of the most common solutions relied upon while developing automated speech recognition (ASR) acoustic models. There are several variants of ANNs, such as deep neural networks (DNNs), recurrent neural networks (RNNs), and convolutional neural networks (CNNs). A CNN model is widely used as a method for improving image processing performance. In recent years, CNNs have also been utilized in ASR techniques, and this paper investigates the preliminary result of an end-to-end CNN-based ASR using NVIDIA NeMo on the Iban corpus, an under-resourced language. Studies have shown that CNNs have also managed to produce excellent word error (WER) rates for the acoustic model on ASR for speech data. Conversely, results and studies concerned with under-resourced languages remain unsatisfactory. Hence, by using NVIDIA NeMo, a new ASR engine developed by NVIDIA, the viability and the potential of this alternative approach are evaluated in this paper. Two experiments were conducted: the number of resources used in the works of our ASR’s training was manipulated, as was the internal parameter of the engine used, namely the epochs. The results of those experiments are then analyzed and compared with the results shown in existing papers.
5
Content available remote Automatic Speech Recognition and its Application to Media Monitoring
EN
In this paper we present application of the automatic speech recognition technology in the area of media monitoring. We describe the use of computational models and methods by two ASR technologies, namely a Hidden Markov Model with a Gaussian Mixture Model and Deep Neural Networks, that were crucial in the ASR development. Both approaches were implemented in our speech recognition ARM-1 engine developed for the Polish language. We provide details on the implementation choices, specifically adjustments made for media monitoring application guided by the characteristics of media content. Performance of both versions of our engine is evaluated and compared.
EN
Deep neural networks (DNN) currently play a most vital role in automatic speech recognition (ASR). The convolution neural network (CNN) and recurrent neural network (RNN) are advanced versions of DNN. They are right to deal with the spatial and temporal properties of a speech signal, and both properties have a higher impact on accuracy. With its raw speech signal, CNN shows its superiority over precomputed acoustic features. Recently, a novel first convolution layer named SincNet was proposed to increase interpretability and system performance. In this work, we propose to combine SincNet-CNN with a light-gated recurrent unit (LiGRU) to help reduce the computational load and increase interpretability with a high accuracy. Different configurations of the hybrid model are extensively examined to achieve this goal. All of the experiments were conducted using the Kaldi and Pytorch-Kaldi toolkit with the Hindi speech dataset. The proposed model reports an 8.0% word error rate (WER).
7
Content available remote Allophones in automatic speech recognition
EN
The common approach to the speech recognition problem is the use of phonemes as basic parts of speech. The authors proposed allophones usage instead. For rarer allophones the conversion into other allophones (4 selection methods) has been proposed. Based on the obtained results one can say that effective use of the additional information from allophonic notation will not be possible without modification of currently used algorithms.
PL
Typowym podejściem do zagadnienia rozpoznawania mowy jest branie pod uwagę fonemów, jako podstawowych części mowy. Zamiast tego autorzy zaproponowali wykorzystanie alofonów. Dla najrzadziej występujących alofonów zaproponowano ich zamianę na inne alofony – zaproponowano 4 metody wyboru głosek do zamiany. Na podstawie uzyskanych wyników stwierdzono, że efektywne wykorzystanie dodatkowych informacji, jakie niosą alofony, nie będzie możliwe bez modyfikacji obecnie dostępnych algorytmów.
PL
W artykule przedstawiono system automatycznego rozpoznawania mowy polskiej dedykowany dla robota społecznego. System oparty jest na bezpłatnej i otwartej bibliotece oprogramowania pocketsphinx (CMU Sphinx). Przygotowano zbiory nagrań: treningowy i testowy wraz z transkrypcjami. Zbiór treningowy obejmował głosy 10 kobiet i 10 mężczyzn i został przygotowany na podstawie audiobooków, natomiast zbiór testowy – głosy 3 kobiet i 3 mężczyzn nagrane w warunkach laboratoryjnych specjalnie na potrzeby pracy. Przygotowany zbiór fonemów dla języka polskiego, składający się z 39 fonemów, opracowany został na podstawie dwóch popularnych zbiorów dostępnych danych. Słownik fonetyczny opracowano za pomocą funkcjonalności konwersji grapheme-to-phoneme z biblioteki eSpeak. Model statystyczny języka dla tekstu referencyjnego składającego się z 76 komend wygenerowano za pomocą programu cmuclmtk (CMU Sphinx). Uczenie modelu akustycznego oraz test jakości rozpoznawania mowy przeprowadzono za pomocą programu sphinxtrain (CMU Sphinx). W warunkach laboratoryjnych uzyskano wskaźnik błędu rozpoznawania słów (WER) na poziomie 4% i błędu rozpoznawania zdań (SER) na poziomie 9%. Przeprowadzono też badania systemu w warunkach rzeczywistych na grupie testowej złożonej z 2 kobiet i 3 mężczyzn, uzyskując wstępne wyniki rozpoznawania na poziomie 10% (SER) z bliskiej odległości oraz 60% (SER) z odległości 3 m. Określono kierunki dalszych prac.
EN
Automatic Speech Recognition system for Polish and dedicated for social robotics applications is presented. The system is based on free and open software library pocketsphinx (CMU Sphinx). Training and test databases were prepared with transcriptions; the training database comprised voices of 10 women and 10 men, and it was prepared based on audiobooks, whereas the test database comprised voices of 3 women and 3 men recorded in laboratory conditions as a part of the present work. A phoneme set for Polish consisting of 39 phonemes based on two popular sets from other researchers was prepared. The phonetic dictionary was obtained using graphemeto-phoneme conversion from the eSpeak tool for speech synthesis. The language statistic model for the reference text including 76 commands was generated using cmuclmtk tool (CMU Sphinx). Training of the acoustic model and test of quality of speech recognition was conducted using the sphinxtrain tool (CMU Sphinx). The following error rates were obtained for laboratory conditions: 4% (WER) and 9% (SER). Next, investigations of the system in relevant real environment were conducted. The initial, tentative results are about 10% (SER) for the close distance of a speaker to a microphone, and about 60% (SER) for 3 m speaker-microphone distance. Directions of future works are formulated.
PL
Grupowanie mówców w zbiory o podobnych cechach akustycznych ich mowy, obok normalizacji i adaptacji, jest skuteczną metodą poprawy jakości systemów automatycznego rozpoznawania mowy. W pracy przedstawiono metody grupowania, dla których punktem wyjścia jest model akustyczny wszystkich mówców oraz ich efektywność dla mowy polskiej w odniesieniu głównie do samogłosek. Rozwiązania te okazały się być skuteczne nawet przy wykorzystaniu superkrótkiej wypowiedzi. Uzyskana poprawa jakości rozpoznawania ramek mierzona za pomocą frame error rate wynosi około 4%.
EN
Clustering of speakers into groups of similar acoustic features is, besides for normalization and adaptation, an efficient method of improving the quality of systems of automatic speech recognition. New approaches of speaker clustering based on the acoustic model for all speakers and their efficiency for Polish speech, mostly regarding vowels, are presented and discussed in this paper. Results show the strong performance of the new solutions, even when super short speech segments were used. The obtained quality improvement of frame recognition measured by frame error rate was about 4%.
EN
The same speech sounds (phones) produced by different speakers can sometimes exhibit significant differences. Therefore, it is essential to use algorithms compensating these differences in ASR systems. Speaker clustering is an attractive solution to the compensation problem, as it does not require long utterances or high computational effort at the recognition stage. The report proposes a clustering method based solely on adaptation of UBM model weights. This solution has turned out to be effective even when using a very short utterance. The obtained improvement of frame recognition quality measured by means of frame error rate is over 5%. It is noteworthy that this improvement concerns all vowels, even though the clustering discussed in this report was based only on the phoneme a. This indicates a strong correlation between the articulation of different vowels, which is probably related to the size of the vocal tract.
11
Content available remote Przetwarzanie mowy w celu sterowania urządzeniami mechatronicznymi
PL
Przedstawiono etapy opracowania metody parametryzacji sygnałów mowy. Adaptowano dekompozycję paczkowej transformacji falkowej oraz zastosowano rozplot homomorficzny. Dzięki wykorzystaniu niejawnych modeli Markowa do rozpoznawania zweryfikowano działanie opracowanej metody. Badania stanowią punkt wyjścia do wdrożenia automatycznego systemu rozpoznawania mowy do sterowania urządzeniami mechatronicznymi.
EN
Illustrated are the steps to develop a method of speech parameterization. Adapted for the purpose was packet decomposition of the wavelet transformation with homomorphic deconvolution also applied. The hidden Markov Models for speech recognition as used were providing at the same time for verification of the developed method. These studies should be considered as the starting point for further implementation of an automatic speech recognition system for control of mechatronic devices.
12
PL
Metody automatycznego rozpoznawania wieku i płci pozwalają na rozpoznanie cech osoby mówiącej tylko na podstawie nagrania jej wypowiedzi. Mowa ludzka, poza werbalnym komunikatem, niesie ze sobą informacje dotyczące osoby mówiącej. Nagranie mowy osoby pozwala na wyodrębnienie takich informacji, jak jej płeć, wiek, a także emocje. Zaprezentowano przegląd metod rozpoznawania wieku i płci osób na podstawie ich mowy oraz wykonano implementację i przetestowano połączenie metod wyznaczania parametrów MFCC (współczynniki analizy cepstralnej w skali mel (Mel-frequency Cepstral Coefficients) i wysokości tonu głosu f0 oraz algorytmu SVM (metoda wektorów nośnych - Support Vector Machines) do klasyfikacji próbek głosowych. Testy zaimplementowanego rozwiązania pozwalają stwierdzić, że metoda jest skuteczna w większości przypadków testowych.
EN
Methods for automatic recognition of the age and gender characteristics allow the identification of the person only on the basis of recording of this person speech. Human speech, beyond verbal communication, gives an information about the speaking person. Speech recording allows the identification personal characteristics such as gender, age, and the emotions. The paper presents an overview of methods of age and gender recognition of people based on their speech. A combination of methods for determining the parameters MFCC (Mel-frequency Cepstral Coefficients) and pitch of voice (f0) and SVM (Support Vector Machines) algorithm for the classification of voice samples is implanted and tested. It was demonstrated that the method is effective in the majority of test cases.
EN
Reverberation is a common problem for many speech technologies, such as automatic speech recogni- tion (ASR) systems. This paper investigates the novel combination of precedence, binaural and statistical independence cues for enhancing reverberant speech, prior to ASR, under these adverse acoustical con- ditions when two microphone signals are available. Results of the enhancement are evaluated in terms of relevant signal measures and accuracy for both English and Polish ASR tasks. These show inconsistencies between the signal and recognition measures, although in recognition the proposed method consistently outperforms all other combinations and the spectral-subtraction baseline.
PL
Artykuł przedstawia przykłady wykorzystania systemów automatycznego rozpoznawania mowy do budowy głosowych interfejsów typu człowiek-maszyna. W artykule opisano sposób działania takich aplikacji pod kątem sterowania i komunikacji głosowej. W następnej części przedstawiono koncepcję i budowę systemu rozpoznawania mowy do komunikacji z 32-bitowym modułowym sterownikiem pralki.
EN
This paper presents examples of the use of automatic speech recognition systems to build human-machine voice interfaces. Also this paper briefly describes how these applications can work. The rest of the article shows the concept of usage speech recognition system based on own driver which cooperate with washing machine controller.
EN
The aim of works described in this article is to elaborate and experimentally evaluate a consistent method of Language Model (LM) construction for the sake of Polish speech recognition. In the proposed method we tried to take into account the features and specific problems experienced in practical applications of speech recognition in the Polish language, reach inflection, a loose word order and the tendency for short word deletion. The LM is created in five stages. Each successive stage takes the model prepared at the previous stage and modifies or extends it so as to improve its properties. At the first stage, typical methods of LM smoothing are used to create the initial model. Four most frequently used methods of LM construction are here. At the second stage the model is extended in order to take into account words indirectly co-occurring in the corpus. At the next stage, LM modifications are aimed at reduction of short word deletion errors, which occur frequently in Polish speech recognition. The fourth stage extends the model by insertion of words that were not observed in the corpus. Finally the model is modified so as to assure highly accurate recognition of very important utterances. The performance of the methods applied is tested in four language domains.
EN
This paper compares three methods of storage data of the patients in the field of dentistry: the paper dental card, a lifetime dental EHR controlled by keyboard and a lifetime dental EHR controlled by voice. The EuroMISE Center developed a pilot EHR application called MUDR Lite (multimedia distributed electronic health record). The study compares the elapsed time necessary to update/enter the information about the patient's dental status using the above mentioned three methods. The paper dental card is the most rapid method, but not the best for medical documentation and dentists.
17
Content available remote The new method of the inter-phonemes transitions finding
EN
This article describes the new method of the inter-phonemes transition finding based on the image recognition. Automatic borders between phonemes finding is the same as the number of phonemes finding. This is an important factor used in Automatic Speech Recognition systems.
PL
Artykuł przedstawia nową metodę lokalizacji przejść międzyfonemowych opartą o analizę obrazów. Automatyczne określenie miejsc przejść międzyfonemowych jest równoznaczne z określeniem liczby fonemów występujących w danym wyrazie. Jest to ważny parametr wykorzystywany w systemach automatycznej identyfikacji sygnałów mowy. (Nowa metoda lokalizacji przejść międzyfonemowych).
18
Content available remote Pitch period’s properties and the new method used for finding them
EN
This article describes the pitch’s periods interesting properties. These periods are included in each vowel and voiced consonant. It also describes the new method of pitch period finding and their duration counting. These parameters are very important elements of the automatic speech recognition algorithm worked out by the author.
PL
Artykuł przedstawia interesujące właściwości okresów podstawowych tonu krtaniowego występującego we wszystkich samogłoskach i spółgłoskach dźwięcznych oraz nową metodę ich odnajdywania i wyznaczania ich długości. Poprawne odnajdywanie okresów podstawowych i wyznaczanie czasu ich trwania jest ważnym elementem algorytmu automatycznej identyfikacji słów opracowanego przez autora.
EN
The article presents the method of building compact language model for speech recognition in devices with limited amount of memory. Most popularly used bigram word-based language models allow for highly accurate speech recognition but need large amount of memory to store, mainly due to the big number of word bigrams. The method proposed here ranks bigrams according to their importance in speech recognition and replaces explicit estimation of less important bigrams probabilities by probabilities derived from the class-based model. The class-based model is created by assigning words appearing in the corpus to classes corresponding to syntactic properties of words. The classes represent various combinations of part of speech inflectional features like number, case, tense, person etc. In order to maximally reduce the amount of memory necessary to store class-based model, a method that reduces the number of part-of-speech classes has been applied, that merges the classes appearing in stochastically similar contexts in the corpus. The experiments carried out with selected domains of medical speech show that the method allows for 75% reduction of model size without significant loss of speech recognition accuracy.
EN
A stable and accurate estimation of the fundamental frequency (pitch, F0) is an important requirement in speech and music signal analysis, in tasks like automatic speech recognition and extraction of target signal in noisy environment. In this paper, we propose a pitch-related spectrogram normalization scheme to improve the speaker – independency of standard speech features. A very accurate estimation of the fundamental frequency is a must. Hence, we develop a non-parametric recursive estimation method of F0 and its 2nd and 3d harmonic frequencies in noisy circumstances. The proposed method is different from typical Kalman and particle filter methods in the way that no particular sum of sinusoidal model is used. Also we tend to estimate F0 and its lower harmonics by using novel likelihood function. Through experiments under various noise levels, the proposed method is proved to be more accurate than other conventional methods. The spectrogram normalization scheme makes a mapping of real harmonic structure to a normalized structure. Results obtained for voiced phonemes show an increase in stability of the standard speech features – the average within-phoneme distance of the MFCC features for voiced phonemes can be decreased by several percent.
first rewind previous Strona / 2 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.