Nowa wersja platformy, zawierająca wyłącznie zasoby pełnotekstowe, jest już dostępna.
Przejdź na https://bibliotekanauki.pl
Ograniczanie wyników
Czasopisma help
Lata help
Autorzy help
Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 77

Liczba wyników na stronie
first rewind previous Strona / 4 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  rozpoznawanie mowy
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 4 next fast forward last
1
Content available remote Przykład wykorzystania platformy programowo-sprzętowej MATLAB-dSPACE
100%
PL
W artykule przedstawiono przykład zastosowania środowiska MATLAB-dSPACE do budowy systemu automatycznego rozpoznawania mowy. Zamieszczono również opis instalacji i konfiguracji wykorzystywanej platformy programowo-sprzętowej.
2
100%
PL
W artkule przedstawiony został przebieg eksperymentu, mającego na celu ocenę przydatności współczynników falkowych jako charakterystyk sygnałów mowy. Charakterystyki wyznaczane były pod kątem zastosowania w systemach rozpoznawania mowy niezależnej od mówcy. Ocenie podlegała zdolność wyznaczonych parametrów do grupowania odpowiadających im komend w swoich klasach przy równoczesnym zwiększaniu rozdziału między różnymi klasami.
EN
In this paper, text-independent speaker recognition method based on Wavelet Transform and melcepstrum is presented. The results of experiments point the best parameters of Wavelet Transform for speaker identification, and can be useful for design speaker identification systems. This kind method of person identification is useful in services such as banking by telephone, access authorization to resources and for forensic purpose.
PL
W artykule zaprezentowano algorytmy zamiany głosu ludzkiego na postać cyfrową i na tej podstawie rozpoznawanie wydawanych komend. Przedstawiono opis algorytmu MFCC oraz jego aplikację działającą na platformie Raspberry Pi. Opisano spotykane open-source’owe programy umożliwiające rozpozanawanie mowy, działające w środowisku LINUX. Zaprezentowano koncepcję stanowiska dydaktycznego realizującego proste komendy głosowe. Przedstawiono rezultaty testów sprawdzających.
EN
The article features basic algorithms which are responsible for converting human voice into digital form. It also describes MFCC algorithm and the steps required to put it into practice. It includes presentation of the primary open-source software programs, that allow speech recognition in Linux environment, on the platform Raspberry Pi. At the end, the article presents a concept of didactic station, performing simple voice commands using Jasper program and its possibility to use in future.
PL
W pracy opisano przykładowy system rozpoznawania poleceń głosowych, wyposażony w bazę wiedzy zawierającą 21 słów. W systemie sygnał mowy jest dekomponowany za pomocą transformacji falkowej. Poszczególne pasma zdekomponowanego sygnału są poddawane analizie cepstralnej, w wyniku czego ekstrahowane są cechy związane z informacją, niesioną w sygnale mowy. Cechy te są następnie poddawane dwupoziomowej klasyfikacji za pomocą sieci neuronowej typu sieć samoorganizująca się. Skuteczność rozpoznawania w systemie, omówiona na końcu pracy, plasuje się na poziomie 39% (rozpoznawanie pewne) plus 43,5% (rozpoznawanie niepewne). Na końcu pracy zasugerujemy również metody potencjalnego podniesienia skuteczności rozpoznawania w proponowanym systemie.
EN
This work describes an example of voice commands recognition system, equipped with a database with 21 words included. The speech signal in the system is decomposed using Wavelet Transformation. Individual sub-bands of the decomposed signal are then analysed using cepsrtal analysis, and the features related to spoken information are extracted. This features are then classified with a self organizing map neural network. The effectiveness of recognition is about 39% (sure recognition), plus about 43,5% (unsure recognition). Addtionally, some potential improvements of the recognition effectiveness are proposed.
PL
W artykule omówiono zagadnienia dotyczące procesu rozpoznawania mowy w odniesieniu do układów sterowania. Projektowany system przewidziany jest dla prostych platform sprzętowych. W ramach pracy zastosowano do analizy szybką transformatę Fouriera FFT w celu utworzenia identyfikatorów słów. Określono czasy analizy sygnałów. Przeprowadzono wstępne testy opracowanego oprogramowania dla kilku różnych słów wypowiadanych przez osoby różniące się płcią oraz wiekiem. Uzyskano rozpoznawalność około 80% przy czasie obliczeń o połowę krótszym niż czas wymawiania komend. Krótki czas obliczeń pozwala na stosowanie opracowanego oprogramowania w systemach działających w czasie rzeczywistym np. na platformie Raspberry PI z procesorem 700 MHz.
EN
The paper presents issues related to the process of speech recognition in control systems. The system to be designed is dedicated for simple hardware platforms that do not have high computing power. In order to create word identifiers, Fast Fourier Transformation (FFT) was used. The project specified signal analysis time, after which, preliminary software tests were carried out for several different words pronounced by people of various gender and age. The result was voice recognition at the level of approximately 80%, with calculation time being half of command pronouncing time. Due to short calculation time, the software may be used in systems working in real time, e.g. on 700 MHz processor Raspberry PI platform.
PL
Artykuł opisuje implementację dostępu do systemu rozpoznawania mowy w lokalnej sieci komputerowej. Rozdzielenie zadania akwizycji i wstępnego przetworzenia sygnału od właściwego rozpoznawania pozwala przeznaczyć dedykowaną stację roboczą do rozpoznawania (wymagającego znacznej mocy obliczeniowej i pamięci), pozostawiając do wykonania stacjom - klientom tylko mało obciążające wstępne przetworzenie sygnału.
EN
This article presents an implementation of a client-server architecture of a speech recognition system in a local network. Separating the task of collecting and front-processing the raw speech data from the proper recognition lets the recognition system (which is time - and memory consuming) run on a dedicated host. Clients have to do only speech recording and small piece of initial processing, which does not require huge resources.
PL
W artykule zaprezentowano metodę generowania komunikatów głosowych w systemie fonicznym. Jako przykład wybrano komunikaty, które mogą znaleźć zastosowanie przy tworzeniu menu serwera poczty głosowej. Należy podkreślić, że zbudowanie zdania jako ciągu odpowiednich form wyrazów stanowi jeden z głównych problemów przy generowaniu tekstów. Szczególnie dotyczy to języków fleksyjnych, do których należy język polski. Różnorodność form wyrazów w języku polskim wnosi do tego zagadnienia podstawowe trudności. Wśród nich można zasygnalizować problem wyboru formy w zależności od kontekstu, czyli od otoczenia wyrazu. Za wybór odpowiednich form odpowiadają tzw. partykularne reguły gramatyki języka. W przedstawionej pracy zaproponowano kilka reguł przydatnych do algorytmizacji, a w przyszłości - do implementacji, której celem jest wysłanie komunikatów głosowych (ograniczonych klas) do użytkowników serwerów fonicznych.
EN
It may be surprise fo the native English speakers how a voice messages generation is complex in polish language. During localization a software application for Polish in most cases is a sufficient to present computer data in alphanumeric format. Unfortunate for Interactive Voice Response System voice massages must fully follow grammar rules. For example in this paper we presented classification of the 52 different grammar word forms for each number. Understanding the grammar rules it may be a very crucial for porting IVR system to Polish market.
PL
Artykuł dotyczy problematyki i rozpoznawania zależnego od kontekstu na przykładzie systemów rozpoznawania i genrowania mowy. Przedstawiono w nim zastosowanie sztucznych sieci neuronowych i ukrytych modeli Markowa w strukturze takich systemów. Zwrócono uwagę na potencjalne możliwości przyśpieszenia rozpoznania w systemach z sieciami neuronowymi po wykorzystaniu rozkazów technologii MMX.
EN
The article concerns the problem of context dependent recognition tasks on the basis of speech recognition and speech generation systems. We present use of ANNs and HMMs in the structure of such systems. We point out the potential possibility of speed-up the recogntion in systems with ANNs after utilization of MMX technology commands.
10
Content available remote Laboratoryjny system automatycznego rozpoznawania mowy
80%
PL
Przedstawiono implementację w środowisku programowo-sprzętowym MATLAB-dSPACE laboratoryjnego systemu automatycznego rozpoznawania mowy. Istotną cechą systemu jest wykorzystanie ukryrtych modeli Markowa do tworzenia modeli akustycznych mowy.
11
Content available remote Zasób mowy ROBOT
80%
PL
Przedstawiono opis zasobu mowy ROBOT, utworzonego dla potrzeb badań nad rozpoznawaniem mowy i mówcy w akustycznym interfejsie operator - uzbrojenie oraz nad segmentacją sygnału mowy.
12
Content available remote Obrazowa reprezentacja sygnału mowy
80%
PL
W opracowaniu przedstawiono obrazowe reprezentacje sygnału mowy. Odpowiednie reprezentacje otrzymano poprzez zobrazowanie następujących charakterystyk: współczynników liniowego kodowania predykcyjnego LPC, częstotliwości formantowych oraz momentów widmowych.
13
Content available remote Automatyczne rozpoznawanie i synteza mowy
80%
PL
Autorzy prezentują największą, audiowizualną bazę danych mowy polskiej i zarazem jedyną zrealizowaną w jakości HD. Artykuł przedstawia krótki opis podobnych baz dla innych języków oraz opis techniczny wykonanej bazy. Omówiono także napotkane wyzwania w trakcie realizacji bazy danych i jej planowane zastosowania.
EN
The biggest audiovisual database of Polish speech (and the only one made in HD quality) is presented. The paper shortly introduces description of similar databases for other languages and the technical specification of the AGH database. The challenges met during the process of building the database are discussed along with the planned applications.
PL
Język jest najpopularniejszym sposobem porozumiewania się ludzi między sobą, stanowi on bardzo uniwersalny i efektywny środek wyrazu. Na całym świecie od wielu lat trwają intensywne prace, mające na celu opracowanie efektywnych systemów automatycznego rozpoznawania mowy. Niestety, jeżeli chodzi o takie systemy dotyczące języka polskiego, to ich liczba zdecydowanie ustępuje odpowiednim systemom dla większości języków zachodnich. Aby stworzyć dogodny punkt startu do badań nad komputerowym przetwarzaniem języka polskiego, dokonano w tej pracy zbiorczego podsumowania i krytycznej rekapitulacji stanu badań światowych w tej dziedzinie. Na wstępie zostały zaprezentowane przyczyny wzrostu zainteresowania systemami rozpoznawania mowy oraz zakres ich zastosowań. Omówiono obszar zastosowań lingwistyki komputerowej zarówno teoretycznej jak i praktycznej. Przedstawiono problemy występujące w procesie rozpoznawania mowy uwzględniając problemy techniczne, modele języka oraz wydajność systemów. Główną część pracy stanowi wskazanie możliwych kierunków rozwoju systemów rozpoznawania mowy.
EN
Natural language is the easiest, most natural and effective way of communication between people. For many years, intensive researches on development of effective automatic natural language recognition systems have been conducted. Unfortunately, the number of such systems concerning Polish language is quite less than similar systems for other languages, especially western Europe ones. In purpose of creating convenient starting point for researchers on Polish language general recapitulation of worldly surveys were accomplished. Firstly, the main reasons for the growth of interest in speech recognition systems and their application were presented. Application fields of theoretical and practical computational linguistics were discussed. Various difficulties related to automatic speech recognition (including technical problems, language models and system performance) were mentioned. The main section of the paper was devoted to pointing out possibilities of automatic speech recognition systems development.
EN
Mainstream automatic speech recognition has focused almost exclusively on the acoustic signal. The performance of these systems degrades considerably in the real word in the presence of noise. It was needed novel approaches that use other orthogonal sources of information to the acoustic input that not only considerably improve the performance in severely degraded conditions, but also are independent to the type of noise and reverberation. Visual speech is one such source not perturbed by the acoustic environment and noise. In this paper, it was presented own approach to lip-tracking for audio-visual speech recognition system. It was presented video analysis of visual speech for extraction visual features from a talking person in color video sequences. It was developed a method for automatically face, eyes, lip's region, lip's corners and lip's contour de-tection. Finally, the paper will show results of lip-tracking depending on various factors (lighting, beard).
PL
Artykuł opisuje słownik języka polskiego zaimplementowany w postaci bazy danych na potrzeby systemu rozpoznawania mowy. Przedstawiono zastosowania słownika do poprawienia jakości rozpoznania przez modelowanie języka z wykorzystaniem danych przechowywanych w bazie. Zawarto także informacje na temat danych znajdujących się w bazie na koniec stycznia 2011 roku.
EN
A dictionary of Polish implemented as a data base for automatic speech recognition is presented. The dictionary allows improvement of recognition by language modelling using statistics stored in the data base. The data currently kept in the database are presented as well.
18
60%
EN
Spectral compression is an effective robust feature extraction technique to reduce the mismatch between training and testing data in feature domain. In this paper we propose a new MFCC feature extraction method with non-uniform spectral compression for speech recognition in noisy environments. In this method, the energies of the outputs of the mel-scaled band pass filters are compressed by different root values adjusted based on information from the back-end of speech recognition system. Using this new scheme of speech recognizer based non-uniform spectral compression (SRNSC) for mel-scaled filter-bank-based cepstral coefficients, substantial improvement is found for recognition in presence of different additive noises with different SNR values on TIMIT database, as compared to the standard MFCC and features derived with cubic root spectral compression.
PL
Kompresja spektralna jest efektywną i niezawodną techniką wyodrębniania cech w celu zmniejszenia niedopasowania między danymi uczącymi i testowymi w domenie cech. W tym artykule proponujemy nową metodę wyodrębniania cech MFCC z niejednorodną kompresją spektralną do rozpoznawania mowy w hałaśliwym otoczeniu. W opisywanej metodzie, energie wyjść pasmowych filtrów skali melowej są kompresowane przez różne wartości bazowe wyznaczone na podstawie informacji z back-endu systemu rozpoznawania mowy. Stosując ten nowy schemat niejednorodnej kompresji spektralnej (SRNSC) opartej na rozpoznawaniu mowy dla współczynników cepstralnych opartych na banku filtrów o skali melowej, stwierdzono znaczną poprawę rozpoznawania w obecności różnych szumów addytywnych o różnych wartościach SNR z bazy danych TIMIT, w porównaniu do standardowego MFCC i cech wyznaczonych za pomocą pierwiastkowej kompresji spektralnej.
EN
In the work has been shown from studies concerning the application of modified acoustic signal processing methods to the task of evaluation and classification of larynx surgery effects. The goal of the standard speech recognition studies is to reveal the semantic aspects of the pronounced text. In the tasks of medical diagnosis employing the speech signal analysis the semantic aspects are insignificant. The required signal characteristics should be as sensitive as possible to small deformations of the layers directly related to the voice functioning and the structure of vocal tract. The goal of the work is presentation of voice quality after various surgical treatments, performed in the ENT area. The research subject is the speech articulation process itself and all its pathological deformations, which determines both the used signal analysis tools as well as the techniques of the selected objects recognition, which are the forms of the particular ill person speech deformation forms in comparison to the speech of the whole sound people population. The evaluation has been carried out both for voice quality after larynx surgery as well as voice quality after surgical treatment of resonance cavities (nose, paranasal sinussis). The study was oriented towards the construction of systems based on the analysis of objectively registered acoustic signals of deformed speech.
PL
W pracy przedstawiono badania dotyczące metod przetwarzania sygnału akustycznego do oceny i klasyfikacji mowy po zabiegach w obrębie kanału głosowego. W zagadnieniach rozpoznawania mowy, problem dotyczy ujawniania semantycznych aspektów wypowiedzi. Natomiast w zagadnieniach diagnostyki medycznej przy wykorzystaniu sygnału mowy, cechy semantyczne są nieistotne. Poszukiwane cechy sygnału mowy winny być wrażliwe na małe deformacje, które mogą wystąpić w poszczególnych warstwach kanału głosowego. Celem pracy jest ocena jakości głosu po różnorodnych zabiegach chirurgicznych wykonanych w obszarze kanału głosowego. Tematem badań jest zarówno sam proces artykulacji mowy, jak i jego patologiczne deformacje. Diagnostykę narządu głosu można określić jako jednoznaczne rozpoznanie cech aktualnego stanu źródła głosu na podstawie zespołu istotnych cech akustycznych, zwartych w sygnale akustycznym. Ocena jakości głosu została przeprowadzona dla osób po chirurgicznym leczeniu krtani, nosa oraz zatok przynosowych. Badania zostały ukierunkowane na stworzenie systemu analizy umożliwiającego obiektywne rozpoznawanie deformacji sygnału mowy.
EN
In the paper, the method of short word deletion errors correction in automatic speech recognition is described. Short word deletion errors appear to be a frequent error type in Polish speech recognition. The proposed speech recognition process consists of two stages. At the first stage the utterance is recognized by a typical speech recognizer based on forward bigram language model. At the second stage the word sequence recognized by the first stage recognizer is analyzed and such pairs of adjacent words in the recognized sequence are localized, which are likely to be separated by a short word like conjunction or preposition. The probability of short word appearance in context of found words is evaluated using centered trigrams and backward bigram language model for short words prone to deletion. The set of probabilistic language properties used to correct deletions is called here Local Bidirectional Language Model (in contrast to purely forward or backward model used typically in speech recognition). The decision of short word insertion is based on comparison of deletion error probability of the first stage recognizer and the error probability of the decision based only on centered trigrams and backward model. Despite its simplicity, the method proved to be effective in correcting deletion errors of most frequently appearing Polish prepositions. The method was tested in application to medical spoken reports recognition, where the overall short word deletion error rate was reduced by almost 45%.
first rewind previous Strona / 4 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.