Wyniki wyszukiwania - BazTech

1

Voice Controlled Games – The approach and challenges of implementing speech recognition and voice control in games

Strzałko Dominik

Annals of Computer Science and Information Systems

|

2021

|

Vol. 26

229--230

EN

The subject of voice controlled games is quite underrated and exciting. Even though there are not that many papers focusing on that particular subject, we can find many papers describing both, concept of voice recognition, and controlling the game using natural language. The most illustrative example of usage of that kind of control are games in VR/AR/MR and games for people with disabilities. Moreover, almost every game can benefit from voice commands e.g. for controlling the user interface or units in strategy game. Therefore, voice controlled games are an interesting and innovative concept for game designers and developers.

2

Zastosowanie uczenia maszynowego w budowie interfejsu sterowanego głosem na przykładzie odtwarzacza muzyki

Basiakowski Jakub

Journal of Computer Sciences Institute

|

2019

|

Vol. 13

302--309

PL

Poniższy artykuł przedstawia wyniki badań wpływu zastosowania uczenia maszynowego w budowie interfejsu sterowanego głosem. Do analizy wykorzystane zostały dwa różne modele: jednokierunkowa sieć neuronowa zawierająca jedną warstwę ukrytą oraz bardziej skomplikowana konwolucyjna sieć neuronowa. Dodatkowo wykonane zostało porównanie modeli użytych w celu realizacji badań pod względem jakości oraz przebiegu treningu.

EN

The following paper presents the results of research on the impact of machine learning in the construction of a voice-controlled interface. Two different models were used for the analysys: a feedforward neural network containing one hidden layer and a more complicated convolutional neural network. What is more, a comparison of the applied models was presented. This comparison was performed in terms of quality and the course of training.

3

Using gesture and voice commands for the Tribot robot control

Czekalski P., Golenia M., Lipka Ł., Tokarz K.

Studia Informatica

|

2015

|

Vol. 36, nr 3

11--25

EN

Presented project integrates seamlessly modern device control methods into one, solid solution. The Project is in touch-less control algorithm to the robotics, considered as a technology sampler for feature industrial usage. It implements gesture and voice recognition based solution to control the mobile Tribot robot driving over flat, two dimensional surface. It integrates Microsoft Kinect sensor, Lego Mindstorms NXT robot and a PC computer all together. It also provides voice con-trolled calibration of the human to machine interface.

PL

W dokumencie opisano projekt, w którym zintegrowano nowoczesne metody sterowania bezdotykowego robotem mobilnym przy użyciu gestów oraz rozpoznawania głosu. Przedmiotem sterowania jest robot zbudowany na platformie Lego Mindstorms NXT, poruszający się po dwuwymiarowej przestrzeni. Rozwiązanie integruje sensor Microsoft Kinect do sterowania robotem oraz metodę kalibracji położenia użytkownika za pomocą rozpoznawania komend głosowych.

4

Speaker recognition based on the combination of GMM and SVDD

Zhou Y., Zhang X., Wang J., Gong Y., Zhou Y.

Przegląd Elektrotechniczny

|

2011

|

R. 87, nr 3

329-332

EN

Scare-level combination of subsystems can yield significant performance gains over individual subsystems in speaker recognition. A novel speaker verification method based on support vector data description (SVDD) is proposed to remedy the defect of Gaussian mixture model (GMM) to same extent, and then using the theory of multiple classifier systems (MCS),a new speaker recognition system based on the combination of GMM and SVDD is proposed. Experiments on TlMIT speech database show that the GMM-SVDD model fully utilizes the complementarities of GMM and SVDD to improve the performance obviously in speaker verification, closed-set speaker identification and speaker recognition.

PL

Zaproponowano nowa metodę rozpoznawania głosu bazującą na systemie SVDD jako alternatywę dla modelu GMM. Następnie wykorzystując teorię wielokrotnego systemu klasyfikacji MCS zaproponowano wykorzystanie połączenia systemów GMM i SVDD. Eksperymenty potwierdziły że nowy model GMM-SVOO umożliwia ulepszonę rozpoznawanie głosu.

5

Voice control of visual supervision system based on spectral analysis using mean square error measure

Pęksiński J., Mikołajczak G.

Poznan University of Technology Academic Journals. Electrical Engineering

|

2010

|

No. 63

89-94

EN

The authors presented in the study human voice recognition algorithm, which functioning is based on analysis of spectrograms with MSE (mean square error) quality measure utilization, which is employed for digital images comparing. The algorithm of human voice recognition proposed in the article was practically used for voice control of visual supervision system.

6

Spoken digit recognition using generalized Brain-State-in-a-Box Model

Starczewski K.

Przegląd Elektrotechniczny

|

2006

|

R. 82, nr 1

43-46

EN

In this paper an approach to spoken digit recognition using generalized Brain-State-in-a-Box (gBSB) model is shown. The author presents several methods of feature extraction from sampled human voice signals and some major problems of implementation. Experimental results and working examples are included.

PL

Praca przedstawia nowatorskie podejście do problemu rozpoznawania cyfr z mowy ludzkiej z wykorzystaniem modelu Brain-State-in-a-Box (gBSB). Autor prezentuje również kilka metod ekstrakcji unikalnego wektora cech dla danej cyfr z przygotowanych wcześniej próbek dźwiękowych. Omówione są pewne problemy implementacyjne. Całość jest zilustrowana przykładami.

7

Systemy rozpoznawania mowy w zastosowaniach telekomunikacyjnych

Korzec Z., Jędrzejewski D., Kluszczyński K.

Elektronika : prace naukowe

|

1998

|

nr 3

149-161

PL

Systemy rozpoznawania mowy znajdują w ostatnich latach coraz szersze zastosowania w wielu dziedzinach, a wprowadzanie ich do telekomunikacji przebiega szczególnie dynamiczne. W artykule przedstawiony jest syntetyczny zbiór informacji dotyczących realizacji tego rodzaju systemów a następnie podane zostały przykłady ich zastosowań w automatycznych centralach telefonicznych, centrach informacji, i innych. Na tle aktualnego stanu wiedzy w tej dziedzinie omówione zostały prace projektowe i badawcze z tego zakresu prowadzone w Instytucie Elektroniki Politechniki Łódzkiej.

EN

Voice processing has been a subject of research for several decades, but in the past few years the technology was developed sufficiently to make the voice recognition systems ready for wide range of applications. In this paper, after some general remarks on speech recognition systems technology, the main applications to telecommunications are reviewed. There are two broad categories of speech recognition applications to telecommunications; namely, those which provide cost reduction, and those which generate revenue. Cost reduction applications are those which replace human attendants by speech recognition systems. The second wide category include applications which provide services that were previously not available: touch tone replacement by voice recognition, voice access information systems, speaker verification, etc. In the final sections some glimpses on the works carried in this field in Institute of Electronics are incuded.

8

Rozpoznawanie głosów na podstawie dyskryminacji amplitudowej sygnału mowy

Shomali A., Kapusta M.

Automatyka / Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie

|

1998

|

T. 2, z. 1

91--103

PL

Artykuł przedstawia nowy sposób opisu sygnałów mowy oraz jego wykorzystanie dla celów rozpoznawania głosu. Doświadczenie z rozpoznawaniem, opisane w artykule, oparto na nagraniach siedmiu głosów (żeńskie i męskie) w trzech różnych językach (polski, arabski i angielski). Głosy były zarejestrowane w warunkach laboratoryjnych (w komorze bezechowej za pomocą wysokiej klasy aparatury rejestrującej) i w pokojowych, za pomocą karty dźwiękowej komputera osobistego i zwykłego mikrofonu (wyższy poziom hałasu). Zaproponowana w artykule nowa metoda rozpoznawania jest wyjątkowo prostą (nieporównywalnie mniejsza złożoność obliczeniowa niż w przypadku innych metod) i skuteczną metodą rozpoznawania. Metoda ta nakłada zdecydowanie mniej ograniczeń co do treści (jak i języka) badanych wypowiedzi niż inne metody. Wykazano bowiem, że za jej pomocą można rozpoznać głos niezależnie od treści wypowiedzi, jak i od jej, mimo iż rozpoznawane wypowiedzi były rozdzielone w sposób «ślepy» (tj. niezależnie od początku i końca słów), to metoda ta daje zadawalające wyniki. Ponadto wypowiedzi nagrywane w warunkach pokojowych były zdecydowanie dobrze rozpoznawane. Pokazano również, że ewentualna realizacja sprzętowa (bądź programowa w języku maszynowym) obliczeń związanych z przedstawioną metodą dyskryminacji amplitudowej jest prosta i co zatem idzie mało kosztowna. W artykule zasygnalizowano jednocześnie przydatność metody dyskryminacji amplitudowej dla celów rozpoznawania języka. Zaproponowana w artykule metoda (jak większość metod rozpoznawania głosu i mowy) jest zależna od właściwości kanału transmisyjnego sygnału, zwłaszcza od jego wzmocnienia. W związku z tym przedstawiono łatwy sposób wyrównania wpływu wzmocnienia kanału poprzez dopasowania poziomu mocy (lub średniej amplitudy) porównywanych sygnałów.

EN

In this correspondence a new method for speech signal presentation applying amplitude discrimination is illustrated, the appliance of this method to voice recognition is discussed. The voice recognition experiment described here is established on seven different voices (female and male) that were registered in three languages (Polish, Arabie and English). Two variants of registration apparatus and environments were considered: anechoic chamber (noise free, high elass microphone and recording apparatus) and room conditions (noisy, PC multimedia were used for registration). Amplitude discrimination method is particularly simple (incomparably lower computing complexity in contrast with other methods) and quite efficient. The presented method definitively imposes fewer limitations on utterances' text and language for it proved to be almost text and language independent operating well and accomplishing good results. Moreover, despite the fact that utterances were «blindly» segmented (i.e. independently of words' boundaries) adequate results were achieved. Furthermore, utterances registered in noisy environment were also defmitely well elassified. In addition, it was shown that hardware implementation (of software using machine language) of computations associated with amplitude discrimination would be simple and therefore inexpensive. Besides, the usability of amplitude discrimination for automatic language identification was also signalized. The introduced method (just like most other voice and speech recognition methods) is sensitive to channel characteristies specially to gain. Therefore, an easy technique for gain influence compensation applying power level or mean amplitude matching (gain normalization) of compared signals is suggested.