Metody i narzędzia rozpoznawania mowy w zastosowaniach niekomercyjnych

Rykowski, J.

Artykuł - szczegóły

Tytuł artykułu

Metody i narzędzia rozpoznawania mowy w zastosowaniach niekomercyjnych

Autorzy

Rykowski J.

Wybrane pełne teksty z tego czasopisma

http://nis.com.pl/artykuly-naukowe.html

Identyfikatory

Warianty tytułu

Methods and tools for automatic voice recognition for noncommercial use

Języki publikacji

Abstrakty

W artykule przedyskutowano problem zaprojektowania systemu rozpoznawania mowy. W tekście pokazano, jak stosunkowo tanim kosztem, zarówno z punktu widzenia programisty (koszty przygotowania programu), jak i końcowego użytkownika (koszty nauki korzystania z systemu), uzyskać efektywną możliwość komunikacji głosowej z komputerem. Artykuł pokazuje, po pierwsze, że rozpoznawanie mowy na potrzeby amatorskie i półprofesjonalne jest obecnie jak najbardziej możliwe i wymaga minimalnych nakładów na sprzęt audio (w zasadzie wystarczy mikrofon i głośnik wbudowany praktycznie w każdy komputer). Po drugie, dla języka programowania Java są dostępne co najmniej dwa rozwiązania niekomercyjne, za które nie trzeba bezpośrednio płacić: biblioteka Sphinx oraz usługa Google Voice Translator dostępna za pomocą biblioteki Jarvis. Google oferuje ponadto możliwość syntezy (i odtworzenia w głośniku komputera) dowolnego komunikatu głosowego na podstawie przesłanego tekstu. Po trzecie, rozpoznanie mowy jest dostępne dla dowolnego mówcy (systemu nie trzeba uczyć wymowy, intonacji, akcentu, definiować słownika itp.) i przebiega z bardzo dużą skutecznością, która w zupełności wystarcza w większości zastosowań amatorskich.

In this paper a problem is discussed of effective development of an automatic voice-recognition system for noncommercial use. The text shows how, at a relatively cheap cost, both from the point of view of the programmer (the cost of preparing the program), as well as the end-user (the cost of learning how to use the system), to obtain effective voice communication with the computer. The goal of the paper is threefold. First, it is shown that automatic voice recognition for amateur usage is at the moment quite easy to achieve – it is enough to utilize standard microphone/speaker of any computer. Second, there are at least two noncommercial software solutions based on popular Java programming language: Sphinx library and Google Voice Translator to be accessed via JARVIS library. In addition, Google offers a possibility of voice synthesis based on any text, in almost any national language. Third, the system easily recognizes voice commands of any speaker, regardless pronunciation, intonation, accent, etc., and the overall effectiveness is sufficient for most amateur applications.

Słowa kluczowe

system rozpoznawania mowy komunikacja werbalna łańcuchy Markowa

speech recognition system verbal communication Markov chains

Wydawca

Wydawnictwo "Druk-Art" SC

Czasopismo

Napędy i Sterowanie

Rocznik

2014

Tom

R. 16, nr 6

Strony

116--123

Opis fizyczny

Bibliogr. 13 poz., rys.

Twórcy

autor

Rykowski J.

Katedra Technologii Informacyjnych, Uniwersytet Ekonomiczny, Poznań

Bibliografia

[1] Ghai W., Singh N.: Literature Review on Automatic Speech Recognition. International Journal of Computer Applications, vol. 41, no. 8, 2012, pp. 42-50.
[2] What is BNF notation?, http://cui.unige.ch/db-research/Ense- ignement/analyseinfo/AboutBNF.html.
[3]Ghahramani Z.: An introduction to Hidden Markov Models and Bayesian Networks, mlg.eng.cam.ac.uk/zoubin/papers/ijprai.pdf.
[4] N-gram - model językowy stosowany w rozpoznawaniu mowy, http://pl.wikipedia.org/wiki/N-gram.
[5] Home Page of The Loebner Prize in Artificial Intelligence, http:// www.loebner.net/Prizef/loebner-prize.html.
[6] Rykowski J.: Using software agents to personalize natural-language access to Internet services in a chatterbot manner. 2nd Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Lingusitics, ed. Zygmunt Vetulani, 2005, s. 269-273.
[7] Strona CMUSphinx.sourceforge.net, „Basic Concepts of Speech”, http://cmusphinx.sourceforge.net/wiki/tutorialconcepts.
[8] Opis języka definiowania gramatyki JSGF, http://www.w3.org/ TR/2000/NOTE-jsgf-20000605/.
[9] FLAC - free lossless audio codec, https://xiph.org/flac/features. html.
[10] Pultz M.: Accessing Google Speech API / Chrome 11, http://mikepultz.com/2011/03/accessing-google-speech-api-chrome-ll/.
[11] ECMA-404 The JSON Data Interchange Standard, http://www. json.org/.
[12] Strona domowa biblioteki JARVIS, https://github.com/The-Sha- dow/java-speech-api.
[13] Oficjalna strona projektu JLayer, http://www.javazoom.net/ja- valayer/j avalayer.html.

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-7de1f931-dde1-4201-92db-630fad9861af