Czasopismo
2014
|
R. 16, nr 6
|
116--123
Tytuł artykułu
Autorzy
Wybrane pełne teksty z tego czasopisma
Warianty tytułu
Methods and tools for automatic voice recognition for noncommercial use
Języki publikacji
Abstrakty
W artykule przedyskutowano problem zaprojektowania systemu rozpoznawania mowy. W tekście pokazano, jak stosunkowo tanim kosztem, zarówno z punktu widzenia programisty (koszty przygotowania programu), jak i końcowego użytkownika (koszty nauki korzystania z systemu), uzyskać efektywną możliwość komunikacji głosowej z komputerem. Artykuł pokazuje, po pierwsze, że rozpoznawanie mowy na potrzeby amatorskie i półprofesjonalne jest obecnie jak najbardziej możliwe i wymaga minimalnych nakładów na sprzęt audio (w zasadzie wystarczy mikrofon i głośnik wbudowany praktycznie w każdy komputer). Po drugie, dla języka programowania Java są dostępne co najmniej dwa rozwiązania niekomercyjne, za które nie trzeba bezpośrednio płacić: biblioteka Sphinx oraz usługa Google Voice Translator dostępna za pomocą biblioteki Jarvis. Google oferuje ponadto możliwość syntezy (i odtworzenia w głośniku komputera) dowolnego komunikatu głosowego na podstawie przesłanego tekstu. Po trzecie, rozpoznanie mowy jest dostępne dla dowolnego mówcy (systemu nie trzeba uczyć wymowy, intonacji, akcentu, definiować słownika itp.) i przebiega z bardzo dużą skutecznością, która w zupełności wystarcza w większości zastosowań amatorskich.
In this paper a problem is discussed of effective development of an automatic voice-recognition system for noncommercial use. The text shows how, at a relatively cheap cost, both from the point of view of the programmer (the cost of preparing the program), as well as the end-user (the cost of learning how to use the system), to obtain effective voice communication with the computer. The goal of the paper is threefold. First, it is shown that automatic voice recognition for amateur usage is at the moment quite easy to achieve – it is enough to utilize standard microphone/speaker of any computer. Second, there are at least two noncommercial software solutions based on popular Java programming language: Sphinx library and Google Voice Translator to be accessed via JARVIS library. In addition, Google offers a possibility of voice synthesis based on any text, in almost any national language. Third, the system easily recognizes voice commands of any speaker, regardless pronunciation, intonation, accent, etc., and the overall effectiveness is sufficient for most amateur applications.
Czasopismo
Rocznik
Tom
Strony
116--123
Opis fizyczny
Bibliogr. 13 poz., rys.
Twórcy
autor
- Katedra Technologii Informacyjnych, Uniwersytet Ekonomiczny, Poznań
Bibliografia
- [1] Ghai W., Singh N.: Literature Review on Automatic Speech Recognition. International Journal of Computer Applications, vol. 41, no. 8, 2012, pp. 42-50.
- [2] What is BNF notation?, http://cui.unige.ch/db-research/Ense- ignement/analyseinfo/AboutBNF.html.
- [3]Ghahramani Z.: An introduction to Hidden Markov Models and Bayesian Networks, mlg.eng.cam.ac.uk/zoubin/papers/ijprai.pdf.
- [4] N-gram - model językowy stosowany w rozpoznawaniu mowy, http://pl.wikipedia.org/wiki/N-gram.
- [5] Home Page of The Loebner Prize in Artificial Intelligence, http:// www.loebner.net/Prizef/loebner-prize.html.
- [6] Rykowski J.: Using software agents to personalize natural-language access to Internet services in a chatterbot manner. 2nd Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Lingusitics, ed. Zygmunt Vetulani, 2005, s. 269-273.
- [7] Strona CMUSphinx.sourceforge.net, „Basic Concepts of Speech”, http://cmusphinx.sourceforge.net/wiki/tutorialconcepts.
- [8] Opis języka definiowania gramatyki JSGF, http://www.w3.org/ TR/2000/NOTE-jsgf-20000605/.
- [9] FLAC - free lossless audio codec, https://xiph.org/flac/features. html.
- [10] Pultz M.: Accessing Google Speech API / Chrome 11, http://mikepultz.com/2011/03/accessing-google-speech-api-chrome-ll/.
- [11] ECMA-404 The JSON Data Interchange Standard, http://www. json.org/.
- [12] Strona domowa biblioteki JARVIS, https://github.com/The-Sha- dow/java-speech-api.
- [13] Oficjalna strona projektu JLayer, http://www.javazoom.net/ja- valayer/j avalayer.html.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.baztech-7de1f931-dde1-4201-92db-630fad9861af