PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

System rozpoznawania mowy z ograniczonym słownikiem

Treść / Zawartość
Identyfikatory
Warianty tytułu
EN
Speech recognition system with limited dictionary
Języki publikacji
PL
Abstrakty
PL
Motywacją w pisanej pracy jest omówienie i porównanie popularnych algorytmów rozpoznawania mowy na różnych systemach. Zebrane informacje są przedstawione w stosunkowo krótkiej formie, bez wnikliwej analizy dowodów matematycznych, do których przedstawienia i tak potrzebne jest odniesienie się do odrębnych specjalistycznych źródeł. Omówione zostały tutaj problemy pewne związane z ASR (ang. Automatic Speech Recognition) i perspektywy na rozwiązanie ich. Na podstawie dostępnych rozwiązań stworzony został moduł aplikacji umożliwiający porównywanie zebranych nagrań pod kątem podobieństwa sygnału mowy i przedstawienie wyników w formie tabelarycznej. Stworzona biblioteka w celach prezentacyjnych została użyta do pełnej aplikacji umożliwiającej wykonywanie rozkazów na podstawie słów wypowiadanych do mikrofonu. Wyniki posłużą nie tyle za ostateczne wnioski w tematyce rozpoznawania mowy, co za wskazówki do kolejnych analiz i badań. Mimo postępów w badaniach nad ASR, nadal nie ma algorytmów o skuteczności przekraczającej 95%. Motywacją do dalszych działań może być np. społeczne wykluczenie ludzi nie mogących posługiwać się komunikacją polegającą na wzroku.
EN
Motivation of this thesis is discussion about popular ASR algorithms and comparision on various architectures. Collected results are presented in relatively short shape. It’s done without math argumentation because it could depend on complicated equations. Here are discussed some problems associated with ASR (Automatic Speech Recognition) and the prospects for a solution to their. On the basis of available solutions it was developed application module that allows comparison of collected recordings in respect of similarity of the speech signal and present the results in tabular form. For presentation purposes it has been created a library and it was used in complete application that allows execution of commands based on the words spoken to microphone. The results will be used not only for the final conclusions about ASR, what clues for further analysis and research. Despite the advances in research on ASR, still there are no algorithms for effectiveness in excess of 95%. The motivation for further actions may be, eg, the social exclusion of people who can not use the communication involving the eye
Słowa kluczowe
Twórcy
autor
  • Państwowa Wyższa Szkoła Informatyki i Przedsiębiorczości, Instytut Automatyki i Robotyki, ul. Akademicka 14, 18-400 Łomża
  • Uniwersytet Marii Curie-Skłodowskiej w Lublinie, Wydział Matematyki, Fizyki i Informatyki, pl. Marii Curie-Skłodowskiej 5, 20-031 Lublin
  • Państwowa Wyższa Szkoła Informatyki i Przedsiębiorczości, Instytut Automatyki i Robotyki, ul. Akademicka 14, 18-400 Łomża
Bibliografia
  • [1] X. Huang, Spoken Language Processing - A Guide to Theory, Algorithm, and System Development, Prentice Hall PTR 2001.
  • [2] A. M. Wiśniewski, Automatyczne rozpoznawanie mowy bazujące na ukrytych modelach Markowa – problemy i metody, Biuletyn Instytutu Automatyki i Robotyki WAT nr 12, 2001.
  • [3] A. Viterbi, Eror bounds for convolutional codes and an asymptotically optimum decoding algorithm, IEEE Trans. Information Theory, vol IT-13, pp 260-269, 1967
  • [4] J. Schalkwyk, P. Hoson, E. Kasier, K. Shobaki, CSLU -HMM: The CSLU Hidden Markov Modelling Environment, Center of Spoken Language Understanding, Oregon Graduate Institute of Science & Technology
  • [5] F. Fissore, E. Giachin, P. Laface, P. Massafra, Using Grammars in forward and backward search, Proceedings Eurospeech 9, Berlin 1993.
  • [6] M. Schedl, http://www.cp.jku.at/people/schedl/Research/Development/CoMIRVA/webpage/CoMIRVA.html,stan z dnia 25.01.2013.
  • [7] Carnegie Mellon University, http://cmusphinx.sourceforge.net/,stan z dnia 25.01.2013.
  • [8] Carnegie Mellon University, http://www.speech.cs.cmu.edu/, stan z dnia 25.01.2013.
  • [9] NVIDIA Corporation, http://www.nvidia.pl/object/cuda_home_new_pl.html, stan z dnia 25.01.2013
  • [10] Massachusetts Institute of Technology, http://mit.edu, stan z dnia 25.01.2013.
  • [11] Alcatel- Lucent (Bell Labs) http://www.alcatel-lucent.com,stan z dnia 25.01.2013.
  • [12] G. Moore, Cramming more components onto integrated circuits, Electronics, Volume 38, Number 8, April 19, 1965.
  • [13] On Board PR Ecco Network, http://www.onboard.pl/data/file/pdf/raport__swiadomosc_polakow_w_rzeczywistosci_cyfrowej.pdf,stan z dnia 25.01.2013
  • [14] K. R. Farrell, R. J. Mammone, K. T. Assaleh, Speaker Recognition Using Neural Networks and Conventional Classifiers, IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL. 2, NO. 1, PART 11,JANUARY 1994.
  • [15] T. P. Zieliński, Cyfrowe Przetwarzanie Sygnałów –Od Teorii do Zastosowań, Wydawnictwa Komunikacji i Łączności, Wydanie 1, Warszawa 2005
  • [16] Rada Języka Polskiego, http://www.rjp.pan.pl, stan z dnia 25.01.2013.
  • [17] Eclipse Fundation, http://www.eclipse.org, stan z dnia 04.02.2013.
  • [18] Oracle Corporation, http://www.oracle.com, stan z dnia 04.02.2013.
  • [19] R.J. Marks II, Introduction to Shannon Sampling and Interpolation Theory, Spinger-Verlag, New York 1991.
  • [20] W. Chen, https://blogs.oracle.com/Swing/entry/awt_swt_swing_java_gui3, stan z dnia 05.02.2013.
  • [21] Oracle Corporation, Swing 1.3 features http://docs.oracle.com/javase/1.3/docs/relnotes/features.html, stan z dnia 05.02.2013.
  • [22] M. L. Seltzer, Microphone Array Processing for Robust Speech Recognition, Carnegie Mellon University,Pittsburgh 2003.
  • [23] Microsoft, http://msdn.microsoft.com/pl-pl/ms348103.aspx, stan z dnia 07.02.2013.
  • [24] Microsoft, MSDN http://msdn.microsoft.com/en-us/vstudio/hh341490.aspx, stan z dnia 07.02.2013.
  • [25] Social Press, http://socialpress.pl/2013/02/sotrenderpodsumowuje-2012-rok-na-polskim-facebooku-popularnosc-marek-rosnie-w-bardzo-szybkim-tempie/#,stan z dnia 08.02.2013.
  • [26] Gazeta Wyborcza, http://wyborcza.biz/biznes/1,101562,6289081,Nokia_bierze_Skype_a_na_poklad.html, stan z dnia 08.02.2013
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-e011d588-c340-4f9d-a380-91825de877aa
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.