PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

System rozpoznawania mowy polskiej dla robota społecznego

Treść / Zawartość
Identyfikatory
Warianty tytułu
EN
Automatic Speech Recognition System for Polish Dedicated for a Social Robot
Języki publikacji
PL
Abstrakty
PL
W artykule przedstawiono system automatycznego rozpoznawania mowy polskiej dedykowany dla robota społecznego. System oparty jest na bezpłatnej i otwartej bibliotece oprogramowania pocketsphinx (CMU Sphinx). Przygotowano zbiory nagrań: treningowy i testowy wraz z transkrypcjami. Zbiór treningowy obejmował głosy 10 kobiet i 10 mężczyzn i został przygotowany na podstawie audiobooków, natomiast zbiór testowy – głosy 3 kobiet i 3 mężczyzn nagrane w warunkach laboratoryjnych specjalnie na potrzeby pracy. Przygotowany zbiór fonemów dla języka polskiego, składający się z 39 fonemów, opracowany został na podstawie dwóch popularnych zbiorów dostępnych danych. Słownik fonetyczny opracowano za pomocą funkcjonalności konwersji grapheme-to-phoneme z biblioteki eSpeak. Model statystyczny języka dla tekstu referencyjnego składającego się z 76 komend wygenerowano za pomocą programu cmuclmtk (CMU Sphinx). Uczenie modelu akustycznego oraz test jakości rozpoznawania mowy przeprowadzono za pomocą programu sphinxtrain (CMU Sphinx). W warunkach laboratoryjnych uzyskano wskaźnik błędu rozpoznawania słów (WER) na poziomie 4% i błędu rozpoznawania zdań (SER) na poziomie 9%. Przeprowadzono też badania systemu w warunkach rzeczywistych na grupie testowej złożonej z 2 kobiet i 3 mężczyzn, uzyskując wstępne wyniki rozpoznawania na poziomie 10% (SER) z bliskiej odległości oraz 60% (SER) z odległości 3 m. Określono kierunki dalszych prac.
EN
Automatic Speech Recognition system for Polish and dedicated for social robotics applications is presented. The system is based on free and open software library pocketsphinx (CMU Sphinx). Training and test databases were prepared with transcriptions; the training database comprised voices of 10 women and 10 men, and it was prepared based on audiobooks, whereas the test database comprised voices of 3 women and 3 men recorded in laboratory conditions as a part of the present work. A phoneme set for Polish consisting of 39 phonemes based on two popular sets from other researchers was prepared. The phonetic dictionary was obtained using graphemeto-phoneme conversion from the eSpeak tool for speech synthesis. The language statistic model for the reference text including 76 commands was generated using cmuclmtk tool (CMU Sphinx). Training of the acoustic model and test of quality of speech recognition was conducted using the sphinxtrain tool (CMU Sphinx). The following error rates were obtained for laboratory conditions: 4% (WER) and 9% (SER). Next, investigations of the system in relevant real environment were conducted. The initial, tentative results are about 10% (SER) for the close distance of a speaker to a microphone, and about 60% (SER) for 3 m speaker-microphone distance. Directions of future works are formulated.
Rocznik
Strony
27--36
Opis fizyczny
Bibliogr. 26 poz., fot., rys., tab.
Twórcy
autor
  • Politechnika Warszawska, Wydział Mechaniczny Energetyki i Lotnictwa, ul. Nowowiejska 24, 00-665 Warszawa
autor
  • Politechnika Warszawska, Wydział Elektroniki i Technik Informacyjnych, Instytut Telekomunikacji, ul. Nowowiejska 15/19, 00-665 Warszawa
autor
  • Przemysłowy Instytut Automatyki i Pomiarów PIAP, Al. Jerozolimskie 202, 02-486 Warszawa
Bibliografia
  • 1. Robotics 2020 – Multi-Annual Roadmap. ICT 2016 (ICT 25 & ICT 26).
  • 2. Fischinger D., Einramhof P., Papoutsakis K., Wohlkinger W., Mayer P., Panek P., Hofmann S., Koertner T., Weiss A., Argyros A., Vincze M., Hobbit, a care robot supporting independent living at home: First prototype and lessons learned. ”Robotics and Autonomous Systems“, Vol. 75, A, 2014, 60–78, DOI: 10.1016/j.robot.2014.09.029.
  • 3. Gonzalez-Pacheco V., Malfaz M., Fernandez F., Salichs M.A., Teaching human poses interactively to a social robot. “Sensors”, Vol. 13, No. 9/2013, 12406–12430, DOI: 10.3390/s130912406.
  • 4. Nishimuta I., Yoshii K., Itoyama K., Okuno H.G., Development of a robot quizmaster with auditory functions for speech-based multiparty interaction. [in:] IEEE/SICE International Symposium on System Integration, SII 2014, 328–333, DOI: 10.1109/SII.2014.7028059.
  • 5. Gomez R., Kawahara T., Nakamura K., Nakadai K., Multiparty human-robot interaction with distant-talking speech recognition. [in:] HRI’12 Proceedings of the 7th Annual ACM/IEEE International Conference on Human-Robot Interaction. 439–446, 2012, DOI: 10.1145/2157689.2157835.
  • 6. Gnjatović M., Tasevski J., Nikolić M., Mišković D., Borovac B., Delić V., Adaptive multimodal interaction with industrial robot. [in:] IEEE 10th Jubilee International Symposium on Intelligent Systems and Informatics, SISY 2012. 329–333, 2012, DOI: 10.1109/SISY.2012.6339538.
  • 7. Rogowski A., Analiza i synteza systemów sterowania głosowego w zautomatyzowanym wytwarzaniu, Oficyna Wydawnicza Politechniki Warszawskiej, 2012.
  • 8. Ondas S., Juhar J., Pleva M., Cizmar A., Holcer R., Service robot SCORPIO with robust speech interface. “International Journal of Advanced Robotic System”, Vol. 10, No. 3, 2013, DOI: 10.5772/54934.
  • 9. Jurafsky D., Martin J.H., Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. Pearson Prentice Hall, Upper Saddle River, N.J 2009.
  • 10. Janicki A., Wawer D., Automatic speech recognition for polish in a computer game interface. [in:] 2011 Federated Conference on Computer Science and Information Systems (FedCSIS), 711–716, 2011.
  • 11. Ziołko B., Jadczyk T., Skurzok D., Żelasko P., Gałka J., Pędzimąż T., Gawlik I., Pałka S., SARMATA 2.0 Automatic Polish Language Speech Recognition System, [in:] Sixteenth Annual Conference of the International Speech Communication Association, 2015.
  • 12. Marasek K., Koržinek D., Brocki Ł., System for Automatic Transcription of Sessions of the Polish Senate. „Archives of Acoustics”. Vol. 39, No. 4, 2014, 501–509, DOI: 10.2478/aoa-2014-0054.
  • 13. Zygadło A., System automatycznego rozpoznawania mowy polskiej na potrzeby robota społecznego, 2016.
  • 14. Gaida C., Lange P., Petrick R., Proba P., Malatawy A., Suendermann-Oeft D., Comparing open-source speech recognition toolkits. DHBW Stuttgart Technical Report, http://suendermann. com/su/pdf/oasis2014. pdf (2014).
  • 15. Jassem W.: Podstawy fonetyki akustycznej. Państwowe Wydawnictwo Naukowe, Warszawa 1973.
  • 16. [http://htk.eng.cam.ac.uk]
  • 17. [http://cmusphinx.sourceforge.net] – CMU Sphinx, Project by Carnegie Mellon University
  • 18. [https://sourceforge.net/projects/kaldi]
  • 19. [ http://cmusphinx.sourceforge.net/wiki/research] – Research Using CMUSphinx
  • 20. [http://cmusphinx.sourceforge.net/wiki/tutorialam] – Training Acoustic Model For CMUSphinx
  • 21. [https://pl.hama.com/000424610000/hama-mikrofon-stoj-cy-cs-461]
  • 22. [http://www.phon.ucl.ac.uk/home/sampa/polish.htm]
  • 23. [http://espeak.sourceforge.net] – eSpeak text to speech
  • 24. [http://www.kirshenbaum.net/IPA/index.html] – Usenet IPA/ASCII transcription
  • 25. [http://www.speech.cs.cmu.edu/cgi-bin/cmudict] – The CMU Pronouncing Dictionary
  • 26. [http://www.mxlmics.com/microphones/web-conferencing/AC-404]
Uwagi
PL
Opracowanie ze środków MNiSW w ramach umowy 812/P-DUN/2016 na działalność upowszechniającą naukę (zadania 2017).
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-e4c5b5e9-4671-44db-9033-15acfed1e569
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.