Korpus mowy angielskiej do celów multimodalnego automatycznego rozpoznawania mowy

Szykulski, M.; Bratoszewski, P.; Kotus, J.; Czyżewski, A.; Kostek, B.

Artykuł - szczegóły

Tytuł artykułu

Korpus mowy angielskiej do celów multimodalnego automatycznego rozpoznawania mowy

Autorzy

Szykulski M. , Bratoszewski P. , Kotus J. , Czyżewski A. , Kostek B.

Identyfikatory

URI

10.15199/59.2016.8-9.74

Warianty tytułu

Audio-visual corpus of English speech for multimodal automatic speech recognition

Konferencja

XXXII Krajowe Sympozjum Telekomunikacji i Teleinformatyki (XXXII ; 26-28.09.2016 ; Gliwice, Polska)

Języki publikacji

Abstrakty

W referacie zaprezentowano audiowizualny korpus mowy zawierający 31 godzin nagrań mowy w języku angielskim. Korpus dedykowany jest do celów automatycznego audiowizualnego rozpoznawania mowy. Korpus zawiera nagrania wideo pochodzące z szybkoklatkowej kamery stereowizyjnej oraz dźwięk zarejestrowany przez matrycę mikrofonową i mikrofon komputera przenośnego. Dzięki uwzględnieniu nagrań zarejestrowanych w warunkach szumowych korpus może być wykorzystany do badania wpływu zakłóceń na skuteczność rozpoznawania mowy.

An audiovisual corpus containing 31 hours of English speech recordings is presented. The new corpus was created in order to assist the development of audiovisual speech recognition systems (AVSR). The corpus includes high-framerate stereoscopic video streams and audio recorded by both microphone array and a microphone built in a mobile computer. Owing to the inclusion of recordings made in noisy conditions, the corpus can be used to assess the robustness of speech recognition systems in the presence of acoustic noise.

Słowa kluczowe

rozpoznawanie mowy korpus MODALITY AVSR

speech recognition MODALITY corpus AVSR

Wydawca

Wydawnictwo SIGMA-NOT

Czasopismo

Przegląd Telekomunikacyjny + Wiadomości Telekomunikacyjne

Rocznik

2016

Tom

nr 8-9

Strony

1129--1132, CD

Opis fizyczny

Bibliogr. 9 poz., rys., tab.

Twórcy

autor

Szykulski M.

marszyk@sound.eti.pg.gda.pl

Katedra Systemów Multimedialnych, Wydział Elektroniki Telekomunikacji i Informatyki, Politechnika Gdańska

autor

Bratoszewski P.

Katedra Systemów Multimedialnych, Wydział Elektroniki Telekomunikacji i Informatyki, Politechnika Gdańska

autor

Kotus J.

Katedra Systemów Multimedialnych, Wydział Elektroniki Telekomunikacji i Informatyki, Politechnika Gdańska

autor

Czyżewski A.

Katedra Systemów Multimedialnych, Wydział Elektroniki Telekomunikacji i Informatyki, Politechnika Gdańska

autor

Kostek B.

Katedra Systemów Multimedialnych, Wydział Elektroniki Telekomunikacji i Informatyki, Politechnika Gdańska

Bibliografia

[1] Chibelushi, C C, S Gandon, J S D Mason, F Deravi, and R D Johnston. 1996. “Design Issues for a Digital Audio-Visual Integrated Database.” Integrated Audio-Visual Processing for Recognition, Synthesis and Communication (Digest No: 1996/213)
[2] Czyzewski, Andrzej, Bozena Kostek, Tomasz Ciszewski, and Dorota Majewicz. 2013. “Language Material for English Audiovisual Speech Recognition System Development.” J. Acoust. Soc. Am. 134(5), 4069.
[3] Dalka, Piotr, Piotr Bratoszewski, and Andrzej Czyzewski. 2014. “Visual Lip Contour Detection for the Purpose of Speech Recognition.”, ICSES2014.
[4] Kashiwagi, Y, M Suzuki, N Minematsu, and K Hirose. 2012. “Audio-Visual Feature Integration Based on Piecewise Linear Transformation for Noise Robust Automatic Speech Recognition.” Spoken Language Technology Workshop (SLT).
[5] Kunka, Bartosz, Adam Kupryjanow, Piotr Dalka, Piotr Bratoszewski, Maciej Szczodrak, Paweł Spaleniak, Marcin Szykulski, and Andrzej Czyzewski. 2013. “Multimodal English Corpus for Automatic Speech Recognition.”, 17th IEEE SPA 2013.
[6] McGurk Henry, MacDonald John, 1976. “Hearing lips and seeing voices,” Nature, vol. 264.
[7] Nguyen, Q D, and M Milgram. 2009. “Semi Adaptive Appearance Models for Lip Tracking.” 2009 16th IEEE ICIP.
[8] Potamianos, Gerasimos, Chalapathy Neti, and Sabine Deligne. 2003. “Joint Audio-Visual Speech Processing for Recognition and Enhancement.” In Proceedings of AVSP, 95–104.
[9] http://www.intel.com/content/www/us/en/architecture-and-technology/realsense-overview.html

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-ad76fcc4-cb0a-4987-8a77-1972131354d1