Tytuł artykułu
Identyfikatory
URI
10.15199/59.2016.8-9.74
Warianty tytułu
Audio-visual corpus of English speech for multimodal automatic speech recognition
Konferencja
XXXII Krajowe Sympozjum Telekomunikacji i Teleinformatyki (XXXII ; 26-28.09.2016 ; Gliwice, Polska)
Języki publikacji
Abstrakty
W referacie zaprezentowano audiowizualny korpus mowy zawierający 31 godzin nagrań mowy w języku angielskim. Korpus dedykowany jest do celów automatycznego audiowizualnego rozpoznawania mowy. Korpus zawiera nagrania wideo pochodzące z szybkoklatkowej kamery stereowizyjnej oraz dźwięk zarejestrowany przez matrycę mikrofonową i mikrofon komputera przenośnego. Dzięki uwzględnieniu nagrań zarejestrowanych w warunkach szumowych korpus może być wykorzystany do badania wpływu zakłóceń na skuteczność rozpoznawania mowy.
An audiovisual corpus containing 31 hours of English speech recordings is presented. The new corpus was created in order to assist the development of audiovisual speech recognition systems (AVSR). The corpus includes high-framerate stereoscopic video streams and audio recorded by both microphone array and a microphone built in a mobile computer. Owing to the inclusion of recordings made in noisy conditions, the corpus can be used to assess the robustness of speech recognition systems in the presence of acoustic noise.
Słowa kluczowe
Wydawca
Rocznik
Tom
Strony
1129--1132, CD
Opis fizyczny
Bibliogr. 9 poz., rys., tab.
Twórcy
autor
- Katedra Systemów Multimedialnych, Wydział Elektroniki Telekomunikacji i Informatyki, Politechnika Gdańska
autor
- Katedra Systemów Multimedialnych, Wydział Elektroniki Telekomunikacji i Informatyki, Politechnika Gdańska
autor
- Katedra Systemów Multimedialnych, Wydział Elektroniki Telekomunikacji i Informatyki, Politechnika Gdańska
autor
- Katedra Systemów Multimedialnych, Wydział Elektroniki Telekomunikacji i Informatyki, Politechnika Gdańska
autor
- Katedra Systemów Multimedialnych, Wydział Elektroniki Telekomunikacji i Informatyki, Politechnika Gdańska
Bibliografia
- [1] Chibelushi, C C, S Gandon, J S D Mason, F Deravi, and R D Johnston. 1996. “Design Issues for a Digital Audio-Visual Integrated Database.” Integrated Audio-Visual Processing for Recognition, Synthesis and Communication (Digest No: 1996/213)
- [2] Czyzewski, Andrzej, Bozena Kostek, Tomasz Ciszewski, and Dorota Majewicz. 2013. “Language Material for English Audiovisual Speech Recognition System Development.” J. Acoust. Soc. Am. 134(5), 4069.
- [3] Dalka, Piotr, Piotr Bratoszewski, and Andrzej Czyzewski. 2014. “Visual Lip Contour Detection for the Purpose of Speech Recognition.”, ICSES2014.
- [4] Kashiwagi, Y, M Suzuki, N Minematsu, and K Hirose. 2012. “Audio-Visual Feature Integration Based on Piecewise Linear Transformation for Noise Robust Automatic Speech Recognition.” Spoken Language Technology Workshop (SLT).
- [5] Kunka, Bartosz, Adam Kupryjanow, Piotr Dalka, Piotr Bratoszewski, Maciej Szczodrak, Paweł Spaleniak, Marcin Szykulski, and Andrzej Czyzewski. 2013. “Multimodal English Corpus for Automatic Speech Recognition.”, 17th IEEE SPA 2013.
- [6] McGurk Henry, MacDonald John, 1976. “Hearing lips and seeing voices,” Nature, vol. 264.
- [7] Nguyen, Q D, and M Milgram. 2009. “Semi Adaptive Appearance Models for Lip Tracking.” 2009 16th IEEE ICIP.
- [8] Potamianos, Gerasimos, Chalapathy Neti, and Sabine Deligne. 2003. “Joint Audio-Visual Speech Processing for Recognition and Enhancement.” In Proceedings of AVSP, 95–104.
- [9] http://www.intel.com/content/www/us/en/architecture-and-technology/realsense-overview.html
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-ad76fcc4-cb0a-4987-8a77-1972131354d1