PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Rejestracja, parametryzacja i klasyfikacja alofonów z wykorzystaniem bimodalności

Treść / Zawartość
Identyfikatory
Warianty tytułu
EN
Regcording, parameterization and classification of allophones employing bimodal approach
Konferencja
XXVIII cykl seminarów zorganizowanych przez PTETiS Oddział w Gdańsku ZASTOSOWANIE KOMPUTERÓW W NAUCE I TECHNICE 2018 (XXVIII; 2018; Gdańsk, Polska)
Języki publikacji
PL
Abstrakty
PL
Praca dotyczy rejestracji i parametryzacji alofonów w języku angielskim z wykorzystaniem dwóch modalności. W badaniach dokonano rejestracji wypowiedzi w języku angielskim mówców, których znajomość tego języka odpowiada poziomowi rodowitego mówcy. W kolejnym etapie wyodrębnione zostały alofony z nagrań fonicznych i odpowiadające im sygnały wizyjne. W procesie tworzenia wektorów cech wykorzystano odrębne systemy parametryzacji, osobne dla każdej modalności. Do parametryzacji sygnału fonicznego użyto typowych deskryptorów stosowanych w obszarze rozpoznawania mowy i muzyki. W nagraniach z systemu przechwytywania ruchu zaproponowano własne rozwiązania. Do klasyfikacji alofonów wykorzystano sieci neuronowe oraz maszynę wektorów nośnych w podejściu jednoi dwumodalnym. Stwierdzono, że skuteczność rozpoznawania wzrasta wraz z wykorzystaniem więcej niż jednej modalności.
EN
The paper concerns the recording and parameterization of allophones in English using two modalities. In the research, the English speakers' statements were recorded. Those speakers’s language proficiency corresponds to the level of the native speaker. In the next stage, allophones from audio recordings and corresponding visual signals were isolated. In the process of creating feature vectors, separate parameterization systems were used for each modality. For the audio signal parameterization, typical descriptors used in the area of speech and music recognition were chosen. In the case of the motion capture system own solutions were proposed. For the purpose of allophones classification, neural networks and the suport vector machine were used in both approaches. It has been found that the recognition efficiency increases with the use of more than one modality.
Twórcy
  • Politechnika Gdańska, Wydział Elektroniki, Telekomunikacji i Informatyki, Katedra Systemów Multimedialnych tel.: 58-348-6332
autor
  • Politechnika Gdańska, Wydział Elektroniki, Telekomunikacji i Informatyki, Katedra Systemów Multimedialnych tel.: 58-348-6332
autor
  • Politechnika Gdańska, Wydział Elektroniki, Telekomunikacji i Informatyki, Katedra Systemów Multimedialnych tel.: 58-348-6332
autor
  • Institute of Data Science and Digital Technologies, Vilnius University, Lithuania
  • Politechnika Gdańska, Wydział Elektroniki, Telekomunikacji i Informatyki, Katedra Systemów Multimedialnych tel.: 58-348-6332
Bibliografia
  • [1] Y. LeCun, Y. Bengio, and G. Hinton, “Deep learning,” Nature, vol. 521, p. 436, May 2015.
  • [2] K. Noda, Y. Yamaguchi, K. Nakadai, H. G. Okuno, and T. Ogata, “Audio-visual speech recognition using deep learning,” Appl. Intell., vol. 42, no. 4, pp. 722–737, 2015.
  • [3] K. Yao, D. Yu, F. Seide, H. Su, L. Deng, and Y. Gong, “Adaptation of Context-Dependent Deep Neural Networks for Automatic Speech Recognition,” IEEE Spok. Lang. Technol. Work., pp. 366–369, 2012.
  • [4] J. S. Chung and A. Zisserman, “Lip Reading in the Wild.”
  • [5] D. Jachimski, A. Czyzewski, and T. Ciszewski, “A comparative study of English viseme recognition methods and algorithms,” Multimed. Tools Appl., 2017.
  • [6] S. Cygert, G. Szwoch, S. Zaporowski, and A. Czyzewski, “Vocalic Segments Classification Assisted by Mouth Motion Capture,” in 2018 11th International Conference on Human System Interaction (HSI), 2018, pp. 318–324.
  • [7] K. B. Korvel G., “Examining Feature Vector for Phoneme Recognition,” in Proceeding of IEEE International Symposium on Signal Processing and Information Technology, 2017.
  • [8] A. C. B Kostek, M Piotrowska, T Ciszewski, “No Comparative Study of Self-Organizing Maps vs Subjective Evaluation of Quality of Allophone Pronunciation for Non-native English Speakers,” in Audio Engineering Society Convention 143, 2017.
  • [9] B. Kostek et al., “Report of the ISMIS 2011 Contest: Music Information Retrieval,” in Foundations of Intelligent Systems, 2011, pp. 715–724.
  • [10]S. T. Hyoung-Gook K., Moreau N., MPEG-7 Audio and Beyond: Audio Content Indexing and Retrieval. Wiley & Sons, 2005.
  • [11]D. Eringis and G. Tamulevičius, “Modified Filterbank Analysis Features for Speech Recognition,” vol. 3, no. 1, pp. 29–42, 2015.
  • [12]F. Zheng, G. Zhang, and Z. Song, “Comparison of Different Implementations of MFCC,” vol. 16, no. 6, pp. 1–7, 2001.
  • [13]G. Korvel, O. Kurasova, and B. Kostek, “Comparative Analysis of Spectral and Cepstral Feature Extraction Techniques for Phoneme Modelling,” in Multimedia and Network Information Systems, 2019, pp. 480–489.
  • [14]F. Chollet, “Keras.” 2015.
  • [15]S. Zaporowski and A. Czyżewski, “Selection of Features for Multimodal Vocalic Segments Classification,” in Multimedia and Network Information Systems, 2019, pp. 490–500.
  • [16]F. Pedregosa et al., “Scikit-learn: Machine Learning in Python,” J. Mach. Learn. Res., vol. 12, pp. 2825–2830, 2012.
Uwagi
PL
Opracowanie rekordu w ramach umowy 509/P-DUN/2018 ze środków MNiSW przeznaczonych na działalność upowszechniającą naukę (2019).
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-0d8999e5-ce01-424f-b154-fbf7e11df1ae
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.