Wpływ funkcji okna na skuteczność identyfikacji stanu emocjonalnego mówcy

Powroźnik, P.; Czerwiński, D.

doi:10.5604/01.3001.0010.7371

Artykuł - szczegóły

Tytuł artykułu

Wpływ funkcji okna na skuteczność identyfikacji stanu emocjonalnego mówcy

Autorzy

Powroźnik P. , Czerwiński D.

Treść / Zawartość

Pełne teksty:

powroznik_czerwinski_IAPGOS_nr_4_2017.pdf

Pobierz

Identyfikatory

DOI

10.5604/01.3001.0010.7371

Warianty tytułu

The impact of window function on identification of speaker emotional state

Języki publikacji

Abstrakty

Artykuł prezentuje wpływ doboru funkcji okna wykorzystywanej w procesie obliczania spektrogramu, na skuteczność identyfikacji stanu emocjonalnego mówcy posługującego się mową polską. W badaniach wykorzystano następujące funkcje okna: Hamminga, Gaussa, Dolpha–Czebyszewa, Blackmana, Nuttalla, Blackmana-Harrisa. Ponadto został przedstawiony sposób przetwarzania spektrogramu przez sztuczną sieć neuronową (SSN), odpowiedzialną za identyfikację stanu emocjonalnego mówcy. Otrzymane wyniki pozwoliły na ocenę skuteczności rozpoznawania stanu emocjonalnego za pomocą SSN. Średnia skuteczność wahała się od około 70% do ponad 87%.

The article presents the impact of window function used for preparing the spectrogram, on Polish emotional speech identification.. In conducted researches the following window functions were used: Hamming, Gauss, Dolph–Chebyshev, Blackman, Nuttall, Blackman-Harris. The spectrogram processing method by artificial neural network (ANN) was also described in this article. Obtained results allowed to assess the effectiveness of identification process with the use of ANN. The average efficiency ranged from 70 % to more than 87%.

Słowa kluczowe

funkcja okna sztuczne sieci neuronowe identyfikacja polskiej mowy emocjonalnej

window function artificial neural networks Polish emotional speech recognition

Wydawca

Wydawnictwo Politechniki Lubelskiej

Czasopismo

Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska

Rocznik

2017

Tom

T. 7, nr 4

Strony

96--100

Opis fizyczny

Bibliogr. 26 poz., rys., tab.

Twórcy

autor

Powroźnik P.

pawel.powroznik@pollub.edu.pl

Politechnika Lubelska, Instytut Informatyki

autor

Czerwiński D.

d.czerwiński@pollub.pl

Politechnika Lubelska, Instytut Informatyki

Bibliografia

[1] Berlin Database of Emotional Speech: http://www.expressive-speech.net/ (10.08.2014).
[2] Bracewell R.: The Fourier Transform and its Application. Electric Engineering Series. McGraw-Hill International Editions. Singapore 2000.
[3] Chena K.F., Lib Y.F.: Combining the Hanning windowed interpolated FFT in both directions. Computer Phisics Communication 178(12)/2008, 924–928.
[4] Chmaj T., Lankosz M.: Akwizycja i przetwarzanie sygnałów cyfrowych. Politechnika Krakowska, Kraków 2011.
[5] Database of Polish Emotional Speech: http://www.eletel.p.lodz.pl/bronakowski/med_catalog/ (10.08.2014).
[6] Gałka J., Ziółko B.: Study of Performance Evaluation Methods for NonUniform Speech Segmentation, International of Circuits. Systems and Signal Processing. NAUN 2008.
[7] Harris R, Fredric J.: On the use of Windows for Harmonic Analysis with the Discrete Fourier Transform. Proceedings of the IEEE 66(1)/1978, 51–83.
[8] Heinzel, G., Rüdiger, A., Schilling R.: Spectrum and spectral density estimation by the Discrete Fourier transform (DFT), including a comprehensive list of window functions and some new flat-top windows (Technical report). Max Planck Institute (MPI) für Gravitationsphysik/Laser Interferometry & Gravitational Wave Astronomy.
[9] Janicki A., Turkot M.: Rozpoznawanie stanu emocjonalnego mówcy z wykorzystaniem maszyny wektorów wspierających. KSTiT 2008, Bydgoszcz 2008.
[10] Kamińska D., Pelikant A.: Zastosowanie multimedialnej klasyfikacji w rozpoznawaniu stanów emocjonalnych na podstawie mowy spontanicznej. IAPGOŚ 3/2012, 36–39.
[11] Kim E.H., Hyu K.H., Kim S.H., Kwak Y.K.: Speech emotion recognition using eigen-FFT in clean and noisy environments. 16th IEEE International Conference on Robots and Human Interactive Communication, Jeju, Korea 2007.
[12] Kłosiński R.: Materiały X Konferencji Naukowej SP 2014.
[13] Konratowski E.: Czasowo-częstotliwościowa analiza drgań z wykorzystaniem metody overlapping. Logistyka 3/2014, 3104–3110.
[14] Konratowski E.: Monitoring of the Multichannel Audio Signal, Computional collective intelligence. Technologies and Applications. Lecture Notes in Artifical Intelligence 6422, Springer Verlag, 298–306.
[15] Krzyk P., Sułowicz M., Pragłowska–Ryłko N.: Zastosowanie IpDFT do diagnostyki silników asynchronicznych. Zeszyty Problemowe – Maszyny Elektryczne 3/2014, 293–300.
[16] Lynch P.: The Dolph-Chebyshev window: A simple optimal filter. America Meteorological Society Journal of the Online 125/1997, 655–660.
[17] Parsomphan S.: Use of Neural Network Classifier for Detecting Human Emotions via Speech Spectrogram. Procedings of the 3rd IIAE International Conference on Intelligence Systems and Image Processing. Japan 2015.
[18] Pfitzinger H.R., Kaernbach C.: Amplitude and Amplitude Variation of Emotional Speech. Interspeech 2008, 1036–1039.
[19] Powroźnik P., Czerwiński D: Effectiveness comparison on an artificial neural networks to identify Polish emotional speech. Przegląd Elektrotechniczny 07/2016, 45–48.
[20] Powroźnik P.: Polish emotional speech recognition using artificial neural network. Advances is Science and Technology Research Journal 8(24)/2014, 24–27.
[21] Ramakrishnan S.: Recognition of emotion from speech, A review. Speech Enhancement, Modeling and Recognition – Algorithms and Applications, March 2012.
[22] Scherer K.: Vocal communication of emotions: A Review of Research Paradigms in Speech Communication 40/2003, 227–256.
[23] Smith J.O.: Spectral Audio Signal Processing. W3K Publishing, 2011.
[24] Thompson W.F., Balkwill L–L.: Decoding speech prosody in five languages. Semiotica 158/2006, 407–424.
[25] Wicher A., Sęk A., Konieczny J.: Akustyczno-fonetyczne cechy mowy polskiej. Instytut Akustyki UAM Poznań, 2005.
[26] Zieliński T. P., Cyfrowe przetwarzanie sygnałów. Od teorii do zastosowań. WKiŁ, Warszawa 2009.

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-77245ebe-7758-44d1-b17e-a4a3e197670c