The ability to convey emotions through speech is still of interest to the field of research. Where different neural network architectures have been developed to be able to automatically recognize emotions. In this work, the main objective is to develop an accurate neural network architecture for Speech emotion recognition. The work includes two main parts which essentially concern the use of MFCC as a feature extractor. And present a new technique for creating a CNN architecture based on the use of two separate architectures based on the Conv2D model.
PL
Możliwość przekazywania emocji za pomocą mowy jest nadal przedmiotem zainteresowania badaczy. Gdzie opracowano różne architektury sieci neuronowych, aby móc automatycznie rozpoznawać emocje. Głównym celem tej pracy jest opracowanie dokładnej architektury sieci neuronowej do rozpoznawania emocji związanych z mową. Praca składa się z dwóch głównych części, które zasadniczo dotyczą wykorzystania MFCC jako ekstraktora cech. Oraz przedstawić nową technikę tworzenia architektury CNN opartą na wykorzystaniu dwóch odrębnych architektur bazujących na modelu Conv2D.
Audio emotion recognition is a very advanced process of detecting emotions from different forms of signals. The form of modality presented in this article is Audio-Song. The goal is to create different neural network architectures capable of recognizing the emotions of a song performer. The database used for this purpose is the RAVDESS database. We compared the performance of Conv1D with Conv2D, where MFCC is used for the feature extractor for both neural network architectures. The accuracies obtained are 83.95 and 82.47% respectively. The better of the two models is Conv1D regarding the accuracy result obtained and the complexity of the model, where it seems that the Conv1D model is less complex than the Conv2D model.
PL
Rozpoznawanie emocji dźwiękowych to bardzo zaawansowany proces wykrywania emocji na podstawie różnych form sygnałów. Formą modalności przedstawioną w tym artykule jest utwór audio. Celem jest stworzenie różnych architektur sieci neuronowych zdolnych do rozpoznawania emocji wykonawcy utworu. Bazą danych wykorzystywaną w tym celu jest baza danych RAVDESS. Porównaliśmy wydajność Conv1D z Conv2D, gdzie MFCC jest używane do ekstraktora cech dla obu architektur sieci neuronowych. Uzyskane dokładności wynoszą odpowiednio 83,95 i 82,47%. Lepszym z obu modeli jest Conv1D pod względem uzyskanego wyniku dokładności i złożoności modelu, gdzie wydaje się, że model Conv1D jest mniej złożony niż model Conv2D.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.