Identyfikatory
Warianty tytułu
Regulation of the latent space of a variational autoencoder with respect to the emotions of generated music sequences
Języki publikacji
Abstrakty
Artykuł przedstawienia nową regulację przestrzeni ukrytej wariacyjnego autoenkodera w celu jej powiązania z emocją generowanych przykładów muzycznych. Jako model emocji użyto dwuwymiarowy model Russella, którego 4 ćwiartki odpowiadają podstawowym emocjom, jak szczęście, złość, smutek i zadowolenie. Zbudowano modele wariacyjnego autoenkodera, wykorzystujące rekurencyjne sieci neuronowe, które uczono na zbiorze jednogłosowych muzycznych sekwencji oznaczonych emocjami. Ewaluacji poddano otrzymaną przestrzeń ukrytą, jak i wygenerowane pliki muzyczne o różnych emocjach.
The article presents a new regulation of the latent space of a variational autoencoder in order to connect it with the emotion of generated music examples. A two-dimensional Russell model was used as the emotion model, with its 4 quadrants corresponding to basic emotions such as happiness, anger, sadness, and relaxation. Variational autoencoder models employing recurrent neural networks were constructed and trained on a dataset of monophonic music sequences labeled with emotions. The obtained latent space, as well as the generated music files with different emotions, were evaluated.
Wydawca
Czasopismo
Rocznik
Tom
Strony
172--177
Opis fizyczny
Bibliogr. 19 poz., rys., tab.
Twórcy
autor
- Politechnika Białostocka, Wydział Informatyki, Wiejska 45A, Białystok 15-351
Bibliografia
- [1] Briot J.-P., From artificial neural networks to deep learning for music generation: history, concepts and trends, Neural. Comput. Appl., vol. 33 (2021), 39–65
- [2] Ji S., Yang X., Luo J., A survey on deep learning for symbolic music generation: Representations, algorithms, evaluations, and challenges, ACM Comput. Surv., vol. 56 (2023)
- [3] Kingma D. P., Welling M., Auto-encoding variational bayes, 2nd Int. Conf. Learn. Represent. (ICLR), (2014)
- [4] Valenti A., Carta A., Bacciu D., Learning style-aware symbolic music representations by adversarial autoencoders, 24th Eur. Conf. Artif. Intell. (ECAI), (2020), 1563–1570
- [5] Guo R., Simpson I., Magnusson T., Kiefer C., Herremans D., A variational autoencoder for music generation controlled by tonal tension, Joint Conf. AI Music Creativ. (CSMC + MuMe), (2020)
- [6] Ji S., Luo J., Yang X., A comprehensive survey on deep music generation: Multi-level representations, algorithms, evaluations, and future directions, CoRR, (2020)
- [7] Zhao K., Li S., Cai J., Wang H., Wang J., An emotional symbolic music generation system based on LSTM networks, IEEE 3rd Info., Technol., Networking, Electr. Automat. Contr. Conf. (ITNEC), (2019), 2039–2043
- [8] Grekow J., Dimitrova-Grekow T., Monophonic music generation with a given emotion using conditional variational autoencoder, IEEE Access, vol. 9 (2021), 129088–129101
- [9] Grekow J., Generowanie wielogłosowej muzyki o określonej emocji przy użyciu wariacyjnego autoenkodera, Przegląd Elektrotechniczny, 99 (2023), nr 6, 225–229
- [10] Zhang D., Li X., Lu D., Tie Y., Gao Y., Qi L., Multitrack emotion-based music generation network using continuous symbolic features, IEEE Int. Conf. Multimed. Expo (ICME), (2024),1–6
- [11] Russell J. A., A circumplex model of affect, J. Pers. Soc. Psychol., vol. 39 (1980), no. 6, 1161–1178
- [12] Grekow J., Automatyczna detekcja i wizualizacja emocji w muzyce. Rozprawa doktorska. Polsko-Japońska Wyższa Szkoła Technik Komputerowych, (2009)
- [13] Hadjeres G, Nielsen F., Pachet F., Glsr-vae: Geodesic latent space regularization for variational autoencoder architectures, IEEE Symp. Ser. Comput. Intell. (SSCI), (2017), 1–7
- [14] Pati A., Lerch A., Attribute-based regularization of latent spaces for variational auto-encoders, Neural Comput. Appl., vol. 33, (2021), no. 9, 4429–4444
- [15] Ji S., Yang X., Muser: Musical element-based regularization for generating symbolic music with emotion, AAAI Conf. Artif. Intell., vol. 38 (2024), 12821–12829
- [16] Cuthbert M., Ariza C., Music21: A toolkit for computer-aided musicology and symbolic music data., 11th Int. Soc. Music Inf. Retr. Conf. (ISMIR), (2010), 637–642
- [17] Dong H.-W., Chen K., McAuley J., Berg-Kirkpatrick T., Muspy: A toolkit for symbolic music generation, 21st Int. Soc. Music Inf. Retr. Conf. (ISMIR), (2020)
- [18] Sohn K., Yan X., Lee H., Learning structured output representation using deep conditional generative models, 28th Int. Conf. Neural Inf. Process. Syst., (2015), 3483–3491
- [19] Chollet F., et al., Keras, https://keras.io, (2015)
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-888adc9d-32b6-4940-b825-1feb956d73fb
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.