Music genre classification applied to bass enhancement for mobile technology

Hoffmann, P.; Kostek, B.

doi:10.15199/13.2015.4.2

Artykuł - szczegóły

Tytuł artykułu

Music genre classification applied to bass enhancement for mobile technology

Autorzy

Hoffmann P. , Kostek B.

Identyfikatory

DOI

10.15199/13.2015.4.2

Warianty tytułu

Inteligentna poprawa brzmienia niskich częstotliwości w urządzeniach mobilnych z zastosowaniem automatycznej klasyfikacji gatunków muzycznych

Języki publikacji

Abstrakty

The aim of this paper is to present a novel approach to the Virtual Bass Synthesis (VBS) algorithms applied to portable computers. The proposed algorithm is related to intelligent, rule-based setting of synthesis parameters according to music genre of an audio excerpt. The classification of music genres is automatically executed employing MPEG 7 parameters and the Principal Component Analysis method applied to reduce information redundancy. To perform genre recognition k-Nearest Neighbors classifier is used. The VBS algorithm is based on nonlinear device (NLD) or phase vocoder (PV) depending on the content of an audio file excerpt. A soft computing (fuzzy logic) algorithm is employed to set optimum synthesis parameters depending on a given song. To confirm the relationship between genres and preferences of listeners in the low frequency range the pair wise subjective comparison test is carried out. In tests 30 pairs of audio files are employed divided into six popular musical genres. Music excerpts processed by a commercially available bass boost algorithm are used for comparison. Based on the responses of the listeners the statistical analysis is carried out. A short summary is also provided that contains plans for future algorithm development.

Artykuł przedstawia nową metodę wirtualnej syntezy niskich częstotliwości w urządzeniach mobilnych. Proponowana metoda generuje inteligentne reguły do określenia optymalnych parametrów syntezy w zależności od słuchanego gatunku muzycznego. Klasyfikacja gatunków muzycznych odbywa się automatycznie bazując na wektorze parametrów MPEG 7 oraz analizie głównych składowych (ang. Principal Component Analysis) w celu redukcji nadmiarowości informacji. W rozpoznawaniu gatunku muzycznego wykorzystywany jest klasyfikator k-Najbliższych Sąsiadów. Synteza niskich częstotliwości opiera się na metodzie elementów nieliniowych (NLD) lub wokodera fazowego (PV) w zależności od fragmentu utworu. W celu uzyskania optymalnych parametrów syntezy w zależności od słuchanego utworu stosuje się przygotowane reguły logiki rozmytej. Dla potwierdzenia zależności pomiędzy gatunkami muzycznymi a preferencjami słuchaczy w zakresie niskich częstotliwości przeprowadzono testy subiektywne porównań parami. W teście zostało wykorzystanych 30 par utworów należących do sześciu popularnych gatunków muzycznych. Jako odniesienie w teście zostały wykorzystane próbki przetworzone przez komercyjny algorytm należący do grupy Bass Boost. Na podstawie odpowiedzi słuchaczy, uzyskanych w testach subiektywnych, przeprowadzono analizę statystyczną, która potwierdza potrzebę rozpoznawania gatunku muzycznego w kontekście poprawy brzmienia niskich częstotliwości.

Słowa kluczowe

digital signal processing virtual bass algorithm low frequency enhancement automatic music genre classification

cyfrowe przetwarzanie sygnałów wirtualna synteza niskich częstotliwości gatunek muzyczny rozpoznawanie gatunków muzycznych k-NN NLD logika rozmyta

Wydawca

Wydawnictwo SIGMA-NOT

Czasopismo

Elektronika : konstrukcje, technologie, zastosowania

Rocznik

2015

Tom

Vol. 56, nr 4

Strony

14--19

Opis fizyczny

Bibliogr. 24 poz., rys.

Twórcy

autor

Hoffmann P.

Gdansk University of Technology, Lab. of Audio Acoustics, Faculty of Electronics, Telecommunications and Informatics

autor

Kostek B.

Gdansk University of Technology, Lab. of Audio Acoustics, Faculty of Electronics, Telecommunications and Informatics

Bibliografia

[1] Aarts R. M., Larsen E., Schobben D., Improving Perceived Bass And Reconstruction of High Frequencies for Band Limited Signals, 1st IEEE Beneloux Workshop on Model based Processing and Coding of Audio (MPC 2002), Leuven, Belgium, November 15, 2002.
[2] Bedyńska S., Brzezicka A., Statystyczny drogowskaz, SWPS Academica, Warszawa, 2007.
[3] Bekesy G., The missing fundamental and periodicity detection in hearing, J. Acoust. Soc. Am. Volume 51, Issue 2B, pp. 631-637, 1972.
[4] Hall P, Park BU, Samworth RJ, Choice of neighbor order in nearest-neighbor classification. Annals of Statistics 36, 2008.
[5] Hao M., Woon-Seng Gan, Ee-Leng T., A psychoacoustic bass enhancement system with improved transient and steady-state performance, ICASSP 2012 IEEE, 141-144, 2012.
[6] Hayes, M. Horace, Digital Signal Processing, Schaum’s Outline Series, New York, McGraw Hill, 1999.
[7] Hill A. J., Hawksford M. O. J., A Hybrid Virtual Bass System for Optimized Steady State and Transient Performance, CEEC Conf. 8-9.09. 2010.
[8] Hoffmann P., Kostek B., Kaczmarek A., Spaleniak P., Music Recommendation System, Journal of Telecommunication and Information Technology, Warsaw 2013.
[9] Kostek B., Hoffmann P., Kaczmarek A., Spaleniak P., Creating a Reliable Music Discovery and Recommendation System, Springer Verlag, 107-130, XIII, 2013.
[10] Larsen E., Aarts R.M., Perceiving Low Pitch Through Small Loudspeakers, 108th AES Convention, 19-22 Feb 2000, Paris, France.
[11] Maxx Base algorithm, http://www.waves.com/plugins/maxxbass.
[12] Method for the subjective assessment of intermediate quality level of coding systems, ITU-R, BS.1116-1, http://www.itu.int/rec/R-REC-BS.1116-1-199710-I/e.
[13] Montgomery Douglas C., Design and Analysis of Experiments, 5th Edition, Wiley, 2000.
[14] MPEG 7 standard, http://mpeg.chiariglione.org/standards/mpeg-7.
[15] Nay Oo, Woon-Seng Gan, Wee-Tong Lim, Generalized Harmonic Analysis of Arc-tangent Square Root (ATSR) Nonlinear Device for Virtual Bass System, IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP), 14-19 March 2010.
[16] Nay Oo, Woon-Seng Gan, Harmonic Analysis of Nonlinear Devices for Virtual Bass System, IEEE International Conference on Audio, Language and Image Processing (ICALIP), 7-9 July 2008.
[17] Patent Pending, Kostek B., Hoffmann P., Sanner T., Sposób poprawy jakości brzmienia dźwięku w przenośnych urządzeniach elektronicznych i układ do realizacji tego sposobu, Polski Urząd Patentowy, May 2014.
[18] Sanner T., Łopatka K., Czyżewski A., Evaluation of Sound Enhancement in Mobile Device using Virtual Bass Algorithm, 1-12, ISSET Conf., Krakow, 2013.
[19] Schouten, J.F., Ritsma R.J., and Cardozo B.L., Pitch of the residue., Journal of the Acoustical Society of America: 825-834, 1962.
[20] Statistical software Statistica, http://www.statsoft.pl/.
[21] Terhardt E., Zur Tonhöhenwahrnehmung von Klängen. I. Psychoakustische Grundlagen. Acustica 26, 173-186, 1972.
[22] Wee-Tong Lim, Nay Oo, Woon-Seng Gan, Synthesis of Polynomial-Based Nonlinear Device and Harmonic Shifting Technique for Virtual Bass System, ISCAS IEEE, 24-27 May 2009.
[23] Williams L.J., Abdi H., Principal Component Analysis, Wiley Interdisciplinary Reviews: Computational Statistics, 2, 2010.
[24] Zadeh L.A., Fuzzy Sets, Information and Control, Vol. 8, Issue 3, pp. 338-358, 1.

Uwagi

This research was funded by the grant no. PBS1/B3/16/2012 entitled „Multimodal system supporting acoustic communication with computers” financed by the Polish National Centre for R&D.

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-64b8352c-a536-4df9-8523-43447d08d35d