Strategie treningu neuronowego estymatora częstotliwości tonu krtaniowego z użyciem generatora syntetycznych samogłosek

Blok, Marek; Banaś, Jan; Pietrołaj, Mariusz

doi:10.15199/59.2022.4.114

Artykuł - szczegóły

Tytuł artykułu

Strategie treningu neuronowego estymatora częstotliwości tonu krtaniowego z użyciem generatora syntetycznych samogłosek

Autorzy

Blok Marek , Banaś Jan , Pietrołaj Mariusz

Identyfikatory

DOI

10.15199/59.2022.4.114

Warianty tytułu

Training strategies of neural fundamental frequency estimator using a synthetic vowels generator

Konferencja

Multikonferencja Krajowego Środowiska Tele- i Radiokomunikacyjnego (7-9.09.2022 ; Warszawa, Polska)

Języki publikacji

Abstrakty

W wielu zastosowaniach telekomunikacyjnych pojawia się problem przetwarzania lub analizy sygnału mowy, w ramach którego, często w obszarze podstawowych algorytmów, stosuje się estymator częstotliwości tonu krtaniowego. Estymator rozpatrywany w tej pracy bazuje na neuronowym klasyfikatorze podejmującym decyzje na podstawie częstotliwości oraz mocy chwilowej wyznaczanych w podpasmach analizowanego sygnału mowy. W pracy rozważamy problematykę treningu tego estymatora, gdy trening odbywa się z użyciem sygnałów generowanych syntetycznie.

In many telecommunication applications there is a need for a speech signal processing or analysis, within which the pitch tone frequency estimator is one of the common basic algorithms. The estimator considered in this paper is based on a neural classifier, whose decisions are driven by the instantaneous frequency and power determined in the sub-bands of the analyzed speech signal. In the paper, we consider the problems of selecting a training strategy for this estimator, when training is carried out with synthetically generated vowels.

Słowa kluczowe

estymacja częstotliwości ton krtaniowy klasyfikator neuronowy częstotliwość chwilowa sieć neuronowa

pitch estimation neural classifier instantaneous frequency neural network training

Wydawca

Wydawnictwo SIGMA-NOT

Czasopismo

Przegląd Telekomunikacyjny + Wiadomości Telekomunikacyjne

Rocznik

2022

Tom

nr 4

Strony

604--607

Opis fizyczny

Bibliogr. 7 poz., rys., tab.

Twórcy

autor

Blok Marek

marek.blok@pg.edu.pl

Politechnika Gdańska, Wydział Elektroniki, Telekomunikacji i Informatyki, Gdańsk

autor

Banaś Jan

jan.banas@pg.edu.pl

Politechnika Gdańska, Wydział Elektroniki, Telekomunikacji i Informatyki, Gdańsk

autor

Pietrołaj Mariusz

mariusz.pietrolaj@pg.edu.pl

Politechnika Gdańska, Wydział Elektroniki, Telekomunikacji i Informatyki, Gdańsk

Bibliografia

[1] Blok, Marek, Jan Banas, and Mariusz Pietrolaj. 2021. "IFE: NN-Aided lnstantaneous Pitch Estimation.". 14th International Conference on Human System lnteraction (HSI).
[2] "Keele Pitch Database". https:/lost-contact.mit.edu/afs/nada.kth.se/dept/tmh/corpora/KeelePitchDB/. Accessed Aprit 23, 2022.
[3] "Pytorch." PyTorch. https://pytorch.org/. Accessed April 23, 2022. - C
[4] Rosenblatt, F. 1958. "The Perception: A Probabilistic Model for Information Storage and Organization in the Brain". Psychological Review 65, no. 6: 386-408.
[5] Schorkhuber, Christian, and Anssi Klapuri. 2010. "Constant-Q Transform Toolbox for Music Processing". 7th Sound and Music Computing Conference.
[6] Teixeira, Joao Paulo, Carla Oliveira, and Carta Lopes. 2013. "Vocal Acoustic Analysis - Jitter, Shimmer and HNR Parameters". Procedia Technology 9: 1112-22.
[7] Veprek, Peter, and Michael S. Scordilis. 2002. "Analysis, enhancement and evaluation of five pitch determination techniques". Speech Communication 37. 3-4: 249-270.

Uwagi

Opracowanie rekordu ze środków MEiN, umowa nr SONP/SP/546092/2022 w ramach programu "Społeczna odpowiedzialność nauki" - moduł: Popularyzacja nauki i promocja sportu (2022-2023).

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-8f95aa64-bda1-4aee-8712-94d3ede6d925