Kodowanie szerokopasmowego sygnału mowy z małym opóźnieniem i zmienną przepływnością binarną

Dymarski, Przemysław

doi:10.15199/59.2019.7.22

Artykuł - szczegóły

Tytuł artykułu

Kodowanie szerokopasmowego sygnału mowy z małym opóźnieniem i zmienną przepływnością binarną

Autorzy

Dymarski Przemysław

Identyfikatory

DOI

10.15199/59.2019.7.22

Warianty tytułu

Wideband speech coding at low delay and variable bit rate

Konferencja

Krajowe Sympozjum Telekomunikacji i Teleinformatyki (26-28.06.2019 ; Wrocław, Polska)

Języki publikacji

Abstrakty

W referacie przedstawiono koder sygnału mowy o paśmie 8 kHz, działający wg algorytmu CELP z małym opóźnieniem algorytmicznym (do 2 ms). W odróżnieniu od wąskopasmowego kodera G.728, w słowniku wektorów referencyjnych umieszczono sekwencje pseudolosowe i sekwencje otrzymane drogą predykcji długookresowej. W koderze o zmiennej przepływności stosuje się największy wymiar wektora zapewniający wymaganą jakość sygnału mowy. Dobrą jakość sygnału mowy (MOS około 4 według PESQ) otrzymano przy średniej przepływności binarnej rzędu 30 kbit/s.

A CELP coder is proposed for compression of speech in 8 kHz band at variable bit rate and algorithmic delay not exceeding 2 msec. As opposed to narrowband G.728 LD-CELP coder, codebook consists of pseudorandom vectors and LTP sequences. Variable rate coding consists in maximizing vector dimension while keeping the required speech quality. Good speech quality (MOS about 4 according to PESQ algorithm) is obtained at average bit rate 30 kbit/sec.

Słowa kluczowe

CELP LD-CELP MOS zmienna przepływność binarna

CELP LD-CELP MOS VBR

Wydawca

Wydawnictwo SIGMA-NOT

Czasopismo

Przegląd Telekomunikacyjny + Wiadomości Telekomunikacyjne

Rocznik

2019

Tom

nr 7

Strony

599--604, CD

Opis fizyczny

Bibliogr. 18 poz., rys., tab.

Twórcy

autor

Dymarski Przemysław

dymarski@tele.pw.edu.pl

Instytut Telekomunikacji P.W., 00-665 Warszawa, ul. Nowowiejska 15/19

Bibliografia

[1] Chen Juin-Hwey, Jes Thyssen. 2007. “The Broadvoice Speech Coding Algorithm”. IEEE International Conference on Acoustics, Speech and Signal Processing - ICASSP
[2] Dymarski P, N.Moreau. 1986. "Mixed excitation CELP Coder". Proc. European Conference on Speech Communication and Technology (EUROSPEECH'89), Paris
[3] ETSI. 2014. “3GPP TS 26.441 EVS codec”.
[4] ITU-T. 2001. „Recommendation P.862: Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs”.
[5] ITU-T. 2003. “Recommendation G.722.2, Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)”.
[6] ITU-T. 2005. “Recommendation G.722.1, Lowcomplexity coding at 24 and 32 kbit/s for hands-free operation in systems with low frame loss”.
[7] ITU-T. 2006a. “Recommendation G.723.1, Dual rate speech coder for multimedia communications transmitting at 5.3 and 6.3 kbit/s”.
[8] ITU-T. 2006b. “Recommendation G.729.1:G.729- based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729”
[9] ITU-T. 2008. “Recommendation G.718, Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8- 32 kbit/s”.
[10] ITU-T. 2012a. “Recommendation G.728, Coding of speech at 16 kbits/s using low-delay code excited linear prediction”.
[11] ITU-T. 2012b. “Recommendation G.722, 7 kHz audio-coding within 64 kbit/s”.
[12] ITU-T. 2012c. “Recommendation G.711. 1: Wideband embedded extension for ITU-T G.711 pulse code modulation”.
[13] Kim Gyungmin. 2019. “ Wideband speech coding using CELP algorithm” – praca dyplomowa WEiTI, Politechnika Warszawska, promotor P.Dymarski.
[14] Kim Namgyu. 2019. “Wideband LD-CELP coder” – praca dyplomowa WEiTI, Politechnika Warszawska, promotor P.Dymarski.
[15] Kurtisi, Z; Gu, X., Wolf, L. 2006. "Enabling network-centric music performance in wide-area networks". Communications of the ACM. 49 (11): 52–54.
[16] Valin Jean-Marc, Timothy B. Terriberry, Christopher Montgomery, Gregory Maxwell. 2010. “A High-Quality Speech and Audio Codec With Less Than 10 ms Delay”. IEEE Trans. On Audio, Speech and Language Processing, vol. 18, no. 1, Jan. 2010.
[17] Vos K, K. V. Sorensen, S. S. Jensen, J.-M. Valin 2013. “Voice coding with Opus” 135th AES Convention.
[18] Rose R, T. Barnwell . 1986. “The self excited vocoder - an alternate approach to toll quality at 4800 bps”. ICASSP '86. IEEE International Conference on Acoustics, Speech, and Signal Processing.

Uwagi

Opracowanie rekordu w ramach umowy 509/P-DUN/2018 ze środków MNiSW przeznaczonych na działalność upowszechniającą naukę (2019).

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-e760f0b6-6fd1-4012-9c4b-ac82523eaa5c