PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Kodowanie szerokopasmowego sygnału mowy z małym opóźnieniem i zmienną przepływnością binarną

Identyfikatory
Warianty tytułu
EN
Wideband speech coding at low delay and variable bit rate
Konferencja
Krajowe Sympozjum Telekomunikacji i Teleinformatyki (26-28.06.2019 ; Wrocław, Polska)
Języki publikacji
PL
Abstrakty
PL
W referacie przedstawiono koder sygnału mowy o paśmie 8 kHz, działający wg algorytmu CELP z małym opóźnieniem algorytmicznym (do 2 ms). W odróżnieniu od wąskopasmowego kodera G.728, w słowniku wektorów referencyjnych umieszczono sekwencje pseudolosowe i sekwencje otrzymane drogą predykcji długookresowej. W koderze o zmiennej przepływności stosuje się największy wymiar wektora zapewniający wymaganą jakość sygnału mowy. Dobrą jakość sygnału mowy (MOS około 4 według PESQ) otrzymano przy średniej przepływności binarnej rzędu 30 kbit/s.
EN
A CELP coder is proposed for compression of speech in 8 kHz band at variable bit rate and algorithmic delay not exceeding 2 msec. As opposed to narrowband G.728 LD-CELP coder, codebook consists of pseudorandom vectors and LTP sequences. Variable rate coding consists in maximizing vector dimension while keeping the required speech quality. Good speech quality (MOS about 4 according to PESQ algorithm) is obtained at average bit rate 30 kbit/sec.
Słowa kluczowe
Rocznik
Tom
Strony
599--604, CD
Opis fizyczny
Bibliogr. 18 poz., rys., tab.
Twórcy
  • Instytut Telekomunikacji P.W., 00-665 Warszawa, ul. Nowowiejska 15/19
Bibliografia
  • [1] Chen Juin-Hwey, Jes Thyssen. 2007. “The Broadvoice Speech Coding Algorithm”. IEEE International Conference on Acoustics, Speech and Signal Processing - ICASSP
  • [2] Dymarski P, N.Moreau. 1986. "Mixed excitation CELP Coder". Proc. European Conference on Speech Communication and Technology (EUROSPEECH'89), Paris
  • [3] ETSI. 2014. “3GPP TS 26.441 EVS codec”.
  • [4] ITU-T. 2001. „Recommendation P.862: Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs”.
  • [5] ITU-T. 2003. “Recommendation G.722.2, Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)”.
  • [6] ITU-T. 2005. “Recommendation G.722.1, Lowcomplexity coding at 24 and 32 kbit/s for hands-free operation in systems with low frame loss”.
  • [7] ITU-T. 2006a. “Recommendation G.723.1, Dual rate speech coder for multimedia communications transmitting at 5.3 and 6.3 kbit/s”.
  • [8] ITU-T. 2006b. “Recommendation G.729.1:G.729- based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729”
  • [9] ITU-T. 2008. “Recommendation G.718, Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8- 32 kbit/s”.
  • [10] ITU-T. 2012a. “Recommendation G.728, Coding of speech at 16 kbits/s using low-delay code excited linear prediction”.
  • [11] ITU-T. 2012b. “Recommendation G.722, 7 kHz audio-coding within 64 kbit/s”.
  • [12] ITU-T. 2012c. “Recommendation G.711. 1: Wideband embedded extension for ITU-T G.711 pulse code modulation”.
  • [13] Kim Gyungmin. 2019. “ Wideband speech coding using CELP algorithm” – praca dyplomowa WEiTI, Politechnika Warszawska, promotor P.Dymarski.
  • [14] Kim Namgyu. 2019. “Wideband LD-CELP coder” – praca dyplomowa WEiTI, Politechnika Warszawska, promotor P.Dymarski.
  • [15] Kurtisi, Z; Gu, X., Wolf, L. 2006. "Enabling network-centric music performance in wide-area networks". Communications of the ACM. 49 (11): 52–54.
  • [16] Valin Jean-Marc, Timothy B. Terriberry, Christopher Montgomery, Gregory Maxwell. 2010. “A High-Quality Speech and Audio Codec With Less Than 10 ms Delay”. IEEE Trans. On Audio, Speech and Language Processing, vol. 18, no. 1, Jan. 2010.
  • [17] Vos K, K. V. Sorensen, S. S. Jensen, J.-M. Valin 2013. “Voice coding with Opus” 135th AES Convention.
  • [18] Rose R, T. Barnwell . 1986. “The self excited vocoder - an alternate approach to toll quality at 4800 bps”. ICASSP '86. IEEE International Conference on Acoustics, Speech, and Signal Processing.
Uwagi
PL
Opracowanie rekordu w ramach umowy 509/P-DUN/2018 ze środków MNiSW przeznaczonych na działalność upowszechniającą naukę (2019).
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-e760f0b6-6fd1-4012-9c4b-ac82523eaa5c
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.