Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 1

Liczba wyników na stronie
first rewind previous Strona / 1 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  przepływność binarna
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 1 next fast forward last
PL
Praca "Predykcyjne i wektorowe metody kompresji sygnału mowy" zawiera ujednolicony pod względem formalnym opis metod kompresji (kwantyzacja wektorowa, kodowanie predykcyjne) i ich analizę porównawczą (przepływność binarna, jakość sygnału mowy, złożoność obliczeniowa) - ze szczególnym uwzględnieniem algorytmów zaproponowanych lub zmodyfikowanych z udziałem autora. We wstępie dokonano przeglądu i klasyfikacji metod kompresji mowy i innych sygnałów akustycznych (np. muzycznych). Przedstawiono również kryteria oceny algorytmów kompresji. Rozdział drugi rozprawy poświęcony jest teorii koderów ADPCM i zawiera trzy części. W pierwszej przedstawiono metodę projektowania równomiernych i nierównomiernych kwantyzatorów adaptacyjnych, dla dowolnego sygnału wejściowego i dowolnej szybkości adaptacji. W drugiej części dokonano przeglądu algorytmów rekursywnych liniowej predykcji, w tym algorytmów gradientu stochastycznego i najmniejszych kwadratów w wersjach autokorelacyjnej i kowariancyjnej. Uwzględniono dwie struktury predyktora: transwersalną i kratową. Przebadano wiele wariantów omawianych algorytmów (np. z normalizacją i bez normalizacji) i przeanalizowano ich właściwości. Przeprowadzono także badania symulacyjne całego układu ADPCM, składającego się z adaptacyjnego predyktora i adaptacyjnego kwantyzatora, dla szybkości transmisji 16, 24 i 32 kbit/s. W części trzeciej opisano predyktory o zmiennych opóźnieniach i ich wykorzystanie do predykcji długookresowej, np. tonu krtaniowego. Zbadano możliwości wykorzystania predyktorów o zmiennych opóźnieniach w kodowaniu szerokopasmowych sygnałów akustycznych. Zaproponowano wykorzystanie kowariancyjnej metody wyznaczania parametrów predyktora, uzyskując dalszą redukcję błędu predykcji. Stwierdzono istotną poprawę jakości w kodowaniu pewnej klasy sygnałów muzycznych. Rozdział 3 poświęcony jest kwantyzacji wektorowej. Dokonano porównania kwantyzatora wektorowego z koderem ADPCM i przedstawiono metody kształtowania szumu kwantyzacji. Główny nacisk położono na obniżenie złożoności obliczeniowej kwantyzatorów wektorowych, poprzez dekompozycję "słownika" (książki kodowej), co prowadzi m.in. do kwantyzatorów wektorowych typu kształt-wzmocnienie, kwantyzatorów wektorowych o strukturze wielostopniowej oraz do koderów CELP. Zaproponowano szereg algorytmów wielostopniowej kwantyzacji wektorowej z wykorzystaniem ortogonalizacji "słownika". Przedstawiono również algorytmy projektowania "słowników" kwantyzatorów wektorowych i koderów CELP. Dla pewnej klasy koderów CELP zaproponowano efektywne algorytmy konstruowania sygnałów pobudzających (np. ternarnych), polegające na sukcesywnej minimalizacji kąta między wektorem sygnału mowy i jego modelem. Przedstawiono implementację kodera mowy o zmiennej przepływności binarnej, zawierającego dwa warianty kodera CELP: 4.8 kbit/s i 8 kbit/s (z uzupełnieniem do 9.6 kbit/s) oraz wokoder predykcyjny 2.4 kbit/s. Przepływność binarna jest automatycznie dobierana, w zależności od jakości łącza. W rozdziale 4 opisano kwantyzację wektorową w zastosowaniu do kodowania transformaty. Oszacowano zysk wynikający z połączenia tych dwóch ww. technik kompresji. Opisano kodery charakteryzujące się największym zyskiem, w których zastosowano transformatę Karhunena-Loevego (KLT). Najwięcej uwagi poświęcono kodowaniu w dziedzinie częstotliwości, ze względu na wykorzystanie zjawiska maskowania szumu kwantyzacji. Opisano koder, w którym zastosowano transformatę o zmiennej rozdzielczości w dziedzinie czasu i częstotliwości, zrealizowaną w równoważnej postaci zestawu filtrów. W dalszej części pracy opisano koder szerokopasmowego (16 kHz) monofonicznego sygnału mowy i muzyki. Koder charakteryzuje się zmniejszonym (do około 25 ms) opóźnieniem algorytmicznym, co umożliwia jego zastosowanie w wysokiej jakości audiokonferencji. Podstawowa przepływność binarna nadajnika wynosi 64 kbit/s, jednak odbiornik może prawidłowo dekodować sygnał akustyczny w oparciu o część strumienia binarnego. Umożliwia to zastosowanie kodera w sieciach z transmisją pakietową, w których następuje utrata do 50% przesyłanej informacji. Struktura kodera łączy w sobie elementy koderów CELP (np. tzw. filtr percepcyjny) i koderów transformaty. Zastosowano zmodyfikowaną transformatę kosinusoidalną (MDCT), o zmniejszonym opóźnieniu algorytmicznym. Współczynniki transformaty są kodowane z wykorzystaniem kwantyzatorów wektorowych z adaptacją i odpowiednim rozdziałem bitów. Specjalna struktura hierarchiczna słowników (książek kodowych) kwantyzatorów wektorowych zapewnia możliwość odtworzenia sygnału w oparciu jedynie o najbardziej znaczące bity słowa kodowego. Omówiono wyniki symulacji kodera i przedyskutowano problem odporności na przekłamania strumienia binarnego. Rozdział 5 poświęcony jest tzw. wokoderom, czyli parametrycznym koderom mowy. Jakość syntezowanej w wokoderze mowy zależy w dużym stopniu od tzw. ekstraktora tonu krtaniowego. W pracy zaproponowano uogólniony ekstraktor tonu krtaniowego, umożliwiający rozpoznawanie następujących klas sygnałów, z wykorzystaniem dyskryminatora liniowego Fishera: cisza, mowa bezdźwięczna o charakterze stacjonarnym, plozyjnym, mowa słabo dźwięczna i silnie dźwięczna. Dla każdej z tych klas stosuje się inny sygnał pobudzający filtr predykcyjny po stronie odbiorczej. Opisano realizację praktyczną wokoderów predykcyjnych o przepływnościach binarnych 1.2 i 2.4 kbit/s. W rozdziale 6 zwrócono uwagę na znaczenie niektórych wątków rozprawy dla teorii i praktyki kompresji mowy. Przegląd standardów kompresji oraz spis oznaczeń i skrótów umieszczono w dodatkach. Zgromadzono bibliografię liczącą ponad 400 pozycji.
EN
In this work a unified approach to the analysis of the speech compression methods, based on vector quantization and linear prediction, is presented. Compression algorithms are compared, taking into consideration the bit rate, speech quality and computational complexity. In the Introduction, a review and classification of speech and audio compression methods is presented, as well as the criteria used for comparing compression algorithms. In Chapter 2, design methods of the ADPCM coders are discussed. A design algorithm for adaptive uniform and nonuniform quantizers, having the given statistical properties of the signal, the number of quantization levels and the adaptation speed, is described. Then, linear prediction algorithms for ADPCM coders are compared. Transversal and lattice predictor structures are considered, as well as the following sequential adaptation algorithms: the stochastic gradient (with and without normalization) and the least-squares methods (with an exponential window and with a sliding window). The least-squares adaptation algorithm with the exponential window has proven particularly useful for ADPCM coding at 16, 24 and 32 kbit/s. Then, predictors with variable delays are analyzed, for the modelling of speech signals and audio signals. The covariance method for the calculation of predictor coefficients is adopted, yielding a substantial reduction in prediction error. These predictors may be applied in any kind of predictive coder (e.g. CELP, multipulse, transform excitation coder). In Chapter 3 a unified approach to the analysis of the vector quantizers (VQ) and the CELP coders is presented. The VQ (which is the asymptotically optimal source coder) is compared with the ADPCM coder. In order to reduce computational complexity, the Product Code Vector Quantizers (e.g. the Shape-Gain VQ, the Multistage VQ, the CELP coder). Several algorithms of this kind are presented under the same formalism and their performances are compared. Several algorithms of this kind are presented under the same formalism and their performances are compared. Some codebook design algorithms, for the multistage SGVQ and CELP coders, are presented. In a particular case, when the excitation in the CELP coder is modeled using one gain coefficient (for example ternary excitation or concatenation of short codebook vectors), an iterative angle minimization algorithm is proposed for the construction of the excitation signal. Then, the real time implementation of the low bit rate speech coder is described. The bit rate is dynamically adjusted to the quality of the transmission channel. Three speech compression algorithms are implemented, yielding the bit rates of 2.4 kbit/s, 4.8 kbit/s and 8 kbit/s (with an extension to 9.6 kbit/s). The 2.4 kbit/s compression algorithm is the linear predictive vocoder, the 4.8 kbit/s and 9.6 kbit/s algorithms are the selected variants of the CELP coder. In Chapter 4, the vector quantization in a transform domain is analyzed. The transform gain is evaluated, for several transforms (DFT, DCT, MDCT, hierarchical MDCT). A speech coder using the Karhunen-Loeve transform (KLT) is described. The transformed vector is decomposed in two parts and coded using two independent SGVQs. In order to exploit the masking phenomena, a hierarchical filter bank with variable timefrequency resolution is proposed. Then, a low delay coder for speech and music signals sampled at 32 kHz is described. Its algorithmic delay does not exceed 25 ms which enables audioconferencing applications without echo cancellation. Its bit rate is scalable between 64 and 32 kbit/s by steps of 8 kbit/s. The transmitter issues the binary code at 64 kbit/s with lower bit rate codes embedded in it. The receiver may operate at lower bit rates with gradual loss of quality. The proposed coder is based on a mixed scheme: the adopted solution contains elements from the CELP speech coder and frequency domain music coders. The perceptual signal is obtained in time domain, then it is transformed to the frequency domain where bit allocation is calculated and transform coefficients are quantized. Simulation results are presented and the robustness of the proposed coder is examined. In Chapter 5, speech segmentation algorithms are described, based on the speech/silence detection, voiced/unvoiced discrimination, recognition of plosive sounds and identification of the degree of voicing. A parameter selection problem for the Fisher's linear discriminator is discussed. Applications to the low bit rate vocoder and the class dependent CELP coder are discussed. Then, the 2.4 and 1.2 kbit/s linear predictive vocoders are described. Algorithms for signal analysis (pitch extraction, calculation of linear predictive coefficients) and synthesis (generation of excitation signals, filtering, postprocessing) are presented. Chapter 6 has a recapitulative character; in the Appendices a review of speech and audio compression standards is presented. The bibliography contains more than 400 items.
first rewind previous Strona / 1 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.