Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 1

Liczba wyników na stronie
first rewind previous Strona / 1 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  trakt głosowy
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 1 next fast forward last
PL
Praca poświęcona jest matematycznym metodom modelowania artykulacji mowy. Szczególną uwagę zwrócono na przypadek, gdy trakt głosowy jest rozgałęziony i w artykulacji uczestniczy np. jama nosowa. Podjęta została próba stworzenia ścisłego modelu matematycznego opisującego propagację dźwięków wewnątrz narządów mowy w sytuacji, gdy właściwy trakt głosowy bocznikowany jest przez wnekę rezonansową. Zaproponowany model został zweryfikowany eksperymentalnie i posłużył do identyfikacji profilu impedancyjnego nardządów mowy podczas artykulacji głosek nosowych. Praca zaczyna się od przedstawienia klasycznych wyników badań dotyczących mowy, które uzyskano na gruncie fonetyki artykulacyjnej i fonologii. Następnie przypomniane zostały prawa fizyki opisujące propagację fal akustycznych, w przypadku gdy zaniedbuje się straty energii wynikające z lepkości powietrza. Równania te po niezbędnych uproszczeniach pozwoliły na przypomnienie równań telegrafistów - równań, które opisują z jednej strony propagację fali akustycznej w rurce o stałym przekroju, a z drugiej strony opisują propagację fali TEM w odcinku bezstratnej linii transmisyjnej o stałej impedancji falowej. Równania te stanowią podstawę wszystkich rozważnych modeli toru głosowego człowieka, począwszy od najstarszego modelu H.L.F. Helmholtza, a skończywszy na najbardziej złożonych modelach cyfrowych. W tej części pracy przedstawiono także rozważania dotyczące stabilności modelu. Następnie opisano liniową predykcję sygnału mowy. Wyprowadzono wzór określąjacy przyczynowy filtr Wienera i zastosowano go do analizy sygnału mowy generowanego zgodnie z opisanymi wcześniej modelem. Rezultatem jest sformułowanie równań normalnych. Rozważany jest także związek filtru Wienera dla sygnału mowy z filtrami kratowymi, co daje jasną interpretację fizyczną parametrów filtru LPC. Kolejny krok to prezentacja algorytmu Levinsona-Durbina, który ma zasadnicze znaczenie dla przetwarzania sygnału mowy. Pozwala on nie tylko na szybkie obliczanie parametrów filtru LPC, ale, niejako przy okazji, pozwala na obliczenie profilu impedancyjnego nierozgałęzionego traktu głosowego. Przedstawione zostają także trzy podstawowe metody estymacji równań normalnych, tzn.: metoda autokorelacji, metoda kowariancji i metoda Burga. Przedstawiono wyniki badań prowadzonych przez autora z wykorzystaniem analizy LPC nad związkiem pomiędzy własnościami akustycznymi samogłosek polskich a ich własnościami artykulacyjnymi. Wyniki te mogą być użyte do usprawnienia procesu rozpoznawania mowy. Przedstawiono także pewną nową interpretację sygnałową parametrów LSP. Parametry LSP znalazły szerokie zastosowanie w konstrukcjach wokoderów generujących strumień danych o szczególnie małej prędkości binarnej. Zagadnienie to zostało omówione na przykładzie wokoderów znormalizowanych przez ITU, a w szczególności na przykładzie wokoderów znormalizowanych przez ITU, a w szczególności na przykładzie wokodera ITU G. 723.1. Następnie sformułowano i przeanalizowano równania rozgałęzionego traktu głosowego. Rozgałęzienie traktu głosowego następuje zawsze wtedy, gdy artykułowana jest głoska nosowa lub unosowiona. Położenie podniebienia miękkiego zmienia się tak, że następuje sprzężenie traktu głosowego z jamą nosową. W sytuacji gdy usta pozostają miękkie, np. podczas artykulacji spółgłoski "m", przepływ powietrza może odbywać się tylko poprzez jamę nosową i tylko ona bierze udział w artykulacji tej głoski. Zasadniczym zagadnieniem jest w tym przypadku opisanie propagacji fal akustycznych w obszarze rozgałęzienia traktu głosowego. Opis ten wymaga sformułowania zespolonego współczynnika odbicia jamy ustnej i prowadzi do modelu ARMA sygnału mowy. W najprostszym przypadku jest to model, którego zera leżą dokładnie na okręgu jednostkowym. Model taki jest dość mało realny i zakłada, że usta są zamknięte i zupełnie nie uczestniczą w artykulacji. Tymczasem jest to nieprawda. Część energii fali akustycznej emitowana jest przez usta mimo prawie całkowitego ich zamknięcia. Prowadzi to do przesunięcia zer modelu sygnału mowy poza okręg jednostkowy. Zaproponowano także algorytm estymacji profilu impedancyjnego rozgałęzionego traktu głosowego na podstawie zarejestrowanego sygnału mowy. Algorytm ten sformułowano w dwóch wersjach. Jedna dotyczy sytuacji gdy zakładamy, że jama ustna jest rezonatorem, w którym nie obserwuje się strat energii, a zatem nie obserwuje sie emisji dźwięków. Druga wersja algorytmu zastępuje to założenie danymi wynikającymi z budowy anatomicznej jamy nosowej człowieka. Zaproponowano model jamy nosowej wraz z modelem emisji dzwięku poprzez nozdrza. Model może być stosowany dla sygnału mowy próbkowanego z częstotliwością 8000Hz. W pracy wykazano, że dzięki temu można usunąć mało realne założenie o braku emisji akustycznych poprzez jamę ustną. Podstawą zaproponowanego algorytmu jest procedura estymacji parametrów modelu ARMA podana przez U. Pillai. Procedura ta: 1) pozwala na wiarygodną ocenę rzędu licznika i mianownika modelu ARMA, 2) jest rozwinięciem idei liniowej predykcji sygnału mowy i korzysta z wyników uzyskanych podczas analizy LPC, 3) pozwala na skuteczną estymację zespolonego współczynnika odbicia od miejsca rozgałęzienia traktu głosowego. Algorytm estymacji profilu traktu głosowego wypróbowano na przykładzie polskich spółgłosek nosowych. Na koniec należy wspomnieć o czasowo rozdzielczym algorytmie estymacji profilu impedancyjnego niejednorodnej linii transmisyjnej na podstawie pomiaru współczynnika odbicia. Powszechnie stosowane w tym celu algorytmy wymagają użycia impulsu, dla którego cza narastania jest dużo krótszy niż czas propagacji fali przez badaną linię. W ostatnim czasie zaproponowano algorytmy, które usuwają tę niedogodność, szczególnie że problem dotyczy układów mikrofalowych. Autorowi niniejszego opracowania udało sie jeden z nich uprościć na tyle, że wymaga on mocy obliczeniowej typowego mikrokontrolera. W rezultacie może być implementowany nawet w niewielkich, przenośnych przyrządach pomiarowych. Algorytm, o którym mowa, został sformułowany przez autora na gruncie teorii mikrofal, ale jest wynikiem jego przemyśleń i doświadczeń w modelowaniu traktu głosowego. Algorytm ten zamieszczono w dodatku B niniejszej pracy.
EN
The book is about mathematical modelling of human speech articulation. The case of forked vocal tract is considered. Particulary when nasal cavity is connected to the mouth cavity and shunts the vocal tract. Author tried to construct an exact mathematical model of sound propagation inside human vocal tract, when the main vocal tract is shunted by resonance cavity. Proposed model have been verified experimentally and used to identify impedance profile of the vocal tract during nasal consonants articulation. The book starts with classical results of scientific investigation concerning human speech articulation obtained by phonetics and phonology. Next fundamental physical laws of sound propagation has been reminded. Energy dissipation mechanisms as viscosity and heat conducted have been omitted. As a result telegrapher equations have been obtained. The telegrapher equations describes not only sound propagation inside uniform lossless pipe but propagation of electromagnetic waves inside lossless transmission line too - TEM modes. The telegrapher equations make up the basis for all models of human speech articulation - from the oldest model originated by H. L. F. Helmholtz, to the most complicated contemporary digital models used, eg. inside GSM telephones. In this part of book considerations about stability of the model have been presented also. Next part of the book is devoted to linear prediction of the speech. The linear, casual Wiener Filter is derived. The Wiener Filter is used for speech analysis. It is assumed that the speech can be modelled by the means of nonuniform lossless transmision line. As a result Normal Equations has been obtained. Relation between Wiener Filter and Lattice Filters for the human speech has been considered also. It gives base for physical interpretation of reflection coefficients and LPC coefficients. In the nest step Levinson-Durbin algorithm has been described. It is the most important algorithm for digital speech processing. It can be used not only for fast solving of Normal Equations but also delivers reflection coefficients need to obtain impedance profile of the vocal tract. The most important methods to obtain Normal Equations has been presented, ie. autocorrelation, covariance and Burg's methods. The results of LPC analysis of Polish vowels obtained by the author has been described. The results connect acoustics features of Polish vowels with articulation features. The results can be used for acceleration of automatic recognition of Polish speech. The new interpretation of LSP coefficients has been introduced. LSP coefficients are widely used in the low bit-rate vocoders. An example of such vocoder, ie. ITU G. 723, is discussed. In the next part of the book forked vocal tract has been considered. During articulation of nasal consonants position of the velum is changed and nasal cavity is attached to the main part of vocal tract. When mouth is closed mouth cavity forms resonance cavity shunting vocal tract. In such configuration consonant is articulated by nasal holes. The main problem is formulation of equations of sounds propagation in the fork domain. It is proposed to use complex reflection coefficient of resonance cavity for smart elimination complexity of equations. Resulted model of speech signal is ARMA model. For the simplest case zeros of the model lies on the unit circle in the Gauss plain. It is unrealistic, which assume that nasal consonant is articulated only by nasal holes. In the reality closed mouth participate in the articulation too. Part of sound waves is emitted by the mouth despite it is completely closed. As a result zeros of the ARMA model are shifted apart the unit circle. In the book an algorithm for the impedance profile identification of the forked vocal tract has been proposed. The algorithm is based on proposed ARMA model of speech production. The algorithm is formulated in two versions. The first is intended for the ARMA model with zeros on the unit circle, ie. it can be used for impedance profile identification in the case lossless resonance cavity. In the second version of the algorithm the assumption of lossless cavity is replaced by standard nasal cavity model. Standard nasal cavity model can by obtained from literature and here it is adapted to processing of 8000 Hz sampled speech. Standard model of nasal cavity eliminates unrealistic about lossless resonance mouth cavity. The base of the identification algorithm is ARMA model identification procedure published by U. Pillai. The procedure: 1) can by used for reliable estimation of order of numerator and denominator of the ARMA model; 2) it is an expansion of linear prediction of speech and is based on the LPC coefficients computation; 3) can be used for reliable estimation of complex reflection coefficient of resonance cavity. The algorithm of forked vocal tract impedance profile identification has been tested on Polish nasal consonants. The last achievement of the author is algorithm of impedance profile identification of nonuniform lossless transmission line based on reflected wave detection. The most widespread algorithms used in such a case utilize as an excitation pulse shaped waverform with raise time at least one order of magnitude shorter then delay time of the line under investigation. Proposed algorithm can utilize waveform of any shape and duration greater than delay time of the line. In the same time the algorithm is not very complex and can be implemented even on small and simple microcontroler. The algorithm is given in the Appendix B.
first rewind previous Strona / 1 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.