Design of text to speach synthesis system based on the harmonic and noise model

Sawicki, A.; Zubrycki, P.; Petrovsky, A.

Artykuł - szczegóły

Tytuł artykułu

Design of text to speach synthesis system based on the harmonic and noise model

Autorzy

Sawicki A. , Zubrycki P. , Petrovsky A.

Treść / Zawartość

Pełne teksty:

httpwww_wi_pb_edu_plplikinaukazeszytyz4sawickizubryckipetrovsky-full.pdf

Pobierz

Identyfikatory

Warianty tytułu

Koncepcja układu syntezy mowy z tekstu opartego na modelu harmoniczne i szum

Języki publikacji

Abstrakty

This is a proposal of concatenative text to speech synthesizer for the Polish language, based on diphones and ”Harmonics and Noise Model”(HNM). HNM has been successfully applied on a speech encoder and decoder, resulting in a high-quality of processed speech at low bit rate. Applying this model to speech synthesis system allows obtaining good quality of synthesized speech, and the small size of database parameters. The proposed project consists of two main modules. The Natural Language Processing (NLP) is used to analyse and convert the written text for phonemes and diphones using morphological rules. NLP discovers at the same time prosodic features for later modification of synthesized speech parameters in order to obtain the stress and voice intonation. The second section is a synthesis system, derived from speech decoder, preceded by a system of adapting the parameters of speech based on prosodic rules. The system of speech synthesis from the parameters is working in the frequency domain and uses the frequency spectrum envelope, which easily allows modifying the frequency, amplitude and duration of the signal when applying the prosodic rules. The algorithm of continuous phase designation at the speech frame borders allows concatenating portions of synthesized speech and diphones without phase distortion on the merger. Speech synthesizer operates on the diphone database, created applying fragmentation of recorded speech signal representing the pairs of phonemes. Sounds related to diphones are analyzed by speech encoder. It provides the parameters that described harmonic and noise components of speech, using the linear prediction filter LSF coefficients, resulting in a small size of diphone database.

Artykuł przedstawia projekt konkatenacyjnego syntezatora mowy z tekstu dla języka polskiego, opartego na difonach i modelu Harmoniczne i Szum. Model Harmoniczne i Szum został z powodzeniem zastosowany w układzie kodera i dekodera mowy, dając w rezultacie dobrą jakość przetwarzanej mowy przy niskiej przepływności bitowej. Zastosowanie tego modelu do układu syntezy mowy pozwala na uzyskanie dobrej jako sci syntezowanej mowy, oraz niewielki rozmiar bazy parametrów. Układ składa się z dwóch głównych modułów. Moduł Naturalnego Przetwarzania Języka służy do analizy i zamiany tekstu pisanego na fonemy oraz difony, przy wykorzystaniu reguł morfologicznych. Procesor tekstu wyznacza jednocześnie warunki prozodii związane z późniejszą modyfikacją parametrów syntezowanego głosu w celu uzyskania akcentowania i intonacji. Drugim układem jest moduł syntezy, oparty na dekoderze mowy poprzedzonym systemem adaptacji parametrów mowy w oparciu o wyznaczone wcześniej reguły prozodyczne. Układ syntezy mowy z parametrw działa w dziedzinie czstotliwości i bazuje na obwiedni spektrum, co w prosty sposób pozwala na modyfikację czstotliwości, amplitudy i czasu trwania sygnału przy stosowaniu reguł prozodycznych. Algorytm wyznaczania ciągłej fazy na granicach ramek sygnału mowy pozwala na łączenie fragmentów syntezowanej mowy oraz poszczególnych difonów bez zniekształceń fazowych na połączeniu. Syntezator mowy operuje na bazie difonów, stworzonej na podstawie fragmentaryzacji nagranego sygnału mowy na części, reprezentujące połączenia par fonemów. Dźwięki odpowiadające difonom są analizowane przez moduł analizy mowy. Dostarcza on ciąg parametrów reprezentujących harmoniczne i szumowe komponenty sygnału mowy, opisane za pomocą filtrów liniowej predykcji i współczynników LSF, dając w rezultacie niewielkiej wielkości baze difonów.

Słowa kluczowe

speech synthesis TTS harmonic and noise model

synteza mowy model harmoniczne i szum

Wydawca

Oficyna Wydawnicza Politechniki Białostockiej

Czasopismo

Zeszyty Naukowe Politechniki Białostockiej. Informatyka

Rocznik

2009

Tom

Z. 4

Strony

111--125

Opis fizyczny

Bibliogr. 14 poz., Wykr.

Twórcy

autor

Sawicki A.

autor

Zubrycki P.

autor

Petrovsky A.

Bibliografia

[1] Dutoit T., An Introduction to Text-to-Speech Synthesis, Kluwer Academic Publishers, 1997.
[2] Petrowsky A., Zubrycki P., Sawicki A.: Tonal and Noise Components Separation Based on a Pitch Synchronous DFT Analyzer as a Speech Coding Method, Proceedings of ECCTD, 2003, Vol. III, pp. 169-172.
[3] Grocholewski S.: Zało˙ zenia akustycznej bazy danych dla języka polskiego na nośniku CD-ROM, Mat. I KK: Głosowa komunikacja człowiek-komputer, Wrocław 1995, s. 177-180
[4] A. Black and P. Taylor: Festival Speech Synthesis System: system documentation (1.1.1), Human Communication Research Centre Technical Report HCRC/TR-83, 1997.
[5] Demenko, G. Grocholewski, S. Wagner, A. Szymanski M.: Prosody annotation for corpus based speech synthesis. [in:] Proceedings of the Eleventh Australasian International Conference on Speech Science and Technology, New Zealand. Auckland, 2006.
[6] M. Wiśniewski: Zarys fonetyki i fonologii współczesnego języka polskiego, wyd. Uniwersytetu Mikołaja Kopernika, Toruń, 2007.
[7] Sjolander, Kyre / Beskow, Jonas: Wavesurfer - an open source speech tool, In ICSLP-2000, vol.4, 464-467
[8] Y. Stylianou, Applying the Harmonic Plus NoiseMode in Concatenative Speech Synthesis, IEEE Trans. on Speech and Audio Processing, vol. 9, no 1., 2001.
[9] B. Yegnanarayana, C. d’Alessandro, V. Darsions An Iterative Algorithm for Decomposiiton of Speech Signals into Voiced and Noise Components, IEEE Trans. on Speech and Audio Coding, vol. 6, no. 1, pp. 1-11, 1998.
[10] P.J.B. Jackson, C.H. Shadle, Pitch-Scaled Estimation of Simultaneous Voiced and Turbulence-Noise Components in Speech, IEEE Trans. on Speech and Audio Processing, vol. 9, no. 7, pp. 713-726, Oct. 2001
[11] V. Sercov, A. Petrovsky, An Improved SpeechModel with Allowance for Time-Varying Pitch Harmonic Amplitudes and Frequencies in Low Bit-Rate MBE Coders, in Proc. of the 6ht European Conf. on Speech Communication and Technology EUROSPEECH’99, Budapest, Hungary, 1999, pp. 1479-1482.
[12] P. Zubrycki, A. Petrovsky Analysis/synthesis speech model based on the pitch- tracking periodic-aperiodic decomposition, in Information processing and security systems (Khalid Saeed, Jerzy Peja eds.) Springer Verlag, Heidelberg 2005,pp. 33-42
[13] M.M. Sondhi, New Methods of Pitch Extraction, IEEE Trans. on Audio and Electroacoustics, vol. AU-16, no. 2, pp. 262-266, 1968.
[14] Espeak, eSpeak text to speech, http://espeak.sourceforge.net/ [viewed 15/09/2009]

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-article-BPB2-0036-0014