Syntetyzer mowy uwzględniający prozodię wypowiedzi

Łopatka, K.; Czyżewski, A.

Artykuł - szczegóły

Tytuł artykułu

Syntetyzer mowy uwzględniający prozodię wypowiedzi

Autorzy

Łopatka K. , Czyżewski A.

Treść / Zawartość

Pełne teksty:

Pobierz

Identyfikatory

Warianty tytułu

Text-to-speech synthesizer employing automatic prosodic modification

Konferencja

Zastosowanie komputerów w nauce i technice 2010

Języki publikacji

Abstrakty

Przedstawiono system syntezy mowy polskiej uwzględniający w sposób automatyczny prozodię, tj. profil intonacyjny, tempo i akcenty wypowiedzi. Zastosowano syntezę konkatenacyjną z wykorzystaniem jednostek mowy zawierających przejścia między dwoma głoskami – difonów. Opisano poszczególne moduły wchodzące w skład syntetyzera: przetwarzanie tekstu, bazę jednostek mowy oraz algorytmy związane z tworzeniem syntetyzowanego sygnału. Przeprowadzono testy subiektywne potwierdzające wysoką zrozumiałość generowanej mowy i skuteczność modyfikacji prozodycznych. Przedstawiono możliwość zastosowania opisanego systemu w aplikacjach edukacyjnych lub terapeutycznych oraz interfejsach multimodalnych przeznaczonych dla osób niepełnosprawnych.

The paper presents a Text-To-Speech synthesizer of Polish language employing automatic prosodic modification. The method used for synthesizing the speech signal is concatenative synthesis using constant-length segments – diphones. The subsequent modules of the synthesizer are introduced. Employed language analysis and signal processing techniques are described. The synthesized speech yields high intelligibility and naturalness, which is proved by auditory tests. The proposed system can be used in educational and therapeutic applications or multimodal interfaces for disabled people.

Słowa kluczowe

synteza mowy prozodia PSOLA

speech synthesis prosody PSOLA

Wydawca

Wydział Elektrotechniki i Automatyki Politechniki Gdańskiej

Czasopismo

Zeszyty Naukowe Wydziału Elektrotechniki i Automatyki Politechniki Gdańskiej

Rocznik

2010

Tom

Nr 28

Strony

105--108

Opis fizyczny

Bibliogr. 8 poz., rys., tab.

Twórcy

autor

Łopatka K.

autor

Czyżewski A.

Politechnika Gdańska, ul. G. Narutowicza 11/12, 80-952 Gdańsk, Wydział Elektroniki, Telekomunikacji i Informatyki, Katedra Systemów Multimedialnych, {klopatka,andcz}@sound.eti.pg.gda.pl

Bibliografia

1. Dutoit T.: An introduction to Text-to-Speech synthesis, 129-170, Kluwer Academic Publishers, Dordrecht, 1997.
2. Johnson M.: Synthesis of English Intonation using explicit models of reading and spontaneous speech, 4th Int. Conf. on Spoken Language, 3, 1844-1847, 3-6.10.1996, Philadelphia.
3. Laroche J., Dolson M.: Improved phase vocoder time-scale modification of audio, IEEE Trans. on Speech and Aud. Proc., 7,3, New York.
4. Moulines E., Charpentier F., Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones, Speech Communication, 453-467, North-Holland.
5. D. Chappell, J. Hansen: A comparison of spectral smoothing methods for segment concatenation based speech synthesis, Speech Communication, 36, 343-374, North-Holland, 2002.
6. K. Łopatka, P. Suchomski, A. Czyżewski: Time-domain prosodic modification for Text-To-Speech synthesizer, IEEE Conf. on Signal processing algorithms, architectures, arrangements and applications SPA 2010, 73-77, 23-25.09.2010, Poznań.
7. A. Czyżewski, K. Łopatka, B. Kunka, R. Rybacki, B. Kostek: Speech synthesis controlled by eye gazing, 129th Convention of the Audio Engineering Society, 04-07.11.2010, San Francisco.
8. B. Kunka, B. Kostek, M. Kulesza, P. Szczuko, A. Czyzewski: Gaze-tracking-based audio-visual correlation analysis employing quality of experience methodology, Intelligent Decision Technologies, vol. 4, No. 3, pp. 217-227, 2010.

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-article-BPG8-0052-0042