PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Tytuł artykułu

Syntetyzer mowy uwzględniający prozodię wypowiedzi

Treść / Zawartość
Identyfikatory
Warianty tytułu
EN
Text-to-speech synthesizer employing automatic prosodic modification
Konferencja
Zastosowanie komputerów w nauce i technice 2010
Języki publikacji
PL
Abstrakty
PL
Przedstawiono system syntezy mowy polskiej uwzględniający w sposób automatyczny prozodię, tj. profil intonacyjny, tempo i akcenty wypowiedzi. Zastosowano syntezę konkatenacyjną z wykorzystaniem jednostek mowy zawierających przejścia między dwoma głoskami – difonów. Opisano poszczególne moduły wchodzące w skład syntetyzera: przetwarzanie tekstu, bazę jednostek mowy oraz algorytmy związane z tworzeniem syntetyzowanego sygnału. Przeprowadzono testy subiektywne potwierdzające wysoką zrozumiałość generowanej mowy i skuteczność modyfikacji prozodycznych. Przedstawiono możliwość zastosowania opisanego systemu w aplikacjach edukacyjnych lub terapeutycznych oraz interfejsach multimodalnych przeznaczonych dla osób niepełnosprawnych.
EN
The paper presents a Text-To-Speech synthesizer of Polish language employing automatic prosodic modification. The method used for synthesizing the speech signal is concatenative synthesis using constant-length segments – diphones. The subsequent modules of the synthesizer are introduced. Employed language analysis and signal processing techniques are described. The synthesized speech yields high intelligibility and naturalness, which is proved by auditory tests. The proposed system can be used in educational and therapeutic applications or multimodal interfaces for disabled people.
Słowa kluczowe
Twórcy
autor
  • Politechnika Gdańska, ul. G. Narutowicza 11/12, 80-952 Gdańsk, Wydział Elektroniki, Telekomunikacji i Informatyki, Katedra Systemów Multimedialnych, {klopatka,andcz}@sound.eti.pg.gda.pl
Bibliografia
  • 1. Dutoit T.: An introduction to Text-to-Speech synthesis, 129-170, Kluwer Academic Publishers, Dordrecht, 1997.
  • 2. Johnson M.: Synthesis of English Intonation using explicit models of reading and spontaneous speech, 4th Int. Conf. on Spoken Language, 3, 1844-1847, 3-6.10.1996, Philadelphia.
  • 3. Laroche J., Dolson M.: Improved phase vocoder time-scale modification of audio, IEEE Trans. on Speech and Aud. Proc., 7,3, New York.
  • 4. Moulines E., Charpentier F., Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones, Speech Communication, 453-467, North-Holland.
  • 5. D. Chappell, J. Hansen: A comparison of spectral smoothing methods for segment concatenation based speech synthesis, Speech Communication, 36, 343-374, North-Holland, 2002.
  • 6. K. Łopatka, P. Suchomski, A. Czyżewski: Time-domain prosodic modification for Text-To-Speech synthesizer, IEEE Conf. on Signal processing algorithms, architectures, arrangements and applications SPA 2010, 73-77, 23-25.09.2010, Poznań.
  • 7. A. Czyżewski, K. Łopatka, B. Kunka, R. Rybacki, B. Kostek: Speech synthesis controlled by eye gazing, 129th Convention of the Audio Engineering Society, 04-07.11.2010, San Francisco.
  • 8. B. Kunka, B. Kostek, M. Kulesza, P. Szczuko, A. Czyzewski: Gaze-tracking-based audio-visual correlation analysis employing quality of experience methodology, Intelligent Decision Technologies, vol. 4, No. 3, pp. 217-227, 2010.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-BPG8-0052-0042
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.