System syntezy mowy polskiej do zastosowań w urządzeniach mobilnych

Barański, P.; Bronakowski, Ł.; Strumiłło, P.

Artykuł - szczegóły

Tytuł artykułu

System syntezy mowy polskiej do zastosowań w urządzeniach mobilnych

Autorzy

Barański P. , Bronakowski Ł. , Strumiłło P.

Identyfikatory

Warianty tytułu

A system for polish speech synthesis designated for mobile devices

Języki publikacji

Abstrakty

W artykule omówiono wykonany system syntezy mowy polskiej. System umożliwia syntezę bezpośrednio z tekstu ortograficznego. W celu dokonania transkrypcji fonetycznej opracowano jednoznakowy alfabet fonetyczny (1 znak - 1 fonem). Synteza jest realizowana metodą korpusowej selekcji jednostek fonetycznych. Jako jednostki fonetyczne wykorzystano difony. Niektóre difony mają kilka instancji różniących się kontekstem występowania. Każde słowo może być więc zsyntezowanie na wiele sposobów. Sekwencja difonów dobierana jest za pomocą algorytmu Viterbiego w celu uzyskania najbardziej optymalnego zestawu jednostek fonetycznych, zapewniając w ten sposób większą naturalność generowanej mowy.

The article describes a system for speech synthesis designated for polish language. The system converts text to speech by using simple transcription rules. Every phoneme corresponds to one transcription letter. The system applies the corpus-based method, which uses diaphones at its core. Some diaphones have several instances with different context of occurrence. Therefore, every word can be synthesized in many ways. The applied cost function estimates the quality of a given diaphone connection. The adjacent diaphones are compared in terms of spectral properties. The optimal sequence of diaphones is then singled out by applying the Werbi algorithm. This guarantees the minimal cost value, which reflects the best possible quality of the synthesized speech.

Słowa kluczowe

syntezator mowy polskiej konkatenacja difonów synteza mowy algorytm Viterbiego

Polish speech synthesizer speech synthesis Viterbi algorithm

Wydawca

Wydawnictwo SIGMA-NOT

Czasopismo

Elektronika : konstrukcje, technologie, zastosowania

Rocznik

2010

Tom

Vol. 51, nr 9

Strony

78--80

Opis fizyczny

Bibliogr. 4 poz., il., wykr.

Twórcy

autor

Barański P.

autor

Bronakowski Ł.

autor

Strumiłło P.

Politechnika Łódzka, Wydział Elektrotechniki, Elektroniki, Informatyki i Automatyki

Bibliografia

[1] Szklany K.: Przygotowanie bazy difonów języka polskiego dla realizacji syntezy mowy w systemie MBROLA. 50. Otwarte Seminarium Akustyki 2003.
[2] Toshio Hirait, Seiichi Tenpakut, Kiyohiro Shikano: Speech unit selection based on target values driven by speech data in concatenative speech synthesis. Proceedings of 2002 IEEE, Workshop on Speech Synthesis, s. 43.
[3] Hunt A., Black A.: Unit selection in a concatenative speech synthesis system using a large speech database. Acoustics, Speech, and Signal Processing, 1996. ICASSP-96.
[4] Forney D.: The Viterbi Algorithm. Proceedings of The IEEE, vol. 61, no. 3, 03/1973.

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-article-BWAD-0021-0021