Wyniki wyszukiwania - BazTech

1

Czech parliament meeting recordings as ASR training data

Krůza Jan Oldřich

Annals of Computer Science and Information Systems

|

2020

|

Vol. 21

185--188

EN

I present a way to leverage the stenographed recordings of the Czech parliament meetings for purposes of training a speech-to-text system. The article presents a method for scraping the data, acquiring word-level alignment and selecting reliable parts of the imprecise transcript. Finally, I present an ASR system trained on these and other data.

2

Zastosowanie algorytmów normalizacji tekstu na potrzeby syntezy mowy w urządzeniach przenośnych

Zacniewski A., Kleinszmidt M.

Biuletyn Wojskowej Akademii Technicznej

|

2018

|

Vol. 67, nr 2

89--97

PL

W artykule pokazano kolejne etapy występujące w syntezie mowy, a także sposoby postępowania z poszczególnymi fragmentami tekstu, który ma zostać przetworzony na mowę. Przedstawiono wyniki badań wydajności algorytmów normalizacji treści realizowanych na potrzeby projektu Toucan Eye - urządzenia przenośnego z systemem sztucznej inteligencji, mającego wspomóc osoby z dysfunkcją wzroku. Pokazano, jak istotne są dobranie i optymalizacja zastosowanych algorytmów ze strony implementacyjnej, po to by zwiększyć komfort użytkownika końcowego.

EN

The article presents consecutive stages of speech synthesis and also the ways of dealing with particular fragments of a text. The results of performance measurement for the text content normalization algorithms are shown. These algorithms were developed for the Toucan Eye project – an embedded device with an artificial intelligence system able to help people with impaired sight. It was shown how essential is the choice and optimization of the applied algorithms for the implementation process in order to increase the end-user’s comfort.

3

Badania szybkości i jakości metod syntezy mowy na potrzeby zastosowania w urządzeniu przenośnym

Zacniewski A., Zdunek R.

Biuletyn Wojskowej Akademii Technicznej

|

2018

|

Vol. 67, nr 2

99--108

PL

W artykule przeanalizowano szereg metod dotyczących syntezy mowy, mając na uwadze ich wykorzystanie w urządzeniu przenośnym. Badania realizowano na urządzeniach o zróżnicowanych parametrach, a badanymi kryteriami były skuteczność danej metody i jej szybkość. Badania są częścią projektu Toucan Eye - urządzenia przenośnego z systemem sztucznej inteligencji, mającego wspomóc osoby z dysfunkcją wzroku. Pokazano również, jak ważne jest zoptymalizowanie zastosowanych metod w fazie projektu inżynierskiego, w celu zapewnienia lepszej jakości pracy urządzenia i komfortu użytkownika końcowego.

EN

In the article, the methods concerning speech synthesis were analysed, having in mind their usage in an embedded device. Research was carried out on the devices with mixed parameters, and the criteria were accuracy and speed of the given method. The research is a part of the Toucan Eye project – an embedded device with an artificial intelligence system able to help people with impaired sight. It was shown how important is optimization of the applied methods in the phase of an engineer project to ensure better quality of a working device and the end-user’s comfort.

4

Zastosowanie rozpoznawania mówcy w automatycznej translacji mowy typu speech-to-speech

Kłosowski P., Dustor A., Izydorczyk J

Studia Informatica

|

2014

|

Vol. 35, nr 3

71--81

PL

Przedstawiony artykuł dotyczy zagadnień związanych z funkcjonowaniem systemów automatycznej translacji mowy ciągłej. W systemach tych wykorzystuje się techniki przetwarzania języka naturalnego realizowane z wykorzystaniem algorytmów automatycznego rozpoznawania mowy, automatycznej translacji tekstów oraz zamiany tekstu na mowę za pomocą syntezy mowy. W artykule zaproponowano także metodę usprawnienia procesu automatycznej translacji mowy przez zastosowanie algorytmów automatycznej identyfikacji mówcy, pozwalających na automatyczną segmentację mowy pochodzącej od różnych mówców.

EN

This paper concerns the machine translation of continuous speech. These systems use machine language processing techniques implemented using algorithms of automatic speech recognition, automatic text translation and text-to-speech conversion using speech synthesis.

5

Improving speech processing based on phonetics and phonology of Polish language

Kłosowski P.

Przegląd Elektrotechniczny

|

2013

|

R. 89, nr 8

303--307

EN

The article presents methods of improving speech processing based on phonetics and phonology of Polish language. The new presented method for speech recognition was based on detection of distinctive acoustic parameters of phonemes in Polish language. Distinctivity has been assumed as the most important selection of parameters, which have represented objects from recognized classes. Speech recognition is widely used in telecommunications applications.

PL

W artykule zaprezentowano metody usprawnienia przetwarzania mowy wykorzystując do tego celu wiedzę z zakresu fonetyki I fonologii języka polskiego. Przedstawiona innowacyjna metoda automatycznego rozpoznawania mowy polega na detekcji akustycznych parametrów dystynktywnych fonemów mowy polskiej. O dystynktywności cech decydują parametry niezbędne do klasyfikacji fonemów.

6

System syntezy mowy polskiej z zastosowaniem platformy wbudowanej

Owczarek M., Poryzała P.

Elektronika : konstrukcje, technologie, zastosowania

|

2013

|

Vol. 54, nr 9

75-78

PL

W pracy opisano system do syntezy mowy zbudowany z wykorzystaniem 32-bitowego mikrokontrolera z rdzeniem ARM Cortex-M4. System umożliwia syntezę mowy na podstawie tekstu wprowadzonego przez użytkownika. Jako podstawę algorytmiczną mechanizmu syntezy mowy wykorzystano syntezator formantowy eSpeak (projekt o otwartym źródle) dla komputerów PC. Został on przeniesiony na wybraną platformę docelową, z uwzględnieniem istniejących ograniczeń oraz wymagań warstwy sprzętowej. Opracowano narzędzia realizujące konwersję plików danych programu eSpeak do postaci tablic wartości oraz struktur danych kompilowanych wraz z kodem programu. Napisano również procedury do niezależnej diagnostyki oraz weryfikacji działania każdego z elementów opracowanego systemu syntezy mowy.

EN

This paper describes speech synthesis system working on an embedded platform. The physical layer of the application was based on an efficient, 32-bit, ARM Cortex-M4 microcontroller. Since building of a complete Text-to-Speech system from scratch is a complex issue, elements of an open-source project called eSpeak (which uses formant synthesis, which does not require storage of large data structures) were ported onto the proposed target platform (with consideration of all of its limitations and requirements). The built system supports many languages and is capable of producing artificial speech directly from any text entered by the user.

7

Virtual keyboard controlled by eye gaze employing speech synthesis

Łopatka K., Rybacki R., Kunka B., Czyżewski A., Kostek B.

Elektronika : konstrukcje, technologie, zastosowania

|

2011

|

Vol. 52, nr 1

39-42

EN

The article presents the speech synthesis integrated into the eye gaze tracking system. This approach can significantly improve the quality of life of physically disabled people who are unable to communicate. The virtual keyboard (QWERTY) is an interface which allows for entering the text for the speech synthesizer. First, this article describes a methodology of determining the fixation point on a computer screen. Then it presents an algorithm of concatenative speech synthesis used in the engineered solution. Both modules of the system described were created by the Multimedia Systems Department. The work of the entire system was verified in real conditions. Conclusions focusing on the usefulness of this approach are provided.

PL

W artykule przedstawiono zastosowanie syntezy mowy w zintegrowanym w systemie śledzenia punktu fiksacji wzroku. Takie podejście w znaczący sposób może przyczynić się do poprawy jakości życia osób niepełnosprawnych fizycznie, które nie mają możliwości komunikowania się. Interfejsem umożliwiającym wprowadzanie do syntetyzera mowy tekstu jest wirtualna klawiatura z rozkładem klawiszy QWERTY. W pierwszej części artykułu przedstawiono sposób wyznaczania punktu fiksacji wzroku na monitorze komputerowym za pomocą stworzonego w Katedrze Systemów Multimedialnych systemu o nazwie Cyber-Oko. W drugiej części zaprezentowano algorytm syntezy mowy konkatenacyjnej, który jest wykorzystywany w zaproponowanym rozwiązaniu. Sprecyzowano odpowiednie wnioski na temat użyteczności takiego podejścia oraz zweryfikowano pracę systemu w warunkach rzeczywistych.

8

Automatic prosodic modification in a Text-To-Speech synthesizer of polish language

Łopatka K., Suchomski P., Czyżewski A.

Elektronika : konstrukcje, technologie, zastosowania

|

2011

|

Vol. 52, nr 5

106-110

EN

A Text-To-Speech synthesizer of Polish language with automatic prosodic modification is presented. The methods for automatic determination of accent and intonation are introduced. The application of prosodic speech processing algorithms to Text-To-Speech synthesis is presented. The impact of these modifications on the naturalness of the synthesized signal is discussed. The applied method is based on the TD-PSOLA algorithm. The developed Text-To-Speech Synthesizer is used in applications employing multimodal computer interfaces.

PL

Przedstawiono system syntezy mowy polskiej z funkcją automatycznej modyfikacji prozodii wypowiedzi. Opisane zostały metody automatycznego wyznaczania akcentu i intonacji wypowiedzi. Przedstawiono zastosowanie algorytmów przetwarzania sygnału mowy w procesie kształtowania prozodii. Omówiono wpływ zastosowanych modyfikacji na naturalność brzmienia syntezowanego sygnału. Zastosowana metoda poarta jest na algorytmie TD-PSOLA. Opracowany system syntezy mowy znajduje zastosowanie w aplikacjach wykorzystujących multimodalne interfejsy komputerowe.

9

Syntetyzer mowy uwzględniający prozodię wypowiedzi

Łopatka K., Czyżewski A.

Zeszyty Naukowe Wydziału Elektrotechniki i Automatyki Politechniki Gdańskiej

|

2010

|

Nr 28

105-108

PL

Przedstawiono system syntezy mowy polskiej uwzględniający w sposób automatyczny prozodię, tj. profil intonacyjny, tempo i akcenty wypowiedzi. Zastosowano syntezę konkatenacyjną z wykorzystaniem jednostek mowy zawierających przejścia między dwoma głoskami – difonów. Opisano poszczególne moduły wchodzące w skład syntetyzera: przetwarzanie tekstu, bazę jednostek mowy oraz algorytmy związane z tworzeniem syntetyzowanego sygnału. Przeprowadzono testy subiektywne potwierdzające wysoką zrozumiałość generowanej mowy i skuteczność modyfikacji prozodycznych. Przedstawiono możliwość zastosowania opisanego systemu w aplikacjach edukacyjnych lub terapeutycznych oraz interfejsach multimodalnych przeznaczonych dla osób niepełnosprawnych.

EN

The paper presents a Text-To-Speech synthesizer of Polish language employing automatic prosodic modification. The method used for synthesizing the speech signal is concatenative synthesis using constant-length segments – diphones. The subsequent modules of the synthesizer are introduced. Employed language analysis and signal processing techniques are described. The synthesized speech yields high intelligibility and naturalness, which is proved by auditory tests. The proposed system can be used in educational and therapeutic applications or multimodal interfaces for disabled people.

10

System syntezy mowy polskiej do zastosowań w urządzeniach mobilnych

Barański P., Bronakowski Ł., Strumiłło P.

Elektronika : konstrukcje, technologie, zastosowania

|

2010

|

Vol. 51, nr 9

78-80

PL

W artykule omówiono wykonany system syntezy mowy polskiej. System umożliwia syntezę bezpośrednio z tekstu ortograficznego. W celu dokonania transkrypcji fonetycznej opracowano jednoznakowy alfabet fonetyczny (1 znak - 1 fonem). Synteza jest realizowana metodą korpusowej selekcji jednostek fonetycznych. Jako jednostki fonetyczne wykorzystano difony. Niektóre difony mają kilka instancji różniących się kontekstem występowania. Każde słowo może być więc zsyntezowanie na wiele sposobów. Sekwencja difonów dobierana jest za pomocą algorytmu Viterbiego w celu uzyskania najbardziej optymalnego zestawu jednostek fonetycznych, zapewniając w ten sposób większą naturalność generowanej mowy.

EN

The article describes a system for speech synthesis designated for polish language. The system converts text to speech by using simple transcription rules. Every phoneme corresponds to one transcription letter. The system applies the corpus-based method, which uses diaphones at its core. Some diaphones have several instances with different context of occurrence. Therefore, every word can be synthesized in many ways. The applied cost function estimates the quality of a given diaphone connection. The adjacent diaphones are compared in terms of spectral properties. The optimal sequence of diaphones is then singled out by applying the Werbi algorithm. This guarantees the minimal cost value, which reflects the best possible quality of the synthesized speech.

11

Design of text to speach synthesis system based on the harmonic and noise model

Sawicki A., Zubrycki P., Petrovsky A.

Zeszyty Naukowe Politechniki Białostockiej. Informatyka

|

2009

|

Z. 4

111-125

EN

This is a proposal of concatenative text to speech synthesizer for the Polish language, based on diphones and ”Harmonics and Noise Model”(HNM). HNM has been successfully applied on a speech encoder and decoder, resulting in a high-quality of processed speech at low bit rate. Applying this model to speech synthesis system allows obtaining good quality of synthesized speech, and the small size of database parameters. The proposed project consists of two main modules. The Natural Language Processing (NLP) is used to analyse and convert the written text for phonemes and diphones using morphological rules. NLP discovers at the same time prosodic features for later modification of synthesized speech parameters in order to obtain the stress and voice intonation. The second section is a synthesis system, derived from speech decoder, preceded by a system of adapting the parameters of speech based on prosodic rules. The system of speech synthesis from the parameters is working in the frequency domain and uses the frequency spectrum envelope, which easily allows modifying the frequency, amplitude and duration of the signal when applying the prosodic rules. The algorithm of continuous phase designation at the speech frame borders allows concatenating portions of synthesized speech and diphones without phase distortion on the merger. Speech synthesizer operates on the diphone database, created applying fragmentation of recorded speech signal representing the pairs of phonemes. Sounds related to diphones are analyzed by speech encoder. It provides the parameters that described harmonic and noise components of speech, using the linear prediction filter LSF coefficients, resulting in a small size of diphone database.

PL

Artykuł przedstawia projekt konkatenacyjnego syntezatora mowy z tekstu dla języka polskiego, opartego na difonach i modelu Harmoniczne i Szum. Model Harmoniczne i Szum został z powodzeniem zastosowany w układzie kodera i dekodera mowy, dając w rezultacie dobrą jakość przetwarzanej mowy przy niskiej przepływności bitowej. Zastosowanie tego modelu do układu syntezy mowy pozwala na uzyskanie dobrej jako sci syntezowanej mowy, oraz niewielki rozmiar bazy parametrów. Układ składa się z dwóch głównych modułów. Moduł Naturalnego Przetwarzania Języka służy do analizy i zamiany tekstu pisanego na fonemy oraz difony, przy wykorzystaniu reguł morfologicznych. Procesor tekstu wyznacza jednocześnie warunki prozodii związane z późniejszą modyfikacją parametrów syntezowanego głosu w celu uzyskania akcentowania i intonacji. Drugim układem jest moduł syntezy, oparty na dekoderze mowy poprzedzonym systemem adaptacji parametrów mowy w oparciu o wyznaczone wcześniej reguły prozodyczne. Układ syntezy mowy z parametrw działa w dziedzinie czstotliwości i bazuje na obwiedni spektrum, co w prosty sposób pozwala na modyfikację czstotliwości, amplitudy i czasu trwania sygnału przy stosowaniu reguł prozodycznych. Algorytm wyznaczania ciągłej fazy na granicach ramek sygnału mowy pozwala na łączenie fragmentów syntezowanej mowy oraz poszczególnych difonów bez zniekształceń fazowych na połączeniu. Syntezator mowy operuje na bazie difonów, stworzonej na podstawie fragmentaryzacji nagranego sygnału mowy na części, reprezentujące połączenia par fonemów. Dźwięki odpowiadające difonom są analizowane przez moduł analizy mowy. Dostarcza on ciąg parametrów reprezentujących harmoniczne i szumowe komponenty sygnału mowy, opisane za pomocą filtrów liniowej predykcji i współczynników LSF, dając w rezultacie niewielkiej wielkości baze difonów.

12

Development of artificial neural network based speech synthesis for the polish language

Kwolek M.

Czasopismo Techniczne. Mechanika

|

2008

|

R. 105, z. 3-M

141-147

EN

The paper describes an MLP network that learns to transcribe Polish text to phonemes and defines the process of transcription. The transcription scheme used is SAMPA for the Polish language. The paper also shows mapping of text to binary patterns and the whole process of adaptation patterns for network's requirements. It describes learning process, and learning patterns were provided by professor Krzysztof Marasek from the Polish-Japanese Institute of Information Technology.

PL

W niniejszym artykule opisano wykorzystanie sztucznej sieci neuronowej MLP do zamiany tekstu pisanego w języku polskim na fonemy. Zdefiniowano sposób przeprowadzenia transkrypcji fonetycznej. Schemat transkrypcji oparty jest na alfabecie fonetycznym SAMPA dla języka polskiego. Przedstawiono proces przystosowania próbek tekstowych dla potrzeb sieci, czyli zamiany na postać binarną oraz generowanie okna. Opisano również proces uczenia sieci, a jako dane uczące wykorzystano bazę profesora Krzysztofa Maraska z Polsko-Japońskiej Wyższej Szkoły Technik Komputerowych.

13

System dialogowy języka mówionego : przegląd problemów

Wiśniewski A. M.

Biuletyn Instytutu Automatyki i Robotyki

|

2007

|

R. 13, nr 24

97-122

PL

Przedstawiono strukturę systemu dialogowego języka mówionego. Scharakteryzowano pożądane własności składników funkcjonalnych systemu: urządzenia rozpoznawania mowy, procesora językowego, sterownika (menedżera) dialogu i syntezatora mowy. Scharakteryzowano przykładowe realizacje systemów dialogowych języka mówionego.

EN

In this paper, the structure of a spoken language dialogue system was described. The underlying human language technologies were described: automatic speech recognizer, natural language understanding, dialogue manager, and speech synthesizer. The recent progress in spoken dialogue systems and some of the ongoing research challenges were presented.

14

Proces komunikacji słownej i jego teorie

Wykowska M., Bieda R.

Mechanika / Akademia Górniczo-Hutnicza im. St. Staszica

|

2004

|

T. 23, z. 1

75-95

PL

Artykuł stanowi zbiór treści dotyczących procesu komunikacji słownej, jaka zachodzi między ludźmi. Podana jest w nim krótka charakterystyka procesu słyszenia z anatomiczną, funkcjonalną klasyfikacją narządu słuchu i jego właściwościami oraz procesu mówienia z nakreśleniem pracy narządu mowy z rodzajem artykulacji. Omawiane są rodzaje sygnału mowy, metody analizy i syntezy mowy, jej cechy binarne i dystynktywne, zagadnienia percepcji głosek (fonemów) polskich i ich klasyfikacja. Zwrócono także uwagę na konieczność znajomości relacji między formą optyczną i akustyczną oraz sposobu transponowania z jednej formy na drugą, zwłaszcza w audiologii słownej ze względu na występowanie błędów interpretacyjnych. Całość zamykają teorie precepcji mowy uwzględniające specyfikę mowy w porównaniu z pozostałymi rodzajami dźwięku z rejestracją wypowiedzi w postaci oscylogramów i spektogramów, których analiza może być pomocna w audiometrii słownej.

EN

The paper consists of a collection of issues concerning process of interpersonal verbal communication. A short descriphon of hearing process together with anatomical and functional classification of the hearing organ and its properties as well as description of the speech organ's functioning with the type of articulation is also included. Types of speech signals, methods of speech analysis and synthesis, binary and distinctive language and their classification are all discussed. Attention is drawn to the necessity of being aware of the relation between the optic and acoustic form and the means of transponing from one to the other, especially due to verbal audiology with respect to the interpretational errors. Concluding remarks arę concerned with those theories of speech perception which pay respect to speech as being specific compared to other types of sound with speech recording in form of oscilograms and spectograms, analysis of which may be helpful in verbal audiometrics.

15

Wybór jednostek elementarnych dla systemów syntezy mowy

Fabian P.

Studia Informatica

|

2003

|

Vol. 24, nr 4

29-38

EN

Two common methods of speech synthesis arę parametric synthesis and concatenation of basie speech units. Concatenation sticks speech units together in s selected domain. The ąuality of the speech synthesis grows with the length of basie ?, speech units in the vocabulary: one of possible solutions would be ideally to record a ^ large corpus of continuous speech. Collecting a set of elementary speech units, like polyphones, makes possible to use the second method for the Polish language. Speech 'synthesis isnot anewproblem, there arę many commercial products. But the ąuality ?.pf them for less popular languages, like Polish, is much worse than for the most English. The presented approach makes possible a fast optimization of a i units database for speech synthesis.

PL

Główne metody syntezy mowy to metody parametryczne z interpolacją parametrów i konkatenacyjne z zestawianiem wypowiedzi w wybranej dziedzinie z fragmentów istniejących nagrań. Zestawianie daje tym lepsze efekty, im dłuższe są jednostki w odpowiednich kontekstach. Zgromadzenie odpowiednio dużej bazy elementarnych nagrań (polifonów) pozwala zastosować drugą metodę do syntezy mowy w języku polskim. Jakość istniejących syntezatorów dla mniej popularnych języków, np. polskiego, jest znacznie niższa niż uzyskana dla najczęściej badanego języka angielskiego. Przedstawiona koncepcja automatycznego budowania bazy polifonów pozwala na szybką optymalizację bazy jednostek fonetyczno-akustycznych do celów syntezy mowy.

16

Automatyczne rozpoznawanie i synteza mowy

Schroeder M.

Postępy Fizyki

|

2003

|

T. 54, z. 3

107-112

17

Mówiące przyrządy

Kłosowski P., Izydorczyk J.

Przegląd Telekomunikacyjny + Wiadomości Telekomunikacyjne

|

1998

|

nr 3

185-187

PL

Przedstawiono ideę uniwersalnego systemu, w skład którego wchodzi dedykowany syntetyzator mowy oraz specjalistyczne oprogramowanie mające na celu dodanie przyrządom dodatkowej funkcji komunikacji głosowej, co może poprawić komfort ich użytkownikom, a nawet poszerzyć ich grono o osoby niewidome i niedowidzące.

EN

This paper presents the main ideas of the general purposes of systems, which consists of dedicated speech synthesizers and appropriate software. This software allows adding voice communication function to equipment, which is especially useful for blind people.