Parametry identyfikacyjne umożliwiające automatyczne rozpoznawanie cyfr wypowiadanych w języku polskim

Dulas, J.

Artykuł - szczegóły

Tytuł artykułu

Parametry identyfikacyjne umożliwiające automatyczne rozpoznawanie cyfr wypowiadanych w języku polskim

Autorzy

Dulas J.

Treść / Zawartość

Pełne teksty:

Pobierz

Identyfikatory

Warianty tytułu

Identification parameters enabling automatic recognition of digits spoken in Polish

Języki publikacji

Abstrakty

Artykuł przedstawia najnowsze wyniki prac autora w dziedzinie automatycznego rozpoznawania sygnałów mowy. Wyniki badań prowadzonych na zbiorze 500 nagrań cyfr wypowiadanych w języku polskim przez 50 mówców różnej płci i w różnym wieku pozwalają na zaproponowanie zestawu parametrów niezbędnych do przeprowadzenia procesu ich identyfikacji. Jak pokazano w artykule zestaw kilku podstawowych cech identyfikujących jest wystarczający aby taki proces przeprowadzić. Zaproponowany zestaw parametrów jest łatwy do uzyskania przy niewielkiej mocy obliczeniowej.

The paper describes a new author's method for automatic recognition of digits spoken in Polish. In this new approach there are no frequency analyses as used to be made in such systems but the image recognition of the time characteristic is applied. Investigations performed on 500 records of people of different sex and age showed that there was possibility of constructing an automatic recognition system based on a few parameters. The first is the number of voiced phonemes included in a recognized word (Tab. 1). In this group there are all wavelets and some consonants. They include basic periods inside their time characteristics. This parameter is obtained using the grid method designed by the author (Fig. 3). The second one is the number and position of noisy phonemes. To this group there belong phonemes without basic periods but with big signal variety. This parameter is calculated using the number of local extrema, the signal amplitude level and checking if there are no basic periods. The third parameter is the shape of a signal envelope (Tab. 2). As investigations showed, it is possible to find the envelope pattern for each Polish digit common for all tested speakers. It was proved that these parameters are sufficient for automatic speech recognition of digits spoken in Polish. This new method can also be applied to other systems with small number of recognized words. It is fast and lack of frequency analyses causes that it has low hardware demands.

Słowa kluczowe

rozpoznawanie sygnału mowy rozpoznawanie automatyczne fonemy

automatic speech recognition phonemes

Wydawca

Wydawnictwo PAK

Czasopismo

Pomiary Automatyka Kontrola

Rocznik

2011

Tom

R. 57, nr 3

Strony

308--311

Opis fizyczny

Bibliogr. 17 poz., rys., tab.

Twórcy

autor

Dulas J.

Politechnika Opolska, Instytut Elektrotechniki, Automatyki i Informatyki, ul. Sosnkowskiego 31, 45-272 Opole, dulas@po.opole.pl

Bibliografia

[1] Basztura Cz.: Rozmawiać z komputerem, wydawnictwo Format, Wrocław 1992.
[2] Łobacz P., Mikołajczak N., Wysocka J.: Psychofonetyczne podstawy segmentacji sygnału mowy, Prace IPPT, Warszawa 1990.
[3] Tadeusiewicz R.: Sygnał mowy, WKiŁ, Warszawa 1987.
[4] http://simblog.pl/programy-do-sterowania-telefonem-za-pomoca-glosu
[5] http://media2.pl/telekomunikacja/47734-microsoft-mobile-sterowany-glosem.html
[6] http://www.hub30.com/artykul/1694,1,Profesjonalne-dyktafony-dla-pracy-i-rozrywki-ze-sterowaniem-glosowym-i-trybem-PCM
[7] Seymour R., Steward D., Ming J.: Audio-visual integration for robust speech recognition using maximum weighted stream posteriors, INTERSPEECH 2007, Antwerpia, Belgia, 654-657.
[8] Bekiarski A., Pleshkova-Bekiarska S.: Pomiar sygnału głosowego za pomocą matrycy mikrofonowej dwuwymiarowej przeznaczonej do audiowizyjnego sterowania robota, PAK 10/2008, 741-743.
[9] Weifeng L., Herve B., Non-linear spectra kontrast stretching for In-car speech recognition, INTERSPEECH 2007, Antwerpia, Belgia, 1122-1125.
[10] Lamel L., Adda G., Bilinski E., Gauvain J.L.: Transcribing lectures and seminars, INTERSPEECH 2005, Lisbon, Portugal, 1657-1660.
[11] Trancoso I., Nunes R., Neves L.: Recognition of classroom lectures in european Portuguese INTERSPEECH 2006, Pittsburgh, USA, 281-284.
[12] Juho P., Hanseok K.: A New state-dependent phonetic tied-mixture model with head-body-tail structured HMM for Real time continous phoneme recognition system, INTERSPEECH 2006, Pittsburgh, USA, 1583-1586.
[13] Wydra S.: Recognition quality improvement In automatic speech recognition system for Polish, EUROCON 2007,Warszawa, 218-223.
[14] Kant C., Nishimoto T., Sagayama S.: Model adaptation by state splitting of HMM for long reverberation, INTERSPEECH 2005, Lisbona, Portugalia, 277-280.
[15] Aboutabit N., Beautemps D., Clarke J., Besacier L.: A HMM recognition of consonant-vowel syllables from lip contours: the cued speech case, INTERSPEECH 2007, Antwerpia, Belgia, 646-649.
[16] Dulas J.: Automatyczna segmentacja sygnałów mowy w oparciu o metodę siatek o zmiennych parametrach, PE 1/2010, 229-232.
[17] Dulas J.: Analiza obwiedni jako parametr wspomagający automatyczną identyfikację wyrażeń, PAK 5/2009, 308-309.

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-article-BSW4-0099-0020