Recognition of English and Polish vowels by using fractal transformation

Rauch, Ł.; Dzwinel, W.

Artykuł - szczegóły

Tytuł artykułu

Recognition of English and Polish vowels by using fractal transformation

Autorzy

Rauch Ł. , Dzwinel W.

Identyfikatory

Warianty tytułu

Rozpoznawanie angielskich i polskich samogłosek przy użyciu transformacji fraktalnej

Języki publikacji

Abstrakty

,The holistic approaches based on fractal transformations are recently considered in various types of pattern recognition problems such as face and speech identification. In this paper we verify critically a new holistic method, which was recently published in Pattern Recognition [1]. The method employs iterated function system (IFS) as the feature generation for identification of the basic phoneme, words and syllables from continuous speech. We find the results the method produces unsatisfactory in correct classification of English and Polish vowels. This cast doubt o the usefulness of this approach in recognition of continuous speech. More promising application of IFS we see in detection of boundaries between separate words and syllables.

,Metody holistyczne oparte na przekształceniach fraktalnych wykorzystywane są obecnie w wielu dziedzinach rozpoznawania obrazów takich jak rozpoznawanie twarzy lub mowy ludzkiej. Niniejszy artykuł pooddaje ocenie nową metodę holistyczną tego typu, która została opublikowana w czasopiśmie Pattern Recognition [1]. Podejście to wykorzystuje iterowany system funkcji (IFS) jako generator cech, które w późniejszych obliczeniach służą do identyfikacji pojedynczych fonemów, słów oraz sylab w procesie rozpoznawania mowy ciągłej. Wyniki zwrócone przez tę metodę nie są jednak satysfakcjonujące zarówno dla angielskich jak i polskich samogłosek, co niestety ostatecznie przesądza o przydatności niniejszego rozwiązania w badanym procesie. Jednak bardziej obiecującym kierunkiem rozwoju tego podejścia okazuje się być ekstrakcja wyrazów i sylab z mowy ciągłej za pomocą odpowiednich wymiarów fraktalnych, czemu poświęcona jest druga część artykułu.

Słowa kluczowe

speech recognition iterated function system fractal dimension

Wydawca

Instytut Informatyki Teoretycznej i Stosowanej Polskiej Akademii Nauk

Czasopismo

Archiwum Informatyki Teoretycznej i Stosowanej

Rocznik

2003

Tom

T. 15, z. 1

Strony

43--58

Opis fizyczny

Bibliogr. 16 poz., rys.

Twórcy

autor

Rauch Ł.

AGH Institute of Computer Science, Al. Mickiewicza 30, 30-059 Kraków, Poland

autor

Dzwinel W.

AGH Institute of Computer Science, Al. Mickiewicza 30, 30-059 Kraków, Poland

Bibliografia

[1] E. Bohez. T.R. Senevirathne ..Speech recognition using fractals”. Pattern Recognition vol. 34 (2001) 2227-2243.
[2] F. Gallwitz, H. Niemann, E. Noth, V. Wamke „Integrated recognition of words and prosodic phrase boundaries". Speech Communication vol. 36 (2002) 81-95.
[3] T. lrino, R. Patterson „Segregating information about the size and shape of the vocal tract using a time-domain auditory model: The stabilized wavelet-Mellin transform”, Speech Communication vol. 36 (2002) 181-203.
[4| C. Nadeu, D. Macho, J. Hernando „Time and frequency filtering of filter-bank energies for robust HMM speech recognition”, Speech Communication vol. 34 (2001) 93-114.
[5] T. Matsumura, S. Matsunaga “Non-uniform unit based HMMs for continuous speech recognition", Speech Communication vol. 17 (1995) 321-329,
[6] S. Kwong. Q. H. He, K. F. Man, K.S. Tang ,.A maximum model distance approach for HMM-based speech recognition”. Pattern Recognition vol. 31 (1998) 219-229.
[7] R. Balil, P. F. Brown, P. V. de Souza, R. L. Mercer „Maximum mutual information estimation of hidden Markov model parameters for speech recognition” IEEE Int. Conf. on Acoustic, Speech and Signal Processing, Tokyo 1986.
[8] S. Kwong, Q. H. He, K. F. Man, K.S. Tang „An improved maximum model distance approach for HMM-based speech recognition”, Pattern Recognition vol. 33 (2000) 1749-1758.
[9] W. Chen. Y. Liao, S. Chen „Speech recognition with hierarchical recurrent neural networks", Pattern Recognition vol. 28 (1995).
[10] D. Vanvinckenroye. S. Willems, ,,De Fractale Dimensie Van Signalen een Middel voor het Onder- scheiden van Spraak, Muziek en Ruis”, Master Thesis, Katholieke Universiteit Leuven, Belgium 1990.
[11] T.R. Senevirathne, E. Bohez, J.A. Van Winden, „Amplitude scale method: new and efficient ap¬proach to measure the fractal dimension of speech wave forms”, IEEE Lett. vol. 28 (1992) 420-422.
[12] L. Kaufman, P. J. Rousseuw, „Finding Groups in Data”, Wiley, New York 1990.
[13] B. Mandelbrot „The fractal geometry of nature”, Freeman, San Francisco 1982.
[14] E. Bohez, T. R. Senevirathne, J. A. van Winden, „Fractal dimension and iterated function systems for speech recognition”, IEEE Lett. vol. 28 (15) (1992) 1335-1382.
[15] M. Barnsley "Fractals Everywhere”, Academic Press, New York 1988.
[16] Clustering using PAM method:http:/Avww.unesco.org/webworld/idams/advguide/ - 2002.11.

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-article-BUJ1-0017-0003