Rozpoznawanie głosu i identyfikacja mówcy: przegląd wybranych metod rozpoznawania cech biometrycznych mowy

Śliwak-Orlicki, Tomasz; Górski, Krzysztof

doi:10.15199/48.2023.09.44

Artykuł - szczegóły

Tytuł artykułu

Rozpoznawanie głosu i identyfikacja mówcy: przegląd wybranych metod rozpoznawania cech biometrycznych mowy

Autorzy

Śliwak-Orlicki Tomasz , Górski Krzysztof

Treść / Zawartość

Pełne teksty:

Pobierz

Identyfikatory

DOI

10.15199/48.2023.09.44

Warianty tytułu

Voice recognition and speaker identification: a review of selected methods for recognising biometric features of speech

Języki publikacji

Abstrakty

W niniejszej pracy przedstawiono ogólnie rozwój technologii rozpoznawania mowy, począwszy od pierwszych eksperymentów XIX wieku, aż po współczesne osiągnięcia w tej dziedzinie. Przeanalizowano przekształcenia technologiczne na przestrzeni ostatnich lat, omówiono kluczowe odkrycia oraz najważniejsze wydarzenia, które odegrały istotną rolę w rozwoju tej dziedziny, wskazując jednocześnie wybrane procesy wspomagające skuteczność rozpoznawania mowy pod kątem identyfikacji biometrycznej. Przedstawiono w zarysie charakterystyczne cechy wymowy dla języka polskiego.

This paper presents a general overview of the development of speech recognition technology, from the first experiments of the 19th century to modern developments in this field. It analyses technological transformations over the past years, discusses key discoveries and key events that have played a significant role in the development of this field, while highlighting selected processes that support the effectiveness of speech recognition in terms of biometric identification. The characteristic features of pronunciation for the Polish language are outlined.

Słowa kluczowe

ASR cechy biometryczne głosu głębokie uczenie sieć neuronowa

automatic speech recognition ASR biometric voice identyfication deep learning neural network

Wydawca

Wydawnictwo SIGMA-NOT

Czasopismo

Przegląd Elektrotechniczny

Rocznik

2023

Tom

R. 99, nr 9

Strony

225--229

Opis fizyczny

Bibliogr. 35 poz., rys.

Twórcy

autor

Śliwak-Orlicki Tomasz

tomasz.sliwak-orlicki@awl.edu.pl

Katedra Zarządzania Innowacyjnymi Projektami, ul. Czajkowskiego 109, 51-147 Wrocław

https://orcid.org/0009-0002-8974-7380

autor

Górski Krzysztof

krzysztof.gorski@awl.edu.pl

Katedra Zarządzania Innowacyjnymi Projektami, ul. Czajkowskiego 109, 51-147 Wrocław

https://orcid.org/0000-0001-8671-380X

Bibliografia

[1] Źródło: www.teylersmuseum.nl /nl/ collectie/ instrumenten/fk-0275-phonautograph-after-leon-scott, dostęp z dnia 20.04.2023 r.
[2] B. Teston, A la poursuite de la trace du signal de parole, Journées d’Etude sur la Parole (JEP), Jun 2006, 7-10.
[3] A. D. Yarmey, M.J.Yarmey, L. Todd; Frances McGehee (1912– 2004: The First Earwitness Researcher, Perceptual and Motor Skills, 2008, 387-394.
[4] C. D. Shaver, J. M. Acken, A Brief Review of Speaker Recognition Technology, Electrical and Computer Engineering Faculty, 2016, 19320.
[5] M. M. Kabir, M. F. Mridha, J. Shin, I. Jahan and A. Q. Ohi, A Survey of Speaker Recognition: Fundamental Theories, Recognition Methods and Opportunities, IEEE Access, vol. 9, 2021, 79236-79263.
[6] D. Keith D. Foote, A Brief History of Natural Language Processing (NLP), Dataversity, 2019.
[7] J. Oruh, S. Viriri and A. Adegun, Long Short-Term Memory Recurrent Neural Network for Automatic Speech Recognition, IEEE Access, 10, 2022, 30069-30079.
[8] D. Sztahó, G. Szaszák, A. Beke, Deep Learning Methods in Speaker Recognition: A Review, Period. Polytech. Elec. Eng. Comp. Sci., vol. 65, no. 4, 2021, 310–328.
[9] J. Chang and D. Wang, Robust speaker recognition based on DNN/i-vectors and speech separation, IEEE ICASSP, 2017, 5415-5419.
[10] A. Mobiny, M. Najarian, Text-Independent Speaker Verification Using Long Short-Term Memory Networks, arXiv, 2018.
[11] M. Katz, S. Krüger, M. Schafföner, E. Andelic, A.Wendemuth, “Speaker Identification and Verification Using Support Vector Machines and Sparse Kernel Logistic Regression, Springer, 2006, 176-184.
[12] E. Majda-Zdancewicz, A. P. Dobrowolski, Ocena przydatności wybranych cech sygnału mowy wyróżniających osoby ze zmianami neurodegradacyjnymi, PE, 11, 2019.
[13] E. Majda, A. P. Dobrowolski, B. L. Smólski, „Modelowanie i optymalizacja generatora cech dla systemu rozpoznawania mówcy”, Biuletyn WAT, The Phonology of Polish Vol. LXI, Nr 4, 2012
[14] P. Walendowski, Zastosowanie sieci neuronowych typu SVM do rozpoznawania mowy, praca doktorska, Politechnika Wrocławska, 2008.
[15] J. Guo, N. Xu, K. Qian, Y. Shi, K. Xu, Y. Wu, A. Alwan, Deep neural network based i-vector mapping for speaker verification using short utterances”, arXiv, 2018, 1810.07309.
[16] A. Géron, Hands-On Machine Learning with Scikit-Learn, Keras,and TensorFlow, O'Reilly Media, Inc., 2nd Edition, 2019.
[17] W. Yin, K. Kann, M. Yu, H. Schütze, Comparative study of CNN and RNN for natural language processing, arXiv, 2017, 1702.01923.
[18] S. Hochreiter and J. Schmidhuber, Long short-term memory, Neural Computation, 9, no. 8, 1997, 1735–1780.
[19] C. Feng Yeh, J. Mahadeokar, K. Kalgaonkar, Y. Wang, D. Le, M. Jain, K. Schubert, C. Fuegen, M. L. Seltzer, Transformertransducer: End-to-end speech recognition with self-attention, ArXiv, , 2019, 1910.12977.
[20] G, Pundak, T. N. Sainath, R. Prabhavalkar, A. Kannan, D. Zhao, Deep context: end-to-end contextual speech recognition, arXiv, 2018, 1808.02480.
[21] Q. Wang, K. Okabe, K. A. Lee, H. Yamamoto, T. Koshinaka, Attention Mechanism in Speaker Recognition: What Does It Learn in Deep Speaker Embedding?, arXiv, 2018, 1809.09311.
[22] S. Novoselov, A. Shulipa, I. Kremnev, A. Kozlov, V. Shchemelinin, On deep speaker embeddings for text-independent speaker recognition, arXiv, 2018, 1804.10080.
[23] D.Snyder, D.Garcia-Romero, G.Sell, D.Povey, S.Khudanpur, “X-Vectors: Robust Dnn Embeddings For Speaker Recognition, IEEE, Conerence (ICASSP), 2018.
[24] M.Orken, O.Dina, A.Keylan, A study of transformer-based end-to-end speech recognition system for Kazakh language. Sci Rep, 12, 2022, 8337.
[25] N. Brümmer, E. de Villiers, The BOSARIS Toolkit: Theory, Algorithms and Code for Surviving the New DCF, ArXiv, 2011, 1304.2865.
[26] R. Tadeusiewicz, Sygnał mowy, WKiŁ,Warszawa,1988.
[27] A. Wagner, J. Bachan, K. KLessa G. Demenko, Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby technologii mowy, PF, (LXVI) 2015, 271–298.
[28] I. R. Titze, Principles of Voice Production, Prentice Hall, 1994.
[29] K. Johnson, P. Ladefoged, M. Lindau, Individual differences in vowel production, J Acoust Soc Am, 94, 1993, 701–714.
[30] M. Mela, V. Schulte, Jak piękny jest ludzki głos! Techniki wizualizacji, mierzenia i deskrypcji ludzkiego głosu, Lingwistyka Stosowana, 4/2016, 91–103.
[31] M. Kaniewska, Zespolona pulsacja chwilowa w analizie i konwersji głosu, Rozprawa doktorska, Wydział Elektroniki, Telekomunikacji i Informatyki, Politechnika Gdańska, Gdańsk, 2011.
[32] W. Jassem, Acoustic-phonetic variability of Polish vowels, Department of Acoustic Phonetics, Institute of Fundamental Technological Research, Polish Academy of Sciences, 1992, 61-704.
[33] D. Yin, M. Farajtabar, A. Li, N. Levine, A. Mott, Optimization and Generalization of Regularization-Based Continual Learning: a Loss Approximation Viewpoint”, arXiv, 2006, 10974.
[34] H. N. M. Shah, M. Z. Ab Rashid, M. F. Abdollah, M. N. Kamarudin, Ch. K. Lin, Z. Kamis. Biometric Voice Recognition in Security System”, Indian Journal of Science and Technology, 7(2), 2014, 104-112.
[35] D. Kamińska, A. Pelikant. Zastosowanie multimodalnej klasyfikacji w rozpoznawaniu stanów emocjonalnych na podstawie mowy spontanicznej, Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska, 2012, 36-39.

Uwagi

Opracowanie rekordu ze środków MNiSW, umowa nr SONP/SP/546092/2022 w ramach programu "Społeczna odpowiedzialność nauki" - moduł: Popularyzacja nauki i promocja sportu (2024).

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-bdef29a2-40d2-4eda-b6a7-d175812f6b51