Warianty tytułu
Voice recognition and speaker identification: a review of selected methods for recognising biometric features of speech
Języki publikacji
Abstrakty
W niniejszej pracy przedstawiono ogólnie rozwój technologii rozpoznawania mowy, począwszy od pierwszych eksperymentów XIX wieku, aż po współczesne osiągnięcia w tej dziedzinie. Przeanalizowano przekształcenia technologiczne na przestrzeni ostatnich lat, omówiono kluczowe odkrycia oraz najważniejsze wydarzenia, które odegrały istotną rolę w rozwoju tej dziedziny, wskazując jednocześnie wybrane procesy wspomagające skuteczność rozpoznawania mowy pod kątem identyfikacji biometrycznej. Przedstawiono w zarysie charakterystyczne cechy wymowy dla języka polskiego.
This paper presents a general overview of the development of speech recognition technology, from the first experiments of the 19th century to modern developments in this field. It analyses technological transformations over the past years, discusses key discoveries and key events that have played a significant role in the development of this field, while highlighting selected processes that support the effectiveness of speech recognition in terms of biometric identification. The characteristic features of pronunciation for the Polish language are outlined.
Czasopismo
Rocznik
Tom
Strony
225--229
Opis fizyczny
Bibliogr. 35 poz., rys.
Twórcy
autor
- Katedra Zarządzania Innowacyjnymi Projektami, ul. Czajkowskiego 109, 51-147 Wrocław, tomasz.sliwak-orlicki@awl.edu.pl
autor
- Katedra Zarządzania Innowacyjnymi Projektami, ul. Czajkowskiego 109, 51-147 Wrocław, krzysztof.gorski@awl.edu.pl
Bibliografia
- [1] Źródło: www.teylersmuseum.nl /nl/ collectie/ instrumenten/fk-0275-phonautograph-after-leon-scott, dostęp z dnia 20.04.2023 r.
- [2] B. Teston, A la poursuite de la trace du signal de parole, Journées d’Etude sur la Parole (JEP), Jun 2006, 7-10.
- [3] A. D. Yarmey, M.J.Yarmey, L. Todd; Frances McGehee (1912– 2004: The First Earwitness Researcher, Perceptual and Motor Skills, 2008, 387-394.
- [4] C. D. Shaver, J. M. Acken, A Brief Review of Speaker Recognition Technology, Electrical and Computer Engineering Faculty, 2016, 19320.
- [5] M. M. Kabir, M. F. Mridha, J. Shin, I. Jahan and A. Q. Ohi, A Survey of Speaker Recognition: Fundamental Theories, Recognition Methods and Opportunities, IEEE Access, vol. 9, 2021, 79236-79263.
- [6] D. Keith D. Foote, A Brief History of Natural Language Processing (NLP), Dataversity, 2019.
- [7] J. Oruh, S. Viriri and A. Adegun, Long Short-Term Memory Recurrent Neural Network for Automatic Speech Recognition, IEEE Access, 10, 2022, 30069-30079.
- [8] D. Sztahó, G. Szaszák, A. Beke, Deep Learning Methods in Speaker Recognition: A Review, Period. Polytech. Elec. Eng. Comp. Sci., vol. 65, no. 4, 2021, 310–328.
- [9] J. Chang and D. Wang, Robust speaker recognition based on DNN/i-vectors and speech separation, IEEE ICASSP, 2017, 5415-5419.
- [10] A. Mobiny, M. Najarian, Text-Independent Speaker Verification Using Long Short-Term Memory Networks, arXiv, 2018.
- [11] M. Katz, S. Krüger, M. Schafföner, E. Andelic, A.Wendemuth, “Speaker Identification and Verification Using Support Vector Machines and Sparse Kernel Logistic Regression, Springer, 2006, 176-184.
- [12] E. Majda-Zdancewicz, A. P. Dobrowolski, Ocena przydatności wybranych cech sygnału mowy wyróżniających osoby ze zmianami neurodegradacyjnymi, PE, 11, 2019.
- [13] E. Majda, A. P. Dobrowolski, B. L. Smólski, „Modelowanie i optymalizacja generatora cech dla systemu rozpoznawania mówcy”, Biuletyn WAT, The Phonology of Polish Vol. LXI, Nr 4, 2012
- [14] P. Walendowski, Zastosowanie sieci neuronowych typu SVM do rozpoznawania mowy, praca doktorska, Politechnika Wrocławska, 2008.
- [15] J. Guo, N. Xu, K. Qian, Y. Shi, K. Xu, Y. Wu, A. Alwan, Deep neural network based i-vector mapping for speaker verification using short utterances”, arXiv, 2018, 1810.07309.
- [16] A. Géron, Hands-On Machine Learning with Scikit-Learn, Keras,and TensorFlow, O'Reilly Media, Inc., 2nd Edition, 2019.
- [17] W. Yin, K. Kann, M. Yu, H. Schütze, Comparative study of CNN and RNN for natural language processing, arXiv, 2017, 1702.01923.
- [18] S. Hochreiter and J. Schmidhuber, Long short-term memory, Neural Computation, 9, no. 8, 1997, 1735–1780.
- [19] C. Feng Yeh, J. Mahadeokar, K. Kalgaonkar, Y. Wang, D. Le, M. Jain, K. Schubert, C. Fuegen, M. L. Seltzer, Transformertransducer: End-to-end speech recognition with self-attention, ArXiv, , 2019, 1910.12977.
- [20] G, Pundak, T. N. Sainath, R. Prabhavalkar, A. Kannan, D. Zhao, Deep context: end-to-end contextual speech recognition, arXiv, 2018, 1808.02480.
- [21] Q. Wang, K. Okabe, K. A. Lee, H. Yamamoto, T. Koshinaka, Attention Mechanism in Speaker Recognition: What Does It Learn in Deep Speaker Embedding?, arXiv, 2018, 1809.09311.
- [22] S. Novoselov, A. Shulipa, I. Kremnev, A. Kozlov, V. Shchemelinin, On deep speaker embeddings for text-independent speaker recognition, arXiv, 2018, 1804.10080.
- [23] D.Snyder, D.Garcia-Romero, G.Sell, D.Povey, S.Khudanpur, “X-Vectors: Robust Dnn Embeddings For Speaker Recognition, IEEE, Conerence (ICASSP), 2018.
- [24] M.Orken, O.Dina, A.Keylan, A study of transformer-based end-to-end speech recognition system for Kazakh language. Sci Rep, 12, 2022, 8337.
- [25] N. Brümmer, E. de Villiers, The BOSARIS Toolkit: Theory, Algorithms and Code for Surviving the New DCF, ArXiv, 2011, 1304.2865.
- [26] R. Tadeusiewicz, Sygnał mowy, WKiŁ,Warszawa,1988.
- [27] A. Wagner, J. Bachan, K. KLessa G. Demenko, Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby technologii mowy, PF, (LXVI) 2015, 271–298.
- [28] I. R. Titze, Principles of Voice Production, Prentice Hall, 1994.
- [29] K. Johnson, P. Ladefoged, M. Lindau, Individual differences in vowel production, J Acoust Soc Am, 94, 1993, 701–714.
- [30] M. Mela, V. Schulte, Jak piękny jest ludzki głos! Techniki wizualizacji, mierzenia i deskrypcji ludzkiego głosu, Lingwistyka Stosowana, 4/2016, 91–103.
- [31] M. Kaniewska, Zespolona pulsacja chwilowa w analizie i konwersji głosu, Rozprawa doktorska, Wydział Elektroniki, Telekomunikacji i Informatyki, Politechnika Gdańska, Gdańsk, 2011.
- [32] W. Jassem, Acoustic-phonetic variability of Polish vowels, Department of Acoustic Phonetics, Institute of Fundamental Technological Research, Polish Academy of Sciences, 1992, 61-704.
- [33] D. Yin, M. Farajtabar, A. Li, N. Levine, A. Mott, Optimization and Generalization of Regularization-Based Continual Learning: a Loss Approximation Viewpoint”, arXiv, 2006, 10974.
- [34] H. N. M. Shah, M. Z. Ab Rashid, M. F. Abdollah, M. N. Kamarudin, Ch. K. Lin, Z. Kamis. Biometric Voice Recognition in Security System”, Indian Journal of Science and Technology, 7(2), 2014, 104-112.
- [35] D. Kamińska, A. Pelikant. Zastosowanie multimodalnej klasyfikacji w rozpoznawaniu stanów emocjonalnych na podstawie mowy spontanicznej, Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska, 2012, 36-39.
Uwagi
Opracowanie rekordu ze środków MNiSW, umowa nr SONP/SP/546092/2022 w ramach programu "Społeczna odpowiedzialność nauki" - moduł: Popularyzacja nauki i promocja sportu (2024).
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.baztech-bdef29a2-40d2-4eda-b6a7-d175812f6b51