Warianty tytułu
Automatyczne rozpoznawanie mówcy z wykorzystaniem różnych jąder opartych na cechach prozodycznych połączonych z cechami spektralnymi
Języki publikacji
Abstrakty
In this article the text independent speaker verification problem is considered. The approach, in which SVM and prosodic features are employed, has been chosen. Prosodic features are modelled by Legendre polynomials. In order to map a sequence of prosodic vectors to the fixed dimensional vector, three kernels were used: VQ kernel, GMM supervector kernel, and Fisher kernel. These three kernels were compared and their combination was evaluated. Finally, a combination with spectral features was investigated.
W artykule jest rozważany problem automatycznej weryfikacji mówcy niezależnej od tekstu. Przedstowiono system oparty na maszynach wektorów nośnych (SVM - support vector machines) oraz cechach prozodycznych. Cechy prozodyczne są modelowane z wykorzystaniem wielomianów Legendre’a. W celu przekształcenia wektorów prozodycznych na wektory o ustalonej liczbie elementów zasotosowano trzy funkcje jądra: VQ, superwektor GMM oraz jądro Fishera. Wymienione funkcje zostały porównane oraz przetestowano skuteczność systemu w przypadku kombinacji wektorów. Zbadano także skuteczność systemu w połączeniu z cechami spektralnymi.
Czasopismo
Rocznik
Tom
Strony
51-54
Opis fizyczny
Bibliogr. 11 poz., tab., wykr.
Twórcy
Bibliografia
- [1] Paul Boersma. Praat, a system for doing phonetics by computer. Glot International, 5(9/10):341–345, 2001.
- [2] W.M. Campbell, D.E. Sturim, and D.A. Reynolds. Support vector machines using GMM supervectors for speaker verification. IEEE Signal Processing Letters, 13:308–311, 2006.
- [3] W.M. Campbell, J.P. Campbell, T.P. Gleason, D.A. Reynolds, and Wade Shen. Speaker verification using support vector machines and high-level features. Audio, Speech, and Language Processing, IEEE Transactions on, 15(7):2085 –2094, 2007.
- [4] Khalid Daoudi and Jerome Louradour. A comparison between sequence kernels for svm speaker verification. Acoustics, Speech, and Signal Processing, IEEE International Conference on, 0:4241–4244, 2009.
- [5] N. Dehak, P. Dumouchel, and P. Kenny. Modeling prosodic features with joint factor analysis for speaker verification. IEEE Transactions on audio, speech and language processing, 15:2095–2103, 2007.
- [6] A.P. Dempster, N.M. Laird, and D.B. Rubin. Maximum likelihood from incomplete data via the em algorithm. Journal of the Royal Statistical Society, 39:1–38, 1977.
- [7] S. Lloyd. Least squares quantization in pcm. Information Theory, IEEE Transactions on, 28(2):129 – 137, mar 1982.
- [8] Chris Longworth. Kernel methods for text-independent speaker verification. PhD thesis, Cambridge University and Christ College, 2010.
- [9] NIST of USA. The nist year 2001 speaker recognition evalauation plan. Available www.itl.nist.gov/iad/mig//tests/spk/2001/2001-spkrec-evalplan-v05.9.ps.
- [10] Vladimir Vapnik. Statistical learning theory. Wiley & Sons, 1998.
- [11] V.Wan and S. Renals. Evaluation of kernel methods for speaker verification and identification. In Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP’02), 2002.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.baztech-article-BPOK-0039-0010