Śledzenie mówcy wykorzystujące obraz i dźwięk

Cetnarowicz, D.; Dąbrowski, A.

doi:10.15199/13.2017.4.1

Artykuł - szczegóły

Tytuł artykułu

Śledzenie mówcy wykorzystujące obraz i dźwięk

Autorzy

Cetnarowicz D. , Dąbrowski A.

Identyfikatory

DOI

10.15199/13.2017.4.1

Warianty tytułu

Speaker tracking by means of audio-video system

Języki publikacji

Abstrakty

W artykule przedstawiono eksperymentalne urządzenie do śledzenia poruszającego się mówcy. Urządzenie wykorzystuje informację audio-wideo uzyskaną z kamery i mikrofonów. W obrazie z kamery wykrywana jest twarz i jej położenie. Dwie pary mikrofonów pozwalają na estymację kierunku nadejścia dźwięku przy użyciu uogólnionej metody korelacji wzajemnej. W artykule przedstawiono wyniki eksperymentów.

In this paper an audio-video system for tracking of a moving speaker is reported. The system utilizes audio visual information acquired from a camera and microphones. Using the camera a face of the speaker is detected. Two pairs of microphones allow for estimation of direction of sound arrival using general cross-correlation method. The results of experiments are described.

Słowa kluczowe

śledzenie mówcy system audio-wideo kierunek nadejścia dźwięku GCC PHAT

speaker tracking audio-video system direction of sound arrival GCC PHAT

Wydawca

Wydawnictwo SIGMA-NOT

Czasopismo

Elektronika : konstrukcje, technologie, zastosowania

Rocznik

2017

Tom

Vol. 58, nr 4

Strony

3--7

Opis fizyczny

Bibliogr. 10 poz., il., rys., wykr.

Twórcy

autor

Cetnarowicz D.

Politechnika Poznańska, Katedra Sterowania i Inżynierii Systemów

autor

Dąbrowski A.

Politechnika Poznańska, Katedra Sterowania i Inżynierii Systemów

Bibliografia

[1] M. Poggendorf, C. Walter, F. Penzlin and N. Elkmann, (2010) “Towards Multi-Modal Distributed Attention for Service Robotics”, 11th European Conference on Computer Vision (ECCV 2010), 5-11 Spetember, 2010.
[2] M. Rothbucher, D. Kronmüller, M. Durkovic, T. Habigt and K. Diepold (2011). “HRTF Sound Localization”, Advances in Sound Localization, Dr. Pawel Strumillo (Ed.), In-Tech, DOI: 10.5772/14773. Available from: http://www.intechopen.com/books/advances-in-sound-localization/hrtf-sound-localization.
[3] F. Keyrouz, K. Diepold, S. Keyrouz, (2007) “Humanoid Binaural Sound Tracking Using Kalman Filtering and HRTFs”, K. Kozłowski (Ed.), Robot Motion and Control 2007, LNCIS 360, pp 329-340, DOI: 10.1007/978-1-84628-974-3_30, Available from: http://dx.doi.org/10.1007/978-1-84628-974-3_30.
[4] H. Sayoud, S. Ouamour, S. Khennouf, (2011) “Automatic speaker tracking by camera using two-channel-based sound source localization”, Internat. Journal of Intelligent Computing and Cybernetics 2011 4:1, 40–60.
[5] A. BruttiEmail, M. Omologo and P. Svaizer,(2010) “Multiple Source Localization Based on Acoustic Map De-Emphasis”, EURASIP Journal on Audio, Speech, and Music Processing 2010, DOI: 10.1155/2010/147495.
[6] L. Sun, Q. Cheng, (2014) “Indoor multiple sound source localization using a novel data selection scheme”, Information Sciences and Systems (CISS), 2014 48th Annual Conference on, DOI: 10.1109/CISS.2014.6814189.
[7] B Lee, J. Choi, (2010) “Multi-source sound localization using the competitive k-means clustering”, Emerging Technologies and Factory Automation (ETFA), 2010 IEEE Conference on, DOI: 10.1109/ETFA.2010.5641169.
[8] I. D. Gebru, S. Ba, G. Evangelidis, R. Horaud, (2015)”Audio-Visual Speech-Turn Detection and Tracking”, The 12-th International Conference on Latent Variable Analysis and Signal Separation, Aug 2015, Liberec, Czech Republic, pp.143-151, 2015, http://link.springer.com/chapter/10.1007/978-3-319-22482-4_17, DOI: 10.1007/978-3-319-22482-4_17.
[9] C. Knapp, G. C. Carter, (1976) “The generalized correlation method for estimation of time delay”, Acoustics, Speech and Signal Processing, IEEE Transactions on , vol.24, no.4, pp.320,327, Aug 1976.
[10] D. Cetnarowicz, A. Dąbrowski,(2013) „Enhancement of time-delay of arrival estimation”, SIGNAL PROCESSING SPA’2013, Poland Section, Chapter Circuits and Systems IEEE, p. 323–326, Poznań, Poland, September 26–28 2013.

Uwagi

Opracowanie ze środków MNiSW w ramach umowy 812/P-DUN/2016 na działalność upowszechniającą naukę (zadania 2017).

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-1cb10bc5-9707-4a46-8745-5d842113617a