Wyniki wyszukiwania - BazTech

1

An embedded system for real-time speaker recognition using Raspberry Pi platform

Weychan R., Marciniak T., Dąbrowski A.

Elektronika : konstrukcje, technologie, zastosowania

|

2016

|

Vol. 57, nr 4

3--6

EN

The paper presents an embedded system, which realizes real time speaker recognition from the internet radio broadcasts. The proposed solution was developed with the use of the open source Python programming language. It was first tested within the Windows environment, then adapted to the Unix operating system in order to use is on the Raspberry Pi 2 platform. We analyzed available libraries to select the most convenient solutions for individual blocks of the speaker recognition task. In the paper we also indicate parameters, for which the algorithm exhibits the greatest efficiency. The prepared software is available on the Github file repository.

PL

Artykuł prezentuje system realizujący rozpoznawanie mówcy z radia internetowego. Zaproponowane rozwiązanie wykorzystuje narzędzia udostępnione w ramach ogólnie dostępnego oprogramowania dla języka Python. Prezentowane oprogramowanie zostało przetestowane w środowisku Windows a następnie zostało zaadaptowane do uruchomienia na platformie Raspberry Pi 2, zarządzanej przez system Linux. W artykule przeanalizowano dostępne biblioteki, które posłużyły do implementacji algorytmów ekstrakcji cech oraz modelowania sygnału mowy. Przeprowadzone eksperymenty pozwoliły na dobranie parametrów systemu, przy których uzyskuje się najlepszą skuteczność identyfikacji i jednocześnie największą szybkość przetwarzania danych. Przygotowane oprogramowanie jest dostępne w repozytorium Github.

2

Real time recognition of speakers from internet audio stream

Weychan R., Marciniak T., Stankiewicz A., Dabrowski A.

Foundations of Computing and Decision Sciences

|

2015

|

Vol. 40, No. 3

223--233

EN

In this paper we present an automatic speaker recognition technique with the use of the Internet radio lossy (encoded) speech signal streams. We show an influence of the audio encoder (e.g., bitrate) on the speaker model quality. The model of each speaker was calculated with the use of the Gaussian mixture model (GMM) approach. Both the speaker recognition and the further analysis were realized with the use of short utterances to facilitate real time processing. The neighborhoods of the speaker models were analyzed with the use of the ISOMAP algorithm. The experiments were based on four 1-hour public debates with 7–8 speakers (including the moderator), acquired from the Polish radio Internet services. The presented software was developed with the MATLAB environment.

3

Biometric speech signal processing in a system with digital signal processor

Marciniak T., Weychan R., Stankiewicz A., Dąbrowski A.

Bulletin of the Polish Academy of Sciences. Technical Sciences

|

2014

|

Vol. 62, nr 3

589--594

EN

This paper presents an analysis of issues related to the fixed-point implementation of a speech signal applied to biometric purposes. For preparing the system for automatic speaker identification and for experimental tests we have used the Matlab computing environment and the development software for Texas Instruments digital signal processors, namely the Code Composer Studio (CCS). The tested speech signals have been processed with the TMS320C5515 processor. The paper examines limitations associated with operation of the realized embedded system, demonstrates advantages and disadvantages of the technique of automatic software conversion from Matlab to the CCS and shows the impact of the fixed-point representation on the speech identification effectiveness.

4

Fast Prototyping for Video Monitoring Systems with the Use of DSP Module

Chmielewska A., Weychan R., Marciniak T., Dąbrowski A., Hartwich M., Owczarczak M.

International Journal of Electronics and Telecommunications

|

2013

|

Vol. 59, No. 4

375-381

EN

This paper presents techniques for fast prototyping of real-time hardware / software video processing systems for urban surveillance monitoring equipment. During the experimental research the evaluation module with the TMS320DM6437 signal processor programmed with the use of the Code Composer Studio and Matlab / Simulink environments has been used. Analyzed algorithms can support the work of monitoring video operators. In particular, we analyzed efficiency of implementation of the algorithms using two examples: detection of painting theft and signaling of crossing a pedestrian pass at the red light.

5

Speaker recognition based on telephone quality short Polish sequences with removed silence

Marciniak. T., Krzykowska A., Weychan R.

Przegląd Elektrotechniczny

|

2012

|

R. 88, nr 6

42-46

EN

This paper presents the effectiveness of speaker identification based on short Polish sequences. An impact of automatic removal of silence on the speaker recognition accuracy is considered. Several methods to detect the beginnings and ends of the voice signal have been used. Experimental research was carried out in Matlab environment with the use of a specially prepared database of short speech sequences in Polish. The construction of speaker models was realized with two techniques: Vector Quantization (VQ) and Gaussian Mixture Models (GMM). We also tested the influence of the sampling rate reduction on the speaker recognition performance.

PL

Artykuł przedstawia badania efektywności rozpoznawania mówcy opartego na krótkich wypowiedziach w języku polskim. Sprawdzono wpływ automatycznego wykrywania i usuwania ciszy na jakość rozpoznawania mówcy. Przebadano kilka różnych metod wykrywania początku i końca fragmentów mowy w wypowiadanych sekwencjach. Eksperymenty zostały przeprowadzone z użyciem środowiska Matlab i specjalnie utworzonej bazy krótkich wypowiedzi w języku polskim. Do budowy modeli mówców wykorzystano kwantyzacja wektorowa (VQ) oraz Gaussian Mixture Models (GMM). Podczas badań sprawdzono także wpływ obniżenia szybkości próbkowania na skuteczność identyfikacji mówcy.

6

Real-time watermarking of one side of telephone conversation for speaker segmentation

Dąbrowski A., Pawłowski P., Weychan R., Meyer A., Portalski M., Chmielewska A., Janiak T.

Przegląd Elektrotechniczny

|

2012

|

R. 88, nr 6

36-41

EN

The paper presents a digital signal processor (DSP) based system for segmentation of speakers of a telephone conversation. The TMS320C6713 DSP by Texas Instruments in real-time watermarks one interlocutor voice and therefore precise segmentation of both conversation sides is made on a PC without any speaker recognition techniques. The authors also solved the problem of data blocks synchronization and beats caused by differences in the digital-to-analog and the analog-to-digital sampling clock frequencies.

PL

Artykuł prezentuje, zrealizowany na procesorze sygnałowym, system do segmentacji mówców rozmowy telefonicznej. Użyto procesora TMS320C6713 firmy Texas Instruments, który podczas rozmowy oznacza znakiem wodnym jednego z rozmówców. Umożliwia to późniejszą separację mówców bez użycia algorytmów ich rozpoznawania. Autorzy dodatkowo rozwiązali problemy związane z synchronizacją bloków danych i dudnieniami wywołanymi różnicą częstotliwości zegarów taktujących przetworniki analogowo-cyfrowe i cyfrowo-analogowe.

7

Analysis of differences between MFCC after multiple GSM transcodings

Weychan R., Marciniak T.

Przegląd Elektrotechniczny

|

2012

|

R. 88, nr 6

24-29

EN

This paper presents results of studies on the effects of multiple speech transcoding operations in the case of GSM standard with 8 kSps and 16 kSps sampling rate. Differences between the MFCC coefficients obtained by successive transcoding were considered. The aim of comparisons is to check the possibility for separation and detection of the used GSM encoder. During the research we used the TIMIT database recordings, transcoded four times by GSM codecs. A possibility of encoder type detection was analyzed based on differences between the curvilinear approximations of the MFCC coefficient errors.

PL

Artykuł prezentuje rezultaty badań nad wpływem wielokrotnego transkodowania sygnału audio próbkowanego z szybkością 8 kSps dla standardu GSM, oraz 16 kSps. Przeanalizowane zostały uzyskane różnice między współczynnikami MFCC, otrzymane w wyniku kolejnych transkodowań. Głównym celem porównania jest sprawdzenie możliwości separacji danych oraz detekcji wykorzystywanego w transmisji kodera GSM. Do eksperymentu wykorzystana została baza nagrań sygnału mowy TIMIT, transkodowana czterokrotnie przez kodery GSM. Przeanalizowane zostały możliwości detekcji typu kodera na podstawie różnic między aproksymatami krzywoliniowymi błędów współczynników MFCC. (Analiza wpływu wielokrotnego transkodowania GSM na różnice między współczynnikami MFCC).

8

System automatycznego liczenia obiektów w ruchu miejskim

Chmielewska A., Dąbrowski A., Marciniak T., Weychan R., Waszczuk Ł., Zamorski D.

Zeszyty Naukowe Wyższej Szkoły Informatyki

|

2011

|

Vol. 10, Nr 2

83-93

PL

Praca przedstawia wybór narzędzi programistycznych oraz praktyczne zastosowania metod przetwarzania sekwencji wideo w rozbudowanych systemach monitoringu. Zrealizowano system automatycznego liczenia obiektów w sekwencji wideo z zastosowaniem środowiska Microsoft Visual Studio z użyciem biblioteki .NET Framework 3.5.

EN

This article presents the analysis and implementation of algorithms for detecting and counting objects in video surveillance systems. Article also presents the choice of development tools. Presented models of the algorithm was implemented and tested in Microsoft Visual Studio 2010 environment with .NET Framework 3.5 library using video processing techniques.

9

Od metrologii do systemów wizyjnych - środowisko NI LabVlEW w laboratoriach

Dąbrowski A., Meyer A., Pawłowski P., Weychan R., Kardyś R., Chmielewska A., Namerła A.

Wiadomości Elektrotechniczne

|

2011

|

R. 79, nr 11

42-44

PL

Omówiono badania prowadzone w laboratoriach Pracowni Układów Elektronicznych i Przetwarzania Sygnałów Politechniki Poznańskiej, związane z kierunkiem automatyka i robotyka.

EN

The paper discusses research conducted at Electronic Circuits and Signal Processing Laboratories of Poznań University of Technology, connected with "Automatics and roboties" branch.

10

Segmentacja mówców w rozmowach telefonicznych na podstawie znaku wodnego

Dąbrowski A., Meyer A., Chmielewska A., Weychan R.

Elektronika : konstrukcje, technologie, zastosowania

|

2011

|

Vol. 52, nr 5

98-102

PL

W artykule zaproponowano nową metodę czasu rzeczywistego do segmentacji mówców w rozmowach telefonicznych. Zakładamy, że dzięki dostępowi do wyposażenia jednej ze stron (np. biura operatora centrum obsługi telefonów alarmowych) istnieje możliwość dodania cyfrowego znaku wodnego do wypowiedzi operatora. Przedstawiona procedura może służyć jako wstępny etap przetwarzania sygnału w zagadnieniach automatycznego rozpoznawania mówcy. Jej skuteczne działanie zostało przetestowane w środowisku Matlab / Simulink przy różnych tłach akustycznych.

EN

In this paper a new real-time method for speaker segmentation in telephone calls is proposed. We assume that due to access to the equipment of one side (e.g., an operator office of the emergency call service center) there a possibility to add a digital watermark to the operator's utterances. The presented procedure can serve as a pre-processing stage for automatic speaker recognition. It has been tested with various acoustic backgrounds using Matlab / Simulink environment.

11

Fast speaker recognition based on short Polish sequences

Marciniak T., Weychan R., Drgas S., Dąbrowski A., Krzykowska A.

Elektronika : konstrukcje, technologie, zastosowania

|

2011

|

Vol. 52, nr 5

103-105

EN

This paper presents results of speaker recognition experiments using short Polish sentences. We developed and analyzed various parameters in speech signal modeling in order to first maximize identification effectiveness and second to compare VQ (vector quantization) and GMM (Gaussian mixture model) approaches. For the research and experiments we created and exploited a database, containing specially prepared short Polish speech sequences typical for emergency phone calls.

PL

Artykuł prezentuje wyniki badań nad rozpoznawaniem mówcy na podstawie krótkich wypowiedzi w języku polskim. Przeanalizowano dobór parametrów modelowania sygnału mowy w celu maksymalizacji skuteczności identyfikacji oraz porównania rozwiązań wykorzystujących kwantyzację sektorową VQ oraz sumę rozkładów normalnych GMM. Do badań eksperymentalnych utworzono i wykorzystano przygotowaną przez autorów bazę nagrań zawierającą specjalnie dobrane krótkie wypowiedzi w języku polskim, typowe dla rozmów telefonicznych na numery alarmowe.

12

Comparison of NI LabVIEW and NI Vision Builder Al environments in fast prototyping of video processing algorithms for CCTV using smart camera

Chmielewska A., Dąbrowski A., Namerła A., Pawłowski P., Weychan R., Stankiewicz M.

Elektronika : konstrukcje, technologie, zastosowania

|

2011

|

Vol. 52, nr 5

72-76

EN

This paper describes the use of National Instruments environment integrated with the smart camera type NI 1742. Differences between NI LabView and NI Vision Builder Al, including various consequences, are shown. Algorithms realizing the proposed solutions have been implemented. Advantages and disadvantages of algorithm implementation using fixed NI environments and hardware for video processing are described.

PL

Artykuł prezentuje wykorzystanie środowisk programistycznych National Instruments zintegrowanych z kamerą inteligentną (ang. smart camera) typu NI 1742. Przedstawione zostały różnice pomiędzy oprogramowaniem NI LabVlEW oraz NI Vision Builder Al. Zaimplementowano algorytmy z proponowanymi rozwiązaniami dla przetwarzania sygnałów wizyjnych z monitoringu miejskiego. Przedstawiono wady i zalety implementacji algorytmów z wykorzystaniem obu środowisk.

13

Przetwarzanie sygnałów audio w czasie rzeczywistym z zastosowaniem Target Support Package TC6

Weychan R., Marciniak T., Dąbrowski A.

Zeszyty Naukowe Wyższej Szkoły Informatyki

|

2010

|

Vol. 9, Nr 3

5-18

PL

Artykuł przedstawia techniki przetwarzania sygnałów pasma akustycznego z wykorzystaniem modułu z procesorem sygnałowym, środowiska MATLAB/Simulink oraz biblioteki Target Support Package TC6. Pokazane modele, przygotowane dla procesora DM6437 w środowisku Matlab/Simulink, ilustrują proces implementacji algorytmów, korzystania z bibliotek oraz konfigurację bloków składowych modelu. Pokazano ułatwienia i ograniczenia przedstawionej techniki programowania.

EN

This paper describes techniques of acoustic signal processing using a digital signal processor module, MATLAB/Simulink environment and Target Support Package TC6 library. The presented models, prepared for DM6437 signal processor, illustrate the use of libraries and the configuration of the model blocks. Facilities and limitations of the presented programming techniques are also shown.

14

Analiza szybkiej identyfikacji mówcy implementowanych w środowisku Matlab oraz Code Composer Studio

Marciniak T., Weychan R., Dąbrowski A.

Zeszyty Naukowe Wyższej Szkoły Informatyki

|

2010

|

Vol. 9, Nr 3

44-53

PL

Artykuł prezentuje wyniki badań eksperymentalnych analizy parametrów sygnału mowy w procesie identyfikacji mówcy na podstawie krótkich wypowiedzi. Eksperymenty przeprowadzono w środowisku MATLAB. Pokazano wydajność działania oprogramowania oraz skuteczność identyfikacji przy zastosowaniu kwantyzacji wektorowej. Implementacja systemu identyfikacji mówcy, działającego jako system wbudowany, wykorzystuje moduł ze zmiennoprzecinkowym procesorem sygnałowym TMS320C6713 zaprogramowanym z użyciem środowiska Code Composer Studio.

EN

This paper presents results of experimental analysis of speech signal parameters for speaker identification based on short utterances. The experiments were performed in the MATLAB environment, showing a performance of the software and an effectiveness of the identification based on the vector quantization. Implementation of the speaker identification system, working as an embedded system, uses an electronic module with the floating-point TMS320C6713 digital signal processor programmed in the Code Composer Studio environment.

15

Wpływ segmentacji sygnału w procesie detekcji kodowania GSM

Weychan R., Marciniak T., Dąbrowski A.

Elektronika : konstrukcje, technologie, zastosowania

|

2010

|

Vol. 51, nr 3

94-97

PL

Rozpoznawanie/identyfikacja mówcy na podstawie rozmów telefonicznych może być ulepszona jeśli prawidłowo są wykryte użyte kodeki mowy. Artykuł prezentuje detekcję kodowania GSM o pełnej szybkości. Konieczność detekcji w czasie rzeczywistym wymaga segmentacji sygnału mowy, co zostało zbadane w środowisku Matlab/Simulink. Rezultaty eksperymentów z wykorzystaniem wybranych próbek sygnału mowy potwierdziły sprawność zaproponowanej realizacji procesu detekcji.

EN

Speaker recognition/identification based on the analysis of telephone calls can be improved if the involved speech coders are properly detected. This paper presents detection of the GSM full rate coding. Necessity of real time detection requires speech signal segmentation. It was analyzed using Matlab/Simulink environment. Results of experiments with the selected speech samples proved efficiency of the proposed coding detection approach.