Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 27

Liczba wyników na stronie
first rewind previous Strona / 2 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  rozpoznawanie mówcy
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 2 next fast forward last
EN
The issue of the influence of speaker state on voice recognition has been analysed mainly in relation to forensics and biometric security systems. Sleepiness in the voice is a rather under-researched problem, and the few works in this area focus almost exclusively on the recognition of sleepiness rather than on its influence on the change of the speaker's voice characteristics. This paper discusses the issue of the influence of the speaker's state on voice recognition, describes the acquisition method of the acoustic database of voice drowsiness recordings used in the tests. It also discusses the subjective sleepiness scales used in the study and presents the results of the influence of sleepiness on the effectiveness of automatic speaker recognition based on a classical system using the Mel-Frequency Cepstral Coefficients parameterisation and the Gaussian Mixture Models classification.
EN
Almost all people's data is stored on their personal devices. For this reason, there is a need to protect information from unauthorized access by means of user authentication. PIN codes, passwords, tokens can be forgotten, lost, transferred, brute-force attacked. For this reason, biometric authentication is gaining in popularity. Biometric data are unchanged for a long time, different for users, and can be measured. This paper explores voice authentication due to the ease of use of this technology, since obtaining voice characteristics of users doesn't require an equipment in addition to the microphone, which is built into almost all devices. The method of voice authentication based on an anomaly detection algorithm has been proposed. The software module for text-independent authentication has been developed on the Python language. It's based on a new Mozilla's open source voice dataset "Common voice". Experimental results confirmed the high accuracy of authentication by the proposed method.
PL
Ten dwuczęściowy artykuł przedstawia interfejs do Narodowej Platformy Cyberbezpieczeństwa (NPC). Wykorzystuje on gesty i komendy wydawane głosem do sterowania pracą platformy. Ta część artykułu przedstawia strukturę interfejsu oraz sposób jego działania, ponadto prezentuje zagadnienia związane z jego implementacją. Do specyfikacji interfejsu wykorzystano podejście oparte na agentach upostaciowionych, wykazując że podejście to może być stosowane do tworzenia nie tylko systemów robotycznych, do czego było wykorzystywane wielokrotnie uprzednio. Aby dostosować to podejście do agentów, które działają na pograniczu środowiska fizycznego i cyberprzestrzeni, należało ekran monitora potraktować jako część środowiska, natomiast okienka i kursory potraktować jako elementy agentów. W konsekwencji uzyskano bardzo przejrzystą strukturę projektowanego systemu. Część druga tego artykułu przedstawia algorytmy wykorzystane do rozpoznawania mowy i mówców oraz gestów, a także rezultaty testów tych algorytmów.
EN
This two part paper presents an interface to the National Cybersecurity Platform utilising gestures and voice commands as the means of interaction between the operator and the platform. Cyberspace and its underlying infrastructure are vulnerable to a broad range of risk stemming from diverse cyber-threats. The main role of this interface is to support security analysts and operators controlling visualisation of cyberspace events like incidents or cyber-attacks especially when manipulating graphical information. Main visualization control modalities are gesture- and voice-based commands. Thus the design of gesture recognition and speech-recognition modules is provided. The speech module is also responsible for speaker identification in order to limit the access to trusted users only, registered with the visualisation control system. This part of the paper focuses on the structure and the activities of the interface, while the second part concentrates on the algorithms employed for the recognition of: gestures, voice commands and speakers.
PL
Ten dwuczęściowy artykuł przedstawia interfejs do Narodowej Platformy Cyberbezpieczeństwa (NPC). Wykorzystuje on gesty i komendy wydawane głosem do sterowania pracą platformy. Ta część artykułu przedstawia strukturę interfejsu oraz sposób jego działania, ponadto prezentuje zagadnienia związane z jego implementacją. Do specyfikacji interfejsu wykorzystano podejście oparte na agentach upostaciowionych, wykazując że podejście to może być stosowane do tworzenia nie tylko systemów robotycznych, do czego było wykorzystywane wielokrotnie uprzednio. Aby dostosować to podejście do agentów, które działają na pograniczu środowiska fizycznego i cyberprzestrzeni, należało ekran monitora potraktować jako część środowiska, natomiast okienka i kursory potraktować jako elementy agentów. W konsekwencji uzyskano bardzo przejrzystą strukturę projektowanego systemu. Część druga tego artykułu przedstawia algorytmy wykorzystane do rozpoznawania mowy i mówców oraz gestów, a także rezultaty testów tych algorytmów.
EN
This two part paper presents an interface to the National Cybersecurity Platform utilising gestures and voice commands as the means of interaction between the operator and the platform. Cyberspace and its underlying infrastructure are vulnerable to a broad range of risk stemming from diverse cyber-threats. The main role of this interface is to support security analysts and operators controlling visualisation of cyberspace events like incidents or cyber-attacks especially when manipulating graphical information. Main visualization control modalities are gesture- and voice-based commands. Thus the design of gesture recognition and speech-recognition modules is provided. The speech module is also responsible for speaker identification in order to limit the access to trusted users only, registered with the visualisation control system. This part of the paper focuses on the structure and the activities of the interface, while the second part concentrates on the algorithms employed for the recognition of: gestures, voice commands and speakers.
EN
The bank client identity verification system developed in the course of the IDENT project is presented. The total number of five biometric modalities including: dynamic handwritten signature proofing, voice recognition, face image verification, face contour extraction and hand blood vessels distribution comparison have been developed and studied. The experimental data were acquired employing multiple biometric sensors installed at engineered biometric terminals. The biometric portraits of more than 10 000 bank clients were registered and stored in the database during the presented study and then verified experimentally. Problem-specific survey was done on the basis of questionnaires completed by the subjects in order to assess the look and feel of the developed biometric system as well as to collect opinions concerning its implementation in banking outlets. A discussion concerning the quality of registered data and results achieved in the study is included.
PL
W artykule przedstawiono system weryfikacji tożsamości klienta bankowego opracowany w ramach projektu IDENT. Opracowano i przebadano pięć metod biometrycznych, w tym: rozpoznawanie dynamicznej reprezentacji podpisu odręcznego, weryfikację głosową, weryfikację obrazu twarzy, rozpoznawanie ekstrahonego konturu twarzy i porównywanie rozkładu naczyń krwionośnych dłoni. Przedstawione w artykule dane badawcze pozyskano za pomocą wielu czujników biometrycznych zainstalowanych w skonstruowanych stanowiskach biometrycznych. Łącznie z wykorzystaniem skonstruowanych stanowisk zarejestrowano próbki biometryczne pochodzące od ponad 10 000 klientów banku. W trakcie badania uczestnicy, tzn. klienci i doradcy bankowi byli proszeni o wypełnienie ankiet w celu ułatwienia oceny wyglądu i sposobu działania opracowanego systemu biometrycznego oraz zebrania opinii na temat jego przyszłego wdrożenia w placówkach bankowych. W artykule przedstawiono wyniki analiz zgromadzonych danych, z uwzględnieniem wzajemnej korelacji poszczególnych modalności oraz semantycznej analizy ankiet wypełnionych przez uczestników badania.
EN
The paper presents an embedded system, which realizes real time speaker recognition from the internet radio broadcasts. The proposed solution was developed with the use of the open source Python programming language. It was first tested within the Windows environment, then adapted to the Unix operating system in order to use is on the Raspberry Pi 2 platform. We analyzed available libraries to select the most convenient solutions for individual blocks of the speaker recognition task. In the paper we also indicate parameters, for which the algorithm exhibits the greatest efficiency. The prepared software is available on the Github file repository.
PL
Artykuł prezentuje system realizujący rozpoznawanie mówcy z radia internetowego. Zaproponowane rozwiązanie wykorzystuje narzędzia udostępnione w ramach ogólnie dostępnego oprogramowania dla języka Python. Prezentowane oprogramowanie zostało przetestowane w środowisku Windows a następnie zostało zaadaptowane do uruchomienia na platformie Raspberry Pi 2, zarządzanej przez system Linux. W artykule przeanalizowano dostępne biblioteki, które posłużyły do implementacji algorytmów ekstrakcji cech oraz modelowania sygnału mowy. Przeprowadzone eksperymenty pozwoliły na dobranie parametrów systemu, przy których uzyskuje się najlepszą skuteczność identyfikacji i jednocześnie największą szybkość przetwarzania danych. Przygotowane oprogramowanie jest dostępne w repozytorium Github.
7
Content available remote Identyfikacja głosowa w otwartym zbiorze mówców
PL
W artykule zaprezentowano wyniki badań systemu automatycznego rozpoznawania mówcy, przeprowadzane z wykorzystaniem komercyjnej bazy głosów TIMIT. Głównym celem badań było rozszerzenie funkcjonalności systemu rozpoznawania mówcy poprzez dodanie układu progowego, a tym samym umożliwienie identyfikacji w otwartym zbiorze mówców. Przedstawiono różne warianty zastosowanego układu progowego oraz dokonano próby wzbogacenia wektora cech dystynktywnych o różnicę częstotliwości podstawowej wyznaczanej dwiema różnymi metodami.
EN
In the article there are presented the test results of the automatic speaker recognition system, conducted while using the commercial voice basis TIMIT. The main purpose of the test was to extend the functionality of the speaker recognition system by adding the threshold based system, and consequently to enable the identification in the open set of speakers. There are presented different application variants of the threshold based system and there is an attempt to enrich the vector of distinctive features with the fundamental frequency difference determined with two different methods.
PL
W referacie przedstawiono przegląd rozwiązań wykorzystywanych w bankach do weryfikacji tożsamości klientów. Ponadto zawarto opis metod biometrycznych aktualnie wykorzystywanych w placówkach bankowych wraz z odniesieniem do skuteczności i wygody korzystania z dostępnych rozwiązań. Zaproponowano rozszerzenie zakresu wykorzystania technologii biometrycznych, wskazując kierunek rozwoju systemów bezpieczeństwa dla poprawy dostępu do usług i zwiększenia bezpieczeństwa transakcji. Referat prezentuje założenia będące podstawą zainicjowania projektu IDENT, realizowanego w ramach Programu Badań Stosowanych NCBR, który ma na celu poprawę skuteczności weryfikacji klientów bankowych z użyciem technologii biometrycznych.
EN
An overview of customers’ identity verification solutions used in banks is presented. A review of biometric methods currently seen in bank outlets with a reference to their effectiveness and convenience is provided. An extension of the current state of technology in the context of biometrics applications is proposed, indicating a direction of the development of authentication systems to improve the secure access to banking services. Assumptions forming the basis for initiating the project IDENT are included. The project is carried-out under the Applied Research Program NCBiR, aiming to improve the effectiveness of the verification of bank customers employing biometric technology.
PL
Przedstawiony artykuł dotyczy zagadnień związanych z funkcjonowaniem systemów automatycznej translacji mowy ciągłej. W systemach tych wykorzystuje się techniki przetwarzania języka naturalnego realizowane z wykorzystaniem algorytmów automatycznego rozpoznawania mowy, automatycznej translacji tekstów oraz zamiany tekstu na mowę za pomocą syntezy mowy. W artykule zaproponowano także metodę usprawnienia procesu automatycznej translacji mowy przez zastosowanie algorytmów automatycznej identyfikacji mówcy, pozwalających na automatyczną segmentację mowy pochodzącej od różnych mówców.
EN
This paper concerns the machine translation of continuous speech. These systems use machine language processing techniques implemented using algorithms of automatic speech recognition, automatic text translation and text-to-speech conversion using speech synthesis.
10
Content available remote System kontroli dostępu oparty na biometrycznej weryfikacji głosu
PL
Artykuł przedstawia koncepcję głosowego, biometrycznego systemu dostępowego zrealizowanego jako system wbudowany. Zaprezentowano najważniejsze wymagania dotyczące systemów kontroli dostępu oraz wynikające z nich założenia projektowe. Opisano architekturę utworzonego systemu, jego funkcjonalność oraz zastosowane metody weryfikacji mówcy wraz z omówieniem podstawowych metod optymalizacji czasowej implementacji. Całość poprzedzona jest zarysem zagadnienia biometrii głosu oraz automatycznego przetwarzania mowy.
EN
The paper presents the concept of embedded solution for voice biometric access system. The most important requirements for access control systems are presented, as well as the resulting design intent. The architecture of the created system, its functionality and the methods used to verify the speakers is described along with a discussion of basic time-optimization methods of implementation. The entirety is preceded by an outline of the issues of voice biometrics and automatic speech processing.
PL
W artykule przedstawiono wyniki badań automatycznego systemu rozpoznawania mówcy (ASR – ang. Automatic Speaker Recognition), przeprowadzonych na podstawie komercyjnej bazy głosów TIMIT. Badania prowadzone były pod kątem zastosowania ASR jako systemu automatycznego rozpoznawania rozmówcy telefonicznego. Przedstawiono również wpływ liczebności bazy głosów oraz stopień oddziaływania kompresji stratnej MP3 na skuteczność rozpoznawania mówcy.
EN
The article presents the results of tests of an automatic speaker recognition system (ASR) conducted on the basis of the TIMIT commercial voice database. The research was conducted with the aim of using ASR as a system for automatic recognition of telephone callers. The impact of the number of voices in the database and the effect of lossy MP3 compression on the effectiveness of speaker recognition has also been shown.
EN
This paper proposes TEO-CFCC characteristic parameter extraction method. Signal phase matching is applied to eliminate speech noise on the basis of CFCC characteristic parameter, and then Teager energy operator is added to the acquisition of CFCC characteristic parameter. In this way TEO-CFCC characteristic parameter is obtained and the energy of speech becomes one of the characteristic parameters for speaker recognition. Experiment results show that the recognition accuracy can reach to 83.2% in a -5dB SNR of vehicle interior noise environment by using TEO-CFCC characteristic parameter.
PL
W artykule przedstawiono metodę wyznaczania parametrów charakterystycznych filtru TEO-CFCC. Zastosowano tu dopasowywanie fazowe sygnału, dla eliminacji z mowy szumów oraz operator Teagera do wyrugowania parametrów. Badania eksperymentalne pokazuję, że dokładność rozpoznania głosu wynosi 83,2% przy -5dB SNR we wnętrzu pojazdu.
PL
W niniejszym artykule zaprezentowano zaimplementowany w środowisku Matlab system automatycznego rozpoznawania mówcy, wykorzystujący do opisu głosu unikatowy wektor cech, tzw. „odcisk głosu” (VP – ang. Voice Print). System używa w procesie klasyfikacji tzw. modele mieszanin Gaussowskich (GMM – ang. Gaussian Mixture Model). W końcowej części artykułu przedstawione są badania skuteczności rozpoznawania mówców dla różnych wariantów systemu oraz w różnych konfiguracjach jego parametrów.
EN
The paper discusses the system of automatic speaker recognition, implemented in Matlab environment and using a unique vector of features, the so-called voice print (VP) for voice description. The system uses the so-called Gaussian Mixture Models (GMM) for the classification process. The final section of the paper presents the studies on the efficiency of speaker recognition for various system versions and for different system parameter configurations.
PL
Przedstawiony poniżej artykuł opisuje system rozpoznawania mówcy na podstawie mowy ciągłej, wykorzystując wielowariancyjne rozkłady prawdopodobieństwa GMM. Opisane zostały procesy ekstrakcji cech dystynktywnych głosu oraz tworzenia modeli statystycznych. Algorytm został zaimplementowany w systemie Linux w celu poprawy funkcjonalności identyfikacji użytkownika Zaufanego Osobistego Terminalu PTT.
EN
The article describes a speaker recognition system based on continuous speech using GMM multivariate probability distributions. A theoretical model of the system including the extraction of distinctive features and statistical modeling is described. The efficiency of the system implemented in the Linux operating system was determined. The system is designed to support the functionality of the Personal Trusted Terminal PTT in order to uniquely identify a subscriber using the device.
PL
W artykule przedstawiono integrację układów elektronicznych z ciałem ludzkim na przykładzie badań prowadzonych w Pracowni Układów Elektronicznych i Przetwarzania Sygnałów (PUEPS) w Politechnice Poznańskiej. Omówiono poprawę zrozumiałości mowy, w tym osób laryngektomowanych, testy audiometryczne, generację wielotonów nieharmonicznych, badania bioimpedancyjne, detekcję punktów akupunkturowych, terapię dźwiękiem oraz diagnostykę akustyczną, a także automatyczne rozpoznawanie mówcy.
EN
In this article an integration of electronic systems with human body has been presented. It is based on the research conducted by the Division of Signal Processing and Electronic Systems (DSP&ES) at Poznan University of Technology. Some essential issues have been discussed such as: speech intelligibility enhancement including laryngectomees’ pseudospeech/pseudowhisper, audiometric tests, non-harmonic multitones generation, bioimpedance studies, acupuncture points detection, sound therapy and acoustic diagnostics, as well as automatic speaker recognition.
EN
This paper presents the effectiveness of speaker identification based on short Polish sequences. An impact of automatic removal of silence on the speaker recognition accuracy is considered. Several methods to detect the beginnings and ends of the voice signal have been used. Experimental research was carried out in Matlab environment with the use of a specially prepared database of short speech sequences in Polish. The construction of speaker models was realized with two techniques: Vector Quantization (VQ) and Gaussian Mixture Models (GMM). We also tested the influence of the sampling rate reduction on the speaker recognition performance.
PL
Artykuł przedstawia badania efektywności rozpoznawania mówcy opartego na krótkich wypowiedziach w języku polskim. Sprawdzono wpływ automatycznego wykrywania i usuwania ciszy na jakość rozpoznawania mówcy. Przebadano kilka różnych metod wykrywania początku i końca fragmentów mowy w wypowiadanych sekwencjach. Eksperymenty zostały przeprowadzone z użyciem środowiska Matlab i specjalnie utworzonej bazy krótkich wypowiedzi w języku polskim. Do budowy modeli mówców wykorzystano kwantyzacja wektorowa (VQ) oraz Gaussian Mixture Models (GMM). Podczas badań sprawdzono także wpływ obniżenia szybkości próbkowania na skuteczność identyfikacji mówcy.
PL
W prezentowanym referacie przedstawiono problematykę systemów automatycznego rozpoznawania mówców (ASR – ang. Automatic Speakers Recognition) wraz z ich szczegółową klasyfikacją. Ze względu na to, że etap ekstrakcji cech ma decydujące znaczenie przy ocenie skuteczności systemów niezależnych od tekstu, dokonano przeglądu wybranych cech sygnału mowy istotnych z punktu widzenia ich przydatności w zadaniach automatycznego rozpoznawania mówców. Ponadto w referacie zaprezentowano przykładowe widma dźwięcznej głoski „ i” oraz dokonano oceny użyteczności reprezentacji częstotliwościowej sygnału mowy w automatycznych systemach rozpoznawania mówcy.
EN
The paper presents the problem of automatic speakers recognition (ASR) systems together with their detailed classification. Due to the fact, that the stage of feature extraction is crucial in assessing the effectiveness of text-independent systems, it was reviewed of selected characteristics of the speech signal relevant to their suitability to the tasks of automatic speaker recognition. In addition, the paper presents examples of the spectrums of resonant vowel "i", and assesses the usefulness of the spectral representation of a speech signal for ASR systems.
EN
In this paper a system for speaker recognition and respective experiments based on telephone speech signal quality are presented and reported. First, the speech signals are transmitted using regular GSM or analog telephone systems. The recorded signals are used as input for the Gaussian mixture model based speaker recognition system. The results suggest that the parameters of MFCC extraction should be tailored to the signal quality.
PL
Artykuł prezentuje eksperymenty z systemem rozpoznawania mówcy działającym na sygnale mowy o jakości telefonicznej. Najpierw sygnał mowy został przetransmitowany przez rzeczywisty kanał telefoniczny zawierający zarówno kodek GSM jak i standard analogowy. Tak uzyskany sygnał został zapisany i wykorzystany do testowania rozpoznawania mówcy opartego na modelu liniowych mieszanin Gaussowskich. Uzyskane wyniki wskazują, że parametry obliczania współczynników MFCC powinny być dopasowane do jakości sygnału.
PL
W artykule przedstawiono przegląd korpusów znajdujących zastosowanie w systemach rozpoznawania mówcy. Porównano korpusy anglojęzyczne i korpusy opracowane w innych językach. Zestawiono i porównano cechy korpusów, zwracając szczególną uwagę na relację korpusów polskojęzycznych do innych publikowanych korpusów.
EN
The article is concerned with a review of corpuses applied in speaker recognition systems. English language corpuses are compared to the corpuses built for the other language speakers. The main features of the corpuses are compared. Especially, relation of the features of polish language corpuses to the other ones is taken into consideration.
PL
Rozpoznawanie/identyfikacja mówcy na podstawie rozmów telefonicznych może być ulepszona jeśli prawidłowo są wykryte użyte kodeki mowy. Artykuł prezentuje detekcję kodowania GSM o pełnej szybkości. Konieczność detekcji w czasie rzeczywistym wymaga segmentacji sygnału mowy, co zostało zbadane w środowisku Matlab/Simulink. Rezultaty eksperymentów z wykorzystaniem wybranych próbek sygnału mowy potwierdziły sprawność zaproponowanej realizacji procesu detekcji.
EN
Speaker recognition/identification based on the analysis of telephone calls can be improved if the involved speech coders are properly detected. This paper presents detection of the GSM full rate coding. Necessity of real time detection requires speech signal segmentation. It was analyzed using Matlab/Simulink environment. Results of experiments with the selected speech samples proved efficiency of the proposed coding detection approach.
first rewind previous Strona / 2 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.