Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 11

Liczba wyników na stronie
first rewind previous Strona / 1 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  speaker verification
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 1 next fast forward last
PL
Postęp technologiczny w dziedzinie głębokiego uczenia znacząco przyczynił się do roz-woju syntezowania głosu, umożliwił tworzenie realistycznych nagrań audio, które mogą naśladować indywidualne cechy głosów ludzkich. Chociaż ta innowacja otwiera nowe możliwości w dziedzinie technologii mowy, niesie ze sobą również poważne obawy dotyczące bezpieczeństwa, zwłaszcza w kontekście potencjalnego wykorzystania technologii deepfake do celów przestępczych. Przeprowadzone badanie koncentrowało się na ocenie wpływu syntetycznych głosów na systemy biometrycznej weryfikacji mówców w języku polskim oraz skuteczności wykrywania deepfake’ów narzędziami dostępnymi publicznie, z wykorzystaniem dwóch głównych metod generowania głosu, tj. przekształcenia tekstu na mowę oraz konwersji mowy. Jednym z głównych wniosków analizy jest potwierdzenie zdolności syntetycznych głosów do zachowania charakterystycznych cech biometrycznych i otwierania drogi przestępcom do nieautoryzowanego dostępu do zabezpieczonych systemów lub danych. To podkreśla potencjalne zagrożenia dla indywidualnych użytkowników oraz instytucji, które polegają na technologiach rozpoznawania mówcy jako metodzie uwierzytelniania i wskazuje na konieczność wdrażania modułów wykrywania ataków. Badanie ponadto pokazało, że deepfaki odnalezione w polskiej części internetu dotyczące promowania fałszywych inwestycji lub kierowane w celach dezinformacji najczęściej wykorzystują popularne i łatwo dostępne narzędzia do syntezy głosu. Badanie przyniosło również nowe spojrzenie na różnice w skuteczności metod kon-wersji tekstu na mowę i klonowania mowy. Okazuje się, że metody klonowania mowy mogą być bardziej skuteczne w przekazywaniu biometrycznych cech osobniczych niż metody konwersji tekstu na mowę, co stanowi szczególny problem z punktu widzenia bezpieczeństwa systemów weryfikacji. Wyniki eksperymentów podkreślają potrzebę dalszych badań i rozwoju w dziedzinie bezpieczeństwa biometrycznego, żeby skutecznie przeciwdziałać wykorzystywaniu syntetycznych głosów do nielegalnych działań. Wzrost świadomości o potencjalnych zagrożeniach i kontynuacja pracy nad ulepszaniem technologii weryfikacji mówców są ważne dla ochrony przed coraz bardziej wyrafinowanymi atakami wykorzystującymi technologię deepfake.
EN
Technological advancements in the field of deep learning have significantly contributed to the development of voice synthesis, enabling the creation of realistic audio recordings that can mimic the individual characteristics of human voices. While this innovation opens up new possibilities in the field of speech technology, it also raises serious security concerns, especially in the context of the potential use of deepfake technology for criminal purposes. Our study focuses on assessing the impact of synthetic voices on biometric speaker verification systems in Polish and the effectiveness of detecting deepfakes with publicly available tools, considering two main approaches to voice generation: text-to-speech conversion and speech conversion. One of the main findings of our research is the confirmation that synthetic voices are capable of retaining biometric characteristics, which could allow criminals unauthorized access to protected systems or data. The analysis showed that the greater the biometric similarity between the „victim’s” voice and the „criminal’s” synthetic voice, the more difficult it is for verification systems to distinguish between real and fake voices. This highlights the potential threats to individual users and institutions that rely on speaker recognition technologies as a method of authentication. Our study also provides a new perspective on the differences in the effectiveness of text-to-speech conversion methods versus speech cloning. It turns out that speech cloning methods may be more effective in conveying individual biometric characteristics than text-to-speech conversion methods, posing a particular problem from the security perspective of verification systems. The results of the experiments underscore the need for further research and development in the field of biometric security to effectively counteract the use of synthetic voices for illegal activities. Increasing awareness of potential threats and continuing work on improving speaker verification technologies are crucial for protecting against increasingly sophisticated attacks utilizing deepfake technology.
PL
Przedstawiono zastosowanie modelowania statystycznego, opartego na mieszaninach rozkładów Gaussa w głosowym systemie biometrycznym. Przedstawiono przykładową realizację systemu weryfikacji mówcy z wykorzystaniem otwartego oprogramowania. Uzyskane wyniki umożliwiają zastosowanie takiego systemu weryfikacji tożsamości jako dodatkowego zabezpieczenia zwiększającego poziom bezpieczeństwa systemu teleinformatycznego.
EN
The paper presents the application of statistical modelling based on Gaussian mixture models to a voice biometric system. The implementation of a speaker verification system based on open-source software is presented. Obtained results enable the application of such an identity verification system as an additional security layer which increases the security level of a teleinformation system.
PL
W artykule omówiono system weryfikacji tożsamości zbudowany w oparciu o specjalistyczny i otwarty pakiet oprogramowania Kaldi oraz przetestowany na dużej i darmowej bazie VoxCeleb przy wykorzystaniu wektorów tożsamości do modelowania głosu. Omówiono także problematykę zasobów mowy wykorzystywanych do testowania głosowych systemów biometrycznych. Przedstawiono wpływ wymiarowości wektorów tożsamości na błędy weryfikacji.
EN
This paper discusses a speaker verification system built with the help of free software Kaldi and tested with the VoxCeleb dataset. The problems with the speaker recognition datasets are also discussed. The results for speaker verification system based on i-vectors are shown as well as the influence of dimensionality of i-vectors on verification errors.
EN
Biometrics provide an alternative to passwords and pins for authentication. The emergence of machine learning algorithms provides an easy and economical solution to authentication problems. The phases of speaker verification protocol are training, enrollment of speakers and evaluation of unknown voice. In this paper, we addressed text independent speaker verification using Siamese convolutional network. Siamese networks are twin networks with shared weights. Feature space can be learnt easily by training these networks even if similar observations are placed in proximity. Extracted features from Siamese then can be classified using difference or correlation measures. We have implemented a customized scoring scheme that utilizes Siamese’ capability of applying distance measures with the convolutional learning. Experiments made on cross language audios of multi-lingual speakers confirm the capability of our architecture to handle gender, age and language independent speaker verification. Moreover, our designed Siamese network, SpeakerNet, provided better results than the existing speaker verification approaches by decreasing the equal error rate to 0.02.
PL
Artykuł dotyczy zagadnienia bezpieczeństwa systemów biometrii głosowej, czyli systemów wykorzystujących automatyczną weryfikację mówcy (Automatic Speaker Verification - ASV). Szczególną uwagę poświęcono zagrożeniom atakami przez osoby podszywające się pod inną tożsamość (spoofing). Na wstępie omówiono używane obecnie algorytmy służące do biometrii głosowej. Następnie omówiono główne rodzaje ataków, takich jak atak z użyciem syntezy mowy, konwersji głosu czy odtworzenia nagrania. Przedstawiono również metody, które mają na celu ochronę przed tymi zagrożeniami, wraz z oceną ich skuteczności.
EN
This article concerns the problem of the security of voice biometric systems, i.e., systems which provide automatic speaker verification (ASV). Special attention is given to vulnerability to spoofing attacks. First, the state-of-the-art voice biometric systems are presented, followed by the most common types of spoofing attacks, such as attacks using speech synthesis, voice conversion or replay. Next, the most common spoofing countermeasures are described, together with the assessment of their efficiency.
EN
Conventional speaker recognition systems use the Universal Background Model (UBM) as an imposter for all speakers. In this paper, speaker models are clustered to obtain better imposter model representations for speaker verification purpose. First, a UBM is trained, and speaker models are adapted from the UBM. Then, the k-means algorithm with the Euclidean distance measure is applied to the speaker models. The speakers are divided into two, three, four, and five clusters. The resulting cluster centers are used as background models of their respective speakers. Experiments showed that the proposed method consistently produced lower Equal Error Rates (EER) than the conventional UBM approach for 3, 10, and 30 seconds long test utterances, and also for channel mismatch conditions. The proposed method is also compared with the i-vector approach. The three-cluster model achieved the best performance with a 12.4% relative EER reduction in average, compared to the i-vector method. Statistical significance of the results are also given.
EN
A speaker recognition system based on joint factor analysis (JFA) is proposed to improve whisper- ing speakers’ recognition rate under channel mismatch. The system estimated separately the eigenvoice and the eigenchannel before calculating the corresponding speaker and the channel factors. Finally, a channel-free speaker model was built to describe accurately a speaker using model compensation. The test results from the whispered speech databases obtained under eight different channels showed that the correct recognition rate of a recognition system based on JFA was higher than that of the Gaussian Mixture Model–Universal Background Model. In particular, the recognition rate in cellphone channel tests increased significantly.
PL
W artykule oceniano skuteczność systemu automatycznej weryfikacji mówcy opartego na cechach prozodycznych. Poprawność rozpoznawania mówcy zbadano za pomocą modeli opartych na bigramach. Na podstawie uzyskanych rezultatów wykazano, że rytm prozodii niesie istotne informacje zależne od mówcy. Ponadto opracowano metodę doboru liczby poziomów kwantyzacji w zależności od czasów trwania segmentów.
EN
In this paper accuracy of the speaker verificatipn system based on prosodic features was evaluated. Efficiency of bigram models for the speaker recognition was assessed. The results showed that in speech the prosody rhythm carries valuable speaker specific information. Appropriate numbers of quantization levels in relation to segments' duration was determined.
EN
In a person identification or verification, the prime interest is not in recognizing the words but determining who is speaking the words. In systems of person identification, a test of signal from an unknown speaker is compared to all known speaker signals in the set. The signal that has the maximum probability is identified as the unknown speaker. In security systems based on person identification and verification, faultless identification has huge meaning for safety. In systems of person verification, a test of signal from a known speaker is compared to recorded signals in the set, connected with a known tested persons label. There are more than one recorded signals for every user in the set. In aim of increasing safety, in this work it was proposed own approach to person verification, based on independent speech and facial asymmetry. Extraction of the audio features of person's speech is done using mechanism of cepstral speech analysis. The idea of improvement of effectiveness of face recognition technique was based on processing information regarding face asymmetry in the most informative parts of the face the eyes region.
PL
Opisano zagadnienia związane z realizacją systemu weryfikacji użytkownika na podstawie analizy jego wypowiedzi. Zaproponowano system, który realizowałby funkcje analogiczne do wprowadzania kodu PIN, ale przez wypowiadanie cyfr. System uczyłby się głosów użytkowników, a przy próbach uwierzytelnienia porównywał wypowiedź mówcy z wyszkolonym jego modelem. Jako metodę weryfikacji mówcy zaproponowano algorytm oparty na ukrytych modelach Markova (HMM), parametryzując sygnał mowy z wykorzystaniem parametrów melcepstrum. Do testów przygotowano bazę z nagraniami cyfr pochodzących od 20 mówców. Przeprowadzono eksperymenty z doborem parametrów modeli, z doborem długości sekwencji uczącej, próbując weryfikować mówcę właściwego i mówców niewłaściwych. Sprawdzano też przydatność poszczególnych cyfr do weryfikacji, a także zmienność poprawności weryfikacji w czasie. Po dobraniu optymalnych parametrów modeli i procesu uczenia system dla testowanych mówców działał bezbłędnie.
EN
The paper discusses issues related to designing a user verificatbn system based on analysis of usens speech. A system was proposed which is going to be a "spoken" equivalent of "keyboard" PIN code authorization system, i.e. the sequence of digits is pronounced by the user. The system is going to be trained using users1 voices, whiist during authorization process the questioned utterance would be compared with the previously trained model. An algorithm based on Hidden Markov Models (HMM) was proposed as speaker verification method; the speech signal was parameterized using melcepstrum coefficients. A corpus with multiple recordings of digits pronounced by 20 nathe Polish speakers was prepared for testing purposes. Several experiments were run to check model parameters, optimal training sequence length, by trying to verify both the correct speaker and the intruders. Performance of verification for diffierent digits was analyzed, so were changes in verifkaiion correctness in time. Hawing set optimal model and training process parameters, the system for the tested users was working correctly.
PL
Systemy rozpoznawania mowy znajdują w ostatnich latach coraz szersze zastosowania w wielu dziedzinach, a wprowadzanie ich do telekomunikacji przebiega szczególnie dynamiczne. W artykule przedstawiony jest syntetyczny zbiór informacji dotyczących realizacji tego rodzaju systemów a następnie podane zostały przykłady ich zastosowań w automatycznych centralach telefonicznych, centrach informacji, i innych. Na tle aktualnego stanu wiedzy w tej dziedzinie omówione zostały prace projektowe i badawcze z tego zakresu prowadzone w Instytucie Elektroniki Politechniki Łódzkiej.
EN
Voice processing has been a subject of research for several decades, but in the past few years the technology was developed sufficiently to make the voice recognition systems ready for wide range of applications. In this paper, after some general remarks on speech recognition systems technology, the main applications to telecommunications are reviewed. There are two broad categories of speech recognition applications to telecommunications; namely, those which provide cost reduction, and those which generate revenue. Cost reduction applications are those which replace human attendants by speech recognition systems. The second wide category include applications which provide services that were previously not available: touch tone replacement by voice recognition, voice access information systems, speaker verification, etc. In the final sections some glimpses on the works carried in this field in Institute of Electronics are incuded.
first rewind previous Strona / 1 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.