Ograniczanie wyników
Czasopisma help
Autorzy help
Lata help
Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 23

Liczba wyników na stronie
first rewind previous Strona / 2 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  speech signal
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 2 next fast forward last
EN
The current reality is saturated with intelligent telecommunications solutions, and automatic speaker recognition systems are an integral part of many of them. They are widely used in sectors such as banking, telecommunications and forensics. The ease of performing automatic analysis and efficient extraction of the distinctive characteristics of the human voice makes it possible to identify, verify, as well as authorize the speaker under investigation. Currently, the vast majority of solutions in the field of speaker recognition systems are based on the distinctive features resulting from the structure of the speaker's vocal tract (laryngeal sound analysis), called physical features of the voice. Despite the high efficiency of such systems - oscillating at more than 95% - their further development is already very difficult, due to the fact that the possibilities of distinctive physical features have been exhausted. Further opportunities to increase the effectiveness of ASR systems based on physical features appear after additional consideration of the behavioral features of the speech signal in the system, which is the subject of this article.
2
Content available remote Speech sound detection employing deep learning
EN
The primary way of communication between people is speech, both in the form of everyday conversation and speech signal transmitted and recorded in numerous ways. The latter example is especially important in the modern days of the global SARS-CoV-2 pandemic when it is often not possible to meet with people and talk with them in person. Streaming, VoIP calls, live podcasts are just some of the many applications that have seen a significant increase in usage due to the necessity of social distancing. In our paper, we provide a method to design, develop, and test the deep learning-based algorithm capable of performing voice activity detection in a manner better than other benchmark solutions like the WebRTC VAD algorithm, which is an industry standard based mainly on a classic approach to speech signal processing.
EN
Speech and music signals are multifractal phenomena. The time displacement profile of speech and music signal show strikingly different scaling behaviour. However, a full complexity analysis of their frequency and amplitude has not been made so far. We propose a novel complex network based approach (Visibility Graph) to study the scaling behaviour of frequency wise amplitude variation of speech and music signals over time and then extract their PSVG (Power of Scale freeness of Visibility Graph). From this analysis it emerges that the scaling behaviour of amplitude-profile of music varies a lot from frequency to frequency whereas it’s almost consistent for the speech signal. Our left auditory cortical areas are proposed to be neurocognitively specialised in speech perception and right ones in music. Hence we can conclude that human brain might have adapted to the distinctly different scaling behaviour of speech and music signals and developed different decoding mechanisms, as if following the so called Fractal Darwinism. Using this method, we can capture all non-stationary aspects of the acoustic properties of the source signal to the deepest level, which has huge neurocognitive significance. Further, we propose a novel non-invasive application to detect neurological illness (here autism spectrum disorder, ASD), using the quantitative parameters deduced from the variation of scaling behaviour for speech and music.
PL
Artykuł dotyczy zagadnienia bezpieczeństwa systemów biometrii głosowej, czyli systemów wykorzystujących automatyczną weryfikację mówcy (Automatic Speaker Verification - ASV). Szczególną uwagę poświęcono zagrożeniom atakami przez osoby podszywające się pod inną tożsamość (spoofing). Na wstępie omówiono używane obecnie algorytmy służące do biometrii głosowej. Następnie omówiono główne rodzaje ataków, takich jak atak z użyciem syntezy mowy, konwersji głosu czy odtworzenia nagrania. Przedstawiono również metody, które mają na celu ochronę przed tymi zagrożeniami, wraz z oceną ich skuteczności.
EN
This article concerns the problem of the security of voice biometric systems, i.e., systems which provide automatic speaker verification (ASV). Special attention is given to vulnerability to spoofing attacks. First, the state-of-the-art voice biometric systems are presented, followed by the most common types of spoofing attacks, such as attacks using speech synthesis, voice conversion or replay. Next, the most common spoofing countermeasures are described, together with the assessment of their efficiency.
PL
Artykuł prezentuje próbę analizy zadowolenia mówcy na podstawie sygnału mowy. Na podstawie rzeczywistych rozmów z call center stworzono korpus mowy oraz przeprowadzono wstępne testy, których celem było określenie możliwości automatycznego wykrywania niezadowolenia w głosie. Podczas eksperymentów 1179 nagrań poddano automatycznej klasyfikacji, uzyskując ponad 83% dokładności przy detekcji niezadowolenia niewerbalnego.
EN
The paper presents an approach to speaker’s satisfaction analysis based on speech signal. A corpus of emotional speech from real call center recordings was created. Preliminary tests were performed to estimate possibility of automatic detection of dissatisfaction based on speech analysis. 1179 recordings were classified obtaining 83% accuracy when detecting non-verbal dissatisfaction.
6
Content available remote Identyfikacja głosowa w otwartym zbiorze mówców
PL
W artykule zaprezentowano wyniki badań systemu automatycznego rozpoznawania mówcy, przeprowadzane z wykorzystaniem komercyjnej bazy głosów TIMIT. Głównym celem badań było rozszerzenie funkcjonalności systemu rozpoznawania mówcy poprzez dodanie układu progowego, a tym samym umożliwienie identyfikacji w otwartym zbiorze mówców. Przedstawiono różne warianty zastosowanego układu progowego oraz dokonano próby wzbogacenia wektora cech dystynktywnych o różnicę częstotliwości podstawowej wyznaczanej dwiema różnymi metodami.
EN
In the article there are presented the test results of the automatic speaker recognition system, conducted while using the commercial voice basis TIMIT. The main purpose of the test was to extend the functionality of the speaker recognition system by adding the threshold based system, and consequently to enable the identification in the open set of speakers. There are presented different application variants of the threshold based system and there is an attempt to enrich the vector of distinctive features with the fundamental frequency difference determined with two different methods.
PL
W artykule przedstawiono wyniki doświadczeń rozpoznawania emocji na podstawie sygnału mowy z wykorzystaniem współczynników percepcyjnych. Badania rozpoczęła analiza współczynników MFCC, następnie pulę tę poszerzono o współczynniki, takie jak BFCC, HFCC, PLP, RPLP oraz RASTA PLP, szeroko stosowane w badaniach nad rozpoznawaniem mowy, natomiast pomijane w rozpoznawaniu emocji. Analizę przeprowadzono dla dwóch różnych korpusów: bazy mowy spontanicznej i odegranej. Przy użyciu klasyfikatora k-NN, wybrano grupę współczynników najlepiej reprezentujących stany emocjonalne.
EN
The following paper presents parameterization of emotional speech using perceptual coefficients as well as a comparison of Mel Frequency Cepstral Coefficients (MFCC), Bark Frequency Cepstral Coefficients (BFCC), Perceptual Linear Prediction Coefficients (PLP) and Revised Perceptual Linear Prediction Coefficients (RPLP). Analysis was performed on two different Polish databases: acted out and spontaneous speech corpora. Emotion classification was performed using k-NN algorithm.
PL
W artykule przedstawiono wyniki badań automatycznego systemu rozpoznawania mówcy (ASR – ang. Automatic Speaker Recognition), przeprowadzonych na podstawie komercyjnej bazy głosów TIMIT. Badania prowadzone były pod kątem zastosowania ASR jako systemu automatycznego rozpoznawania rozmówcy telefonicznego. Przedstawiono również wpływ liczebności bazy głosów oraz stopień oddziaływania kompresji stratnej MP3 na skuteczność rozpoznawania mówcy.
EN
The article presents the results of tests of an automatic speaker recognition system (ASR) conducted on the basis of the TIMIT commercial voice database. The research was conducted with the aim of using ASR as a system for automatic recognition of telephone callers. The impact of the number of voices in the database and the effect of lossy MP3 compression on the effectiveness of speaker recognition has also been shown.
9
Content available remote Sterowanie systemami inteligentnego budynku z wykorzystaniem komunikacji głosowej
PL
W artykule przedstawiono argumenty przemawiające za tym, że dla sterowania systemami technicznymi (a zwłaszcza informatycznymi) wchodzącymi w skład inteligentnego budynku bardzo korzystne jest stosowanie komunikacji głosowej. Wskazano zalety wykorzystania sygnału mowy zarówno przy komunikacji od systemów automatyki sterujących budynkiem do ludzi użytkujących te systemy, jak i komunikacji w przeciwną stronę, to znaczy od ludzi do sterowanych maszyn. O ile jednak zbudowanie systemu automatycznego powiadamiania ludzi (personelu obsługi budynku oraz użytkowników budynku) za pomocą syntetycznej mowy może być zrealizowane raczej łatwo i wygodnie, o tyle komunikacja w drugą stronę nastręcza wielu trudności. Generatory mowy syntetycznej są obecnie powszechnie dostępne, tanie i łatwe w użyciu. Dlatego w artykule tylko krótko wzmiankowano o zasadach ich budowy, nie zatrzymując na tym elemencie uwagi. Natomiast urządzenia do automatycznego rozpoznawania mowy są systemami o dużym stopniu komplikacji, a ich budowa i użytkowanie wymaga rozwiązania wielu problemów i pokonania wielu trudności. W pracy scharakteryzowano te trudności, a także krótko omówiono sposoby ich przezwyciężania, prowadząc w końcowej części artykułu do prezentacji całościowej koncepcji systemu automatycznego rozpoznawania mowy, mogącego znaleźć zastosowanie w sterowaniu systemami inteligentnego budynku.
EN
Paper presents advantages of the use of speech signal for communication between people and intelligent building control systems. In fact the list of advantages is long and include many items which together are worth efforts which are necessary when going to the practical applications of voice communication between man and machines in intelligent building. The communication under consideration can be realized in two directions. Easier but less useful is speech communication from machines to the people. This model of „automatic voice announcement” is very useful and easy for realization, because methods of automatic speech synthesis are good developed and available. Voice communication in opposite direction, e.g. form man to automatic system is much more complicated. In this case the system designer must solve several problems, selected and discussed in the paper. Nevertheless this effort should be done, because voice control is the best solution in many situations related to the intelligent building systems. In the paper general schema of speech recognition system is presented and discussed as well as some selected details of its realization are discussed for further use.
PL
Przedmiotem niniejszego artykułu jest parametryzacja sygnału mowy emocjonalnej przy użyciu współczynników preceptualnych. Dokonano porównania wydajności współczynników MFCC z współczynnikami HFCC oraz przynależnych im parametrów dynamicznych. Na podstawie bazy mowy emocjonalnej oceniono skuteczność wybranych współczynników.
EN
The following paper presents parameterization of emotional speech using perceptual coefficients. The comparison of MFCC to HFCC and adherent dynamic parameters is presented. Basing on emotional speech database efficiency of used coefficients was evaluated.
PL
W niniejszym artykule zaprezentowano zaimplementowany w środowisku Matlab system automatycznego rozpoznawania mówcy, wykorzystujący do opisu głosu unikatowy wektor cech, tzw. „odcisk głosu” (VP – ang. Voice Print). System używa w procesie klasyfikacji tzw. modele mieszanin Gaussowskich (GMM – ang. Gaussian Mixture Model). W końcowej części artykułu przedstawione są badania skuteczności rozpoznawania mówców dla różnych wariantów systemu oraz w różnych konfiguracjach jego parametrów.
EN
The paper discusses the system of automatic speaker recognition, implemented in Matlab environment and using a unique vector of features, the so-called voice print (VP) for voice description. The system uses the so-called Gaussian Mixture Models (GMM) for the classification process. The final section of the paper presents the studies on the efficiency of speaker recognition for various system versions and for different system parameter configurations.
EN
The paper presents the problem of automatic speaker recognition system. Automatic recognition of speaker is a process designed to determine, whether a particular statement belongs to the speaker. The speech signal is a carrier of both physiological and behavioral features. No two individuals sound identical, because their vocal tract shapes, larynx sizes, and other parts of their voice production organs are different. This paper contains a description of the speech signal analysis algorithms, designed based on normalized real cepstrum. The authors have attempted to select the optimal set of parameters describing the speaker. The study has primarily focused on assessing applicability of the cepstral analysis of speech signal. In addition results of experiments are presented using a PCA method.
PL
W prezentowanym referacie poruszono problematykę systemu rozpoznawania mówcy. Automatyczne rozpoznawanie mówcy jest procesem mającym na celu określenie, czy dana wypowiedź należy do określonego mówcy. Sygnał mowy jest nośnikiem zarówno cech fizjologicznych, jak i behawioralnych. Nie ma dwóch identycznie brzmiących osób, ze względu na fakt występujących różnic w budowie krtani, głośni, traktu wokalnego oraz innych organów artykulacyjnych u każdego człowieka. Praca zawiera opis algorytmów analizy sygnału mowy opracowanych w oparciu o rzeczywiste cepstrum. Dzięki tej technice multiplikatywny związek pobudzenia i traktu głosowego zastąpiony zostaje związkiem addytywnym, co znacznie upraszcza separację obu składników. Autorzy podjęli się próby wyboru optymalnego zestawu cech charakteryzujących danego mówcę. Badania koncentrowały się przede wszystkim na ocenie użyteczności analizy cepstralnej sygnału mowy. Dodatkowo uzyskane wyniki eksperymentów przedstawiono przy pomocy metody PCA.
EN
Machine recognition of human emotional states is an essential part in improving man-machine interaction. During expressive speech the voice conveys semantic message as well as the information about emotional state of the speaker. The pitch contour is one of the most significant properties of speech, which is affected by the emotional state. Therefore pitch features have been commonly used in systems for automatic emotion detection. In this work different intensities of emotions and their influence on pitch features have been studied. This understanding is important to develop such a system. Intensities of emotions are presented on Plutchik's cone-shaped 3D model. The k Nearest Neighbor algorithm has been used for classification. The classification has been divided into two parts. First, the primary emotion has been detected, then its intensity has been specified. The results show that the recognition accuracy of the system is over 50% for primary emotions, and over 70% for its intensities.
PL
Artykuł prezentuje zagadnienie związane z rozpoznawaniem stanów emocjonalnych na podstawie analizy sygnału mowy. Na potrzeby badań stworzona została polska baza mowy spontanicznej, zawierająca wypowiedzi kilkudziesięciu osób, w różnym wieku i różnej płci. Na podstawie analizy sygnału mowy stworzono przestrzeń cech. Klasyfikację stanowi multimodalny mechanizm rozpoznawania, oparty na algorytmie kNN. Średnia poprawność: rozpoznawania wynosi 83%.
EN
The article presents the issue of emotion recognition from a speech signal. For this study, a Polish spontaneous database, containing speech from people of different age and gender, was created. Features were determined from the speech signal. The process of recognition was based on multimodal classification, related to kNN algorithm. The average of accuracy performance was up to 83%.
PL
W prezentowanym referacie przedstawiono problematykę systemów automatycznego rozpoznawania mówców (ASR – ang. Automatic Speakers Recognition) wraz z ich szczegółową klasyfikacją. Ze względu na to, że etap ekstrakcji cech ma decydujące znaczenie przy ocenie skuteczności systemów niezależnych od tekstu, dokonano przeglądu wybranych cech sygnału mowy istotnych z punktu widzenia ich przydatności w zadaniach automatycznego rozpoznawania mówców. Ponadto w referacie zaprezentowano przykładowe widma dźwięcznej głoski „ i” oraz dokonano oceny użyteczności reprezentacji częstotliwościowej sygnału mowy w automatycznych systemach rozpoznawania mówcy.
EN
The paper presents the problem of automatic speakers recognition (ASR) systems together with their detailed classification. Due to the fact, that the stage of feature extraction is crucial in assessing the effectiveness of text-independent systems, it was reviewed of selected characteristics of the speech signal relevant to their suitability to the tasks of automatic speaker recognition. In addition, the paper presents examples of the spectrums of resonant vowel "i", and assesses the usefulness of the spectral representation of a speech signal for ASR systems.
16
Content available Sieci Bayesa w rozpoznawaniu mowy
PL
Problematyka rozpoznawania mowy nie doczekała się, jak dotąd, kompleksowego rozwiązania. Współczesne efektywne systemy rozpoznawania mowy korzystają najczęściej z metod stochastycznych opartych na ukrytych modelach Markowa. Alternatywą dla nich mogą być sieci Bayesa, będące odpowiednią strukturą do formułowania modeli probabilistycznych, które cechują się jednocześnie precyzją oraz zwartością. Sieci Bayesa mogą reprezentować rozkład prawdopodobieństwa dowolnego zbioru zmiennych losowych. Mnogość dostępnych obecnie algorytmów i narzędzi obliczeniowych sprawia, że testowanie i wdrażanie nowych rozwiązań staje się mniej pracochłonne. Zalety te determinują duże możliwości wykorzystania sieci Bayesa do rozwiązywania praktycznych problemów również w zakresie rozpoznawania mowy.
EN
Speech recognition problem hasn't been fully-scaled solved till nowadays. Contemporary effective speech recognition systems mostly use stochastic methods based on Hidden Markov Models. Bayes networks can be alternative to them. BN are appropriate structures to formulate probabilistic models, which are simultaneously precise and compact. They can represent a probability distribution of arbitrary set of random variables. Variety of algorithms and computational tools which are available to use makes testing and implementing new solutions less demanding. Those advantages determine that Bayes networks have potential to be used in solving practical problems also in the area of speech recognition.
EN
In a person identification or verification, the prime interest is not in recognizing the words but determining who is speaking the words. In systems of person identification, a test of signal from an unknown speaker is compared to all known speaker signals in the set. The signal that has the maximum probability is identified as the unknown speaker. In security systems based on person identification and verification, faultless identification has huge meaning for safety. In systems of person verification, a test of signal from a known speaker is compared to recorded signals in the set, connected with a known tested persons label. There are more than one recorded signals for every user in the set. In aim of increasing safety, in this work it was proposed own approach to person verification, based on independent speech and facial asymmetry. Extraction of the audio features of person's speech is done using mechanism of cepstral speech analysis. The idea of improvement of effectiveness of face recognition technique was based on processing information regarding face asymmetry in the most informative parts of the face the eyes region.
EN
Anovel method for pitch estimation, based on Instantaneous Complex Frequency (ICF) [12]-[16] is considered. New interactive algorithm for analysis of ICF of speech signal is presented. Algorithm performance is compared with the performancesof other commonly used methods. This comparison proves method's accuracy and connection between ICF and pitch, particularly for narrowband-filtered speech signal.
PL
Rozważana jest nowa metoda estymacji tonu krtaniowego, oparta na Zespolonej Pulsacji Chwilowej (ZPCh). Zaprezentowany został nowy interaktywny algorytm analizy ZPCh sygnału mowy. Działanie algorytmu zostało porównane z działaniem innych powszechnie używanych metod. Porównanie dowodzi, że metoda jest dokładna oraz wskazuje na związek między ZPCh a tonem krtaniowym szczególnie dla wąskopasmowo-filtrowanego sygnału mowy.
PL
Opisano zagadnienia związane z realizacją systemu weryfikacji użytkownika na podstawie analizy jego wypowiedzi. Zaproponowano system, który realizowałby funkcje analogiczne do wprowadzania kodu PIN, ale przez wypowiadanie cyfr. System uczyłby się głosów użytkowników, a przy próbach uwierzytelnienia porównywał wypowiedź mówcy z wyszkolonym jego modelem. Jako metodę weryfikacji mówcy zaproponowano algorytm oparty na ukrytych modelach Markova (HMM), parametryzując sygnał mowy z wykorzystaniem parametrów melcepstrum. Do testów przygotowano bazę z nagraniami cyfr pochodzących od 20 mówców. Przeprowadzono eksperymenty z doborem parametrów modeli, z doborem długości sekwencji uczącej, próbując weryfikować mówcę właściwego i mówców niewłaściwych. Sprawdzano też przydatność poszczególnych cyfr do weryfikacji, a także zmienność poprawności weryfikacji w czasie. Po dobraniu optymalnych parametrów modeli i procesu uczenia system dla testowanych mówców działał bezbłędnie.
EN
The paper discusses issues related to designing a user verificatbn system based on analysis of usens speech. A system was proposed which is going to be a "spoken" equivalent of "keyboard" PIN code authorization system, i.e. the sequence of digits is pronounced by the user. The system is going to be trained using users1 voices, whiist during authorization process the questioned utterance would be compared with the previously trained model. An algorithm based on Hidden Markov Models (HMM) was proposed as speaker verification method; the speech signal was parameterized using melcepstrum coefficients. A corpus with multiple recordings of digits pronounced by 20 nathe Polish speakers was prepared for testing purposes. Several experiments were run to check model parameters, optimal training sequence length, by trying to verify both the correct speaker and the intruders. Performance of verification for diffierent digits was analyzed, so were changes in verifkaiion correctness in time. Hawing set optimal model and training process parameters, the system for the tested users was working correctly.
20
Content available remote Przetwarzanie sygnau mowy w systemach ASR
PL
W artykule przedstawiono typowy system automatycznego rozpoznawania mówcy ASR (zależny/niezależny od tekstu) i jego komponenty. Zaprezentowano również analizę sygnału mowy przy użyciu współczynników liniowego kodowania predykcyjnego oraz rozpoznawanie mówcy na podstawie ukrytych modeli Markova.
EN
In this paper author performance a typical system (text dependent/independent) and its components for automatic speaker recognition. Author presented also analysis of speech signal based on LPC parameters (Linear Predictive Coding) and recognition of speaker using the most popular method (based on Hidden Markov Models).
first rewind previous Strona / 2 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.