Ograniczanie wyników
Czasopisma help
Autorzy help
Lata help
Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 36

Liczba wyników na stronie
first rewind previous Strona / 2 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  sygnał mowy
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 2 next fast forward last
EN
The current reality is saturated with intelligent telecommunications solutions, and automatic speaker recognition systems are an integral part of many of them. They are widely used in sectors such as banking, telecommunications and forensics. The ease of performing automatic analysis and efficient extraction of the distinctive characteristics of the human voice makes it possible to identify, verify, as well as authorize the speaker under investigation. Currently, the vast majority of solutions in the field of speaker recognition systems are based on the distinctive features resulting from the structure of the speaker's vocal tract (laryngeal sound analysis), called physical features of the voice. Despite the high efficiency of such systems - oscillating at more than 95% - their further development is already very difficult, due to the fact that the possibilities of distinctive physical features have been exhausted. Further opportunities to increase the effectiveness of ASR systems based on physical features appear after additional consideration of the behavioral features of the speech signal in the system, which is the subject of this article.
2
Content available remote Speech sound detection employing deep learning
EN
The primary way of communication between people is speech, both in the form of everyday conversation and speech signal transmitted and recorded in numerous ways. The latter example is especially important in the modern days of the global SARS-CoV-2 pandemic when it is often not possible to meet with people and talk with them in person. Streaming, VoIP calls, live podcasts are just some of the many applications that have seen a significant increase in usage due to the necessity of social distancing. In our paper, we provide a method to design, develop, and test the deep learning-based algorithm capable of performing voice activity detection in a manner better than other benchmark solutions like the WebRTC VAD algorithm, which is an industry standard based mainly on a classic approach to speech signal processing.
PL
Celem pracy jest modyfikacja sygnału mowy, aby uzyskać zwiększenie poprawy obiektywnych wskaźników jakości mowy po zmiksowaniu sygnału użytecznego z szumem bądź z sygnałem zakłócającym. Wykonane modyfikacje sygnału bazują na cechach mowy lombardzkiej, a w szczególności na efekcie podniesienia częstotliwości podstawowej F0. Sesja nagraniowa obejmowała zestawy słów i zdań w języku polskim, nagrane w warunkach ciszy, jak również w obecności sygnałów zakłócających, tj. szumu różowego oraz tzw. gwaru (ang. babble speech), określanego też jako efekt „cocktail-party”. W ramach badań przetwarzano próbki mowy głosów męskich. W pracy wykazano, że podniesienie częstotliwości podstawowej skutkuje zwiększonymi wartościami wskaźnika jakości mowy, mierzonymi przy użyciu standardu PESQ (Perceptual Evaluation of Speech Quality).
EN
The aim of the work is to modify the speech signal in order to improve objective speech quality indicators after mixing the useful signal with noise or with an interfering signal. Modifications made to the signal are based on the characteristics of the Lombard speech, and in particular on the effect of raising the fundamental frequency F0. The recording session included sets of words and sentences in Polish, recorded in silence, as well as in the presence of interfering signals, i.e. pink noise and so-called babble speech, also referred to as the "cocktail-party" effect. As a part of the research, speech samples were processed - both sentences and words spoken by men. The study shows that raising the fundamental frequency results in increased values of the speech quality index, measured using the PESQ (Perceptual Evaluation of Speech Quality) standard.
PL
Artykuł dotyczy zagadnienia bezpieczeństwa systemów biometrii głosowej, czyli systemów wykorzystujących automatyczną weryfikację mówcy (Automatic Speaker Verification - ASV). Szczególną uwagę poświęcono zagrożeniom atakami przez osoby podszywające się pod inną tożsamość (spoofing). Na wstępie omówiono używane obecnie algorytmy służące do biometrii głosowej. Następnie omówiono główne rodzaje ataków, takich jak atak z użyciem syntezy mowy, konwersji głosu czy odtworzenia nagrania. Przedstawiono również metody, które mają na celu ochronę przed tymi zagrożeniami, wraz z oceną ich skuteczności.
EN
This article concerns the problem of the security of voice biometric systems, i.e., systems which provide automatic speaker verification (ASV). Special attention is given to vulnerability to spoofing attacks. First, the state-of-the-art voice biometric systems are presented, followed by the most common types of spoofing attacks, such as attacks using speech synthesis, voice conversion or replay. Next, the most common spoofing countermeasures are described, together with the assessment of their efficiency.
PL
Artykuł prezentuje próbę analizy zadowolenia mówcy na podstawie sygnału mowy. Na podstawie rzeczywistych rozmów z call center stworzono korpus mowy oraz przeprowadzono wstępne testy, których celem było określenie możliwości automatycznego wykrywania niezadowolenia w głosie. Podczas eksperymentów 1179 nagrań poddano automatycznej klasyfikacji, uzyskując ponad 83% dokładności przy detekcji niezadowolenia niewerbalnego.
EN
The paper presents an approach to speaker’s satisfaction analysis based on speech signal. A corpus of emotional speech from real call center recordings was created. Preliminary tests were performed to estimate possibility of automatic detection of dissatisfaction based on speech analysis. 1179 recordings were classified obtaining 83% accuracy when detecting non-verbal dissatisfaction.
6
Content available remote Identyfikacja głosowa w otwartym zbiorze mówców
PL
W artykule zaprezentowano wyniki badań systemu automatycznego rozpoznawania mówcy, przeprowadzane z wykorzystaniem komercyjnej bazy głosów TIMIT. Głównym celem badań było rozszerzenie funkcjonalności systemu rozpoznawania mówcy poprzez dodanie układu progowego, a tym samym umożliwienie identyfikacji w otwartym zbiorze mówców. Przedstawiono różne warianty zastosowanego układu progowego oraz dokonano próby wzbogacenia wektora cech dystynktywnych o różnicę częstotliwości podstawowej wyznaczanej dwiema różnymi metodami.
EN
In the article there are presented the test results of the automatic speaker recognition system, conducted while using the commercial voice basis TIMIT. The main purpose of the test was to extend the functionality of the speaker recognition system by adding the threshold based system, and consequently to enable the identification in the open set of speakers. There are presented different application variants of the threshold based system and there is an attempt to enrich the vector of distinctive features with the fundamental frequency difference determined with two different methods.
PL
W artykule przedstawiono wyniki doświadczeń rozpoznawania emocji na podstawie sygnału mowy z wykorzystaniem współczynników percepcyjnych. Badania rozpoczęła analiza współczynników MFCC, następnie pulę tę poszerzono o współczynniki, takie jak BFCC, HFCC, PLP, RPLP oraz RASTA PLP, szeroko stosowane w badaniach nad rozpoznawaniem mowy, natomiast pomijane w rozpoznawaniu emocji. Analizę przeprowadzono dla dwóch różnych korpusów: bazy mowy spontanicznej i odegranej. Przy użyciu klasyfikatora k-NN, wybrano grupę współczynników najlepiej reprezentujących stany emocjonalne.
EN
The following paper presents parameterization of emotional speech using perceptual coefficients as well as a comparison of Mel Frequency Cepstral Coefficients (MFCC), Bark Frequency Cepstral Coefficients (BFCC), Perceptual Linear Prediction Coefficients (PLP) and Revised Perceptual Linear Prediction Coefficients (RPLP). Analysis was performed on two different Polish databases: acted out and spontaneous speech corpora. Emotion classification was performed using k-NN algorithm.
PL
W artykule przedstawiono wyniki badań automatycznego systemu rozpoznawania mówcy (ASR – ang. Automatic Speaker Recognition), przeprowadzonych na podstawie komercyjnej bazy głosów TIMIT. Badania prowadzone były pod kątem zastosowania ASR jako systemu automatycznego rozpoznawania rozmówcy telefonicznego. Przedstawiono również wpływ liczebności bazy głosów oraz stopień oddziaływania kompresji stratnej MP3 na skuteczność rozpoznawania mówcy.
EN
The article presents the results of tests of an automatic speaker recognition system (ASR) conducted on the basis of the TIMIT commercial voice database. The research was conducted with the aim of using ASR as a system for automatic recognition of telephone callers. The impact of the number of voices in the database and the effect of lossy MP3 compression on the effectiveness of speaker recognition has also been shown.
EN
The paper presents issues of time-delay estimation with application to the direction of sound arrival discovering. During the estimation of the time-delay from a voice signal propagated in room acoustic a significant number of false results occur. In order to reduce the number of false estimates the averaging of cross-correlation functions is proposed. The result of the experiment in an office room shows that the direction of the voice arrival can be estimated much more precisely.
PL
Poznań University of Technology, Chair of Control and Systems Engineering Politechnika Poznańska, Katedra Sterowania i Inżynierii Systemów. Artykuł prezentuje zagadnienie estymacji czasu opóźnienia w zastosowaniu do określania kierunku nadejścia dźwięku. Estymacja czasu opóźnienia występującego w sygnale mowy propagowanym w pomieszczeniu dostarcza znaczącą liczbę fałszywych wyników. W celu redukcji liczby błędnych estymat zaproponowano uśrednianie funkcji korelacji wzajemnej. Wynik eksperymentu w pomieszczeniu biurowym pokazuje, że uzyskana dokładność estymacji kierunku nadejścia dźwięku mówcy jest znacznie lepsza.
PL
Przedmiotem niniejszego artykułu jest parametryzacja sygnału mowy emocjonalnej przy użyciu współczynników preceptualnych. Dokonano porównania wydajności współczynników MFCC z współczynnikami HFCC oraz przynależnych im parametrów dynamicznych. Na podstawie bazy mowy emocjonalnej oceniono skuteczność wybranych współczynników.
EN
The following paper presents parameterization of emotional speech using perceptual coefficients. The comparison of MFCC to HFCC and adherent dynamic parameters is presented. Basing on emotional speech database efficiency of used coefficients was evaluated.
PL
W niniejszym artykule zaprezentowano zaimplementowany w środowisku Matlab system automatycznego rozpoznawania mówcy, wykorzystujący do opisu głosu unikatowy wektor cech, tzw. „odcisk głosu” (VP – ang. Voice Print). System używa w procesie klasyfikacji tzw. modele mieszanin Gaussowskich (GMM – ang. Gaussian Mixture Model). W końcowej części artykułu przedstawione są badania skuteczności rozpoznawania mówców dla różnych wariantów systemu oraz w różnych konfiguracjach jego parametrów.
EN
The paper discusses the system of automatic speaker recognition, implemented in Matlab environment and using a unique vector of features, the so-called voice print (VP) for voice description. The system uses the so-called Gaussian Mixture Models (GMM) for the classification process. The final section of the paper presents the studies on the efficiency of speaker recognition for various system versions and for different system parameter configurations.
EN
The paper presents the problem of automatic speaker recognition system. Automatic recognition of speaker is a process designed to determine, whether a particular statement belongs to the speaker. The speech signal is a carrier of both physiological and behavioral features. No two individuals sound identical, because their vocal tract shapes, larynx sizes, and other parts of their voice production organs are different. This paper contains a description of the speech signal analysis algorithms, designed based on normalized real cepstrum. The authors have attempted to select the optimal set of parameters describing the speaker. The study has primarily focused on assessing applicability of the cepstral analysis of speech signal. In addition results of experiments are presented using a PCA method.
PL
W prezentowanym referacie poruszono problematykę systemu rozpoznawania mówcy. Automatyczne rozpoznawanie mówcy jest procesem mającym na celu określenie, czy dana wypowiedź należy do określonego mówcy. Sygnał mowy jest nośnikiem zarówno cech fizjologicznych, jak i behawioralnych. Nie ma dwóch identycznie brzmiących osób, ze względu na fakt występujących różnic w budowie krtani, głośni, traktu wokalnego oraz innych organów artykulacyjnych u każdego człowieka. Praca zawiera opis algorytmów analizy sygnału mowy opracowanych w oparciu o rzeczywiste cepstrum. Dzięki tej technice multiplikatywny związek pobudzenia i traktu głosowego zastąpiony zostaje związkiem addytywnym, co znacznie upraszcza separację obu składników. Autorzy podjęli się próby wyboru optymalnego zestawu cech charakteryzujących danego mówcę. Badania koncentrowały się przede wszystkim na ocenie użyteczności analizy cepstralnej sygnału mowy. Dodatkowo uzyskane wyniki eksperymentów przedstawiono przy pomocy metody PCA.
PL
Artykuł prezentuje zagadnienie związane z rozpoznawaniem stanów emocjonalnych na podstawie analizy sygnału mowy. Na potrzeby badań stworzona została polska baza mowy spontanicznej, zawierająca wypowiedzi kilkudziesięciu osób, w różnym wieku i różnej płci. Na podstawie analizy sygnału mowy stworzono przestrzeń cech. Klasyfikację stanowi multimodalny mechanizm rozpoznawania, oparty na algorytmie kNN. Średnia poprawność: rozpoznawania wynosi 83%.
EN
The article presents the issue of emotion recognition from a speech signal. For this study, a Polish spontaneous database, containing speech from people of different age and gender, was created. Features were determined from the speech signal. The process of recognition was based on multimodal classification, related to kNN algorithm. The average of accuracy performance was up to 83%.
PL
W prezentowanym referacie przedstawiono problematykę systemów automatycznego rozpoznawania mówców (ASR – ang. Automatic Speakers Recognition) wraz z ich szczegółową klasyfikacją. Ze względu na to, że etap ekstrakcji cech ma decydujące znaczenie przy ocenie skuteczności systemów niezależnych od tekstu, dokonano przeglądu wybranych cech sygnału mowy istotnych z punktu widzenia ich przydatności w zadaniach automatycznego rozpoznawania mówców. Ponadto w referacie zaprezentowano przykładowe widma dźwięcznej głoski „ i” oraz dokonano oceny użyteczności reprezentacji częstotliwościowej sygnału mowy w automatycznych systemach rozpoznawania mówcy.
EN
The paper presents the problem of automatic speakers recognition (ASR) systems together with their detailed classification. Due to the fact, that the stage of feature extraction is crucial in assessing the effectiveness of text-independent systems, it was reviewed of selected characteristics of the speech signal relevant to their suitability to the tasks of automatic speaker recognition. In addition, the paper presents examples of the spectrums of resonant vowel "i", and assesses the usefulness of the spectral representation of a speech signal for ASR systems.
15
Content available Sieci Bayesa w rozpoznawaniu mowy
PL
Problematyka rozpoznawania mowy nie doczekała się, jak dotąd, kompleksowego rozwiązania. Współczesne efektywne systemy rozpoznawania mowy korzystają najczęściej z metod stochastycznych opartych na ukrytych modelach Markowa. Alternatywą dla nich mogą być sieci Bayesa, będące odpowiednią strukturą do formułowania modeli probabilistycznych, które cechują się jednocześnie precyzją oraz zwartością. Sieci Bayesa mogą reprezentować rozkład prawdopodobieństwa dowolnego zbioru zmiennych losowych. Mnogość dostępnych obecnie algorytmów i narzędzi obliczeniowych sprawia, że testowanie i wdrażanie nowych rozwiązań staje się mniej pracochłonne. Zalety te determinują duże możliwości wykorzystania sieci Bayesa do rozwiązywania praktycznych problemów również w zakresie rozpoznawania mowy.
EN
Speech recognition problem hasn't been fully-scaled solved till nowadays. Contemporary effective speech recognition systems mostly use stochastic methods based on Hidden Markov Models. Bayes networks can be alternative to them. BN are appropriate structures to formulate probabilistic models, which are simultaneously precise and compact. They can represent a probability distribution of arbitrary set of random variables. Variety of algorithms and computational tools which are available to use makes testing and implementing new solutions less demanding. Those advantages determine that Bayes networks have potential to be used in solving practical problems also in the area of speech recognition.
PL
Artykuł prezentuje wyniki badań eksperymentalnych analizy parametrów sygnału mowy w procesie identyfikacji mówcy na podstawie krótkich wypowiedzi. Eksperymenty przeprowadzono w środowisku MATLAB. Pokazano wydajność działania oprogramowania oraz skuteczność identyfikacji przy zastosowaniu kwantyzacji wektorowej. Implementacja systemu identyfikacji mówcy, działającego jako system wbudowany, wykorzystuje moduł ze zmiennoprzecinkowym procesorem sygnałowym TMS320C6713 zaprogramowanym z użyciem środowiska Code Composer Studio.
EN
This paper presents results of experimental analysis of speech signal parameters for speaker identification based on short utterances. The experiments were performed in the MATLAB environment, showing a performance of the software and an effectiveness of the identification based on the vector quantization. Implementation of the speaker identification system, working as an embedded system, uses an electronic module with the floating-point TMS320C6713 digital signal processor programmed in the Code Composer Studio environment.
EN
The paper regards the possibility of using new numerical features extracted from the phase spectrum of a speech signal for voice quality estimation in acoustic analysis for medical purposes. This novel approach does not require detection or estimation of the fundamental frequency and works on all types of speech signal: euphonic, dysphonic and aphonic as well. The experiment results presented in the paper are very promising: the developed F0-independant voice features are strongly correlated with two voice quality indicators: grade of hoarseness G (r>0.8) and roughness R (r>0.75) from GIRBAS scale, and exceed the standard voice parameters: jitter and shimmer.
PL
Artykuł dotyczy możliwości ekstrakcji cech numerycznych z widma fazowego sygnału mowy w celu wykorzystania w analizie akustycznej na potrzeby medyczne. Podejście to umożliwia uzależnienie analizy akustycznej od zawodnych metod wykrywania/wyznaczania częstotliwości podstawowej (tonu krtaniowego) i dzięki temu przeznaczone jest do badania wszystkich typów sygnału mowy (również afonicznych). Wyniki eksperymentu są bardzo obiecujące - proponowane cechy Ph1 i Ph2 są silnie skorelowane z dwoma kategoriami percepcyjnymi: stopniem chrypki (r>0.8) oraz szorstkością głosu (r>0.75) ze skali GIRBAS, wykazując silniejsze znaczenie diagnostyczne niż znane i stosowane od dawna wskaźniki jitter i shimmer. Proponowane podejście oprócz skuteczności charakteryzuje się szeregiem dodatkowych korzyści: algorytm metody z powodu niskiej złożoności jest szybki i niekosztowny, interpretacja matematyczna jest prosta i jednoznaczna oraz spójna z obserwowanym obrazem widma fazowego głosu. Ponadto uniezależnienie od detekcji częstotliwości podstawowej sprawia, że algorytm jest deterministyczny oraz efektywny dla każdego typu sygnału mowy.
EN
Anovel method for pitch estimation, based on Instantaneous Complex Frequency (ICF) [12]-[16] is considered. New interactive algorithm for analysis of ICF of speech signal is presented. Algorithm performance is compared with the performancesof other commonly used methods. This comparison proves method's accuracy and connection between ICF and pitch, particularly for narrowband-filtered speech signal.
PL
Rozważana jest nowa metoda estymacji tonu krtaniowego, oparta na Zespolonej Pulsacji Chwilowej (ZPCh). Zaprezentowany został nowy interaktywny algorytm analizy ZPCh sygnału mowy. Działanie algorytmu zostało porównane z działaniem innych powszechnie używanych metod. Porównanie dowodzi, że metoda jest dokładna oraz wskazuje na związek między ZPCh a tonem krtaniowym szczególnie dla wąskopasmowo-filtrowanego sygnału mowy.
EN
The article presents implementation of Isolated Word Boundaries Recognition Algorithm and Mel Frequency Cepstral Coefficients Acquisition Algorithm. The first algorithm enables application to reduce unnecessary data processing. The second algorithm generates vectors of coefficients that are used in automatic speech recognition and sound classification.
20
Content available remote Przetwarzanie sygnau mowy w systemach ASR
PL
W artykule przedstawiono typowy system automatycznego rozpoznawania mówcy ASR (zależny/niezależny od tekstu) i jego komponenty. Zaprezentowano również analizę sygnału mowy przy użyciu współczynników liniowego kodowania predykcyjnego oraz rozpoznawanie mówcy na podstawie ukrytych modeli Markova.
EN
In this paper author performance a typical system (text dependent/independent) and its components for automatic speaker recognition. Author presented also analysis of speech signal based on LPC parameters (Linear Predictive Coding) and recognition of speaker using the most popular method (based on Hidden Markov Models).
first rewind previous Strona / 2 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.