W artykule przedstawiono integrację układów elektronicznych z ciałem ludzkim na przykładzie badań prowadzonych w Pracowni Układów Elektronicznych i Przetwarzania Sygnałów (PUEPS) w Politechnice Poznańskiej. Omówiono poprawę zrozumiałości mowy, w tym osób laryngektomowanych, testy audiometryczne, generację wielotonów nieharmonicznych, badania bioimpedancyjne, detekcję punktów akupunkturowych, terapię dźwiękiem oraz diagnostykę akustyczną, a także automatyczne rozpoznawanie mówcy.
In this article an integration of electronic systems with human body has been presented. It is based on the research conducted by the Division of Signal Processing and Electronic Systems (DSP&ES) at Poznan University of Technology. Some essential issues have been discussed such as: speech intelligibility enhancement including laryngectomees’ pseudospeech/pseudowhisper, audiometric tests, non-harmonic multitones generation, bioimpedance studies, acupuncture points detection, sound therapy and acoustic diagnostics, as well as automatic speaker recognition.
In this article the text independent speaker verification problem is considered. The approach, in which SVM and prosodic features are employed, has been chosen. Prosodic features are modelled by Legendre polynomials. In order to map a sequence of prosodic vectors to the fixed dimensional vector, three kernels were used: VQ kernel, GMM supervector kernel, and Fisher kernel. These three kernels were compared and their combination was evaluated. Finally, a combination with spectral features was investigated.
W artykule jest rozważany problem automatycznej weryfikacji mówcy niezależnej od tekstu. Przedstowiono system oparty na maszynach wektorów nośnych (SVM - support vector machines) oraz cechach prozodycznych. Cechy prozodyczne są modelowane z wykorzystaniem wielomianów Legendre’a. W celu przekształcenia wektorów prozodycznych na wektory o ustalonej liczbie elementów zasotosowano trzy funkcje jądra: VQ, superwektor GMM oraz jądro Fishera. Wymienione funkcje zostały porównane oraz przetestowano skuteczność systemu w przypadku kombinacji wektorów. Zbadano także skuteczność systemu w połączeniu z cechami spektralnymi.
This paper presents results of speaker recognition experiments using short Polish sentences. We developed and analyzed various parameters in speech signal modeling in order to first maximize identification effectiveness and second to compare VQ (vector quantization) and GMM (Gaussian mixture model) approaches. For the research and experiments we created and exploited a database, containing specially prepared short Polish speech sequences typical for emergency phone calls.
Artykuł prezentuje wyniki badań nad rozpoznawaniem mówcy na podstawie krótkich wypowiedzi w języku polskim. Przeanalizowano dobór parametrów modelowania sygnału mowy w celu maksymalizacji skuteczności identyfikacji oraz porównania rozwiązań wykorzystujących kwantyzację sektorową VQ oraz sumę rozkładów normalnych GMM. Do badań eksperymentalnych utworzono i wykorzystano przygotowaną przez autorów bazę nagrań zawierającą specjalnie dobrane krótkie wypowiedzi w języku polskim, typowe dla rozmów telefonicznych na numery alarmowe.
In this paper a system for speaker recognition and respective experiments based on telephone speech signal quality are presented and reported. First, the speech signals are transmitted using regular GSM or analog telephone systems. The recorded signals are used as input for the Gaussian mixture model based speaker recognition system. The results suggest that the parameters of MFCC extraction should be tailored to the signal quality.
Artykuł prezentuje eksperymenty z systemem rozpoznawania mówcy działającym na sygnale mowy o jakości telefonicznej. Najpierw sygnał mowy został przetransmitowany przez rzeczywisty kanał telefoniczny zawierający zarówno kodek GSM jak i standard analogowy. Tak uzyskany sygnał został zapisany i wykorzystany do testowania rozpoznawania mówcy opartego na modelu liniowych mieszanin Gaussowskich. Uzyskane wyniki wskazują, że parametry obliczania współczynników MFCC powinny być dopasowane do jakości sygnału.
This paper reports results of experiments carried out in relation with the research devoted to creation and maintenance of a database of telephone calls to emergency services. This database is comprised of concise but unambiguous information about all contained emergency calls and of tools for efficient data searching. We present the tools for real-time data registration, off-line metadata preparation, and searching for particular telephone calls.
Artykuł prezentuje rezultaty eksperymentów związanych z badaniami dotyczącymi tworzenia i zarządzania bazą danych rozmów na telefony alarmowe. Prezentowana baza zawiera spójne, ale równocześnie jednoznaczne informacje na temat przeprowadzonych rozmów. Dodatkowo jest ona wyposażona w mechanizmy szybkiego i efektywnego przeszukiwania, wykorzystujące zróżnicowane metody, w tym metadane. Przedstawiono eksperymentalne stanowisko do zautomatyzowanej rejestracji rozmów, narzędzia do przetwarzania danych, tworzenia metadanych w trybie off-line, a także wyszukiwania zdarzeń i rozmówców.
In this paper results of experiments with the prototype speaker recognition system based on Gaussian mixture model (GMM) and mel-cepstral coefficients (MFCCs) are presented for Polish Corpora database [4]. The minimum amount of data to train a reliable model and the minimum length of a signal to recognize speakers have been determined. Furthermore, the speaker discriminative properties of Polish phonemes have been investigated. The phonemes with the best speaker discriminative properties have been determined.
Przedstawiono eksperymenty identyfikacji mówcy za pomocą prototypowego systemu rozpoznawania mowy na podstawie sumy rozkładów normalnych (GMM) i współczynników mel-cepstralnych, (MFCC), uzyskanych z wykorzystaniem polskojęzycznej bazy Corpora [4]. W eksperymentach zbadano minimalną ilość danych potrzebnych do wytrenowania wiarygodnego modelu oraz długość sygnału wymaganą do poprawnej klasyfikacji. Ponadto przebadano dyskryminacyjne właściwości polskich fonemów do identyfikacji mówcy. Wyodrębniono fonemy, które w największym stopniu przyczyniają się do poprawnego rozpoznawania.
This paper describes a method for speech feature extraction using morphological signal processing based on the so-called "slope transformation". The proposed approach has been used to extract the signal upper spectral envelope. Results of experiments of the automatic speech recognition (ASR), which were undertaken to check the performance of the presented method, have shown some evident improvements of the effectiveness of recognition of isolated words, especially for women voices. The proposed method was combined with the speech enhancement and then evaluated. Results showed that for low signal-to-noise ratios the denoising algorithms used in the preprocessing stage bring additional recognition accuracy increase.
W artykule przedstawiono metodę ekstrakcji cech mowy za pomocą morfologicznego przetwarzania sygnałów, wykorzystującego tzw. transformację nachyleniową. Zaproponowane ujęcie polega na wyznaczeniu górnej obwiedni widmowej. Rezultaty eksperymentów automatycznego rozpoznawania mowy, które przeprowadzono w celu zbadania skuteczności zaprezentowanej metody, wykazały poprawę efektywności rozpoznawania izolowanych słów, zwłaszcza w przypadku głosów żeńskich. Metodę rozpoznawania powiązano z poprawą jakości mowy, a następnie dopiero oceniano skuteczność rozpoznawania. Otrzymane rezultaty wskazały na poprawę dokładności rozpoznawania mowy po jej wstępnym odszumieniu.
Psychophysical tuning curves (PTCs) are usually measured by determining the level of a narrowband noise required just to mask a fixed, low-level tone, for several masker centre frequencies. PTCs are often used to assess the frequency selectivity of the auditory system and they have also been used to detect “dead regions” in the cochlea, especially to define the frequency boundaries of the dead regions. However, the traditional method of PTC determination is too-time consuming for use in clinical practice. This paper is concerned with further evaluation and refining of a fast method for determining PTCs, based on the use of a sweeping band of noise. The fixed sinusoidal signal is turned on and off at regular time intervals and is masked by a band of noise, whose centre frequency sweeps over a range of two octaves during four minutes. A Békésy method is used to determine the masker level required for threshold; the subject presses a button to indicate that the signal is inaudible, and releases it when the signal is audible, and the masker level is adjusted accordingly by a computer. The fast method was evaluated using normally hearing subjects and showed good agreement with the results obtained with the use of the traditional method. The shapes of the PTCs, the slopes of the lowand high-frequency skirts, and the positions of the minima were very similar when the fast and the traditional methods were used. However from the point of view of clinical usage the determination of the PTC tip, that is the masker centre frequency at which the masker level is lowest is the most important issue. The position of the PTC minimum with reference to the tone frequency indicates the presence of a dead region. Therefore, in this study several methods of the PTC minimum estimation were evaluated and compared. It has turned out that a fitting method of a single PTC by means of a square function yielded the best results. The method gave the smallest standard deviation, the highest kurtosis and the narrowest range of the PTC minima.
