Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 6

Liczba wyników na stronie
first rewind previous Strona / 1 next fast forward last
Wyniki wyszukiwania
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 1 next fast forward last
EN
The cancellation of acoustic crosstalk is employed to enhance the stereo image in mobile listening conditions. A practical setup employing a mobile computer is employed. The adaptation of the crosstalk cancellation filter to the position of the listener’s head is featured. The measurement evaluating the possibility of practical application of the method are described. The head and torso simulator was used for measurements. The spatial and spectral efficiency of the algorithm was evaluated. The results of the measurements show that the algorithm is effective in a limited frequency range and in a narrow sweet spot.
PL
Przedstawiono zastosowanie algorytmu usuwania przesłuchu akustycznego w celu poprawy percepcji przestrzennej dźwięku przy odsłuchu w warunkach mobilnych. Wykorzystano realistyczne warunki sprzętowe z wykorzystaniem typowego komputera przenośnego. Zastosowano adaptację algorytmu usuwania przesłuchu do zmian położenia głowy słuchacza. W toku eksperymentów zbadano możliwość praktycznego zastosowania metody. Do pomiarów wykorzystano symulator głowy i torsu. Zbadano efektywność algorytmu dla różnego obszaru i zakresu częstotliwości. Wyniki dowodzą, że metoda osiąga poprawny efekt dla ograniczonego zakresu częstotliwości i wąskiego obszaru.
EN
The article presents the speech synthesis integrated into the eye gaze tracking system. This approach can significantly improve the quality of life of physically disabled people who are unable to communicate. The virtual keyboard (QWERTY) is an interface which allows for entering the text for the speech synthesizer. First, this article describes a methodology of determining the fixation point on a computer screen. Then it presents an algorithm of concatenative speech synthesis used in the engineered solution. Both modules of the system described were created by the Multimedia Systems Department. The work of the entire system was verified in real conditions. Conclusions focusing on the usefulness of this approach are provided.
PL
W artykule przedstawiono zastosowanie syntezy mowy w zintegrowanym w systemie śledzenia punktu fiksacji wzroku. Takie podejście w znaczący sposób może przyczynić się do poprawy jakości życia osób niepełnosprawnych fizycznie, które nie mają możliwości komunikowania się. Interfejsem umożliwiającym wprowadzanie do syntetyzera mowy tekstu jest wirtualna klawiatura z rozkładem klawiszy QWERTY. W pierwszej części artykułu przedstawiono sposób wyznaczania punktu fiksacji wzroku na monitorze komputerowym za pomocą stworzonego w Katedrze Systemów Multimedialnych systemu o nazwie Cyber-Oko. W drugiej części zaprezentowano algorytm syntezy mowy konkatenacyjnej, który jest wykorzystywany w zaproponowanym rozwiązaniu. Sprecyzowano odpowiednie wnioski na temat użyteczności takiego podejścia oraz zweryfikowano pracę systemu w warunkach rzeczywistych.
EN
A Text-To-Speech synthesizer of Polish language with automatic prosodic modification is presented. The methods for automatic determination of accent and intonation are introduced. The application of prosodic speech processing algorithms to Text-To-Speech synthesis is presented. The impact of these modifications on the naturalness of the synthesized signal is discussed. The applied method is based on the TD-PSOLA algorithm. The developed Text-To-Speech Synthesizer is used in applications employing multimodal computer interfaces.
PL
Przedstawiono system syntezy mowy polskiej z funkcją automatycznej modyfikacji prozodii wypowiedzi. Opisane zostały metody automatycznego wyznaczania akcentu i intonacji wypowiedzi. Przedstawiono zastosowanie algorytmów przetwarzania sygnału mowy w procesie kształtowania prozodii. Omówiono wpływ zastosowanych modyfikacji na naturalność brzmienia syntezowanego sygnału. Zastosowana metoda poarta jest na algorytmie TD-PSOLA. Opracowany system syntezy mowy znajduje zastosowanie w aplikacjach wykorzystujących multimodalne interfejsy komputerowe.
EN
A method for precise sound sources detection and localization in interiors is presented. Acoustic vector sensors, which provide multichannel output signals of acoustic pressure and particle velocity were employed. Methods for detecting acoustic events are introduced. The algorithm for localizing sound events in the audience is presented. The system set up in a lecture hall, which serves as a demonstrator of the proposed technology, is described. The accurracy of the proposed method is evaluated by the described measurement results. The analysis of the results is followed by conclusions pertaining the usability of the proposed system. The concept of the multimodal audio-visual detection of events in the audience is also introduced.
PL
Nowoczesne systemy monitoringu działają na zasadzie automatycznego wykrywania niebezpiecznych zdarzeń na podstawie analizy obrazu z kamer i dźwięku z mikrofonów. W niniejszej publikacji skupiono się na pierwszym etapie rozpoznawania zdarzeń dźwiękowych, jakim jest parametryzacja dźwięku. Podstawą do skutecznego działania systemu jest znalezienie parametrów, których zmienność najlepiej odzwierciedla cechy charakterystyczne dźwięku związane ze zdarzeniami niebezpiecznymi. W tym celu stworzono zbiór 28 parametrów, w którym znajdują się parametry opisane w standardzie MPEG-7 i parametry zdefiniowane specjalnie dla tego zastosowania. Przedstawiono metody obliczania parametrów z postaci czasowej lub widmowej sygnału. Następnie zbiór ten został sprawdzony poprzez badanie skuteczności klasyfikacji przykładowych próbek dźwiękowych przy pomocy klasyfikatora opartego o maszynę wektorów wspierających (SVM).
EN
Modern surveillance systems employ both acoustic and video signal analysis for dangerous event detection. Calculation of parameters is the first stage of a sound recognition algorithm. The key to efficient sound classification is to define parameters, which accurately reflect the differences between recognized classes. A method for parametrization of sounds for recognizing hazardous sound events is presented. A set of 28 parameters is described, which contains dedicated signal features and MPEG-7 descriptors chosen on the basis of experiments and statistical analysis.. Methods for calculation of features are presented. A classifier using the described parameters is tested, yielding high accuracy results.
6
PL
Przedstawiono system syntezy mowy polskiej uwzględniający w sposób automatyczny prozodię, tj. profil intonacyjny, tempo i akcenty wypowiedzi. Zastosowano syntezę konkatenacyjną z wykorzystaniem jednostek mowy zawierających przejścia między dwoma głoskami – difonów. Opisano poszczególne moduły wchodzące w skład syntetyzera: przetwarzanie tekstu, bazę jednostek mowy oraz algorytmy związane z tworzeniem syntetyzowanego sygnału. Przeprowadzono testy subiektywne potwierdzające wysoką zrozumiałość generowanej mowy i skuteczność modyfikacji prozodycznych. Przedstawiono możliwość zastosowania opisanego systemu w aplikacjach edukacyjnych lub terapeutycznych oraz interfejsach multimodalnych przeznaczonych dla osób niepełnosprawnych.
EN
The paper presents a Text-To-Speech synthesizer of Polish language employing automatic prosodic modification. The method used for synthesizing the speech signal is concatenative synthesis using constant-length segments – diphones. The subsequent modules of the synthesizer are introduced. Employed language analysis and signal processing techniques are described. The synthesized speech yields high intelligibility and naturalness, which is proved by auditory tests. The proposed system can be used in educational and therapeutic applications or multimodal interfaces for disabled people.
first rewind previous Strona / 1 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.