Praca dotyczy rejestracji i parametryzacji alofonów w języku angielskim z wykorzystaniem dwóch modalności. W badaniach dokonano rejestracji wypowiedzi w języku angielskim mówców, których znajomość tego języka odpowiada poziomowi rodowitego mówcy. W kolejnym etapie wyodrębnione zostały alofony z nagrań fonicznych i odpowiadające im sygnały wizyjne. W procesie tworzenia wektorów cech wykorzystano odrębne systemy parametryzacji, osobne dla każdej modalności. Do parametryzacji sygnału fonicznego użyto typowych deskryptorów stosowanych w obszarze rozpoznawania mowy i muzyki. W nagraniach z systemu przechwytywania ruchu zaproponowano własne rozwiązania. Do klasyfikacji alofonów wykorzystano sieci neuronowe oraz maszynę wektorów nośnych w podejściu jednoi dwumodalnym. Stwierdzono, że skuteczność rozpoznawania wzrasta wraz z wykorzystaniem więcej niż jednej modalności.
The paper concerns the recording and parameterization of allophones in English using two modalities. In the research, the English speakers' statements were recorded. Those speakers’s language proficiency corresponds to the level of the native speaker. In the next stage, allophones from audio recordings and corresponding visual signals were isolated. In the process of creating feature vectors, separate parameterization systems were used for each modality. For the audio signal parameterization, typical descriptors used in the area of speech and music recognition were chosen. In the case of the motion capture system own solutions were proposed. For the purpose of allophones classification, neural networks and the suport vector machine were used in both approaches. It has been found that the recognition efficiency increases with the use of more than one modality.
W referacie przedstawiono wybrane sensory akustyczne i wizyjne i propozycje ich zastosowania do wykrywania i lokalizacji obiektów i zdarzeń z pokładu drona. Opisano pokrótce zastosowane algorytmy analizy strumieni, przedstawiono wyniki badań stworzonych prototypów i metod, zaimplementowanych na wydajnych układach GPU.
The paper presents acoustic and visual sensors and their application to detection and localization of objects and events on board of unmanned aerial vehicles. Developed algorithms and methods are described and evaluated, and power consumption and performance are reported. Several scenarios are proposed.
Implementation of the background subtraction algorithm on parallel GPUs is presented. The algorithm processes video streams and extracts foreground pixels. The work focuses on optimizing parallel algorithm implementation by taking into account specific features of the GPU architecture, such as memory access, data transfers and work group organization. The algorithm is implemented in OpenCL and CUDA. Various optimizations of the algorithm are presented and tested using devices with varying processing power, including desktop PC graphic cards, ultrabooks and the Tegra mobile processor. The aim of the work is to determine if the optimized algorithm, run on currently available GPUs, is able to perform on-line processing of high resolution video streams.
W artykule przedstawiono implementację algorytmu odejmowania tła na procesorach równoległych GPU. Algorytm przetwarza strumienie obrazu z kamer i wyodrębnia piksele nie należące do tła. Praca skupia się na optymalizacji równoległego przetwarzania obrazu z uwzględnieniem architektury procesorów GPU. Algorytm został zaimplementowany w systemach OpenCL i CUDA. Przedstawiono różne techniki optymalizacji i wyniki testów wykonanych na procesorach GPU w urządzeniach o różnej mocy obliczeniowej. Celem pracy jest określenie czy zoptymalizowany algorytm uruchomiony na dostępnych obecnie urządzeniach GPU jest w stanie przetwarzać strumienie obrazu w trybie online.
An algorithm for resolving conflicts in tracking of moving objects is presented. The proposed approach utilizes predicted states calculated by Kalman filters for estimation of trackers position, then it uses color and texture descriptors in order to match moving objects with trackers. Problematic situations, such as splitting objects, are addressed. Test results are presented and discussed. The algorithm may be used in the system for automatic detection of security threats.
W artykule przedstawiono algorytm rozwiązywania konfliktów w śledzeniu obiektów ruchomych. Proponowana metoda wykorzystuje predykcję stanu obiektu obliczaną przez filtry Kalmana oraz dopasowuje wykryte obiekty do struktur śledzących ich ruch na podstawie deskryptorów koloru i tekstury. Omówiono specyficzne sytuacje powodujące konflikty, takie jak rozdzielanie obiektów. Przedstawiono wyniki testów. Algorytm może być zastosowany w systemie automatycznego wykrywania zagrożeń w monitoringu wizyjnym.
In the paper, a method of estimation of the physical sizes of the objects tracked by the camera is presented. First, the camera is calibrated, then the proposed algorithm is used to estimate the real width and height of the tracked moving objects. The results of size estimation are then used for classification of the moving objects. Two methods of camera calibration are compared, test results are presented and discussed. The proposed estimation algorithm is intended to be used in the video surveillance system for automatic detection of events in the camera images.
W artykule opisano metodę estymacji rzeczywistych rozmiarów obiektów śledzonych przez kamery. Obraz z kamery jest najpierw poddawany kalibracji, po czym proponowany algorytm dokonuje estymacji szerokości i wysokości śledzonych obiektów ruchomych. Wyniki estymacji rozmiarów są wykorzystywane następnie w algorytmie klasyfikującym obiekty ruchome. Porównano dwie metody kalibracji kamery, opisano i przedyskutowano wyniki testów przeprowadzonych z użyciem opisywanego algorytmu. Proponowany algorytm ma być zastosowany w systemie monitoringu wizyjnego dokonującego automatycznej detekcji zdarzeń w obrazie z kamer.
W komunikacie opisano algorytm kodowania sygnału mowy, którego celem jest uzyskanie wyższej oceny jakości zakodowanego sygnału niż w przypadku algorytmów stosowanych do tej pory. W tym celu wyodrębniane są stany transjentowe oraz fragmenty dźwięczne i bezdźwięczne sygnału. Fragmenty te są następnie kodowane w odmienny sposób: składowe bezdźwięczne są kodowane tradycyjną metoda parametryczną, natomiast do składowych dźwięcznych wykorzystano algorytm kodowania perceptualnego. Jakość sygnału mowy kodowanego zgodnie z proponowaną metodą porównano z jakością możliwą do uzyskania w przypadku powszechnie stosowanych obecnie kodeków mowy.
Speech coding algorithm which aiming at better subjective signal quality that is provided by currently used speech codecs, was described in the paper. A higher signal quality may be achieved by discerning transient states, voiced and unvoiced components of a speech signal and encoding tl1 signal using different approach for each component type. Unvoiced signal components are encode using standard parametric coding algorithm, while for voiced parts of the signal, a perceptual coding algorithm is applied. Subjective quality of the signal encoded using the proposed algorithm was compared to signal quality achieved by standard speech codecs.
This document describes the methodology of creating semantically-enriched multimedia mobile services using tools and service enablers provided by the DeSyME project. A brief introduction to the Semantic Web is presented along with the explanation of its relation to the subject of Web Services. Next, the description of the DeSyME Framework is included. Finally, examples of multimedia mobile services developed at Gdańsk University of Technology are presented to illustrate possible utilities of described technologies.
Dokument przedstawia metodologię tworzenia semantycznie-rozszerzonych multimedialnych usług mobilnych z wykorzystaniem narzędzi i ułatwień oferowanych przez projekt DESYME. Zaprezentowano zwięzły wstęp do tematyki Sieci Semantycznej wraz z wyjaśnieniem jej związku z zagadnieniami Web Services. Następnie przedstawiono opis projektu DESYME. Przedstawiono również przykładowe usługi multimedialne, które są opracowywane w Katedrze Systemów Multimedialnych WETI PG, jako ilustrację możliwych zastosowań opisywanych technologii.
Przedstawiono założenia, realizowanego z udziałem Katedry Systemów Multimedialnych, projektu europejskiego COPSIMO, którego celem jest opracowanie sieci typu peer-to-peer, umożliwiającej wymianę nagrań multimedialnych na terenie krajów Unii Europejskiej. Sieć ta będzie zbudowana z wykorzystaniem architektury niewykorzystującej serwerów centralnych i wyposażona w mechanizmy zabezpieczające prawa autorskie twórców.
The foundations of the COPSIMO European project are presented in this paper. The aim of the COPSIMO project, in which Multimedia System Department participates, is to develop a peer-to-peer network for the distribution of the multimedia content in the European Union. This network will be based on the serverless architecture and will include digital rights management algorithms.
The aim of the experiments is to compute and plot transfer functions of the computer waveguide model of the acoustical system of a hearing aid. The results of simulations performed employing various sets of model parameters are compared with each other, as well as with measurement data of corresponding physical elements. Accuracy of the model used in the experiments is discussed. The aim of the study is to design computer system which can be useful in hearing aid fitting process, enabling one to design the acoustical system having a desired transfer function.
In this paper, application of computer modeling methods to the process of hearing aid fitting is described. A computer model of the acoustical system of a hearing aid is presented. Exemplary results of the experiments are presented and compared with measurement data. The model proved to behave similarly to the physical system. Further improvements to the model are discussed.
