Niniejszy artykuł dotyczy kompresji obrazów rastrowych. Na początku przedstawiona została motywacja istnienia kompresji jak i potrzeb jej dalszego rozwoju. Następnie opisane zostały rodzaje kompresji oraz sposoby pomiaru jej jakości. Ostatnia część artykułu zawiera opis innowacyjnych i obiecujących metod opartych o nowoczesne architektury głębokich sieci neuronowych.
This paper concerns compression of raster graphics. First section justifies need for using compression and need for developing new methods. In the next sections compression taxonomy and metrics are discussed. Last part consists of description of modern and promising methods based on novel deep neural networks.
Artykuł dotyczy aspektów edukacyjnych konwolucyjnych neuronowych sieci głębokich. Autorzy przedstawiają elementy teorii i wybrane przykłady zastosowań wprowadzane aktualnie do programu nauczania technik multimedialnych w Zakładzie Telewizji Instytutu Radioelektroniki i Technik Multimedialnych w Politechnice Warszawskiej. Dokonano również przeglądu literatury pod kątem użycia takich sieci w zastosowaniach CREAMS.
The paper refers to educational aspects of convolutional deep neural networks. Authors present elements of theory and examples of applications currently joined to curriculum of multimedia technology in Television Division of Radioelectronics and Multimedia Technology Institute at Warsaw University of Technology. Article contains review of literature concerning such networks usage in CREAMS.
Omówiono interdyscyplinarny program nauczania multimediów w języku angielskim. Program ten wraz z szeregiem skryptów (w większości internetowych w formacie TW5) powstał w ramach dwuletniego projektu norweskiego, którego opracowanie zakończono w lutym 2016 roku. Realizowany był przez trzy uczelnie warszawskie: Politechnikę, Uniwersytet Muzyczny Fryderyka Chopina i Akademię Sztuk Pięknych. Przedstawiono tutaj szczegóły przyjętej metodologii projektowej, której realizacja wspierana była niestandardowymi narzędziami informatycznymi. Na przykładach pokazano drogę od opisu projektów do kompletnego sylabusa wygenerowanego automatycznie w formacie PDF.
The article refers to the interdisciplinary syllabus for the International Master Degree on Multimedia The syllabus with the collection of textbooks in English (mostly in TW5 format for Internet access) emerged within the two year Norwegian project no. PL10-0034 which ended in February 2016. It was conducted by three schools of Warsaw: the University of Technology, the Fryderyk Chopin University of Music, and the Academy of Fine Arts. We present here details of conceived project oriented methodology which was supported by proprietary academic software tools. By examples we show the path of from project descriptions to the complete syllabus which was generated automatically in PDF format.
A review of some results achieved by Digital Multimedia Group at Warsaw University ot Technology which were selected for the 45-th anniversary of Radioelectronics Institute. The results directly or indirectly refer to compact and discriminative representation of multimedia data using singular subspace concept. They are presented from a unified point of view including spectral equivalence for signal series. The applications reviewed refer to: image signature for replica detection, discriminatory eigen-faces, eigen-faces updating, and incremental shape from motion.
Z okazji 45. rocznicy powstania Instytutu Radioelektroniki dokonano przeglądu osiągnięć naukowych Pracowni Mediów Cyfrowych w Politechnice Warszawskiej. Wybrane wyniki odnoszą się bezpośrednio lub pośrednio do zwartej i dyskryminatywnej reprezentacji danych multimedialnych z wykorzystaniem koncepcji podprzestrzeni syngularnej. Rezultaty przedstawiono ze wspólnego punktu widzenia, wtaczając w to równoważność spektralną szeregów sygnałowych. Omówione aplikacje odnoszą się do: sygnatury obrazu w detekcji replik, dyskryminatywnych twarzy własnych oraz przyrostowego modelowania kształtu obiektu 3D na podstawie jego ruchu.
Content available remote Structured light camera calibration
Structured light camera which is being designed with the joined effort of Institute of Radioelectronics and Institute of Optoelectronics (both being large units of the Warsaw University of Technology within the Faculty of Electronics and Information Technology) combines various hardware and software contemporary technologies. In hardware it is integration of a high speed stripe projector and a stripe camera together with a standard high definition video camera. In software it is supported by sophisticated calibration techniques which enable development of advanced application such as real time 3D viewer of moving objects with the free viewpoint or 3D modeller for still objects.
Content available remote Quaternion epipolar decomposition for camera pose identification and animation
In the literature of computer vision, computer graphics and robotics, the use of quaternions is exclusively related to 3D rotation representation and interpolation. In this research we found how epipoles in multi-camera systems can be used to represent camera poses in the quaternion domain. The rotational quaternion is decomposed in two epipole rotational quaternions and one z axis rotational quaternion. Quadratic form of the essential matrix is also related to quaternion factors. Thus, five pose parameters are distributed into three independent rotational quaternions resulting in measurement error separation at camera pose identification and greater flexibility at virtual camera animation. The experimental results refer to the design of free viewpoint television.
Praca dotyczy algorytmicznych podstaw systemu telewizji trójwymiarowej o swobodnym punkcie obserwacji (FVP-3D-TV). Proponowane są ulepszenia szeregu podstawowych komponentów systemu: identyfikacji macierzy istotnej, konstrukcji map dysparycji i nawigacji przestrzennej jako elementu interfejsu użytkownika. Wykorzystanie metody optymalizacji LMM (Levenberga Marquarda) oraz wielobiegunowej faktoryzacji kątowej macierzy istotnej, pozwoliło na 90% redukcję błędu w porównaniu do modelu początkowego otrzymywanego metodą ośmiu punktów. Tworzenie map dysparycji jest wspomagane przez rektyfikację (prostowanie) biegunową, uzyskaną przez liniową transformację w dziedzinie obrazu. Skutkuje to zmniejszeniem zniekształceń w stosunku do techniki rektyfikacji o biegunach w nieskończoności. Wreszcie zaproponowano przyjazny dla użytkownika trójwymiarowy model nawigacji, który został zorganizowany wokół dwubiegunowych linii bazowych kamer rzeczywistych. Rozwiązanie to pozwoliło na płynne przełączanie widoku pomiędzy kamerami, a trajektoria kamery wirtualnej przecinająca linię główną nie generuje zauważalnych artefaktów, pomimo pojawiających się osobliwości macierzowych.
A general scheme of free view point 3D television system (FVP-3D-TV) is considered. It is based on image based rendering and epipolar geometry of cameras. Several enhancements are proposed for the system basic modules: essential matrix identification, disparity map construction, and 3D navigation model for user interface. The epipolar angular factorisation of essential matrix is used for nonlinear least squared optimization. It reduces about 90% of error w.r.t. the initial model obtained by eight-point algorithm. Disparity map construction is supported by polar rectification. It is produced by 2D linear transformation of image domains and for camera setups applied in FVP-3D-TV systems, exhibits less distortion than rectification by mapping epipoles to infinity. Finally, user friendly 3D navigation model for GUI is proposed. It is organised around the baselines of real cameras. Despite the singularity of essential matrix equations, the trajectory of virtual camera can intersect baselines without noticed artefacts, and smooth switch between cameras is provided.
W artykule przedstawiono metodę detekcji kopii obrazów na podstawie treści wizualnej. W metodzie tej wyznacza się zwięzłą sygnaturę reprezentującą unikalną treść obrazu. Sygnatura ta jest odporna na wiele popularnych technik modyfikacji obrazów, które nie powodują istotnej utraty informacji, takich jak kompresja stratna, zmiana rozmiaru, poprawa kolorów, czy proste obroty. Wykrywanie kopii obrazów wykonuje się za pomocą szybkiego algorytmu porównywania ich sygnatur. Właściwości prezentowanej sygnatury, takie jak mały rozmiar, szybka metoda obliczania i detekcji oraz wysoka skuteczność wykrywania kopii, pozwalają na jej zastosowanie w aplikacjach zarządzania dużymi zbiorami obrazów, w tym również do wykrywania kopii obrazów w zasobach Internetowych.
The paper presents a method for image copy detection based on visual content. In this method a compact image signature is extracted, which represents unique image content. Te signature is robust to many common image processing techniques, which do not lead to significant loss of information, such as lossy compression, resizing, color enhancements and simple rotations. The detection of image copies is performed by a fast algorithm of signature matching. The properties of the presented signature, such as small size, fast extraction, fast matching, and high detection rate of image copies, allow the signature to be used in big image databases, including image resources on the Web.
W artykule przedstawiono analizę możliwości transkodowania strumienia MPEG-2 Video do MPEG-4 AVC/H.264 w dziedzinie współczynników transformaty. Omówiono metodę konwersji współczynników transformaty 8 x 8 DCT, stosowanej w standardzie MPEG-2 Video na współczynniki transformaty całkowitoliczbowej 4 x 4 HT, stosowanej w standardzie MPEG-4 AVC/H.264. W dalszej części przedstawiono zastosowanie tej metody do przetwarzania makrobloków kodowanych w trybach Inter oraz Intra. Analiza złożoności obliczeniowej w obu przypadkach prowadzi do wniosku, że realizacja operacji transkodowania w dziedzinie współczynników transformaty jest niestety bardziej złożona niż w dziedzinie pikselowej.
In this paper the analysis of methods for transcoding of MPEG-2 Video to MPEG 4 AVC/H.264 in transform domain is presented. The algorithm for converting coefficients of the 8 x 8 DCT, used in MPEG-2 Video standard, to coefficients of the integer 4 x 4 HT, used in MPEG-4 AVC/H.264 standard is discussed. Furthermore, the application of this algorithm for processing of Inter and Intra macroblocks is presented. The analysis of computational complexity leads to the conclusion, that transcoding in transform domain is, unfortunately, more complex compared to transcoding in pixel domain.
Przedstawiono koncepcje rozwojowe sieci kablowych w zakresie nowych techniki systemów transmisji danych opartych na specyfikacji DOCSIS 3.0. Zaprezentowano główne mechanizmy umożliwiające zwiększanie przepływności bitowych i przygotowywanie sieci kablowych do udostępniania szerokopasmowych usług multimedialnych. Pokazano także podstawowe architektury systemów DOCSIS 3.0 i usługi, które mogą być realizowane z ich wykorzystaniem.
In the paper main concepts of the cable television networks' evolution are presented. The ideas are mainly focused on the new technologies and multiband data transmission systems based on DOCSIS 3.0 specification. Main elements of the multiband transmission allowing for increasing data rates and offering the multimedia, interactive services are presented. Some basis architectures of new DOCSIS 3.0 systems are also described and discussed.
Content available remote Image Search using Dominant Colors
In this paper, the use of the Dominant Color descriptor, one of the visual descriptors defined in MPEG-7 standard for image indexing and search, is discussed. Various similarity functions for matching the descriptors are presented. Next, the concept of dominant colors cumulative distribution function (CDF) is introduced and a new distance function for the descriptors matching is also proposed. The function is equivalent to the computing volume of space bounded by two dominant colors CDFs. Efficient algorithm for computing CDF-based distance which uses the properties of discrete CDF function, is also presented. Finally, various dominant colors matching methods are compared in a similarity image search scenario consisting of 'query-by-example' nearest neighbours search, and the experimental results are presented and discussed.
Content available remote Homography of central points for optical distortion compensation
The paper presents a novel radial lens distortion modelling method for vision systems. It is based on single images of chessboard planar pattern, in which calibration points (corners of chessboard squares) are localised. The points, which are situated near the image centre, where the distortion is negligible, are used to determine undistorted grid of calibration points, by parameters of radial model by the linear least square method. Having the distortion model, the dense compensation is performed with support of bilinear interpolation and a sparse compensation by Newton iterative scheme providing subpixel accuracy.
Content available remote On Generating All Binary Trees
In context of Pawlak's machine a general iterative meta scheme for generating of combinatorial objects is introduced and applied to proof the correctness of ASR (Arm Switching and Rotation) algorithm generating all binary trees on k nodes. The average time complexity of the ASR algorithm and B* are analyzed and compared to the B algorithm discussed by Knuth. The analyzed algorithms are all obtained by various natural correspondences from author's DCP (Degrade and Compress Path) algorithm for generating all ordered trees on k+1 nodes.
Content available remote Fast Index Filtering in Vector Approximation File
Several fast filtering attributes are analysed for vector interval (cell) pruning while querying the vector approximation file. Beside distance range, sum and median features their deviation forms are introduced. Range and K-NN queries are considered and appropriate acceptance intervals are designed. The impact of feature space dimensionality on index design is discussed, too.
Content available remote Dual LDA for Face Recognition
The complete theory for Fisher and dual discriminant analysis is presented as the background of the novel algorithms. LDA is found as composition of projection onto the singular subspace for within-class normalised data with the projection onto the singular subspace for between-class normalised data. The dual LDA consists of those projections applied in reverse order. The experiments show that using suitable composition of dual LDA transformations gives as least as good results as recent state-of-the-art solutions.
Dokonano przeglądu osiągnięć grupy normalizacyjnej MPEG na tle podstawowych technik multimedialnych, tj. kompresji, selekcji, transportu i integracji. Scharakteryzowano aktualne prace i omówiono planowane aktywności grupy MPEG. Przeprowadzono dyskusję tematów badawczych podejmowanych w obszarze hybrydowych mediów cyfrowych integrujących multimedialne sceny rzeczywiste z multimedialnymi scenami wirtualnymi.
A survey of achievements within multimedia normalization activities by MPEG group is included with basic multimedia techniques as the background: compression, selection, transportation and integration. It describes current MPEG works and presents nearest plans of the group. Finally a discussion of research topics proposed within hybrid digital media that integrate multimedia real scenes with multimedia virtual scenes.
The paper presents an algorithm for estimation of temperature of image. Colour temperature is important, perceptual feature describing colour and content of images. The main idea of the algorithm is to average pixel values of image, omitting the values which have meaningless influence on perception of colour temperature. It is done in an interactive procedure. The convergence of the procedure is discussed. The algorithm can be applied in image search/retrieval tasks and is proposed in the MPEG-7 colour temperature descriptor for estimation of colour temperature of images.
Lokalna analiza składowych głównych, tj. analiza składowych głównych wykonana w klastrach danych, jest rozważana jako narzędzie algorytmiczne w problematyce rozpoznawania twarzy. Stosuje się ją w celu znalezienia lokalnych, liniowych modeli danych zapewniających zwartą reprezentację obrazów twarzy. Wstępne wyniki badań pokazują, że wspomniana technika umożliwia uzyskanie współczynnika rozpoznawania na poziomie ok. 97% dla niepełnych klastrów danych.
Local second order principal component analysis, e. g. principal component analysis in data cluster, is used as the algorithmic tool in the field of face recognition. It finds local linear models for specific face poses and lighting conditions independently and guarantees compact face image representation. Experimental results show that proposed method allows to achieve high recognition rate, to the level of 97,5% for incomplete data clusters.
THis paper presents the results of experiments for a color temperature browsing descriptor. We consider the problem of the optimal conversion of an objective value (color temperature) into a subjective category (Hot, Warm, Neutral, and Cold). The situation where subjective categories are based on an objective object attribute appears to be common while comparing interpretation of human sensors with physical sensors. The proposed optimal procedure for segmenting the color temperature partition into four disjoint intervals and the experimental results are described.
Realizacja systemu automatycznej klasyfikacji powierzchni materiałów ma duże znaczenie dla komputerowej oceny jakości wytwarzanych stopów. Może też być wykorzystywana do procentowych szacunków udziału danej tekstury w obrazie materiału, a także do predykcji właściwości mechanicznych danego kompozytu. Zaproponowana przez autorów metoda klasyfikacji tekstur pozwala na automatyczne grupowanie obrazów mikrostruktur w podklasy co zwiększa stopień poprawnego rozpoznania danej struktury. Algorytm znajdował w przestrzeni wektorów pomiarowych optymalną aproksymację lokalnie liniową i w efekcie klasyfikator był w stanie w 100% przypadków rozróżnić materiał "dobry" od materiału "złego". Uzyskano też znaczące wyniki w analizie warunków początkowych algorytmu typu neuronowego, który buduje klasyfikator LPCA.
Implementing a system for automatic classification of material surface is important at the computer quality evaluation of alloys. It can be also used for the ratio prediction of the given texture in the image of the material and for the prediction of the mechanical properties of the given composite material. The presented method allows for automatic clustering of image microstructures into subclasses what increases the recognition rate for the given structure. The algorithm is capable to find in the vector measurement space local linear models and in the result the ciassifier could distinguish between images of correct and wrong materials. Certain significant results were achieved in the analysis of initial conditions for neural type algorithm responsible for the design of LPCA classifier.
