W artykule przedstawiony został system obrazowej analizy zachowania dystansu społecznego za pomocą współczesnych algorytmów detekcyjnych opartych na konwolucyjnych sieciach neuronowych. Algorytm wykonywany jest na procesorze graficznym (GPU), dzięki czemu wykonany system może zostać zaimplementowany na komputerze PC średniej klasy. Wynik detekcji obrazowany jest graficznie poprzez objęcie wykrytych w analizowanej scenie osób ramkami w kolorze zależnym od wyznaczonego dystansu.
The article presents a system of visual analysis of social distancing behavior using modern detection algorithms based on convolutional neural networks. The algorithm is executed on a graphics processor (GPU), so that the system made can be implemented on a mid-range PC. The detection result is graphically illustrated by covering the people detected in the analyzed scene with frames in a color depending on the determined distance.
Oil is used for lubrication and cooling in every standard jet engine. Therefore, hydraulic installations are one of main parts of most of component test rigs and in some cases, they could be large and complicated. Removing sources of leakages is significant task for engineers and technicians. Oil leakages generate costs, reduce reliability of tests and are difficult to detect with use of classic sensors. This paper describes implementation of computer vision methods in the aviation component test laboratory. Three algorithms were proposed and successfully tested.
Olej jest wykorzystywany do smarowania i chłodzenia w każdym silniku odrzutowym. Z tego względu instalacje olejowe s ˛a jednymi z głównych części stanowisk badawczych, a usuwanie przyczyn wycieków jest znaczącym zadaniem inżynierów i techników. Wycieki oleju generują koszty, ograniczają wiarygodność testów i są trudne do wykrycia przy pomocy klasycznych czujników pomiarowych. Dokument opisuje implementację metod widzenia maszynowego w lotniczych laboratoriach badawczych. W ramach prac zostały zaproponowane i przetestowane trzy algorytmy.
Content available Image caption generation using transfer learning
This paper describes an image caption generation system using deep neural networks. The model is trained to maximize the probability of generated sentence, given the image. The model utilizes transfer learning in the form of pretrained convolutional neural networks to preprocess the image data. The datasets are composed of a still photographs and associated with it, five captions in English language. Constructed model is compared to other similarly constructed models using BLEU score system and ways to further improve its performance are proposed.
W tym artykule opisano system generujący podpisy do zdjęć z wykorzystaniem głębokich sieci neuronowych. Model jest trenowany pod kątem maksymalizacji prawdopodobieństwa wygenerowanego zdania, dla zadanego obrazu. Model wykorzystuje uczenie transferowe w postaci wytrenowanych wstępnie neuronowych sieci konwolucyjnych. Zbiory danych wykorzystane do trenowania modelu składają się z fotografii, oraz przypisanych do niej pięciu zdań w języku angielskim. Skonstruowany model jest potem porównany z innymi modelami o podobnej konstrukcji z wykorzystaniem punktacji BLEU.
The paper describes visualization steps of the surface of internal structures of the human body during stereo-endoscopic and laparoscopic operations using modern computer vision techniques. The presented stages make it possible to obtain three-dimensional representation (more useful for representation and analysis), which is especially important for assessing the state of the examined area and for training health care specialists. The direction of further research is the development of training tools using the proposed approaches.
W pracy opisano etapy wizualizacji powierzchni struktur wewnętrznych ciała ludzkiego podczas operacji stereo-endoskopowych i laparoskopowych z wykorzystaniem nowoczesnych technik widzenia komputerowego. Przedstawione etapy pozwalają na uzyskanie trójwymiarowej reprezentacji (bardziej przydatnej do reprezentacji i analizy), co jest szczególnie istotne dla oceny stanu badanego obszaru oraz dla szkolenia specjalistów ochrony zdrowia. Kierunkiem dalszych badań jest opracowanie narzędzi szkoleniowych wykorzystujących proponowane podejście.
Tracking of small objects in any given airspace is an integral part of modern security systems. In these systems, there are embedded methods that employ the techniques based on either radio waves, or acoustic signals, or light radiation. The computer vision operation, springing from the light radiation-based technique, has prompted interest in its research. This operation has the advantage of being less expensive than radars and acoustic systems. In addition, it can solve complex security problems by detecting and tracking humans, vehicles, and flying objects. Therefore, this article evaluates the usefulness of the varying computer vision algorithms for tracking of small flying objects.
W artykule przedstawiono analizę metod śledzenia bezzałogowych statków powietrznych, wykorzystujących techniki widzenia komputerowego.
Detection of small objects in the airspace is a crucial task in the military. In the era of today’s unmanned aerial vehicles (UAVs) technology, many military units are exposed to recognition and observation through flying objects. They are often equipped with optoelectronic warhead making a way to collect essential and secret data of the military unit. Modern technical solutions make it possible to implement some methods facilitating detection of flying objects. A lot of them utilize computer vision techniques based on image processing algorithm. Therefore, in this article, we present an analysis of the most promising algorithm for detection of small flying objects.
W artykule przedstawiono analizę metod wykrywania bezzałogowych statków powietrznych wykorzystujących techniki widzenia komputerowego.
The identity of a language being spoken has been tackled over the years via statistical models on audio samples. A drawback of these approaches is the unavailability of phonetically transcribed data for all languages. This work proposes an approach based on image classification that utilized image representations of audio samples. Our model used Neural Networks and deep learning algorithms to analyse and classify three languages. The input to our network is a Spectrogram that was processed through the networks to extract local visual and temporal features for language prediction. From the model, we achieved 95.56 % accuracy on the test samples from the 3 languages.
This article is devoted to works on using natural user interfaces (NUI) in computer support systems of aircraft service. The concept of such interfaces involves the usage in human-machine communication the same measures as in the communication between people, that is sound or gesture. In the case of gesture communication, it is indispensable to adopt methods related to computer vision algorithms. One of them is a three-dimensional reconstruction of objects based on processing techniques of a pair of two-dimensional images. The above method and the results of its application were presented to obtain a three-dimensional cloud of points describing the hand shape. The obtained software will constitute an element of gesture classifier based on the analysis of the spatial location of the acquired points of the cloud.
Artykuł dotyczy prac nad wykorzystaniem naturalnych interfejsów użytkownika w komputerowych systemach wspomagania obsługi statków powietrznych. Koncepcja tego typu interfejsów zakłada wykorzystanie w komunikacji człowiek-komputer takich samych środków jak w komunikacji między ludźmi, a więc głosu lub gestu. W przypadku komunikacji za pomocą gestów konieczne jest zastosowanie metod związanych z algorytmami komputerowego widzenia. Jedną z nich jest trójwymiarowa rekonstrukcja obiektów oparta na technikach przetwarzania pary dwuwymiarowych obrazów. Przedstawiono tę metodę oraz wyniki jej zastosowania w celu uzyskania trójwymiarowej chmury punktów opisujących kształt dłoni. Uzyskane oprogramowanie będzie stanowić element klasyfikatora gestów opartego na analizie lokalizacji przestrzennej otrzymanych punktów chmury.
Content available Flow velocity measurements in the open channels
Badanie skierowane na wyznaczenie zależności pomiędzy wysokością nadchodzącej fali a prędkością strumienia w otwartych kanałach z użyciem narzędzi widzenia komputerowego. Autorzy korzystają z modelowania komputerowego oraz badań eksperymentalnych do sprawdzenia możliwości wyznaczenia prędkości strumienia poprzez pomiar wysokość fali padającej na częściowo zanurzoną sztuczną przeszkodę znajdującą się na otwartym kanale.
Projection of a complicated geometry of industrial objects is the complex issue, which requires properly planned and prepared measurements. Such objects must be accurately inventoried, but their complicated nature often makes the access and the visibility of their entire surface very difficult. Documentation of measurements is often prepared in the form of sketches, plans or maps, which are amended with photographic documentation. The objective of this paper is to test the possibilities to apply laser scanning and the network of digital images for inventory and monitoring of technical conditions of industrial objects. Processing of a precise documentation acquired basing on terrestrial laser scanning data or dense points clouds generated from digital images still causes many difficulties and problems. Although data processing algorithms have been intensively developed with respect to generation of high resolution orthoimages or precise vector drawings, the existing problems are still connected with limitations related to imperfections of both techniques of measurements.
Content available remote The Use of Multiple Cameras for Motion Capture
Artykuł dotyczy procesu budowy taniego systemu rejestracji ruchu. Rozwiązanie to wykorzystuje kamery PlayStation 3 Eye. Artykuł ten pokazuje, w jaki sposób wykonać synchronizacje wielu kamer i jak stworzyć oprogramowanie do rejestracji i przetwarzania danych wideo w czasie rzeczywistym. Niniejszy artykuł prezentuje także algorytm i rezultaty wyszukiwania oraz śledzenia ruchu jednokolorowych obiektów na podstawie obrazów z dwóch zsynchronizowanych kamer.
This article concerns the creation process of a cheap optical motion capture system. The solution uses PlayStation 3 Eye cameras The paper shows how to synchronise multiple cameras and how to develop software for capturing and processing real-time video data. The article presents an algorithm and the results of findings and tracking of mono-colour objects based on images from two synchronised cameras, too.
In this paper we describe Bayesian inference-based approach to the solution of parametric identification problem in the context of updating of a finite element model of a structure. The proposed inverse solution is based on Monte Carlo filter and on the comparison of structure displacements extracted using digital image correlation method during a quasi-static loading and the corresponding displacements predicted by finite element method program. Our approach is applied to the problem of material model parameter identification of an aluminum laboratory-scale frame. The results are also verified by comparing the Monte Carlo filter-based solution with the analytical solution obtained using Kalman filter.
Artykuł przedstawia zastosowanie podejścia opartego na wnioskowaniu bayesowskim do problemu identyfikacji parametrycznej w kontekście strojenia modelu MES konstrukcji. Proponowane rozwiązanie odwrotne opiera się na filtrze Monte Carlo oraz porównaniu przemieszczeń konstrukcji otrzymanych metodą korelacji obrazów cyfrowych podczas quasi statycznej próby obciążeniowej i odpowiadających im przemieszczeń przewidywanych przez program oparty na metodzie elementów skończonych. Nasze podejście zostało zastosowane do identyfikacji parametru modelu materiału aluminiowej ramki laboratoryjnej. Otrzymane wyniki porównano z wynikami otrzymanymi za pomocą filtru Kalmana.
Content available remote Draughts playing system with vision-based interface
In this paper the draughtsplaying system based on the vision user feedback, is presented. The system plays draughts with a human players. It consists of two sub-systems: vision-based human-computer interface and draughts-playing engine. Two variants of vision user interface are introduced: the first one with application of computer and camera, the second one with application of computer, camera and overhead projector. The draughts-playing engine is based on the minimax algorithm with position estimation and some modifications: alpha-beta pruning, transposition tables, iterative deepening, quiescence search and null window heuristics. The efficiency of the systems has been proved by two draughts matches (eight games): between the system and the Champions of Poland in classical draughts. The results of the games prove that the application based on the method introduced in this paper is not only offering easy-to-use smart user interface but is able to compete with the best human players.
W niniejszym artykule prezentowany jest system grający w warcaby wykorzystujący do komunikacji z użytkownikiem wizyjne sprzężenie zwrotne. Przedstawione są dwa warianty wizyjnego interfejsu użytkownika - pierwszy do zastosowania z komputerem oraz kamerą drugi do zastosowania z komputerem, kamerą oraz projektorem. Silnik gry w warcaby oparty jest na algorytmie minimax oraz jego usprawnieniach: odcinaniu alpha-beta, tablicach transpozycji, pogłębianiu iteracyjnym, przeszukiwaniu stanów stabilnych oraz pustym oknie przeszukiwań. O efektywności systemu świadczą wyniki dwóch meczów warcabowych (osiem partii): pomiędzy systemem a Mistrzami Polski w warcabach klasycznych. Rezultaty partii dowodzą, że aplikacja zrealizowana w oparciu o przedstawioną w niniejszym artykule metodę nie tylko oferuje łatwy w użyciu inteligentny interfejs użytkownika ale także jest w stanie rywalizować z najlepszymi zawodnikami.
W artykule przedstawiono implementację techniki rozpoznawania wzorców nieregularnych przy zastosowaniu technologii CUDA. Zasygnalizowano możliwości współczesnych procesorów graficznych firmy NVIDIA o architekturze Fermi. Przytoczono podstawowe reguły programowania w C UDA. Dokonano wyboru metody segmentacji wzorcami nieregularnymi opartej na transformacie Hougha, jako odpowiedniej do wykorzystania potencjału procesora graficznego. Opisano kluczowe fragmenty implementacji. Dokonano weryfikacji działania w zakresie szybkości i poprawności obliczeń.
An implementation of an irregular pattern recognition technique with the use of the CUDA technology is presented in the paper. The potential of the contemporary NVIDIA's graphics processing units based on the Fermi architecture is emphasized. Basic rules of the CUDA programming are described. The Hough method for irregular patterns segmentation, as suitable for the implementation, has been chosen. Parts of the written program crucial to the CUDA technology are explained. The implementation has been verified for the sake of speed and correctness.
A short survey of scene depth estimation methods is presented. 3D reconstruction is a very complex problem and presents technical and computing challenges. This assessment is made in order to decide which method or a hybrid of methods can be utilized to build a system prototype for guiding blind pedestrians with special focus for the time-of-flight (TOF) and stereovision. Main restrictions are pointed out and measurements described. Results of preliminary experiments are also presented.
W publikacji przedstawiony został krótki przegląd metod rekonstrukcji głębi. Rekonstrukcja trzeciego wymiaru jest zagadnieniem skomplikowanym ze względu na implementację sprzętową oraz złożone algorytmy obliczenie. Artykuł ma na celu ocenę metod rekonstrukcji głębi i wybór najbardziej użytecznej do budowy autonomicznego systemu nawigacji osób niewidomych. Autorzy skupiają się na dwóch technikach: stereowizji oraz czasu przelotu (TOF), opisując ich możliwości i ograniczenia oraz prezentują wstępne wyniki badań.
Artykuł porusza zagadnienie rozpoznawania orientacji obiektów 3D. Przystosowano opracowaną przez Ballarda metodę rozpoznawania obiektów nieregularnych. Podstawą rozpoznawania orientacji jest wyznaczanie wartości macierzy akumulatora dla kątów Eulera. Wartości akumulatora dla zadanych wspłrzędnych uzyskiwane są metodą zliczania voxeli Wartości kątów Eulera, dla któych akumulator przyjmuje największą liczbę zliczeń, określają orientację badanego obiektu. Mechanizm zliczania voxeli został zaimplementowany i zbadany dla algorytmu bazującego na macierzy obrotu oraz algorytmu z zastosowaniem kwaternionów. Wykazano istnienie szczególnego rodzaju symetrii akumulatora, co pozwoliło na redukcję obliczeń o 50%.
This paper considers the problem of 3D object orientation recognition. The Ballard method of arbitrary shapes detection is adopted. The basis of the orientation recognition is the mapping of an accumulator array for Euler angles. Accumulator values for given coordinates are calculated using the voxel counting method. An object orientation is determined by Euler angles with the maximum number of votes in the accumulator array. The voxel counting method was implemented and verified for an algorithm based on a rotation matrix as well as for an algorithm based on quaternions. A characteristic kind of accumulator symmetry was detected, which reduced computations by 50%.
Content available remote Notes on a linguistic description as the basis for automatic image understanding
The main paradigm of image understanding and a concept for its practical machine realisation are presented. The crucial elements of the presented approach are the formalisation of human knowledge about the class of images that are to be automatically interpreted, a linguistic description and the realization of cognitive resonance.
Artykuł porusza zagadnienie rozpoznawania obiektów na obrazach kolorowych, z pominięciem etapu ekstrakcji cech. Na etapie przetwarzania wstępnego, jedynym poprzedzającym segmentację, dokonywana jest kwantyzacja kolorów, mająca na celu uniknięcie problemów związanych ze stosowaniem pełnej przestrzeni barw RGB. Proces segmentacji wykorzystuje uogólnioną transformatę Hougha w formie narzędzia rozpoznawania obiektów nieregularnych. Zagadnieniu kwantyzacji kolorów poświęcono szczególną uwagę, gdyż ma ono decydujące znaczenie dla jakości rozpoznawania. Wybór konkretnej techniki kwantyzacji powinien być podyktowany charakterem analizowanych, w danym systemie widzenia komputerowego, obrazów wejściowych.
This paper considers the problem of object recognition in colour images, excepting the feature extraction process. On the pre-processing stage, the only preceding segmentation, a colour quantisation technique is applied to avoid the use of a whole RGB colour space. The generalized Hough transform is used as a tool of segmentation to identify irregular objects. The colour quantisation process is essential for the recognition reliability and received special attention. In a given computer vision system, the choice of a quantisation technique should be dictated by the nature of analyzed input images.
W referacie zostaną przedstawione główne zakresy działalności III Komisji Międzynarodowego Towarzystwa Fotogrametrii i Teledetekcji (ISPRS), realizowane w latach 2004 - 2008, które były prezentowane na XXI Kongresie w Pekinie, w lipcu 2008 roku. Prace badawcze III Komisji, które były wykonywane w ramach pięciu grup roboczych, zostały opublikowane w dwóch częściach B3a i B3b Międzynarodowego Archiwum Fotogrametrii i Teledetekcji, oraz przedstawione w ramach 34 referatów na 8 sesjach technicznych i 156 referatów na 8 sesjach posterowych. Poszczególne sesje dotyczyły następujących głównych zagadnień: metod automatycznej orientacji, sekwencji obrazu i rekonstrukcji powierzchni, obrazowania i interpretacji obrazów z lotniczego skanera laserowego (Lidaru), wykrywania i rekonstrukcji budynków, ekstrakcji dróg i monitorowania ruchu drogowego, fotogrametrycznego widzenia komputerowego, 3D modelowania miasta, automatyzacji w analizie obrazu. W trakcie ostatniego posiedzenia Ogólnego Zgromadzenia (‘General Assembly’), 9 lipca 2008 roku, zostało zatwierdzonych szereg rezolucji i postanowień, dotyczących wszystkich ISPRS technicznych Komisji. Zawierały one zarówno ogólne spostrzeżenia, jak i rozpoznanie koniecznych badań oraz rekomendacje, które w odniesieniu do Komisji III, są zgrupowane w dwóch następujących częściach: (1) Zintegrowana ocena obrazowych i pozycyjnych (range) danych, oraz (2) Automatyczna interpretacja obrazowych i pozycyjnych danych.
A new method of optical fIow field estimation is presented. The method has two steps. In the first step initial optical fIow estimates are computed from local similarities of pixels neighborhoods. Along with every initial estimate, its directional confidence measure is computed. The second step combines these initial estimates. Final optical flow field estimation is computed by solving a large sparse system of linear equations.
W artykule została przedstawiona nowa metoda estymacji pola przepływu optycznego. Metoda składa się z dwóch kroków. W pierwszym kroku liczone są wstępne wektory przepływu optycznego wraz z ich kierunkowymi miarami zaufania. Krok drugi polega na integracji estymat z kroku pierwszego. Ostateczna estymacja pola przepływu optycznego jest obliczana przez rozwiązanie dużego rzadkiego układu równań liniowych.
