Wyniki wyszukiwania - BazTech

1

Scalability evaluation of Matlab routines for parallel image processing environment

Saif J. A. M., Sumionka P.

TASK Quarterly : scientific bulletin of Academic Computer Centre in Gdansk

|

2017

|

Vol. 21, No 4

423--433

EN

Image edge detection plays a crucial role in image analysis and computer vision, it is defined as the process of finding the boundaries between objects within the considered image. The recognized edges may further be used in object recognition or image matching. In this paper a Canny image edge detector is used which gives acceptable results that can be utilized in many disciplines, but this technique is time-consuming especially when a big collection of images is analyzed. For that reason, to enhance the performance of the algorithms, a parallel platform allowing speeding up the computation is used. The scalability of a multicore supercomputer node, which is exploited to run the same routines for a collection of color images (from 2100 to 42000 images) is investigated.

2

Implementation of the parallel digital processor for image analysis using FPGA technology

Brylski P., Strzelecki M.

Elektronika : konstrukcje, technologie, zastosowania

|

2011

|

Vol. 52, nr 5

68-71

EN

This paper presents the parallel digital processor designed for image analysis. It is implemented in technology. The image processor is designed for image segmentation and other types of analysis like edge detection or noise removal. The processor architecture and modifications of the segmentation algorithm described in this work are aimed to reduction the FPGA resources, namely the area of the image pixel that represents basic image processing unit.

PL

W publikacji przedstawiono implementację w technologii FPGA cyfrowego, równoległego procesora obrazu, przeznaczonego do realizacji wybranych zadań przetwarzania i analizy obrazu takich jak segmentacja, wykrywania krawędzi oraz usuwanie szumu. Przedstawiona architektura procesora oraz modyfikacje algorytmu przedstawione w niniejszym artykule mają na celu zmniejszenie powierzchni struktury FPGA zajmowanego przez układy odpowiadające za przetwarzanie pojedynczego piksela obrazu i konsekwencji ograniczenie zasobów FPGA potrzebnych do realizacji układu.

3

Optimization of Track-Before-Detect Systems for GPGPU

Mazurek P.

Pomiary Automatyka Kontrola

|

2010

|

R. 56, nr 7

655-667

EN

A computation speed of Track-Before-Detect algorithm with GPGPU implementations are compared in the paper. The conventional and subpixel variants for different thread processing block sizes are compared. Decimation of the state space for reduction of the external memory accesses is assumed. The GPGPU code profiling technique by the source code synthesis is applied for finding of the best parameters and code variants for particular GPGPU.

PL

Systemy śledzenia oparte na schemacie śledzenia przed detekcją (TBD) umożliwiają śledzenia obiektów o niskim stosunku sygnału do szumu (SRN<1), co jest ważne dla zastosowań cywilnych i wojskowych. Konwencjonalne systemy śledzenia oparte na detekcji i śledzeniu nie są odpowiednie z uwagi na dużą ilość fałszywych lub utraconych detekcji. Najważniejszą wadą algorytmów TBD jest skala obliczeń, ponieważ wszystkie hipotezy (trajektorie) powinny być testowane, nawet jeśli nie ma obiektu w zasięgu. Proponowana metoda [8] oparta o decymację daje istotną (kilka razy) redukcję czasu przetwarzania na GPGPU. Programowalne karty graficzne (GPGPU) zawierają dużą ilość jednostek przetwarzania (procesorów strumieniowych) z bardzo małą, ale szybką pamięcią współdzieloną oraz dużą, ale bardzo wolną pamięcią globalną. Proponowana metoda [8] została w artykule przetestowana z wykorzystaniem algorytmu Spatio-Temporal TBD z dodatkowym profilowaniem kodu z wykorzystaniem platformy przetwarzania Nvidia CUDA. Kompilator CUDA jest dodatkowo używany do optymalizacji czasu przetwarzania z różnymi rozmiarami bloku przetwarzania. Przestrzeń stanów jest przetwarzana wewnętrznie z wykorzystaniem pamięci współdzielonej i przechowywana w pamięci globalnej po pewnej określonej liczbie kroków czasowych. Podejście z okienkowaniem jest używane do przetwarzania wejściowych danych pomiarowych 2D przechowywanych w pamięci globalnej.

4

Small Targets Subpixel Position Estimation using GPU

Mazurek P.

Pomiary Automatyka Kontrola

|

2009

|

R. 55, nr 8

651-653

EN

Position estimation of small targets occurs in numerous applications and for pixel-size targets subpixel resolution can be obtained using advanced image processing algorithms. Subpixel estimation using Center-of-Gravity (Center-of-Mass) give ability of position estimation with magnitude higher resolution in comparison to the conventional, maxima based search method. Application of COG algorithm [3] needs prior detection of targets using morphological filters. In this article is assumed 3x3 window and up to 2x2 pixels excitation by target. Proposed detection method and COG estimation can be processed in parallel what is important for CPU and GPU (Graphics Processing Unit) implementations due to single-pass image processing. Different implementations are compared (full processing of both algorithms; COG calculation driven by detection; full and prefilled results data storage; two implementations of divide operations in COG) for 1024x1024 input images. For GPU implementation CUDA (Compute Unified Device Architecture) is used.

PL

Konieczność detekcji położenia obiektów o małym rozmiarze, rzędu rozmiaru piksela występuje w wielu praktycznych zastosowaniach cyfrowego przetwarzania obrazów. Dla obiektów o tych rozmiarach występują pobudzenia zwykle większej liczby pikseli, co pozwala na estymację położenia z rozdzielczością subpikselową (podpikselową). Możliwe jest wyznaczanie położenia obiektu w takim przypadku z precyzją kilka, kilkanaście razy większą niż w przypadku estymacji opartej na poszukiwaniu położenia maksymalnej wartości sygnału. W tym celu konieczne jest zastosowanie algorytmu estymacji, takiego jak algorytm środka ciężkości wyliczającego estymaty wokół maksymalnej wartości wykrytej za pomocą filtru morfologicznego. Dla obiektów o rozmiarze rzędu piksela (na przetworniku) pobudzenie dotyczy od jednego do czterech pikseli, jednak konieczne jest uwzględnienie niezbędnej separacji pomiędzy potencjalnymi sąsiednimi obiektami. Jeśli nie występuje nałożenie lub stykanie się obiektów, to za pomocą zaproponowanego detektora morfologicznego dla obrazów w odcieniach szarości możliwe jest wykrycie obiektu. Do precyzyjnego wyznaczania położenia wykorzystano zoptymalizowany algorytm środka ciężkości, w którym zmieniono sposób indeksacji wartości pikseli, tak by zmniejszyć ilość operacji arytmetycznych, zarówno mnożeń jak i dodawań. Ponieważ istotna jest efektywna obliczeniowo realizacja algorytmu porównano dwie zasadnicze implementacje w oparciu o CPU i GPU (Graphical Processing Unit). Kluczowym zagadnieniem jest minimalizacja ilości przesyłanych danych w obu implementacjach, między jednostką przetwarzającą a pamięcią przechowującą obraz wejściowy i wyniki (położenia obiektów). Rozwiązanie bazujące na zoptymalizowanym algorytmie detekcji i estymacji położenia pozwala na jednoprzebiegowe przetwarzanie obrazu, bez konieczności magazynowania wyników pośrednich w stosunkowo wolnej pamięci. Zbadano i porównano różne warianty implementacji, wykorzystujące pełne przetwarzanie wszystkich danych za pomocą obu algorytmów, warunkowe przetwarzanie algorytmu środka ciężkości sterowane detekcją, wstępne wypełnianie pamięci wyników oraz dwa warianty implementacji operacji dzielenia wymaganej przez algorytm środka ciężkości. Uzyskane wyniki pokazują, że implementacja z wykorzystaniem GPU była co najmniej o rząd wielkości szybsza w stosunku do CPU. W badaniach wykorzystano pojedynczy rdzeń CPU Q6600 oraz GPU G80 (Geforce 8800 GTS). Zaproponowane rozwiązania pozwalają na implementację w czasie rzeczywistym, gwarantując maksymalny czas przetwarzania. Dla implementacji z warunkowym przetwarzaniem i wstępnym wypełnianiem pamięci wyników uzyskano statystyczne skrócenie czasu przetwarzania. Oba rozwiązania dzielenia dla GPU były tak samo efektywne, ponieważ zasadniczym ograniczeniem systemu jest przepustowość pamięci. Dla obrazów o rozmiarze 1024x1024 pikseli uzyskano przetwarzanie z szybkością ponad 400 klatek na sekundę, a w wariantach bardziej zoptymalizowanych ponad 800 klatek na sekundę, co pozwala to na wykorzystanie GPU także do innych celów, przy systemach pracujących z mniejszą liczbą klatek na sekundę. Abstract: Position estimation of small targets occurs in numerous applications and for pixel-size targets subpixel resolution can be obtained using advanced image processing algorithms. Subpixel estimation using Center-of-Gravity (Center-of-Mass) give ability of position estimation with magnitude higher resolution in comparison to the conventional, maxima based search method. Application of COG algorithm [3] needs prior detection of targets using morphological filters. In this article is assumed 3x3 window and up to 2x2 pixels excitation by target. Proposed detection method and COG estimation can be processed in parallel what is important for CPU and GPU (Graphics Processing Unit) implementations due to single-pass image processing. Different implementations are compared (full processing of both algorithms; COG calculation driven by detection; full and prefilled results data storage; two implementations of divide operations in COG) for 1024x1024 input images. For GPU implementation

5

Implementation of Spatio-Temporal Track-Before-Detect Algorithm using GPU

Mazurek P.

Pomiary Automatyka Kontrola

|

2009

|

R. 55, nr 8

657-659

EN

Track-Before-Detect (TBD) Algorithms are especially suitable for tracking low-observable targets. For low signal-to-noise ratio (SNR <1) cases tracking of such target is possible using TBD approach. Using accumulative approach and more than single measurements a noise level can be reduced in algorithm way, and gives SNR value enhancement. Due to the target's dynamic the possible motion vectors should be considered. In this article in parallel processing approach based on GPU (Graphics Processing Unit) and CUDA (a software platform for GPU programming) is discussed. GPU gives ability of using high number of stream processors and high clocking frequency for parallel algorithms. Because TBD algorithms have abilities of processing in parallel way they are well suited for GPU implementations and real-time processing. Using sparse characteristic of Markov's matrix the Spatio-Temporal TBD algorithm is considered and different implementations schemes (texture, global memory, global with shared memory) for state space access are compared and real-time processing for typical image sizes are obtained.

PL

Algorytmy śledzenia przed detekcją (TBD - Track-Before-Detect) umożliwiają realizacje systemów estymacji parametrów kinematycznych obiektów także przy warunku SNR<1 (Signal-to-Noise Ratio), co pozwala na śledzenie obiektów, których sygnał jest poniżej wartości szumów. Wykorzystując podejście akumulacyjne oraz więcej niż jeden pomiar możliwe jest zmniejszenie poziomu szumów, a przez to zwiększenie wartości SNR. Z uwagi na dynamikę obiektu konieczne jest uwzględnienie możliwych wektorów ruchu obiektu. Wymagania te powodują, że algorytmy te mają olbrzymi koszt obliczeniowy niezależny od ilości śledzonych obiektów. W artykule zaproponowano rozwiązanie przetwarzania równoległego w czasie rzeczywistym dla obrazów, z wykorzystaniem GPU (Graphical Processing Unit) i platformy programowej CUDA. Zaletą wykorzystania GPU jest możliwość użycia bardzo dużej liczby procesorów strumieniowych, charakteryzujących się prostą budową i wysoką częstotliwością taktowania, co pozwala na efektywną czasowo realizację algorytmów przetwarzania równoległego. Ponieważ algorytmy śledzenia przed detekcją mają cechy predysponujące je do przetwarzania równoległego, więc wykorzystanie GPU jest rozwiązaniem pozwalającym na przetwarzanie w czasie rzeczywistym. W artykule rozpatrywane jest zastosowanie algorytmu rekurencyjnego: przestrzenno-czasowego śledzenia przed detekcją, ze szczególnym uwzględnieniem możliwości redukcji ilości obliczeń dla rzadkich macierzy Markowa. Porównano różne warianty implementacji dla dostępu do wielowymiarowej przestrzeni stanów, która jest przechowywana w pamięci karty graficznej. Dane wejściowe także przechowywane są w pamięci karty graficznej, a dostęp realizowany za pomocą odczytu tekstury, co pozwala na realizację także ułamkowych wektorów ruchu, dzięki wbudowanej interpolacji dwuliniowej. Przestrzeń stanów jest czterowymiarowa i dostęp do niej obciąża znacząco magistralę pamięci. Przetestowano warianty: odczytu z wykorzystaniem tekstur oraz zwykłego dostępu do pamięci, oraz zapisu bezpośredniego i z synchronizowanym buforowaniem w pamięci współdzielonej, uzyskując zbliżone wyniki czasu przetwarzania. Ponieważ w architekturze CUDA nie jest możliwy zapis do tekstury, dlatego konieczne jest dodatkowe kopiowanie wyników przestrzeni stanów do obszaru tekstury, co jednak nie powoduje znaczącego obciążenia w systemie. Wykazano, że możliwa jest realizacja systemów śledzenie przed detekcją z wykorzystaniem GPU pracującym w czasie rzeczywistym. Dla obrazów o rozmiarze 256x256 pikseli osiągnięto ponad 200 klatek na sekundę przy 13 wektorach ruchu, a dla 1024x1024 osiągnięto 15 klatek na sekundę, przy wykorzystaniu procesora G80 (GeForce 8800 GTS).

6

Analysis of efficiency of parallel computing in image processing task

Petryniak R.

Czasopismo Techniczne. Mechanika

|

2008

|

R. 105, z. 3-M

185-193

EN

The article deals with parallel computing applied in image processing. An algorithm of edge finding was examined and analysed in tests. Each parallel approach is described in detail and the strengths and weaknesses of each are shown. Different solutions have been implemented to answer the question: "When and how to improve the efficiency of image processing?". One of the conclusions is that there is a need to build parallel image analysing algorithms to enable running them on new computers with a parallel architecture.

PL

Artykuł opisuje przebieg badania dotyczącego zrównoleglania procesów przetwarzania obrazów medycznych. Udzielono odpowiedzi na pytania, czy zrównoleglenie jest przydatne i czy uzyskana efektywność satysfakcjonuje nas w każdym przypadku. Przedstawiono, w jakich sytuacjach takie podejście nie jest wskazane i pogorszy wydajność algorytmu. W badaniu zastosowano algorytmy służące do wykrywania krawędzi w obrazie.

7

The parallel image processing on the TMS320C80 multiprocessor system

Gajer M.

Image Processing & Communications

|

1999

|

Vol. 5, no 1

57-65

EN

In the paper the usage of the Texas Instruments multiprocessor chip the TMS320C80 for the parallel image processing is describe. In the real-time implementations of image processing algorithms the performance time is a critical parameter, so very often multiprocessor solutions must be used. The TMS320C80 is composed of one master RISC processor and four parallel DSP processors specialised for efficient image processing. Because these processors are quite loosely coupled and they communicate through the common memory, it is possible to implement for this system many different types of multiprocessor architecture. In the paper the results obtained during the implementation of the chosen image processing algorithms for the different architectures such as SIMD, MIMD, MISD and pipeline structure are presented. The attention is paid to the problem of the matching image processing algorithm to the proper multiprocessor architecture in order the computation time to be minimised.