In high contention environments, with limited number of shared resources, elimination of resource conflicts between tasks processed in parallel is required. Execution of all tasks without resource conflicts can be achieved by preparing a proper overall schedule for all of them. The effective calculation of conflict-free execution plan for tasks provides the conflictless scheduling algorithm that is dedicated to GPU massively parallel processing. The conflictless scheduling algorithm base on rapid resource conflict detection to mutual exclusion of conflicted tasks in access to global resources and is an alternative to other task synchronization methods. This article presents the performance of modern GPU in calculations of adaptive conflictless task schedule. The performance analysis also takes into account all data transfers to and from the GPU memory in various phases of the conflictless task scheduling algorithm.
Referat opisuje programową, opartą o procesor ogólnego przeznaczenia, implementację kodera i dekodera kodu LDPC w wersji do zastosowań kosmicznych, zgodnej ze standardami CCSDS (Consultative Committee for Space Data Systems). Program optymalnie wykorzystuje możliwości współczesnych procesorów - wielordzeniowość i instrukcje wektorowe (SIMD). Uzyskane przepływności wskazują na równoprawność proponowanego rozwiązania z implementacjami opartymi o karty graficzne.
The paper describes software implementation of LDPC codec for codes from CCSDS standards based on CPU. The codec takes advantage of possibilities provided by modern processors – multiple cores and vector instructions (SIMD). Achieved throughput shows that proposed approach is comparable with implementations based on graphics processing units.
Architektura CUDA firmy NVIDIA jest architekturą wielordzeniowych procesorów graficznych, w której jest stosowany model przetwarzania wielowątkowego. Procesor graficzny w architekturze CUDA może być traktowany jako procesor SIMD z pamięcią wspólną. W niniejszym artykule przedstawiono zastosowanie CUDA do rozwiązania problemu 3–SAT. Przedstawione zostały 3 wersje algorytmu oraz wyniki przeprowadzonych badań eksperymentalnych.
The NVIDIA's CUDA architecture is multi–core GPU architecture with the multithreaded processing model. The GPU of CUDA architecture can be treated as a SIMD processor with shared memory. This work presents solving the 3–SAT problem using CUDA architecture. Three versions of algorithm are proposed. Apart from that the results of experimental tests are presented.
Construction of mathematical models for nonlinear dynamical systems using optimization requires significant computation efforts to solve the optimization task. The most CPU time is required by optimization procedure for goal function calculations, which is repeated many times for different model parameters. This allows to use processors with SIMD architecture of calculation parallelization. The effectiveness of such parallelization is the subject of investigation in this paper.
Rozwiązywanie problemów optymalizacyjnych dla nieliniowych układów dynamicznych wymaga dużych nakładów obliczeniowych. Większość czasu procesora pochłaniane jest przez obliczanie wartości funkcji celu, co powtarzane jest wielokrotnie dla różnych parametrów modelu. Dzięki temu możliwe jest wykorzystanie architektury SIMD do zrównoleglenia obliczeń. Przedmiotem przedstawionych badań jest efektywność takiego zrównoleglenia.
Otrzymane wyniki badań potwierdzają, że zastosowanie rozszerzeń multimedialnych SSE w zagadnieniach związanych z arytmetyka˛ przedziałową znacznie skraca czas wykonywania obliczeń. Biblioteki Profil/BIAS oraz Boost, które zostały zaimplementowane z pominięciem rozszerzeń multimedialnych wykonują. obliczenia zdecydowanie dłużej. Zastosowanie innego formatu przechowywania przedziałów w pamięci ([a --- a]) oraz odpowiednie zmodyfikowanie operacji arytmetycznych pozwoliło na wykonywanie obliczeń bez ciągłej zmiany trybu zaokrąglania, co nie spowodowało utraty wydajności. Ponadto zastosowana w naszej implementacji zmodyfikowana metoda dzielenia bazująca na koncepcji metody "rozszerzonego przedziałowego zero" pozwala na uzyskiwanie znacznie węższych przedziałów, bez utraty wydajności.
The aim of this paper is to show interval arithmetics implementation using single-instructionmultiple- data (SIMD) SSE (Streaming SIMD Extensions) multimedia instructions, and register set extensions. It was proven previously that SSE extensions can increase performance of interval calculations, since both interval bounds can be kept in one SSE register and all arithmetic operations can be done in parallel. In this work a new approach to the modified interval division is proposed based on the concept of “interval extended zero” method which is a part of this implementation. This method allows us to reduce the undesirable excess width effect. We show the results obtained for several randomly generated matrices using different algorithms (matrix-matrix multiplication, Gauss elimination) and compare them also with results obtained using other interval libraries.
Artykuł przedstawia próbę wykorzystania rozszerzeń SIMD zawartych w architekturach współczesnych procesorów pod kątem skrócenia czasu przetwarzania obrazów cyfrowych. Szczegółowo zbadano wpływ użycia rozkazów MMX i SSE w algorytmie binaryzacji stałoprogowej obrazu cyfrowego. Porównano uzyskane czasy przetwarzania z wynikami otrzymanymi dla algorytmu zapisanego w języku C i asemblerze procesora x86.
The paper presents an attempt to utilize the SIMD extensions, available in modern processor architectures, in order to minimize image processing time. In particular, the effect of MMX and SSE instructions on the digital image thresholding algorithm was investigated in detail. The results, i.e. processing times, were compared with those obtained from an algorithm written in plain C and in x86 assembly language.
Development of high dynamic range imaging (HDRI), especially in the display and camera technology, have a significant impact on broader usage of HDR data in image processing, analysis and synthesis. Typical 8-bit graphics pipeline (each red, green, and blue color channels stored in 8-bits) is replaced with the HDR pipeline, in which color is represented by floating point values. The HDRI pipeline does not suffer from many problems of 8-bit systems The most important advantage of HDRI is the possibility of storing full range of luminance and chrominance visible by HVS (Human Visual System). Unfortunately, HDR images are significantly greater than in 8-bit systems. Therefore speed and effectiveness of their processing are especially important for practical applications. In the paper we propose using SIMD and multi-threading CPU technologies to speed-up HDRI processing. We present new architecture of HDRI, in which the attention was paid on memory access optimization, effectiveness of vector data processing and parallelization of computations. We test proposed solution based on a novel and original implementation and discusse achieved speed-ups.
Artykuł przedstawia próbę wykorzystania rozszerzeń SIMD zawartych w architekturach współczesnych procesorów pod kątem skrócenia czasu przetwarzania obrazów cyfrowych. Szczegółowo zbadano wpływ użycia rozkazów MMX i SSE w algorytmie modyfikacji jasności obrazu cyfrowego. Wszystkie eksperymenty zrealizowano w środowisku VirtualDub. Porównano uzyskane czasy przetwarzania z wynikami otrzymanymi dla algorytmu zapisanego w języku C.
The paper presents an attempt to utilize the SIMD extensions, available in modern processor architectures, in order to minimize image processing time. In particular, the effect of MMX and SSE instructions on the digital image brightness (intensity) modification algorithm was investigated in detail. All experiments were performed in "VirtualDub" environment. The results, i.e. processing times, were compared with those obtained from an algorithm written in plain C language.
Vision chips are microelectronic devices which combine image sensing and processing on a single silicon die. In a way somewhat resembling the vertebrate retina these VLSI chips perform preliminary image processing directly on the sensory plane and are capable of very high processing speed at very low power consumption. This makes them particularly suitable for applications such as autonomous robots and other embedded machine vision sys-tems. This paper discusses the principles of using massively parallel fine-grain SIMD processor arrays for low-level image processing and reviews the design and implementation of vision chips developed at the University of Manchester, including the SCAMP-3 chip, which contains 16,384 processors. Application examples and experimental results are presented.
Układy wizyjne są urządzeniami mikroelektronicznymi integrującymi układy detekcji obrazu z układami realizującymi jego przetwarzanie w jednym układzie scalonym: W sposób przypominający działanie siatkówki układy te realizują wstępne przetwarzanie obrazu bezpośrednio na płaszczyźnie detektora oraz są zdolne do działania z bar-dzo dużą wydajnością i charakteryzują się bardzo małym poborem mocy. To powoduje, że są niezwykle przydatne do aplikacji takich jak: roboty autonomiczne, systemy wbudowane z widzeniem maszynowym, itp. Ten artykuł opisuje zasady użycia masywnie-równoległego przetwarzania w matrycach procesorów SIMD typu fine-grain na wstępnych etapach przetwarzania obrazu oraz opisuje projekt i implementację układów wizyjnych wykonanych na Uniwersytecie Manchester, w szczególności artykuł opisuje układ SCAMP-3 zawierający 16384 procesorów. Dodatkowo przedstawione zostały przykłady zastosowań i wyniki pomiarów.
The paper presents parallelized structures of 16-bit integer, one-dimensional FIR filters optimized for AltiVec SIMD processing unit used in PowerPC processor family. As FIR filtering, like most of DSP kernels, is memory bandwidth limited, proposed structures minimize number of memory accesses, increasing filter computation speed. Performance of three alternative filter structures is compared and analysed.
Zaprezentowano zrównoleglone struktury 16-bitowych, stałoprzecinkowych, jednowymiarowych filtrów o skończonej odpowiedzi impulsowej, przeznaczone do implementacji na jednostce wektorowej AltiVec procesorów z rodziny PowerPC. Zadanie filtracji SOI, podobnie jak wiele procedur DSP, jest ograniczone szybkością pamięci. Proponowane struktury minimalizują liczbę dostępów do pamięci, zwiększając w ten sposób szybkość obliczeń. Porównano i przeanalizowano wydajność trzech alternatywnych struktur filtrów.
This paper describes a stereo vision system that enables real-time dense depthmeasurements on a personal computer. The system relies on a very efficient stereo matching engine that, unlike many other approaches which use two distinct matching phases in order to detect unreliable matches, uses a single matching phase. Our matching engine allows for rejecting most unreliable matches by exploiting violations of the uniqueness constraint as well as analysing behaviour of correlation scores. Real-time capability has been achieved by deploying very efficient incremental calculation schemes aimed at avoiding redundant calculations and parallelising the computationally expensive portion of the code with Single Instruction Multiple Data (SIMD) parallel instructions, available nowadays on almost any state-of-the-art general purpose microprocessors. Experimental results on real stereo sequences and preliminary results concerning a 3D people tracking/counting application show the effectiveness of the proposed PC-based stereo vision system for real-time applications.
In the paper the usage of the Texas Instruments multiprocessor chip the TMS320C80 for the parallel image processing is describe. In the real-time implementations of image processing algorithms the performance time is a critical parameter, so very often multiprocessor solutions must be used. The TMS320C80 is composed of one master RISC processor and four parallel DSP processors specialised for efficient image processing. Because these processors are quite loosely coupled and they communicate through the common memory, it is possible to implement for this system many different types of multiprocessor architecture. In the paper the results obtained during the implementation of the chosen image processing algorithms for the different architectures such as SIMD, MIMD, MISD and pipeline structure are presented. The attention is paid to the problem of the matching image processing algorithm to the proper multiprocessor architecture in order the computation time to be minimised.
Większość operacji komputerowego przetwarzania obrazów charakteryzuje się dużą złożonością obliczeniową i do ich wykonania potrzebny jest odpowiednio długi czas. Skrócenie czasu obliczeń może zostać osiągnięte poprzez zastosowanie rozwiązań wieloprocesorowych. Firma Texas Instruments, jako pierwsza, wypuściła na rynek system wieloprocesorowy wykonany w postaci pojedynczego układu scalonego. Układ TMS320C80 jest systemem pięciu procesorów, z których jeden, typu RISC, jest procesorem nadrzędnym systemu, zaś pozostałe cztery są równoległymi procesorami DSP. W oparciu o układ TMS320C80 mogą zostać zrealizowane różnorodne struktury wieloprocesorowe, takie jak architektury SIMD, MIMD, potokowe, a także rozwiązania będące ich hybrydami. W artykule przedstawiono wyniki uzyskane podczas implementacji podstawowych algorytmów przetwarzania obrazów dla zrealizowanych architektur typu SIMD o różnej liczbie procesorów. Testy przeprowadzone zostały między innymi dla operacji filtracji medianowej, progowania, erozji i dylatacji obrazu, wyznaczania laplasjanów obrazu oraz różnych algorytmów detekcji krawędzi obiektów. Dokonano porównania uzyskanych wartości współczynników przyspieszenia obliczeń oraz wyciągnięto wnioski odnośnie do efektywności procesu zrównoleglenia obliczeń dla różnorodnych operacji wykonywanych na obrazach, przy zastosowaniu różnej liczby procesorów struktury SIMD.
Many of the image processing operations require a great computational power and the time needed for their performance is large. The computation time can be made shorter by the usage of a multiprocessor technique. Texas Instruments was the first to produce a single-chip multiprocessor system. The TMS320C80 is a multiprocessor chip composed of five processors one master RISC processor and four parallel DSP processors. Basing on the TMS320C80 system can be realised many different multiprocessor architectures such as MIMD, SIMD, pipeline and also some solutions that are the hybrids of above. The article contains the results obtained during the implementation of the basic image processing algorithms for the SIMD architecture with the variable number of processors, realised on the TMS320C80 multiprocessor chip. The examples were carried out for such operations as: median filtering, image thresholding, erosion and dilatation, Laplace operator calculation and many different algorithms of image detection, in the end of the article a comparison of computation speedup factors, obtained for different processor numbers, was placed and some conclusions concerning above problems were also derived.
