Wyniki wyszukiwania - BazTech

1

Automatic Extraction of Parallelism for Mobile Devices

Pałkowski M.

Przegląd Elektrotechniczny

|

2015

|

R. 91, nr 11

162-166

EN

This paper presents the Iteration Space Slicing (ISS) framework aimed at automatic parallelization of code for Mobile Internet Devices (MID). ISS algorithms permit us to extract coarse-grained parallelism available in arbitrarily nested parameterized loops. The loops are parallelized and transformed to multi-threaded application for the Android OS. Experimental results are carried out by means of the benchmark suites (UTDSP and NPB) using an ARM quad core processor. Performance benefits and power consumption are studied. Related and future work are discussed.

XX

Artykuł przedstawia ekstrakcję niezależnych fragmentów kodu dla urządzeń przenośnych. Narzędzie pozwala na zrównoleglenie gruboziarniste dowolnie zagnieżdżonych pe˛ tli programowych z parametrami do kodu wielowątkowego dla systemu Android. Eksperymenty przeprowadzono na zestawach pętli testowych (UTDSP i NPB) za pomocą czterordzeniowego procesora ARM. Przedstawiono analizę wydajności i poboru mocy oraz pokrewne rozwiązania.

2

Accelerating molecular dynamics computing using iteration space slicing

Palkowski M.

Journal of Applied Computer Science

|

2013

|

Vol. 21, nr 2

85--96

EN

Molecular dynamics is an important computational tool to simulate and understand biochemical processes at the atomic level. Accurate modelling of processes such as simulation of the Newtonian equations of motion requires a large number of computation steps for systems with hundreds to millions of particles. In this paper, we present an approach to accelerate molecular dynamics simulations by means of automatic program loop parallelization. To parallelize code of applications, we have used the Iteration Space Slicing framework. The scope of the applicability of the approach is illustrated using the Gromacs package. Results of a performance analysis for parallelized loops executed on a multi-core computer are presented. The future work is discussed.

3

Wyznaczanie równoległości pętli programowych w aplikacjach dedykowanych dla procesorów graficznych

Bielecki W., Pałkowski M.

Pomiary Automatyka Kontrola

|

2011

|

R. 57, nr 8

963-965

PL

Ekstrakcja równoległości w postaci niezależnych fragmentów kodu pozwala wygenerować równoległe pętle programowe w sposób automatyczny. Kod taki umożliwia wykorzystanie mocy obliczeniowej maszyn równoległych, w tym wieloprocesorowych kart graficznych. W niniejszym artykule poddano analizie zastosowanie algorytmów wyznaczania fragmentów kodu dla aplikacji dedykowanych dla procesorów graficznych. Zbadano przyspieszenie i efektywność obliczeń oraz skalowalność wygenerowanego kodu równoległego.

EN

Extracting synchronization-free slices allows automatically generating parallel loops. The code can be executed on multi-processors machines in a reduced period of time. Slicing techniques enable also generating parallel code for graphics processing in general purpose computing. Nowadays, graphic cards support executing multi-threaded applications. GPU systems consist of tens or hundreds of processors. CUDA (an acronym for Compute Unified Device Architecture) is a parallel computing architecture developed by NVIDIA. Graphics processing units (GPUs) are accessible to software developers through variants of industry standard programming languages. Using CUDA, the latest NVIDIA GPUs become accessible for computation like CPUs. The model for GPU computing is to use a CPU and GPU together in a heterogeneous co-processing computing model. The sequential part of the application runs on the CPU and the computationally-intensive part is accelerated by the GPU. From the user's perspective, the application just runs faster because it uses the high-performance of the GPU to boost performance. In this paper slicing algorithms are examined for generating a parallel code for graphic cards are examined. A short example of the code is presented. CUDA statements and technique are explained. Memory cost and transfer data is considered. Speed-up, efficiency and scalability of the code are analyzed.

4

An approach to form affine time partitioning for statement instances of arbitrarily nested loops

Bielecki W., Siedlecki K., Wernikowski S.

Pomiary Automatyka Kontrola

|

2010

|

R. 56, nr 10

1186-1189

EN

A novel approach to form affine time partitioning for statement instances of arbitrary nested loops is presented. It is based on extracting free-scheduling which next is used to form a system of equations to produce legal time partitioning. The approach requires an exact dependence analysis. To carry out experiments, the dependence analysis by Pugh and Wonnacott was chosen. Examples illustrating the approach and the results of experiments are presented.

PL

Przedstawiona została nowa metoda do tworzenia afinicznych odwzorowań czasowych instancji instrukcji dla pętli dowolnie zagnieżdżonych. Metoda bazuje na ekstrakcji harmonogramu swobodnego, wykorzystywanego do tworzenia legalnego odwzorowania czasowego. Metoda wymaga dokładnej analizy zależności. Do przeprowadzenia eksperymentów, wybrana została analiza zależności zaproponowana przez Pugh'a and Wonnacott'a. W analizie tej zależności reprezentowane są przez relacje zależności, natomiast przestrzeń iteracji przez zbiory. Do tworzenie zbiorów i relacji zależności wykorzystywana jest arytmetyka Presburgera. Zostały przedstawione przykłady ilustrujące działanie metody dla pętli idealnie zagnieżdżonej, jak i dla pętli nieidealnie zagnieżdżonej. Eksperymenty przeprowadzone zostały na procesorach graficznych firmy nVidia z wykorzystaniem technologii CUDA w trybie zgodności z wersją 1.1. Wyniki zostały przedstawione w formie tabelarycznej. Zostały przedstawione prace pokrewne oraz kierunek dalszych badań.

5

The efficiency of parallel OpenMP loop code produced by the hyperplane method

Poliwoda M.

Pomiary Automatyka Kontrola

|

2009

|

R. 55, nr 10

811-814

EN

The efficiency of loops parallelized by the hyperplane method is considered in the paper. The improvement of the parallel loop code efficiency was explored across improvement the locality of calculations. The main goal of presented research is disclosing whether is it possibly and what is the area of the hyperplane method parallelize loops, and how the improvement of data locality influences the improvement of the parallel loop code efficiency.

PL

W artykule przedstawiono wyniki badań efektywności kodu pętli zrównoleglonego metodą hiperpłaszczyzn w odniesieniu do kodu pętli zrównoleglonego innymi metodami, z uwzględnieniem efektywności wynikającej z użycia różnych kompilatorów. Dodatkowo przeprowadzono badania poprawy efektywności zrównoleglenia poprzez zwiększenie lokalności obliczeń. Celem przeprowadzonych badań było określenie czy i w jakim obszarze kod zrównoleglony metodą hiperpłaszczyzn może być efektywny i w jakim stopniu zwiększenie lokalności obliczeń wpływa na poprawę efektywności kodu.

6

Automatyczne zrównoleglenie pętli, efektywność zrównoleglonego kodu

Paliwoda M.

Pomiary Automatyka Kontrola

|

2008

|

R. 54, nr 8

575-578

PL

Artykuł przedstawia wyniki badań efektywności kodu pętli zrównoleglonego metodą hiperpłaszczyzn w odniesieniu do kodu pętli zrównoleglonego innymi metodami. Celem przeprowadzonych badań było określenie efektywności kodu zrównoleglonego różnymi metodami oraz obszaru, w jakim zrównoleglony kod efektywnie wykorzystuje zasoby systemu wieloprocesorowego z uwzględnieniem procesorów wielordzeniowych.

EN

The results of loops code efficiency parallelized by hyperplanes method compared with loops code efficiency parallelized with other methods are presented in this paper. The main goal is to determinate when the loops parallelized by different methods are efficient and the multiprocessor system or multi core processors are utilized effectively.

7

Automatyczne zrównoleglenie pętli programowych, implementacja metody hiperpłaszczyzn

Poliwoda M.

Prace Naukowe Instytutu Informatyki Stosowanej Politechniki Wrocławskiej. Konferencje

|

2007

357-369

PL

W wyniku prac badawczych prowadzonych nad metodami automatycznego zrównoleglenia pętli dokonano implementacji metody hiperpłaczczyzn i przeprowadzono weryfikację jej przydatności. W niniejszym artykule zajęto się automatyzacją procesu zrównoleglenia pętli. W ogólny sposób przedstawiono główne problemy związane z procesem zrównoleglenia pędi programowych. Przedstawiono główną ideę metody hiperpłaszczyzn z przykładem jej zastosowania Przedstawiono dokładny opis procesu zrównoleglenia oraz wynikające z ograniczeń zaimplementowanego narzędzia, wymagania stawiane pętlom podlegającym zrów-nolegleniu. W końcu artykułu przedstawione zostały ograniczenia i planowany rozwój narzędzia do automatycznego zrównoleglenia kodu pętli programowych.

EN

An implementation of the hyperplane method for perfectly nested loops parallelization is described. A tool developed enables parallelizing and running C sourcesin. This tool finds loops declared by the user to be parallelized, parses them, and builds correspondent parallel programs when possible. The .OpenMP functionality to support multithreaded programming is used to generate parallel programs by means of the developed tool. Limitations of the tool and plans for future work are attached.