Wyniki wyszukiwania - BazTech

1

Practical Implementation of Prestack Kirchhoff Time Migration on a General Purpose Graphics Processing Unit

Liu G., Li C.

Acta Geophysica

|

2016

|

Vol. 64, no. 4

1051--1063

EN

In this study, we present a practical implementation of prestack Kirchhoff time migration (PSTM) on a general purpose graphic processing unit. First, we consider the three main optimizations of the PSTM GPU code, i.e., designing a configuration based on a reasonable execution, using the texture memory for velocity interpolation, and the application of an intrinsic function in device code. This approach can achieve a speedup of nearly 45 times on a NVIDIA GTX 680 GPU compared with CPU code when a larger imaging space is used, where the PSTM output is a common reflection point that is gathered as I[nx][ny][nh][nt] in matrix format. However, this method requires more memory space so the limited imaging space cannot fully exploit the GPU sources. To overcome this problem, we designed a PSTM scheme with multi-GPUs for imaging different seismic data on different GPUs using an offset value. This process can achieve the peak speedup of GPU PSTM code and it greatly increases the efficiency of the calculations, but without changing the imaging result.

2

How message passing interface (MPI) accelerates a coalescent-based whole genome simulator

Cyran K. A., Myszor D.

Studia Informatica

|

2014

|

Vol. 35, nr 4

59--72

PL

Symulacje komputerowe uważane są za jeden z filarów współczesnej nauki. W artykule opisano kolejny rodzaj optymalizacji programu GENOME: A rapid coalescent-based whole genome simulator, mającej na celu skrócenie czasu oczekiwania na wyniki. Modyfikacje bazują na zrównoleglaniu wykonywania procesów z wykorzystaniem technologii MPI oraz klastrów HPC. W celu przetestowania uzyskanego rozwiązania wykorzystano klaster HPC Ziemowit, będący na wyposażeniu Śląskiej Biofarmy. Wyniki wskazują, iż wprowadzone modyfikacje pozwalają na znaczne skrócenie czasu wykonywania aplikacji.

EN

Computer simulations are one of the pillars of contemporary science. In the current paper we present next type of improvements introduced into GENOME: A rapid coalescent-based whole genome simulator. The modifications are based on parallelization of processes with the use of MPI technology. The influence of introduced modification, has been tested on Ziemowit HPC cluster which is installed in Silesian Biofarma. Results point out that process of outcomes generation can be reduced significantly if proposed modifications are applied.

3

Dyskretyzacja z nadzorem tablic danych przy użyciu wielordzeniowego procesora karty graficznej (GPU)

Maciura Ł.

Przegląd Elektrotechniczny

|

2014

|

R. 90, nr 5

114--117

PL

Niniejszy artykuł opisuje opracowany algorytm do dyskretyzacji tablic, polegający na masowym zrównolegleniu wyliczania optymalnego ciecia, poprzez jednoczesne badanie bardzo wielu atrybutów za pomocą wielordzeniowego procesora karty graficznej (GPU) oraz procesora (CPU). Jest to możliwe dzięki zastosowaniu technologii NVIDIA CUDA. Artykuł również porównuje prędkość działania tradycyjnego i zrównoleglonego algorytmu.

EN

This paper describes the developed algorithm for discretization of arrays, consisting of a mass parallelization of calculating the optimal cut by simultaneous examination of a large number of attributes using a multi-core graphics card processor (GPU) and central processing unit (CPU). This is possible by using NVIDIA CUDA technology. Paper also compares the speed of traditional and parallelised algorithm.

4

Parallelization of the Block Encryption Algorithm Based on Logistic Map

Burak D.

Przegląd Elektrotechniczny

|

2012

|

R. 88, nr 10b

198-200

EN

In this paper the results of parallelizing the block encryption algorithm based on logistic map are presented. The data dependence analysis of loops was applied in order to parallelize this algorithm. The OpenMP standard is used for presenting the parallelism of the algorithm. The efficiency measurement for a parallel program is shown.

PL

W artykule zaprezentowano wyniki zrównoleglenia blokowego algorytmu szyfrowania opartego na odwzorowaniu logistycznym. W celu zrównoleglenia algorytmu zastosowano analizę zależności danych. Celem przedstawienia równoległości algorytmu użyto standardu OpenMP. Pokazano wyniki pomiarów efektywności programu równoległego.

5

Parallelization of calculations using GPU in optimization approach for macromodels construction

Stakhiv P., Strubytska I., Kozak Y.

Przegląd Elektrotechniczny

|

2012

|

R. 88, nr 3a

7-9

EN

Construction of mathematical models for nonlinear dynamical systems using optimization requires significant computation efforts to solve the optimization task. The most CPU time is required by optimization procedure for goal function calculations, which is repeated many times for different model parameters. This allows to use processors with SIMD architecture of calculation parallelization. The effectiveness of such parallelization is the subject of investigation in this paper.

PL

Rozwiązywanie problemów optymalizacyjnych dla nieliniowych układów dynamicznych wymaga dużych nakładów obliczeniowych. Większość czasu procesora pochłaniane jest przez obliczanie wartości funkcji celu, co powtarzane jest wielokrotnie dla różnych parametrów modelu. Dzięki temu możliwe jest wykorzystanie architektury SIMD do zrównoleglenia obliczeń. Przedmiotem przedstawionych badań jest efektywność takiego zrównoleglenia.

6

Parallelization of the ARIA Encryption Standard

Burak D.

Pomiary Automatyka Kontrola

|

2012

|

R. 58, nr 2

222-225

EN

In this paper there are presented the results of ARIA encryption standard parallelizing . The data dependence analysis of loops was applied in order to parallelize this algorithm. The OpenMP standard is chosen for presenting the algorithm parallelism. There is shown that the standard can be divided into parallelizable and unparallelizable parts. As a result of the study, it was stated that the most time-consuming loops of the algorithm are suitable for parallelization. The efficiency measurement for a parallel program is presented.

PL

W artykule zaprezentowano proces zrównoleglenia koreańskiego standardu szyfrowania ARIA. Przeprowadzono analizę zależności danych w pętlach programowych celem redukcji zależności danych blokujących możliwości zrównoleglenia algorytmu. Standard OpenMP w wersji 3.0 został wybrany celem prezentacji równoległości najbardziej czasochłonnych obliczeniowo pętli odpowiedzialnych za procesy szyfrowania oraz deszyfrowania danych w postaci bloków danych. Pokazano, że zrównoleglona wersja algorytmu składa się z części sekwenycjnej zawierającej instrukcje wejścia/wyjścia oraz równoległej, przy czym najbardziej czasochłonne pętle programowe zostały efektywnie zrównoleglone. Dołączono wyniki pomiarów przyspieszenia pracy zrównoleglonego standardu szyfrowania oraz procesów szyfrowania oraz deszyfrowania danych z wykorzystaniem dwóch, czterech, ośmiu, szesnastu oraz trzydziestu dwóch wątków oraz zastosowaniem ośmioprocesorowego serwera opartego na czterordzeniowych procesorach Quad Core Intel Xeon.

7

Hybrid-parallel formulation of fundamental quantum-chemical algorithms

Mazur G., Makowski M., Kuna D.

Computer Science

|

2011

|

Vol. 12

163-168

EN

Hybrid-parallel variants of Hartree-Fock, Kohn-Sham and Moller-Plesset second-level perturbation theory are described. Their efficiency with respect to the serial and MPI-based parallel implementations are measured and briefly analyzed. It is shown that while hybrid parallelization provide increased efficiency in all cases, the magnitude of the effect strongly depends on the features of the particular algorithm.

PL

Przedstawiono hybrydowo zrównoleglone warianty metod Hartreego-Focka, Kohna-Shama i rachunku zaburzeń Mollera-Plesseta drugiego rzędu. Porównano ich wydajność względem implementacji szeregowej i implementacji zrównoleglonej za pomocą mechanizmu przekazywania komunikatów (MPI). Pokazano, że hybrydowe zrównoleglenie zapewnia zwiększoną wydajność we wszystkich analizowanych przypadkach, przy czym wielkość uzyskanego przyspieszenia silnie zależy od cech danego algorytmu.

8

Rozszerzenie algebry algorytmów

Owsiak W., Owsiak A.

Pomiary Automatyka Kontrola

|

2010

|

R. 56, nr 2

184-188

PL

W artykule za pomocą metody aksjomatycznej przedstawiono pod-stawy rozszerzonej algebry algorytmów. Algebra ta obejmuje operacje sekwencjonowania, eliminowania, zrównoleglenia, rewersowania oraz cyklicznego sekwencjonowania, eliminowania i zrównoleglenia, wykonywane na unitermach. Podano definicję algorytmu, do jakiego ma zastosowanie rozszerzona algebra algorytmów. Istotę zdefiniowanych operacji rozszerzonej algebry algorytmów zilustrowano za pomocą rysunków. Na przykładzie pokazano jej zastosowanie. Opis porównano z opisem algorytmów, otrzymywanym za pomocą klasycznej algebry algorytmów.

EN

Very often algorithms are described verbally or like a unit - diagram. The well known methods offering algorithms are: Post [1], Turing [2], Aho-Ullman-Hopcroft [3] or Schönhage [4] virtual machines, recursive functions (calculus λ, Church) [5], Markov algorithms [6], b-complexes of Kolmogorov (Kolmogorov machine) [7], Krinitski universal algorithms [8], and algorithm algebra [9]. It is obvious that verbal methods, and methods of unit - diagram, as well as, algorithm methods [1] - [8] are depicted by the intuition, not formally. Only by means of the algorithm algebra, the algorithm description is getting into the formulae form, on abstract and meaningful levels. The transformation and investigation of their trustworthiness can be made on formulae of algorithms with minimization target, by the specific operations. These advantages of algebra algorithms beyond other methods of algorithm description make a ground for it's using. Classical algorithm algebra [9] manipulates over conditional uniterms, which are delivered only two meanings (e.g. "yes" and "no" or "0" and "1").Very often conditional uniterm can deliver more than two meanings. For example, automation systems are operated in a plenty of regimes. Score parameters are controlled in checking systems. It is possible to describe the algorithms which contain more than 2 conditions by means of classical algebra algorithms. These formulae - algorithms are complicated for apprehension. To avoid possible mistakes, the expansion of the algorithm algebra is presented in the paper.

9

Zwiększenie zbieżności iteracyjnego algorytmu obliczania tranzytywnego domknięcia unii sparametryzowanych relacji zależności

Bielecki W., Klimek T.

Metody Informatyki Stosowanej

|

2010

|

nr 2 (23)

37-47

PL

W artykule przedstawiono udoskonalony algorytm mający na celu poprawienie zbieżności iteracyjnego obliczania tranzytywnego domknięcia sparametryzowanych relacji zależności, których ograniczenia składają się z wielu koniunkcji. Opisane podejście zostało zaimplementowane i przebadane pod kątem skuteczności na zbiorze pętli testowych NAS [13] i UTDSP [14]. Pozwala ono na rozszerzenie możliwości uzyskania dokładnego wyniku w porównaniu z algorytmami zaproponowanymi w [8], [10] i [15]. W dalszych badaniach planowane jest przetestowanie proponowanego algorytmu z innymi zbiorami pętli testowych oraz dalsze jego udoskonalanie. W ogólnym przypadku dla relacji opisującej zależności afiniczne, obliczenie tranzytywnego domknięcia złożonych, sparametryzowanych relacji zależności może być niemożliwe ze względu na nieafiniczne ograniczenia [8], co w konsekwencji utrudnia nam wyznaczenie całkowitej równoległości niewymagającej synchronizacji. Istotne zatem staje się opracowanie algorytmów umożliwiających obliczenie dokładnego tranzytywnego domknięcia dla szerszego spektrum pętli programowych i tym samym zwiększenia ich stopnia równoległości i lokalności.

EN

A novel algorithm for calculating the transitive closure of a multiple conjunct relation (union of single conjunct relations) is presented. It is based on both non-iterative and iterative techniques. Non-iterative techniques are to calculate transitive closure for particular subsets while iterative techniques are to produce final result - the transitive closure for whole space being the union of the range and the domain of an input relation. The advantage of the algorithm is its larger scope of applicability in comparison with known iterative and non-iterative techniques. The algorithm is implemented by means of the Omega Library and applied to NAS and UTDSP benchmarks. Experimental results demonstrate the algorithm effectiveness.

10

Parallelization of the Camellia Encryption Algorithm

Burak D., Błaszyński P.

Pomiary Automatyka Kontrola

|

2009

|

R. 55, nr 10

820-822

EN

A parallelization process of the Camellia encryption algorithm along with the description of exploited parallelization tools is presented. The data dependency analysis of loops and the loop transformations were applied in order to parallelize the sequential algorithm. The OpenMP standard was chosen for representing parallelism of the cipher. Speed-up measurements for a parallel program are presented.

PL

W artykule przedstawiono proces zrównoleglenia japońskiego standardu szyfrowania danych - blokowego algorytmu szyfrowania Camellia, bazującego na sieci Feistela, pracującego w trybie pracy ECB. Krótko opisano wykorzystane do tego celu narzędzia programowe: program Petit, który służy do analizy istniejących zależności danych w pętlach programowych oraz OpenMP API. W celu zrównoleglenia algorytmu sekwencyjnego zastosowano analizę zależności danych oraz dokonano przekształceń pętli programowych w celu wyeliminowania istniejących zależności pętli blokujących proces ich zrównoleglenia. Do prezentacji równoległości szyfru wybrano język C oraz standard OpenMP. Załączono również wyniki pomiarów przyspieszenia pracy programu równoległego oraz najbardziej czasochłonnych pętli, które są odpowiedzialne za proces szyfrowania oraz deszyfrowania danych dla dwóch, czterech, ośmiu oraz szesnastu procesorów oraz dla dwóch, czterech, ośmiu oraz szesnastu wątków utworzonych z zastosowaniem kompilatora IntelŽ C++ w wersji.11.0 zawierającego OpenMP API w wersji 3.0. Najbardziej czasochłonne pętle zostały w pełni zrównoleglone, natomiast przyspieszenie pracy całego programu, zgodnie z prawem Amdahla jest zredukowane z uwagi na występowanie w kodzie programu części sekwencyjnej, zawierającej sekwencyjne operacje wejścia- wyjścia służące do odczytu danych z pliku, oraz zapisu danych do pliku. Wyniki zrównoleglenia opisane w artykule mogą być pomocne do implementacji sprzętowych algorytmu Camellia.