Ograniczanie wyników
Czasopisma help
Autorzy help
Lata help
Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 24

Liczba wyników na stronie
first rewind previous Strona / 2 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  OpenCL
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 2 next fast forward last
1
Content available remote Implementation of numerical integrationto high-order elements on the GPUs
EN
This article presents ways to implement a resource-consuming algorithm on hardware with a limited amount of memory, which is the GPU. Numerical integration for higher-order finite element approximation was chosen as an example algorithm. To perform compu- tational tests, we use a non-linear geometric element and solve the convection-diffusion- reaction problem. For calculations, a Tesla K20m graphics card based on Kepler archi- tecture and Radeon r9 280X based on Tahiti XT architecture were used. The results of computational experiments were compared with the theoretical performance of both GPUs, which allowed an assessment of actual performance. Our research gives sugges- tions for choosing the optimal design of algorithms as well as the right hardware for such a resource-demanding task.
PL
W niniejszym artykule przedstawiono metodę wykorzystania procesorów graficznych do obliczeń wartości poziomów niejonizujących pól elektromagnetycznych, pochodzących od systemów radiokomunikacyjnych, stanowiących potencjalne źródło narażeń ludności na pole elektromagnetyczne. Czasy obliczeń porównano z metodami wykorzystującymi przetwarzanie równoległe na procesorach CPU.
EN
This article presents the method of using GPGPU to estimate EMF levels of human exposure on non-ionized EMF, deriving from wireless systems. Calculation time on GPGPU has been compared to time elapsed with parallel calculations performed on CPU.
EN
The paper presents the development of the GPU-based discrete element method (DEM) code for simulating damage and fracture of cohesive solids with application to reinforced concrete at the scale of reinforcement ribs. The solid volume of concrete and steel is modelled by bonded spherical particles. Very fine discretization, containing more than million particles, is applied to describe the 3D reinforcement bar geometry at the scale of ribs and to investigate cracking behaviour of concrete near the reinforcement bar. The numerical model is validated by using experimental results of the double pull-out test. Influence of the discretization scale to the numerical solution is evaluated by using the reinforcement strain profiles and the cracking patterns. The developed GPU-based DEM algorithm efficiently handles interaction of particles, does not require any atomic operation and allows performing fast damage and fracture simulations with large number of particles. The performance measured on GPU is compared with that attained on different CPUs for varying number of particles. The high value of the Cundall number (particle number multiplied by time steps computed per second) equal to 4.3E+07 is measured on NVIDIA® Tesla™ P100 GPU in the case of 1858560 particles.
PL
W artykule przedstawiono autorskie algorytmy obliczeń równoległych które zostały zastosowane w oprogramowaniu do diagnostyki silnika LSPMSM. Oprogramowanie umożliwia spektralną i falkową analizę prądu maszyny a także posiada wbudowane mechanizmy sztucznych sieci neuronowych (SSN) które to mogą służyć jako element decyzyjny systemu diagnostycznego. Ponadto przybliżono tematykę związaną ze strukturą zastosowanej sieci neuronowej, algorytmami nauczania sztucznych sieci neuronowych oraz standardem OpenCL.
EN
The paper presents algorithms of parallel computing which have been used in program for diagnosis of LSPMSM machine. The software allows to spectral and wavelet analysis of phase current of LSPMSM motor. Moreover, the program has a built-in artificial neural network which is a decisive element of the diagnostic system. In addition, the article brought closer to issues related to the structure and learning algorithms of artificial neural networks and OpenCL.
EN
Automatic text categorization presents many difficulties. Modern algorithms are getting better in extracting meaningful information from human language. However, they often significantly increase complexity of computations. This increased demand for computational capabilities can be facilitated by the usage of hardware accelerators like general purpose graphic cards. In this paper we present a full processing flow for document categorization system. Gram-Schmidt process signatures calculation up to 12 fold decrease in computing time of system components.
EN
In this paper, the implementation features of fibrous composite materials microlevel structure models constructing method that is based on Bezier curves generation and the technology of high-performance distributed computations OpenCL usage, are described for the first time, which makes a practical value. The formalized algorithm and its corresponding program code are presented.
EN
The embedded systems are increasingly becoming a key technological component of all kinds of complex technical systems and an exhaustive analysis of the state of the art of all current performance with respect to architectures, design methodologies, test and applications could be very interesting. The Advanced Encryption Standard (AES), based on the well-known algorithm Rijndael, is designed to be easily implemented in hardware and software platforms. General purpose computing on graphics processing unit (GPGPU) is an alternative to recongurable accelerators based on FPGA devices. This paper presents a direct comparison between FPGA and GPU used as accelerators for the AES cipher. The results achieved on both platforms and their analysis has been compared to several others in order to establish which device is best at playing the role of hardware accelerator by each solution showing interesting considerations in terms of throughput, speedup factor, and resource usage. This analysis suggests that, while hardware design on FPGA remains the natural choice for consumer-product design, GPUs are nowadays the preferable choice for PC based accelerators, especially when the processing routines are highly parallelizable.
PL
W artykule przedstawiono zastosowanie algorytmów obliczeń równoległych oraz funkcji zawartych w bibliotece OpenCL do analizy harmonicznej i analizy falkowej prądu fazowego silnika LSPMSM. Opisano interface programowania OpenCL oraz opracowane oprogramowanie w języku C++, w którym zaimplementowano zarówno algorytmy sekwencyjne realizowane przez CPU jak również algorytmy równoległe realizowane przez GPU. Przedstawiono porównanie czasu obliczeń algorytmem sekwencyjnym oraz algorytmem równoległym.
EN
The article presents a comparison of a computing time of a parallel and a sequential algorithm in a spectral and a wavelet analysis of a motor LSPMSM current. The test calculations were made on two different sets of computer for different number of signals samples. On the basis of the results of test calculations of harmonic analysis it can be observed that using parallel algorithm a signal processing time has been reduced of several times compared to a sequential algorithm. The advantage of the parallel algorithm is the greater, the more signal samples are processed.
PL
Moc obliczeniowa współczesnych procesorów graficznych GPU (Graphics Processing Unit), stosujących architekturę masowo równoległą, jest wykorzystywana w wielu dziedzinach inżynierii. Do obszarów stosowania GPU można zaliczyć miedzy innymi: badania aerodynamiczne, symulowanie przepływu płynów, dyspersji cząsteczek czy efektów kolizji. Przedstawiono zastosowanie procesorów masowo równoległych w addytywnej syntezie dźwięku.
EN
The computational power of modern Graphics Processing Units (GPUs), using a massively parallel architecture, is used in many fields of engineering. The GPUs are used in variety of applications ranging from aerodynamic testing through a fluid flow simulation to a dispersion of particles and research on the effects of collisions. The paper presents the use of the massively parallel processors for additive sound synthesis.
10
Content available remote Effective biclustering on GPU - capabilities and constraints
PL
W artykule przedstawiono korzyści i ograniczenia związane z projektowaniem równoległego algorytmu biklasteryzacji, przeznaczonego na GPU. Zaprezentowano definicję biklasteryzacji oraz skrótowo opisano architekturze GPU. Zestawiono popularne wzorce strategii implementacji algorytmów, przydatne w projektowaniu efektywnych rozwiązań na GPU. Publikacja zawiera także praktyczne wskazówki programistyczne, w kontekście implementacji algorytmów biklasteryzacji w języku CUDA/OpenCL.
EN
This article presents the benefits and limitations related to designing a parallel biclustering algorithm on a GPU. A definition of biclustering is provided together with a brief description of the GPU architecture. We then review algorithm strategy patterns, which are helpful in providing efficient implementations on GPU. Finally, we highlight programming aspects of implementing biclustering algorithms in CUDA/OpenCL programming language.
EN
The article discusses possibilities of implementing a neural network in a parallel way. The issues of implementation are illustrated with the example of the non-linear neural network. Parallel implementation of earlier mentioned neural network is written with the use of OpenCL library, which is a representative of software supporting general-purpose computing on graphics processor units (GPGPU). The obtained results demonstrate that some group of algorithms can be computed faster if they are implemented in a parallel way and run on a multi-core processor (CPU) or a graphics processing unit (GPU). In case of the GPU, the implemented algorithm should be divided into many threads in order to perform computations faster than on a multi-core CPU. In general, computations on a GPU should be performed when there is a need to process a large amount of data with the use of algorithm which is very well suited to parallel implementation.
EN
Implementation of the background subtraction algorithm on parallel GPUs is presented. The algorithm processes video streams and extracts foreground pixels. The work focuses on optimizing parallel algorithm implementation by taking into account specific features of the GPU architecture, such as memory access, data transfers and work group organization. The algorithm is implemented in OpenCL and CUDA. Various optimizations of the algorithm are presented and tested using devices with varying processing power, including desktop PC graphic cards, ultrabooks and the Tegra mobile processor. The aim of the work is to determine if the optimized algorithm, run on currently available GPUs, is able to perform on-line processing of high resolution video streams.
PL
W artykule przedstawiono implementację algorytmu odejmowania tła na procesorach równoległych GPU. Algorytm przetwarza strumienie obrazu z kamer i wyodrębnia piksele nie należące do tła. Praca skupia się na optymalizacji równoległego przetwarzania obrazu z uwzględnieniem architektury procesorów GPU. Algorytm został zaimplementowany w systemach OpenCL i CUDA. Przedstawiono różne techniki optymalizacji i wyniki testów wykonanych na procesorach GPU w urządzeniach o różnej mocy obliczeniowej. Celem pracy jest określenie czy zoptymalizowany algorytm uruchomiony na dostępnych obecnie urządzeniach GPU jest w stanie przetwarzać strumienie obrazu w trybie online.
EN
In our current work we investigate the possibility of using modern AMD APU architecture in scientific and technical computing. The architecture combines both a CPU and a GPU in a single Accelerated Processing Unit, which theoretically allows for shortening the time of exchanging the data between the two hardware units. This capability solves the problem of performance bottleneck related to the exchange of data between the CPU and GPU memory. Due to the structure of this architecture, it can be considered as a natural evolution of the concept presented in the IBM PowerXCell processors that have been tested during our past research (Krużel & Banaś, 2013). As reference systems we use both a system based on similar AMD architecture and a specialized Nvidia Tesla Accelerator card. Moreover, due to comparable characteristics of the CPU and GPU parts of APU we have run our computations on both hardware units separately to see the difference in performance. For testing we used our previously developed finite element numerical integration algorithm implemented in OpenCL programming framework. This algorithm has been tested with various organizations of memory and computing techniques to fully check the hardware capabilities of the APU architecture, both in terms of data exchange and calculations acceleration. Our research brings an answer to the question whether this architecture is the right future for scientific computing and whether in the next few years will be able to play a significant role in many areas of computational science.
PL
W naszej obecnej pracy badamy możliwość wykorzystania nowoczesnej architektury AMD APU do wykonywania obliczeń naukowo-technicznych. Architektura ta łączy w sobie jednostki CPU i GPU w pojedynczym APU (Accelerated Processing Unit), co teoretycznie pozwala na przyspieszenie czasu wymiany danych pomiędzy poszczególnymi jednostkami obliczeniowymi. Możliwość ta rozwiązuje problem „wąskiego gardła", który związany jest z wymianą danych pomiędzy pamięciami CPU i GPU. Ze względu na budowę architekturę tę można uznać za naturalną ewolucję rozwiązania zaprezentowanego w procesorach IBM Power XCell, które były przez nas badane wcześniej (Krużel & Banaś, 2013). W celu porównania uzyskanych wyników użyliśmy zarówno systemu opartego na podobnej architekturze AMD, jak i systemu wyposażonego w specjalistyczną kartę Nvidia Tesla. Ponadto, ze względu na porównywalne cechy CPU i GPU wbudowanych w APU przeprowadziliśmy nasze obliczenia dla każdej z części oddzielnie, aby zobaczyć różnicę pomiędzy obliczeniami na CPU a GPU w tak zintegrowanym układzie. Do testów użyliśmy opracowanego przez nas wcześniej algorytmu całkowania numerycznego zaimplementowanego w środowisku programistycznym OpenCL. Algorytm ten został przetestowany z różnymi opcjami organizacji pamięci i obliczeń, aby w pełni sprawdzić-możliwości sprzętowe architektury APU, zarówno w zakresie wymiany danych, jak i przyśpieszenia obliczeń. Wynikiem pozytywnych rezultatów naszych badań jest stwierdzenie, że nowoczesne architektury AMD APU są przyszłościowe w kontekście obliczeń naukowych i w następnych latach będą mogły odgrywać znaczącą rolę w dziedzinie przyspieszania obliczeń.
EN
Parallel computing architectures are proven to significantly shorten computation time for different clustering algorithms. Nonetheless, some characteristics of the architecture limit the application of graphics processing units (GPUs) for biclustering task, whose function is to find focal similarities within the data. This might be one of the reasons why there have not been many biclustering algorithms proposed so far. In this article, we verify if there is any potential for application of complex biclustering calculations (CPU+GPU). We introduce minimax with Pearson correlation – a complex biclustering method. The algorithm utilizes Pearson’s correlation to determine similarity between rows of input matrix. We present two implementations of the algorithm, sequential and parallel, which are dedicated for heterogeneous environments. We verify the weak scaling efficiency to assess if a heterogeneous architecture may successfully shorten heavy biclustering computation time.
PL
Problem spełnialności formuł rachunku zdań SAT jest jednym z fundamentalnych oraz otwartych zadań we współczesnej informatyce. Jest on problemem NP-zupełnym. To znaczy, że wszystkie problemy z klasy NP możemy sprowadzić do problemu SAT w czasie wielomianowym. Co ciekawe, wśród problemów z klasy NP istnieje wiele takich, które są ściśle związanych z kryptologią, na przykład: faktoryzacja liczb – ważna dla RSA, łamanie kluczy szyfrów symetrycznych, znajdowanie kolizji funkcji skrótu i wiele innych. Odkrycie wielomianowego algorytmu dla SAT skutkowałoby rozwiązaniem problemu milenijnego: P vs. NP. Cel ten wydaje się bardzo trudny do osiągnięcia – nie wiadomo nawet czy jest możliwy. Mając nieco mniejsze aspiracje możemy projektować algorytmy heurystyczne lub losowe dla SAT. W związku z tym, głównym celem autorów pracy jest przedstawienie projektu równoległego SAT Solvera bazującego na algorytmie WalkSAT, w tym procesu jego implementacji z wykorzystaniem środowiska programistycznego OpenCL oraz komputera wyposażonego w karty graficzne NVIDIA Tesla. Wraz z dynamicznym rozwojem technologii procesorów typu GPU oraz układów FPGA, jak również przenośnością rozwiązań stworzonych w Open CL, kierunek takich prac staje się interesujący ze względu na uzyskiwaną efektywność obliczeniową, jak również szybkość prototypowania rozwiązań.
EN
The Boolean satisfiability problem SAT is one of the fundamental and open tasks in present-day information science. This problem is NP-complete. It means that all NP problems can be reduced to SAT in polynomial time. Interestingly, among NP problems, there are many closely related to cryptology, for example: factorization of numbers – important for RSA, breaking keys of symmetric ciphers, finding collisions of hash functions and many others. The discovery of the polynomial algorithm for SAT would result in resolving one of Millennium Prize Problems: P vs. NP. This objective seems to be hard to achieve – it’s unknown if it is even possible. With slightly lower aspirations, we can design heuristic or random algorithms for SAT. Therefore, the main goal of our study is to present a project of parallel SAT Solver based on WalkSAT algorithm, including its implementation using the OpenCL programming environment and a computer equipped with NVIDIA Tesla graphics cards. With the rapid development of GPU technology and FPGAs, as well as portability of solutions created in OpenCL, the direction of such works becomes interesting because of computational efficiency gained, as well as solution prototyping rate.
16
PL
Zastosowanie bibliotek numerycznych pozwala na znaczne skrócenie czasu obliczeń i ułatwienie pisania kodu programu. Popularne biblioteki BLAS i LAPACK doczekały się dojrzałych implementacji pozwalających na wykorzystanie procesorów wielordzeniowych i środowisk obliczeń rozproszonych w postaci odpowiednio PBLAS i SCALAPACK. Aktualnie podobny proces rozwoju dotyczy środowisk związanych z obliczeniami wykonywanymi na procesorach GPU w dwóch głównych implementacjach GPGPU: NVIDIA CUDA i Kronos/ATI OpenCL. Równolegle z rozwojem tych ostatnich toczą się prace nad mieszanymi CPU-GPU wersjami tych bibliotek czego doskonałym przykładem jest MAGMA. W artykule przedstawione zostaną efekty implementacji kilku wybranych bibliotek z tego zakresu zastosowanych do rozwiązania dwuwymiarowego modelu kondensatora płaskiego metodą elementów brzegowych wykorzystującą stałe elementy brzegowe.
EN
Numerical library usage effectively reduce computation time and facilitate code programming. There are modified versions of popular BLAS and LAPACK libraries, dedicated to multi-core and distributed programming respectively PBLAS and SCALAPACK. Currently, a similar development applies to the GPU programming in two major implementations of GPGPU: NVIDIA CUDA and Kronos / ATI OpenCL. In the same time hybrid CPU-GPU versions of these libraries are intensively developed, a good example of that is MAGMA. This paper will present the effects of some of those libraries implementation used to solve the two-dimensional planar capacitor model by the boundary element method with constant boundary elements.
PL
Artykuł opisuje zastosowanie technologii OpenCL do wykonywania obliczeń z wykorzystaniem procesora graficznego w systemie rozproszonym. Zastosowanie technologii OpenCL pozwoliło na wykorzystanie dowolnej jednostki obliczeniowej danej stacji roboczej (zarówno GPU, jak i CPU). Stworzony system jest elastyczny i pozwala na zmianę implementacji OpenCL.
EN
This article describes the usage of OpenCL technology to perform computations with usage of GPU in the task distribution system. Usage of OpenCL technology allowed to involve any kind of workstation’s processing unit (GPU, CPU). This system is flexible and allows to change the OpenCL implementation.
18
Content available remote Parallel computing in kinematic analysis of heavy machinery equipment system
EN
This paper presents a methodology to increase performance of the kinematics simulation process of heavy machinery equipment system. The proposed method is based on parallelization of calculations performed in a single simulation step. Parallelization is achieved by building application based on the OpenCL framework that allows to perform the necessary mathematical calculations using a graphics card processor. In the final part of the article were presented results of performance tests of the proposed method.
PL
W artykule przedstawiono metodykę zwiększania wydajności procesu symulacji kinematyki osprzętu maszyn roboczych. Zaproponowana metoda polega na zrównolegleniu obliczeń wykonywanych w ramach jednego kroku symulacyjnego. Zrównoleglanie realizowane jest poprzez zbudowanie oprogramowania opartego o szablon aplikacji OpenCL co pozwala na wykonanie niezbędnych obliczeń matematycznych za pomocą procesora karty graficznej. W końcowej części artykułu przedstawione zostały wyniki testów wydajności zaproponowanej metody.
EN
Dynamic development of heterogeneous hardware architectures and the increasing range of their practical applications in recent years influenced not only visualization procedures but also design and implementation of algorithms used in numerical simulations. This paper presents a part of the work on creation of multiscale approach focused on simulations of nanostructural defects in metallic materials. Two aspects are analysed within the paper i.e. qualitative (reliable simulation of interactions between nano particles on the basis of Lenard-Jones and Sutton-Chen potentials) and quantitative (comparison of performance and scalability for different devices). The results obtained for both aspects are presented in the paper and discussed in details.
PL
Dynamiczny rozwój innowacyjnych architektur sprzętowych powoduje, iż coraz częściej są one stosowane do celów innych niż pierwotnie były zaprojektowane. Artykuł przedstawia krótki przegląd takich architektur heterogenicznych oraz szczegóły dedykowanej dla tych urządzeń implementacji metody statyki molekularnej. Wiarygodność metody została sprawdzona dla symulacji defektów nanostrukturalnych materiałów metalicznych z wykorzystaniem potencjałów Lenarda-Jonesa i Suttona- Chena. Dlatego w pracy przedstawione zostały zarówno jakościowe jak i ilościowe wyniki wykonanych obliczeń. Rezultaty jakościowe obejmują symulacje defektów punktowych, liniowych oraz planarnych, natomiast wyniki ilościowe przedstawiają efekty zrównoleglenia metody. Pracę podsumowuje dyskusja nad otrzymanymi wynikami.
PL
W pracy przedstawiono możliwości wykorzystania języka OpenCL do programowania procesorów masowo równoległych. Przedstawiono dostępne technologie, pozwalające wykorzystać wydajność obliczeniową współcześnie produkowanych kart graficznych, ze szczególnym uwzględnieniem OpenCL. Zweryfikowano możliwości technologii GPGPU oraz języka OpenCL, dokonując pomiaru czasu realizacji algorytmu mnożenia macierzy na procesorze CPU i GPU.
first rewind previous Strona / 2 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.