Thread mapping is one of the techniques which allow for efficient exploiting of the potential of modern multicore architectures. The aim of this paper is to study the impact of thread mapping on the computing performance, the scalability, and the energy consumption for parallel dense linear algebra kernels on hierarchical shared memory multicore systems. We consider the basic application, namely a matrix-matrix product (GEMM), and two parallel matrix decompositions (LU and WZ). Both factorizations exploit parallel BLAS (basic linear algebra subprograms) operations, among others GEMM. We compare differences between various thread mapping strategies for these applications. Our results show that the choice of thread mapping has the measurable impact on the performance, the scalability, and energy consumption of the GEMM and two matrix factorizations.
In this article we investigate some computational aspects of GPU-accelerated matrix-vector multiplication where matrix is sparse. Particularly, we deal with sparse matrices appearing in modelling with Markovian queuing models. The model we use for research is a Markovian queuing model of a wireless device. This model describes the device’s behavior during possible channel occupation by other devices. We study the efficiency of multiplication of a sparse matrix by a dense vector with the use of an appropriate, ready-to-use GPU-accelerated mathematical library, namely CUSP. For the CUSP library we discuss data structures and their impact on the CUDA platform for the fine-grained parallel architecture of the GPU. Our aim is to find the best format for storing a sparse matrix for GPU-computation (especially one associated with the Markovian model of a wireless device). We compare the time, the performance and the speed-up for the card NVIDIA Tesla C2050 (with ECC ON). For unstructured matrices (as our Markovian matrices), we observe speed-ups (in respect to CPU-only computations) of over 8 times.
PL
Łańcuchy Markowa są przydatnym narzędziem do modelowania systemów złożonych, takich jak systemy i sieci komputerowe. W ostatnich latach łańcuchy Markowa zostały z powodzeniem wykorzystane do oceny pracy sieci bezprzewodowych. Jednym z problemów jaki się pojawia przy wykorzystywaniu łańcuchów Markowa w modelowaniu sieci są problemy natury obliczeniowej. W artykule zajmiemy się badaniem mnożenia macierzy rzadkiej przez wektor, które jest jedną z głównych operacji podczas numerycznego rozwiązywania modeli Markowowskich. Aby, przyspieszyć czas obliczeń mnożenia macierz rzadkiej przez wektor wykorzystano funkcje z biblioteki CUSP. Biblioteka jest zbiorem funkcji wykonywanych na GPU (ang.Graphics Processing Unit) celem skrócenia czasu obliczeń. Do testowania operacji mnożenia macierzy rzadkiej przez wektor badano macierze z Markowowskiego modelu pracy sieci bezprzewodowej. Model ten opisuje zachowanie urządzenia, gdy kanał transmisyjnych może być zajęty przez inne urządzenia. Macierz przejść wspomnianego modelu jest macierzą rzadką i potrzeba specialnej struktury danych do jej przechowywania, dlatego w artykule dyskutowane są różne struktury danych dla macierzy rzadkich i ich przydatność do obliczen na kartach graficznych. W pracy porównano czas, wydajność i przyspieszenie jakie otrzymano podczas testowania biblioteki CUSP na karcie NVIDIA Tesla C2050 dla niestrukturalnych macierzy rzadkich opisujących model zajętości węzła w sieciach bezprzewodowych przy różnych formatach przechowywania macierzy rzadkich. Dla testowanych macierzy zauważono ośmiokrotne przyspieszenie obliczeń przy wykorzystaniu karty graficznej.
This paper identifies and examines an impact of students' and teachers' activities on possibility of using and adapting e-learning platform in postgraduate studies. The paper aims at experimental survey of students' satisfaction level, their opinions concerning implementing e-learning at work as well as correlation students' activity, teachers' activity and e-learning results. Our hypotheses are tested with 160 students of postgraduate studies using e-learning educational platform.
4
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
The article considers the effectiveness of various methods used to solve systems of linear equations (which emerge while modeling computer networks and systems with Markov chains) and the practical influence of the methods applied on accuracy. The paper considers some hybrids of both direct and iterative methods. Two varieties of the Gauss elimination will be considered as an example of direct methods: the LU factorization method and the WZ factorization method. The Gauss-Seidel iterative method will be discussed. The paper also shows preconditioning (with the use of incomplete Gauss elimination) and dividing the matrix into blocks where blocks are solved applying direct methods. The motivation for such hybrids is a very high condition number (which is bad) for coefficient matrices occuring in Markov chains and, thus, slow convergence of traditional iterative methods. Also, the blocking, preconditioning and merging of both are analysed. The paper presents the impact of linked methods on both the time and accuracy of finding vector probability. The results of an experiment are given for two groups of matrices: those derived from some very abstract Markovian models, and those from a general 2D Markov chain.
We consider the parallel generation of matrices corresponding to models of congestion control mechanisms' behavior. We develop a piece of software for a cluster architecture and analyze its performance times, amount of communication, each processor's load. The resulting application is scalable and also produces a substantial speedup and efficiency.
PL
Rozważamy równoległą generację macierzy odpowiadających modelom zachowania mechanizmów kontroli zatłoczenia. Rozwijamy oprogramowanie dla architektury klastrowej i analizujemy czasy jego działania, ilość komunikacji, obciążenie każdego z procesorów. Otrzymana aplikacja jest skalowalna i daje znaczące przyśpieszenie oraz efektywność.
W artykule zaprezentowano strategię wyboru elementu podstawowego, efektywny blokowo-punktowy algorytm rozwiązywania układów równań liniowych metodą rozkładu WZ macierzy na czynniki z wyborem elementu podstawowego oraz szczegóły jego implementacji z wykorzystaniem bibliotek BLAS. Przedstawiony algorytm rozkładu WZ jest szybszy niż klasyczny rozkład sekwencyjny - również niż ten z włączoną optymalizacją kompilatora.
EN
In this article we want to present a strategy of pivoting, an efficient matrix-vector algorithm for solving linear systems by WZ matrix factorization with pivoting and details of its implementation with usage of BLAS libraries. The presented algorithm is faster than the seąuential one.
The article considers possibilities of use of the WZ factorization for solving linear systems of equations arising during modeling performances of computer and communication networks, especially models arising in modeling traffic management and congestion avoidance algorithms with the use of Markov chain. Three approaches to this problem are presented, each of them vectorized (with BLAS) and parallelized (with OpenMP). There are presented results of the numerical experiments for a model of leaky bucket with various parameters.
PL
Łańcuchy Markowa są jednym z narzędzi matematycznych najczęściej stosowanych przy modelowaniu i ocenie efektywności systemów i sieci komputerowych. Ponieważ powstające markowowskie modele charakteryzują się bardzo dużą liczbą stanów, a utworzone bardzo duże układy równań łączące prawdopodobieństwa stanów są źle uwarunkowane, przy rozwiązaniu tych modeli trzeba uwzględnić specjalne metody numeryczne. Najczęściej są to metody iteracyjne lub projekcyjne, ale w szczególnych przypadkach, gdy trzeba uzyskać rozwiązanie o dużej dokładności, wskazane jest użycie metod bezpośrednich. Artykuł bada użyteczność jednej z tych metod - rozkładu WZ - stosując ją w modelowaniu za pomocą łańcuchów Markowa mechanizmu cieknącego wiadra, jednego z mechanizmów regulacji natężenia ruchu pakietów w sieci. Przedstawiono trzy różne podejścia do rozwiązania powstałych równań. Celem przyspieszenia obliczeń algorytmy zwektoryzowano (przy użyciu biblioteki BLAS) oraz zrównoleglono (przy użyciu standardu OpenMP). Przedstawiono wyniki eksperymentów numerycznych przeprowadzonych dla modelu mechanizmu cieknącego wiadra o różnych parametrach.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.