A multi-core processor is defined as an integrated chip that consists of two or more processors used for system performance enhancement, speed improvement, and multitasking performances. They collaborate to execute instructions faster than the single-core processor. Hence, this paper provides an overview of the evolution of the processor architecture and analysis of the multi-core processor's performance compared to the single-core processor. It highlights the difference in Central Processing Unit speed, memory bandwidth, power consumption, and the thermal effect on the CPU speed during throttling for single-core ARM11 with Broadcom BCM2835 and a quad-core Cortex-A72 with Broadcom BCM2711B0. Experimental results show that Cortex-A72 has a memory bandwidth of 29 times larger than the ARM11. The CPU speed benchmark indicates that Cortex-A72 is significantly faster and responds to the thermal throttling better than the ARM11 processor. However, as Cortex-A72 has more processing power, it has drawn more power than the ARM11 processor.
PL
Procesor wielordzeniowy jest definiowany jako zintegrowany układ składający się z dwóch lub więcej procesorów służących do zwiększania wydajności systemu, zwiększania szybkości i wydajności pracy wielozadaniowej. Współpracują, aby wykonywać instrukcje szybciej niż procesor jednordzeniowy. Dlatego niniejszy artykuł zawiera przegląd ewolucji architektury procesora i analizę wydajności procesora wielordzeniowego w porównaniu z procesorem jednordzeniowym. Pokazuje różnicę w szybkości jednostki centralnej, przepustowości pamięci, zużyciu energii i wpływie temperatury na szybkość procesora podczas ograniczania przepustowości dla jednordzeniowego ARM11 z Broadcom BCM2835 i czterordzeniowego Cortex-A72 z Broadcom BCM2711B0. Wyniki eksperymentów pokazują, że Cortex-A72 ma przepustowość pamięci 29 razy większą niż ARM11. Test porównawczy szybkości procesora wskazuje, że Cortex-A72 jest znacznie szybszy i lepiej reaguje na dławienie termiczne niż procesor ARM11. Ponieważ jednak Cortex-A72 ma większą moc obliczeniową, pobrał więcej energii niż procesor ARM11.
Finding clusters in high dimensional data is a challenging research problem. Subspace clustering algorithms aim to find clusters in all possible subspaces of the dataset, where a subspace is a subset of dimensions of the data. But the exponential increase in the number of subspaces with the dimensionality of data renders most of the algorithms inefficient as well as ineffective. Moreover, these algorithms have ingrained data dependency in the clustering process, which means that parallelization becomes difficult and inefficient. SUBSCALE is a recent subspace clustering algorithm which is scalable with the dimensions and contains independent processing steps which can be exploited through parallelism. In this paper, we aim to leverage the computational power of widely available multi-core processors to improve the runtime performance of the SUBSCALE algorithm. The experimental evaluation shows linear speedup. Moreover, we develop an approach using graphics processing units (GPUs) for fine-grained data parallelism to accelerate the computation further. First tests of the GPU implementation show very promising results.
3
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
The paper presents possible parallelization of the optimization process of complex lighting systems with the use of the genetic algorithm. The features of modern personal computers and the tools enabling distribution of the computation process among multi-core processors are depicted. The duration of a test task computed on the machines provided with the Intel processors of P4, i5 and i7 types with the use of the tools available in the .NET environment has been investigated.
PL
W artykule przedstawiono przykładowe metody skrócenia czasu realizacji zagadnienia optymalizacyjnego wykorzystującego algorytm genetyczny, za pomocą rozproszenia obliczeń na procesorach wielordzeniowych, stosowanych w komputerach klasy PC. Podczas przygotowywania aplikacji obliczeniowej wykorzystano wbudowane mechanizmy udostępnione w środowisku .NET.
The article presents the problems connected with increasing the efficiency of multi-core processor usage in optimization applications that use the genetic algorithm method. Tests were conducted to analyze the completion time of a test task launched on machines with the following types of processors: P4, i5 and i7 with the use of parallel computation procedures available in the TPL (Task Parallel Library) library.
5
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
This paper presents a new method that can be used to improve the efficiency of applications used for simulations of solidification processes. The new approach concentrate on conductivity matrix building process. This operation requires information contained in finite element mesh description. Elements of this matrix depend also on temperature, which is computed in every time-steps. This situation requires multiple repeated building of the conductivity matrix (for each time-step). The new method described in this paper allows to divide the process of matrix building into two parts. The first one is built on the basis of finite element mesh description. It is independent of nodal temperature values determined in successive time-steps and can be performed only once, before first time-step. The second part of the matrix building process is performed on the basis of nodal temperature values, but does not require information about finite element mesh. Such separation of two steps of the conductivity matrix building process allows efficient implementation of simulation software for modern multi- and many-core architectures. This approach can be used to minimize the amount of data that must be transferred to memory of multi-core processors. Conducted research shows that such approach can also reduce time required for computation using sequential implementation for CPU and has no significant effect on the simulation results.
PL
W artykule zaprezentowano nową metodę poprawy wydajności aplikacji wykorzystywanych do symulacji procesu krzepnięcia. Proponowane podejście dotyczy budowy macierzy. Operacja ta wymaga informacji zawartej w siatce elementów skończonych. Proponowana metoda pozwala na rozdzielenie procesu budowy macierzy na dwie części. Pierwsza z nich jest wykonywana na podstawie opisu siatki elementów skończonych. Etap ten jest niezależny od wartości temperatury w węzłach siatki i może być wykonany jednokrotnie przed pierwszym krokiem czasowym. Drugi etap budowy macierzy jest wykonywany na podstawie wartości temperatury w węzłach, ale nie wymaga informacji o siatce elementów skończonych. Takie rozdzielenie dwóch kroków budowy macierzy przewodności pozwala na efektywną implementację aplikacji realizujących symulacje na nowoczesnych architekturach wielordzeniowych. Takie podejście może być również wykorzystane do minimalizacji ilości danych, które muszą być przesłane do pamięci układu wieloprocesorowego. Przeprowadzone badania pokazały, że takie podejście skraca czas potrzebny na obliczenia podczas sekwencyjnej implementacji dla CPU, a nie ma znaczącego wpływu na wyniki symulacji.
Dzięki upowszechnieniu się procesorów wielordzeniowych przetwarzanie danych za pomocą obliczeń równoległych staje się coraz bardziej dostępne dla szerokiego grona użytkowników. Przykładem jest opracowana przez firmę NVIDIA architektura CUDA, będąca architekturą wielordzeniowych procesorów graficznych. Procesor graficzny może być traktowany jako procesor SIMD z pamięcią wspólną. Na przykładzie operacji mnożenia macierzy zbadano wpływ zarządzania pamięcią i blokami wątków na czas obliczeń z użyciem architektury CUDA.
EN
With the propagation of a multi-core processors a parallel data processing becomes more accessible to a wide range of users. An example is CUDA architecture developed by NVIDIA, which is a multi-core GPU architecture. The GPU can be treated as a SIMD processor with shared memory. The influence of memory management and blocks of threads management on time of computation using CUDA architecture was researched on the basis of matrix multiplication.
Artykuł prezentuje wyniki wydajnościowej analizy programów przeznaczonych do symulacji ciągłych układów dynamicznych, utworzonych z wykorzystaniem modułu Parallel Extensions to .NET Framework. Przedmiotem rozważanym w artykule jest modelowanie ruchu układów ciał w polu grawitacyjnym. W pracy pokazano zalety zrównoleglonych programów, zbudowanych na podstawie technologii .NET. W artykule przedstawiono wydajnościowe porównania zaproponowanego rozwiązania do rozwiązań sekwencyjnych: skryptów systemu MATLAB i programów jednowątkowych, wykonanych w technologii .NET, uruchamianych na komputerach z procesorami wielordzeniowymi. W pracy rozważono zagadnienie skalowalności zaproponowanego rozwiązania.
EN
The paper presents an effectiveness analysis of programs for simuŹlation of continuous dynamical systems based on Parallel Extensions to .NET Framework. Modeling of a movement of bodies systems in a gravitational field is considered. Advantages of parallel .NET-based programs are shown. Effectiveness comparison of the proposed solution to MATLAB scripts or sequential single-thread .NET based programs (all run on multicore machines) is presented. Scalability of the proposed solution is considered too.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.