Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 10

Liczba wyników na stronie
first rewind previous Strona / 1 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  multicore processor
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 1 next fast forward last
1
Content available remote Multi-core and single-core raspberry Pi microprocessor’s
EN
A multi-core processor is defined as an integrated chip that consists of two or more processors used for system performance enhancement, speed improvement, and multitasking performances. They collaborate to execute instructions faster than the single-core processor. Hence, this paper provides an overview of the evolution of the processor architecture and analysis of the multi-core processor's performance compared to the single-core processor. It highlights the difference in Central Processing Unit speed, memory bandwidth, power consumption, and the thermal effect on the CPU speed during throttling for single-core ARM11 with Broadcom BCM2835 and a quad-core Cortex-A72 with Broadcom BCM2711B0. Experimental results show that Cortex-A72 has a memory bandwidth of 29 times larger than the ARM11. The CPU speed benchmark indicates that Cortex-A72 is significantly faster and responds to the thermal throttling better than the ARM11 processor. However, as Cortex-A72 has more processing power, it has drawn more power than the ARM11 processor.
PL
Procesor wielordzeniowy jest definiowany jako zintegrowany układ składający się z dwóch lub więcej procesorów służących do zwiększania wydajności systemu, zwiększania szybkości i wydajności pracy wielozadaniowej. Współpracują, aby wykonywać instrukcje szybciej niż procesor jednordzeniowy. Dlatego niniejszy artykuł zawiera przegląd ewolucji architektury procesora i analizę wydajności procesora wielordzeniowego w porównaniu z procesorem jednordzeniowym. Pokazuje różnicę w szybkości jednostki centralnej, przepustowości pamięci, zużyciu energii i wpływie temperatury na szybkość procesora podczas ograniczania przepustowości dla jednordzeniowego ARM11 z Broadcom BCM2835 i czterordzeniowego Cortex-A72 z Broadcom BCM2711B0. Wyniki eksperymentów pokazują, że Cortex-A72 ma przepustowość pamięci 29 razy większą niż ARM11. Test porównawczy szybkości procesora wskazuje, że Cortex-A72 jest znacznie szybszy i lepiej reaguje na dławienie termiczne niż procesor ARM11. Ponieważ jednak Cortex-A72 ma większą moc obliczeniową, pobrał więcej energii niż procesor ARM11.
EN
Finding clusters in high dimensional data is a challenging research problem. Subspace clustering algorithms aim to find clusters in all possible subspaces of the dataset, where a subspace is a subset of dimensions of the data. But the exponential increase in the number of subspaces with the dimensionality of data renders most of the algorithms inefficient as well as ineffective. Moreover, these algorithms have ingrained data dependency in the clustering process, which means that parallelization becomes difficult and inefficient. SUBSCALE is a recent subspace clustering algorithm which is scalable with the dimensions and contains independent processing steps which can be exploited through parallelism. In this paper, we aim to leverage the computational power of widely available multi-core processors to improve the runtime performance of the SUBSCALE algorithm. The experimental evaluation shows linear speedup. Moreover, we develop an approach using graphics processing units (GPUs) for fine-grained data parallelism to accelerate the computation further. First tests of the GPU implementation show very promising results.
3
Content available remote Parallel Code Generation for Mobile Devices
EN
Mobile computing is driven by pursuit of ever increasing performance. Multicore processing is recognized as a key component for continued performance improvements. This paper presents the Iteration Space Slicing (ISS) framework aimed at automatic parallelization of code for Mobile Internet Devices (MID). ISS algorithms permit us to extract coarse-grained parallelism available in arbitrarily nested parameterized loops. The loops are parallelized and transformed to multi-threaded application for the Android OS. Experimental results are carried out by means of the benchmark suites (UTDSP and NPB) using the ARM dual core processor. The related parallelization techniques are discussed, in particular for embedded systems. The future work is outlined.
PL
Przetwarzanie obliczeń za pomocą urządzeń mobilnych wiąże się z rosnącym zapotrzebowaniem na moc ich procesorów. Artykuł przedstawia zastosowanie narzędzia ISS (podziału przestrzeni iteracji pętli programowych) do wyznaczenia równoległego kodu dedykowanego dla urządzeń mobilnych (MID). Algorytmy pozwalają na wyznaczenie równoległości gruboziarnistej dla dowolnie zagnieżdżonych pętli i wygenerowanie wielowątkowego kodu dla systemu Android. Wyniki eksperymentalna dla zestawów pętli testowych NAS i UTDSP przeprowadzono wykorzystując dwurdzeniowy procesor ARM. Prace pokrewne i przyszłe zadania przedstawiono na końcu artykułu.
4
Content available remote Automatic Extraction of Parallelism for Mobile Devices
EN
This paper presents the Iteration Space Slicing (ISS) framework aimed at automatic parallelization of code for Mobile Internet Devices (MID). ISS algorithms permit us to extract coarse-grained parallelism available in arbitrarily nested parameterized loops. The loops are parallelized and transformed to multi-threaded application for the Android OS. Experimental results are carried out by means of the benchmark suites (UTDSP and NPB) using an ARM quad core processor. Performance benefits and power consumption are studied. Related and future work are discussed.
XX
Artykuł przedstawia ekstrakcję niezależnych fragmentów kodu dla urządzeń przenośnych. Narzędzie pozwala na zrównoleglenie gruboziarniste dowolnie zagnieżdżonych pe˛ tli programowych z parametrami do kodu wielowątkowego dla systemu Android. Eksperymenty przeprowadzono na zestawach pętli testowych (UTDSP i NPB) za pomocą czterordzeniowego procesora ARM. Przedstawiono analizę wydajności i poboru mocy oraz pokrewne rozwiązania.
EN
The two-stage trigonometric transformations algorithms have full symmetry calculations for each stage of the algorithm. Such algorithm may be subjected to any decomposition allowing to split the process of the calculations into any number of processes, which can be implemented independently within one step of the algorithm. Additionally, a single step of algorithm may depend on the size of the data and the associated number of arithmetic operations, which implementation may depend on available hardware resources. In the article the results of the computations experiments for multi-core processors are presented and compared.
PL
Dwuetapowe algorytmy przekształceń trygonometrycznych posiadają pełną symetrię obliczeń dla poszczególnych bloków algorytmu. Algorytm taki może być poddany dowolnej dekompozycji pozwalając na rozdzielenie procesu obliczeń na dowolną liczbę procesów, które mogą być realizowane niezależnie w obrębie jednego kroku algorytmu. Dodatkowo pojedynczy krok algorytmu może być uzależniony od wielkości danych i związanych z nim liczby operacji arytmetycznych, których realizacja może być uzależniona od dostępnych zasobów sprzętowych. W artykule zaprezentowano i porównano wyniki szybkości algorytmu otrzymane dla procesorów wielordzeniowych.
EN
The paper presents possible parallelization of the optimization process of complex lighting systems with the use of the genetic algorithm. The features of modern personal computers and the tools enabling distribution of the computation process among multi-core processors are depicted. The duration of a test task computed on the machines provided with the Intel processors of P4, i5 and i7 types with the use of the tools available in the .NET environment has been investigated.
PL
W artykule przedstawiono przykładowe metody skrócenia czasu realizacji zagadnienia optymalizacyjnego wykorzystującego algorytm genetyczny, za pomocą rozproszenia obliczeń na procesorach wielordzeniowych, stosowanych w komputerach klasy PC. Podczas przygotowywania aplikacji obliczeniowej wykorzystano wbudowane mechanizmy udostępnione w środowisku .NET.
EN
The article presents the problems connected with increasing the efficiency of multi-core processor usage in optimization applications that use the genetic algorithm method. Tests were conducted to analyze the completion time of a test task launched on machines with the following types of processors: P4, i5 and i7 with the use of parallel computation procedures available in the TPL (Task Parallel Library) library.
EN
This paper presents a new method that can be used to improve the efficiency of applications used for simulations of solidification processes. The new approach concentrate on conductivity matrix building process. This operation requires information contained in finite element mesh description. Elements of this matrix depend also on temperature, which is computed in every time-steps. This situation requires multiple repeated building of the conductivity matrix (for each time-step). The new method described in this paper allows to divide the process of matrix building into two parts. The first one is built on the basis of finite element mesh description. It is independent of nodal temperature values determined in successive time-steps and can be performed only once, before first time-step. The second part of the matrix building process is performed on the basis of nodal temperature values, but does not require information about finite element mesh. Such separation of two steps of the conductivity matrix building process allows efficient implementation of simulation software for modern multi- and many-core architectures. This approach can be used to minimize the amount of data that must be transferred to memory of multi-core processors. Conducted research shows that such approach can also reduce time required for computation using sequential implementation for CPU and has no significant effect on the simulation results.
PL
W artykule zaprezentowano nową metodę poprawy wydajności aplikacji wykorzystywanych do symulacji procesu krzepnięcia. Proponowane podejście dotyczy budowy macierzy. Operacja ta wymaga informacji zawartej w siatce elementów skończonych. Proponowana metoda pozwala na rozdzielenie procesu budowy macierzy na dwie części. Pierwsza z nich jest wykonywana na podstawie opisu siatki elementów skończonych. Etap ten jest niezależny od wartości temperatury w węzłach siatki i może być wykonany jednokrotnie przed pierwszym krokiem czasowym. Drugi etap budowy macierzy jest wykonywany na podstawie wartości temperatury w węzłach, ale nie wymaga informacji o siatce elementów skończonych. Takie rozdzielenie dwóch kroków budowy macierzy przewodności pozwala na efektywną implementację aplikacji realizujących symulacje na nowoczesnych architekturach wielordzeniowych. Takie podejście może być również wykorzystane do minimalizacji ilości danych, które muszą być przesłane do pamięci układu wieloprocesorowego. Przeprowadzone badania pokazały, że takie podejście skraca czas potrzebny na obliczenia podczas sekwencyjnej implementacji dla CPU, a nie ma znaczącego wpływu na wyniki symulacji.
PL
Dzięki upowszechnieniu się procesorów wielordzeniowych przetwarzanie danych za pomocą obliczeń równoległych staje się coraz bardziej dostępne dla szerokiego grona użytkowników. Przykładem jest opracowana przez firmę NVIDIA architektura CUDA, będąca architekturą wielordzeniowych procesorów graficznych. Procesor graficzny może być traktowany jako procesor SIMD z pamięcią wspólną. Na przykładzie operacji mnożenia macierzy zbadano wpływ zarządzania pamięcią i blokami wątków na czas obliczeń z użyciem architektury CUDA.
EN
With the propagation of a multi-core processors a parallel data processing becomes more accessible to a wide range of users. An example is CUDA architecture developed by NVIDIA, which is a multi-core GPU architecture. The GPU can be treated as a SIMD processor with shared memory. The influence of memory management and blocks of threads management on time of computation using CUDA architecture was researched on the basis of matrix multiplication.
PL
Artykuł prezentuje wyniki wydajnościowej analizy programów przeznaczonych do symulacji ciągłych układów dynamicznych, utworzonych z wykorzystaniem modułu Parallel Extensions to .NET Framework. Przedmiotem rozważanym w artykule jest modelowanie ruchu układów ciał w polu grawitacyjnym. W pracy pokazano zalety zrównoleglonych programów, zbudowanych na podstawie technologii .NET. W artykule przedstawiono wydajnościowe porównania zaproponowanego rozwiązania do rozwiązań sekwencyjnych: skryptów systemu MATLAB i programów jednowątkowych, wykonanych w technologii .NET, uruchamianych na komputerach z procesorami wielordzeniowymi. W pracy rozważono zagadnienie skalowalności zaproponowanego rozwiązania.
EN
The paper presents an effectiveness analysis of programs for simuŹlation of continuous dynamical systems based on Parallel Extensions to .NET Framework. Modeling of a movement of bodies systems in a gravitational field is considered. Advantages of parallel .NET-based programs are shown. Effectiveness comparison of the proposed solution to MATLAB scripts or sequential single-thread .NET based programs (all run on multicore machines) is presented. Scalability of the proposed solution is considered too.
first rewind previous Strona / 1 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.