Experimental study on data locality of parallel programs executing synchronization-free threads of computations

Kraska, K.; Siedlecki, K.

Artykuł - szczegóły

Tytuł artykułu

Experimental study on data locality of parallel programs executing synchronization-free threads of computations

Autorzy

Kraska K. , Siedlecki K.

Treść / Zawartość

Pełne teksty:

Pobierz

Identyfikatory

Warianty tytułu

Badania eksperymentalne lokalności danych programów wykonujących obliczenia równoległe w niezależnych wątkach

Języki publikacji

Abstrakty

The effective use of hierarchical memory for parallel shared memory programs requires good data locality. Analysis and experimental study on data locality in L1D cache for parallel programs executing synchronization-free threads of computations, derived from NAS Parallel Benchmarks, are presented in the paper. Parallel synchronization-free programs were implemented by means of the OpenMP standard. Experiments were carried out in the Intel SMP architecture. The Intel VTune Performance Analyzer was used to collect and evaluate data locality metrics. Finally, a few conclusions about data locality characteristics of synchronization-free parallel programs are given.

Efektywne wykorzystanie współczesnych wieloprocesorowych architektur z pamięcią dzieloną, stosujących kilkupoziomową hierarchię dostępu do danych, wymaga od programów wykonujących równolegle obliczenia w niezależnych wątkach dobrych charakterystyk lokalności danych. W niniejszym artykule przedstawiono badania eksperymentalne oraz analizę lokalności danych dla programów zaczerpniętych ze standardowego zestawu testowego NAS Parallel Benchmark, wykonujących obliczenia w niezależnych wątkach utworzonych przy użyciu dyrektyw równoległych standardu OpenMP. Charakterystyki lokalności danych zostały opracowane dla pierwszego poziomu danych (L1D) pamięci cache. Całość badań została wykonana na architekturze Intel SMP z systemem operacyjnym Linux. W celu pozyskania wartości metryk umożliwiających oszacowanie lokalności danych zastosowano narzędzie Intel VTune Performance Analyzer. Na podstawie uzyskanych obserwacji podjęto próbę sformułowania wniosków końcowych.

Słowa kluczowe

data locality synchronization-free parallelism Intel VTune Performance Analyzer

lokalność danych niezależne wątki obliczeń Intel VTune Performance Analyzer

Wydawca

Wydawnictwo PAK

Czasopismo

Pomiary Automatyka Kontrola

Rocznik

2010

Tom

R. 56, nr 12

Strony

1504--1508

Opis fizyczny

Bibliogr. 6 poz., wykr., wzory

Twórcy

autor

Kraska K.

autor

Siedlecki K.

West Pomeranian University of Technology, Software Technology Departmment, Żołnierska 49, 71-210 Szczecin, kkraska@wi.zut.edu.pl

Bibliografia

[1] Bielecki W., Beletska A., Siedlecki K., San Pietro P.: Finding Synchronization-Free Slices of Operations in Arbitrarily Nested Loops. In: ICCSA 2008, LNCS, vol. 5073, Springer, 2008.
[2] Griebl M.: Automatic Parallelization of Loop Programs for Distributed Memory Architectures. Habilitation. Universitat Passau, 2004.
[3] Aho A., Lam M., Sethi R., Ullman J.: Compilers: Principles, Techniques and Tools, 2nd Editio. Pearson Higher Education, 2007.
[4] NASA Advanced Supercomputing Parallel Benchmarks Version 3.2, http://www.nas.nasa.gov/Software/NPB/
[5] Intel VTune Performance Analyzer, VTune Performance Environment Help. Intel Corporation, 2008.
[6] Threading Methodology: Principles and Practices. Version 2.0. Intel Corporation, 2004.

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-article-BSW4-0088-0031