Zastosowanie Intel® VTune™ Performance Analyzer do badania lokalności danych aplikacji równoległych opartych na tworzeniu niezależnych wątków obliczeń

Kraska, K.

Artykuł - szczegóły

Tytuł artykułu

Zastosowanie Intel® VTune™ Performance Analyzer do badania lokalności danych aplikacji równoległych opartych na tworzeniu niezależnych wątków obliczeń

Autorzy

Kraska K.

Identyfikatory

Warianty tytułu

Języki publikacji

Abstrakty

W artykule zostało zaprezentowane narzędzie Intel® VTune™. Performance Analyzer umożliwiające pozyskiwanie i gromadzenie metryk lokalności danych aplikacji oraz jego zastosowanie do realizacji badań nad lokalnością danych programów równoległych opartych na tworzeniu niezależnych wątków obliczeń. Badania nad lokalnością danych stanowią element pracy naukowej nad metodami i algorytmami tworzenia kompilatorów równoległych prowadzonej w Katedrze Inżynierii Oprogramowania Wydziału Informatyki Zachodniopomorskiego Uniwersytetu Technologicznego z wykorzystaniem infrastruktury nowopowstałego laboratorium HPC (ang. High Performance Computing). Zastosowanie narzędzia zostało zademonstrowane na przykładzie analizy pętli programowej zawartej w UA Benchmark z zestawu NAS Parallel Benchmarks 3.2.

A well-known way to speed up computations is parallelizing programs and executing them on multiprocessors. An innovative approach for extracting parallel synchronization-free threads of computations for program loops was presented in [1]. However, parallel programs representing synchronization-free threads of computations require good data locality in order to achieve an effective usage of the hierarchy of memory. Data locality of a program can be estimated based on the metrics collected from software analysis tools widespread available on the market. The usage of the modern software analysis tool Intel® VTune™ Performance Analyzer to collecting and evaluating data locality metrics is presented in the paper. An experimental parallel program running synchronization-free threads of computations, implemented in C++, assigned to parallel threads by means of OpenMP directives and executed on a target Intel SMP architecture was taken to demonstrate practical analysis based on the discussed software analysis tool.

Słowa kluczowe

lokalność danych przetwarzanie równoległe kompilatory Intel® VTune™ Performance Analyzer

Intel® VTune™ Performance Analyzer data locality parallel processing compilers

Wydawca

Komisja Informatyki Polskiej Akademii Nauk, Oddział w Gdańsku

Czasopismo

Metody Informatyki Stosowanej

Rocznik

2009

Tom

nr 1 (18)

Strony

45--52

Opis fizyczny

Bibliogr. 8 poz., rys.

Twórcy

autor

Kraska K.

Zachodniopomorski Uniwersytet Technologiczny w Szczecinie, Wydział Informatyki

Bibliografia

[1] Bielecki, W., Beletska, A., Siedlecki, K., San Pietro, P. Finding Synchronization-Free Slices of Operations in Arbitrarily Nested Loops. Gervasi, O., Murgante, B., Lagana, A.,Taniar, D., Mun, Y., Gavrilova, M. (red.) ICCSA 2008. LNCS, vol. 5073, Springer, 2008, s. 81-86
[2] Griebl, M. Automatic Parallelization of Loop Programs for Distributed Memory Architectures. Habilitation, Fakultat fur Mathematik und Informatik, Universitat Passau, 2004
[3] Beyls K. Software Methods to Improve Data Locality and Cache Behavior. PhD dissertation, Universiteit Gent, 2004
[4] Wilson G. V. Practical Parallel Programming. The MIT Press, 1995
[5] Aho, A., Lam, M., Sethi, R., Ullman, J. Compilers: Principles, Techniques and Tools. 2nd Edition. Pearson Higher Education, 2007
[6] Intel® VTune™ Performance Analyzer. VTune™ Performance Environment Help. Intel Corporation, 2008
[7] Intel® Core™2 Duo Processor E8000 and E7000 Series. Intel Corporation, 2008
[8] NASA Advanced Supercomputing Parallel Benchmarks Version 3.2 [online] http://www.nas.nasa.gov/Software/NPB/ [dostęp: 2009]

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-article-BPS3-0014-0021