Identyfikatory
Warianty tytułu
Szybkie rzadkie macierze przechowywane na dysku
Języki publikacji
Abstrakty
When dealing with large datasets, computer memory constraints are a common problem. With the volumes of data exceeding 1 GiB of size, storage of the whole datasets in RAM becomes infeasible. Since in most applications one deals with only a portion of dataset at a time, the rest may be kept offline on nonvolatile memory that provides larger capacities. The access to nonvolatile memory is typically a few orders of magnitude slower than of RAM, so an efficient method of storage should be proposed to keep the number of disc accesses count as small as possible. In the paper I describe the offline storage of sparse matrices that is built on top of Hierarchical Data Format (precisely, on the latest revision - HDF5) addressing the problem of matrix-vector multiplication.
Ograniczenia pamięci komputera są powszechnym problemem przy obliczeniach przeprowadzanych na wielkich zbiorach danych. Przy danych roboczych przekraczających 1 GiB, składowanie całości w pamięci operacyjnej staje się utrudnione, a często nawet nieosiągalne. Ponieważ w większości aplikacji wykonuje się działania jedynie na fragmencie zbioru danych, reszta może być przechowywana w pamięci stałej, która zapewnia dużo większe pojemności. Dostęp do pamięci stałej jest zazwyczaj kilka rzędów wielkości wolniejszy niż do RAMu, zatem należy przedstawić metodę składowania ograniczającą do minimum ilość dostępów do dysku. W artykule opisuję format przechowywania macierzy rzadkich na dysku, zbudowanym na bazie formatu HDF5 (Hierarchical Data Format) pod kątem minimalizacji czasu mnożenia tej macierzy przez wektor.
Czasopismo
Rocznik
Tom
Strony
209--222
Opis fizyczny
Bibliogr. 7 poz., rys., tab.
Twórcy
autor
- Department of Electronics, AGH University of Science and Technology, wici@agh.edu.pl
Bibliografia
- 1. Dongarra, J., Xz, J. D., Lumsdaine, A., Niu, X., Pozo, R. and Remington, K.: A sparse matrix library in C++ for high performance architectures, 1994.
- 2. Georgieva, J., Gancheva, V. and Goranova, M.: Scientific data formats. In AIC’09: Proceedings of the 9th WSEAS international conference on Applied informatics and communications, pages 19–24, Stevens Point, Wisconsin, USA, 2009. World Scientific and Engineering Academy and Society (WSEAS).
- 3. HDF Group. Hdf5 users. Online, Last modified January 28th 2010.
- 4. Sonnenburg, S.: Matlab(TM) 7.3 file format is actually HDF5 and can be read from other languages like Python. Online, November 2009.
- 5. Cai, X., Langtangen, P.T., and Moe, H.: On the performance of the Python programming language for serial and parallel scientific computations, Scientific Programming, Volume 13, pages 31-56, number 1/2005.
- 6. Cannon, B.: Localized type inference of atomic types in Python, Online, 2005.
- 7. Gorrell, G.: Generalized hebbian algorithm for incremental latent semantic analysis. In Proceedings of Interspeech, 2006.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-BPS2-0058-0050