Efficiently processing data in table with billions of records

Bednarczuk, Piotr; Borsuk, Adam

doi:10.35784/iapgos.3058

Artykuł - szczegóły

Tytuł artykułu

Efficiently processing data in table with billions of records

Autorzy

Bednarczuk Piotr , Borsuk Adam

Treść / Zawartość

Pełne teksty:

Pobierz

Identyfikatory

DOI

10.35784/iapgos.3058

Warianty tytułu

Wydajne przetwarzanie danych w tabeli z miliardami rekordów

Języki publikacji

Abstrakty

Over time, systems connected to databases slow down. This is usually due to the increase in the amount of data stored in individual tables, counted even in the billions of records. Nevertheless, there are methods for making the speed of the system independent of the number of recordsin the database. One of these ways is table partitioning. When used correctly, the solution can ensure efficient operation ofvery large databases even after several years. However, not everything is predictable because of some undesirable phenomena become apparent only with a very large amount of data. The article presents a study of the execution time of the same queries with increasing number of records in a table. These studies reveal and presentthe timing and circumstances of the anomaly for a certain number of records.

Z biegiem czasu systemy podłączone do baz danych zwalniają. Wynika to zwykle ze wzrostu ilości danych przechowywanychw poszczególnych tabelach, liczonych nawet w miliardach rekordów. Niemniej jednak istnieją metody uniezależnienia szybkości systemu od liczby rekordów w bazie danych. Jednym z tych sposobów jest partycjonowanie tabel. Przy prawidłowym zastosowaniu rozwiązanietomoże zapewnić wydajne przetwarzanie danych wbardzo dużych bazachdanych nawet po kilku latachdziałania.Jednak nie wszystko jest tak przewidywalneponieważ niektóre niepożądane zjawiska ujawniają się dopiero przy bardzo dużej ilości danych. W artykule przedstawiono badanie czasu wykonania tych samych zapytań przy rosnącej liczbie rekordów w tabeli. Badania te ujawniają i przedstawiają moment iokolicznościwystępowania anomalii dla pewnej liczby rekordów.

Słowa kluczowe

system aging partitioning efficiently data processing billions of records

starzenie się systemu partycjonowanie przetwarzanie danych efektywne miliardy rekordów

Wydawca

Wydawnictwo Politechniki Lubelskiej

Czasopismo

Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska

Rocznik

2022

Tom

T. 12, nr 4

Strony

17--20

Opis fizyczny

Bibliogr. 8 poz., tab., wykr.

Twórcy

autor

Bednarczuk Piotr

Piotr.Bednarczuk@wsei.lublin.pl

University of Economics and Innovation in Lublin, Institute of Computer Science, Lublin, Poland

https://orcid.org/0000-0003-1933-7183

autor

Borsuk Adam

adam.max.borsuk@gmail.com

University of Economics and Innovation in Lublin, Institute of Computer Science, Lublin, Poland

https://orcid.org/0000-0003-2316-1694

Bibliografia

[1] Bednarczuk P.: Optimization in very large databases by partitioning tables, Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska 10(3), 2020, 95–98.
[2] Bandle M., Giceva J., Neumann T.: To Partition, or Not to Partition, That is the Join Question in a Real System. International Conference on Management of Data, 2021.
[3] Kumar A., Jitendra Singh Y.: A Review on Partitioning Techniques in Database. International Journal of Computer Science and Mobile Computing 13(5), 2014, 342–347.
[4] Microsoft documentation, Data partitioning guidance, https://learn.microsoft.com/en-us/azure/architecture/best-practices/datapartitioning
[5] Qi W., Song J., Yu-bin B.: Near-uniform Range Partition Approach for Increased Partitioning in Large Database. 2nd IEEE International Conference on Information Management and Engineering, 2010, 101–106.
[6] Song J., Bao Y.: NPA: Increased Partitioning Approach for Massive Data in Real-time Data Warehouse. 2nd International Conference on Information Technology Convergence and Services, 2010, 1–6.
[7] Tanvi J., Shivani S.: Refreshing Datawarehouse in Near Real-Time. International Journal of Computer Applications 46(18), 2012, 24–29.
[8] Zheng K. et al.: Data storage optimization strategy in distributed columnoriented database by considering spatial adjacency. Cluster Computing 20, 2017.

Uwagi

Opracowanie rekordu ze środków MEiN, umowa nr SONP/SP/546092/2022 w ramach programu "Społeczna odpowiedzialność nauki" - moduł: Popularyzacja nauki i promocja sportu (2022-2023).

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-1f8c2754-cb01-4f2d-bf74-fd3b829f55fc