Tytuł artykułu
Autorzy
Identyfikatory
Warianty tytułu
The workload balancing ETL system basing on a learning machine
Języki publikacji
Abstrakty
Użytkownicy hurtowni danych wymagają zazwyczaj zarówno krótkiego czasu odpowiedzi na zapytania, jak i wysokiego poziomu świeżości pobieranych danych. Przedstawiony system LEMAT zarządzający procesem ekstrakcji danych ETL opiera się na koncepcji adaptacyjnego równoważenia obciążenia operacji zapytań i aktualizacji zgodnie ze zmieniającymi się potrzebami użytkownika. System LEMAT używa autorskiego algorytmu równoważenia obciążenia z użyciem maszyny uczącej z zaawansowanym klasyfikatorem zapytań LMWB. Zaprezentowana została również metoda adaptacji systemu LEMAT na podstawie zbieranych statystyk o zmieniających się warunkach pracy oraz jego reakcja na przeciążenia.
Data warehouses users usually expects both: short response time and high level of data "freshness". The LEMAT presented as the ETL process manager bases on a concept of a adaptive load balancing of queries and actualizations according to user changing needs. The LEMAT system uses new workload balancing algorithm that uses LMWB (Learning Machine-based Workload Balancing) with the advanced query classifier SVM (Support Vector Machine). Moreover the method of a LEMAT system adaptation is presented. This method bases on collection of changing work conditions characteristics and reactions to congestions.
Słowa kluczowe
Czasopismo
Rocznik
Tom
Strony
517--530
Opis fizyczny
Bibliogr. 26 poz.
Twórcy
Bibliografia
- 1. Bruckner R., List B., Schiefer J.: Striving towards Near Real-Time Data Integration for Data Warehouses. Data Warehousing and Knowledge Discovery, 4th International Conference, DaWaK’02, France, LNCS, Vol. 2454, 2002, s. 317-326.
- 2. Bruckner R., Tjoa A.M.: Capturing Delays and Valid Times in Data Warehouses Towards Timely Consistent Analyses. Journal of Intelligent Information Systems, Vol. 19, No. 2, 2002, s. 169-190.
- 3. Campos M., Milenova B.: Creation and Deployment of Data Mining-Based Intrusion Detection Systems in Oracle Database 10g. Oracle Data Mining Technologies 2005.
- 4. Galhardas H., Florescu D., Shasha D., Simon E.: Ajax. An Extensible Data CleaningTool ACM SIGMOD, May 16-18, 2000, Dallas, Texas. ACM Press 2000, s. 590.
- 5. Gorawski M., Ciepluch M.: Przyrostowa ekstrakcja danych ETL(5). Studia Informatica Vol. 27, No. 1, Wyd. Politechnika Śląska, Gliwice 2006, s. 27-40.
- 6. Gorawski M., Jabłoński P.: Uniwersalne środowisko graficzne do modelowania procesów ekstrakcji i odtwarzania. Studia Informatica, Vol. 26, No. 3, Wyd. Politechniki Śląskiej, Gliwice 2005, s. 7-28.
- 7. Gorawski M., Marks P.: Data Loading Based on UB-Tree Index Implemented in Design-Resume /JavaBeans Environment. Studia Informatica, Vol. 25, No. 1,2004, s. 141-153.
- 8. Gorawski M., Marks P.: Grouping and Joining Transformations in Data Extraction Process. AI Informatica, Annales Univ. Marii Curie-Skłodowska, Vol. 4. 2006, s. 135-147.
- 9. Gorawski M., Piekarek M.: Rozproszony proces ekstrakcji danych z protokołem SimpleRMI. Red. S. Kozielski i in. Tom 2. Bazy danych. Modele, technologie, narzędzia Analiza danych i wybrane zastosowania. Wyd. Komunikacji i Łączności, 2005, s. 43-50.
- 10. Gorawski M., Siódemak P.: Graficzne projektowanie aplikacji ETL. Studia Informatica, Vol. 24, No. 4(56), Wyd. Politechniki Śląskiej, Gliwice 2003, s. 345-367.
- 11. Gorawski M.: Zaawansowane hurtownie danych. Gliwice: Wydaw. Politechniki Śląskiej, (Rozprawa habilitacyjna) 2009, s. 387.
- 12. Gorawski M.: 3 perspektywy procesu ekstrakcji danych. Red. J. S. Nowak, J. K. Grabara, Z. Szyjewski. Strategie informatyzacji i zarządzanie wiedzą. WNT, 2004, s. 295-341.
- 13. Gorawski, M.: Charakterystyka procesu ekstrakcji danych. Studia Informatica, Vol. 24, No. 4(56), Wyd. Politechniki Śląskiej, Gliwice 2003, s. 211-232.
- 14. Gorawski M.: Ekstrakcja i integracja danych w czasie rzeczywistym. Red. A. Kwiecień, P. Gaj. Współczesne problemy systemów czasu rzeczywistego. Wyd. Naukowo-Techniczne, Warszawa 2004, s. 435-445.
- 15. Huiming Qu., Labrinidis A.: Preference-Aware Query and Update Scheduling in Web-database. Data Engineering, ICDE 2007.
- 16. Microsoft, Services Managing Data with Data Transformation. http://www.microsoft.com/technet/community/events/sql2000/tnt1-78.mspx.
- 17. Oracle Data Warehousing, OLAP Option to Oracle Database 11g, http://www.oracle.com/solutions/business_intelligence/dw_home.html. 2009.
- 18. Oracle®, Complex Event Processing in the Real World September 2007.
- 19. Oracle®CEP, IDE Dev. Guide for Eclipse Release 11gR1 (11.1.1), E14301-01, 2009.
- 20. Rahm E., Hai Do H.: Data Cleaning: Problems and Current approches. Bulletin of the Technical Committee on Data Engineering, Vol. 23. 2000.
- 21. Remco R. Bouckaert, Eibe Frank, Mark Hall - WEKA Manual for Version 3-6-1, University of Waikato - 2009.
- 22. Schrefl M., Thalhammer T.: On Making Data Warehouses Active. 2nd International Conference Data Warehousing and Knowledge Discovery, DaWaK’00, September 4-6, 2000, London. Lecture Notes in Computer Science, Vol. 1874, Springer 2000, s. 34-46.
- 23. Thiele M., Fischer U., Lehner W.: Partition-based Workload Scheduling in Living Data Warehouse Environments, DOLAP’07, Portugal, ACM 2007.
- 24. Vassiliadis P., Simitsis A., Georgantas P., Tenwitis M.: A Framework for the Design of ETL Scenarios. Advanced Information Systems Engineering, CaiSE’03, Lecture Notes in Computer Science, Vol. 2681, Springer 2003, s. 520-535.
- 25. Vassiliadis P., Simitsis A., Skiadopoulos S.: Modeling ETL Activities asGraphs. Design and Management of Data Warehouses, DMDW’02, May 27, 2002, Toronto. CEUR-WS.org 2002, s. 52-61.
- 26. Vassiliadis P., Simitsis A., Skiadopoulos S.: Conceptual Modeling for ETL Processes. DOLAP’02, November 8, 2002, McLean, VA. ACM 2002, s. 14-21.
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-article-BSL7-0046-0046