Powiadomienia systemowe
- Sesja wygasła!
Identyfikatory
Warianty tytułu
Analysis of data processing efficiency with use of Apache Hive and Apache Pig in Hadoop environment
Języki publikacji
Abstrakty
Celem niniejszej pracy jest analiza efektywności przetwarzania danych z użyciem Apache Hive i Apache Pig w środowisku Hadoop. Analiza polegała na porównaniu pomiędzy obydwoma wspomnianymi narzędziami z użyciem dużych zbiorów danych, w formie 28 milionów rekordów. Badanie zostało przeprowadzone z użyciem skryptów i zapytań przeznaczonych dla Apache Hive oraz Apache Pig, a następnie wykonanie dziesięciokrotnie na środowisku dostarczonym dzięki utworzonej maszynie wirtualnej. Wymienione metody zostały uskutecznione na tych samych zbiorach danych 16 razy, zgodnie z uprzednio przygotowanymi scenariuszami badawczymi. W rezultacie autorzy zaobserwowali, iż Apache Hive jest bardziej efektywnym narzędziem, niż Apache Pig.
The aim of this paper is the analysis of data processing efficiency with use of Apache Hive and Apache Pig in Hadoop environment. The analysis was based on comparison between both mentioned tools with use of large data set, represented by 28 million records. Research was provided with use of scripts and queries destined for Apache Hive and Apache Pig, and then executed 10 times on environment brought by created virtual machine. Those methods were performed on the same data sets for 16 times according to previously prepared research scenarios. As the conclusion, authors had observed that Apache Hive is more efficient tool, than Apache Pig.
Czasopismo
Rocznik
Tom
Strony
1--8
Opis fizyczny
Bibliogr. 11 poz., rys., tab.
Twórcy
autor
- Lublin University of Technology (Poland)
autor
- Lublin University of Technology (Poland)
Bibliografia
- 1. K. Bansal, P. Chawla, P. Kurle, Analyzing Performance of Apache Pig and Apache Hive with Hadoop, International Conference On Engineering Vibration Communication and Information Processing (ICoEVCI), (2018) 41-51, https://doi.org/10.1007/978-981-13-1642-5_4
- 2. M. Ahmad, S. Kanwal, M. Cheema, M. A. Habib, Performance Analysis of ECG Big Data using Apache Hive and Apache Pig, 2019 8th International Conference on Information and Communication Technologies (ICICT), (2019) 2-7, https://doi.org/10.1109/ICICT47744.2019.9001287
- 3. A. Fuad, A. Erwin, H. P. Ipung, Processing performance on Apache Pig, Apache Hive and MySQL cluster, Proceedings of International Conference on Information, Communication Technology and System (ICTS), (2014) 297-302, https://doi.org/10.1109/ICTS.2014.7010600
- 4. Dokumentacja techniczna technologii Apache Hadoop https://hadoop.apache.org/, [10.07.2023]
- 5. K. Sitto, M. Presser, Field Guide to Hadoop: An Introduction to Hadoop, Its Ecosystem, and Aligned Technologies, O'Reilly Media, 2015
- 6. Dokumentacja techniczna technologii MapReduce https://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html#Overview, [10.07.2023]
- 7. D Dayong., Apache Hive Essentials Second Edition, Packt Publishing, 2015
- 8. C. Swarna, Z. Ansari, Apache Pig-a data flow framework based on Hadoop Map Reduce. International Journal of Engineering Trends and Technology (IJETT), 50 (5) (2017) 271-275 https://doi.org/10.14445/22315381/IJETT-V50P244
- 9. Środowisko wirtualizacji VMware Workstation 17 Player https://www.vmware.com/products/workstation-player/workstation-player-evaluation.html, [10.07.2023]
- 10. Komponenty składowe środowiska Cloudera CDH https://www.cloudera.com/products/open-source/apache-hadoop/key-cdh-components.html, [10.07.2023]
- 11. Zbiór danych testowych „NYC Taxi Trips Dataset” https://maven datasets.s3.amazonaws.com/Taxi+Trips/NYC_Taxi_Trips.zip, [10.07.2023]
Uwagi
Opracowanie rekordu ze środków MNiSW, umowa nr POPUL/SP/0154/2024/02 w ramach programu "Społeczna odpowiedzialność nauki II" - moduł: Popularyzacja nauki (2025).
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-e593e275-7cb2-4186-b153-62f59cd5a758
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.