Wyniki wyszukiwania - BazTech

Ograniczanie wyników

Znaleziono wyników: 2

Liczba wyników na stronie

Wyniki wyszukiwania

Wyszukiwano:
w słowach kluczowych: SPARK

Sortuj według:

Ogranicz wyniki do:

Efektywne przetwarzanie i integracja dużych zbiorów danych w środowisku Hadoop

Drzymała Paweł, Welfle Henryk, Drzymała Agnieszka

Przegląd Elektrotechniczny

2019

R. 95, nr 1

29--32

Rozwój nowych kanałów elektronicznej wymiany informacji przyczynia się do powstania coraz większej ilości danych. Dane te są często zróżnicowane, niejednorodne i składowane bez ściśle zdefiniowanej struktury. W ciągu ostatnich 2 lat przyrosło 90% danych, jakie zostały wygenerowane od początku istnienia ludzkości. W artykule zaprezentowano architekturę i możliwości środowiska Hadoop powstałego w celu efektywnego przetwarzania i integracji dużych zbiorów danych. Przedstawiono cechy tej platformy oraz jej skalowalność. Omówiono metodę działania systemu plików HDFS oraz odporności na błędy składowania tego systemu. Zaprezentowano ideę współpracy węzłów klastra Hadoop oraz wykonywania działań typu Map – Reduce.

The development of new channels of electronic information exchange contributes to the emergence of more and more data. These data are often diverse, heterogeneous and stored without a strictly defined structure. Over the past two years, 90% of the data has been generated since the beginning of human civilization. The article presents the architecture and possibilities of the Hadoop environment for the effective processing and integration of large data sets. It also presents the features of this platform and its scalability as well as discussed the method of operation in the HDFS file system and the resistance to storage errors of this system. The scheme of cooperation of the Hadoop cluster nodes to perform MapReduce operation was presented.

Porównanie wydajności i produktywności algorytmu tworzenia drzew decyzyjnych zaimplementowanego w środowiskach SPARK oraz GASPI

Wyrzykowski R., Karoń T.

Zeszyty Naukowe Warszawskiej Wyższej Szkoły Informatyki

2016

nr 15

79--121

W pracy zbadano wydajność i produktywność programistyczną wykorzystania chmur obliczeniowych oraz dwu odmiennych środowisk programistycznych, a mianowicie SPARK i GASPI, do równoległej implementacji algorytmów eksplorujących duże zbiory danych na przykładzie algorytmu ID3 tworzenia drzew decyzyjnych. Implementacje uruchomiono na platformie Google Compute Engine.

In this paper, the performance and programming productivity of cloud computing is explored for two different programming environments (SPARK and GASPI) applied to parallel implementation of big data problems. The ID3 algorithm of decision tree generation is selected as a test case. All the experiments are performed on the Google Compute Engine platform.