The evolution of Internet of Things and Information and Communication Technology is determined by systems’ ability to efficiently store and process massive amount of data connected with rapid flow of information. The smart devices creating Internet of Things produce massive amount of data, and while smart devices are independent, data analyst needs an effective mechanism to collect all these data, aggregate them and analyse. In this paper author presents Distributed Spatio-Temporal Data Warehouse systems as a platform to collect and analyse Internet of Things data such as smart sensor data and mobility data
PL
W artykule prezentowany jest system decyzyjny 2MDSS, służący do obsługi inteligentnych urządzeń mierzących zużycie mediów, takich jak gaz, woda, energia elektryczna itp. W ramach ww. systemu proponowany jest algorytm ALBQ równoważący obciążenia w rozproszonym środowisku hurtowni danych wraz z analizą jego przydatności. Zarysowany jest również problem projektowania i oceny wydajności trajektoryjnych Hurtowni Danych oraz propozycja modelu mobilności RLMM do wykorzystania w tej tematyce. W artykule poruszono istniejący i coraz bardziej widoczny problem zabezpieczenia urządzeń IoT. Format oraz liczba danych przesyłanych z ww. urządzeń może prowadzić do groźnych i skutecznych ataków DDoS. Na dziś zagadnienie to pozostaje nadal otwartym problemem badawczym o kluczowym znaczeniu dla poprawnego funkcjonowania wielu istotnych gałęzi gospodarki.
In online gambling, poker hands are one of the most popular and fundamental units of the game state and can be considered objects comprising all the events that pertain to the single hand played. In a situation where tens of millions of poker hands are produced daily and need to be stored and analysed quickly, the use of relational databases no longer provides high scalability and performance stability. The purpose of this paper is to present an efficient way of storing and retrieving poker hands in a big data environment. We propose a new, read-optimised storage model that offers significant data access improvements over traditional database systems as well as the existing Hadoop file formats such as ORC, RCFile or SequenceFile. Through index-oriented partition elimination, our file format allows reducing the number of file splits that needs to be accessed, and improves query response time up to three orders of magnitude in comparison with other approaches. In addition, our file format supports a range of new indexing structures to facilitate fast row retrieval at a split level. Both index types operate independently of the Hive execution context and allow other big data computational frameworks such as MapReduce or Spark to benefit from the optimized data access path to the hand information. Moreover, we present a detailed analysis of our storage model and its supporting index structures, and how they are organised in the overall data framework. We also describe in detail how predicate based expression trees are used to build effective file-level execution plans. Our experimental tests conducted on a production cluster, holding nearly 40 billion hands which span over 4000 partitions, show that multi-way partition pruning outperforms other existing file formats, resulting in faster query execution times and better cluster utilisation.
Artykuł przedstawia prototypowy system strumieniowego przetwarzania danych AGKPStream. Główny nacisk położony jest na problem wydajnego zarządzania pracą poszczególnych komponentów przetwarzających tegoż systemu (operatorów strumieniowych). Realizowane jest to przez próbę prawidłowego doboru wybranych algorytmów szeregowania (schedulerów strumieniowych).
EN
The following paper introduces a prototype Data Stream Management System AGKPStream. The principal aspect of this work is to solve the problem of efficient tasking of data processing components of AGKPStream (stream operators). It is realized by experimental selection of several stream scheduling policies.
Przedstawiono ramowo prototypowy system strumieniowego przetwarzania danych o nazwie AGKPStream. Obiektem przeprowadzonych badań są jego pojedyncze komponenty przetwarzające – operatory strumieniowe. W artykule szczegółowo przedstawiono modele i zasady działania tych operatorów oraz wyniki testów operatora selekcji.
EN
The following paper introduces a prototype Data Stream Management System called AGKPStream. The objects of the study were the operators constituting a single stream processing components created in the system. We present basic concepts, principles of stream operators (including selection, projection, and union) and experimental results of the select operator.
Rośnie znaczenie i potrzeba zapewnienia aktualności danych oraz efektywności ich przetwarzania w bezopóźnieniowych hurtowniach danych. Standardowe podejście, oparte na tradycyjnym procesie ekstrakcji danych (ETL), okazało się niewystarczające ze względu na potrzebę podziału czasu dostępu, na czas odświeżania danych oraz czas ich analizy. W artykule przedstawiono system ETL dla bezopóźnieniowych hurtowniach danych. System ten realizuje algorytm WINE-HYBRIS, bazujący na architekturze CUDA oraz CPU. Przedstawiono testy wydajnościowe tego systemu opartego na dwóch całkowicie różnych architekturach, umożliwiając zobaczenie możliwości, jakie niesie za sobą wykorzystanie architektury CUDA w systemach hurtowni danych.
EN
There is a growing importance and the need to ensure data actualisation and efficiency of their processing in zero-latency data warehouses. The standard approach, based on the traditional process of data extraction (ETL) was not sufficient because of the need for time-sharing access during the process of refreshing the data and the time of analysis. The paper presents an ETL system for the zero-latency data warehouse. This system implements the WINE-HYBRIS algorithm based on CUDA and CPU architectures. Presented performance testing of the system, is based on two completely different architectures, allowing the possibility of observing upcoming opportunities that arises during usage of the CUDA architecture in data warehousing systems.
Artykuł opisuje algorytm adaptacyjnego balansowania obciążenia zapytań w przestrzenno-temporalnych hurtowniach danych. Przedstawione zostały istniejące algorytmy oraz porównanie ich działania z nowym algorytmem. Ponadto, omówione zostały podstawy teoretyczne algorytmu ALBQ (ang. Adaptive Load Balancing for Queries) oraz wyniki testów działania algorytmu, w zależności od wartości parametrów.
EN
The article presents an adaptive load balancing for queries algorithm (ALBQ algorithm) in distributed special data warehouses. It contains a description of currently used algorithms and a comparison of their behaviour with new algorithm. Moreover, the article describes theoretical basis of ALBQ algorithm and test results of using it accordingly to parameters’ values.
Użytkownicy hurtowni danych wymagają zazwyczaj zarówno krótkiego czasu odpowiedzi na zapytania, jak i wysokiego poziomu świeżości pobieranych danych. Przedstawiony system LEMAT zarządzający procesem ekstrakcji danych ETL opiera się na koncepcji adaptacyjnego równoważenia obciążenia operacji zapytań i aktualizacji zgodnie ze zmieniającymi się potrzebami użytkownika. System LEMAT używa autorskiego algorytmu równoważenia obciążenia z użyciem maszyny uczącej z zaawansowanym klasyfikatorem zapytań LMWB. Zaprezentowana została również metoda adaptacji systemu LEMAT na podstawie zbieranych statystyk o zmieniających się warunkach pracy oraz jego reakcja na przeciążenia.
EN
Data warehouses users usually expects both: short response time and high level of data "freshness". The LEMAT presented as the ETL process manager bases on a concept of a adaptive load balancing of queries and actualizations according to user changing needs. The LEMAT system uses new workload balancing algorithm that uses LMWB (Learning Machine-based Workload Balancing) with the advanced query classifier SVM (Support Vector Machine). Moreover the method of a LEMAT system adaptation is presented. This method bases on collection of changing work conditions characteristics and reactions to congestions.
Artykuł podejmuje temat zapytań wzorca dla Trajektoryjnej Hurtowni Danych, TrDW. W ramach zapytań wzorca został zaprezentowany sposób przekształcania trajektorii obiektów do postaci sekwencji regionów oraz eksploracji tak uzyskanych sekwencji z użyciem funkcji porównujących. Przedstawione funkcje porównujące zostały podzielone na dwie grupy. Pierwsza grupa umożliwia uzyskanie informacji na temat konkretnego, zdefiniowanego przez użytkownika wzorca. Druga natomiast służy pozyskiwaniu informacji podsumowujących dotyczących wszystkich analizowanych sekwencji trajektorii. Informacje uzyskane w wyniku użycia drugiej grupy mogą również posłużyć, jako dane wejściowe grupy pierwszej. W artykule przedstawiono również wpływ różnych parametrów, wykorzystywanych podczas przekształcania trajektorii, na rozmiar składowanych agregatów.
EN
This paper presents the query model for Trajectory Data Warehouse. The pattern queries in this paper present a way of transforming object trajectories into region sequences, as well as exploring such sequences using comparison methods. Such comparison methods are divided into two groups. The first group makes it possible to collect information about a particular user-defined pattern. The second involves obtaining information summary of all analyzed trajectory sequences. Information obtained as a result of using the second group may be also used as input data for the first group. We also show the impact of different parameters of transformation of trajectories on the size of stored aggregates.
Niniejsza monografia jest poświęcona nowej wizji ewolucji hurtowni danych (DW), której wyrazem jest nowa generacja modeli DW, o nazwie Zaawansowane Hurtownie Danych (AdvDW). Zdolność formułowania nowych modeli klasycznych DW dla nowych wyzwań globalnych, przy szybkim postępie ICT, jest znacznie ograniczona, natomiast stan badań nad przestrzenno-temporalnymi hurtowniami danych (STDW) jest dalece niewystarczający. Prognozuje się, że w kolejnej dekadzie 2010 nowym celem ICT będą: "Analityczne systemy zaawansowanych hurtowni danych, zorientowane na rozlegle przetwarzanie (rozproszone, równoległe, gridowe, agentowe) w sieciach (szkieletowych, bezprzewodowych, przemysłowych), ukierunkowane na zaawansowaną analizę ogromnych (petabajto-wych) wolumenów (repozytoriów) danych strumieniowych". Zatem model wizji ewolucji DW ma na celu podniesienie poziomu badań o stopień wyżej, przez promowanie modeli AdvDW, jako samodzielnego podejścia, a nie tylko cechy wynikającej z bardziej uogólnionych własności klasycznych DW. Pomocna w modelowaniu wizji ewolucji DW jest Lista 15 kluczowych wyzwań badawczych w dziedzinie DW. Jako całościowe rozwiązanie ramowe problematyki badawczej, objętej tą listą opracowano koncepcje ramowe, modele, metody, prototypy, charakterystyki efektywnościowe i ich analizy w zakresie zagadnień badawczych: 1. Wysoce Hierachiczne Systemy Agregacji i E-Receptorów 2HAa*, w tym Decyzyjny System Monitorowania i Dystrybucji Mediów (2MDSS). 2. Spichlerz Agregatów, w tym Wielopierścieniowa Hurtowni Danych (MultiRingDW) o schemacie rozszerzonej gwiazdy kaskadowej. 3. Indeksy przestrzenne ogólnego przeznaczenia i rodzina agregacyjnych drzew przestrzennych o wysokiej efektywności. 4. Przestrzenno-czasowe struktury agregatów, jako wielopoziomowe hybrydowe agregacyjne drzewa indeksów przestrzennych i czasowych oraz specjalne struktury wspomagające agregację danych przestrzenno-czasowych. 5. Materializowana Lista Agregatów (MAL) i zintegrowane z nią indeksy. 6. Ekstrakcja danych i jej odtwarzanie. 7. Przestrzenno-temporalne hurtownie danych (D)STDW, jako I klasa AdvDW. 8. Silnie chronione hurtownie danych SPrevDW, jako II klasa AdvDW. 9. Gridowe hurtownie danych GDW-
EN
The following dissertation presents a new vision of Data Warehouses (DW) evolution -a new generation of DW models called Advanced Data Warehouses (AdvDW). The ability to formulate new models of classical data warehouse for new global challenges is strongly limited. Moreover, the research on spatio-temporal data warehouses (STDW) is rather insufficient. Forecasts are that in the next decade the new goal of ITC will be "Analytical advanced data warehouse systems oriented on massive processing (distributed, parallel, grid, agent) in networks (framework, wireless, industrial) directed to advanced analysis of huge (petabyte) volumes (repositories) of a stream data". The vision of DW evolution presented in the following work creates a next level of research promoting AdvDW models as a self-reliant approach being much more than only features derived from generalized nature of classical DWs. To specify the model of DW evolution vision a list of 15 key challenges in DWs was created. As an all-out solutions for problems from the list, framework concepts, models, methods, prototypes, effective characteristics and their analyses were defined: 1. Highly Hierarchical Aggregation and E-Receptors Systems (2HAa*), including Monitoring and Media Distribution Support System (2MDSS). 2. Aggregates Granary including MultiRing Data Warehouse (MultiRingDW) with expanded cascaded star schema. 3. General purpose spatial indices and a family of highly efficient aggregation trees. 4. Spatio-temporal aggregates structures as multilevel hybrid aggregate tree of the spatial and temporal indexes and special structures supporting the spatio-temporal data aggregation. 5. Materialized Aggregates List (MAL) with integrated indexes. 6. Data extraction and its resumption. 7. Spatio - temporal data warehouses (D)STDW as the class I of AdvDW. 8. Strongly preserved data warehouses (SPrevDW) as the class II of AdvDW. Abstract 381 9. Grid data warehouses (GDWSA) as the class III of AdvDW. 10. Stream data warehouses StrDW) as the class IV of AdvDW. The realization of above-mentioned problem groups was verified with prototype software basing on Java and C++ environments running on Windows and Solaris platforms and databases Oracle 9i/10(ll)g, MSSQL, IBM DB2. A number of effectiveness characteristics of AdvDW was presented along with their evaluation. The framework of future research is a continuation of the presented approach: Phase I: Classic data warehouses. Phase II: Advanced data warehouses AdvDW. Phase III: Branch systems 2HAa basing on AdvDW. Phase IV: MultiRing Data Warehouse. Phase V: Multibranch 2HAa systems basing on MultiRingDW. Phase VI: Aggregates granary (A4G). Phase VII: MultiBranch 2HAa systems basing on A4G. Current works include Phase II and Phase III with special focus on prototypes of advanced analytical systems. The progress marks in realization of the 7FSEDW will be yearly and long term works. In the dissertation a choice of such subjects is presented.
Przedstawiony zostanie prototyp systemu przetwarzania strumieniowego StreamAPAS v5.0. Składnia języka zapytań tego systemu jest utworzona z myślą o zastosowaniach analitycznych, które wymagają obsługi struktur indeksujących oraz możliwości prostego dodawania nowej funkcjonalności. Omówiono implementacje węzłów wyliczających agregaty oraz ich proces definiowania przez kompilator języka zapytań. Połączenie zalet drzewa atrybutów oraz interfejsu funkcji sprawia, że zbudowany system StreamAPAS v5.0 łatwo dostosować do zmieniających się potrzeb aplikacji.
EN
This paper introduces the prototype of the stream processing system StreamAPAS v5.0. The main goal of the engine and the query language is offering the general-purpose stream processing platform for data analysis. The language syntax simplify embedding new indexes and a new functionality. In this paper we focus on the implementation of the nodes calculating aggregates and the compiler algorithms used to define the aggregates. As it is further shown, the combination of hierarchical data structures and user aggregate defined functions makes continuous processing applications easier to develop and maintain.
Artykuł przedstawia opis rozwiązań indeksujących zintegrowanych z Materializowaną Listą Agregatów (MAL) użytych w projektowanym inteligentnym systemie transportowym (ITS). System ITS bazuje na trajektoryjnej hurtowni danych (TrDW). W artykule przedstawiona zostaje Traw, ze szczególnym uwzględnieniem indeksacji trajektorii oraz użytych rozwiązań MAL.
EN
The paper presents a description of indexing techniques integrated with Materialized Aggregate List used in designed trajectory data warehouse system TrDW. It also describes the TrDW system and shows a need and means to index trajectories. Then conclusions on the future work are given.
W artykule przedstawiono otwarty, zdecentralizowany protokół OpenID. Opisane zostały problemy, jakie protokół rozwiązuje, terminologię, specyfikacje, a także cechy OpenID. Przybliżono w dosyć szczegółowy sposób proces uwierzytelniania użytkowników. W dalszej części opisano implementację dostawcy OpenID, problem bezpieczeństwa, a zakończono rozważaniami na temat przyszłości aplikacji i samego protokołu.
EN
The article presents open, decentralized OpenID protocol. It describes problems which are solved by the protocol, terminology, specifications as well as features of OpenID. The article introduces in details the user authentication process. Further OpenID provider, implementation and security problem are described. The summary contains considerations concerning the future of the application and the protocol.
13
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
This paper describes the idea of a multi-dimensional bucket index designed for efficient indexing of telemetric readings. This data structure answers spatio-temporal range queries concerning utility usage within user selected region and time. In addition, it has a capability to adjust to incoming data and therefore is suitable to process data of highly dynamic nature. The paper also presents a stochastic prediction method to estimate utility usage in the near future.
14
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
The Materialized Aggregate List (MAL) enables effective storing and processing of long aggregates lists. The MAL structure contains an iterator table divided into pages that stores adequate number of aggregates. Time complexity of three algorithms was calculated and, in comparison with experimental results, the best configuration of MAL parameters (number of pages, single page size and number of database connections) was estimated. MAL can be also applied to every aggregation level in different indexing structures, like for instance the aR-tree.
W celu zasilania rozproszonych systemów analitycznych z rozproszonych systemów źródłowych zaproponowano rozproszony system ekstrakcji strumieni danych, oparty na sieci inżynierów procesu ETL. Taka sieć ETLPE, oparta na mechanizmie rozproszonych zasobów, pozwala na automatyzację projektowania znacznie rozproszonego strumieniowego procesu ETL i zapewnienie pełnej jego kontroli z dowolnego miejsca.
EN
In order to feed widely distributed analytical systems with data from widely distributed source systems, a widely distributed stream data extraction system was proposed. The system bases on ETL process engineers. Such network, the ETLPE, based on a distributed resources mechanism, allows automation of the widely distributed stream process design and ensures fully remote online control.
Systemy elektrycznych pomp głębinowych (ESP) wykorzystują jedną z metod sztucznego podnoszenia ropy naftowej, udoskonalającą proces produkcji w rezerwuarze. W artykule przeprowadzona jest statystyczna i eksploracyjna analiza czasu życia systemów ESP. W tym celu zastosowano estymator Kaplan-Meier oraz różne algorytmy eksploracji danych.
EN
Electrical submersible pump (ESP) systems are one of the more commonly used artificial lift methods that improve oil production from the well. This review of the literature describes survival analysis of ESP systems using statistical and data mining methodologies. Statistical analysis is based on the Kaplan-Meier estimator, while data mining utilizes a few traditional data mining algorithms.
Przedstawiony zostanie prototypowy język zapytań strumieniowych StreamAPAS v2.0 oraz system przetwarzania strumieniowego. Składnia języka StreamAPAS wspiera struktury hierarchiczne, które w czytelny sposób grupują atrybuty oraz reprezentują dane przestrzenne. Jednym z celów utworzonego systemu jest udostępnienie indeksów w przetwarzaniu strumieniowym. Wiąże się to z dodaniem nowych typów kolekcji krotek reprezentujących okna czasowe oraz rozbudową interfejsu funkcji. Rozwiązanie takie pozwala w prosty sposób zmieniać zbiór dostępnych funkcji, dzięki czemu łatwiej dostosować system przetwarzania strumieniowego do zmieniających się potrzeb aplikacji.
EN
The following paper introduces a new stream query language StreamAPAS v2.0 and the continuous processing system. The language syntax supports hierarchical data structures which offer grouping attributes and a better representation of spatial data. The paper describes also the extension of the data collections which enables the stream processing nodes to use indexes. The language syntax bases on the functional approach in order to simplify embedding new indexes and new functionality into the system. The above features make continuous processing applications easier to develop and maintain.
W artykule przestawiono model kosztowy x-BR-drzewa dla zapytań realizowanych w przestrzennych bazach danych. Model wyznacza koszt dla zapytań przestrzennych w bazach danych, rozumiany jako liczba dostępów do węzłów lub odczytów z dysku. Zaprezentowano wyniki testów, które pokazują dokładność analitycznych estymacji w porównaniu z rzeczywistymi wynikami.
EN
The paper proposes the cost model for spatial databases based on x BR-tree index. The model evaluates the cost for spatial queries in database, meant as a number of node accesses or disc reads. In addition, experimental results are presented, which shows the accuracy of analytical estimation compared with actual results.
Artykuł ten prezentuje nowe struktury danych: CBA-drzewa i QCBA-drzewa zaprojektowane jako alternatywa dla BA-drzew eliminująca niektóre spośród ich wad. Omówiona została ogólna charakterystyka wprowadzonych struktur, a także przeprowadzone dla nich testy porównawcze. Opisany został również problem agregacji przestrzennej, dla którego w głównej mierze adresowane są przedstawione rozwiązania.
EN
This article presents new data structures for both: CBA and QCBA-trees designed as an options for BA-tree and as an elimination of several flows. As part of this article, general description of introduced structures was not only discussed but also compared by tests. In addition to this, the problem of spatial aggregation, for which the solutions are mainly addressed, was described.
Artykuł przedstawia opis zapytań o pierwszych k preferowanych lokalizacji oraz przegląd opartych na R-drzewie istniejących metod ich realizacji. Przedstawiona zostaje także metoda optymalizacji procesu wykonywania zapytania oparta na poszerzonym opisie formalnym zapytań o pierwszych k preferowanych lokalizacji. Wszystkie opisane metody są następnie poddane analizie i przedstawiona jest ich charakterystyka. Artykuł wskazuje także algorytmy najbardziej efektywne w zależności od cech zapytania i konfiguracji danych.
EN
The paper presents a general description of top-k spatial preference queries and an overview of its existing, R-tree based, execution methods. It also introduces an optimization method based on a widened top-k spatial preference query description. All discussed techniques are then analyzed and their characteristics are presented together with the fields of their potential use.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.