Critical Infrastructures in public administration would be compromised by Advanced Persistent Threats (APT) which today constitute one of the most sophisticated ways of stealing information. This paper presents an effective, learning based tool that uses inductive techniques to analyze the information provided by firewall log files in an IT infrastructure, and detect suspicious activity in order to mark it as a potential APT. The experiments have been accomplished mixing real and synthetic data traffic to represent different proportions of normal and anomalous activity.
Thesis/Objective – The article is to describe the algorithm applied to search for duplicate bibliographic records in a bibliographic database. The algorithm in question was built to automate the query used to retrieve duplicate bibliographic records in the Jagiellonian University Repository. Research methods – In order to build the algorithm the author analyzed already existing algorithms used to compare text data. The construction of the new algorithm was done with vector calculations in multidimensional hiperspaces and analytic geometry in Cartesian plane. Results and conclusions – Tests have shown that processing of large number of records is possible and more effective if text data are replaced with numbers.
Teza/cel artykułu – Celem artykułu było opisanie działania i zastosowania algorytmu do wyszukiwania podobnych opisów bibliograficznych w różnych rekordach w bibliograficznej bazie danych. Algorytm stworzono z zamiarem zautomatyzowania kwerendy mającej na celu wskazanie potencjalnie powielonych opisów bibliograficznych w Repozytorium Uniwersytetu Jagiellońskiego. Metody badawcze – Tworząc stosowne narzędzie przeanalizowano istniejące algorytmy do porównań danych tekstowych. Przy tworzeniu nowego algorytmu wykorzystano obliczenia wektorowe w wielowymiarowych hiperprzestrzeniach i geometrię analityczną na płaszczyźnie kartezjańskiej. Wyniki i wnioski – W trakcie testów wykazano, że przetworzenie dużej liczby rekordów jest możliwe i skuteczniejsze po uprzedniej zamianie wartości danych tekstowych na liczby.
Nowadays contemporary organizations apply different business analytics tools such as sentiment analysis for the purpose of business functionality improvement and support of decision making processes. Sentiment analysis also called opinion mining allow for gathering and analysis of opinion concerning particular product or service. The aim of the paper is to present the notion of sentiment analysis and its areas of application in contemporary organizations. It also presents practical examples and case studies concerning sentiment analysis application in different areas of business activity.
Obecnie współczesne organizacje stosują różne narzędzia analityki biznesowej, takie jak analiza opinii w celu ulepszenia funkcjonalności biznesowej i wspierania procesów decyzyjnych. Analiza opinii pozwala na zebranie i analizę opinii dotyczących poszczególnych produktów i usług. Celem niniejszego artykułu jest prezentacja znaczenia analizy opinii i jej obszarów zastosowań, w tym korzyści wynikających z tych aplikacji we współczesnych organizacjach. Artykuł przedstawia także praktyczne przykłady i studia przypadków dotyczące zastosowań tejże analizy w różnorodnych obszarach działalności biznesowej.
The aim of this work was to implement a chemometric analysis to detect the relationships between the analysed variables in samples of solid fuels. Efforts are being made to apply chemometrics methods in environmental issues by developing methods for the rapid assessment of solid fuels and their compliance with the required emission characteristics regulations. In the present investigation, two clustering techniques-hierarchical clustering analysis (HCA) and principal components analysis (PCA)-are used to obtain the linkage between solid fuel properties and the type of sample. These analyses allowed us to detect the relationships between the studied parameters of the investigated solid fuels. Furthermore, the usefulness of chemometrics methods for identification of the origin of biofuels is shown. These methods will enable control of the degree of contamination. [...]
Manufacturing companies that produce and assemble multiple products rely on databases containing thousands or even millions of parts. These databases are expensive to support, maintain and the inherent complexity does not allow end users to utilize fully such databases. Designers and engineers are often not able to find previously created parts, which they could potentially reuse, and they add one more part to the database. Engineered improvements without removal of the previous version of the component also cause the avoidable increase of elements in the database. Reuse of parts or planned development of common parts across products brings many benefits for manufacturers. Search algorithm utilized across part databases and varying projects allows identifying similar parts. The goal is to compare part names and attributes resulting in the assignment of a similarity score. Determining common and differentiating part attributes and characteristics between pairs of components allows nominating parts that can become shared in different products. The case study utilizes an industrial example to evaluate and assess the feasibility of the proposed method for identifying commonality opportunities. It turned out that it is possible to find many parts that can be potentially shared between different products.
Ensuring safety and continuity of production is the major task of telecommunication systems in deep mining. These systems, despite their use of modern and innovative infrastructure of monitoring solutions, are not free from imperfections. One of the practical problems are false alarms signaling the occurrences of damaged infrastructures. In the paper, the data sources of the telecommunication system are identified and described, as well as the methods of their preprocessing. To build a classifier, a method of attribute selection is proposed to detect false alarms generated by the telecommunication system of the mine. Experiments were carried out on real data extracted from the telecommunication system operating in the copper mine of the KGHM Polska Miedź SA.
Faktoring obok leasingu i kredytu stanowi jedno ze źródeł finansowania bieżącej działalności przedsiębiorstwa. Jednak transakcja faktoringowa okazuje się bardziej obarczona ryzykiem niż inne formy finansowania. Niniejszy artykuł ma na celu wskazanie problemu ryzyka operacyjnego, które towarzyszy transakcjom faktoringowym. W pierwszej części została przedstawiona istota faktoringu, strony umowy i przebieg procesów z wykorzystaniem transakcji faktoringowej. Następnie poruszono kwestie związane z ryzykiem operacyjnym, które towarzyszy faktoringowi. Ostatnia, trzecia część artykułu stanowi badanie empiryczne mające na celu zaproponowanie procesu ograniczenia ryzyka operacyjnego poprzez segmentację transakcji faktoringowych z wykorzystaniem wybranych parametrów. Po zastosowaniu metody drzew klasyfikacyjnych, która posiada zdolność uczenia i uogólniania, zaproponowany model wskaże odpowiednio sklasyfikowane transakcje, na podstawie których można wnioskować o jakości transakcji faktoringowych.
Among loans and leasing, factoring is being one of source for financing the companies’ business. However, the factoring transaction appears to be more fraught with risk than other forms of financing. This paper aims to identify the problem of operational risk in factoring transactions. In the first part was presented the essence of factoring, the parties and processes in the use of factoring transactions. Next part discusses the issues related to operational risk in factoring. The last, third part of the study is an empirical study aimed at proposing processes of, reducing operational risk by segmenting factoring transactions based on selected parameters. Use of the classification trees method, which has the ability to learn and generalize, the model indicates adequately classified transactions. On that basis the quality of factoring transactions can be indicated.
W artykule zaproponowano metodykę realizacji projektu systemu wspomagania decyzji marketingowych z wykorzystaniem metod eksploracji danych i technologii Big Data. Inspiracją podejścia była metodyka eksploracji danych CRISP-DM, która oryginalnie nie była zorientowana na projekty Big Data. Z tego powodu metodykę tę zmodyfikowano pod kątem celu i wymagań funkcjonalnych oraz technologicznych projektowanego przez nas systemu. Główne prace badawcze w projekcie koncentrowały się na analizie i eksploracji dużych, heterogenicznych zbiorów danych o dużej zmienności. W artykule szczegółowo opisano etapy procesu realizacji projektu według rozszerzonej metodyki CRISP-DM, z uwzględnieniem specyfiki procesów analizy i eksploracji dużych baz danych marketingowych przetwarzanych w czasie rzeczywistym. W celu ilustracji podejścia podano też przykłady zadań w trakcie realizacji etapów projektu na konkretnych danych o klientach, transakcjach i produktach sklepu internetowego.
The article proposes a methodology for development of a marketing Decision Support System using data mining methods and Big Data technologies. The main research findings focus on the analysis and exploration of very large, heterogeneous sets of highly volatile marketing data. The approach is inspired by the CRISP-DM methodology which is not oriented towards Big Data applications. The article describes in detail the stages of the project development according to the extended CRISP-DM methodology, taking into account the specificity of the analysis and exploration processes of large marketing databases processed in real time. In order to illustrate the approach, the examples based on real data about customers, transactions and products of the Internet store were discussed.
