Cel: Identyfikacja obserwacji odstających stanowi kluczowy element w analizie danych. Pomimo że w literaturze funkcjonuje wiele różnych definicji, czym są obserwacje odstające, to ogólnie można stwierdzić, że są to obiekty różniące się od pozostałych obserwacji ze zbioru danych. Literatura przedmiotu wskazuje wiele różnorodnych metod, które można wykorzystać w przypadku danych klasycznych. Niestety w przypadku danych symbolicznych brakuje takich analiz. Celem artykułu jest zaproponowanie modyfikacji lasów separujących (isolation forests) dla danych symbolicznych. Metodyka: W artykule wykorzystano lasy separujące dla danych symbolicznych do identyfikacji obserwacji odstających w sztucznych zbiorach danych o znanej strukturze klas i znanej liczbie obserwacji odstających. Wyniki: Otrzymane wyniki wskazują, że lasy separujące dla danych symbolicznych są efektywnym i szybkim narzędziem w identyfikacji obserwacji odstających. Implikacje i rekomendacje: Ponieważ lasy separujące dla danych symbolicznych okazały się skutecznym narzędziem w identyfikacji obserwacji odstających, celem przyszłych badań powinno być przeanalizowanie skuteczności tej metody w przypadku rzeczywistych zbiorów danych (np. zbioru dotyczącego oszustw z użyciem kart kredytowych), a także porównanie tej metody z innymi metodami, które pozwalają odnaleźć obserwacje odstające (np. DBSCAN). Autorzy sugerują, by w przypadku lasów separujących dla danych symbolicznych stosować te same parametry, jakie zwykle stosuje się w przypadku lasów losowych dla danych klasycznych. Oryginalność/wartość: Artykuł nie tylko stanowi ujęcie teorii w zakresie obserwacji odstających, ale jednocześnie proponuje, jak zastosować lasy separujące w przypadku danych symbolicznych.
EN
Aim: Outlier detection is a key part of every data analysis. Although there are many definitions of outliers that can be found in the literature, all of them emphasise that outliers are objects that are in some way different from other objects in the dataset. There are many different approaches that have been proposed, compared, and analysed for the case of classical data. However, there are only few studies that deal with the problem of outlier detection in symbolic data analysis. The paper aimed to propose how to adapt isolation forest for symbolic data cases. Methodology: An isolation forest for symbolic data is used to detect outliers in four different artificial datasets with a known cluster structure and a known number of outliers Results: The results show that the isolation forest for symbolic data is a fast and efficient tool for outlier mining. Implications and recommendations: As the isolation forest for symbolic data appears to be an efficient tool for outlier detection for artificial data, further studies should focus on real data sets that contain outliers (i.e. credit card fraud dataset), and this approach should be compared with other outlier mining tools (i.e. DBCSAN). The authors recommend using the same initial settings for the isolation forest for symbolic data as the settings that are proposed for the isolation forest for classical data. Originality/value: This paper is the first of its kind, focusing not only on the problem of outlier detection in general, but also extending the well-known isolation forest model for symbolic data cases. Keywords: symbolic data analysis, isolation forest, outliers
Statystyka matematyczna jest potężnym narzędziem w analizie rynku nieruchomości i wyceny nieruchomości w przypadku dużych zbiorów danych. W literaturze często przytaczane są modele regresji dwuwymiarowej oraz wielowymiarowej. Estymacja parametrów modeli jest przeważnie oparta na metodzie najmniejszych kwadratów, mało odpornej na przypadki odstające. Nawet pojedyncza obserwacja odstająca może mieć negatywny wpływ na wyniki estymacji uzyskiwane w modelach opartych na klasycznej metodzie najmniejszych kwadratów. Autor analizuje możliwość zastosowania do modelowania wartości nieruchomości wybranych metod estymacji odpornej – metody Hubera oraz Hampela. Metody estymacji odpornej w porównaniu z klasycznymi metodami estymacji pozwalają uzyskać najmniejsze wartości wariancji estymowanych parametrów, co przekłada się na minimalizację wariancji szacowanych wartości nieruchomości z wykorzystaniem założonego modelu. W celu weryfikacji tezy o możliwości zastosowania metod odpornych w wycenie nieruchomości przeprowadzono analizę na przykładowej bazie nieruchomości. Wnioski sformułowano na podstawie porównania wyników estymacji za pomocą klasycznej metody najmniejszych kwadratów z wynikami wybranych metod estymacji odpornej (Hubera i Hampela). Podstawą wnioskowania była również analiza wariancji.
EN
Mathematical statistics is a powerful tool in real estate analysing and its valuation, when large databases are to be considered. The professional literature very often cites two or multidimensional variables methods of regression. Typically the model parameters estimation is based on the smallest squares method, however, such a method could not be resilient to the outlier cases. Even a single outlier could potentially have a negative impact on estimating results obtained by using the standard smallest squares method. The author analyzes the possibility of application of the chosen robust estimation method in property value modeling – the Huber and Hampel method. Comparing to the most commonly used classic estimation method, the robust estimation method enables us to obtain the smallest variation values for the estimated parameters, that results in property value estimated parameters variance minimizing, based on a given model. To verify the rationale of using the resilience methods in property valuation assumption, a sample of real property database analysis was conducted. The findings were concluded based on result comparison of the classic smallest squares method and the robust estimation method (Huber and Hampel) with variance analysis being also taken as a basis for conclusion.
This paper provides a review of popular outlier-robust methods used in surveying. The presented methods have been divided into two groups i.e. active and passive methods. The first group comprises the following methods: the Huber Method, the Hampel Method, the Danish Method, the Gaździcki Method, the Least Absolute Deviation and a Choice Rule of Alternative. The second group of methods is represented by the so called iterative data snooping (IDS) and τ-test. There are M-estimation rules presented in the introduction to the review of active methods.
PL
Praca zawiera przegląd popularnych metod odpornych na błędy grube stosowanych w geodezji. Metody te podzielono na dwie grupy, tj. aktywne oraz pasywne. W pierwszej z nich znalazła się metoda Hubera, Hampela, duńska, Gaździckiego, liniowa, najmniejszych odchyleń absolutnych oraz zasada wyboru alternatywy. Druga grupa zawiera metodę Iterative Data Snooping (IDS) oraz τ-test. Wstęp do metod aktywnych stanowi przedstawienie zasad M-estymacji.
Artykuł przedstawia problematykę wykrywania odchyleń w regułowych bazach wiedzy. Reguły nietypowe, uznawane tu za odchylenia, powinny być przedmiotem analiz ekspertów i inżynierów wiedzy, gdyż mogą wpływać na efektywność wnioskowania w systemach wspomagania decyzji. Autorka prezentuje różne podejścia w znajdowaniu odchyleń w strukturze skupień reguł. W artykule ujęto także wykonane eksperymenty wraz z interpretacją wyników.
EN
The paper presents the problem of outlier detection in the rule knowledge bases. Unusual (rare) rules, regarded here as the deviation, should be the subject of analysis experts and knowledge engineers because they can influence the efficiency of inference in decision support systems. The author presents a different approach in finding outliers in the structure of rules’ clusters. The experiments with their results are also presented in the paper.
The paper presents a method of detecting atypical observations in time series with or without seasonal fluctuations. Unlike classical methods of identifying outliers and influential observations, its essence consists in examining the impact of individual observations both on the fitted values of the model and the forecasts. The exemplification of theoretical considerations is the empirical example of modelling and forecasting daily sales of liquid fuels at X gas station in the period 2012-2014. As a predictor, a classic time series model was used, in which 7-day and 12-month cycle seasonality was described using dummy variables. The data for the period from 01.01.2012 to 30.06.2014 were for the estimation period and the second half of 2014 which was the period of empirical verification of forecasts. The obtained results were compared with other classical methods used to identify influential observations and outliers, i.e. standardized residuals, Cook distances and DFFIT. The calculations were carried out in the R environment and the Statistica package.
PL
W pracy zaproponowano metodę wykrywania obserwacji nietypowych w szeregach czasowych z wahaniami sezonowymi oraz bez tych wahań. Jej istota jej polega na badaniu wpływu poszczególnych obserwacji szeregu na wartości teoretyczne modelu oraz wielkości prognoz zbudowanych na jego podstawie. Egzemplifikacją rozważań o charakterze teoretycznym jest przykład empiryczny dotyczący modelowania i prognozowania dziennej sprzedaży paliw płynnych na stacji paliw X w latach 2012-2014. Dane za okres od 1.01.2012 do 30.06.2014 stanowią okres estymacyjny, a za II półrocze 2014 r. okres empirycznej weryfikacji prognoz. Wyniki otrzymane za jej pomocą zostały porównane z wynikami uzyskanymi innymi metodami służącymi do identyfikacji obserwacji wpływowych oraz odstających, w tym m.in.: reszt standaryzowanych, odległości Cooka oraz DFFIT. Obliczenia przeprowadzono w środowisku R oraz pakiecie Statistica.
Road traffic is among the most dangerous types of human activity. The main causes of road accidents are driver fatigue, poor physical and mental condition of drivers and overestimating one’s skills while driving. This study focuses on the estimation of driver response time, as the basis of a hypothetical system that uses short and long-range radars, which determines the physical and mental condition of a driver, based on the analysis of „acceleration noise” of the vehicle following its predecessor. This work highlights serious consequences of the fact that driver response time is described by means of a distribution with heavy tails, and thus may be a source of hazard in the driver-vehicle system. Extremes of driver response time were treated as outliers in this study. Their detection was attained by using the Akaike information criterion [1, 2], which is an alternative to conventional methods of testing hypotheses. Untypical, on account of their outlying nature, values are interpreted as critical driver response time values which potentially endanger the reliability of driving.
PL
Ruch drogowy należy do najbardziej niebezpiecznych rodzajów działalności człowieka. Główne przyczyny wypadków drogowych to zmęczenie kierowców, zły stan psychofizyczny kierujących oraz przecenianie swoich umiejętności podczas prowadzenia pojazdu. W niniejszej pracy skupiono uwagę na estymacji czasu reakcji kierowców, jako podstawie hipotetycznego systemu wykorzystującego radary dalekiego i krótkiego zasięgu a określającego stan psychofizyczny kierowcy w oparciu o analizę „szumu przyspieszeń” pojazdu podążającego za poprzednikiem. Wskazuje się na groźne konsekwencje faktu, że czas reakcji kierowcy jest opisywany rozkładem z ciężkimi ogonami, gdyż z tego powodu może być źródłem zagrożenia w układzie kierowca-pojazd. Skrajne wartości czasu reakcji kierowców potraktowano w pracy, jako wartości odstające. Do ich wykrycia zastosowano kryterium informacyjne Akaike [1, 2] co stanowi alternatywę w stosunku do klasycznych metod testowania hipotez. Nietypowe, bo odstające wartości interpretuje się, jako krytyczne czasy reakcji kierowców potencjalnie zagrażające niezawodności jazdy.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.