Ten serwis zostanie wyłączony 2025-02-11.
Nowa wersja platformy, zawierająca wyłącznie zasoby pełnotekstowe, jest już dostępna.
Przejdź na https://bibliotekanauki.pl
Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 13

Liczba wyników na stronie
first rewind previous Strona / 1 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  outlier
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 1 next fast forward last
1
Content available remote Detection of outliers in data streams using grouping methods
100%
EN
Efficient processing of data streams usually requires their initial processing, including on the removal of anomalies caused by, for example, measuring errors. Such errors may result in misinterpretation of the phenomena being analyzed .The literature describes several methods for detecting exceptions in data streams. Each of them requires proper selection of operating parameters. In addition, the effectiveness of methods may vary depending on the data set being analyzed. The article describes current methods for detecting exceptions in data streams and analyzed their operation on gas consumption data.
PL
Przedmiotem niniejszej pracy jest wykrywanie wyjątków w strumieniach danych przy użyciu metod grupowania. Przetwarzanie strumieni danych wymaga wstępnej analizy a przede wszystkim usuwania wszelkiego rodzaju anomalii spowodowanych błędami pomiarowymi. Błędy te prowadzą do niewłaściwej interpretacji analizowanych zjawisk. W literaturze można odnaleźć metody wykrywania wyjątków w strumieniach danych oparte na metodach statystycznych, grupowaniu danych. Każda metoda wymaga odpowiedniego doboru parametrów operacyjnych. Skuteczność jest uzależniona od analizowanego zestawu strumienia. W pracy podano kilka metod grupowania używanych do detekcji wyjątków w strumieniach danych. Metody te sprawdzono dla strumieni dotyczących zużycia gazu.
|
|
tom 20
|
nr 2
155-171
EN
Machine learning methods are increasingly being used to predict company bankruptcy. Comparative studies carried out on selected methods to determine their suitability for predicting company bankruptcy have demonstrated high levels of prediction accuracy for the extreme gradient boosting method in this area. This method is resistant to outliers and relieves the researcher from the burden of having to provide missing data. The aim of this study is to assess how the elimination of outliers from data sets affects the accuracy of the extreme gradient boosting method in predicting company bankruptcy. The added value of this study is demonstrated by the application of the extreme gradient boosting method in bankruptcy prediction based on data free from the outliers reported for companies which continue to operate as a going concern. The research was conducted using 64 financial ratios for the companies operating in the industrial processing sector in Poland. The research results indicate that it is possible to increase the detection rate for bankrupt companies by eliminating the outliers reported for companies which continue to operate as a going concern from data sets.
|
|
tom 20
|
nr 3
31-56
EN
Measurement system analysis is a comprehensive valuation of a measurement process and characteristically includes a specially designed experiment that strives to isolate the components of variation in that measurement process. Gage repeatability and reproducibility is the adequate technique to evaluate variations within the measurement system. Repeatability refers to the measurement variation obtained when one person repeatedly measures the same item with the same Gage, while reproducibility refers to the variation due to different operators using the same Gage. The two factors factorial design, either crossed or nested factor, is usually used for a Gage R&R study. In this study, the focus is only on the nested factor, random effect model. Presently, the classical method (the method of analysing data without taking into consideration the existence of outliers) is used to analyse the nested Gage R&R data. However, this method is easily affected by outliers and, consequently, the measurement system’s capability is also affected. Therefore, the aims of this study are to develop an identification method to detect outliers and to formulate a robust method of measurement analysis of nested Gage R&R, random effect model. The proposed methods of outlier detection are based on a robust mm location and scale estimators of the residuals. The results of the simulation study and real numerical example show that the proposed outlier identification method and the robust estimation method are the most successful methods for the detection of outliers.
PL
W artykule opisano nowy suboptymalny algorytm estymacji dla systemów pomiarowych, w których zakłócenia powodują pojawianie się pomiarów anomalnych. Proponowana metoda wykorzystuje dwurozkładowy gaussowski model zakłóceń procesu pomiarowego. Na jego podstawie opracowano algorytm wyznaczania aposteriorycznego prawdopodobieństwa stanu kanału pomiarowego, który zastosowano jako rozszerzenie estymatora największej wiarygodności pozwalające na wykrycie i eliminację pomiarów anomalnych. W artykule rozpatrzono zakłócenia pojawiające się w nieliniowym torze pomiarowym oraz śledzenie obiektu opisanego nieliniowymi równaniami stanu. Zaprezentowano również wyniki badań symulacyjnych.
EN
The paper presents a new outlier detection and suppression suboptimal algorithm for the maximum likelihood estimation method. The proposed method is based on the mathematical model of disturbances in a form of noise variance changes. The outliers detection is done on the basis of the a posteriori probabilities of the measurement channels state. The system with measurement channel described by nonlinear equation and object with nonlinear dynamics are considered. Simulation results are presented. The proposed algorithm reveals better performance than typical MLE method.
5
Content available Progression of clock DBD changes over time
75%
EN
Day-boundary discontinuity (DBD) is an effect present in precise GNSS satellite orbit and clock products originating from the method used for orbit and clock determination. The non-Gaussian measurement noise and data processing in 24 h batches are responsible for DBDs. In the case of the clock product, DBD is a time jump in the boundary epochs of two adjacent batches of processed data and its magnitude might reach a couple of ns. This article presents the four GNSS (Global Navigation Satellite System) systems DBD analysis in terms of change over an 8 year period. For each of 118 satellites available in this period, the yearly value of DBD was subject to analysis including standard deviation and frequency of outliers. Results show that the smallest DBDs appear in the GPS system, the biggest - for the BeiDou space segment. Moreover, the phenomenon of changes in DBDs over time is clearly seen at the beginning of the analysed period when the magnitude and number of the DBDs were larger than for current, newest clock products.
6
Content available Robust Orthogonal Fitting of Plane
63%
EN
Least Squares orthogonal distance fitting of plane surface onto 3D points is the best option in the event that gross errors nor systematic errors affect the observations. However, such situations often occur in the processing of the experimental data and robust methods are a good alternative in such cases. This issue is illustrated by the example of orthogonal fitting a plane on a set of 3D points using a robust M-estimate by Huber.
PL
Ortogonalne dopasowanie odległości płaskiej powierzchni na punkty 3D metodą najmniejszych kwadratów jest najlepszym rozwiązaniem w przypadku gdy błędy grube oraz błędy systematyczne nie wpływają na obserwacje. Takie sytuacje zdarzają się jednak często podczas przetwarzania danych eksperymentalnych, a metody odpornościowe są dobrą alternatywą w przypadkach tego typu. Ten problem został przedstawiony na przykładzie dopasowania ortogonalnego płaszczyzny na zestaw punktów 3D przy użyciu metody M-estymacji opracowanej przez Hubera.
7
63%
PL
Przedstawiono dwie tzw. odporne metody statystyczne: o przeskalowanym odchyleniu medianowym MAD i iteracyjną Hubera. Sa one stosowanie do oceny niepewności próbek pomiarowych o małej liczbie danych z wartościami odstającymi (ang. outliers). Uwzględnia się w nich wszystkie dane, ale outliery traktuje się inaczej jako mniej wiarygodne. Porównano dla kilku przykładów z badań międzylaboratoryjnych wyniki obliczone wg procedury standardowej oraz oboma metodami odpornymi. Stwierdzono, że metodą Hubera można szacować dokładność pomiarów przy walidacji metody pomiarowej w porównaniu kluczowym i przy okresowej kontroli biegłości laboratorium, gdy dostępna jest jedynie mała próbka z outlierem.
EN
Two robust methods of assessing the uncertainty of samples of experimental data with outliers are presented, i.e.: a rescaled median absolute deviation MADS method and an iterative Huber method. They allow to set a credible accuracy parameters of the measurements with the use of all experimental data, but outliers as less reliable, differently are treated. For small size samples with outliers results obtained by a classical method with rejection of outliers and by above robust methods are compared. It is shown that Huber method can be successfully used in estimation of the accuracy in inter-laboratory measurements, such as key comparisons of the tested method and in proficiency testing in the control or accreditation of the laboratory if such small size sample is only available.
|
|
nr 4
111-120
PL
Wykrywanie obserwacji nietypowych w próbie losowej stanowi ważne zagadnienie w analizach statystycznych. Jednym ze sposobów badania próby od kątem istnienia wartości odstających jest stosowanie testów statystycznych opartych na statystykach ekstremalnych, do których należą: test Grubbsa i jego uogólnienie, test Dixona oraz testy oparte na asymptotycznych rozkładach minimum i maksimum z próby. Granicznymi rozkładami statystyk ekstremalnych są, w zależności od klasy rozkładu analizowanej zmiennej, rozkład Gumbela, Frecheta lub Weibulla. W artykule, oprócz rozważań teoretycznych, przedstawiono zastosowania wybranych testów do weryfikacji hipotez o wartościach nietypowych przy konstrukcji modeli ekonometrycznych.
EN
The problem of the existence of outliers in the sample is an important issue in statistical surveys. One of the methods of outliers detection is the application of statistical tests based on extreme statistics. Grubbs test and its generalization, Dixon test and tests based on asymptotic distributions of minimum and maximum (Gumbel, Frechet, Weibull distributions) belong to group of these tests. In the paper, besides the theoretical considerations the application of selected tests, used to verify the hypothesis of outliers in the construction of econometric models, is presented.
EN
The presence of an outlier at the starting point of a univariate time series negatively influences the forecasting accuracy. The starting outlier is effectively removed only by making it equal to the second time point value. The forecasting accuracy is significantly improved after the removal. The favorable impact of the starting outlier removal on the time series forecasting accuracy is strong. It is the least favorable for time series with exponential rising. In the worst case of a time series, on average only 7 % to 11 % forecasts after the starting outlier removal are worse than they would be without the removal.
PL
Wartość odstająca w punkcie początkowym jednowymiarowego szeregu czasowego negatywnie wpływa na dokładność prognozowania. W ramach przeprowadzonych badań dokonano analizy wpływu usunięcia wartości odstającej poprzez zrównanie jej z wartością drugiego punktu cza-sowego. Uzyskane wyniki wskazują, że przyjęta metoda znacznie poprawia dokładność progno-zowania dla większości szeregów czasowych. Jednak w przypadku szeregów czasowych z wykładniczym wzrostem, metoda okazała się mniej skuteczna. Minimalny wzrost dokładności prognozowania wynosił w tym przypadku od 7 % do 11 %.
|
|
tom R. 99, nr 10
204--207
PL
W artykule przedstawiono, porównano i przedyskutowano wyniki wyznaczania parametrów krzywej wzorcowania chromatografu gazowego dla metody wzorca wewnętrznego. Celem wzorcowania było określanie stężęnia etanolu w ciekłych próbkach spożywczych. Ze zbioru 168 wyników eksperymentalnych wyselekcjonowano 12 wyników odstających. Na podstawie danych eksperymentalnych skonstruowano zbiory testowe zawierające wyniki odstające. Parametry krzywej wzorcowej wyznaczano 2 metodami klasycznymi (MNK, WMNK) oraz 3 metodami odpornymi na występowanie błędów grubych: z zastosowaniem winsoryzacji błędów resztowych, z zastosowaniem funkcji czułości Hubera oraz z zastosowaniem metody najmniejszej mediany kwadratu błędów resztowych. Wyniki wzorcowania uzyskane 5 metodami porównano, przedstawiono wnioski.
EN
The article presents, compares and discusses the results of determining the parameters of the gas chromatograph calibration curve for the internal standard method. The purpose of the calibration was to determine the concentration of ethanol in liquid food samples. From a set of 168 experimental results, 12 outliers were selected. From the obtained data, test sets containing the outlier results were constructed. The parameters of the calibration curve were determined by 2 classical methods (LS, WLS) and 3 methods resistant to the occurrence of gross errors: using winsorization of residual errors, using Huber's sensitivity function and using the method of the least median square of residual errors. Calibration results obtained by the 5 methods were compared, conclusions were drawn.
PL
W dwuczęściowej pracy omówiono zastosowanie statystyki odpornościowej do oceny wartości i niepewności menzurandu uzyskiwanych na podstawie próbki danych doświadczalnych, gdy niektóre z tych danych różnią się istotnie od pozostałych, czyli są outlierami. Metodami odpornościowymi wyznaczono parametry statystyczne wyniku pomiaru ze wszystkich danych, ale wpływ outlierów potraktowano odmiennie. Dla próbek o niewielkiej liczności uzyskano wyniki bardziej wiarygodne niż w sposób klasyczny z odrzuceniem outlierów. Ilustrują to przykłady z porównań międzylaboratoryjnych. W części 1. omówiono podstawowe zasady statystyki odpornościowej oraz iteracyjną metodę odporną podaną przez Hubera, którą w normie ISO 5725-5 nazwano Algorytm A. Jako ilustrację, w symulowanym przykładzie liczbowym, wyznaczono niepewność procedury pomiarowej testowanej przez porównanie wyników badania jednorodnych obiektów w kilku laboratoriach akredytowanych. Oszacowano średnią niepewność metodą klasyczną dla wszystkich danych. Po usunięciu outlierów zastosowano dwie metody odpornościowe – przeskalowanego odchylenia medianowego MADS i metodę Hubera, czyli iteracyjny Algorytm A, którego wyniki były najbardziej wiarygodne.
EN
This two-part paper discusses the use of robust statistics to assess the value and uncertainty of measurand obtained from a sample of experimental data when some of these data differ significantly from the others, i.e. are outliers. The statistical parameters of the measurement result are determined by robust methods from all data, but influence of outliers is treated differently. For small sample sizes results are more reliable than obtained by classical methods with exclusions of outliers. This is illustrated by examples from the interlaboratory key comparisons. Part 1 discusses the basic principles of the robust statistics and the iterative robust method given by Huber, which is called Algorithm A in ISO 5725-5. As illustration in the simulated numerical example, the uncertainty of some measurement method was estimated based on measurements of homogeneous object in several accredited laboratories. The mean uncertainty of this experiment is estimated by classic method for all data and with exclusion of outliers and by two robust methods: rescaled median deviation and by Algorithm-A. The result of last method is the most reliable.
PL
W artykule omówiono iteracyjną metodę odporną Algorytm S. Stosuje się ją do oszacowania precyzji określonej metody pomiarowej na podstawie wyników badań jednorodnych obiektów w wielu akredytowanych laboratoriach, gdy oceny dokładności pomiarów w niektórych z nich są odstające. Wypadkową odporną ocenę dokładności badanej metody znajduje się na podstawie oszacowania niepewności lub rozstępu wyników pomiarów tą metodą w każdym z laboratoriów, bez odrzucania danych odstających. Rozważania zilustrowano przykładem liczbowym.
EN
This two-part paper discusses the use of robust statistics to assess the value and uncertainty of measurand obtained from a sample of experimental data when some of these data differ significantly from the others, i.e. are outliers. The statistical parameters of the measurement result are determined by robust methods from all data, but influence of outliers is treated differently. For small sample sizes results are more reliable than obtained by classical methods with exclusions of outliers. This is illustrated by examples from the interlaboratory key comparisons. Part 1 discusses the basic principles of the robust statistics and the iterative robust method given by Huber, which is called Algorithm A in ISO 5725-5. As illustration in the simulated numerical example, the uncertainty of some measurement method was estimated based on measurements of homogeneous object in several accredited laboratories. The mean uncertainty of this experiment is estimated by classic method for all data and with exclusion of outliers and by two robust methods: rescaled median deviation and by Algorithm A. The result of last method is the most reliable.
PL
W pracy przedstawiono zalety odpornej iteracyjnej metody szacowania wskaźników dokładności pomiarów dla oceny biegłości laboratoriów badawczych do celów akredytacji i okresowej kontroli, w szczególności przy braku próbek wzorcowych i przy niewielkiej liczbie elementów próbki oraz występowaniu danej odstającej. Dotyczy to w szczególności laboratoriów, które muszą przeprowadzać badania niszczące lub o wysokich kosztach pomiarów. Porównano na przykładach liczbowych oceny dokładności otrzymane proponowaną iteracyjną metodą odporną i według procedur standardowych.
EN
Advantages of robust iterative statistical method for estimating the accuracy of performance of testing laboratories during their accreditation in the absence of reference materials and with small sample sizes and outliers are presented in the paper. These situation is observed in the laboratory performing the test with the destruction of the samples or in the case of very expensive testing. A comparison with the estimates obtained by the standard procedure for evaluating performance accuracy is also provided.
first rewind previous Strona / 1 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.