Missing data cause problems in meteorological, hydrological, and climate analysis. The observation data should be complete and cover long periods to make the research more accurate and reliable. Artificial intelligence techniques have attracted interest for completing incomplete meteorological data in recent years. In this study the abilities of machine learning models, artificial neural networks, the nonlinear autoregressive with exogenous input (NARX) model, support vector regression, Gaussian processes regression, boosted tree, bagged tree (BAT), and linear regression to fill in missing precipitation data were investigated. In developing the machine learning model, 70% of the dataset was used for training, 15% for testing, and 15% for validation. The Bayburt, Tercan, and Zara precipitation stations, which are closest to the Erzincan station and have the highest correlation coefficients, were used to fill the data gaps. The accuracy of the constructed models was tested using various statistical criteria, such as root-mean-square error (RMSE), mean absolute error (MAE), Nash–Sutcliffe model efficiency coefficient (NSE), and determination coefficient (R2) and graphical approaches such as scattering, box plots, violin plots, and Taylor diagrams. Based on the comparison of model results, it was concluded that the BAT model with R2: 0.79 and NSE: 0.79 and error (RMSE: 11.42, and MAE: 7.93) was the most successful in the completion of missing monthly precipitation data. The contribution of this research is assist in the choice of the best and most accurate method for estimating precipitation data in semi-arid regions like Erzincan.
Missing data in test result tables can significantly impact the analysis quality, especially in relation to technical sciences, where the mechanism generating missing data is often non-random, and their presence depends on the non-observed part of studied variables. In such cases, the application of an inappropriate method for dealing with missing data will lead to bias in the estimated distribution parameters. The article presents a relatively simple method to implement in dealing with missing data generated as a result of the MNAR mechanism, which utilizes the censored random variable. This procedure does not modify the variable distribution form, which is why it ensures objective and efficient estimation of distribution parameters within studies affected by certain restrictions of technical or physical nature (censored distribution), with a relatively low workload. Furthermore, it does not require the application of specialized software. A prerequisite for using this method is the knowledge of the frequency and cause of missing data. The method for estimating the random variable censored distribution parameters was shown based on the example of studying the leachability of selected heavy metals from a hardening slurry. The analysis results were compared with classical methods for dealing with missing data, such as, ignoring missing data observations (listwise or pairwise deletion), single imputation and stochastic regressive imputation.
PL
Braki danych w tablicach wyników badań mogą w znaczący sposób wpływać na jakość analizy, szczególnie w naukach technicznych, gdzie mechanizm generujący braki danych często jest nielosowy, a ich występowanie zależy od części nieobserwowanej badanych zmiennych. W takich przypadkach zastosowanie nieodpowiedniej metody radzenia sobie z brakami danych prowadzi do obciążenia estymowanych parametrów rozkładu. W artykule przedstawiono stosunkowo prostą w implementacji metodę radzenia sobie z brakami danych powstałymi w wyniku mechanizmu MNAR wykorzystującą rozkład cenzurowany. Procedura ta nie modyfikuje postaci rozkładu zmiennej, przez co zapewnia obiektywne i skuteczne estymowanie parametrów rozkładu w badaniach dotkniętych pewnymi ograniczeniami natury technicznej lub fizycznej, przy stosunkowo niskim nakładzie pracy. Ponadto nie wymaga zastosowania specjalistycznego oprogramowania. Warunkiem koniecznym zastosowania metody jest znajomość częstości występowania braków danych oraz ich przyczyny. Sposób estymacji parametrów rozkładu cenzurowanego zmiennej losowej przedstawiono na przykładzie badania wymywalności wybranych metali ciężkich z zawiesiny twardniejącej. Wyniki analizy porównano z klasycznymi sposobami radzenia sobie z brakami danych: pominięciem obserwacji z brakami danych, imputacją oraz stochastyczną imputacją regresyjną.
In this paper we investigate further and extend our previous work on radar signal identification and classification based on a data set which comprises continuous, discrete and categorical data that represent radar pulse train characteristics such as signal frequencies, pulse repetition, type of modulation, intervals, scan period, scanning type, etc. As the most of the real world datasets, it also contains high percentage of missing values and to deal with this problem we investigate three imputation techniques: Multiple Imputation (MI); K-Nearest Neighbour Imputation (KNNI); and Bagged Tree Imputation (BTI). We apply these methods to data samples with up to 60% missingness, this way doubling the number of instances with complete values in the resulting dataset. The imputation models performance is assessed with Wilcoxon’s test for statistical significance and Cohen’s effect size metrics. To solve the classification task, we employ three intelligent approaches: Neural Networks (NN); Support Vector Machines (SVM); and Random Forests (RF). Subsequently, we critically analyse which imputation method influences most the classifiers’ performance, using a multiclass classification accuracy metric, based on the area under the ROC curves. We consider two superclasses (‘military’ and ‘civil’), each containing several ‘subclasses’, and introduce and propose two new metrics: inner class accuracy (IA); and outer class accuracy (OA), in addition to the overall classification accuracy (OCA) metric. We conclude that they can be used as complementary to the OCA when choosing the best classifier for the problem at hand.
Missing data is a common problem in statistical analysis and most practical databases contain missing values of some of their attributes. Missing data can appear for many reasons. However, regardless of the reason for the missing values, even a small percent of missing data can cause serious problems with analysis reducing the statistical power of a study and leading to draw wrong conclusions. In this paper the results of handling missing observations in learning probabilistic models were presented. Two data sets taken from UCI Machine Learning Repository were used to learn the quantitative part of the Bayesian networks. To provide the opportunity to compare selected data sets did not contain any missing values. For each model data sets with variety of levels of missing values were artificially generated. The main goal of this paper was to examine whether omitting observations has an influence on model’s reliability. The accuracy was defined as the percentage of correctly classified records and has been compared to the results obtained in the data set not containing missing values.
PL
Brakujące dane są częstym problemem w analizie statystycznej, a większość baz danych zawiera brakujące wartości niektórych z ich atrybutów. Brakujące dane mogą pojawiać się z wielu powodów. Jednak bez względu na przyczynę brakujących wartości nawet ich niewielki procent może spowodować poważne problemy z analizą, zmniejszając siłę statystyczną badania i prowadząc do wyciągnięcia błędnych wniosków. W artykule przedstawiono wyniki uzupełniania danych brakujących w uczeniu modeli probabilistycznych. Dwa zestawy danych pobrane z repozytorium uczenia maszynowego UCI posłużyły do wytrenowania ilościowej części sieci bayesowskich. Aby zapewnić możliwość porównania wybrane zbiory danych nie zawierały żadnych brakujących wartości. Dla każdego modelu zbiory danych z różnymi poziomami brakujących wartości zostały sztucznie wygenerowane. Głównym celem tego artykułu było zbadanie, czy braki w obserwacjach mają wpływ na niezawodność modelu. Dokładność została zdefiniowana jako procent poprawnie zaklasyfikowanych rekordów i została porównana z wynikami uzyskanymi w zbiorze danych niezawierającym brakujących wartości.
This article presents short-term predictions using neural networks tuned by energy associated to series based-predictor filter for complete and incomplete datasets. A benchmark of high roughness time series from Mackay Glass (MG), Logistic (LOG), Henon (HEN) and some univariate series chosen from NN3 Forecasting Competition are used. An average smoothing technique is assumed to complete the data missing in the dataset. The Hurst parameter estimated through wavelets is used to estimate the roughness of the real and forecasted series. The validation and horizon of the time series is presented by the 15 values ahead. The performance of the proposed filter shows that even a short dataset is incomplete, besides a linear smoothing technique employed; the prediction is almost fair by means of SMAPE index. Although the major result shows that the predictor system based on energy associated to series has an optimal performance from several chaotic time series, in particular, this method among other provides a good estimation when the short-term series are taken from one point observations.
Missing traffic data is an important issue for road administration. Although numerous ways can be found to impute them in foreign literature (inter alia, the most effective method, that is Box-Jenkins models), in Poland, still only proven and simplified methods are applied. The article presents the analyses including an assessment of the completeness of the existing traffic data and works related to the construction of SARIMA model. The study was conducted on the basis of hourly traffic volumes, derived from the continuous traffic counts stations located in the national road network in Poland (Golden River stations) from the years 2005 – 2010. As a result, the proposed model was used to impute the missing data in the form of SARIMA (1.1,1)(0,1,1)168. The newly developed model can be used effectively to fill in the missing required days of measurement for estimating AADT by AASHTO method. In other cases, due to its accuracy and laboriousness of the process, it is not recommended.
7
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
The main objective of our research was to test whether the probabilistic approximations should be used in rule induction from incomplete data. For our research we designed experiments using six standard data sets. Four of the data sets were incomplete to begin with and two of the data sets had missing attribute values that were randomly inserted. In the six data sets, we used two interpretations of missing attribute values: lost values and “do not care” conditions. In addition we used three definitions of approximations: singleton, subset and concept. Among 36 combinations of a data set, type of missing attribute values and type of approximation, for five combinations the error rate (the result of ten-fold cross validation) was smaller than for ordinary (lower and upper) approximations; for other four combinations, the error rate was larger than for ordinary approximations. For the remaining 27 combinations, the difference between these error rates was not statistically significant.
8
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
In recent years, there has been a growing interest in modeling cyclostationary time series. The survey of Gardner and others [5] is quoting over 1500 different recently published papers that are dedicated to this topic. Data that can be reasonable modeled with such time series is often incomplete. To our knowledge, no systematic research has been conducted on that problem. This paper attempts to fill this gap. In this paper we propose to use EM algorithms to extend estimation for situation when some observations are missing.
PL
W ostatnim czasie wzrasta zainteresowanie modelowaniem cyklostacjonarnych szeregów czasowych. W pracy Gardner i inni [5] cytowane jest ponad 1500 publikacji poświęconych temu zagadnieniu. Jednakże dane, dla których model cyklostacjonarny jest zasadny, są często niekompletne. Zgodnie z nasza wiedza nie było do tej pory systematycznego omówienia tego problemu. Celem niniejszego artykułu jest uzupełnienie tej luki. W artykule proponujemy wykorzystanie algorytmu EM w celu estymacji parametrów modelu w sytuacji brakujących obserwacji.
Aim of this study is to show the dangers of filling missing data - particularly medical data. Because there are many dedicated medical expert systems and medical decision support systems, a special attention must be paid on the construction of classifiers. Medical data are almost never complete, and completion of the missing data requires a special care. The safest approach of dealing with missing data would be removing records with missing parameters and/or removing parameters that are missing in the records. Unfortunately reducing data set that is already very small is not always an option. Dangers coming out from data imputation are shown in the article, which presents the influence of selected missing data filling algorithms on the classification accuracy.
Ze względu na złożoność problematyki zrównoważonego rozwoju transportu, w procesie podejmowania decyzji, a także w procesie edukacji i informowania społeczeństwa celowe jest zastosowanie syntetycznych wskaźników. Ich wieloaspektowość powoduje jednak, że dane do ich wyznaczania nie zawsze są dostępne. Konieczne jest zatem wykorzystanie numerycznych metod wstawiania brakujących danych. W artykule przeprowadzono analizę metod wstawiania brakujących danych pod kątem ich wykorzystania oraz przeprowadzono numeryczną symulację uzupełniania brakujących danych dla przebiegów emisji zanieczyszczeń wywołanych ruchem pojazdu.
EN
Due to the complexity of sustainable development in transportation, in the processes of decision-making as well as in education and public information, it is advisable to apply composite indicators. However, because of the multiplicity of aspects involved in the process of composite indicators usage the necessary data is not always available. It is therefore required to use numerical methods to insert the missing data. In the article, the analysis of missing data imputation methods was conducted and the numerical simulation of imputation of missing data was performed for emissions measured during on-road test.
Methods for dealing with missing data in the context of large surveys or data mining projects are limited by the computational complexity that they may exhibit. Hot deck imputation methods are computationally simple, yet effective for creating complete data sets from which correct inferences may be drawn. All hot deck methods draw values for the imputation of missing values from the data matrix that will later be analyzed. The object, from which these available values are taken for imputation within another, is called the donor. This duplication of values may lead to the problem that using any donor “too often” will induce incorrect estimates. To mitigate this dilemma some hot deck methods limit the amount of times any one donor may be selected. This study answers which conditions influence whether or not any such limitation is sensible for six different hot deck methods. In addition, five factors that influence the strength of any such advantage are identified and possibilities for further research are discussed.
12
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
The paper presents a new approach to fuzzy classification in the case of missing data. Rough-fuzzy sets are incorporated into logical type neuro-fuzzy structures and a rough-neuro-fuzzy classifier is derived. Theorems which allow determining the structure of the rough-neuro-fuzzy classifier are given. Several experiments illustrating the performance of the roughneuro-fuzzy classifier working in the case of missing features are described.
W analizie wykorzystano dane zarejestrowane w latach 2004-2008 na ośmiu stacjach monitoringu powietrza działających w różnych miejscowościach województw łódzkiego i mazowieckiego. W pracy badano możliwości aproksymacji stężeń zanieczyszczeń mierzonych na stacjach monitoringu powietrza. Ocenę jakości modelowania wykonano poprzez porównanie modelowanych stężeń ze stężeniami rzeczywistymi. Do predykcji stężeń wykorzystano sieci neuronowe. Porównywano dokładność pięciu różnych grup modeli: modeli szeregów czasowych, liniowych modeli regresji wielowymiarowej, nieliniowych modeli regresji wielowymiarowej, liniowych modeli regresji wielowymiarowej eksplorujących dane pochodzące z sąsiednich stacji monitoringu i nieliniowych modeli regresji wielowymiarowej eksplorujących dane pochodzące z sąsiednich stacji monitoringu. Celem praktycznym była rekomendacja optymalnych technik modelowania luki pomiarowej obejmującej pewien dłuższy fragment serii czasowej tylko jednego z zanieczyszczeń powietrza przy założeniu, że są dostępne wszystkie pozostałe dane, w tym dane pochodzące z sąsiednich stacji monitoringu powietrza. Wykonana analiza wykazała, że dla każdego z zanieczyszczeń powietrza należy rekomendować inne metody predykcji, ponieważ występują duże różnice w możliwościach modelowania poszczególnych zanieczyszczeń powietrza. Stężenia takich zanieczyszczeń, jak O3, SO2, PM10 można efektywnie modelować metodą szeregów czasowych, ale tylko do pewnego horyzontu prognozy, po którym regresyjne metody modelowania okazują się dokładniejsze. W modelowaniu stężeń O3 i PM10 efektywne może się okazać wykorzystanie stężeń tych zanieczyszczeń zarejestrowanych na innych stacjach monitoringu powietrza. W przypadku pozostałych zanieczyszczeń NO, NO2 i CO zasadne jest stosowanie tylko jednej metody modelowania - analizy regresji. Liniowe modele regresyjne są mniej dokładne od ich nieliniowych odpowiedników. Różnice dokładności obu typów modeli nie zawsze są duże. Dlatego modele liniowe mogą stanowić praktyczną alternatywę dla nieliniowych odpowiedników.
EN
Air monitoring data collected over a 5-year period at 8 different measure sites in Central Poland were used as the database for analysis purposes. Approximation of concentrations of monitored air pollutants were done by means of several prediction methods: time series analysis, regression analysis with predictors from a single monitoring station, and regression analysis with external predictors. Separate models were created for O3, NO2, NO, PM10, SO2, CO. Modelled and measured concentrations were compared. As a result prediction errors were calculated for each model. The main objective of analysis was a comparison of prediction results, and recommendation the most accurate modelling methods, dedicated to specified pollutants. The examination was made by means of artificial neural networks, which were employed to create all types of models.
Rejestrowane na stacjach monitoringu powietrza zbiory danych nigdy nie są kompletne. W skali roku liczba odnotowywanych braków jest zmienna. Ocena jakości powietrza na podstawie niepełnych pomiarów jest utrudniona. Obowiązujące przepisy prawne dopuszczają możliwość wykorzystania modelowania w celu uzupełnienia brakujących danych. Rozpoznanie typowych struktur obszarów z brakującymi danymi umożliwia ich klasyfikację, a następnie rekomendację odpowiednich metod modelowania dla wyszczególnionych klas. Celem badań było wytypowanie charakterystycznych struktur luk pomiarowych w zbiorach danych i określenie częstości ich występowania. Klasyfikację przypadków z brakującymi danymi zaproponowano na podstawie przeglądu wieloletnich danych, pochodzących z kilku różnych stacji pomiarowych automatycznego monitoringu powietrza. Analizowano serie czasowe chwilowych stężeń podstawowych zanieczyszczeń powietrza (O3, NO2, NO, PM10, SO2, CO), zarejestrowanych w latach 2004-2008 na stacjach monitoringu powietrza Warszawa-Ursynów, Radom, Łódź-Widzew, Piotrków Trybunalski. Na podstawie wyników przeprowadzonej analizy można stwierdzić, że brakujące dane występują powszechnie w zbiorach danych pochodzących z monitoringu powietrza. Częstość ich występowania w rocznych seriach pomiarowych może wynosić od kilku do nawet kilkudziesięciu procent. Większość luk pomiarowych jest krótka - stanowią je głównie pojedyncze przypadki. Zdecydowanie rzadziej występują bloki brakujących danych, przekraczające 3-4 przypadki (dłuższe od 3-4 godzin). Największą częstość występowania przypadków z niezarejestrowanymi wynikami odnotowano dla luk najdłuższych, obejmujących więcej niż 24 przypadki (>24 godziny).
EN
The data gathered continuously in the air monitoring systems are never entire. In the whole year, the number of missing records is changeable. The deficiency of data could result in uncertainty of a statistical assessment, required by the air quality standards, and cause the uselessness of monitoring measurements. Air quality standards permit to use modelling in order to recreate the missing data when the completeness of the monitoring set is not sufficient. Applied modelling methods should guarantee possibly the best precision to achieve the air quality assessment being closest to reality. Single, specified method does not assure the maximal accuracy because the missing data in data matrix may create gaps of various shapes and ranges. Recognition of typical structures of missing data fields should be the base of their classification. For the specified classes of gaps the optimum modelling methods may be recommended and assigned. The main objective of the analysis was to select typical patterns of gaps in air monitoring data matrixes, and the assessment of their appearing. The missing data classification was suggested after long-term data survey. The analyzed data sets derived from 4 different air monitoring sites in the Central Poland (Warsaw-Ursynów, Radom, Lodz-Widzew, Piotrków Trybunalski). The data were gathered in the period 2004-2008. The examined time-series involved hourly concentrations of main air pollutants: O3, NO2, NO, PM10, SO2, CO. The results allow coming to some general conclusions. Missing data commonly occur in sets of air monitoring records. Gaps may include up to several or even more per cent of all expected data in yearly measuring series. For all air pollutants, the most of the gaps in monitoring time series are very short. Single (1-hour) missing values dominate among gaps of different length. Gaps lengths exceeding 3-4 hours are observed occasionally. However, the greatest frequency of single without-data cases appearing is observed in the longest gaps (>24 hours), because of their lengths.
W pracy oceniono możliwości aproksymacji stężeń zanieczyszczeń mierzonych na stacjach monitoringu powietrza. Do predykcji stężeń wykorzystano neuronowe modele szeregów czasowych. Jakość modelowania testowano na rzeczywistych danych pochodzących ze stacji monitoringu powietrza Łódź-Widzew, zarejestrowanych w latach 2004-2008. Analizie poddano względnie kompletny zbiór danych, obejmujący stężenia 6 podstawowych zanieczyszczeń powietrza: O3, NO2, NO, PM10, SO2, CO. Celem badawczym było określenie i porównanie dokładności predykcji stężeń różnych zanieczyszczeń powietrza. Modelowanie przeprowadzono, stosując sztuczne sieci neuronowe. Trening sieci odbywał się przy użyciu liniowego algorytmu pseudoinwersji. Wyjściem modelu było stężenie wybranego zanieczyszczenia w określonym czasie. Wejściami były wartości stężeń zarejestrowane w godzinach wcześniejszych. Każdy model charakteryzowały dwie wielkości: horyzont prognozy i liczba wartości opóźnionych. W analizie określono dokładność predykcji stężeń wybranych zanieczyszczeń dla stałej liczby wartości opóźnionych równej 24 przy zmieniającym się horyzoncie prognozy od 1 do 240 godz. Jako kryterium jakości modelowania przyjęto wartość błędu aproksymacji.
EN
An assessment of quality of air pollutants concentration modeling was the main research purpose. The examination was made by means of artificial neural networks, which were employed to create time-series models. The quality of approximation was tested on the actual set of air monitoring data, gathered over a 5-year period at the measure site in Lodz-Widzew (Central Poland). The examined time-series involved hourly concentrations of main air pollutants: O3, NO2, NO, PM10, SO2, CO. The research aim was the estimation and the comparison of prediction accuracy for different air pollutants. Time-series models were characterized by two parameters which might influence the prediction quality: lookahead and steps. For all models the constant number of steps equal 24 hours was assumed. The effect of changes of lookahead in the range 1÷ 240 hours was analyzed. It was stated that the decreasing of precision of time-series models with the increase of lookahead is observed. The drop of accuracy depends on pollutant. The furthest reasonable prognosis may be done for ozone concentration. Approximation accuracy shortens in the order: O3, CO, SO2, PM10, NO2, NO.
16
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
The results of the application of chemometric methods, such as principal component analysis (PCA) and its generalization for N-way data, the Tucker3 model, for the analysis of an environmental data set are presented. The analyzed data consists of concentration values of chemical compounds of organic matter, and their transformed products, in a short-term study of a sea water column measured at the Gdańsk Deep (.[fi]= 55°1’N, [lambda] = 19°10’E). The main goal of this paper is to present improved approaches for exploration of data sets with missing elements, based on the expectation-maximization (EM) algorithm. The most common methods for dealing with missing data, generally consisting of setting the missing elements to zero or to mean values of the measured data, are often unacceptable as they destroy data correlations or influence interpretation of relationships between objects and variables. The EM algorithm may be built into different computational procedures used for exploratory analysis (i.e. EM/PCA or EM/TUCKER3).
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.