The effective utilisation of monitoring data of the coal mine is the core of realising intelligent mine. The complex and challenging underground environment, coupled with unstable sensors, can result in “dirty” data in monitoring information. A reliable data cleaning method is necessary to figure out how to extract high-quality information from large monitoring data sets while minimising data redundancy. Based on this, a cleaning method for sensor monitoring data based on stacked denoising autoencoders (SDAE) is proposed. The sample data of the ventilation system under normal conditions are trained by the SDAE algorithm and the upper limit of reconstruction errors is obtained by Kernel density estimation (KDE). The Apriori algorithm is used to study the correlation between monitoring data time series. By comparing reconstruction errors and error duration of test data with the upper limit of reconstruction error and tolerance time, cooperating with the correlation rule, the “dirty” data is resolved. The method is tested in the Dongshan coal mine. The experimental results show that the proposed method can not only identify the dirty data but retain the faulty information. The research provides effective basic data for fault diagnosis and disaster warning.
Rejestrowane na stacjach monitoringu powietrza zbiory danych nigdy nie są kompletne. W skali roku liczba odnotowywanych braków jest zmienna. Ocena jakości powietrza na podstawie niepełnych pomiarów jest utrudniona. Obowiązujące przepisy prawne dopuszczają możliwość wykorzystania modelowania w celu uzupełnienia brakujących danych. Rozpoznanie typowych struktur obszarów z brakującymi danymi umożliwia ich klasyfikację, a następnie rekomendację odpowiednich metod modelowania dla wyszczególnionych klas. Celem badań było wytypowanie charakterystycznych struktur luk pomiarowych w zbiorach danych i określenie częstości ich występowania. Klasyfikację przypadków z brakującymi danymi zaproponowano na podstawie przeglądu wieloletnich danych, pochodzących z kilku różnych stacji pomiarowych automatycznego monitoringu powietrza. Analizowano serie czasowe chwilowych stężeń podstawowych zanieczyszczeń powietrza (O3, NO2, NO, PM10, SO2, CO), zarejestrowanych w latach 2004-2008 na stacjach monitoringu powietrza Warszawa-Ursynów, Radom, Łódź-Widzew, Piotrków Trybunalski. Na podstawie wyników przeprowadzonej analizy można stwierdzić, że brakujące dane występują powszechnie w zbiorach danych pochodzących z monitoringu powietrza. Częstość ich występowania w rocznych seriach pomiarowych może wynosić od kilku do nawet kilkudziesięciu procent. Większość luk pomiarowych jest krótka - stanowią je głównie pojedyncze przypadki. Zdecydowanie rzadziej występują bloki brakujących danych, przekraczające 3-4 przypadki (dłuższe od 3-4 godzin). Największą częstość występowania przypadków z niezarejestrowanymi wynikami odnotowano dla luk najdłuższych, obejmujących więcej niż 24 przypadki (>24 godziny).
EN
The data gathered continuously in the air monitoring systems are never entire. In the whole year, the number of missing records is changeable. The deficiency of data could result in uncertainty of a statistical assessment, required by the air quality standards, and cause the uselessness of monitoring measurements. Air quality standards permit to use modelling in order to recreate the missing data when the completeness of the monitoring set is not sufficient. Applied modelling methods should guarantee possibly the best precision to achieve the air quality assessment being closest to reality. Single, specified method does not assure the maximal accuracy because the missing data in data matrix may create gaps of various shapes and ranges. Recognition of typical structures of missing data fields should be the base of their classification. For the specified classes of gaps the optimum modelling methods may be recommended and assigned. The main objective of the analysis was to select typical patterns of gaps in air monitoring data matrixes, and the assessment of their appearing. The missing data classification was suggested after long-term data survey. The analyzed data sets derived from 4 different air monitoring sites in the Central Poland (Warsaw-Ursynów, Radom, Lodz-Widzew, Piotrków Trybunalski). The data were gathered in the period 2004-2008. The examined time-series involved hourly concentrations of main air pollutants: O3, NO2, NO, PM10, SO2, CO. The results allow coming to some general conclusions. Missing data commonly occur in sets of air monitoring records. Gaps may include up to several or even more per cent of all expected data in yearly measuring series. For all air pollutants, the most of the gaps in monitoring time series are very short. Single (1-hour) missing values dominate among gaps of different length. Gaps lengths exceeding 3-4 hours are observed occasionally. However, the greatest frequency of single without-data cases appearing is observed in the longest gaps (>24 hours), because of their lengths.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.