Identyfikatory
Warianty tytułu
Zmienna mieszana losowa jako forma radzenia sobie z brakami danych w badaniu wymywalności metali ciężkich z zawiesiny twardniejącej
Języki publikacji
Abstrakty
Missing data in test result tables can significantly impact the analysis quality, especially in relation to technical sciences, where the mechanism generating missing data is often non-random, and their presence depends on the non-observed part of studied variables. In such cases, the application of an inappropriate method for dealing with missing data will lead to bias in the estimated distribution parameters. The article presents a relatively simple method to implement in dealing with missing data generated as a result of the MNAR mechanism, which utilizes the censored random variable. This procedure does not modify the variable distribution form, which is why it ensures objective and efficient estimation of distribution parameters within studies affected by certain restrictions of technical or physical nature (censored distribution), with a relatively low workload. Furthermore, it does not require the application of specialized software. A prerequisite for using this method is the knowledge of the frequency and cause of missing data. The method for estimating the random variable censored distribution parameters was shown based on the example of studying the leachability of selected heavy metals from a hardening slurry. The analysis results were compared with classical methods for dealing with missing data, such as, ignoring missing data observations (listwise or pairwise deletion), single imputation and stochastic regressive imputation.
Braki danych w tablicach wyników badań mogą w znaczący sposób wpływać na jakość analizy, szczególnie w naukach technicznych, gdzie mechanizm generujący braki danych często jest nielosowy, a ich występowanie zależy od części nieobserwowanej badanych zmiennych. W takich przypadkach zastosowanie nieodpowiedniej metody radzenia sobie z brakami danych prowadzi do obciążenia estymowanych parametrów rozkładu. W artykule przedstawiono stosunkowo prostą w implementacji metodę radzenia sobie z brakami danych powstałymi w wyniku mechanizmu MNAR wykorzystującą rozkład cenzurowany. Procedura ta nie modyfikuje postaci rozkładu zmiennej, przez co zapewnia obiektywne i skuteczne estymowanie parametrów rozkładu w badaniach dotkniętych pewnymi ograniczeniami natury technicznej lub fizycznej, przy stosunkowo niskim nakładzie pracy. Ponadto nie wymaga zastosowania specjalistycznego oprogramowania. Warunkiem koniecznym zastosowania metody jest znajomość częstości występowania braków danych oraz ich przyczyny. Sposób estymacji parametrów rozkładu cenzurowanego zmiennej losowej przedstawiono na przykładzie badania wymywalności wybranych metali ciężkich z zawiesiny twardniejącej. Wyniki analizy porównano z klasycznymi sposobami radzenia sobie z brakami danych: pominięciem obserwacji z brakami danych, imputacją oraz stochastyczną imputacją regresyjną.
Czasopismo
Rocznik
Tom
Strony
233--247
Opis fizyczny
Bibliogr. 16 poz., il., tab.
Twórcy
autor
- Warsaw University of Technology, Faculty of Building Services, Hydro and Environmental Engineering, Warsaw, Poland
autor
- Warsaw University of Technology, Faculty of Building Services, Hydro and Environmental Engineering, Warsaw, Poland
Bibliografia
- 1. D. B. Rubin, “Inference and missing data,” Biometrika, vol. 63, no. 3, pp. 581-592, 1976.
- 2. J. W. Graham, “Missing data analysis: Making it work in the real world,” Annual review of psychology, vol. 60, pp. 549-576, 2009.
- 3. J. W. Graham, P. E. Cumsille, A. E. Shevock, “Methods for handling missing data,” Handbook of Psychology, Second Edition, vol. 2, pp. 109-138, 2012.
- 4. R. J. A. Little, D. B. Rubin, Statistical analysis with missing data, vol. 793. John Wiley & Sons, pp. 581-592, 2019.
- 5. A. Pokropek, “Wybrane statystyczne metody radzenia sobie z brakami danych,” Polskie Forum Psychologiczne, vol. 23, no. 2, pp. 291-310, 2018.
- 6. C. K. Enders, Applied missing data analysis. Guilford press, 2010.
- 7. A. Hald, “Statistical theory with engineering applications,” 1952.
- 8. E. L. Korn, “Censoring distributions as a measure of follow‐up in survival analysis,” Statistics in medicine, vol. 5, no. 3, pp. 255-260, 1986.
- 9. K. Hamada, N. Takayama, “Censored income distributions and the measurement of poverty,” Bulletin of the International Statistical Institute, vol. 47, pp. 617-630, 1977.
- 10. Z. Kledyński, Integracja i współzależność wybranych kryteriów oceny wodoszczelności betonu. Wydawnictwa Politechniki Warszawskiej, 1993.
- 11. A. C. Cohen, “Simplified estimators for the normal distribution when samples are singly censored or truncated,” Technometrics, vol. 1, no. 3, pp. 217-237, 1959.
- 12. J. Maksymiuk, F. Wohlmuth, Metody statystyczne w inżynierii elektrotechnicznej, Wyd. 2, Po. Warszawa: Wydawnictwo Politechniki Warszawskiej, 1984.
- 13. J. R. Benjamin, C. A. Cornell, Rachunek prawdopodobieństwa, statystyka matematyczna i teoria decyzji dla inżynierów. Wydawnictwa Naukowo-Techniczne, 1977.
- 14. Ł. Szarek, “Leachability of heavy metals from hardening slurries with the addition of fly ashes from thermal treatment of municipal sewage sludge,” Warsaw Univeristy of Technology, 2019.
- 15. W. Oktaba, “Elementy statystyki matematycznej i metodyka do wiadczalnictwa,” PWN, Warszawa (in Polish), 1980.
- 16. M. Matsumoto, T. Nishimura, “Mersenne twister: a 623-dimensionally equidistributed uniform pseudo-random number generator,” ACM Transactions on Modeling and Computer Simulation (TOMACS), vol. 8, no. 1, pp. 3-30, 1998.
Uwagi
Opracowanie rekordu ze środków MNiSW, umowa Nr 461252 w ramach programu "Społeczna odpowiedzialność nauki" - moduł: Popularyzacja nauki i promocja sportu (2021).
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-fffb77f8-6e07-4373-a64c-7813b58b4693