Nowa wersja platformy, zawierająca wyłącznie zasoby pełnotekstowe, jest już dostępna.
Przejdź na https://bibliotekanauki.pl

PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
2018 | 21 | nr 508 Klasyfikacja i analiza danych - teoria i zastosowania | 146-156
Tytuł artykułu

Profilowanie, oczyszczanie i zapobieganie powstawaniu dirty data

Treść / Zawartość
Warianty tytułu
Dirty Data - Profiling, Cleansing and Prevention
Języki publikacji
PL
Abstrakty
Zbiory Big Data oferują dostęp do niemal nieograniczonej liczby danych, dając nadzieję na szybszy, tańszy, bardziej precyzyjny i wszechstronny opis świata. Jednocześnie w takich zbiorach poza danymi o odpowiedniej jakości (clear data) znaczny udział mają dane nieprawdziwe, nieaktualne, zaszumione, często zwielokrotnione, niepełne lub błędne (dirty data), a także dane o nieznanej jakości czy użyteczności (dark data). Znaczący udział dirty i dark data ma szereg negatywnych konsekwencji w analizie zbioru Big Data. Celem prezentowanych badań jest przegląd i systemowe ujęcie procedur minimalizowania negatywnych efektów dirty data w analizie Big Data. W konstrukcji systemu oczyszczania zbioru danych uwzględniono najważniejsze procedury profilowania (profiling data), oczyszczania (cleansing data) i zapobiegania (defect prevention) powstawaniu dirty data w procesie budowy i analizy zbioru Big Data.(abstrakt oryginalny)
EN
There are almost unlimited sources of large streams of information now being referred to as Big Data. Because of it we hope for a faster, cheaper, more precise and versatile description in the world around us. At the same time, in such data sets, apart from data of a proper quality (clear data), significant share is false, outdated, noisy data, often multiplied, incomplete or incorrect (dirty data), as well as data of unknown quality or usefulness (dark data). A significant share of dirty data and dark data causes a number of negative consequences in the analysis of Big Data sets. The aim of this article is to review and systemically capture the procedures for minimizing the negative effects of dirty data in the analysis of Big Data. The design of the data collection system includes the most important profiling procedures (profiling data), cleansing data and defect prevention of dirty data in the process of building and analyzing the Big Data sets.(original abstract)
Słowa kluczowe
PL
EN
Twórcy
  • Uniwersytet Gdański
  • Uniwersytet Gdański
Bibliografia
  • Abedjan Z., Golab L., Naumann F., 2015, Profiling relational data: a survey, VLDB Journal, 24, s. 557-581.
  • Benford F., 1938, The law of anomalous numbers, Proceedings of the American Philosophical Society, vol. 78, no. 4, s. 551-572.
  • Bjornaas K., 6 Quick Dirty Data Stats, July 27, 2015, https://www.reachforce.com/blog/6-quick-dirty- -data-stats/ (20.11.2017).
  • Cox M., Ellsworth D., 1997, Application-controlled demand paging for out-of-core visualization, VIS'97 Proceedings of the 8th Conference on Visualization '97, s. 235.
  • Luebbe J., 2015, How Dirty is Social Data? An Analysis of Social Spam. Networked Insights, http:// www.networkedinsights.com/socialspam/ (20.11.2017).
  • Migdał-Najman K., Najman K., 2013, Samouczące się sztuczne sieci neuronowe w grupowaniu i klasyfikacji danych: teoria i zastosowania w ekonomii, Wydawnictwo Uniwersytetu Gdańskiego Gdańsk.
  • Migdał-Najman K., Najman K., 2017, Big Data = Clear + Dirty + Dark Data, Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu, nr 469, Taksonomia 29, Klasyfikacja i analiza danych - teoria i zastosowania, s. 131-139.
  • ReachForce, 2015, Big Data Marketing, Content Marketing, Marketing Automation, 25.02.2015, https://www.reachforce.com/blog/is-dirty-data-costing-you-money/ (20.11.2017).
  • Stedman C., 2017, Good data quality for analytics becomes an IT imperative, https://searchdatamanagement. techtarget.com/ehandbook/Good-data-quality-for-analytics-becomes-an-IT-imperative.
  • Zomaya A.Y., Sakr S. (red.), 2017, Handbook of Big Data Technologies, Springer International Publishing AG, Cham, Switzerland.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171525025
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.