Market basket analysis, which is a method of discovering co-occurrence relationships, is widely used for the purposes of marketing research and e-commerce, mainly by supermarkets and online stores. Moving beyond the traditional notion of a market basket understood as a fixed list of products, the technique can be applied for data mining in other fields of research which do not involve traditional transactions and purchases made by customers. The following article describes theoretical aspects of market basket analysis with an illustrative application based on data from the National Census of Population and Housing 2011 with respect to marital status. This is the first application of market basket analysis to census data to be conducted in Poland, in which attributes of the market basket have been replaced with respondents’ demographic characteristics. This approach makes it possible to identify relationships between legal (de jure) marital status and actual (de facto) marital status, taking into account other basic socio-demographic variables available in large datasets. Using the R software to generate choropleth maps classified by province as a method of visualizing association rules, it was possible to conduct a spatial analysis of the phenomenon of interest.
Providing basic data from the National Population and Housing Census in a kilometre grid is one of the most important ways of disseminating census results, which at the same time meets the applicable national and international requirements. Due to the fact that the tiles of the kilometre grid are relatively small (squares with one-kilometre-long sides) and thus the risk of identifying a concrete person and disclosing sensitive information about him or her is significant, it is necessary to employ data-protection procedures. The aim of the paper is to discuss the most important directions in the statistical disclosure control on the example of data collected during the National Population and Housing Census 2021, and to propose methods and tools from the aforementioned realm that would be applicable. These will be mainly non-perturbative approaches, i.e. ones that cause suppression of sensitive information. The paper also brings to light the most important issues and challenges dependent on the scope of information disclosed and related to this type of data-protection procedures, as the number and type of variables determine the risk of the identification of individuals and influence the selection of suitable protection tools. The article sets forth proposals for methodological and technical solutions in the field. The analyses demonstrate that data protection poses a significant challenge in the studied case, especially if several mutually-connected databases are to be protected. In such a situation, it is necessary to take into account the logical and mathematical connections between the data sets. An additional risk factor can also be the density or hierarchical character of the grid.
PL
Udostępnianie podstawowych danych pochodzących z Narodowego Spisu Powszechnego Ludności i Mieszkań (NSP) w przekroju siatki kilometrowej należy uznać za jeden z najważniejszych kierunków upowszechniania wyników spisowych, a zarazem spełnienie krajowych i międzynarodowych wymogów w tym zakresie. Z uwagi na to, że komórki siatki są relatywnie małe (kwadraty 1 km×1 km), a ryzyko identyfikacji konkretnej osoby i ujawnienia jej danych wrażliwych jest znaczne, niezbędne staje się podjęcie stosownych działań ochronnych. Celem artykułu jest omówienie najważniejszych działań z zakresu kontroli ujawniania danych na przykładzie danych zebranych podczas NSP 2021 oraz zaproponowanie możliwych do zastosowania w tym przypadku metod i narzędzi kontroli. W szczególności dotyczy to podejść niezakłóceniowych, czyli takich, które prowadzą do ukrywania danych wrażliwych. Ponadto w artykule wskazano najistotniejsze problemy i wyzwania związane z podjęciem tego rodzaju działań ochronnych w zależności od zakresu udostępnianych informacji, ponieważ liczba i rodzaj zmiennych mają kluczowe znaczenie dla ryzyka identyfikacji jednostki i doboru narzędzi ochronnych. Przedstawiono także propozycje rozwiązań metodologicznych i technicznych. Analizy wykazały, że ochrona danych stanowi ważne wyzwanie w rozpatrywanym przypadku, zwłaszcza gdy należy kontrolować ujawnianie danych z kilku powiązanych ze sobą baz danych - wówczas konieczne jest uwzględnienie logicznych i matematycznych powiązań między zbiorami. Dodatkowym czynnikiem ryzyka może się okazać gęstość lub hierarchiczność siatki.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.