Wykrywanie duplikatów w danych XML

Detection duplicates in XML data
W ostatnich latach XML stał się jednym z wiodących formatów publikowania danych w sieci WWW. Współczesne systemy integracji danych wymagają nie tylko mechanizmów wymiany i transformacji danych, ale także oczekują, że otrzymywane dane wynikowe nie będą zawierały zbędnych elementów (duplikatów). Duplikaty pojawiają się, gdy integrowane są dane pochodzące z różnorodnych źródeł. Wówczas te same obiekty rzeczywiste mogą być opisywane w różny sposób w różnych źródłach, dodatkowo opisy te często nie są identyczne, ale są podobne w sensie pewnych relacji podobieństwa. Dotychczas rozwijane były metody wykrywania duplikatów w relacyjnych bazach danych, ale w przypadku danych XML problem ten jest dużo trudniejszy ze względu na nieregularną strukturę elementów oraz na ich hierarchiczną organizację. W pracy omawiamy metody identyfikowania duplikatów w dokumentach XML, w których drzewa XML przedstawiamy jako zbiory ścieżek, na których dokonujemy operacji porównywania. Do oznaczenia dwóch elementów jako duplikatów wykorzystywana jest progowa funkcja podobieństwa.
Present-day data integration systems require not only ability to perform data exchange and data transformation, but also to deliver complete results, without unnecessary elements (duplicates). Duplicates appear when data from distributed sources is combined. It is possible, that the same real-world object in different data sources has different representation. Hence, there is a need for XML data cleansing, which requires solutions for duplicates detection in XML data. Related work concern relational data model. In the case of XML the problem is more difficult - XML data is organized hierarchically with non-regular structure. In the paper we discuss the methods of duplicates detection in XML documents, where XML trees are represented as sets of their paths. To tick two elements as duplicates we use some thresholded similarity measures.
