The article summarises a doctoral dissertation proposing new methods of a reference set reduction and edition for the Nearest Neighbour Rule (NN).The presented methods are designed to accelerate NN and to improve its classification quality. The algorithms use the concept of the object representativeness. The obtained results were compared with the results provided by well-known and popular reduction and editing procedures.
PL
W artykule zaprezentowano tezy i podstawowe wyniki rozprawy doktorskiej dotyczącej nowych metod redukcji i edycji zbioru odniesienia dla reguły typu najbliszy sąsiad (NN). Przedstawione metody mają na celu przyspieszenie działania reguły NN i poprawę jej jakości klasyfikacji. Zaprezentowane algorytmy w większości wykorzystują pojęcie reprezentatywności obiektu. Wyniki ich działania zostały porównane z wynikami działania innych popularnych algorytmów redukcji i edycji.
W artykule zostały przedstawione nowe metody minimalizacji zbioru odniesienia dla klasyfikatora 1-NN, czyli selekcja cech i redukcja zbioru odniesienia. Do selekcji cech zaproponowano metodę wykorzystującą badanie zależności miedzy cechami, a do redukcji zbioru odniesienia użyto sekwencyjnego algorytmu wykorzystującego podwójne sortowanie punktów. Rozstrzygnięto również, w jakiej kolejności procedury te powinny zostać zastosowane, analizując ich wpływ na jakość klasyfikacji i stopień redukcji danych. Zarówno nowe metody, jak i dobrze znane, takie jak procedura kolejnego dołączania cech, algorytm Gowdy-Krishny i algorytm RMHC zaproponowany przez Skalaka, zostały przetestowane na siedmiu zbiorach danych rzeczywistych i sztucznych.
EN
The reference set minimization methods for 1-NN classifier were proposed. The combine of a feature selection procedure, based on analysis of dependences between features, and reference set reduction algorithm that uses double point sorting was introduced. The proposed approach to the reference set size reduction was compared with the wellknown forward feature selection, the Gowda and Krishna algorithm and the RMHC algorithm introduced by Skalak. The computational experiments were performed with use of seven real and artificial datasets.
Two algorithms of the reference set condensation, one of which is based on finding the mutually furthest points and the other is the modification of the Chang's algorithm, are respectively of the incremental and eliminative type, i.e. the size of the condensed set increases or is reduced as a result of a subsequent iteration. The combination of both aforementioned types of condensation, i.e. the cascade algorithm of condensation, is more effective than each of these algorithms executed sepa-rately.
PL
Dwa algorytmy kondesacji zbioru odniesienia, z których jeden jest oparty na znajdowaniu punktów wzajemnie najdalszych, a drugi jest modyfikacją algorytmu Changa, mają odpowiednio przyrostowy i eliminacyjnych charakter, tzn. w wyniku kolejnej iteracji wielkość skondensowanego zbioru odniesienia wzrasta lub jest redukowana. Kombinacja obu wymienionych typów kondensacji, tj. kaskadowy algorytm kondensacji, okazała się efektywniejsza od każdego z tych algorytmów działających samodzielnie.
The advantage of the Chang's algorithm is a considerable reduction of the reference set. Its drawback is relatively small speed. The modification proposed by the author of this article aims at accelerating computations by replacing a larger number of objects, not only a pair of them, with one object. For any object in the reference set, it is possible to determine all objects from the same class which are located at a shorter distance to it than any other object from a different class. This group of objects can be replaced by a single artificial object.
PL
Zaletą algorytmu Changa jest znaczna redukcja zbioru odniesienia. Wadą tego algorytmu jest względnie mała szybkość działania. Modyfikacja zaproponowana przez autora niniejszego artykułu ma na celu przyspieszenie obliczeń poprzez zastępowanie jednym obiektem nie pary obiektów, ale większej liczby obiektów. Dla każdego obiektu ze zbioru odniesienia można wyznaczyć wszystkie obiekty z tej samej klasy znajdujące się od niego w mniejszej odległości niż jakikolwiek obiekt z innej klasy. Grupa takich obiektów może być zastąpiona jednym sztucznym obiektem.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.