Reduction of this type may help to solve one of the greatest problems in pattern recognition, i.e. the compromise between the time of making a decision and its correctness. In the analysis of biomedical data, classification time is less important than certainty that classification is correct, i.e. that reliability of classification is accepted by the algorithm’s operator. It is usually possible to reduce the number of wrong decisions, using a more complex recognition algorithm and, as a consequence, increasing classification time. However, with a large quantity of data, this time may be considerably reduced by condensation of a set. Condensation of a set presented in this article is incremental, i.e. formation of the condensed reference set begins from a set containing one element. In each step, the size of the set is increased with one object. This algorithm consists in dividing the feature space with hyperplanes determined with pairs of the mutually furthest points. The hyperplanes are orthogonal to segments linking pairs of the mutually furthest points and they go through their centre.
W artykule zostały przedstawione nowe metody minimalizacji zbioru odniesienia dla klasyfikatora 1-NN, czyli selekcja cech i redukcja zbioru odniesienia. Do selekcji cech zaproponowano metodę wykorzystującą badanie zależności miedzy cechami, a do redukcji zbioru odniesienia użyto sekwencyjnego algorytmu wykorzystującego podwójne sortowanie punktów. Rozstrzygnięto również, w jakiej kolejności procedury te powinny zostać zastosowane, analizując ich wpływ na jakość klasyfikacji i stopień redukcji danych. Zarówno nowe metody, jak i dobrze znane, takie jak procedura kolejnego dołączania cech, algorytm Gowdy-Krishny i algorytm RMHC zaproponowany przez Skalaka, zostały przetestowane na siedmiu zbiorach danych rzeczywistych i sztucznych.
EN
The reference set minimization methods for 1-NN classifier were proposed. The combine of a feature selection procedure, based on analysis of dependences between features, and reference set reduction algorithm that uses double point sorting was introduced. The proposed approach to the reference set size reduction was compared with the wellknown forward feature selection, the Gowda and Krishna algorithm and the RMHC algorithm introduced by Skalak. The computational experiments were performed with use of seven real and artificial datasets.
Two algorithms of the reference set condensation, one of which is based on finding the mutually furthest points and the other is the modification of the Chang's algorithm, are respectively of the incremental and eliminative type, i.e. the size of the condensed set increases or is reduced as a result of a subsequent iteration. The combination of both aforementioned types of condensation, i.e. the cascade algorithm of condensation, is more effective than each of these algorithms executed sepa-rately.
PL
Dwa algorytmy kondesacji zbioru odniesienia, z których jeden jest oparty na znajdowaniu punktów wzajemnie najdalszych, a drugi jest modyfikacją algorytmu Changa, mają odpowiednio przyrostowy i eliminacyjnych charakter, tzn. w wyniku kolejnej iteracji wielkość skondensowanego zbioru odniesienia wzrasta lub jest redukowana. Kombinacja obu wymienionych typów kondensacji, tj. kaskadowy algorytm kondensacji, okazała się efektywniejsza od każdego z tych algorytmów działających samodzielnie.
The advantage of the Chang's algorithm is a considerable reduction of the reference set. Its drawback is relatively small speed. The modification proposed by the author of this article aims at accelerating computations by replacing a larger number of objects, not only a pair of them, with one object. For any object in the reference set, it is possible to determine all objects from the same class which are located at a shorter distance to it than any other object from a different class. This group of objects can be replaced by a single artificial object.
PL
Zaletą algorytmu Changa jest znaczna redukcja zbioru odniesienia. Wadą tego algorytmu jest względnie mała szybkość działania. Modyfikacja zaproponowana przez autora niniejszego artykułu ma na celu przyspieszenie obliczeń poprzez zastępowanie jednym obiektem nie pary obiektów, ale większej liczby obiektów. Dla każdego obiektu ze zbioru odniesienia można wyznaczyć wszystkie obiekty z tej samej klasy znajdujące się od niego w mniejszej odległości niż jakikolwiek obiekt z innej klasy. Grupa takich obiektów może być zastąpiona jednym sztucznym obiektem.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.