Pojęcie dekompozycji błędu predykcji wywodzi się z regresji i polega na rozbiciu spodziewanej wartości błędu na trzy składowe, tj.: szum (ang. noise), obciążenie (ang. bias) i wariancję (ang. variance). Podjęto także próby przeniesienia idei dekompozycji do zagadnienia klasyfikacji. Agregacja modeli ma na celu obniżenie wartości błędu przez redukcję albo obciążenia, albo wariancji, albo obydwu tych wielkości jednocześnie. Jednak, aby porównać różne metody agregacji modeli dyskryminacyjnych ze względu na ich wpływ na wartości obciążenia i wariancji, należy być bardzo ostrożnym, bowiem różne sposoby dekompozycji błędu klasyfikacji zaproponowane w literaturze przedmiotu, dają różne wartości tych wielkości. (fragment tekstu)
EN
The idea of error decomposition comes from regression where the square loss function is applied. Prediction error is decomposed into three components: noise, bias and variance.There are also trials to apply the idea of error decomposition in classification. But the sum of those three components is different to the value of classification error. This is why several authors have proposed their own definitions of decomposition components for classification problem. In this paper we present and compare known decompositions for 0-1 loss. (original abstract)
Prowadzone rozważania nad losowym doborem zmiennych do modeli dyskryminacyjnych pokazują wpływ liczby tych zmiennych (wymiaru przestrzeni zmiennych) na dokładność klasyfikacji modelu zagregowanego. Okazuje się, że po początkowym spadku wielkość tego błędu zaczyna rosnąć wraz ze wzrostem liczby zmiennych. Wpływ na to ma przede wszystkim obciążenie. W związku z tym i wprowadzenie do modelu większej liczby zmiennych powoduje zwiększenie błędu klasyfikacji. W takim przypadku zamiast losowego dobierania zmiennych do modelu warto wykorzystać metody agregacji, które znacznie redukują wielkość obciążenia, np. metodę boosting. (fragment tekstu)
EN
Serious reduction of the classification error is possible by aggregation of multiple classification trees. An aggregation of models built on training samples with randomly chosen subsets of variables is considered. Unfortunately, adding new variables to the component models leads to increase of the classification error. Its growth is mostly determined by the bias of the model. (original abstract)
3
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
Budowa modeli bazowych jest oparta na zbiorze M prób uczących U1, …, UM, będących podzbiorami oryginalnego zbioru uczącego U. Podzbiory te mogą zawierać albo wybrane obserwacje ze zbioru U, albo wszystkie obserwacje, lecz rzutowane na różne podprzestrzenie zmiennych. Łączenie modeli bazowych realizuje funkcja Ψ określona na zbiorze ich wyników predykcji: ^ ^ ^ D*(xi.) = &
EN
936; (D1(xi), ..., DM (xi)), Przy czym jej rodzaj zależy od postaci wyników predykcji modeli bazowych D1, …, DM. Funkcja ta nadaje wyższe wagi tym modelom, które charakteryzują się większą dokładnością, niż tym, które generują większy błąd predykcji. Ponieważ w literaturze przedmiotu zaproponowano kilkanaście różnych funkcji Ψ, powstaje potrzeba zbadania wpływu postaci funkcji na błąd predykcji modelu zagregowanego. To zagadnienie jest właśnie podstawowym przedmiotem rozważań w niniejszym artykule. (fragment tekstu)
Pojęcie dekompozycji błędu wywodzi się z regresji, gdzie stosuje się kwadratową funkcję straty. Mając dany obiekt x, dla którego prawdziwa wartość zmiennej objaśnianej wynosi y, algorytm uczący, na podstawie każdego podzbioru uczącego ze zbioru prób uczących Z, przewiduje dla tego obiektu wartość ŷ. Błąd predykcji można poddać wtedy następującej dekompozycji: Ez{Ey[(y -ŷ)2]} = N(x)+ B(x) + V(x). Błąd resztowy (N(x)) jest elementem składowym błędu, który nie podlega redukcji i który jest niezależny od algorytmu uczącego. Stanowi hipotetyczną dolną granicę błędu predykcji. Obciążeniem algorytmu uczącego dla obiektu x (B(x)), nazywamy błąd systematyczny spowodowany różnicą między predykcją, otrzymaną na podstawie modelu optymalnego (y*), a predykcją na podstawie modelu zagregowanego (ym), gdzie y* i ym definiowane są jako y* = Еy[у], ym = Ez[ŷ]. Wariancja dla obiektu x (D2(x)) to przeciętny błąd wynikający z różnicy między predykcją na podstawie modelu zagregowanego (ym) a predykcją uzyskaną na podstawie pojedynczych modeli (ŷ). W literaturze pojawiły się także liczne koncepcje przeniesienia idei dekompozycji do zagadnienia klasyfikacji. Celem artykułu jest analiza własności różnych sposobów dekompozycji błędu przy zastosowaniu zero-jedynkowej funkcji straty. (abstrakt oryginalny)
EN
The idea of error decomposition originates in regression where squared loss function is applied. More recently, several authors have proposed corresponding decompositions for classification problem, where 0-1 loss is used. The paper presents the analysis of some properties of recently developed decompositions for 0-1 loss. (original abstract)
5
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
Metoda wektorów nośnych jest uważana za metodę odporną. W dalszej części artykułu przedstawiono pokrótce algorytm metody SVM, ze szczególnym uwzględnieniem elementów czyniących ją odporną na błędy występujące w zbiorze uczącym, a następnie empirycznie sprawdzono na zbiorze danych standardowo wykorzystywanym do badania własności metod wielowymiarowej analizy statystycznej, w jakim stopniu metoda jest odporna. Dla porównania zbadano również konkurencyjne metody dyskryminacji. (fragment tekstu)
EN
The Support Vector Machines have been developed as a robust tool for classification in noisy, complex domains. The paper presents a comparison of some selected classification methods by the means of classification test set error depending on the presence of noise in the training data.(original abstract)
Konstruowanie funkcji klasyfikujących przez łączenie wielu modeli składowych stanowi główny nurt badań naukowych nad metodami klasyfikacji w ciągu ostatnich pięciu lat. Powodem tak dynamicznego rozwoju metod agregujących są ich dobre własności, gdyż klasyfikacja danych na podstawie modeli zagregowanych daje na ogół mniejsze błędy klasyfikacji niż którakolwiek pojedyncza funkcja dyskryminująca, będąca składową modelu zagregowanego. Narzędziem, które umożliwia wyjaśnienie przewagi modeli łączonych nad pojedynczymi, a także pozwala na porównywanie oraz kreowanie nowych metod łączenia modeli, jest analiza błędu klasyfikacji podlegającego dekompozycji na obciążenie, wariancję i szum.(fragment tekstu)
EN
The paper presents a unified bias-variance decomposition of zero-one loss and its application to ensemble method using Support Vector Machines. We have used Breiman's bagging techniąue to aggregate base learners trained on the repeated bootstrap samples. Then, we present a numerical experiment to compare bagged ensemble of SVMs versus single SVMs.(original abstract)
Minimalizacja błędu klasyfikacji w zbiorze uczącym jest zazwyczaj podstawowym kryterium wyboru funkcji klasyfikującej. Taka postać kryterium wiąże się jednak z możliwością wyznaczenia bardzo złożonej funkcji klasyfikującej o niewielkiej zdolności objaśniania (uogólnienia). W opracowaniu przed-stawiono inne kryterium, tzw. zasadę minimalizacji ryzyka strukturalnego, która oprócz jakości dyskryminacji uwzględnia również stopień uogólnienia wyznaczanego modelu. Następnie przedstawiono zarys pewnej metody dyskryminacji, skonstruowanej na podstawie zasady minimalizacji ryzyka strukturalnego, zwanej metodą wektorów nośnych.(fragment tekstu)
EN
Usually, when the problem of finding the best classifier is considered, it is based on minimizing the error on the training data (Empirical Risk Minimization). But in order to have a model with good generalization ability, the concept of Structural Risk Minimization (SRM) principle has been introduced. It defines a trade off between the quality of the approximation of the given data and the complexity of the approximating function. The formulation of the Support Vector Machines (SVM) embodies SRM principle. The very short overview of the theory of SVM has been presented and as an illustration a numerical example has been given.(original abstract)
Podejście wielomodelowe (agregacja modeli), stosowane najczęściej w analizie dyskryminacyjnej i regresyjnej, polega na połączeniu M modeli składowych C1(x), ..., CM(x) jeden model globalny C*(x): K C* = arg max {Σ I (Cm(x)=y)} y k=1 Turner i Ghosh (1996) udowodnili, że błąd klasyfikacji dla modelu zagregowanego C*(x) zależy od stopnia podobieństwa (zróżnicowania) modeli składowych. Inaczej mówiąc, najbardziej dokładny model C*(x) składa się z modeli najbardziej do siebie niepodobnych, tj. zupełnie inaczej klasyfikujących te same obiekty. W literaturze zaproponowano kilka miar pozwalających ocenić podobieństwo (zróżnicowanie) modeli składowych w podejściu wielomodelowym. W artykule omówiono związek znanych miar zróżnicowania z oceną wielkości błędu klasyfikacji modelu zagregowanego. (abstrakt oryginalny)
EN
Multiple-model approach (model aggregation, model fusion) is most commonly used in classification and regression. In this approach K component (single) models C1(x), C1(x), … , CK(x) are combined into one global model (ensemble) C*(x), for example using majority voting: K C* = arg max {Σ I (Ck(x)=y)} (1) y k=1 Turner i Ghosh (1996) proved that the classification error of the ensemble C*(x) depends on the diversity of the ensemble members. In other words, the higher diversity of component models, the lower classification error of the combined model. Since several diversity measures for classifier ensembles have been proposed so far in this paper we present a comparison of the ability of selected diversity measures to predict the accuracy of classifier ensembles. (original abstract)
Celem pracy było przeprowadzenie i ocena poprawności klasyfikacji ziaren należących do różnych odmian jęczmienia browarnego. Przebadano ziarna 8 odmian: Blask, Bordo, Conchita, Kormoran, Mercada, Serwal, Signora, Victoriana, o trzech poziomach wilgotności: 12, 14, 16%. Oznaczono wybrane parametry tekstury powierzchni ziarna w masie uzyskane ze zdjęć wykonanych przy użyciu technik obrazowania hiperspektralnego. Porównano dokładność dyskryminacji ziaren przeprowadzonej przy użyciu różnych metod selekcji i klasyfikacji danych. Dokonano porównania parami oraz porównania trzech, czterech i ośmiu odmian jęczmienia browarnego. Najbardziej dokładną dyskryminację stwierdzono w przypadku porównania parami. Odmiana Victoriana najbardziej odróżniała się od innych. Najbardziej podobną teksturę ziaren w masie stwierdzono w przypadku porównania odmian: Blask i Mercada. W przypadku ośmiu badanych odmian jęczmienia browarnego, najdokładniejszą dyskryminację (błąd klasyfikacji - 55%) uzyskano dla obrazów wykonanych przy wilgotności 14% i długości fali 750 nm, dla selekcji atrybutów wykonanej z wykorzystaniem prawdopodobieństwa błędu klasyfikacji z uśrednionym współczynnikiem korelacji (POE + ACC) oraz dyskryminacji przeprowadzonej za pomocą liniowej analizy dyskryminacyjnej (LDA).(abstrakt oryginalny)
EN
The aim of this study was to perform and evaluate the accuracy of classification of grains of different cultivars of malting barley. The grains of eight cultivars: Blask, Bor do, Con chita, Kormoran, Mercada, Serwal, Signora, Victoriana, with three moisture content: 12, 14, 16% were examined. The selected parameters of the surface texture of grain mass obtained from images taken using the techniques of hyperspectral imaging were determined. The accuracy of grains discrimination carried out using different methods of selection and classification of data was compared. The pairwise comparison and comparison of three, four and eight cultivars of malting barley were carried out. The most accurate discrimination was determined in the case of the pairwise comparison. Victoriana cultivar was the most different from the others. The most similar texture of grain mass was found in the comparison of cultivars: Blask and Mercada. In the case of eight examined cultivars of malting barley, the most accurate discrimination (classification error - 55%) was obtained for images taken at the moisture content of 14% and at a wavelength of 750 nm, for the attributes selection performed with the use of probability of error and average correlation coefficient (POE+ACC) method and the discrimination carried out using the linear discriminant analysis (LDA).(original abstract)
Szczególnie ważną cechą modeli dyskryminacyjnych jest ich jak największa trafność prognostyczna, tj. dokładność przewidywania wartości zmiennej y dla obiektów ze zbioru rozpoznanego. Wpływ na to ma wiele czynników, z których najważniejszym jest struktura zbioru uczącego. Okazuje się, że dużo dokładniejsze wyniki predykacji, daje złożony model dyskryminacyjny, będący wynikiem agregacji (połączenia) kilku indywidualnych modeli, powstałych w oparciu o różne zbiory uczące. Autor omówił zagadnienie sposobu oceny wielkości błędu klasyfikacji e(D) dla pewnego modelu dyskryminacyjnego D, zwłaszcza w przypadku, gdy nie jest dostępny zbiór testowy. Dalej autor przedstawił szczegółowo dwie metody agregacji pojedynczych modeli dyskryminacyjnych (agregacja bootstrapowa i losowanie adaptacyjne oraz łączenie), dzięki którym ten błąd można zredukować. Przedstawiony przykład obliczeniowy pokazał, że najmniejszy błąd klasyfikacji można uzyskać stosując metodę losowania adaptacyjnego (boosting).
EN
A discriminant model is built on the base of a learning sample, but will be applied to the set of objects to be classified. Therefore, evaluation of its predictive accuracy must be based on an independent set (test sample) or a part of the learning sample will be used as the test set. But much more accurate model could be created as a result of combining several simple discriminant models. In this paper several different methods of estimation of the classification error are discussed, e.g. cross-validation, bootstrap etc. and two aggregation methods are presented: bootstrap aggregation, or bagging in short, adaptive resampling and combining, also known as ARCing, or boosting. (original abstract)
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.