Problem predykcji etykiety klasy (grupy, populacji) na podstawie obserwacji wektora cech jest nazywany klasyfikacją, analizą dyskryminacyjną lub uczeniem się pod nadzorem. Zbiór etykiet składa się z K > 2 elementów w przypadku zagadnień wieloklasowych oraz z K = 2 elementów w przypadku zagadnień dwuklasowych (binarnych). Ponieważ zagadnienia dwuklaso- we są z reguły o wiele prostsze od zagadnień wieloklasowych (co więcej, niektóre algorytmy klasyfikacyjne dają się zastosować jedynie w przypadku dwuklasowym) wielu autorów proponuje dekompozycje zagadnień wieloklasowych do zagadnień binarnych. Do szczególnie znanych algorytmów tego typu należą: one-per-class (OPC), pairwise coupling (PWC) oraz error-correcting output codes (ECOC). Dualnym do zagadnienia dekompozycji jest zagadnienie łączenia informacji uzyskanych z klasyfikatorów binarnych. Klasyczne algorytmy bazują na minimalizacji odległości Hamminga, technice głosowania lub sumowania prawdopodobieństw a posteriori. W pracy porównano różne algorytmy dekompozycyjne oraz zarówno klasyczne jak i nowe metody łączenia informacji z klasyfikatorów binarnych. Wyniki tych porównań wskazują jednoznacznie, że zwłaszcza w przypadku „niestabilnych” procedur klasyfikacyjnych takich jak drzewa klasyfikacyjne czy sieci neuronowe, poza uproszczeniem samych procedur uzyskujemy również znaczną poprawę jakości klasyfikacji. Stąd metody te zaliczyć można do technik wzmacniania klasyfikatorów.
Optimal classification rules based on linear functions which maximize the area under the relative operating characteristic curve or which maximize the chosen probabilistic distance between two populations are studied here. We obtain an expression for the optimal linear discriminant function and show that the resulting procedure belongs to the Anderson-Bahadur admissible class. The asymptotic form of the discriminant function is also studied.
The relationship between two sets of real variables defined for the same individuals can be evaluated by a few different correlation coefficients. For the functional data we have one important tool: canonical correlations. It is not immediately straightforward to extend other similar measures to the context of functional data analysis. In this work we show how to use the distance correlation coefficient for a multivariate functional case. The approaches discussed are illustrated with an application to some socio-economic data.
The Cone Penetration Test is one of the most versatile and widely used geotechnical tests over the world. Some differences in technical solutions between the equipment manufactured by different producers and the relatively quick wear of the penetrometer itself make the issue of quality and comparability of the CPTU results very actual. The tests were conducted in the testing ground of Adam Mickiewicz University in Poznań. The test site is located in the northern part of Poznań, within a marginal zone of the Poznań Phase of the Weichselian (Vistulian) glaciation. The subsoil consists of glacial till of the Riss glaciation and glacial till of the Vistulian glaciation, separated by fluvioglacial sandy sediments and covered with fine and medium sands with single gravel grains. The quality of geotechnical parameters of the tested subsoil was assessed for the initial constrained modulus and undrained shear strength. To determine these parameters, static penetrometers produced by two different manufacturers were used. The tests and the results of analysis were performed in three stages. In the first stage, each penetrometer was used to investigate homogeneity and diversity of the subsoil structure in the test sites. The subsoil structure diversity was examined by grouping statistically similar Rf coefficient values along the profile. In the second stage, the level of accuracy and precision in the assessment of the corrected cone resistance - qt, friction on the friction sleeve-fs, and pore pressure - u2 was determined for individual penetrometers. In the next stage, the differences between the constrained modulus and undrained shear strength were determined for both penetrometers. This analysis takes into account the level of precision of the corrected cone resistance.
Data in the form of a continuous vector function on a given interval are referred to as multivariate functional data. These data are treated as realizations of multivariate random processes. We use multivariate functional regression techniques for the classification of multivariate functional data. The approaches discussed are illustrated with an application to two real data sets.
W pracach [Górecki i in. 2014; 2016] przedstawiono konstrukcję składowych głównych dla wielowymiarowych danych zmiennych w czasie (wielowymiarowych danych funkcjonalnych). W pracach [Harris i in. 2011] oraz [Lu i in. 2014] podano konstrukcję składowych głównych dla wielowymiarowych danych przestrzennych. Są to składowe główne lokalne, geograficznie ważone. W pracy tej przedstawiona jest konstrukcja składowych głównych dla wielowymiarowych danych czasowo-przestrzennych, łącząca wyniki przywołanych prac.
Celem artykułu jest zbadanie zależności między wydatkami na napoje alkoholowe i wyroby tytoniowe a pozostałymi wydatkami konsumpcyjnymi gospodarstw domowych w 27 krajach Europy w latach 2000—2010. Wybór krajów i przedziału czasowego podyktowany został dostępnością i kompletnością danych pochodzących z Eurostatu. Nowością zaprezentowaną w tej pracy jest rozpatrywanie lat łącznie, a nie każdego roku oddzielnie. Stało się to możliwe dzięki przekształceniu danych pierwotnych na wielowymiarowe dane funkcjonalne oraz skonstruowaniu korelacji i zmiennych kanonicznych dla danych przekształconych. Z badania wynika, że wydatki na napoje alkoholowe i wyroby tytoniowe są bardzo silnie skorelowane z pozostałymi wydatkami konsumpcyjnymi (współczynnik korelacji kanonicznej między dwiema pierwszymi funkcjonalnymi zmiennymi kanonicznymi wynosi 0,99). Wydatki na napoje alkoholowe i wyroby tytoniowe mają prawie jednakowy wkład w budowę funkcjonalnej zmiennej kanonicznej U1, natomiast największy udział w budowie funkcjonalnej zmiennej kanonicznej V1 przypada wydatkom na artykuły żywnościowe i napoje bezalkoholowe oraz wydatkom na odzież i obuwie.
EN
The article aims to examine the relations between expenditure on alcoholic beverages and tobacco and other consumer expenditure of households in 27 European countries within 2000—2010. The choice of countries and time series was determined by the availability and completeness of Eurostat data. The years were analysed collectively not separately, which is a novelty presented in this paper. Such an approach was possible due the transformation of primary data into multivariate functional ones, and then the construction of correlations and canonical variables for transformed data. The study shows that expenditure on alcoholic beverages and tobacco is strongly correlated with other consumption expenditure (the canonical correlation coefficient between the two first functional canonical variables is 0.99). The expenditure on alcoholic beverages and tobacco has almost the same contribution to the construction of the functional canonical U1 variable, while the expenditure on food and non-alcoholic beverages and expenditure on clothing and footwear has the largest impact on the development of the functional canonical V1 variable.