W artykule zaproponowano mierniki do oceny jakości skonstruowanej klasyfikacji. Mierniki te oparto na określeniu heterogeniczności poszczególnych grup, w tym również grupy zawierającej jeden obiekt, czyli punktu izolowanego. Zdefiniowano trzy stopnie heterogeniczności dla grup oraz dwa stopnie heterogeniczności dla punktów izolowanych. Ponadto zdefiniowano brak heterogeniczności dla grupy oraz punktu izolowanego. Dla metod hierarchicznych zaproponowano prosty sposób wyboru podziału najlepszego. (fragment tekstu)
EN
The paper describes techniques of classification scoring. The basis of a score is determined by a heterogeneity of every cluster and every isolated object in a given classification. A few coefficients have been proposed, which determine various degrees of heterogeneity of clusters and isolated objects. On the basis of these coefficients, four types of classifications have been defined: very good, weak but sufficient, and bad classification.The paper also describes how to easily find "the best" classification for hierarchical methods. The proposed coefficients have been commented and compared with different coefficients, such as SC (Silhouette Coefficient) and average innercluster variation. (original abstract)
2
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
Artykuł przedstawia próbę analizy i klasyfikacji zmiennych determinujących efektywność uczenia w wybranych szkołach gimnazjalnych w Polsce. Za pomocą SEM do-konano weryfikacji hipotetycznych relacji między zmiennymi opisującymi wyniki egzami-nacyjne a wybranymi charakterystykami szkoły oraz jej uczniów. Na efektywność w bada-nych szkołach bezpośrednio oddziałuje tylko czynnik otoczenia reprezentowany przez wy-brane charakterystyki uczniów. Czynnik szkolny reprezentujący warunki nauczania bezpo-średnio nie wpływa na wyniki egzaminacyjne, ale jest skorelowany z czynnikiem otoczenia(abstrakt oryginalny)
EN
This paper presents an attempt of analysis and classification of variables that de-termine the effectiveness of teaching in selected secondary schools in Poland. Using SEM hypothetical relationships between variables describing the exam results and selected fea-tures of schools and its students were verified. The effectiveness of the schools in the survey was affected directly only by the environmental factor represented by selected characteris-tics of students. The school's factor represented by teaching conditions had no direct impact on the schools effectiveness, but was correlated with the environmental factor.(original abstract)
Celem niniejszego artykułu jest zaprezentowanie idei symbolicznej klasyfikacji opartej na kryteriach (criterion-based divisive clustering). Metodą ta została zaproponowana przez M. Chavent. W swych założeniach metoda pozwala albo na klasyfikację obiektów, które opisane są zmiennymi w postaci przedziału liczbowego czy innych "silnych skal" pomiaru, albo na klasyfikację obiektów opisanych zmiennymi w postaci listy kategorii czy listy kategorii z wagami. Natomiast z powodu zastosowanej w niej miary jakości klasyfikacji nie pozwala na klasyfikację obiektów opisanych różnymi typami zmiennych łącznie. Dlatego też dodatkowym celem niniejszego opracowania jest pokazanie modyfikacji tej metody, która pozwala na klasyfikację obiektów opisanych przez zmienne dowolnego typu. W części empirycznej porównano wyniki klasyfikacji uzyskane metodą niezmodyfikowaną i zmodyfikowaną na przykładzie rynku samochodowego. (fragment tekstu)
EN
The aim of this article is to present one of symbolic clustering methods, the criterion-based divisive clustering method, besides that article presents a modification of this method that will allow to clustering symbolic objects with different variable types. The article will compare in the empirical part the clustering of a car market with modified and unmodified method. (original abstract)
4
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
Podejmując decyzje, czasem wahamy się, ponieważ czujemy, że w danej sytuacji wskazanie nie jest jednoznaczne. Z analogiczną sytuacją mamy do czynienia w statystycznych metodach eksploracyjnych. Metoda wykorzystuje informacje zawarte w zbiorze uczącym, model zostaje zbudowany, a następnie wykorzystany do predykcji na nowych obserwacjach. Wydaje się jednak rozsądne oczekiwać, żeby metoda dawała przynajmniej ostrzeżenie, kiedy wynik predykcji jest niestabilny, w tym sensie, że jest wrażliwy na małe zmiany w wartościach zmiennych objaśniających. Głównym celem artykułu jest przedstawienie procedury wzbogacającej metody klasyfikacji w zdolność do wskazywania, czy klasyfikacja danego obiektu jest trudna do rozstrzygnięcia. Przedstawiona procedura wykorzystuje analizę wrażliwości i jest uniwersalna, tzn. może być stosowana z różnymi metodami klasyfikacji. Dodatkowym walorem procedury jest zaproponowana w niej metoda wizualizacji wyników przeprowadzonej analizy wrażliwości(abstrakt oryginalny)
EN
When making decision sometimes we hesitate, because we feel it can go both directions. The situation is similar in machine-learning tasks. We can use very sophisticated classification methods to support our decision-making process. The machine is learned, the model is built, but then it seems reasonable to expect the machine to give us at least a warning when the prediction is unstable (which means that it is sensitive to small changes in explanatory variables' values). The main goal of the article is to present a procedure for providing the machine with the ability to show hesitation, when it is justified. The proposed procedure is based on sensitivity analysis. We illustrate the procedure on a real-world data set using the Support Vector Machines, but the procedure is universal and it can be also used with other classification methods. The added value of the paper is also the proposed type of plot for visualizing the outcome of the sensitivity analysis(original abstract)
W trakcie procesu drążenia danych kluczowym zagadnieniem jest zdolność systemu (stawianych hipotez) do prawidłowego klasyfikowania nowych, nieznanych do tej pory przypadków. Aby sprawdzić tą zdolność stosuje się zazwyczaj technikę podziału posiadanych przypadków na dwa zbiory - uczący oraz testujący. Wyniki na zbiorze testującym są istotną przesłanką oceny trafności wnioskowania systemu. W trakcie procesu uczenia oraz oceny jakości systemu często obserwowane jest nabieranie przez system cechy nazywanej nadmiernym dopasowaniem (overfltting, overtraining). Objawia się ono powiększającą się rozbieżnością między trafnością klasyfikacji danych uczących i danych testujących. Jako jeden z głównych czynników rzutujących na możliwość występowania nadmiernego dopasowania wymienia się złożoność systemu wnioskującego. W niniejszym artykule poruszono problem nadmiernego dopasowania rozmytych systemów wnioskujących z kompletną bazą reguł. Przedstawione wyniki są fragmentem badań nad kondycją finansową przedsiębiorstw prowadzonych aktualnie przez autora. (fragment tekstu)
6
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
Data in the form of a continuous vector function on a given interval are referred to as multivariate functional data. These data are treated as realizations of multivariate random processes. We use multivariate functional regression techniques for the classification of multivariate functional data. The approaches discussed are illustrated with an application to two real data sets. (original abstract)
Proces klasyfikacji obiektów składa się z kilku etapów: doboru zmiennych do klasyfikacji, redukcji zmiennych, normalizacji zmiennych oraz grupowania. Dobry podział na klasy w dużym stopniu zależy od skupienia obiektów wkoło środków klas. Etap normalizacji zmienia położenie obiektów i może spowodować ich oddalenie się od środków klas. Zastosowanie nowej metody umożliwia wyeliminowanie etapu normalizacji, przez co można uzyskać lepsze skupienie obiektów wokół środków klas. W artykule przedstawiona jest metoda minimalizacji odległości wewnątrz klas w celu uzyskania lepszej odrębności i rozłączności skupień. (fragment tekstu)
EN
The authors propose new approach to data processing on need of classification in the article. The new MOWK method can replace the stage of standardization and increase degree of concentration of objects enlarges round centers of classes. This method can be use for classification social-economic objects or pattern recognition etc. In this article the MOWK was used for preparing data for classification of districts of the West Pomeranian province. (original abstract)
Głównym celem analizy dyskryminacyjnej jest klasyfikacja obiektów do jednej z wyróżnionych grup według określonego czynnika klasyfikacji. Proces klasyfikacji dokonywany jest na podstawie obserwacji wielu cech badanych obiektów. Cechą charakterystyczną analizy dyskryminacyjnej jest to, że obliczenia prowadzone są na zbiorze obiektów, których przynależność do wyodrębnionych grup jest znana. Procedury analizy dyskryminacyjnej generują funkcje, opierając się na różnicy między wariancją wewnątrzgrupową i międzygrupową. Szacowana funkcja dyskryminacyjna maksymalizuje stosunek zmienności międzygrupowej do wewnątrzgrupowej. (...) W pracy pokazana jest próba wykorzystania funkcji dyskryminacyjnej do klasyfikacji spółek giełdowych notowanych na Giełdzie Papierów Wartościowych w Warszawie. (fragment tekstu)
EN
The subject of the elaboration is utilization of linear discriminant function in the capital market for classification of the companies in years 2001 and 2002. The net profit or loss was the criterion of discrimination. The companies were classified annually and quarterly based on economic and financial ratios. Results of the classification were acceptable. In long-term horizon, investor can use profitable stocks to construct portfolios. (original abstract)
9
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
The aim of this work is to present fuzzy clustering algorithm for objects, which can be described by mixed feature-type symbolic data and fuzzy data. The main idea is the transformation of mixed feature-type symbolic data and fuzzy data into histogram-valued symbolic data. Fuzzy classification is very useful in case, when classes are difficult separated, mixed objects can be classified into class with the fixed degree of membership. (original abstract)
Obszarem zainteresowań będą metody dyskryminacji, które można stosować dla zmiennych z mocnych i słabych skal pomiaru. W statystyce ugruntowaną już pozycję ma metoda drzew klasyfikacyjnych. Jednocześnie na gruncie nauki o indukcyjnych metodach uczenia rozwijano metody dyskryminacji prowadzące do modeli w postaci reguł klasyfikacji, których części warunkowe są koniunkcjami wartości cech. Znaczna ich liczba opiera się na ogólnym schemacie wypracowanym przez Michalskiego. Do konstrukcji takich modeli dyskryminacyjnych można zastosować także drzewa logiczne. Zaproponowana przez autora metoda daje dokładności klasyfikacji porównywalne z powszechnie znanymi algorytmami CN2 (indukcja reguł) i C4.5 (drzewa klasyfikacyjne). Celem artykułu jest zastosowanie w metodzie drzew logicznych różnych technik upraszczania wstępnego modelu (pre-pruning) spotykanych w indukcji reguł i drzewach klasyfikacyjnych. Ponieważ omawiane metody zostały opracowane głównie dla zmiennych niemetrycznych, postać klasyfikatora nie może zawierać operacji artymetrycznych. Naturalnym środkiem wyrazu w tej sytuacji jest posługiwanie się komunikacjami wartości cech, co czynimy na co dzień. (fragment tekstu)
EN
Discriminant models that ideally separate classes do not perform well on the new observations, especialy in the presence of noise. This is the general problem of discriminant analysis. Several technics of pruning were proposed in the literature to avoide overfitting. In this paper, pre-pruning technics that deal with noise during model generation are considered. The main goal of this paper is to adopt pre-pruning technics - used in classification trees and rules induction - for logical trees based discrimination method. The examples from UCI Repository of Machine Learning Databases are given. (original abstract)
Badania empiryczne zaprezentowane w tym artykule miały na celu sprawdzenie, czy dekompozycje te pozwolą na sformułowanie relacji zachodzących między stopniem zróżnicowania pojedynczych modeli a błędem modelu zagregowanego. Ponadto celem tego opracowania było także sprawdzenie, która z tych dwóch dekompozycji jest bardziej użyteczna w badaniu wspomnianej relacji. Ujawnienie się jasnej relacji między stopniem zróżnicowania a błędem modelu zagregowanego jest ważne, bo coraz częściej pojawiają się algorytmy, które taki czynnik, jak zróżnicowanie modeli, w sposób jawny biorą pod uwagę w procesie konstrukcji modelu zagregowanego. (fragment tekstu)
EN
Ensembles become more and more popular in classification and regression problems. Very often they have better empirical and theoretical properties than single models. One factor that is needed in order to get high performance of aggregated model is recognized as models diversity. The paper discusses the problem of ensemble diversity in regression using the idea of ensemble error decomposition introduced by Ueda, Nakano (1995) and Krogh, Vedelsby (1996). We show also results of experiments concerning the relationship between ensemble error and ensemble diversity, measured by means of the two presented decompositions. (original abstract)
12
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
The paper is concerned with the management of front end phase of the innovation process. The most common models are presented here. Attention is paid to the characteristics that determine the management of this phase of the innovation process. A system assisting management in this area is proposed. This system relates to a wide range of innovations including any policy, structure, method or process, or any product or market opportunity that is perceived as 'new'. The factors that determine the methods and tools which are used are pointed out. The need of using various approaches in management according to the duration and scope of innovation is indicated. The summary implies directions for further research.(original abstract)
13
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
Artykuł jest poświęcony jednej z funkcji pełnionych przez rachunkowość, jaką jest funkcja klasyfikacyjna. Na początku omówiono istotę funkcji rachunkowości oraz wskazano nadrzędną funkcję informacyjną oraz funkcje szczegółowe jej podporządkowane. Na tym tle wyróżniono funkcję klasyfikacyjną, która jest związana z realizacją metody bilansowej w procesie informacyjnym rachunkowości. Funkcja ta wyraża się grupowaniem danych i informacji w systemie rachunkowości w przyjętych przekrojach klasyfikacyjnych. W artykule ukazano klasyfikację na różnych etapach przetwarzania danych finansowo-księgowych: dokumentowania zdarzeń gospodarczych, ewidencji w księgach rachunkowych i prezentowania informacji w sprawozdaniach finansowych. Przy tym wyróżniono klasyfikację informacji w rachunkowości narzuconą przez normy rachunkowości oraz przeprowadzaną według kryteriów merytorycznych. Artykuł dowodzi, że dzięki funkcji informacyjnej rachunkowość jest źródłem uporządkowanych informacji spełniających zapotrzebowanie różnych interesariuszy jednostki gospodarczej(abstrakt oryginalny)
EN
The paper addresses one of the functions of accounting, namely the discriminant function. The first part provides an overview of accounting functions, with the emphasis on the superior character of the informative function and the subordinate ancillary functions. In this context, the discriminant function of accounting is presented, as a function linked with the realization of the balance method within the informative process of the accounting system. This function involves grouping of data and information within the accounting system according to predefined classification ranges. The paper presents classification processes at various stages of the accounting and bookkeeping processing of data: documenting economic activities, evidencing data in account books, and presenting information for reporting purposes. The author discerns between the classification of accounting information based on accounting standard requirements and the classification of information according to factual criteria. The paper provides arguments to support the thesis that - through the informative function - the accounting system is a source of ordered information that satisfies the requirements of diverse stakeholder groups(original abstract)
14
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
Quality costs calculation is a tool companies use to measure quality costs. The origins of interest in the field noted in foreign literature and practice date to the end of the 1960s, while in Poland the subject has been known since the 1970s. The purpose of the paper is to present and classify selected models of quality costs calculation. The consequences of the undertaken research work will be the organization of knowledge about models of this calculation, and the specification of the key elements used to build them. Quality costs calculation is the subject of the research. In order to achieve the pursued research objective the critical analysis method was applied to the literature on the subject in the areas of quality management and management accounting, as well as to selected journals. The present paper forms a body of theory with which to develop the author's own model of quality costs calculation. (original abstract)
Zadanie jest następujące: dla zaobserwowanej zmiennej niezależnej X i odpowiadającej jej wartości zmiennej zależnej Y znaleźć linię regresji ortogonalnej mającej tę własność, że suma odległości wszystkich obserwacji od regresji jest minimalna. (fragment tekstu)
EN
In this paper the well-known problem of estimating parameters of linear orthogonal regression have been presented. There are proposed any methods of estimating the eigenvectors for the symmetrical and unsymmetrical matrices without calculating its eigenvalues. Additionally there is given an algorithm for classification sample data obtained from no homogenous population in which subpopulations are stepping out with diverse equations of the orthogonal regression. (original abstract)
Pojedyncze klasyfikatory często nie dają satysfakcjonujących wyników, głównie z powodu trzech ograniczeń, a mianowicie: statystycznego, obliczeniowego oraz reprezentacyjnego. Jednym z proponowanych rozwiązań są klasyfikatory złożone, których idea polega na definiowaniu wielu zadań uczenia w ramach jednego pliku uczącego. Klasyfikator taki otrzymuje się, manipulując plikiem uczącym lub mechanizmem sterowania w algorytmie uczącym. Celem niniejszego artykułu jest zdefiniowanie różnych zadań uczenia poprzez manipulację etykietami przykładów, z zastosowaniem kontekstów danych uczących.Jego kolejne rozdziały to wprowadzenie do problematyki klasyfikatorów złożonych ze wskazaniem możliwych modyfikacji ich tworzenia, propozycja rozwiązań i wyniki wstępnych badań oraz podsumowanie wyników. (fragment tekstu)
EN
Ensemble methods are the means for difficult learning task in supervised learning. The idea is to construct a collection Of individual classifiers on the basis of one learning set. This task can be accomplished by manipulation of data set or control mechanism of learning algorithm. This paper proposal is defining different learning task using context inserted in data set by manipulating the output targets. (original abstract)
W rzeczywistych problemach badawczych często oprócz zmiennych istotnych mamy do czynienia ze zmiennymi zakłócającymi (nieistotnymi). Nie zawsze można dokonać wyboru zmiennych istotnych, np. za pomocą metody HINoV, lub zmodyfikowanej metody HINoV. W artykule porównano efektywność wykrywania znanej struktury klas za pomocą drzew klasyfikacyjnych dla obiektów symbolicznych oraz jądrowej analizy dyskryminacyjnej obiektów symbolicznych w sytuacji, gdy mamy do czynienia ze zmiennymi zakłócającymi. Badanie efektywności przeprowadzono na symulowanych danych symbolicznych w różnych modelach. Każdy z modeli zawierał znaną liczbę klas. Dodatkowo do każdego modelu dodano różną liczbę zmiennych zakłócających.
EN
In real research problems we usually deal with relevant variables and irrelevant (noisy) variables. Relevant variables sometimes can not be identified, by for example HINoV method or modified HINoV method. This paper compares effectiveness detection o f known class structure with application o f symbolic decision trees and symbolic kernel discriminant analysis in situation where we deal with noisy variables. This research was conducted on artificial symbolic data from a variety o f models. The models contained known structure o f clusters. In addition, the models contained different number o f noisy variables added to obscure the underlying structure.
Działanie systemu ekspertowego jest oparte na wiedzy specjalistycznej dotyczącej rozwiązania danego problemu. Problemy, które zawierają niepewność, niejednoznaczność, a ich rozwiązanie nie może być wyrażone w formie algorytmu matematycznego, mogą być przedmiotem działania sztucznej inteligencji. W konwencjonalnych bazach danych gromadzono dane prostych typów, np. liczby, łańcuchy, wartości boole'owskie, natomiast w bazach wiedzy posługujemy się złożoną informacją w postaci procesów, procedur, akcji, związków przyczynowych, związków czasowych, motywacji, celów. przekonań i innych konstrukcji pojęciowych związanych z tzw. zdrowym rozsądkiem. System ekspertowy jest szczególną formą systemów z bazą wiedzy. Opis wiedzy ma podstawowe znaczenie dla przedstawienia informacji gromadzonej w systemie informacyjnym oraz strategii wnioskowania. Systemy te działają w wielu dziedzinach nauki i życia codziennego. (fragment tekstu)
EN
The classification of expert systems is presented in this paper. Some expert systems which make the work of various branches specialists more effective, developed in 1988-1992 in Poland are described. (original abstract)
Visualizing data in the form of illustrative diagrams and searching, in these diagrams, for structures, clusters, trends, dependencies etc. is one of the main aims of multivariate statistical analysis. In the case of symbolic data (e.g. data in form of: single quantitative value, categorical values, intervals, multi-valued variables, multi-valued variables with weights), some well-known methods are provided by suitable 'symbolic' adaptations of classical methods such as principal component analysis or factor analysis. An alternative visualization of symbolic data is obtained by constructing a Kohonen map. Instead of displaying the individual items k = 1,..., n by n points or rectangles in a two dimensional space, the n items are first clustered into a number m of mini-clusters and then these mini-clusters are assigned to the vertices of a rectangular lattice of points in the plane such that 'similar' clusters are represented by neighbouring vertices in the lattice.
Wszelkie hierarchie są definiowane w sposób scentralizowany i odgórny. Jest to model niezbyt przydatny do zdecentralizowanej, współuczestniczącej i mocno usieciowionej rzeczywistości cybernetycznej, szczególnie w wersji Web 2.0. Folksonomia, w odróżnieniu od tradycyjnej taksonomii, jest procesem spontanicznym i oddolnym, polegającym na zespołowej kategoryzacji witryn internetowych przy wykorzystaniu tagów, czyli dowolnie dobranych słów kluczowych. Folksonomia jest to neologizm powstały ze zbitki dwóch wyrazów: folks (ludzie, lud) i taksonomii, a oznacza "[...] generowaną przez użytkownika klasyfikację, wyłaniającą się na drodze oddolnego konsensusu".(fragment tekstu)
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.