Ilość gromadzonych przez ludzkość danych ciągle rośnie. Wiedza z nich otrzymywana ma kluczowe znaczenie. Dużą wagę przywiązuje się zatem do oceny jakości budowanych modeli. W artykule przedstawiono powszechnie stosowane metryki oceny jakości klasyfikacji. Opisano między innymi miary oparte na macierzy błędów, miary o graficznej reprezentacji oraz funkcję log loss. Przedstawiono podstawowe właściwości metryk, ze szczególnym uwzględnieniem możliwości zastosowania w zagadnieniach wieloklasowych.
EN
The amount of data collected by humanity is constantly increasing. The knowledge that could be discovered is crucial. Therefore, great attention is paid to the quality of built models. This work presents commonly used classification evaluation metrics. Metrics based on confusion matrix, graphical representations measures, and log loss function have been described among others. The basic properties of the metrics have been presented with emphasis on their applicability in multiclass problems.
Klasyczny schemat eksploracji danych z nadzorem zawiera etap klasyfikacji, poprzedzony wstępnym przetwarzaniem danych. Dyskretyzacja danych numerycznych stanowi ważny element przetwarzania wstępnego. Klasyczne podejście nie zapewnia wykorzystania wiedzy zdobytej podczas dyskretyzacji danych w etapie klasyfikacji. Prowadzi to do zwiększenia zasobów potrzebnych do obliczeń. W artykule przedstawiono nowatorską metodę klasyfikacji danych na podstawie modelu sekwencyjnej dyskretyzacji. Opisano założenia i kroki algorytmu, przedstawiono przykłady, ilustrujące działanie metody w zależności od wybranych parametrów, a także wyniki przeprowadzonych eksperymentów.
EN
The classic scheme of supervised data mining includes the step of classification preceded by data preprocessing. Numeric data discretization is an important part of the preprocessing. The classic approach does not allow to use the knowledge gained in the discretization stage in the following classification. This leads to an increase of resources needed for calculations. The paper proposes the novel method of data classification based on the model of sequential discretization. The assumptions and steps of the proposed algorithm have been described. The examples showing how method results change depending on the parameters' values have been presented. The paper contains the results of conducted experiments.
Discretization is one of the most important parts of decision table preprocessing. Transforming continuous values of attributes into discrete intervals influences further analysis using data mining methods. In particular, the accuracy of generated predictions is highly dependent on the quality of discretization. The paper contains a description of three new heuristic algorithms for discretization of numeric data, based on Boolean reasoning. Additionally, an entropy-based evaluation of discretization is introduced to compare the results of the proposed algorithms with the results of leading university software for data analysis. Considering the discretization as a data compression method, the average compression ratio achieved for databases examined in the paper is 8.02 while maintaining the consistency of databases at 100%.
Rozwój sieci komputerowych oraz teleinformatyki umożliwił zdobywanie wielkiej ilości danych. Istotna jest jednak wiedza z ich pomocą zdobywana. Jest to możliwe dzięki zastosowaniu eksploracji danych. Przedstawiono podstawowy podział metod eksploracji danych oraz rozliczne ich zastosowania w telekomunikacji. Wśród przykładów można miedzy innymi wyróżnić klasyczny problem filtracji wiadomości elektronicznych, należący do szerszej rodziny wykrywania zdarzeń niepożądanych czy segmentację rynku na potrzeby marketingowe.
EN
The modern development of computer networks and teleinformatics has enabled the acquisition of great amounts of data. However, the discovered knowledge is important. This is possible through the use of data mining. The article presents the basic division of data mining methods and their numerous applications in telecommunications. Examples include, among others, the classic problem of filtering emails, belonging to a wider family of detecting adverse events, and market segmentation for marketing purposes.
Dyskutowane są możliwości zastosowania metod syntezy logicznej w zadaniach eksploracji danych. W szczególności omawiane jest zastosowanie metody uzupełnienia funkcji boolowskiej do najważniejszych procedur eksploracji danych, takich jak ich dyskretyzacja, indukcja reguł oraz redukcja atrybutów. Pokazano, że metody syntezy logicznej skutecznie usprawniają te procedury i z powodzeniem mogą być zastosowane do rozwiązywania zadań eksploracji danych w medycynie i telekomunikacji.
EN
The article discusses the possibilities of application of logic synthesis methods in data mining tasks. The main idea is to use the complement of Boolean function method from logic synthesis in the most important data mining procedures such as data discretization, induction of rules and reduction of attributes. It is shown that by applying specialized logic synthesis methods, these three issues can be effectively improved and successfully used for solving data mining tasks in medicine and telecommunications.
Dyskutowana jest nowa metoda indukcji reguł decyzyjnych. W przeciwieństwie do klasycznej metody sekwencyjnego pokrywania stosuje się w niej dwustopniowy proces selekcji reguł, w którym pojedyncze obiekty są uogólniane w celu uzyskania zbioru reguł minimalnych. Następnie rodzina wszystkich minimalnych reguł jest selekcjonowana wydajnymi algorytmami heurystycznymi. Przedstawione wyniki eksperymentów wskazują, że metoda znacząco usprawnia proces indukcji reguł decyzyjnych.
EN
A new method of solving the rule induction problem is discussed. The method is different to the classical approach using the so called sequential covering strategy. The main idea is to use the two stage selection process where single objects are considered in order to find whole sets of minimal rules. Next the family of minimal rules is selected using efficient highly-heuristic algorithms. The presented results of experiments with typical databases indicate that the proposed approach significantly improves the efficiency of the rule induction process.
Dyskretyzacja jest jednym z podstawowych zabiegów wstępnego przetwarzania tablic decyzyjnych. Przekształcenie ciągłych wartości atrybutów na ich dyskretne odpowiedniki umożliwia dalszą analizę za pomocą metod eksploracji danych. Od jakości dyskretyzacji zależy zatem dokładność przewidywań, uzyskanych za pomocą wyznaczania reguł decyzyjnych. Przedstawiono opis metody dyskretyzacji danych numerycznych w tablicach decyzyjnych metodami przekształceń boolowskich. Pokazano, iż użycie algorytmów, wywodzących się z syntezy logicznej, umożliwia uzyskanie dobrej jakościowo dyskretyzacji.
EN
Discretization is one of the most important parts of decision tables preprocessing. Transformation continuous values of attributes into discrete intervals allows further analysis using data mining methods. The accuracy of generated rules predictions relies on the quality of discretization. The paper contains a description of the method of discretization of numerical data in decision tables using boolean transformations. Has been shown that the use of algorithms derived from logic synthesis results in a good quality discretization.
Lead tetraacetate oxidation of o-isopropyl phenol under various conditions led to the dienone acetate which, when dimerized, represents a central part of the celastroidin penta- and hexa-terpenes (natural products from the Mexican shrub Hippocratea Celastroides). Six oxidation products formed in this reaction (the iso-propyl dienolone acetate, two dimers, benzoquinone, and two phenol acetates) were identified with help of 2D and 3D NMR, GC and LC-MS. From this, we concluded that the dimer skeleton observed for the dienolone acetate in natural products corresponded to the product from the photochemical pathway, and that the synthetic dimer has the opposite geometry; this was verified by molecular modelling. The oxidation of the second compound, o-cresol, leads to a similar profile of products.
Two triterpenic compounds, Davallene 1and Adipedatol 2 were isolated from the roots of Mexican Adiantum capillus-veneris L. (Adiantaceae). The structures of both compounds are discussed on the basis of new 2D and 3DNMRspectroscopic and single crystal X-ray diffraction data.
Two organic synthetic reactions - mononitration and phosphorylation of crown-6 compounds were performed under Cs+ cation monitoring via in situ complexation using electrospray ionization mass spectrometry (ESI-MS). Formation of Cs+ complexes is a rapid analytical tool for characterization of complex reaction mixtures.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.