W artykule przedstawiono opis i porównanie efektywności wybranych algorytmów klasyfikacji w kontekście przewidywania chorób serca z wykorzystaniem języka R. Opisano kluczowe metody uczenia maszynowego, takie jak: k-najbliższych sąsiadów (KNN), maszyny wektorów nośnych (SVM), drzewa decyzyjne oraz lasy losowe, uwzględniając ich charakterystykę, zalety i ograniczenia. Dane użyte w badaniu pochodzą ze zbioru Cleveland Heart Disease Dataset, a proces obejmował przygotowanie danych, budowę modeli i ocenę ich skuteczności. Uzyskane wyniki ukazują potencjał nadzorowanego uczenia maszynowego w diagnostyce medycznej, szczególnie w przewidywaniu obecności chorób serca.
EN
The article presents a description and comparison of the effectiveness of selected classification algorithms in the context of heart disease prediction using the R programming language. Key machine learning methods, such as k-Nearest Neighbors (KNN), Support Vector Machines (SVM), Decision Trees, and Random Forests, are described, highlighting their characteristics, advantages, and limitations. The data used in the study comes from the Cleveland Heart Disease Dataset, and the process included data preparation, model development, and performance evaluation. The obtained results demonstrate the potential of supervised machine learning in medical diagnostics, particularly in predicting the presence of heart disease.
This paper researches various modelling approaches for website-related predictions, offering an overview of the field. With the ever-expanding landscape of the World Wide Web, there is an increasing need for automated methods to categorize websites. This study examines an array of prediction tasks, including website categorization, web navigation prediction, malicious website detection, fake news website detection, phishing website detection, and evaluation of website aesthetics.
PL
Ten artykuł naukowy przeprowadza analizę różnorodnych metod modelowania stosowanych do prognozowania aspektów witryn internetowych, zapewniając przegląd tej dynamicznie rozwijającej się dziedziny. Podczas gdy Internet nieustannie się powiększa, nabiera wagi potrzeba stosowania automatycznych metod do klasyfikacji nowo powstających stron internetowych. Zbadano metody zastosowane w szerokim zakresie przewidywań, obejmujących kategoryzację witryn internetowych, prognozowanie zachowań nawigacyjnych użytkowników online, identyfikację stron o złośliwym charakterze, wykrywanie fałszywych informacji, rozpoznawanie prób phishingu oraz ocenę estetycznych aspektów witryn internetowych.
3
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
The article concerns the well-known RIONA algorithm. We focus on the explainability property of this algorithm. The theoretical results, formulated and proved in the paper, show the relationships of the RIONA classifiers to both instance- and rule-based classifiers. In particular, we show the equivalence (relative to the classification) of the RIONA algorithm with the rule-based algorithm generating all consistent and maximally general rules from the neighbourhood of the test case. Consequently, the RIONA classifier can be represented by a rule-based classifier, with rules easily interpretable by humans. These theoretical results provide the explainability of the classifiers generated by RIONA and could be used in situations when an explanation or justification of the derived decision is important. It should be noted that the RIONA algorithm requires analysing only a small number of objects and rules contrary to algorithms based on the generation of huge sets of rules.
LiDAR technology has been widely adopted as a proper method for land cover classification. Recently with the development of technology, LiDAR systems can now capture high-resolution multispectral bands images with high-density LiDAR point cloud simultaneously. Therefore, it opens new opportunities for more precise automatic land-use classification methods by utilizing LiDAR data. This article introduces a combining technique of point cloud classification algorithms. The algorithms include ground detection, building detection, and close point classification - the classification is based on point clouds’ attributes. The main attributes are heigh, intensity, and NDVI index calculated from 4 bands of colors extracted from multispectral images for each point. Data of the Leica City Mapper LiDAR system in an area of 80 ha in Quang Xuong town, Thanh Hoa province, Vietnam was used to deploy the classification. The data is classified into eight different types of land use consist of asphalt road, other ground, low vegetation, medium vegetation, high vegetation, building, water, and other objects. The classification workflow was implemented in the TerraSolid suite, with the result of the automation process came out with 97% overall accuracy of classification points. The classified point cloud is used in a workflow to create a 3D city model LoD2 (Level of Detail) afterward.
Imbalanced data classification is one of the most widespread challenges in contemporary pattern recognition. Varying levels of imbalance may be observed in most real datasets, affecting the performance of classification algorithms. Particularly, high levels of imbalance make serious difficulties, often requiring the use of specially designed methods. In such cases the most important issue is often to properly detect minority examples, but at the same time the performance on the majority class cannot be neglected. In this paper we describe a novel resampling technique focused on proper detection of minority examples in a two-class imbalanced data task. The proposed method combines cleaning the decision border around minority objects with guided synthetic oversampling. Results of the conducted experimental study indicate that the proposed algorithm usually outperforms the conventional oversampling approaches, especially when the detection of minority examples is considered.
Data mining is the upcoming research area to solve various problems. Classification and finding association are two main steps in the field of data mining. In this paper, we use three classification algorithms: J48 (an open source Java implementation of C4.5 algorithm), Multilayer Perceptron - MLP (a modification of the standard linear perceptron) and Naïve Bayes (based on Bayes rule and a set of conditional independence assumptions) of the Weka interface. These classifiers have been used to choose the best algorithm based on the conditions of the voice disorders database. To find association rules over transactional medical database first we use apriori algorithm for frequent item set mining. These two initial steps of analysis will help to create the medical knowledgebase. The ultimate goal is to build a model, which can improve the way to read and interpret the existing data in medical database and future data as well.
Decisions regarding appropriate methods for the heat treatment of bronzes affect the final properties obtained in these materials. This study gives an example of the construction of a knowledge base with application of the rough set theory. Using relevant inference mechanisms, knowledge stored in the rule-based database allows the selection of appropriate heat treatment parameters to achieve the required properties of bronze. The paper presents the methodology and the results of exploratory research. It also discloses the methodology used in the creation of a knowledge base.
PL
Decyzje dotyczące odpowiedniej metody obróbki cieplnej brązów mają wpływ na uzyskanie końcowych własności tych materiałów. W pracy przedstawiono przykład budowy bazy wiedzy z zastosowaniem teorii zbiorów przybliżonych. Wiedza zgromadzona w bazie reguł umożliwia za pomocą mechanizmów wnioskowania dobór odpowiednich parametrów obróbki w celu uzyskania pożądanych własności brązu.
Prognozy obliczane przez klasyczne algorytmy wygładzania wykładniczego zależą od przyjętych współczynników (wygładzania wartości α i wygładzania trendu β). Przyjmowane wartości tych współczynników są zazwyczaj inne dla różnych analizowanych danych i często zależą od intuicji i doświadczenia osoby eksplorującej dane. W pracy proponujemy opartą o ideę entropii heurystykę automatycznego obliczania współczynnika α przez powiązanie go z entropią błędu prognozy ostatnich n prognoz. Uważamy, że ta entropia może być przyjęta jako miara systematyczności zachowania się błędu prognozy. Zmodyfikowane wersje algorytmów wygładzania wykładniczego zostały wstępnie przetestowane na 120-stu danych. W przypadku różnych modyfikacji algorytmu podwójnego wygładzania dostajemy na danych testowych nieznacznie lepszy błąd średnio-kwadratowy prognozy (rzędu 5%-8%) i nieznacznie lepszą systematyczność zachowania się błędu prognozy. Mierzona proponowanym sposobem systematyczność błędu prognozy jest wyraźnie lepsza niż w różnych wersjach algorytmów średnich ruchomych. Uważamy, że uzyskane wyniki wstępnego eksperymentu pokazują, że idea zasługuje na dalsze poważniejsze eksperymenty, np. na szeregach czasowych próbek czasu podróży pakietu TCP w połączeniu TCP. Prezentowana idea dynamicznego obliczania współczynnika wygładzania pozwala zaproponować pewną modyfikację algorytmu klasycznej specyfikacji TCP obliczania czasu oczekiwania na potwierdzenie (ang. Retransmission Time Out).
EN
Some of the classic algorithms computing forecasts depend on accepted smoothing factors (value smoothing factor α and trend smoothing factor β). Usually, accepted values of these factors are different for different analyzed data. It happens quite often that they depend on intuition and experience of data explorer. We propose a heuristics of dynamic computation of the factor α based on entropy of some recent forecast’s errors. We think that this entropy can be used as a measure of error stability. The modified versions of algorithms have been tested on the 120 element data set. Several modifications of classic algorithms give considerably better mean forecast error (order of magnitude 5%-8%) compared with the classic versions of algorithms. The forecast error stability is clearly better than for moving mean classic algorithms. We propose also the modification of the classic TCP protocol algorithm for computing retransmission time out. The modification is based on the introduced here idea of using forecasts’ error entropy.
9
Dostęp do pełnego tekstu na zewnętrznej witrynie WWW
Development of a diagnostic decision support system using different then divalent logical formalism, in particular fuzzy logic, allows the inference from the facts presented not as explicit numbers, but described by linguistic variables such as the "high level", "low temperature", "too much content", etc. Thanks to this, process of inference resembles human manner in actual conditions of decision-making processes. Knowledge of experts allows him to discover the functions describing the relationship between the classification of a set of objects and their characteristics, on the basis of which it is possible to create a decision-making rules for classifying new objects of unknown classification so far. This process can be automated. Experimental studies conducted on copper alloys provide large amounts of data. Processing of these data can be greatly accelerated by the classification trees algorithms which provides classes that can be used in fuzzy inference model. Fuzzy logic also provides the flexibility of allocating to classes on the basis of membership functions (which is similar to events in real-world conditions). Decision-making in foundry operations often requires reliance on knowledge incomplete and ambiguous, hence that the conclusions from the data and facts may be "to some extent" true, and the technologist has to determine what level of confidence is acceptable, although the degree of accuracy for specific criteria is defined by membership function, which takes values from interval <0,1>. This paper describes the methodology and the process of developing fuzzy logic-based models of decision making based on preprocessed data with classification trees, where the needs of the diverse characteristics of copper alloys processing are the scope. Algorithms for automatic classification of the materials research work of copper alloys are clearly the nature of the innovative and promising hope for practical applications in this area.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.