Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 4

Liczba wyników na stronie
first rewind previous Strona / 1 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  data mining algorithms
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 1 next fast forward last
EN
Raw data processing is a key business operation. Business-specific rules determine howthe raw data should be transformed into business-required formats. When source datacontinuously changes its formats and has keying errors and invalid data, then the effectiveness of the data transformation is a big challenge. The conventional data extraction andtransformation technique produces a delay in handling such data because of continuousfluctuations in data formats and requires continuous development of a business rule engine.The best business rule engines require near real-time detection of business rule and datatransformation mechanisms utilizing machine learning classification models. Since data iscombined from numerous sources and older systems, it is challenging to categorize andcluster the data and apply suitable business rules to turn raw data into the business-required format. This paper proposes a methodology for designing ensemble machine learning techniques and approaches for classifying and segmenting registered numbersof registered title records to choose the most suitable business rule that can convert theregistered number into the format the business expects, allowing businesses to provide customers with the most recent data in less time. This study evaluates the suggested modelby gathering sample data and analyzing classification machine learning (ML) models todetermine the relevant business rule. Experimentation employed Python, R, SQL storedprocedures, Impala scripts, and Datameer tools.
EN
Students' dropout is certainly one of the major problems that afflict educational institutions, the losses caused by the student's abandonment are social, academic and economic waste. The quest for its causes has been subject of work and educational research around the world. Several organizations seek strategic decisions to control the dropout rate. This work's goal is to evaluate the effectiveness of the most used data mining algorithms in the education area. An "in vivo'' controlled experiment was planned and performed to compare the efficacy selected classifiers. The Random Forest and SVM algorithms have stood out in this context, having, statistically similar accuracy (80.36%, 81.18%), precision (80.79%, 80.25%), recall (76.50%, 77.51%) and f-measure (78.86%, 78.81%) averages. The results showed evidence of significant differences between the algorithms, and also showed that, although the SVM had the best metric of accuracy and recall, it results were statistically similar with Random Forest results.
PL
Systemy elektrycznych pomp głębinowych (ESP) wykorzystują jedną z metod sztucznego podnoszenia ropy naftowej, udoskonalającą proces produkcji w rezerwuarze. W artykule przeprowadzona jest statystyczna i eksploracyjna analiza czasu życia systemów ESP. W tym celu zastosowano estymator Kaplan-Meier oraz różne algorytmy eksploracji danych.
EN
Electrical submersible pump (ESP) systems are one of the more commonly used artificial lift methods that improve oil production from the well. This review of the literature describes survival analysis of ESP systems using statistical and data mining methodologies. Statistical analysis is based on the Kaplan-Meier estimator, while data mining utilizes a few traditional data mining algorithms.
PL
W artykule zaprezentowano wyniki uzyskane z prób zastosowania dwóch algorytmów eksploracji danych pochodzących z obserwacji stanu chemicznego gleb w otoczeniu źródeł niezorganizowanej emisji metali ciężkich. Klasyfikacje standardów koncentracji zanieczyszczeń gleb wykonane przy udziale sieci FSM (Feature Space Mapping) oraz komitetów klasyfikatorów (w tym przypadku były to: FSM+IncNet+drzewa decyzyjne i komitet sieci FSM złożony z egzemplarzy różniących się funkcją transferu) wykazały znaczącą przewagę pojedynczego klasyfikatora FSM. Dodatkowo posiada on możliwość wyekstrahowania z bazy danych reguł klasyfikacji, które później jako makroinstrukcje mogą stać się nieodzownym elementem cyfrowych map glebowych i aktywnie uczestniczyć w budowie systemu informacji o przestrzeni. W obydwu przypadkach głównym ograniczeniem, a tym samym efektywnością zastosowania algorytmów była szczupłość danych użytych w analizie. To zdecydowało o użyciu metody walidacji krzyżowej podczas tworzenia modelu klasyfikacyjnego i tym samym narzuciło ostrożne traktowanie nawet bardzo optymistycznych wyników uzyskanych takim modelem.
EN
The paper presents the results of application two data mining coming from the chemical soils state observations, within the unorganized heavy metals emission. Soil pollution concentration standards classification with the use FSM networks, and also classifications committees (in this case: FSM + IncNet + decision trees, and FSM networks Committee which consists of elements differing by transfer function) show a considerable predominance of single FSM classifier. Additionally it has the possibility to extract the classification rules from the data basis which might be in future applied as macroinstruction for preparing the soil digital maps, and actively participate in SIP construction. In both cases the main restriction and also the algorithm application effectivity was a very little amount of data used in the analyses. This brought to the decision of using the cross validation method, during creating the classification model, and thereby imposes to treat very carefully, even very optimistic results obtained by this model.
first rewind previous Strona / 1 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.