Wyniki wyszukiwania - BazTech

1

Eksploracja danych w kontekście procesu Knowledge Discovery In Databases (KDD) i metodologii Cross-Industry Standard Process For Data Mining (CRISP-DM)

Mirończuk M., Maciak T.

Metody Informatyki Stosowanej

|

2009

|

nr 2 (19)

65-79

EN

Article aims at introducing for the readers few problems connected with KDD process, Data Mining project modeling with the use of CRlSP-DM The systemized knowledge, aproaches to and generic terms was presented in the article. In the first part article describes approach to Data Exploration as one of the KDD cycle, which is specialized Knowledge Discovery process. Then article takes the subject of CRlSP-DM method. The context of method usage depending on scale and integration of project, which they concern - ivestigate of useing text mining in Inteligent Decission Support System (IDSS) develop by informatic faculty of Fire Service. At the end of the article the summary was made, which contains common features between the two looks on the exploration and extracting knowledge from data bases.

2

Application of machine learning for prediction a methane concentration in a coal-mine

Sikora M., Sikora B.

Archives of Mining Sciences

|

2006

|

Vol. 51, no 4

475-492

EN

Applications of machine learning methods for creation rule-based data model used in prediction of a methane concentration in the excavation are described in the paper. Data coming from a methane concentration monitoring system and methodology of their transformation into a form acceptable by analytic algorithms that have been used are presented in the second chapter. Next chapter describes the rules induction algorithm used for prediction. Results of the analysis that has been performed on data coming from a coal-mine are presented at the end of the paper.

PL

W artykule przedstawiono pomysł zastosowania inteligentnych technik komputerowych do eksploracyjnej analizy danych pochodzących z systemu monitorowania zagrożeń związanych z wydzielaniem metanu w kopalniach węgla kamiennego. Celem stawianym zastosowanym metodom analitycznym jest predykcja stężenia metanu mierzonego przez wybrany metanomierz z wyprzedzeniem dziesięciominutowym i godzinnym. Spośród różnych metodologii generowania systemów umożliwiających predykcję (m.in. systemy rozmyte, sztuczne sieci neuronowe, metody statystyczne) w artykule wybrano algorytm indukcji reguł o konkluzjach w postaci funkcji liniowych. Przedstawiony algorytm charakteryzuje się jednym z najszybszych czasów analizy oraz dobrymi wynikami predykcji uzyskiwanymi na ogólnodostępnych danych benchmarkowych. Istotną cechą zastosowanego algorytmu jest również to, że wyniki analizy, a więc syntetyczny opis analizowanego zbioru danych jest stosunkowo łatwy do interpretacji przez użytkownika. Z punktu widzenia dziedziny znanej jako odkrywanie wiedzy, w bazach danych jest to bardzo istotna cecha. Dane poddane analizie pochodziły z wyrobiska znajdującego się na kopalni niezagrożonej tąpnięciami. Na rysunku pierwszym przedstawiono schemat rejonu, w którym znajduje się rozważane przez nas wyrobisko, widoczne jest tam również rozmieszczenie czujników. Graficzna analiza szeregów czasowych odzwierciedlających wskazania metanomierzy i anemometrów (rys. 2) wykazała, że największą dynamikę stężenia metanu obserwuje się na wylocie ze ściany. W badaniach podjęto zatem próbę predykcji wskazań metanomierza M32. Dane pomiarowe zbierane były z dziesięciosekundowym interwałem czasowym. Do celów badań dane poddano agregacji tworząc dwa zbiory danych, w których kolejne rekordy zawierały: maksymalne wartości mierzonych wartości w okresach jednominutowych (był to zbiór danych dla predykcji dziesięciominutowej), maksymalne wartości mierzonych wartości w okresach dziesięciominutowych (był to zbiór danych dla predykcji godzinowej). W celu umożliwienia zastosowania metod analitycznych wykorzystujących paradygmat maszynowego uczenia, dostępny zbiór danych należało poddać modyfikacjom. Dane pobrane z systemu monitorowania reprezentowane są przez zbiór rekordów, pomiędzy którymi istnieje związek temporalny, tymczasem zastosowany w artykule algorytm analizuje tabele, w których każdy wiersz jest niezależny. Zatem, informacja o stanie danego procesu w danej chwili czasu (w tym o dynamice zmian parametrów opisujących ten proces) musi być zawarta w jednym wierszu. W rozdziale drugi przedstawiono sposób, w jaki możliwe jest przejście z reprezentacji danych uzyskanych wprost z systemu monitorowania (Tab. l) do reprezentacji akceptowanej przez wykorzystany algorytm analityczny (Tab. 2). W rozdziale drugim wyspecyfikowano także zbiór zmiennych niezależnych: AN31 - wska7JInia anemometru AN31; AN32 - wskazania anemometru AN32; MM32 - wskazania metanomierza MM32; Wydobycie, DAN31 - suma wskazań AN31 za ostatnie dziesięć minut; DAN32 - suma wskazań AN32 za ostatnie dziesięć minut; DMM32 - suma wskazań MM32 za ostatnie dziesięć minut. Zmiennej zależnej nadano nazwę MM32_Pred. W rozdziale trzecim dokładnie opisano zastosowany algorytm analityczny, który umożliwia generowanie reguł o liniowych konkluzjach (I). Algorytm buduje regułę w taki sposób, aby część warunkowa reguły opisywała jak największa liczbę obiektów ze zbioru treningowego (2) przy jednoczesnym ograniczeniu wariancji zmiennej zależnej. Wielowymiarowy model liniowy pozwalający dla danej reguły wyznaczyć wartość zmiennej zależnej znajduje się w jej konkluzji. Algorytm jest heurystyczny i jako kryterium optymalności w czasie budowy reguły wykorzystuje wyrażenie (3). W rozdziale trzecim omówiono także metody optymalizacji (w tym upraszczania) otrzymanego regułowego modelu danych. Rozdział czwarty zawiera wyniki przeprowadzonych analiz. Analizę prowadzono na wydzielonych zbiorach danych, efektywność wyznaczonych modeli sprawdzono na niezależnych zbiorach testowych. Obiektywną miarą efektywności był błąd RMS (4) popełniany przez wyznaczone modele, jako miarę subiektywną przyjęto skomplikowanie (możliwość interpretacji przez użytkownika) wyznaczonego modelu. Metodę proponowaną w artykule porównano z metodami statystycznymi (regresja wielowymiarowa, ARIMA) oraz z metodą stochastyczną (sieci neuronowe). Wyniki eksperymentów dla predykcji dziesięciominutowej podano w tabeli trzeciej, wyniki dla predykcji godzinowej podano w tabeli czwartej. Wizualnie, rzeczywisty szereg czasowy stężenia metanu rejestrowanego przez metanomierz M32 oraz szereg przewidywany przez model pokazano na rysunkach trzecim i czwartym. Przeprowadzone badania wykazały, że zastosowana metoda pozwoliła na uzyskanie najmniejszego błędu predykcji przy jednoczesnym zachowaniu przejrzystości wyznaczonego modelu. Metoda charakteryzowała się również najkrótszym czasem analizy.

3

Uogólnione, samoorganizujące się sieci neuronowe w problemach tzw. odkrywania wiedzy w bazach danych

Gorzałczany M. B., Rudziński F.

Zeszyty Naukowe Politechniki Świętokrzyskiej. Elektryka

|

2005

|

Z. 42

181-195

PL

Niniejszy artykuł prezentuje oryginalne uogólnienie samoorganizujących się sieci neuronowych oraz ich zastosowanie w problemach tzw. odkrywania wiedzy (ang. knowledge discovery) w bazach danych. Systemy zdolne do syntetyzowania wiedzy z olbrzymiej i lawinowo narastającej ilości danych numerycznych zawartych w bazach danych odgrywają coraz ważniejszą rolę w zagadnieniach przetwarzania informacji i szeroko rozumianej informatyce. Proponowane uogólnienie samoorganizujących się sieci neuronowych pozwala na efektywne i automatyczne wykrywanie określonych wzorców w danych w ramach tzw. nienadzorowanego grupowania danych. Praktyczna użyteczność proponowanego rozwiązania została przetestowana z wykorzystaniem rzeczywistych, złożonych, wielowymiarowych danych zawartych w bazie 'House-votes-84' zawierającej wyniki głosowań członków Kongresu USA i dostępnej na serwerze FTP Uniwersytetu Kalifornijskiego w Irvine (ftp.ics.uci.edu).

EN

This paper presents an original generalization of self-organizing neural networks and their application to knowledge discovery problems. Systems able to synthesize the knowledge from huge and rapidly growing amounts of numerical data in databases play more and more important role in information-processing problems and computer science in general. The proposed generalization of the self-organizing neural networks enables us to effectively and automatically discover some patterns in data in the framework of unsupervised data clustering. Practical usefulness of the proposed solution has been tested with the use of real, complex and multidimensional data coming from 'House-votes-84' database containing voting records of USA Congress members. The database is accessible at FTP server of the University of California at Irvine (ftp.ics.uci.edu).

4

Wiedza uświadomiona i nieuświadomiona w kształtowaniu procedury diagnostycznej

Jagielski J., Skorupska I.

Pomiary Automatyka Kontrola

|

2005

|

R. 51, nr 9 bis

151--153

PL

W artykule przedstawiono podstawową procedurę diagnostyki technicznej. Scharakteryzowano wiedzę jaka może być wykorzystana do projektowania diagnostyki. Wprowadzono pojęcie wiedzy uświadomionej i wiedzy nieuświadomionej. Zaproponowano zintegrowane podejście do projektowania diagnostyki. Uwzględniono zastosowanie metod odkrywania wiedzy w bazach danych.

EN

In the article basic procedure of the technical diagnostics is presented. Knowledge which can be used to design of diagnostics is outlined. Notion of the conscious and unconscious knowledge is introduced. Integrated approach to the design of the diagnostics is proposed. Use of knowledge exploration methods in databases was took into account.

5

Projekcja i selekcja atrybutów w identyfikacji modeli dynamicznych metodami odkryć wiedzy w bazach danych

Wachla D.

Pomiary Automatyka Kontrola

|

2005

|

R. 51, nr 9 bis

142--144

PL

W artykule poruszono problem projekcji i selekcji atrybutów w bazach danych dla potrzeb budowy ilościowych modeli obiektów dynamicznych. Za pomocą operacji projekcji dokonywane jest przekształcenie atrybutów w wielowymiarową przestrzeń regresorów. Następnie, w przestrzeni regresorów wybierany jest zbiór atrybutów, które w sensie funkcyjnym najlepiej opisują zmienną zależną. Zmienna, zależną jest tu jeden lub kilka atrybutów, wcześniej wybranych z przestrzeni regresorów. Opisaną metodę zweryfikowano dla problemu określenia zbioru zmiennych niezależnych tworzących model przykładowego, nieliniowego systemu dynamicznego typu MISO. Przedstawiono przyjęte założenia, fragmenty uzyskanych wyników i wnioski z przeprowadzonych badań.

EN

In the article, the problem of the projection and selection of the attributes in the databases for the needs of building quantitative dynamics models has been looked into. By means of the projection operation, the transformation of the attributes into multidimensional space of regressors is carried out. Later on, in the rcgrcssors space such a set of attributes is chosen which, in a functional sense, best describes a dependent variable. The dependent variable constitutes one or few attributes previously picked up from the regressors space. The described method for the problem of defining a set of independent variables forming a model of exemplary nonlinear dynamic MISO-type system was verified. The assumptions, the fragments of procured results and the results of conducted research are presented.