Nowa wersja platformy, zawierająca wyłącznie zasoby pełnotekstowe, jest już dostępna.
Przejdź na https://bibliotekanauki.pl
Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 14

Liczba wyników na stronie
first rewind previous Strona / 1 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  ekstrakcja danych
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 1 next fast forward last
PL
Niniejszy artykuł jest piątym w cyklu publikacji prezentujących technologię Systemów Wspomagania Podejmowania Decyzji (Decision Support Systems - DSS). W pierwszym artykule przedstawiono pojęcia podstawowe, stosowane do architektury hurtowni danych oraz przetwarzania analitycznego, a w następnym kryteria wyboru narzędzi dla środowiska DSS oraz analizę porównawczą środowiska DSS i przetwarzania OLAP. Trzeci i czwarty artykuł prezentowały projekt modelu danych hurtowni. Obecnie zajmiemy się zagadnieniem ekstrakcji danych z systemów transakcyjnych do hurtowni danych.
PL
Prezentowany artykuł jest siódmym w cyklu publikacji prezentujących technologię Systemów Wspomagania Podejmowania Decyzji (Decision Support Systems - DSS). W pierwszym ar-tykule przedstawiono pojęcia podstawowe, stosowane architektury hurtowni danych oraz przetwarzania analitycznego, a w następnym kryteria wyboru narzędzi dla środowiska DSS oraz analizę porównawczą środowiska DSS i przetwarzania OLAP. Trzeci i czwarty artykuł prezentowały projekt modelu danych hurtowni. W piątym i szóstym przedstawiono zagadnie-nia ekstrakcji danych z systemów transakcyjnych do hurtowni danych. Obecny artykuł omawia niektóre aspekty stosowania uniwersalnych narzędzi ekstrakcji, transformacji i ładowania danych do hurtowni.
PL
W celu zoptymalizowania procesu ekstrakcji danych często projektuje się specjalizowaną, dostosowaną do wymagań konkretnego systemu hurtowni danych, własną aplikację ETL [10,15]. W pracy przedstawiono projekt i realizację graficznego środowiska rozwojowego ETL/JB do tworzenia aplikacji ETL. Prezentowane środowisko minimalizuje nakłady czasowe realizacji aplikacji ETL w stopniu wyższym niż w środowisku rozwojowym C++ [11, 13] lub ETL/JB [14].
EN
When optimizing data extraction it is common to create ETL [10, 15] application specialized and adjusted to a particular data warehouse system. In the following paper we present a project and realization of the ETL/JB S graphic development environment for creating ETL applications. Presented environment minimizes amount of time needed to create ETL application, in a higher degree then C++ [11, 13] or ETL/JB [14] development enyironment.
4
Content available On the predictive power of meta-features in OpenML
75%
EN
The demand for performing data analysis is steadily rising. As a consequence, people of different profiles (i.e., nonexperienced users) have started to analyze their data. However, this is challenging for them. A key step that poses difficulties and determines the success of the analysis is data mining (model/algorithm selection problem). Meta-learning is a technique used for assisting non-expert users in this step. The effectiveness of meta-learning is, however, largely dependent on the description/characterization of datasets (i.e., meta-features used for meta-learning). There is a need for improving the effectiveness of meta-learning by identifying and designing more predictive meta-features. In this work, we use a method from exploratory factor analysis to study the predictive power of different meta-features collected in OpenML, which is a collaborative machine learning platform that is designed to store and organize meta-data about datasets, data mining algorithms, models and their evaluations. We first use the method to extract latent features, which are abstract concepts that group together meta-features with common characteristics. Then, we study and visualize the relationship of the latent features with three different performance measures of four classification algorithms on hundreds of datasets available in OpenML, and we select the latent features with the highest predictive power. Finally, we use the selected latent features to perform meta-learning and we show that our method improves the meta-learning process. Furthermore, we design an easy to use application for retrieving different meta-data from OpenML as the biggest source of data in this domain.
PL
W artykule przedstawiono projekt aplikacji opracowanej w środowisku Matlab, umożliwiającej ekstrakcję danych liczbowych z wykresów słuchowych potencjałów wywołanych z zachowaniem wszelkich charakterystycznych cech przetwarzanej krzywej. Opracowany kod podzielony został na cztery zasadnicze moduły: moduł wczytania pliku graficznego zawierającego wykres słuchowego potencjału wywołanego, moduł wstępnego przetwarzania obrazu, moduł ekstrakcji danych oraz moduł skalowania.
EN
This article shows application project developed in Matlab, allowing data extraction form auditory evoked potential charts with keeping the characteristic features of processed curve. Designed Matlab script was divided into four fundamental modules: module for loading a graphic file containing a graph of auditory evoked potential, image preprocessing module, data extraction module and scaling module.
PL
Prezentowany artykuł jest szóstym w cyklu publikacji prezentujących technologię Systemów Wspomagania Podejmowania Decyzji (Decision Support Systems - DSS). W pierwszym artykule przedstawiono pojęcia podstawowe, stosowane architektury hurtowni danych oraz przetwarzania analitycznego, a w następnym kryteria wyboru narzędzi dla środowiska DSS oraz analizę porównawczą środowiska DSS i przetwarzania OLAP. Trzeci i czwarty artykuł prezentowały projekt modelu danych hurtowni. W piątym ogólnie zaprezentowano zagadnienia ekstrakcji danych z systemów transakcyjnych do hurtowni danych.
EN
During multi-agent systems development, testing and research, possibly voluminous logs are created at distributed agent locations. These logs describe individual agents’ behavior and state changes. To get the complete picture of the multi-agent system working, it is necessary to consolidate these logs and to store them in a format appropriate for diverse analyzes. Specific issues arise during consolidation if the log formats are not uniform. This paper presents an approach to consolidate logs in various formats into a single repository suitable for further analyzes.
PL
Podczas rozwijania, testowania i badania systemów wieloagentowych tworzone są obszerne logi w rozproszonych lokalizacjach, w których działają agenty. Logi opisują zachowania poszczególnych agentów oraz zmiany ich stanów. Żeby uzyskać kompletny obraz działania systemu wieloagentowego, konieczna jest konsolidacja tych logów do postaci przydatnej dla różnorodnych analiz. Niejednolity format logów różnych agentów tworzy specyficzne wyzwania. Artykuł opisuje podejście do konsolidacji logów w zmiennych formatach do postaci jednego repozytorium, przydatnego do prowadzenia dalszych analiz.
EN
The authors of this article highlight the need to integrate knowledge about the design process of products made from ADI contained in thematic publications. Integration and centralization of the results can be the basis for the planning and execution of subsequent experiments, covering areas previously unexplored. The integrated knowledge can also give rise to the production of new knowledge by discovering relationships and dependencies that are not visible in single experiments. Attempts were made to construct inference algorithms and systems based on artificial intelligence methods. This article presents the results of the use of artificial neural networks and one of the methods in the area of data mining called regression trees to develop models of the ADI manufacturing process.
9
Content available remote Integrating web site services into application through user interface
63%
EN
The issue of integrating applications which are only accessible through visual user interface is not thoroughly researched. Integration of web applications running remotely and controlled by separate organizations becomes even more complicated, as their user interface can display di ff erently in di ff erent browsers or change without prior notification as a result of application maintenance. While possible, it is generally not common for web sites to provide web services through standard mechanisms like SOAP, RPC, or REST, due to administrative, and especially security reasons. Programmatic use of the capabilities of numerous public sites which only provide web user interface to their services is very appealing, as they may significantly extend the functionality of other applications. This paper presents the research on employing existing software of various purpose to integrating web sites using their user interface. With selected method, some capabilities of Moodle are expanded by integrating remote Moodle server with local application, to create team-work support tools.
EN
Relational database systems became the predominant technology for storing, handling, and quering data only after great improvement in the efficiency of query evaluation in such systems. The key factor in this improvement was the introduction and development of a number of query optimization techniques. Query optimizers draw upon many sources of information about the database to optimize queries. Among these sources, they employ integrity constraints in the query rewrite process. These rewrites have been seen to offer tremendous cost improvements for certain types of queries in standard, common workloads and databases. A disadvantage of these techniques though is that the semantic characterizations they require are not always available as integrity constraints associated with the database. Our key objective in this work is to discover regularities in stored data using data mining techniques, and then to extract and use them for the purpose of query optimization. We call such regularities soft constraints. Soft constraints are not meant to protect the integrity of the database as do integrity constraints; but like integrity constraints, they do semantically characterize the database. As certain types of integrity constraints are now used in query optimization, soft constraints can be used in the optimizer in the same way. If there are any usefull characterizations of the database valid with respect to the current state of the database and useful for the optimizer with respect to the workload, but which are not truly integrity constraints (that is, the database designer has no reason to specify these as rules), then these could be expressed as soft constraints.
PL
Relacyjne bazy danych stały się dominująca technologią służącą przechowywaniu i przetwarzaniu danych dopiero wówczas, gdy znacząco usprawniono wykonywanie zapytań w takich systemach. Głównym czynnikiem postępu w tej dziedzinie było wprowadzenie i usprawnienie dużej liczby technik służących optymalizacji zapytań. Jedną z takich technik jest semantyczna optymalizacja zapytań. Polega ona na wykorzystaniu informacji semantycznej dostępnej w postaci ograniczeń integralnościowych. Główną przeszkodą, w drodze do pełnego wykorzystania możliwości zawartych w ograniczeniach w procesie optymalizacji jest problem braku ich specyfikacji w rzeczywistych bazach danych. W niniejszej pracy proponujemy zastosowanie w procesie optymalizacji nowego typu ograniczeń integralnościowych, tak zwanych miękkich ograniczeń integralnościowych. Ograniczeniami miękkimi nazywamy ograniczenia wykryte w rzeczywistych bazach danych przy użyciu technik eksploracji danych. Miękkie ograniczenia integralnościowe podobne są w swej formie do tradycyjnych ograniczeń integralnościowych, ale pełnią inną rolę. Nie specyfikują one formalnie legalnych stanów bazy danych i mogą zostać unieważnione przez kolejne operacje aktualizacji bazy danych. Główną ideą tej pracy jest teza, że tak zdefiniowane miękkie ograniczenia integralnościowe mogą być z powodzeniem wykorzystywane w procesie optymalizacji pytań.
11
63%
EN
The article presents overview and practical exploration of the data extraction scraping tool for internet web sites content. As the exemplary analytical data source author has chosen job market portals offering the advertisements of new vacancies. Outcome results can be used in further detailed analysis as the input data of the complex analytical systems based on the data exploration, displaying search results according to the chosen criteria. Extraction data tool let the user store output results and exchange the data with other systems through XML, XSL and CSV files. Web scraping mechanism built into the tool offers graphical, action-based, user interactive processes. Data extraction is based on the web macro recordings as well as data and pages patterns generation.
PL
W artykule przedstawiono możliwości praktycznego wykorzystania narzędzia do ekstrakcji zawartości stron internetowych w celu agregacji danych do dalszych analiz. Wskazano formaty wymiany danych: XML, XLS i CSV, dzięki którym pozyskane dane mogą stać się danymi wejściowymi złożonych systemów analitycznych. Dzięki wykorzystaniu technologii, takich jak eksploracja danych i ETL, systemy te mogą reorganizować dane, przeszukiwać je i w efekcie wyświetlać rezultaty analiz w formie raportów, wykresów i statystyk.
PL
Zasoby polskich bibliotek cyfrowych, udokumentowanych szesnastoletnią historią są zintegrowane na sieciowej platformie FBC (Federacja Bibliotek Cyfrowych). To umożliwia przeszukiwanie wszystkich zdigitalizowanych zbiorów tych instytucji za pomocą jednolitego interfejsu wyszukiwawczego. W FBC obecnie zarejestrowano około 120 bibliotek cyfrowych, a liczba obiektów sięga ponad 2 miliony. System digitalizacji obiektów charakteryzuje się dużym rozproszeniem i brakiem jednolitej polityki planowania. Autorzy wykorzystali metadane FBC do analizy dynamiki zmian zasobów cyfrowej wiedzy. W artykule przedstawiono charakterystyki czasowe rozwoju kolekcji cyfrowych w Polsce oraz zaproponowano nowy wskaźnik dynamiki zmian, oparty na wybranych polach w bazie danych FBC. Różnicę, czyli czas który upływa od powstania dzieła do jego publikacji w Internecie autorzy nazwali czasem uwolnienia zasobu (CUZ), który zbadali dla każdej z ponad stu bibliotek cyfrowych. Za pomocą wizualnej analizy histogramów dowiedziono, że rozkład CUZ nie jest przypadkowy, lecz wykazuje prawidłowości, wskazujące na wspólną politykę digitalizacji dla rozmaitych typów bibliotek cyfrowych. Zaproponowana metoda oparta na charakterystykach czasowych może pomóc w systematyce instytucji dygitalizujących, jak i w monitorowaniu dynamiki rozwoju zasobów cyfrowej wiedzy.
EN
Polish digital libraries having 16-years history integrate their resources on Web platform FBC (Federation of Digital Libraries). It allows users to retrieve relevant objects in digital collections by using uniform interface. The FBC currently provides to the more than 2 million objects from around 120 digital libraries. All system of digitization is distributed with the lack of uniform planning policy. The authors used FBC metadata to analyze the dynamics of changes of digital knowledge. The article presents timeline characteristics of digital collections growth as also proposed a new dynamics index, based on date fi elds in FBC database. The delay time was introduced as an interval between creation date of document and its later network publishing. Due to visual analysis the authors found that delay time shape on histograms is not random, but depends on the type of digital library. The proposed method can help in these institutions systematics as well as in monitoring the dynamics of digital knowledge growth.
13
Content available remote Algorytm wykrywania treści na stronach portali internetowych
51%
PL
W artykule przedstawiono podejście wykorzystane podczas projektowania i implementowania algorytmu automatycznego wykrywania treści na stronach portali internetowych oparte o analizę struktury kodu HTML strony WWW. Za treść strony uznano tekst artykułów wraz z jego nagłówkiem, z pominięciem innych tekstów występujących na stronie (menu, reklamy, komentarze, podpisy pod zdjęciami, itp.).
EN
The paper shows steps, made during designing and implementing automatic web pages contents recognition algorithm, based on HTML structure analysis. A web page contents is the article text with its headline, without any other text like menu, advertisements, user’s comments, image captions, etc.
PL
W artykule przedstawiono koncepcję metodyki akwizycji danych z urządzeń po-miarowych zainstalowanych w mobilnym laboratorium badawczym. Propozycja przewiduje ocenę aplikacyjności zastosowania technologii Usług Sieciowych (Web Services) w bezprzewodowej transmisji danych z pomiarów wag przy użyciu wagi Tru-Test 3000. Transmisja danych realizowana jest w oparciu o Usługi Sieciowe zbudowane na platformie Microsoft SharePointŽ. Identyfikacjaważonych zwierząt realizowana przy pomocy tagów RFID, zgodnych ze stosowanymi w Unii Europejskiej normami ISO 11784 oraz ISO 11785.Zebrane w ten sposób dane, poddane procesowi ich oczyszczania, kontroli ich jakości i wstępnej analizy pozwolą na dalsze ich przetwarzanie w celu pozyskania z nich wiedzy w procesie data miningu. Zastosowanie data miningu, pozwoli ocenić wpływ oraz istotność wybranych czynników produkcji wołowiny na te cechy mięsa, które są najbardziej znaczące z punktu widzenia konsumenta.
EN
This article presents the concepts of methods used for data acquisition in mobile laboratory equip-ment. The proposal includes feasibility study and evaluation of Web Services technology used for wireless data transmission in electronic animal weigh scale Tru-Test 3000. Data transmission is accomplished through the use of Web Services built on Microsoft SharePointŽ platform. The identificationof examined animals is accomplished by use of RFID tags, that conforms the European Union's standards ISO 11784 and ISO 11785.The acquired data, processed for data cleaning, quality control and preliminary analysis will en-able further processing in purpose of knowledge extraction in data mining process. The use of data mining will enable the evaluation of influenceand significanceof selected beef production factors on the traits that are most important for consumers.
first rewind previous Strona / 1 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.