Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników

Znaleziono wyników: 21

Liczba wyników na stronie
first rewind previous Strona / 2 next fast forward last
Wyniki wyszukiwania
Wyszukiwano:
w słowach kluczowych:  uczenie ze wzmocnieniem
help Sortuj według:

help Ogranicz wyniki do:
first rewind previous Strona / 2 next fast forward last
EN
During a global health crisis, a country’s borders are a weak point through which carriers from countries with high morbidity rates can enter, endangering the health of the local community and undermining the authorities’ efforts to prevent the spread of the pathogen. Therefore, most countries have adopted some level of border closure policies as one of the first steps in handling pandemics. However, this step involves a significant economic loss, especially for countries that rely on tourism as a source of income. We developed a pioneering model to help decision-makers determine the optimal border closure policies during a health crisis that minimize the magnitude of the outbreak and maximize the revenue of the tourism industry. This approach is based on a hybrid mathematical model that consists of an epidemiological sub-model with tourism and a pandemic-focused economic sub-model, which relies on elements from the field of artificial intelligence to provide policymakers with a data-driven model for a border closure strategy for tourism during a global pandemic.
PL
Niniejszy artykuł przedstawia sposób adaptacji szybkości transmisji danych do warunków panujących w sieci z użyciem uczenia maszynowego. Zaproponowane rozwiązanie rozszerza działanie istniejącego algorytmu dla przypadku, kiedy stacja odbiorcza znajduje się poza zasięgiem stacji nadawczej. Wartości przepustowości uzyskiwane z użyciem zaproponowanego rozwiązania są porównywalne z wynikami uzyskiwanymi dla tradycyjnych algorytmów Minstrel i CARA.
EN
This paper describes how to adapt data transmission rates to the varying network conditions using machine learning. The proposed algorithm is based on an earlier state-of-the-art solution and extends its operation for the case when the receiver is outside the range of the transmitter. The throughput values obtained with the use of the proposed algorithm are comparable to the results obtained with the traditional Minstrel and CARA algorithms.
PL
Dynamiczne wygaszanie punktów transmisyjnych to jedna z technik skoordynowanej transmisji z wielu punktów transmisyjnych, w której niektóre stacje bazowe mogą być tymczasowo wyciszone, np. w celu poprawy przepustowości użytkowników na obrzeżach komórki. W niniejszym artykule zaproponowano wykorzystanie głębokiego uczenia ze wzmocnieniem do wyboru schematu wygaszania, który zwiększa przepływność użytkowników znajdujących się na skraju komórki. Zaproponowany algorytm wykorzystuje sieć neuronową do wyboru schematu wygaszania na podstawie lokalizacji użytkowników. Badania symulacyjne wykazały, że dzięki zaproponowanemu rozwiązaniu przepływność użytkownika na krawędzi komórki możne wzrosnąć około 14,14 razy.
EN
Dynamic Point Blanking (DPB) is one of the Coordinated MultiPoint (CoMP) techniques, where some Base Stations (BSs) can be temporarily muted, e.g., to improve the cell-edge users throughput. In this paper, it is proposed to obtain the muting pattern that improves cell-edge users throughput with the use of Deep Reinforcement Learning technique. The proposed algorithm utilizes deep neural network to select muting pattern on the basis of user locations. Simulation studies have shown that cell-edge user throughput can be improved by the ratio of about 14.14, while using the proposed algorithm.
PL
W pracy zaproponowano algorytm automatycznego doboru kąta pochylenia anten stosowanych w systemach komórkowych oraz oceniono jego działanie. Wypracowano sposób doboru pochylenia anten z uwzględnieniem stanu środowiska, pokrycia sygnałem radiowym, pojemności sieci oraz interferencji międzykomórkowych. Zebrane wyniki pozwoliły na oszacowanie istotności ustawienia pochylenia anten, aby zapewnić odpowiednią jakość usług.
EN
The purpose of this thesis is to propose an algorithm for the automatic antenna tilt selection in cellular networks and evaluation of its performance. A method of adjusting the antenna inclination angle was developed, taking into account the state of the environment, coverage, system capacity, and inter-cell interference. Collected results allowed for conducting the importance of the proper setting of the antenna inclination angle to ensure appropriate quality of service.
EN
This paper presents an overview of four selected solutions addressing problem of bidding in card game of contract bridge. In the beginning the basic rules are presented along with basic problem size estimation. Brief description of collected work is presented in chronological order, tracking evolution of approaches to the problem. While presenting solution a short description of mathematical base is attached. In the end a comparison of solution is made, followed by an attempt to estimate future development of techniques.
PL
Artykuł przedstawia cztery wybrane podejścia do rozgrywania licytacji w brydżu. W części pierwszej przybliżane są zasady brydża, stanu wiedzy na jego temat oraz krótkie oszacowanie poziomu komplikacji problemu. W części zasadniczej przedstawiono krótkie opisy podejść badaczy do problemu licytacji, badania przedstawione są w kolejności chronologicznej, ukazując ewolucję podejść do problemu. W trakcie opisywania rozwiązań, przybliżane są po krótce matematyczne zasady działania wykorzystanych mechanizmów uczenia maszynowego. Część końcowa podsumowuje przedstawione porównanie rozwiązań i oszacowanie kierunku przyszłego rozwoju.
PL
Algorytmy uczenia ze wzmocnieniem zyskują coraz większą popularność, a ich rozwój jest możliwy dzięki istnieniu narzędzi umożliwiających ich badanie. Niniejszy artykuł dotyczy możliwości zastosowania algorytmów uczenia maszynowego na platformie Unity wykorzystującej bibliotekę Unity ML-Agents Toolkit. Celem badania było porównanie dwóch algorytmów: Proximal Policy Optimization oraz Soft Actor-Critic. Zweryfikowano również możliwość poprawy wyników uczenia poprzez łączenie tych algorytmów z metodą uczenia przez naśladowanie Generative Adversarial Imitation Learning. Wyniki badania wykazały, że algorytm PPO może sprawdzić się lepiej w nieskomplikowanych środowiskach o nienatychmiastowym charakterze nagród, zaś dodatkowe zastosowanie GAIL może wpłynąć na poprawę skuteczności uczenia.
EN
Reinforcement learning algorithms are gaining popularity, and their advancement is made possible by the presence of tools to evaluate them. This paper concerns the applicability of machine learning algorithms on the Unity platform using the Unity ML-Agents Toolkit library. The purpose of the study was to compare two algorithms: Proximal Policy Optimization and Soft Actor-Critic. The possibility of improving the learning results by combining these algorithms with Generative Adversarial Imitation Learning was also verified. The results of the study showed that the PPO algorithm can perform better in uncomplicated environments with non-immediate rewards, while the additional use of GAIL can improve learning performance.
PL
Sieci 5G zapewniają wzrost efektywności widmowej m.in. poprzez heterogeniczną strukturę oraz wykorzystanie dużych macierzy antenowych. Te technologie wymagają użycia dużej liczby układów elektronicznych, co zwiększa zużycie energii. W pracy zaprezentowano algorytm tzw. uczenia ze wzmocnieniem, który używa mapy usług radiowych w celu wyboru zestawu aktywnych stacji bazowych poprawiając efektywność energetyczną (EE) sieci. Algorytm porównano z metodą konwencjonalną w symulatorze systemu 5G używając metody śledzenia promieni do generacji współczynników kanału radiowego.
EN
The 5G networks increase spectral efficiency by using, e.g., heterogenous structure and large antenna arrays. These require more hardware to be used, increasing energy consumption. This paper proposes a reinforcement learning-based algorithm utilizing radio service maps for optimization of the active base station set that increases energy efficiency. The proposed algorithm and a conventional solution are evaluated using a 5G network simulator. The 3D ray tracing technology is utilized to generate radio channel coefficients.
EN
Reinforcement learning (RL) constitutes an effective method of controlling dynamic systems without prior knowledge. One of the most important and difficult problems in RL is the improvement of data efficiency. Probabilistic inference for learning control (PILCO) is a state-of-the-art data-efficient framework that uses a Gaussian process to model dynamic systems. However, it only focuses on optimizing cumulative rewards and does not consider the accuracy of a dynamic model, which is an important factor for controller learning. To further improve the data efficiency of PILCO, we propose its active exploration version (AEPILCO) that utilizes information entropy to describe samples. In the policy evaluation stage, we incorporate an information entropy criterion into long-term sample prediction. Through the informative policy evaluation function, our algorithm obtains informative policy parameters in the policy improvement stage. Using the policy parameters in the actual execution produces an informative sample set; this is helpful in learning an accurate dynamic model. Thus, the AEPILCOalgorithm improves data efficiency by learning an accurate dynamic model by actively selecting informative samples based on the information entropy criterion. We demonstrate the validity and efficiency of the proposed algorithm for several challenging controller problems involving a cart pole, a pendubot, a double pendulum, and a cart double pendulum. The AEPILCO algorithm can learn a controller using fewer trials compared to PILCO. This is verified through theoretical analysis and experimental results.
PL
W artykule została przedstawiona koncepcja wykorzystania metody uczenia ze wzmocnieniem w sieciach SDN, w kontekście ochrony przed atakami odmowy usługi. Ponadto została przedstawiona metodyka realizacji testowania zaproponowanego systemu bezpieczeństwa. Artykuł zawiera również analizę wyników, zebranych przy wykorzystaniu opracowanego emulatora modułu uczącego.
EN
The article presents the concept of using reinforced learning methods in SDN networks in the context of protection against denial of service attacks. Also, the methodology for testing the proposed security system has been presented. The article also contains an analysis of the results collected using the developed emulator of the learning module.
PL
Artykuł opisuje użycie bazy danych PostgreSQL do przechowywania danych z procesu uczenia ze wzmocnieniem agenta koordynującego działanie innych agentów. Ponieważ agent koordynujący działania innych agentów powinien mieć dostęp do iloczynu kartezjańskiego akcji dla wszystkich koordynowanych agentów, liczba wszystkich akcji rośnie wykładniczo. Dlatego też należy rozważyć użycie bazy danych jako kontenera na dane dotyczące procesu uczenia.
EN
Article describes application of PostgreSQL database for storing learning process data. We consider reinforcement learning of the agent coordinating the other agents’ learning process. As the coordinator should have access to Cartesian product of particular agents’ actions, the size of the data grows exponentially. Thus the application of the database as the container for the learning process data is worth of consideration.
EN
The aim of the presented research was to prove the feasibility of the fuzzy modeling employing in combination with the reinforcement learning, in the process of designing an artificial intelligence that effectively controls the behavior of agents in the RTS-type computer game. It was achieved by implementing a testing environment for “StarCraft”, a widely popular RTS game. The testing environment was focused on a single test-scenario, which was used to explore the behavior of the fuzzy logic-based AI. The fuzzy model’s parameters were adjustable, and a Q-learning algorithm was applied to perform such adjustments in each learning cycle.
PL
W artykule przedstawiono badania możliwości połączenia modelowania rozmytego z uczeniem ze wzmocnieniem w procesie projektowania inteligentnego algorytmu, który będzie efektywnie kontrolował zachowanie agentów w grze typu RTS. Aby osiągnąć założony cel, zaimplementowano testowe środowisko w popularnej grze RTS „StarCraft”. W środowisku tym realizowano jeden założony scenariusz gry, w którym badano zachowanie opracowanego algorytmu rozmytego. Parametry modelu rozmytego były modyfikowane za pomocą metody Q-learning.
EN
In this paper we propose a strategy learning model for autonomous agents based on classification. In the literature, the most commonly used learning method in agent-based systems is reinforcement learning. In our opinion, classification can be considered a good alternative. This type of supervised learning can be used to generate a classifier that allows the agent to choose an appropriate action for execution. Experimental results show that this model can be successfully applied for strategy generation even if rewards are delayed. We compare the efficiency of the proposed model and reinforcement learning using the farmer–pest domain and configurations of various complexity. In complex environments, supervised learning can improve the performance of agents much faster that reinforcement learning. If an appropriate knowledge representation is used, the learned knowledge may be analyzed by humans, which allows tracking the learning process.
13
Content available Epoch-incremental reinforcement learning algorithms
EN
In this article, a new class of the epoch-incremental reinforcement learning algorithm is proposed. In the incremental mode, the fundamental TD(0) or TD(λ) algorithm is performed and an environment model is created. In the epoch mode, on the basis of the environment model, the distances of past-active states to the terminal state are computed. These distances and the reinforcement terminal state signal are used to improve the agent policy.
EN
The paper presents application of the reinforcement learning to autonomous mobile robot moving learning in an unknown, stationary environment. The robot movement policy was represented by a probabilistic RBF neural network. As the learning process was very slow or even impossible for complicated environments, there are presented some improvements, which were found out to be very effective in most cases.
PL
W artykule zaprezentowane jest zastosowanie uczenia ze wzmocnieniem w poszukiwaniu strategii ruchu autonomicznego robota mobilnego w nieznanym, stacjonarnym środowisku. Zadaniem robota jest dotarcie do zadanego i znanego mu punktu docelowego jak najkrótszą drogą i bez kolizji z przeszkodami. Stan robota określa jego położenie w stałym (związanym ze środowiskiem) układzie współrzędnych, natomiast akcja wyznaczana jest jako zadany kierunek ruchu. Strategia robota zdefiniowana jest pośrednio za pomocą funkcji wartości, którą reprezentuje sztuczna sieć neuronowa typu RBF. Sieci tego typu są łatwe w uczeniu, a dodatkowo ich parametry umożliwiają wygodną interpretację realizowanego odwzorowania. Ponieważ w ogólnym przypadku uczenie robota jest bardzo trudne, a w skomplikowanych środowiskach praktycznie niemożliwe, stąd w artykule zaprezentowanych jest kilka propozycji jego usprawnienia. Opisane są eksperymenty: z wykorzystaniem ujemnych wzmocnień generowanych przez przeszkody, z zastosowaniem heurystycznych sposobów podpowiadania robotowi właściwych zachowań w "trudnych" sytuacjach oraz z wykorzystaniem uczenia stopniowego. Badania wykazały, że najlepsze efekty uczenia dało połączenie dwóch ostatnich technik.
15
Content available remote Approximate dynamic programming in robust tracking control of wheeled mobile robot
EN
In this work, a novel approach to designing an on-line tracking controller for a nonholonomic wheeled mobile robot (WMR) is presented. The controller consists of nonlinear neural feedback compensator, PD control law and supervisory element, which assure stability of the system. Neural network for feedback compensation is learned through approximate dynamic programming (ADP). To obtain stability in the learning phase and robustness in face of disturbances, an additional control signal derived from Lyapunov stability theorem based on the variable structure systems theory is provided. Verification of the proposed control algorithm was realized on a wheeled mobile robot Pioneer-2DX, and confirmed the assumed behavior of the control system.
PL
W pracy przedstawiono nowe ujęcie problematyki sterowania nadążnego mobilnym robotem dwukołowym. Algorytm bazuje na metodzie uczenia ze wzmocnieniem o strukturze aktor-krytyk i nie wymaga uczenia wstępnego, działa on-line bez znajomości modelu robota. Element generujący sterowania (aktor - ASE) oraz element generujący sygnał wewnętrznego wzmocnienia (krytyk - ACE) są zrealizowane w postaci sztucznej sieci neuronowej (SN). Prezentowany algorytm sterowania zweryfikowano na rzeczywistym obiekcie, dwukołowym robocie mobilnym Pioneer-2DX. Badania potwierdziły poprawność przyjętego rozwiązania.
EN
The paper presents an application of the reinforcement learning for a searching of an optimal policy in an exploration problem (also known as a Jeep problem). The continuous problem, in unrealistic so the main work was concentrated on the discrete Jeep problem. There is examined and described an influence of main learning parameters on the learning speed and there are presented some found exemplary policies for different problem conditions.
PL
W artykule opisano zastosowanie algorytmu uczenia ze wzmocnieniem metodą elementów ASE/ACE do uczenia następników reguł regulatora rozmytego Takagi-Sugeno. Poprawność proponowanych rozwiązań zweryfikowano symulacyjnie w sterowaniu układem wahadło odwrócone - wózek. Przeprowadzono również eksperymenty porównawcze z klasyczną siecią elementów ASE/ACE. Pokazano zalety i wady rozwiązania klasycznego i rozmytego.
EN
The adaptation of reinforcement learning algorithm with the use of ASE/ACE elements for rule consequence learning of the Takagi-Sugeno fuzzy logic controller is proposed. The solution is applied to control of the cart-pole system and tested by computer simulations. The original neuronlike elements ASE/ACE are simulated as well. Advantages and disadvantages of the both approaches (fuzzy and classical) are demonstrated.
18
Content available O doborze reguł sterowania dla regulatora rozmytego
PL
W pracy scharakteryzowano problem doboru reguł sterowania dla regulatora rozmytego. Omówiono metody pozyskiwania reguł za pomocą sieci neuronowej uczonej metodą z nauczycielem i ze wzmocnieniem. Przedstawiono zagadnienie badania stabilności i jakości zaprojektowanego układu. Omawiane problemy zilustrowano przykładowymi wynikami badań.
EN
In the paper the problem of collecting of control rules a fuzzy logic controller is characterised. Two methods of generating of rules using neural network are described: supervised learning and reinforcement learning. the problem of stability and quality analysis is presented. The considerations are illustrated by examples.
19
Content available Enhancements of Fuzzy Q-Learning algorithm
EN
Fuzzy Q-Learning algorithm combines reinforcement learning techniques with fuzzy modelling. It provides a flexible solution for automatic discovery of rules for fuzzy systems in the process of reinforcement learning. In this paper we propose several enhancements to the original algorithm to make it more performant and more suitable for problems with continuous-input continuous-output space. Presented improvements involve generalization of the set of possible rule conclusions. The aim is not only to automatically discover an appropriate rule-conclusions assignment, but also to automatically define the actual conclusions set given the all possible rules conclusions. To improve algorithm performance when dealing with environments with inertness, a special rule selection policy is proposed.
PL
Algorytm Fuzzy Q-Learning pozwala na automatyczny dobór reguł systemu rozmytego z użyciem technik uczenia ze wzmocnieniem. W niniejszym artykule zaproponowana została zmodyfikowana wersja oryginalnego algorytmu. Charakteryzuje się ona lepszą wydajnością działania w systemach z ciągłymi przestrzeniami wejść i wyjść. Algorytm rozszerzono o możliwość automatycznego tworzenia zbioru potencjalnych konkluzji reguł z podanego zbioru wszystkich możliwych konkluzji. Zaproponowano także nową procedurę wyboru reguł dla polepszenia prędkości działania w systemach z bezwładnością.
20
Content available remote Reinforcement learning algorithm based on psychological model of autonomous system
EN
In this paper we describe the mechanism of a learning system, which is based on psychological model of autonomous system. The control autonomous agent has recently been the subject of intense research. A variety of approaches from engineering and artificial intelligence have been used to study different aspects of robot control. Many of these efforts are aimed at the developing of simple intelligent behavior. The paper presents autonomous agent as mobile robot controllers based on conception of autonomous agent as a cybernetic model of an autonomous system. It is based on psychological and biological phenomena which may be observed in living organisms. Our autonomous system is characterized by robust and reliable self-adaptation to the characteristic of the environment without external supervision or control. In this paper we describe implementation of an autonomous system to control mobile robots and preliminary results of experiment.
PL
W pracy tej model autonomicznego agenta przedstawiono jako cybernetyczny model systemu autonomicznego. Model ten był wzorowany na zjawiskach psychicznych oraz biologicznych, które występują w żywych organizmach. W opisie systemu zostały wyodrębnione trzy podstawowe bloki funkcjonalne - korelator, homeostat, akumulator - wraz z dokładnym omówieniem ich funkcji. Na proces uczenia tego typu modelu istotny wpływ mają interakcje pomiędzy torem informacyjnym i torem energetycznym, co zostało pokazane w tej pracy. W tym artykule została przedstawiona i omówiona przykładowa realizacja systemu.
first rewind previous Strona / 2 next fast forward last
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.