Uczenie wielowarstwowych szerokich sieci neuronowych z funkcjami aktywacji typu ReLu w zadaniach klasyfikacji

Płaczek, S.; Płaczek, A.

doi:10.21008/j.1897-0737.2018.96.0004

Artykuł - szczegóły

Tytuł artykułu

Uczenie wielowarstwowych szerokich sieci neuronowych z funkcjami aktywacji typu ReLu w zadaniach klasyfikacji

Autorzy

Płaczek S. , Płaczek A.

Treść / Zawartość

Pełne teksty:

Pobierz

Identyfikatory

DOI

10.21008/j.1897-0737.2018.96.0004

Warianty tytułu

Teaching multilayer wide neural networks with ReLU activation function in the classification tasks

Konferencja

Computer Applications in Electrical Engineering (23-24.04.2018 ; Poznań, Polska)

Języki publikacji

Abstrakty

W artykule przedstawiono obecnie nowy kierunek rozwoju Sztucznych Sieci Neuronowych w zadaniach aproksymacji i klasyfikacji. W praktyce stosowano sieci o jednej, maksimum dwóch warstwach ukrytych oraz funkcjach aktywacji typu sigmoid lub tanh. Funkcje te charakteryzują się małą zmiennością wartości dla większych wartości zmiennej wejściowej (występują obszary nasycenia) . Konsekwencją tego jest bardzo mała wartość pochodnej funkcji celu, która jest obliczana w algorytmie uczenia typu wstecznej propagacji błędu. W warstwach oddalonych od wyjścia sieci, algorytm operuje wartościami małymi, bliskimi zero, co powoduje, że algorytm jest bardzo wolno zbieżny. W sieciach o wielu warstwach ukrytych (10-15, a nawet więcej), stosuje się odcinkowe funkcje aktywacji pomimo ich formalno – matematycznych niedoskonałości. Stosując metody numeryczne w obliczeniu pochodnej, można ten problem rozwiązać, a tym samych poprawnie obliczyć pochodną funkcji aktywacji. Powyższe pozwala na obliczenie gradientu funkcji celu dla warstw głębokich uzyskując jednocześnie zadawalającą szybkość zbieżności.

In the article, a new way of artificial neural network development in the classification task is introduced. In the past, neural networks with two or maximum three hidden layers were used. The sigmoid or tanh activation functions were implemented as well. These functions have very interesting properties that are very useful in the learning algorithms. Unfortunately, they have a saturation area for the small and big argument’s value. As a consequence, if the derivatives are calculated in every hidden layer, they values are very small, near zero. It has a very negative impact on the property of the learning algorithm. In this area, an algorithm is working very slowly. Two factors now have big impact on the neural network development: big databases and power microprocessors. Therefore, a deep neural network with many hidden layers could be used in practice tasks. To improve the gradient calculation a new activation function, ReLU, is used. In the article, the properties of these neural networks are studied. It is the first step to building more powerful networks that are known as Convolutional Neural Networks.

Słowa kluczowe

sieci neuronowe algorytmy uczenia uczenie głębokie sieci szerokie

Wydawca

Wydawnictwo Politechniki Poznańskiej

Czasopismo

Poznan University of Technology Academic Journals. Electrical Engineering

Rocznik

2018

Tom

No. 96

Strony

47--58

Opis fizyczny

Bibliogr. 6 poz., rys.

Twórcy

autor

Płaczek S.

Wyższa Szkoła Handlowa Wrocław

autor

Płaczek A.

Politechnika Śląska, Wydział Automatyki, Elektroniki i Informatyki, WASKO S.A. Gliwice

Bibliografia

[1] Quoc V. Le, Part 1: Nonlinear Classifiers and The Backpropagation Algorithm, Google Brain, Google Inc, CA 94043 2015.
[2] Jianxin Wu, Introduction to Convolution Neural Networks, Nanjing University, China 2017.
[3] http://cs231n. github.io/optimization-1.
[4] Ian Goodfellow, Yoshua Bengio, Aaron Courvile. Deep Learning, 2016
[5] Sebastian Raschka, Python Machine Learning.
[6] S. Kevin Zhou, Hayit Greenspan, Dinggang Shen, Deep Learning for Medical Image Analysis, 2016.

Uwagi

Opracowanie rekordu w ramach umowy 509/P-DUN/2018 ze środków MNiSW przeznaczonych na działalność upowszechniającą naukę (2018).

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-28c8a1ed-2100-4bca-8ead-a61163414d77