Optymalizacja treningu i wnioskowania sieci neuronowych

Blok, Marek; Pietrołaj, Mariusz

doi:10.15199/59.2019.12.6

Artykuł - szczegóły

Tytuł artykułu

Optymalizacja treningu i wnioskowania sieci neuronowych

Autorzy

Blok Marek , Pietrołaj Mariusz

Identyfikatory

DOI

10.15199/59.2019.12.6

Warianty tytułu

Optimization of neural networks training and inference

Języki publikacji

Abstrakty

Sieci neuronowe sa jedną z najpopularniejszych i najszybciej rozwijających się dziedzin sztucznej inteligencji. Ich praktyczne wykorzystanie umożliwiło szersze użyciekomputerów w wielu obszarach komunikacji, przemysłu i transportu [1]. Dowody tego są widoczne w elektronice użytkowej, medycynie, a anawet w zastosowaniach militarnych [2]. Wykorzystanie sztucznej inteligencji w wielu przypadkach wymaga jednak znacznej mocy obliczeniowej, co stanowi problem zarówno przy opracowywaniu, jak i testowaniu nowo wdrażanych rozwiązań. Jednym z coraz szerzej badanych aspektówtego problemu jest ograniczenie dokładności obliczeń wykonywanych w ramach treningu oraz wnioskowania sieci neuronowych [3].

Neural networks are one of the most popular and fastest developing areas of artificial intelligence. Practical use of this technology enabledwidercomputer appliance in various fieldsof communication, industry and transportation [1]. Signs of such situation can be observed in developmentof modern electronicdevices, medicine andmilitary [2]. Most of the times, application of artificial intelligence requires significant computational power, which creates a problem when it comes to designing or testing of new projects. One of the major research areas related to this subject is focusedon limitingthe precision of mathematical operations required during training and inference of neural networks [3].

Słowa kluczowe

sieci neuronowe uczenie maszynowe sztuczna inteligencja optymalizacja

neural networks machine learning artificial intelligence optimization

Wydawca

Wydawnictwo SIGMA-NOT

Czasopismo

Przegląd Telekomunikacyjny + Wiadomości Telekomunikacyjne

Rocznik

2019

Tom

nr 12

Strony

824--828

Opis fizyczny

Bibliogr. 25 poz., rys.

Twórcy

autor

Blok Marek

Politechnika Gdańska, Wydział Elektroniki, Telekomunikacji i Informatyki, Katedra Sieci Teleinformacyjnych

autor

Pietrołaj Mariusz

mariusz.pietrolaj@eti.pg.edu.pl

Politechnika Gdańska, Wydział Elektroniki, Telekomunikacji i Informatyki, Katedra Sieci Teleinformacyjnych

Bibliografia

[1] Schmidhuber J. 2015. "Deep learning in neural networks: An overview". Neural networks, 61, 85-117.
[2] Liu W., Z. Wang, X. Liu, N. Zeng, Y. Liu, F. E. Alsaadi. 2017. "A survey of deep neural network architectures and their applications". Neurocomputing, 234, 11-26.
[3] De Sa C., M. Leszczynski, J. Zhang, A. Marzoev, C. R. Aberger, K. Olukotun, C. Ré. 2018. High-accuracy low-precision training. arXiv preprint arXiv:1803.03383.
[4] Swartzlander E. E., C. E. Lemonds (Eds.). 2015. Computer Arithmetic: Volume III (Vol. 3). World Scientific.
[5] Goldberg D. 1991. "What every computer scientist should know about floating-point arithmetic". ACM Computing Surveys (CSUR), 23(1), 5-48.
[6] LeNail A. 2019. NN-SVG: "Publication-Ready Neural Network Architecture Schematics". Journal of Open Source Software, 4(33), 747, https://doi.org/10.21105/joss.00747
[7] Ioffe S., C. Szegedy. 2015. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167.
[8] Courbariaux M., Y. Bengio, J. P. David. 2014. Training deep neural networks with low precision multiplications. arXiv preprint arXiv:1412.7024.
[9] Rosenblatt F.. 1958. "The perceptron: a probabilistic model for information storage and organization in the brain". Psychological review 65.6 1958: 386.
[10] Nwankpa C., W. Ijomah, A. Gachagan, S. Marshall. 2018. Activation functions: Comparison of trends in practice and research for deep learning. arXiv preprint arXiv:1811.03378.
[11] Cloud TPU. Google Cloud. 2019. Uzyskane z https://cloud.google. com/tpu/.
[12] Gupta S., A. Agrawal, K. Gopalakrishnan, P. Narayanan. 2015, June. Deep learning with limited numerical precision. In International Conference on Machine Learning (pp. 1737-1746).
[13] Goodfellow I. J., D. Warde-Farley, M. Mirza, A. Courville, Y. Bengio. 2013. Maxout networks. arXiv preprint arXiv:1302.4389.
[14] LeCun Y., C. Cortes, C. Burges. 2019. The MNIST Database, Uzyskane z http://yann.lecun.com/exdb/mnist/.
[15] Krizhevsky A., G. Hinton. 2009. "Learning multiple layers of features from tiny images" (Vol. 1, No. 4, p. 7). Technical report, University of Toronto.
[16] Ortiz M., A. Cristal, E. Ayguadé, M. Casas. 2018. Low-precision floating-point schemes for neural network training. arXiv preprint arXiv:1804.05267.
[17] Courbariaux M., Y. Bengio. 2016. Binarized Neural Networks: Training Neural Networks with Weights and Activations Constrained to+ 1 or - 1. arXiv preprint arXiv:1602.02830.
[18] Rastegari M., V. Ordonez, J. Redmon, A. Farhadi. 2016, October. Xnor-net: Imagenet classification using binary convolutional neural networks. In European Conference on Computer Vision (pp. 525- 542). Springer, Cham.
[19] Hubara I., M. Courbariaux, D. Soudry, R. El-Yaniv, Y. Bengio. 2017. "Quantized neural networks: Training neural networks with low precision weights and activations". The Journal of Machine Learning Research, 18(1), 6869-6898.
[20] Sutskever I., G. E. Hinton, A. Krizhevsky. 2012. Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems, 1097-1105.
[21] Lee J., C. Kim, S. Kang, D. Shin, S. Kim, H. J. Yoo. 2018, February. UNPU: A 50.6 TOPS/W unified deep neural network accelerator with 1b-to-16b fully-variable weight bit-precision. In 2018 IEEE International Solid-State Circuits Conference (ISSCC) (pp. 218-220). IEEE.
[22] Intel® Compute Stick. 2019. Uzyskane z https://www.intel.pl/content/ www/pl/pl/products/boards-kits/compute-stick.html.
[23] LeCun Y., L. Bottou, Y. Bengio, P. Haffner. 1998. "Gradient-based learning applied to document recognition " . Proceedings of the IEEE, 86(11), 2278-2324.
[24] TensorFlow. 2019. Uzyskane z https://www.tensorflow.org/.
[25] PyTorch. 2019. Uzyskane z https://pytorch.org/.

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-27547dbc-d143-472f-bb6d-66bb1e6ea6d0