Identyfikatory
Warianty tytułu
O własnościach regularyzacyjnych danych sztucznych w uczeniu głębokim
Języki publikacji
Abstrakty
The paper discusses regularization properties of artificial data for deep learning. Artificial datasets allow to train neural networks in the case of a real data shortage. It is demonstrated that the artificial data generation process, described as injecting noise to high-level features, bears several similarities to existing regularization methods for deep neural networks. One can treat this property of artificial data as a kind of “deep” regularization. It is thus possible to regularize hidden layers of the network by generating the training data in a certain way.
W artykule omówiono własności regularyzacyjne sztucznych danych używanych w uczeniu głębokim. Dane te pozwalają na uczenie sieci neuronowych w sytuacji niedoboru danych rzeczywistych. Okazuje się, że proces generacji danych sztucznych, opisany jako zaszumianie wysokopoziomowych cech, wykazuje wiele podobieństw do istniejących metod regularyzacyjnych dla głębokich sieci neuronowych. Dzięki temu możliwa jest regularyzacja warstw ukrytych sieci poprzez generowanie sztucznych danych uczących w odpowiedni sposób.
Czasopismo
Rocznik
Tom
Strony
13--18
Opis fizyczny
Bibliogr. 17 poz., il.
Twórcy
autor
- Military University of Technology, Faculty of Cybernetics, Institute of Computer and Information Systems, Kaliskiego Str. 2, 00-908 Warsaw, Poland
Bibliografia
- [1] Goodfellow I., Bengio Y., Aaron C., “Machine Learning Basics”, in: Deep Learning, MIT Press, 2016.
- [2] Wolpert D.H., “The Lack of a Priori Distinctions Between Learning Algorithms”, Neural Computation, Vol. 8, No. 7, 1341–1390 (1996).
- [3] Zhang C., Bengio S., Hardt M., Recht B. and Vinyals O., “Understanding deep learning requires rethinking generalization”, arXiv: 1611.03530, 2016.
- [4] Ng A.Y., “Feature selection, L 1 vs. L 2 regularization, and rotational invariance”, in: Proceedings of the twenty-first international conference on Machine learning, ACM, 2004.
- [5] Srivastava N., Hinton G., Krizhevsky A., Sutskever I., Salakhutdinov R., “Dropout: a simple way to prevent neural networks from overfitting”, Journal of Machine Learning Research, Vol. 15, No. 1, 1929–1958 (2014).
- [6] Li W., and et. al, “Regularization of neural networks using DropConnect”, in: Proceedings of the 30th International Conference on Machine Learning, PMLR 28(3):1058–1066, 2013.
- [7] Breiman L., Bagging Predictors, University of California, California, 1994.
- [8] van Dyk D.A. and Meng X.-L., “The Art of Data Augmentation”, Journal of Computational and Graphical Statistics, Vol. 10, No. 1, 1–50 (2001).
- [9] Lee H., Grosse R., Raganath R. and Ng A.Y., “Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations”, in: Proceedings of the 26th Annual International Conference on Machine Learning, Montreal, 2009.
- [10] Vincent P., Larochelle H., Lajoie I., Bengio Y. and Manzagol P.-A., “Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion”, Journal of Machine Learning Research, Vol. 11, 3371–3408 (2010).
- [11] Lee H., Largman Y., Pham P. and Ng A.Y., “Unsupervised feature learning for audio classification using convolutional deep belief networks”, in: NIPS Proceedings, 2009.
- [12] Bishop C.M., “Training with Noise is Equivalent to Tikhonov Regularization”, Neural Computation, No. 1, 108–116 (1995).
- [13] Müller R., Kornblith S. and Hinton G., “When Does Label Smoothing Help?”, arXiv: 1906.02629 (2019).
- [14] Antczak K., Liberadzki Ł., “Stenosis Detection with Deep Convolutional Neural Networks”, MATEC Web of Conferences, Vol. 210 (2018).
- [15] Antczak K., “Deep Recurrent Neural Networks for ECG Signal Denoising”, arXiv: 1807.11551 (2018).
- [16] Bartlett P.L., Mendelson S., “Rademacher and Gaussian Complexities: Risk Bounds and Structural Results”, Journal of Machine Learning Research, No. 3, 463–482 (2002).
- [17] Vapnik V.N., Chervonenkis A.Y., “On the Uniform Convergence of Relative Frequencies of Events to Their Probabilities”, Theory of Probability and Its Application, Vol. 16, No. 2, 254–280 (1971).
Uwagi
Opracowanie rekordu w ramach umowy 509/P-DUN/2018 ze środków MNiSW przeznaczonych na działalność upowszechniającą naukę (2019).
Typ dokumentu
Bibliografia
Identyfikator YADDA
bwmeta1.element.baztech-80bacef3-f32c-406b-b1ef-01b1f1bd8522