ITERATIVE SELF-LEARNING METHODS FOR SOLVING NONLINEAR EQUATIONS
- Authors: Popkov Y.S1,2
 - 
							Affiliations: 
							
- Федеральный исследовательский центр «Информатика и управление» РАН
 - Институт проблем управления им. В.А. Трапезникова РАН
 
 - Issue: No 5 (2024)
 - Pages: 129-135
 - Section: Topical issue
 - URL: https://vietnamjournal.ru/0005-2310/article/view/646942
 - DOI: https://doi.org/10.31857/S0005231024050058
 - EDN: https://elibrary.ru/YQBWNO
 - ID: 646942
 
Cite item
Abstract
Рассматривается задача решения системы нелинейных уравнений с произвольной, но непрерывной вектор-функцией в левой части, о которой можно иметь только значения ее компонент. Для определения приближенного решения используется какой-нибудь итерационный метод с параметрами, качественные свойства которого оцениваются квадратичным функционалом невязки. Предлагается самообучающаяся процедура (подкрепления), основанная на вспомогательных МК-испытаниях, на функции полезности экспоненциального класса и функции выигрыша, реализующей принцип оптимальности Беллмана. Доказана теорема о строгом монотонном убывании функционала невязки.
			                About the authors
Y. S Popkov
Федеральный исследовательский центр «Информатика и управление» РАН; Институт проблем управления им. В.А. Трапезникова РАН
														Email: popkov@isa.ru
				                					                																			                								д-р техн. наук				                								Москва; Москва						
References
- Красносельский М.А., Вайникко Г.М., Забрейко П.П. и др. Приближенные решения операторных уравнений. М.: Наука, 1969.
 - Бахвалов Н.С., Жидков Н.П., Кобельков Г.М. Численные методы. М.: Бином, 2003.
 - Поляк Б.Т. Введение в оптимизацию. М.: Наука, 1983.
 - Стрекаловский А.С. Элементы невыпуклой оптимизации. Новосибирск, Наука, 2003.
 - Lyle C., Rowland M, Dabney W., Kwiatkowska M, Gal Y. Learning dynamics and generalization in deep reinforcement learning // Int. Conf. on Machin. Learning. PMLR. 2022. P. 14560-14581.
 - Che Wang, Shushan Yaun, Keit W. Ross. On the Convergence of the Monte Carlo Exploring Starts Algorithm for Reinforcement Learning. ICLR. 2022.
 - Уоссерман Ф. Нейрокомпьютерная техника. Теория и практика. М.: Мир, 1992.
 - Kohonen T. Self-organizing Maps. Springer Berlin, Heidelberg, 1995.
 - Mnih V., Kavukcuoglu K, Silver D., Rusu A.A., Veness J., Bellemare M.G., Graves A., Riedmiller M, FIdjeland A. Human-level control through deep reinforcement learning // Nature. 2015. Vol. 518. No. 7540. P. 529-533.
 - Sutton R.S., Barto A.G. Introduction to reinforcement Learning. Cambridge, MIT press, 1998.
 - Russel S.J., Norvig P. Artificial Intelligemce: A Modern Approach (Third Ed.) Prentice Hall, Upper Saddle River, 2010.
 - van Hasselt H. Reinforcement Learning in Continuous State and Action Spaces. In: Wiering M., van Otterio M.(eds.) Reinforcement Learning: State-of-the-Art, 2012. Springer Sciences & Business Media, P. 207-257.
 - Ivanov S. Reinforcement Learning Textbook // ArXiv, 2022. https://doi.org/10.48550/arXiv.2201.09746
 - Bozinovski S. Crossbar Adaptive Array: The first connectionist network that solved the delayed reinforcement learning problem. In: Dobnikar A., Steele N.C., Pearson D.W., Albrecht R.F. (eds.) Artificial Neural Nets and Genetic Algorithms // Proc. Int. Conf. Portoroz, Slovenia, Springer Science & Business Media, 1999, P. 320-325.
 - Watkins C., Dayan P. Q-learning // Machine Learning. 1992. Vol. 8. No. 3-4. P. 279-292.
 - van Hasselt H., Guez A., Silver D. Deep reinforcement learning with double Q-learn-ing//Proc. AAAI Conf. Artificial Intelligence. 2016. Vol. 30. No. 1. P. 2094-2100.
 - Bellman R. Dynamic Programming. Princeton University Press, 1957.
 - Robbins H., Monro S. A stochastic approximation method // The Annals of Mathematical Statistics. 1951. P. 400-407.
 
Supplementary files
				
			
					
						
						
						
						
									



