Принцип оптимальності Беллмана

§ 1.10. Принцип оптимальності Беллмана

Нехай стан деякої фізичної системи визначається -мірним фазовим вектором у. Нехай, крім того, є сімейство перетворень зі змінним вектором (рішенням) і, що грає роль параметра і переводять вектор у в вектор

Процес, що складається з вибору рішень назвемо -шаговим процесом.

Зв'яжемо з -шаговим процесом деяку скалярну функцію

звану критерієм або функцією доходу.

Послідовність допустимих рішень називається політикою (стратегією). Політика, що забезпечує максимальне значення функції доходу називається оптимальною політикою або оптимальною стратегією.

Має місце принцип оптимальності [44]. Оптимальна стратегія володіє тим властивістю, що які б не були початковий стан і прийняте початкове рішення, наступні рішення повинні складати оптимальну стратегію щодо стану, що виник в результаті початкового рішення.

З цього принципу виводяться основні рівняння динамічного програмування (рівняння Беллмана), які можуть розглядатися як деякі рекурентні співвідношення, що описують багатокроковому оптимізацію в граничному випадку при необмеженому зростанні числа кроків. Рівняння Беллмана є функціональними рівняннями і їм можна надати різний вигляд.

Наприклад, якщо розглядається завдання про максимізації функціоналу

то, як показано в [44], рішення цього завдання зводиться до вирішення функціонального рівняння

де - «функція доходу на нескінченному числі кроків»

в термінології Беллмана [44].

Схожі статті