Портал Естественных Наук, версия 1.1

Собственно, пусть есть цепь Маркова с вознаграждениями для переходов. Правильно ли я понимаю, что стратегия, которая обеспечивает максимум целевой функции (которая может считаться как просто сумма, с усреднением по большому времени, или как геометрическая прогрессия), имеет такое свойство, что из каждого состояния должен быть переход только в одно состояние, а не распределение вероятностей переходов во многие состояния? Если это не так, желательно просто контрпример

В задачах, похожих на игру с природой, видимо, да. Аналогичная задача, и общая задача динамического программирования, рассматривались здесь viewtopic.php?f=4&t=1519 .Там просто постулируется, что множество значений функции управления (Control space ) дискретно. И для той задачи, можно доказать, что если Control space вместо n точек представляет собой распределение вероятностей по n управлениям, то оптимальный ответ останется тем же, дискретным.
Другое дело, когда, например , рассматривается многократное повторение игры "дилемма заключенного", с целью научить (=заставить своей игрой) противника играть не-по-подлому, об этом много серьезных исследований сделано, и там оптимальные стратегии уже стохастические а не дискретные. А в остальном постановка задачи такая же, максимизировать дисконтированный выигрыш (со свойством такой же аддитивности по подыграм) на бесконечности. И выведено, что при маленьком коэффициенте дисконтирования -научить нельзя, подлость выгодна, а после хоть потоп,; а при близком к единице -можно. Я пытался научиться делать подобное и для других игр, но там вычислений столько, что крыша едет. Но есть люди, которые умеют.

Портал Естественных Наук, версия 1.1

Марковский процесс принятия решений

Марковский процесс принятия решений

Марковский процесс принятия решений