Страница 1 из 1

Марковский процесс принятия решений

Добавлено: 23 дек 2022, 02:33
Albus
Собственно, пусть есть цепь Маркова с вознаграждениями для переходов. Правильно ли я понимаю, что стратегия, которая обеспечивает максимум целевой функции (которая может считаться как просто сумма, с усреднением по большому времени, или как геометрическая прогрессия), имеет такое свойство, что из каждого состояния должен быть переход только в одно состояние, а не распределение вероятностей переходов во многие состояния? Если это не так, желательно просто контрпример

Марковский процесс принятия решений

Добавлено: 03 янв 2023, 09:06
Ian
В задачах, похожих на игру с природой, видимо, да. Аналогичная задача, и общая задача динамического программирования, рассматривались здесь viewtopic.php?f=4&t=1519 .Там просто постулируется, что множество значений функции управления (Control space ) дискретно. И для той задачи, можно доказать, что если Control space вместо n точек представляет собой распределение вероятностей по n управлениям, то оптимальный ответ останется тем же, дискретным.
Другое дело, когда, например , рассматривается многократное повторение игры "дилемма заключенного", с целью научить (=заставить своей игрой) противника играть не-по-подлому, об этом много серьезных исследований сделано, и там оптимальные стратегии уже стохастические а не дискретные. А в остальном постановка задачи такая же, максимизировать дисконтированный выигрыш (со свойством такой же аддитивности по подыграм) на бесконечности. И выведено, что при маленьком коэффициенте дисконтирования -научить нельзя, подлость выгодна, а после хоть потоп,; а при близком к единице -можно. Я пытался научиться делать подобное и для других игр, но там вычислений столько, что крыша едет. Но есть люди, которые умеют.