董泽清,刘克.折扣模型最优策略的结构[J].数学研究及应用,1986,6(3):125~134 |
折扣模型最优策略的结构 |
|
投稿时间:1984-02-20 |
DOI:10.3770/j.issn:1000-341X.1986.03.036 |
中文关键词: |
英文关键词: |
基金项目: |
|
摘要点击次数: 1828 |
全文下载次数: 759 |
中文摘要: |
本文研究了折扣马尔可夫决策规划(以下简记为MDP)最优策略的结构。证明了:任给一策略π*=(πG*,π1*,…,πn*,πn+1*,…),若它是β折扣最优的,则随机平稳策略也是β折扣最优的;对任何n(≥1),我们也给出了随机平稳策略也是β折扣最优的充分条件。还证明了:任给一随机平稳策略π0 |
英文摘要: |
|
查看全文 查看/发表评论 下载PDF阅读器 |
|
|
|