董泽清,刘克.折扣模型最优策略的结构[J].数学研究及应用,1986,6(3):125~134
折扣模型最优策略的结构
投稿时间:1984-02-20  
DOI:10.3770/j.issn:1000-341X.1986.03.036
中文关键词:  
英文关键词:
基金项目:
作者单位
董泽清 中国科学院应用数学研究所 
刘克 中国科学院应用数学研究所 
摘要点击次数: 1828
全文下载次数: 759
中文摘要:
      本文研究了折扣马尔可夫决策规划(以下简记为MDP)最优策略的结构。证明了:任给一策略π*=(πG*1*,…,πn*n+1*,…),若它是β折扣最优的,则随机平稳策略也是β折扣最优的;对任何n(≥1),我们也给出了随机平稳策略也是β折扣最优的充分条件。还证明了:任给一随机平稳策略π0
英文摘要:
      
查看全文  查看/发表评论  下载PDF阅读器