首頁手記強化學習第5課：什么是馬爾科夫決策過程

強化學習第5課：什么是馬爾科夫決策過程

標簽：

人工智能

在强化学习中，有一个非常常见的决策过程叫马尔克夫决策过程。

它和我们前面讲的决策过程是有一样的结构，只不过它会有更多限制。这里同样也有 agent 和环境，只不过还就多了一个状态，用 s 来表示。状态 state 是 agent 可以在环境中所观察到的东西, 然后 agent 可以选择一个行为，并从环境中获得反馈。

所有的行为用 a 表示，所有的状态用 s 表示。r 代表 agent 可以获得的奖励，它的值越大，我们就越应该加强这个行为。

这个决策过程之所以叫马尔可夫决策过程是因为需要有一个马尔科夫假设。

意思是在这个环境里，没有其他因素来影响它的状态。也就意味着，当我们想要预测下一个状态的概率，或者想要预测 agent 能获得的奖励时，只需要知道环境的当前状态和行为。

听起来可能觉得有点不现实，因为这意味着，如果我们想要给用户展示一个横幅广告，需要的就是一个状态，这个状态要包含用户的所有信息，可是我们肯定无法知道用户的大脑的状态的。

所以这只是一个数学模型，我们需要把问题做简化，模型并不需要精准。在这个决策过程中只需要假装周围的其他任何事情都是噪音。

和通常一样，我们想要优化的是 reward。区别在于这一次环境可以在每个时间点给 agent 即时的奖励。

例如，我们想训练机器人向前走。可以在一个完整的过程后给他一个奖励。例如在它摔倒时只是衡量一下走了有多长多远，这个值就作为奖励。另一种是可以在任何时候都给 agent 一个小小的反馈。

那么这时我们想要优化的不仅仅是单个的奖励，而是想要优化奖励的总和。

这同样适用于棋牌游戏。例如在象棋中，我们可以尝试优化即时的奖励，但这可能会导致我们很快就失败，因为通常即时奖励高的那一步棋并不是最好的那一步，事实上它总是最坏的那一步。

学习资料：

Practical Reinforcement Learning

推荐阅读历史技术博文链接汇总

http://www.jianshu.com/p/28f02bb59fe5

也许可以找到你想要的：

[入门问题][TensorFlow][深度学习][强化学习][神经网络][机器学习][自然语言处理][聊天机器人]

Hello World ！

This is 不会停的蜗牛 Alice ！

🐌 要开始连载强化学习系列啦！

今天开始我们一起来每天 2 分钟，get 强化学习的一个小知识吧！

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

Alice嘟嘟

手記
篇

粉絲

75

獲贊與收藏

280

關注作者，訂閱最新文章

閱讀免費教程

后端通用面試教程

41個小節 32486 366

網絡編程入門教程

20個小節 13447 254

Pandas 入門教程

25個小節 20073 381

推薦

1

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

強化學習第5課：什么是馬爾科夫決策過程

閱讀免費教程