首頁手記圖解強化學習（第4部分）：Q學習，分步進行

圖解強化學習（第4部分）：Q學習，分步進行

標簽：

Cocos2d-x

直觉式强化学习系列

直观的Q学习算法工作原理和可视指南

> Photo by Carlos Esteves on Unsplash

这是我关于强化学习（RL）的系列文章中的第四篇。现在，我们对构成RL问题构成要素的概念以及用于解决它们的技术有了很好的理解。现在，我们可以将它们组合在一起，以了解最流行的RL算法使用的完整解决方案。

在本文中，令人振奋的是，现在开始研究我们的第一个RL算法，并详细了解Q Learning！您可以找到许多资源，逐步解释该算法的作用，但是富贵的这篇文章的目的是让人们直观地了解该算法为何收敛并为我们提供最佳值。

这是该系列中以前和之后文章的快速摘要。我的目标始终是不仅要理解某件事情的工作原理，而且要理解为什么它如此工作。

· 基本概念和术语简介（什么是RL问题，以及如何使用Markov决策过程中的技术和诸如收益，价值和政策等概念将RL问题解决框架应用于该框

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

慕尼黑5497867

手記
篇

粉絲

23

獲贊與收藏

81

關注作者，訂閱最新文章

閱讀免費教程

后端通用面試教程

41個小節 32254 360

網絡編程入門教程

20個小節 13299 250

Pandas 入門教程

25個小節 19918 373

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

圖解強化學習（第4部分）：Q學習，分步進行

閱讀免費教程

圖解強化學習（第4部分）：Q學習，分步進行