亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

為什么我們需要與均勻分布進行比較來選擇一個動作,而在 Deep RL 中策略函數會這樣做

為什么我們需要與均勻分布進行比較來選擇一個動作,而在 Deep RL 中策略函數會這樣做

慕萊塢森 2023-03-16 09:57:15
在Karpathy寫的下面的代碼中,為什么我們有這一行(為什么我們需要比較均勻分布來選擇一個動作,而策略函數是這樣做的)  # forward the policy network and sample an action from the returned probability  aprob, h = policy_forward(x)  action = 2 if np.random.uniform() < aprob else 3 # roll the dice!而不僅僅是 # forward the policy network and sample an action from the returned probability  aprob, h = policy_forward(x)  action = 2 if 0.5 < aprob else 3 # roll the dice!....Karpathy 的完整代碼來自:https://gist.github.com/karpathy/a4166c7fe253700972fcbc77e4ea32c5
查看完整描述

1 回答

?
米脂

TA貢獻1836條經驗 獲得超3個贊

如果沒有統一比較,政策將是確定性的。對于任何給定的狀態,該policy_forward函數將返回相同的輸出,因此每次都會采取相同的操作。因此,不會對您使用您提出的方法進行任何探索。制服在動作選擇中引入了一些隨機性,這鼓勵了探索。沒有探索,基本上不可能發現最優策略。



查看完整回答
反對 回復 2023-03-16
  • 1 回答
  • 0 關注
  • 103 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號