Deep Reinforcement Learning with Double Q-learning [1509.06461] Deep Reinforcement Learning with Double Q-learning 論文まとめ Q-learningは、maxを取っている関係上、action-valueを過大評価(overestimate)する傾向があることが知られている.これま…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。