DDPG
发布日期:2021-10-24 15:11:48 浏览次数:37 分类:技术文章

本文共 510 字,大约阅读时间需要 1 分钟。

DDPG 的算法实际上就是一种 Actor Critic

关于 Actor 部分, 他的参数更新同样会涉及到 Critic, 上面是关于 Actor 参数的更新, 它的前半部分 grad[Q] 是从 Critic 来的, 这是在说: 这次 Actor 的动作要怎么移动, 才能获得更大的 Q, 而后半部分 grad[u] 是从 Actor 来的, 这是在说: Actor 要怎么样修改自身参数, 使得 Actor 更有可能做这个动作. 所以两者合起来就是在说: Actor 要朝着更有可能获取大 Q 的方向修改动作参数了.

上面这个是关于 Critic 的更新, 它借鉴了 DQN 和 Double Q learning 的方式, 有两个计算 Q 的神经网络, Q_target 中依据下一状态, 用 Actor 来选择动作, 而这时的 Actor 也是一个 Actor_target (有着 Actor 很久之前的参数). 使用这种方法获得的 Q_target 能像 DQN 那样切断相关性, 提高收敛性.

转载于:https://www.cnblogs.com/WegZumHimmel/p/8118532.html

转载地址:https://blog.csdn.net/weixin_30800807/article/details/94961396 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:IOS总结 静变量static、全局变量extern、局部变量、实例变量
下一篇:最近读的书

发表评论

最新留言

很好
[***.229.124.182]2024年04月08日 12时30分04秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章