DDPG-白红宇的个人博客

DDPG

发布日期：2021-10-24 15:11:48 浏览次数：37 分类：技术文章

本文共 510 字，大约阅读时间需要 1 分钟。

`DDPG` 的算法实际上就是一种 `Actor Critic`

关于 `Actor` 部分, 他的参数更新同样会涉及到 `Critic`, 上面是关于 `Actor` 参数的更新, 它的前半部分 `grad[Q]` 是从 `Critic` 来的, 这是在说: 这次 `Actor` 的动作要怎么移动, 才能获得更大的 `Q`, 而后半部分 `grad[u]` 是从 `Actor` 来的, 这是在说: `Actor` 要怎么样修改自身参数, 使得 `Actor` 更有可能做这个动作. 所以两者合起来就是在说: `Actor` 要朝着更有可能获取大 `Q` 的方向修改动作参数了.

上面这个是关于 `Critic` 的更新, 它借鉴了 `DQN` 和 `Double Q learning` 的方式, 有两个计算 `Q` 的神经网络, `Q_target` 中依据下一状态, 用 `Actor` 来选择动作, 而这时的 `Actor` 也是一个 `Actor_target` (有着 Actor 很久之前的参数). 使用这种方法获得的 `Q_target` 能像 `DQN` 那样切断相关性, 提高收敛性.

转载于:https://www.cnblogs.com/WegZumHimmel/p/8118532.html

转载地址：https://blog.csdn.net/weixin_30800807/article/details/94961396 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：IOS总结静变量static、全局变量extern、局部变量、实例变量

下一篇：最近读的书

发表评论

最新留言

很好

[***.229.124.182]2024年04月08日 12时30分04秒

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

推荐文章

我用过的设计模式（7）--享元模式 2019-04-27

MySQL数据库从入门到实战应用（学习笔记一） 2019-04-27

MySQL数据库从入门到实战应用（学习笔记二） 2019-04-27

种树：二叉树、二叉搜索树、AVL树、红黑树、哈夫曼树、B树、树与森林 2019-04-27

【C++】攻克哈希表(unordered_map) 2019-04-27

转：【答学员问】- 该如何根据岗位学习相关技能 2019-04-27

转：【答学员问】有什么经验教训，是你在面试很多次之后才知道的？ 2019-04-27

消息队列：解耦、异步、削峰，现有MQ对比以及新手入门该如何选择MQ? 2019-04-27

【奇技淫巧】-- 三角形最小路径和 2019-04-27

【小技巧】argc和argv的用法 2019-04-27

学不下去了怎么办？ 2019-04-27

二叉树的前中后序遍历（迭代法）（带动画） 2019-04-27

【小技巧】【XShell】【Xftp】Windows桌面与Linux虚拟机互传文件 2019-04-27

【redis入门】Centos下安装redis 2019-04-27

【redis入门】redis安装后相关知识串讲 2019-04-27

【redis】来吧，展示一下redis 发布-订阅模式 2019-04-27

讲通C/C++预编译/条件编译指令 #ifdef,#ifndef,#endif,#define,… 2019-04-27

【redis6.0.6】redis源码慢慢学，慢慢看 -- 第二天：空间配置（zmalloc） 2019-04-27

当下热点词再学：redis缓存预热、更新、降级，限流 2019-04-27

【redis6.0.6】redis源码慢慢学，慢慢看 -- 第五天：adlist 2021-06-30

白红宇的个人博客 - 记录点点滴滴的事 - 您是第 307991409 位访客

访问时间: 2024-04-26 06:44:28 访问IP: 18.216.239.46 Copyright © 2020 - 2023 blog.css8.cn 京ICP备2021015314号-1 手机版