【课程笔记】李宏毅2020强化学习课程2
发布日期:2021-05-17 04:15:22 浏览次数:20 分类:精选文章

本文共 788 字,大约阅读时间需要 2 分钟。

Policy Gradient นดemeanor

涉及到 Policy Gradient 的实际操作,大多数人可能会对其中的核心概念感到困惑。特别是当我们需要将 log 那项纳入考虑时,它变得更加复杂。在实践中有几个重要要素需要关注。

首先,理解 log 项的作用至关重要。在实际应用中,log 项可以转换为分类问题的思路。这意味着,每次网络接收输入 s 后,会输出一个比例尺上的激活值 a,目标是让这个激活值尽可能地接近我们定义的分类标签。这类似于传统的分类任务中的 Softmax 操作。

其次,在实际中我们会在每次输出计算完 Log 部分后,乘以一个系数 R。这一操作的意义在于将 Log 值转换为实际的比例尺值,从而与输入数据 s 和对应的分类输出 a 直接相关联。这就进入了强化学习的范畴,因为我们可以根据实际表现来调整 R 的大小。

此外,处理输入输出时,R 的大小直接影响数据的复制次数。例如,当 R 为 2 时,系统会复制两次对应的输入数据;如果 R 为 1,则只复制一次。这一机制为后续的训练提供了灵活的数据处理方式。

在实际应用中,这意味着我们的模型并不会像传统的分类任务那样只进行一次训练。一旦训练完成,模型需要与真实环境交互,根据实际表现继续收集新数据,然后再次对模型进行训练。这是强化学习的核心特点——动态交互和持续改进。

然而,这一过程也带来了训练时间的显著增加。与分类任务仅需一次训练不同,强化学习需要持续地收集和处理新数据,这增加了计算成本和时间投入。因此,在投入资源之前,我们需要对这一特点进行充分评估。

总体而言,理解 Policy Gradient 的核心原理以及在实际应用中的操作,是我们在强化学习领域碰到的重要任务之一。通过合理地配置 R 值并建立有效的数据处理机制,可以在不大量改动代码的情况下,实现强化学习任务的有效训练和优化。

上一篇:PC-Lint 使用中头文件包含的问题,以及VSCode中文乱码问题
下一篇:二分法

发表评论

最新留言

逛到本站,mark一下
[***.202.152.39]2025年05月08日 12时09分30秒