【课程笔记】李宏毅2020强化学习课程2-白红宇的个人博客

【课程笔记】李宏毅2020强化学习课程2

发布日期：2021-05-17 04:15:22 浏览次数：20 分类：精选文章

本文共 788 字，大约阅读时间需要 2 分钟。

涉及到 Policy Gradient 的实际操作，大多数人可能会对其中的核心概念感到困惑。特别是当我们需要将 log 那项纳入考虑时，它变得更加复杂。在实践中有几个重要要素需要关注。

首先，理解 log 项的作用至关重要。在实际应用中，log 项可以转换为分类问题的思路。这意味着，每次网络接收输入 s 后，会输出一个比例尺上的激活值 a，目标是让这个激活值尽可能地接近我们定义的分类标签。这类似于传统的分类任务中的 Softmax 操作。

其次，在实际中我们会在每次输出计算完 Log 部分后，乘以一个系数 R。这一操作的意义在于将 Log 值转换为实际的比例尺值，从而与输入数据 s 和对应的分类输出 a 直接相关联。这就进入了强化学习的范畴，因为我们可以根据实际表现来调整 R 的大小。

此外，处理输入输出时，R 的大小直接影响数据的复制次数。例如，当 R 为 2 时，系统会复制两次对应的输入数据；如果 R 为 1，则只复制一次。这一机制为后续的训练提供了灵活的数据处理方式。

在实际应用中，这意味着我们的模型并不会像传统的分类任务那样只进行一次训练。一旦训练完成，模型需要与真实环境交互，根据实际表现继续收集新数据，然后再次对模型进行训练。这是强化学习的核心特点——动态交互和持续改进。

然而，这一过程也带来了训练时间的显著增加。与分类任务仅需一次训练不同，强化学习需要持续地收集和处理新数据，这增加了计算成本和时间投入。因此，在投入资源之前，我们需要对这一特点进行充分评估。

总体而言，理解 Policy Gradient 的核心原理以及在实际应用中的操作，是我们在强化学习领域碰到的重要任务之一。通过合理地配置 R 值并建立有效的数据处理机制，可以在不大量改动代码的情况下，实现强化学习任务的有效训练和优化。

下一篇：二分法

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！