对强化学习理解及其与有监督学习和无监督学习的比较
发布日期:2021-10-03 22:59:21
浏览次数:38
分类:技术文章
本文共 622 字,大约阅读时间需要 2 分钟。
机器学习可以分为有监督学习,无监督学习和强化学习.
强化学习是机器学习的一个重要分支,本文重点谈一下对于强化学习的理解.
首先,什么是强化学习? 强化学习就是学习”做什么才能使得数值化的收益信号最大化”.学习者不会被告知应该采取什么动作,而是必须自己通过尝试去发现哪些动作会产生最丰厚的收益.试错和延迟收益是强化学习两个最重要最显著的特征.
强化学习与有监督学习不同: 有监督学习是从外部监督者提供的带标注训练集中进行学习.每一个样本都是情境和标注的描述, 而强化学习是从交互中学习.
强化学习也与无监督学习不同:无监督学习是一个典型的寻找未标注数据中隐含结构的过程, 强化学习的目标是最大化收益信号而不是找出数据的隐含结构.
强化学习系统有四个核心要素: 策略, 收益信号, 价值函数和对环境建立的模型.
1 策略定义了学习智能体在特定时间的行为方式. 一般来说, 策略可能是环境所在状态和智能体所采取的动作的随机函数.
2 收益信号定义了强化学习问题中的目标.收益信号是改变策略的主要基础.
3 价值函数表示了从长远的角度看什么是好的, 与之相对, 收益信号表明了在短时间内什么是好的.简单的说,一个状态的价值是一个智能体从这个状态开始,对将来累积的总收益的期望.
4对环境建立的模型是一种环境的反应模式的模拟,它允许对外部环境的行为进行推断. 对环境建立模型并不是强化学习必需的, 所以基于此可以将强化学习分为有模型的方法和无模型的方法.
转载地址:https://blog.csdn.net/lclfans1983/article/details/107826880 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
不错!
[***.144.177.141]2024年04月19日 02时38分41秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
ShaderGraph使用教程与各种特效案例:Unity2020(持续更新)
2019-04-27
Unity爆炸、闪电、火焰、雷雨特效Demo
2019-04-27
使用python登录和访问Confluence
2019-04-27
Unity2020中使用MemoryProfile卡死和报错的问题
2019-04-27
Unity中加载Texture2D不断消耗内存的问题
2019-04-27
手把手教你使用Unity制作一个飞机喷射火焰尾气的粒子效果
2019-04-27
gitee使用教程,创建项目仓库并上传代码
2019-04-27
Unity3D 上传日志
2019-04-27
Unity3D 序列帧
2019-04-27
Unity3D 动态创建图集并压入精灵(NGUI)
2019-04-27
C# 将Excel转xml
2019-04-27
Unity3D log写入文件
2019-04-27
Unity3D动态创建摄像机
2019-04-27
unity 根据纪元时间(1970/1/1)转换为DateTime
2019-04-27
C# 字符串md5加密
2019-04-27
unity3D 拖拽旋转3D物体
2019-04-27
unity3D LineRender的使用:插值移动终点
2019-04-27