机器学习笔记(十一) 机器学习( 训练神经网络)
发布日期:2021-06-29 13:43:14
浏览次数:3
分类:技术文章
本文共 931 字,大约阅读时间需要 3 分钟。
主要来源:视频学习网站
反向传播算法
反向传播算法: 在神经网络上执行梯度下降法的主要算法。该算法会先按前向传播方式计算(并缓存)每个节点的输出值,然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。
最常见的一种神经网络训练算法。借助这种算法,梯度下降法在多层神经网络中将成为可行方法。
TensorFlow 可自动处理反向传播算法,因此您不需要对该算法作深入研究。反向传播注意事项:
1.梯度很重要:如果它是可微的,则我们也许能够对其进行学习 2.梯度可能会消失:每个额外的层都会依次降低信噪比;ReLu 在这里很有用; 3.梯度可能会爆炸:学习速率在这里很重要;批标准化可以提供帮助; 4.ReLu 层可能会消失:保持冷静,并降低您的学习速率梯度消失
较低层(更接近输入)的梯度可能会变得非常小。在深度网络中,计算这些梯度时,可能涉及许多小项的乘积。 当较低层的梯度逐渐消失到 0 时,这些层的训练速度会非常缓慢,甚至不再训练。ReLU 激活函数有助于防止梯度消失。梯度爆炸
如果网络中的权重过大,则较低层的梯度会涉及许多大项的乘积。在这种情况下,梯度就会爆炸:梯度过大导致难以收敛。批标准化可以降低学习速率,因而有助于防止梯度爆炸。ReLU 单元消失
一旦 ReLU 单元的加权和低于 0,ReLU 单元就可能会停滞。它会输出对网络输出没有任何贡献的 0 激活,而梯度在反向传播算法期间将无法再从中流过。由于梯度的来源被切断,ReLU 的输入可能无法作出足够的改变来使加权和恢复到 0 以上。降低学习速率有助于防止 ReLU 单元消失。标准化特征值
我们希望特征具有合理的范围:
大致以 0 为中心,[-1, 1] 的范围通常效果比较好 有助于梯度下降法收敛;避免 NaN 陷阱 避免离群值也会有帮助可以使用一些标准方法:
线性缩放; 为最大值和最小值设定硬性上下限(截断); 对数缩放;丢弃正则化
丢弃:这是称为丢弃的另一种形式的正则化,可用于神经网络。其工作原理是,在梯度下降法的每一步中随机丢弃一些网络单元。丢弃得越多,正则化效果就越强。
0.0 = 无丢弃正则化
1.0 = 丢弃所有内容!学不到任何规律 中间值更有用转载地址:https://chenlinwei.blog.csdn.net/article/details/87400620 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
第一次来,支持一个
[***.219.124.196]2024年04月27日 15时25分09秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
只有经历过,才能深刻理解的9个编程道理
2019-04-29
发现超能力:这些数据科学技能助你更高效专业
2019-04-29
AI当道,人工智能将如何改变金融业?
2019-04-29
消除性别成见,技术领域需要更多“乘风破浪的姐姐”
2019-04-29
7行代码击败整个金融业,这对20多岁的爱尔兰兄弟是如何做到的?
2019-04-29
2020十大编程博客:私藏的宝藏编程语言博客大放送!
2019-04-29
编程中的角色选择:哪类工作角色最适合你?
2019-04-29
10种算法一文打尽!基本图表算法的视觉化阐释
2019-04-29
未来属于人工智能工程师,但成功转型不容易
2019-04-29
科技界“挠头”:困扰科技界可持续发展的难题
2019-04-29
20年后,这5种编码语言可能就消失了……
2019-04-29
标准出现问题,人工智能正在走向错误的方向
2019-04-29
如何使用Python实现最低有效位隐写术?
2019-04-29
湮没在赞誉之中,科学史上鲜为人知的五大“败笔”
2019-04-29
别再对分类变量进行独热编码!你还有更好的选择
2019-04-29
如果不能用Python执行机器学习,那该用什么呢?
2019-04-29
不论何时,互联网从业者一直幸福着~
2019-04-29
mysql用户口令中含有特殊字符@的情况下,如何正确链接数据库
2019-04-29
SpringFox接口文档API DOC
2019-04-29
netty优化策略
2019-04-29