笔记 - 卷积神经网络:学习率与权重初始化方式 与 网络性能之间的关系

参考

学习率与权重初始化对网络性能的影响分析


在这里插入图片描述

  • 随机实验2次
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • 学习率大容易振荡

权重初始化对网络性能的影响

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

如何理解权重参数初始化不能近似于 0

在这里插入图片描述

【不理解:】经过恰当的归一化后,可以假设W一半正,一半负

我们初始化的W让它在(01)之间是为了尽量平衡 隐含特征 之间的重要程度,提高泛化能力
=> 思考:为啥W越小,泛化能力越高
所以我才会想到把 W 初始化为0

在这里插入图片描述

在隐藏层的前向传播过程中,样本值与W都会对计算值有影响
-- W如果非常小(近似0),则可能会导致前向传播过程计算的值比较小
由链式求导法则的累乘效应来看,可能会导致最终计算的梯度非常小,从而影响参数的更新

链式求导法则的累乘效应


填坑

1. 为啥W越小,泛化能力越高 ?
首先,泛化能力高表示什么:
能更好的处理未见过的数据,比如有一只装进瓶子里的猫

在这里插入图片描述
如果训练时没见过这类图片,而且W又比较大,那就很有可能识别成 ”玻璃杯“ ?

  • 进一步解释为何W又比较大,那就很有可能识别成 ”玻璃杯“ :
    模型可能对 “玻璃杯” 的特征比较敏感,即和玻璃杯特征相关的 W 比较大,导致影响最后的效果
所以当所有的 W 都比较小的时候,各种隐含特征的重要程度就比较平衡了~
从而提高了泛化能力

更多精彩内容