笔记 - 卷积神经网络：学习率与权重初始化方式与网络性能之间的关系

参考

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

【不理解：】经过恰当的归一化后，可以假设W一半正，一半负

我们初始化的W让它在（0，1）之间是为了尽量平衡 隐含特征 之间的重要程度，提高泛化能力
=> 思考：为啥W越小，泛化能力越高
所以我才会想到把 W 初始化为0

在这里插入图片描述

在隐藏层的前向传播过程中，样本值与W都会对计算值有影响
-- W如果非常小（近似0），则可能会导致前向传播过程计算的值比较小
由链式求导法则的累乘效应来看，可能会导致最终计算的梯度非常小，从而影响参数的更新

首先，泛化能力高表示什么：
能更好的处理未见过的数据，比如有一只装进瓶子里的猫

在这里插入图片描述
如果训练时没见过这类图片，而且W又比较大，那就很有可能识别成 ”玻璃杯“ ？

所以当所有的 W 都比较小的时候，各种隐含特征的重要程度就比较平衡了～
从而提高了泛化能力

更多精彩内容