【不理解:】经过恰当的归一化后,可以假设W一半正,一半负
我们初始化的W让它在(0,1)之间是为了尽量平衡 隐含特征 之间的重要程度,提高泛化能力
=> 思考:为啥W越小,泛化能力越高
所以我才会想到把 W 初始化为0
在隐藏层的前向传播过程中,样本值与W都会对计算值有影响
-- W如果非常小(近似0),则可能会导致前向传播过程计算的值比较小
由链式求导法则的累乘效应来看,可能会导致最终计算的梯度非常小,从而影响参数的更新
首先,泛化能力高表示什么:
能更好的处理未见过的数据,比如有一只装进瓶子里的猫
如果训练时没见过这类图片,而且W又比较大,那就很有可能识别成 ”玻璃杯“ ?
所以当所有的 W 都比较小的时候,各种隐含特征的重要程度就比较平衡了~
从而提高了泛化能力