过拟合问题(overfitting)
例子
- 线性回归

如上图,第一幅图称为欠拟合,只使用了一次函数来拟合数据,拟合效果不好。第二幅图使用了二次函数来拟合,拟合效果不错。第三幅图使用了高次函数,样本点都在预测函数上,但是很明显这个预测函数不能去预测真正的房价。这个就被称为过拟合。
- 逻辑回归

与线性回归类似,第三幅图就是过拟合。
导致原因
特征太多了
解决方法
- 减少特征数量
- 人为减少特征
- 模型选择算法(自动减少特征,之后介绍)
- 正则化
- 保留了所有的特征,但是减小了参数的数量级(或者说值)
正则化
一个例子

如上图,第二幅图因为多了两个特征,导致出现过拟合。那么如何来在不减少特征数量的情况下,对其进行修正来让其拟合效果更好呢?
主要思路:使最后两项影响变小,即使
θ3和θ4变小,来让预测函数表现的像二次函数一样。对于一般的正则化,就是使某些参数的影响减小,来避免出现过拟合。
正则化处理后的代价函数
选择一些参数,在代价函数中对其增加“惩罚”,那么在最小化代价函数的时候,这些参数将会变小,这样就达到了正则化。
J(θ)=2m1[i=1∑m(hθ(x(i)−y(i))2+λi=1∑nθj2]
一般来说,对
θ0不进行惩罚,所以从
θ1开始。式中的
λ称为正则化参数。
λ不能太大(比如
1010),若是太大,将会导致除了
θ0之外的参数过小,预测函数
hθ(x)≈θ0,这样很明显预测函数的拟合效果非常差。
线性回归的正则化
梯度下降法

比起之前的梯度下降法,使用了正则化之后,只是在后面加了一项
mλθj。而整理之后,发现就是给
θj乘了
(1−αmλ),这个数是一个小于1的正数。
正规方程法

比起之前的方法,这个地方只是在括号里加了一个矩阵
λ⎣⎢⎢⎢⎢⎡0........01......001.........................1⎦⎥⎥⎥⎥⎤
因为加了一个矩阵,所以在正规化方法中一般不会出现矩阵不可逆的情况。
逻辑回归

逻辑回归中正则化处理就是给代价函数中加入惩罚项
2mλ∑j=1mθj2
梯度下降法

与线性回归的梯度下降法很类似,但两者是不同的算法。
其他高级优化方法
(略写)
