第2章 模型评估与选择·
2.1 经验误差与过拟合
错误率:分类错误的样本数占总样本数的比例
精度:1-错误率
过拟合:学习器把训练样本学的太好,甚至把训练样本的特点当做了潜在样本的一般性质,导致泛化性能下降的现象。
引起过拟合的因素一般是学习能力太过强大。
欠拟合:对训练样本的一般性质没有学习好。
引起欠拟合的因素一般是学习能力低下。
对候选模型的评估方法,对泛化误差进行评估,并选取泛化误差的最小的。由于无法直接获得泛化误差,需要选择一定的评估方法。
2.2 评估方法
需要建立测试集(testing set),将模型在测试集上测试误差(testing error)作为泛化误差的近似。
2.2.1 留出法
操作方法
将数据集D划分为两个互斥的集合,其中一个作为训练集S,另外一个作为测试集T。在S训练完后,在T上进行测试,得到测试误差,作为泛化误差的近似。
注意事项
2.2.2 交叉验证法
操作方法
交叉验证法首项将数据集D划分为k个大小相似的互斥子集,每个子集尽可能保持数据分布一致(分层采样)。将其中的k-1个子集作为训练集,剩余一个子集作为测试集。将每个子集均做为测试集进行一次(共k次)交叉验证法,又称为k折交叉验证。
注意事项
2.2.3 自助法
操作方法
给定一个包含m个样本的数据集D,每次从中挑选一个样本拷贝进D‘,执行m次后,可以得到一个包含m个样本的数据集D’。若执行次数无限多,那么大概有 的样本始终没有被选择到。将D’作为训练集,将D\D’作为作为测试集。这样的测试结果,也作为包外估计。
注意事项
2.2.4 参数调节与最终模型
参数调节
对每个参数选定一个范围和变化步长,例如在[0,0.2]范围内以0.05作为步长,从候选值中选出定值。假定算法有3个参数,每个参数仅考虑5个候选值,这样就有 个模型进行考察。
最终模型
在学习算法和参数配置已经选定后,应该用数据集D重新训练整个模型,在训练中需要使用数据集中所有的m个样本。
2.3 性能度量
用于衡量模型泛化能力的评价标准,就是性能度量。
在回归模型中,常用的性能度量是均方误差(mean squared error)
当给定数据分布 和概率密度函数 ,均方误差可以描述为
个人的直观理解为,已知数据集中每个数据出现的概率,可以求出模型对于数据的均方误差。
2.3.1 错误率与精度
错误率
对于分类任务来说,可以认为是分类错误的样本数占样本总数的比例
对于给定数据分布,可以认为
精度
给定数据分布,可以认为
KaTeX parse error: Expected 'EOF', got '\romannumeral' at position 1: \̲r̲o̲m̲a̲n̲n̲u̲m̲e̲r̲a̲l̲1
2.3.2 查准率,查全率与F1
对于二分类问题,可以将样例根据其真实类别与学习器预测类别的组合划分为:真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)四种情况,用TP、FP、TN、FN代表四种情况,显然可得TP + FP + FN + TN = 总样本数。
TP:本身为正例,预测结果也为正例。
FP:本身为反例,预测结果为正例。
TN:本身为反例,预测结果也为反例。
FN:本身为正例,预测结果为反例。
查准率:
查全率:
可以这样理解,我们观察到的肯定是模型的输出结果,准确的应该是TP,但是由于模型精确度不够高,有些反例也被当做正例,也就是FP,故查准率应该是TP占TP和FP的百分比。从另一方面来讲,我们想要了解到正例在分类中的出现情况,然而有些正例被当做反例输出出来了,即FN,所以查全率是TP占TP和FN的百分比。
这一对度量是相互矛盾的,即查准率高的时候,查全率往往偏低,查全率高的时候,查准率往往偏低。
关于P-R曲线,个人觉的西瓜书上讲解的不是很清楚,可以参考这篇博客
有几点觉得还是值得注意的
F1度量
度量
其中
表示查全率相对于查准率的重要性,
时查全率有更大的影响,
时查准率有更大的影响。
在面对多分类问题的时候,可以选择计算两两类别之间的混淆矩阵,进而得到两两数据之间的P和R,对P和R求平均值可以得宏查准率和宏查全率。也可以计算两两类别之间的混淆矩阵,对混淆矩阵求平均值,进而得到微查准率和微查全率。