关于从数据中产生“模型”的算法,即“学习算法”
如何运用:有了学习算法,将经验数据传给学习算法后,产生相应模型;在面对新情况时,模型将会给出相应的判断。
1.数据集:数据集中每条记录是关于一个事件或对象的描述,成为样本。
第一个样本:色泽=青绿;根蒂=蜷缩;敲声=浊响
第二个样本:色泽=乌黑;根蒂=稍蜷;敲声=沉闷
如表中数据集有四个样本。
属性(特征):反映事件或对象在某方面的表现或性质的事项。色泽,根蒂,敲声为属性。
属性值:属性的取值,青绿,蜷缩;浊响
属性空间:属性张成的空间。例如我们把"色泽" "根蒂" "敲声"作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间就是属性空间。
特征向量:每个西瓜都可在这个空间(属性空间)中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量,因此我们也把这个坐标向量称为一个特征向量。
数学表达:D={x1,x2,...,xm} 表示包含 m 个样本的数据集,
每个样本有d个属性描述(如上面西瓜数据使用了3个属性),则每个示例xi=(xi1;xi2;....;xid)是d维样本空间(属性空间)X中的一个向量,xi∈X,其中xij是xi在第j个属性上的取值。
为了建立预测的模型,光有前面的示例数据是不行的,还需要得到训练样本的结果信息。上图中好瓜。
(xi,yi)表示第i个样例,其中yi∈Y是示例xi的标记。
二分类(binary classification)任务:任务只有两个分类,通常另Y={−1,+1}
回归(regression)学习任务:预测的是连续值,如西瓜成熟度0.95, 9.37,Y=ℝ,ℝ为实数
测试(testing):学得模型后,使用其进行预测的过程
测试样本(testing sample):被测试的样本
综上,根据数据是否有标签可将学习任务分为两大类:
泛华能力:学的模型适用于新样本的能力。目标是要学习得到具有较强泛华能力的模型。
监督学习的目的是在于学习一个有输入到输出的映射(模型)。模型为输入空间到输出空间的映射的集合,集合是假设空间。而模型的性能由VC 维所衡量。
我们可以把学习过程看做一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设,即能够将训练集中的瓜判断正确的假设。假设的表示一旦确定,假设空间极其规模大小就确定了。
这里,假设空间由形如
(无好瓜)。可能取值所形成的假设组成。
西瓜问题的假设空间
版本空间:与训练集一致的假设集合。
学习过程:首先对假设空间进行搜索。有许多策略对假设空间搜索,如自顶向下和自底向上。然后在搜索过程中只保留与训练集正例一致的假设。图为表的版本空间。
归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好。任何一个有效的机器学习算法必须有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。
如图,回归问题。训练样本为图中的每一个点,要学得一个与训练集一致的模型,相当于找到一条穿过所有训练样本点的曲线。显然,这样的曲线具有无数条。而学习算法必须有某种偏好,才会产生“正确”模型。若认为相似的样本具有相似的输出,则会偏好A。
此时NFL定理(No Free Lunch Theorem :天下没有免费的午餐)给了我们启发:如果所有“问题”出现的机会相等、或所有问题同等重要(前提),学习算法的期望性能相等(结果)。
也就是说如果未来所有事情可能出现的所有情况都是等可能的,那预测就没有任何意义了
NFL定理给我们的启发:
1.1 只包含1和4两个样例的版本空间:
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
1 | 青绿 | 蜷缩 | 浊响 | 是 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
色泽 = × -》 根蒂 = 蜷缩 -》敲声-》浊响。色泽=× -》 根蒂 = × -》敲声 --》》浊响。等共有3*3*3+1=28种。
1.2
答:表1.1包含4个样例,3种属性,版本空间中有3∗4∗4+1=49种假设。