参考 https://blog.csdn.net/ranghanqiao5058/article/details/78458815
如果本来一件事情发生的概率是50%,那么如果我知道了这件事情,那么这个信息就是有价值的。
相当于信息论中的互信息,知道一个信息不确定性减少的程度的大小,信息增益越大,代表这个信息越有价值。
统计学习书上面的公式太难理解,用正常方式我推不出来,自己写了一版。
为了解决信息增益一直选择增益取值最大的那个。我的理解,为了增加泛化能力,像DQN中,不是每次选择max Q 那个,而是增加一些随机性。
基尼指数Gini(D)表示集合D的不确定性,基尼指数Gini(D,A)表示经A=a分隔后集合D的不确定性,基尼指数越大,样本的不确定性就越大。
总的思想就是设定阈值,没有到达的话就不断向下继续if,then逻辑,到达阈值的话,利用投票法设置当前分支应该属于的类。
与上面两个决策树不同的是,Cart的准则是取每次基尼系数最小的那个
信息增益,信息增益比意味着知道这个特征信息对最终决策的不确定减少的程度。
基尼系数意味着以这个特征信息作为条件,得到的最终结果的不确定性,自然和上面的两个指标opposite.
a 决策树生成:基于训练集生成,生成的决策树要尽量的大
b 决策树剪枝:基于验证集剪枝。