随机森林
即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元公线性不敏感,结果对缺失数据和非平衡的数据比较稳健,
随机森林基本原理
随机森林由LeoBreiman(2001)提出,它通过自助法(bootstrap)重采样技术,从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练样本集合,然后根据自助样本集生成k个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。其实质是对决策树算法的一种改进,将多个决策树合并在一起,每棵树的建立依赖于一个独立抽取的样品,森林中的每棵树具有相同的分布,分类误差取决于每一棵树的分类能力和它们之间的相关性。特征选择采用随机的方法去分裂每一个节点,然后比较不同情况下产生的误差。能够检测到的内在估计误差、分类能力和相关性决定选择特征的数目。单棵树的分
类能力可能很小,但在随机产生大量的决策树后,一个测试样品可以通过每一棵树的分类结果经统计后选择最可能的分类。
链接:https://www.nowcoder.com/questionTerminal/c8370f6df6b24a3c99173a226bb49f14?source=relative
来源:牛客网
1) 可以使用的评价指标:F1值,AUC值
2) 构造三大类特征:User features,Item features, Cross features。
user features:用户历史交易中的ctr转化率;用户的点击购买时差;用户在网站上的浏览习惯等。
item features:商品在历史交易中的ctr转化率;商品的点击热度;商品的点击购买时差;商品在所属种类中的热度排名等。
cross features:用户对商品的浏览、购买等行为的计数统计;用户对商品的点击热度、购买热度排序;用户对商品种类的热度排序;用户之间相似度;相似度大的用户之间的商品购买统计等。
3) Logistic模型是假设数据服从伯努利分布,采用极大似然估计法求参,然后用梯度下降的方法对参数进行优化,最后用求概率的方式对样本实现二分类。GBDT模型是对多棵决策树采用提升的思想,即每次迭代都是拟合上一棵树残差的近似值,实现分类或回归预测。
Logistic是线性分类模型,GBDT是非线性的model。
Logistic采用的是sigmoid损失函数,GBDT的回归用MSE,分类用对数或者指数损失。
Logistic对所有样本一视同仁,GBDT每一轮迭代都更加关注分错的样本。
4) 可能原因是模型的泛化能力差,即模型发生了过拟合,解决方案:
增加线下的样本规模;
减少线下提取的特征数目;
增加正则化项;
100万,这么多的数据,训练集:验证集:测试集=98:1:1。
如果是三类,可能是训练集:验证集:测试集=6:2:2