第36章决策树的优势36（1 / 2）-从零开始永生

叶伯良对于自己的项目很看重，不仅仅是因为这个项目本身就很重要。

最主要的是，倘若这个项目成功了，那么他有很大的希望进入科学院。

对于每一个做学术和研究的人来说，能够进入科学院是一种莫大的荣耀，代表着对自己应用研究的认可。

常严宁是整个项目里相当重要的一个角色，技术水平高，而且人还老实本分，对于项目还有极高的热情。

这样一个人突然罢工，叶伯良自然要来看看究竟是怎么一回事。

“什么全新版本？”

叶伯良先是瞥了夏宣一眼，很快就被常严宁拉在了电脑前。

“叶教授，你看这个！”

常严宁对着电脑屏幕指指点点，很是激动：

“你看见了吗？这里的数据清洗使用的是最普通的方式，但是经过这个决策树的预设，准确率却能够超出我们的平均数值！”

“可是你看这个决策树，没有剪枝，没有限制深度，甚至来说叶子的节点反而更多，但是能够达到像C5.0一样的正则化，所以完全没有过拟合的问题。”

“它对于特征的选择上，既可以像随机森林这样提供特征重要性的评分，还可以像L1正则化那样，让一些特征的系数变为0，甚至还有RFE的包裹式选择……可以说，在决策的初级阶段，就已经完成了交叉验证。”

“还有，还有……”

常严宁像个刚刚拿到新玩具的小孩子一样，朝着叶伯良炫耀今天做出来的成果。

大佬没有开口，夏宣只能在一边默默看着。

叶伯良原本并不在意，可是随着常严宁的介绍，他也逐渐投入其中，并且越看越心惊。

不同决策树的类型是有不同的适用场景的，在实际应用当中，面对不同的问题都需要尝试最适合的模型。

可是，现在看见的这个决策树模型，明显是一个基于ID3这种决策树早期算法形式创新的，却能够拥有其他模型的优势。

所有决策树模型都有过拟合的风险，可这个模型看起来更加复杂，但没有做出任何过拟合的方式，却能够规避过拟合的风险。

更别提这个特征选择了，远超当前，极大的提高模型性能，减少了计算成本。

对于AI，或者说人工智能而言。

决策树是机器学习的算法，而决策树越是优秀，那么在实际表现里面，就会显得更加的智能。

当前主流的决策树有八种类型，基本上除却其中的C4.5和C5.0是分别基于ID3优化改进的以外，其他的诸如随机森林、GBDT等等，都有各自的优势所在。

比如CART常用于分类和回归任务，GBDT可以迭代地添加新的树来纠正前一棵树的错误，XGBoost优化了分布式梯度提升库……

可是眼前这个决策树，看起来像是融合了所有树的优势。

它可以迭代地添加新的树，而新的树不仅可以纠正错误，还能够集成学习，再次构建多个决策树，并且将它们的预测结果进行汇总。

在这多个决策树里面，又有梯度提升框架，利用直方图的算法来加快训练速度和减少内存使用……

就好像一颗种子，生根发芽，然后开始长出枝丫，每一根枝丫又能够分裂出新的枝丫，然而这些新的枝丫却拥有不同的作用与效果。

最后一棵枝叶茂盛并且五彩斑斓的大树出现了，面对不同问题都能够生出相应的决策树来进行计算和解决。

“小常，这是你弄出来的？”

叶伯良眼里是藏不住的惊喜。

这个决策树是还没有完成的，但是有了前面这些基础，已经能够大概看出整个决策树的轮廓。

对于整个AI行业来说，这棵决策树就像那个种子，绝对能够让整个行业进行非常大的提升。

“这主要还是丁仁松。”常严宁抓抓头，笑道：“有不少地方，我都没有想好怎么处理，还是他给我找出了解决办法的。”

夏宣得到了大佬的指示，连忙说道：“我只是提供了一个基础的想法，还是得靠常工手把手完成的。”

“丁仁松……”

叶伯良看向夏宣，他思忖了一番，开始与夏宣探讨起来。

他故意提出了一些比较困难的问题，想要考较一番。

对于这些问题，夏宣的回答很慢，有时候还会静静思考好几秒，然后才能磕磕绊绊地回答。