第36章 决策树的优势36(1 / 2)

叶伯良对于自己的项目很看重,不仅仅是因为这个项目本身就很重要。

最主要的是,倘若这个项目成功了,那么他有很大的希望进入科学院。

对于每一个做学术和研究的人来说,能够进入科学院是一种莫大的荣耀,代表着对自己应用研究的认可。

常严宁是整个项目里相当重要的一个角色,技术水平高,而且人还老实本分,对于项目还有极高的热情。

这样一个人突然罢工,叶伯良自然要来看看究竟是怎么一回事。

“什么全新版本?”

叶伯良先是瞥了夏宣一眼,很快就被常严宁拉在了电脑前。

“叶教授,你看这个!”

常严宁对着电脑屏幕指指点点,很是激动:

“你看见了吗?这里的数据清洗使用的是最普通的方式,但是经过这个决策树的预设,准确率却能够超出我们的平均数值!”

“可是你看这个决策树,没有剪枝,没有限制深度,甚至来说叶子的节点反而更多,但是能够达到像C5.0一样的正则化,所以完全没有过拟合的问题。”

“它对于特征的选择上,既可以像随机森林这样提供特征重要性的评分,还可以像L1正则化那样,让一些特征的系数变为0,甚至还有RFE的包裹式选择……可以说,在决策的初级阶段,就已经完成了交叉验证。”

“还有,还有……”

常严宁像个刚刚拿到新玩具的小孩子一样,朝着叶伯良炫耀今天做出来的成果。

大佬没有开口,夏宣只能在一边默默看着。

叶伯良原本并不在意,可是随着常严宁的介绍,他也逐渐投入其中,并且越看越心惊。

不同决策树的类型是有不同的适用场景的,在实际应用当中,面对不同的问题都需要尝试最适合的模型。

可是,现在看见的这个决策树模型,明显是一个基于ID3这种决策树早期算法形式创新的,却能够拥有其他模型的优势。

所有决策树模型都有过拟合的风险,可这个模型看起来更加复杂,但没有做出任何过拟合的方式,却能够规避过拟合的风险。

更别提这个特征选择了,远超当前,极大的提高模型性能,减少了计算成本。

对于AI,或者说人工智能而言。

决策树是机器学习的算法,而决策树越是优秀,那么在实际表现里面,就会显得更加的智能。

当前主流的决策树有八种类型,基本上除却其中的C4.5和C5.0是分别基于ID3优化改进的以外,其他的诸如随机森林、GBDT等等,都有各自的优势所在。

比如CART常用于分类和回归任务,GBDT可以迭代地添加新的树来纠正前一棵树的错误,XGBoost优化了分布式梯度提升库……

可是眼前这个决策树,看起来像是融合了所有树的优势。

它可以迭代地添加新的树,而新的树不仅可以纠正错误,还能够集成学习,再次构建多个决策树,并且将它们的预测结果进行汇总。

在这多个决策树里面,又有梯度提升框架,利用直方图的算法来加快训练速度和减少内存使用……

就好像一颗种子,生根发芽,然后开始长出枝丫,每一根枝丫又能够分裂出新的枝丫,然而这些新的枝丫却拥有不同的作用与效果。

最后一棵枝叶茂盛并且五彩斑斓的大树出现了,面对不同问题都能够生出相应的决策树来进行计算和解决。

“小常,这是你弄出来的?”

叶伯良眼里是藏不住的惊喜。

这个决策树是还没有完成的,但是有了前面这些基础,已经能够大概看出整个决策树的轮廓。

对于整个AI行业来说,这棵决策树就像那个种子,绝对能够让整个行业进行非常大的提升。

“这主要还是丁仁松。”常严宁抓抓头,笑道:“有不少地方,我都没有想好怎么处理,还是他给我找出了解决办法的。”

夏宣得到了大佬的指示,连忙说道:“我只是提供了一个基础的想法,还是得靠常工手把手完成的。”

“丁仁松……”

叶伯良看向夏宣,他思忖了一番,开始与夏宣探讨起来。

他故意提出了一些比较困难的问题,想要考较一番。

对于这些问题,夏宣的回答很慢,有时候还会静静思考好几秒,然后才能磕磕绊绊地回答。

返回