做一个CART现在还是用 C4.5 吗?

r
repast
楼主 (未名空间)

【 以下文字转载自 DataSciences 讨论区 】
发信人: repast (xebec), 信区: DataSciences
标 题: 做一个 decision tree 现在还是用 C4.5 吗?
发信站: BBS 未名空间站 (Wed Oct 30 23:30:15 2019, 美东)

三十年前的算法了,目前有没有更好的选择?C5.0 靠谱吗?
C4.5 和 boosting 的关系是啥,过去5年这方面只听说 boosting 了。

这些术语好混乱:

Gradient boosting
Boosted Trees (= Gradient tree boosting)
Tree boosting

m
magliner

就是这个人改进一点,起个名字 那个人改进一点,起个名字。 4.5是挺有名的,作者
是叫什么man, friedman? 斯坦福的物理教授?
大同小异。 这个树真比那个树好? 我没觉出来, 谁用过谁来说说。R的很多树我都调用过,有的跑起来很慢, 有的最后生成文件特别大, 有的语法很奇怪。 最后还是随
大流用rpart,作者好像是默克药厂的,实现c4.5算法。
忘说了, wickham hadley自己发明了一种树算法,起名叫ranger . 人家是永远不消停,不断发明新东西。
r
repast

Friedman 应该是做 boosting, GBM的。
Ranger 是这个吗? https://github.com/imbs-hl/ranger

【 在 magliner (magliner) 的大作中提到: 】
: 就是这个人改进一点,起个名字 那个人改进一点,起个名字。 4.5是挺有名的,作者
: 是叫什么man, friedman? 斯坦福的物理教授?
: 大同小异。 这个树真比那个树好? 我没觉出来, 谁用过谁来说说。R的很多树我都调
: 用过,有的跑起来很慢, 有的最后生成文件特别大, 有的语法很奇怪。 最后还是随
: 大流用rpart,作者好像是默克药厂的,实现c4.5算法。
: 忘说了, wickham hadley自己发明了一种树算法,起名叫ranger . 人家是永远不消停
: ,不断发明新东西。

m
magliner

我记不清这个慢那个慢, 前几年研究过一阵,觉得大同小异。 树这种东西其实解释不太清楚,数据变一变,树就不一样, 人眼也就看3,4层了不起了,所以我觉得树没啥大用。
但是用森林, 预测效果还是相当不错的。R里面这种‘小发明’多的不得了(什么fern, 条件树,等等),用来用去,还是cpart手感最好,最流行。

好像你也是老江湖了, 为啥琢磨这玩意 ?

【 在 repast (xebec) 的大作中提到: 】
: Friedman 应该是做 boosting, GBM的。
: Ranger 是这个吗? https://github.com/imbs-hl/ranger

r
repast

森林的话每棵树都很矮?最后都是加起来?fern才听说,研究下。
问题要解决好,最终还是要上ml, 最近才有机会琢磨这块,
即使做技术的应用,也还是喜欢做这种有探索性的东西,
不做世界上有人做过的,而是解决没人想做,或者没人敢做的问题。

【 在 magliner (magliner) 的大作中提到: 】
: 我记不清这个慢那个慢, 前几年研究过一阵,觉得大同小异。 树这种东西其实解释不
: 太清楚,数据变一变,树就不一样, 人眼也就看3,4层了不起了,所以我觉得树没啥大
: 用。
: 但是用森林, 预测效果还是相当不错的。R里面这种‘小发明’多的不得了(什么
fern
: , 条件树,等等),用来用去,还是cpart手感最好,最流行。
: 好像你也是老江湖了, 为啥琢磨这玩意 ?