决策树模型的优缺点

2024-05-13

1. 决策树模型的优缺点

优点：决策过程更接近人的思维， 因此模型更容易解释；能够更清楚地使用图形化描述模型；速度快；可以处理连续性和离散型数据；不需要任何领域知识和参数假设；适合高维数据。
缺点：
对于各特征样本量不均衡的数据， 信息增益更偏向于那些数值更多的特征；不支持在线学习；容易过拟合；一般来说， 决策学习方法的准确率不如其他模型。

应用决策树决策方法必须具备以下条件：
（1）具有决策者期望达到的明确目标。
（2）存在决策者可以选择的两个以上的可行的备选方案。
（3）存在决策者无法控制的两个以上不确定因素。
（4）不同方案在不同因素下的收益或损失可以计算出来。
（5）决策者可以估计不确定因素发生的概率。

决策树模型的优缺点

2. 思维模型五十四：决策损失

    决策损失思维模型，其实就是字面意思：指在做决策的时候，应该先考虑一下如果损失了，我们是否能承受，如果承受不住，就应该更妥善的考虑这件事是否值得去做这个决策，如果承受的住，我们获得利益，是否是你想要的，综合各方面来做决策，而不只是考虑利益，而忽视损失，避免后悔和无法承担的损失。
  
     在我们做出决策时，会倾向于想到，我可能会获得什么，怎么获得，怎么做。而容易忽略自己会损失什么。而大多数情况下，获得是个小概率，损失则几乎是大概率的，过于把事情想得太美好，是很多人的本能，从理性角度来看，决策时先考虑损失更加理性。
  
 具体应用的时候可以参考以下几点去思考和想想：
  
 1、考虑损失部分，自己可否承受，能承受多久；
  
 2、考虑获得概率，获得的总量；
  
 3、用50年的时间线去看问题，看看想做的事情可否产生复利法则；
  
 
  
  
 
  
                                          
 -- 本文部分内容来源百度和知乎

3. 多元思维模型4：决策树——面对不确定性，如何做决策。

查理芒格在谈 基本的、普世的智慧 的时候，提到的第一条规则就是要拥有多元思维模型。如果只有很少的模型，根据人类的认知偏差，人会扭曲现实，直到它符合你的思维模型。这被查理芒格称之为“铁锤人”，是一种灾难性的思考方式。
  
 所以我们希望把查理芒格提到的一些重要的思维模型整理出来，帮助大家避开“铁锤人”思维，掌握基本的、普世的智慧。决策树模型是我们整理的多元思维模型的第四个模型。
  
 芒格说：“这么多年来，我一直跟巴菲特同事，他拥有许多优点，其中之一就是它能够自动地根据决策树理论和基本的排列组员原理来思考问题。”
                                          
  费马和帕斯卡 的努力，标志着概率论的诞生，而概率是风险管理和决策理论的基础。
  
 之前还提到过 条件概率和贝叶斯定理 ，可能讲得有些复杂，但是原理很简单，就是“当信息更新之后，我们的结论的概率也发生了变化。”
  
 用公式描述就是： 初始概率 & 新的信息 = 新的概率 
  
 比如那篇文章举的一个例子：假设人类患某种癌症的概率是0.08%，现在最先进的技术检测患这种癌的正确率是99%，如果小明检测患这种癌，那么他患这种癌症的概率是多少？
  
 直觉会认为检测患这种癌的正确率是99%，那么他患这种癌症的概率应该是99%。
  
 但是正确的方式是：0.08%（初始概率） & 99%（新信息），最后的结果是7.34%，远低于直觉的99%。计算方法在 贝叶斯定理 这篇文章有讲到。
  
 如果这个例子比较难理解，那我们换一个。
  
 我们知道掷骰子出现3的概率是1/6，这时候多了一个信息，点数是奇数，那么概率就变成了1/3。
  
 初始概率 & 新的信息 = 新的概率
  
 （1/6） & （是奇数） = 1/3
  
 假设这时又多了一个信息，点数为“小”，那么概率就变成了1/2。
  
 贝叶斯的分析方法就是不断把新的信息加入到推理和决策的过程，也就是本文要讲的“决策树”。决策树是一种在不完全信息情况下，帮助我们做出更高概率正确决策的思考工具。
  
 用决策树其实也很简单，主要三个步骤：
  
 1、画决策树（画出分支）；
  
 2、分析各种几率和收益损失；
  
 3、反向求解（ 从末端开始向前推导，确认每个分支的价值，然后在每个结点处找出自己应该做的选择）。
  
 决策树的4个作用：
  
 1、帮助我们选择平均回报最高的决策，
  
 2、根据别人的选择推测他人对事件发生几率的预测。
  
 3、推测价值，或是别人认为的价值。
  
 4、判断信息价值。
  
 下面我们来看例子：
  
 决策树作用1：帮助我们选择平均回报最高的决策。
  
 案例1：一次分叉决策树。
  
 假设现在2点，你要去做火车，3点的票200元，但是40%的概率赶不上，4点的票400元。应该怎么买？
  
 按照之前的方法，可以算一下期望，买3点的票期望：
  
 =0.6*200+0.4*600=360元，比400少，应该买三点的票。画成决策树就是：
                                          
 ？位置的数值，由两个分支结点可以算出来为360元。所以选3点的票，更高概率能省钱。
  
 案例2：两次分叉决策树。
  
 现在你想要参加一场比赛，奖金有5000元。有初选和决赛两个环节。
  
 初选，200人参加，报名费20元。
  
 决赛，10人进决赛，需要40元准备材料。
  
 假设每个人的概率都相同，你应该参加初选和决赛么？
  
 初选200人，所以参加初选进决赛的概率=1/200=0.05，没进的概率0.9。
  
 决赛10人，所以参加决赛夺冠的概率=0.1，收益5000-60元，没夺冠的概率0.9，损失等于两次费用60元。
  
 决策树：
                                          
 可以先算出参加决赛的期望：B = 0.1*4940 - 0.9*60=440，对比损失20元，应该参加决赛。
  
 然后可以算出参加初赛的期望：A = 0.05&440 - 0.95*20=3，应该参加初赛。
  
 如果参赛的人再多一点点，比如250人，初赛胜出概率变成0.04，期望A的结果就变成了-1.6。这时候就不该应参与了。
                                          
 所以决策树的本质是让我们更方便计算期望，从而更好的做出更高概率正确的决策。而期望也是概率决策理论中最基础，也最重要的概念。巴菲特说：“用亏损的概率乘以可能亏损的金额，再用盈利概率乘以可能盈利的金额，最后用后者减去前者。这就是我们一直试图做的方法。这种算法并不完美，但事情就这么简单。”
  
 决策树作用2：根据别人的选择推测他人对事件发生几率的预测。
  
 假设一支股票需要投入2000元，预期回报50000元。假设一个人已经投了，可以算出他对成功概率的想法。
  
 假设投资成功的概率是P，那么失败的概率是（1-P）。还是用决策树：
                                          
 既然一个投资了，那么他至少认为投资的期望应该大于0，
  
 即，投的期望 A = 50000P-2000（1-P）> 0
  
 所以P > 4%。
  
 所以投的人认为投资成功的概率应该大于4%。
  
 决策树作用3：推测价值，或是别人认为的价值。
  
 这个案例很有意思，可以推测你的男朋友认为见你这件事值多少钱。
  
 假设你的男朋友有一张候补机票去看你，他通过航空公司知道：
  
 1/3概率能飞；
  
 2/3飞不了。
  
 通过他去不去机场，就能判断他认为见你这件事值多少钱。
  
 假设他认为看你的价值为G(irl)，坐车各种花费为300元。
  
 先画出决策树：
                                          
 如果他不去机场，可以认为他觉得A < 0。
  
 A = (1/3)*(V-300)-(2/3)*300>0
  
 V < 900元。
  
 所以如果他不去的话，可以认为他觉得见你不值900元。 = _ =!!!。所以你知道该怎么做了吧。
  
 决策树作用4：判断信息价值。
  
 我们知道通过新的信息可以提高判断的概率，如果一个新信息能够做到这点，我们就说这条信息是有价值的，而且这个价值可以计算出来。
  
 信息的价值 = 得到信息的期望 - 没有信息的期望
  
 假设现在买大小，每次下注20元，买中点数获得120元。
  
 假设现在有人可以告诉你信息是奇数、还是偶数，要价15元，你是否应该买这条信息？
  
 没有新信息的期望：120*(1/6)-20 = 0
  
 得到新信息的期望：120*(1/3)-20 = 20 元。
  
 这条信息的价值：20元。所以15元买这条信息，理论上是划算的，可以买。
  
 当然很多时候，概率并不是这么明显可以知道的，所以相应的决策也会更复杂。而且很多时候还需要考虑其他因素，《 概率基础：期望、方差和正态分布 》这篇文章就提到有时候只知道期望是不够的。但是用决策树作为决策参照，会比凭感觉要靠谱得多。
  
 查理芒格说：“掌握排列组合原理并不难，真正困难的是在日常生活中习惯于几乎每天都应用它。”决策树也一样，看懂上面这些例子并不难，真正困难的是在日常生活中习惯于几乎每天都应用它。每个人每天做决策的次数都很多，其中一两次拿出来试试用决策树的方法来思考，也许就能打开一片新的世界。
  
 相关阅读：
  
  多元思维模型1：复利模型——拥抱指数增长 
  
  多元思维模型2：费马帕斯卡系统——理解真实世界运转的方式 
  
  多元思维模型3：排列组合——提升决策质量必备思维方式

多元思维模型4：决策树——面对不确定性，如何做决策。

4. 简述决策树模型有哪些重要特征

　　(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。

　　决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。

　　分类树（决策树）是一种十分常用的分类方法。他是一种监管学习，所谓监管学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。
　　决策树易于理解和实现，人们在在学习过程中不需要使用者了解很多的背景知识，这同时是它的能够直接体现数据的特点，只要通过解释后都有能力去理解决策树所表达的意义。

　　对于决策树，数据的准备往往是简单或者是不必要的，而且能够同时处理数据型和常规型属性，在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

　　易于通过静态测试来对模型进行评测，可以测定模型可信度；如果给定一个观察的模型，那么根据所产生的决策树很容易推出相应的逻辑表达式。

5. 白话一下什么是决策树模型

决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。
决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。
分类树（决策树）是一种十分常用的分类方法。他是一种监管学习，所谓监管学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。

白话一下什么是决策树模型

6. 白话一下什么是决策树模型

白话一下什么是决策树模型
有一天，小明无聊，对宿舍玩CS的舍友进行统计，结果刚记下四行，被舍友认为影响发挥，给踢到床下去了，让我们看看可怜的小明的记录：-----------------------------武器 | 子弹数量 | 血 | 行为-----------------------------机枪 | 多 | 少 | 战斗机枪 | 少 | 多 | 逃跑小刀 | 少 | 多 | 战斗小刀 | 少 | 少 | 逃跑-----------------------------
为了对得起小明记录的这四条记录，我们对其进行决策树分析，从数据中看：1. 如果一个玩家子弹很多，那么即使血少他也会战斗，如果子弹少的话，即使血多，他也会逃跑隐蔽起来；2. 那我们再看子弹少的情况下，武器靠刀子，当血多时候，他还是会打一打得，但是血少，就立即逃跑隐蔽了。
这是我们大脑直觉上去分析，既然本文我是想聊一聊决策树，那么我们就用决策树来对小明的这些数据小试牛刀一下，顺便来慰藉一下小明（从小到大我们已经看过无数的小明了，这里再借用一下大度的小明）。
我们现在将数据分为两块：X = {武器类型，子弹数量，血}Y = {行为}我们建立这颗决策树的目的就是，让计算机自动去寻找最合适的映射关系，即：Y = f(X)，所谓听上去大雅的“数据挖掘”学科，干得也差不多就是这回事，X我们称之为样本，Y我们称之为结果（行为/类）。
样本是多维的，X = {x1,x2,...xn}，如本例：X = {x1=武器类型，x2=子弹数量，x3=血}，我们就是要通过这些不同维度的观测记录数据，和应对的不同结果，找到规律（映射关系），举个例子：X = {天气，温度，湿度，女友约会} -> Y = {是否答应兄弟下午去打篮球}X = {老妈说你是胖子，老婆说你是胖子，自己上秤评估自己体重} -> Y = {去办健身卡减肥}
这样来说，X的多维不同的数据，大个比方，更像是很多大臣，那么我们就是要根据这些大臣的意见，来决策，如本例：>> 左大臣：武器类型>> 中大臣：子弹数量>> 右大臣：血
这些大臣每个人都有想法，左右着皇帝继续战斗还是撤退，但是三个也不能全信，那么我们就要根据他们的陈年老帐（训练样本）来评判他们的话语的重要性，当然，优先级高的肯定话语是有重量的，我们先提前来预览一下这个例子训练出来的决策树的样子：这个根据小明的数据训练出来的决策树是不是和我们刚才拍脑门分析出来的结果差不多呢？看，子弹多就开打，子弹少，在看看用什么武器，如果又没子弹又用机枪，那铁定跑，如果用小刀，在掂量一下自己血厚不厚，厚则打，不厚则逃，看来决策树分析的结果还是可以的啊,接下来，我们来研究研究，计算机（这个只会重复人们给它设定的代码的家伙）是如何实现这样的分析的。
既然是三个大臣提意见{左大臣：武器类型，中大臣：子弹数量，右大臣：血}，那么我们要分析一下历史数据（训练数据）他们哪个话更靠谱：
我们先单纯的看看左大臣的历史战绩（统计训练样本）：机枪 -> 战斗机枪 -> 逃跑小刀 -> 战斗小刀 -> 逃跑用机枪，你战斗逃跑的概率都是50%，用刀子，你亦似打似逃！看来这个大臣立场不坚定啊！
再看看中大臣的：子弹多 -> 战斗子弹少 -> 逃跑子弹少 -> 战斗子弹少 -> 逃跑用机枪，你战斗概率是100%，用刀子，你33.3%打，你66.6%撤！这位大臣似乎坚定了一些。
再看看右大臣的：血少 -> 战斗血多 -> 逃跑血多 -> 战斗血少 -> 逃跑和左大臣一样，立场不坚定，50:50啊！
这样，中大臣的话的重量就提升了，因此决策书的第一层就重用中大臣吧（中大臣变成一品大员）
计算机是怎么来做到这一步的呢？且让我一步一步讲：
决策树训练中，有一个很重要的尺子，来衡量大臣的可信度，这个尺子，就是信息论的熵(Entropy)，这个熵是何许人也，竟然朝廷大臣的可信度竟然用次来衡量，让我们对他做个自我介绍吧：熵，洋名为（Entropy），乃测量信息的混乱程度为职，纵横科学界各门学术之中，为人低调，俭朴，就一个很短的公式：E = sum(-p(I)*log(p(I)))，I=1:N（N类结果，如本例两种，战斗或逃跑），当信息一致，所有样本都属于一个类别I，那么熵为0，如果样本完全随机，那么熵为1，表明这个臣子对这种状态的预测就是胡言乱语。
OK，熵，告诉我你对这个数据的看法：E(机枪) = -(1/2)Log2(1/2) - (1/2)Log(1/2) = 0.5 + 0.5 = 1E(小刀) = -(1/2)Log2(1/2) - (1/2)Log(1/2) = 0.5 + 0.5 = 1E(子弹多) = -(1/1)Log2(1/1) - (0/1)Log(0/1) = 0 + 0 = 0E(子弹少) = -(1/3)Log2(1/3) - (2/3)Log(2/3) = 0.5283 + 0.39 = 0.9183E(血多) = -(1/2)Log2(1/2) - (1/2)Log(1/2) = 0.5 + 0.5 = 1E(血少) = -(1/2)Log2(1/2) - (1/2)Log(1/2) = 0.5 + 0.5 = 1
那么我们怎么用这个熵来衡量大臣（每维数据）的可信度呢，这里还要再引出一位仁兄，其是熵的上级，他熟知熵的能力，很会用熵，他就是信息增益(Information Gain)，我们来看看这位上级是如何用熵来衡量的：Gain(Sample,Action) = E(sample) - sum(|Sample(v)|/Sample * E(Sample(v)))OK，Information Gain，说说你是怎么评估这个例子的三位大臣的！
Gain(武器类型) = E(S) - (2/4)*E(机枪) - (2/4)*E(小刀) = 1 - (2/4)*1 - (2/4)*1 = 0Gain(子弹数量) = E(S) - (1/4)*E(子弹多) - (3/4)*E(子弹少) = 1 - (1/4)*0 - (3/4)*0.9183 = 0.3113Gain(血量) = E(S) - (2/4)*E(血多) - (2/4)*E(血少) = 1 - (2/4)*1 - (2/4)*1 = 0
接着，计算机通过信息增益结果，选择最大的，作为一品大员
且看一品大员对子弹多的情况下料事如神（暂且不说本例样本少），但是其在子弹少的情况下，决策还是不行的，那么，再用同样的方法，再去选择二品，三品，这就是决策树的训练，呵呵，不知有没有帮助各位理解

7. 决策树的训练复杂度

并不是很复杂。
决策树模型因为其特征预处理简单、易于集成学习、良好的拟合能力及解释性，是应用最广泛的机器学习模型之一。
决策树算法在决策领域有着广泛的应用，比如个人决策、公司管理决策等。算法逻辑模型以“树形结构”呈现，因此它比较容易理解，并不是很复杂，我们可以清楚地掌握分类过程中的每一个细节。
控制决策树的复杂度：
若所有叶结点都是纯的，模型过于复杂，训练集拟合度过高，出现过拟合。
两种方法防治过拟合:
预剪枝：限制树的生长到某一次停止。限制树的最大深度、叶结点的最大数目…
后剪枝：生成纯树以后把信息少的结点删掉。

常见决策树分类算法
1、CLS算法
最原始的决策树分类算法，基本流程是，从一棵空数出发，不断地从决策表选取属性加入数的生长过程中，直到决策树可以满足分类要求为止。CLS算法存在的主要问题是在新增属性选取时有很大的随机性。
2、ID3算法
对CLS算法的最大改进是摒弃了属性选择的随机性，利用信息熵的下降速度作为属性选择的度量。ID3是一种基于信息熵的决策树分类学习算法，以信息增益和信息熵，作为对象分类的衡量标准。
ID3算法结构简单、学习能力强、分类速度快适合大规模数据分类。但同时由于信息增益的不稳定性，容易倾向于众数属性导致过度拟合，算法抗干扰能力差。
3、C4.5算法
基于ID3算法的改进，主要包括：
使用信息增益率替换了信息增益下降度作为属性选择的标准。
在决策树构造的同时进行剪枝操作。
避免了树的过度拟合情况。
可以对不完整属性和连续型数据进行处理。
使用k交叉验证降低了计算复杂度。
针对数据构成形式，提升了算法的普适性。
4、SLIQ算法
该算法具有高可扩展性和高可伸缩性特质，适合对大型数据集进行处理。
5、CART算法
CART是一种基于二分递归分割技术的算法。该算法是将当前的样本集，分为两个样本子集，这样做就使得每一个非叶子节点最多只有两个分支。因此，使用CART算法所建立的决策树是一棵二叉树，树的结构简单，与其它决策树算法相比，由该算法生成的决策树模型分类规则较少。

决策树的训练复杂度

8. 【328→思维模型】禁果效应+路径依赖+决策树

越禁止的东西，人们越想要得到手，越希望掩盖某个信息，不让被人知道，它越容易勾起别人的好奇心和探求欲，反而促使别人想尽一切办法来获取被掩盖的信息，禁果效应也叫亚当夏娃效应，或者叫罗密欧与朱丽叶效应。
                                                                                  
  1）定义 
  
 指人类社会中的技术演进或制度变迁均有类似于物理学中的惯性，即一旦进入某一路径（无论好还是坏）就会沿着该路径一直发展下去，并锁定在该路线上，惯性的力量会使这一选择不断自我强化，并让你轻易走不出去。
  
  2）影响 
  
 积极：正反馈，通过惯性和冲力，产生飞轮效应，进入良性循环。
  
 消极：负反馈，通过惯性和冲力，产生泥沼效应，进入恶性循环。
  
  3）形成原因 
  
 历史选择，转换成本，网络效应，认知凝滞，进化近视
  
  4）突破 
  
 新：革新理念，居安思维
  
 舍：敢于放弃，沉没成本
  
 创：创新开拓，另辟蹊径
                                          
 每个决策或事件都可能引出两个或多个事件，导致不同的结果，把这种决策分支画成图形很像一棵树的枝干，故称决策树。
                                          
  四步骤： 
  
 1）绘制树状图
  
 2）标识损益值
  
 3）计算期望值
  
 4）剪枝做决策
  
  应用的五个条件： 
  
 1）目标：具有决策者期望达到的明确目标
  
 2）方案：存在决策者可以选择的两个以上的可行备选方案
  
 3）变量：存在着决策者无法控制的两种以上的自然状态。
  
 4）损益：不同方案在不同状态下的损益值可以计算出来。
  
 5）概率：决策者能估算不同的状态下的发生概率。