决策树算法之随机森林

2024-05-13

1. 决策树算法之随机森林

  在 CART 分类回归树 的基础之上，我们可以很容易的掌握随机森林算法，它们之间的区别在于，CART 决策树较容易过拟合，而随机森林可以在一定程度上解决该问题。
   随机森林的主要思想是：使用随机性产生出一系列简单的决策树，并组合它们的预测结果为最终的结果，可谓三个臭皮匠赛过一个诸葛亮，下面我们就来具体了解一下。
   产生随机森林的步骤大致为三步
   在第 1 步，它是一个可放回抽样，即所产生的样本是允许重复的，这种抽样又被称为 Bootstrap，例如我们有以下 dummy 数据
   在做完 Bootstrap 之后，可能的样本数据如下
   可见，样本数据中，第 3 条和第 4 条样本是一样的，都对应的是原始数据中的第 4 条。
   接下来，就是要使用上面的样本数据来产生决策树了，产生决策树的方法和 CART 基本一致，唯一的不同地方在于，节点的构建不是来自于全部的候选特征，而是先从中随机的选择 n 个特征，在这 n 个特征中找出一个作为最佳节点。
   举个例子，假设 n = 2，且我们随机选择了「血液循环正常」和「血管堵塞」这两个特征来产生根节点，如下：
   我们将在上述两个特征中选择一个合适的特征作为根节点，假设在计算完 Gini 不纯度之后，「血液循环正常」这个特征胜出，那么我们的根节点便是「血液循环正常」，如下图所示
                                           接下来我们还需要构建根节点下面的节点，下一个节点将会在剩下的「胸口疼痛」、「血管堵塞」和「体重」三个特征中产生，但我们依然不会计算所有这 3 个特征的 Gini 不纯度，而是从中随机选择 2 个特征，取这 2 个特征中的 Gini 不纯度较低者作为节点。
   例如我们随机选到了「胸口疼痛」和「体重」这两列，如下：
   假设此时「体重」的 Gini 不纯度更低，那么第 2 个节点便是「体重」，如下图：
                                           继续下去，我们便产生了一棵决策树。
   随机森林是多棵决策树，在产生完一棵决策树后，接着会循环执行上述过程：Bootstrap 出训练样本，训练决策树，直到树的数量达到设置值——通常为几百棵树。
   现在我们产生了几百棵树的随机森林，当我们要预测一条数据时，该怎么做呢？我们会聚合这些树的结果，选择预测结果最多的那个分类作为最终的预测结果。
   例如我们现在有一条数据：
   该条数据被所有树预测的结果如下：
   上述结果聚合后为：
   取最多的那项为最终的预测结果，即 Yes——该病人被诊断为患有心脏病。
   以上，随机森林的两个过程： B ootstrap 和  Agg regate 又被称为  Bagging 。
   本文我们一起学习了随机森林的算法，和 CART 决策树比起来，它主要被用来解决过拟合问题，其主要的思想为 Bagging，即随机性有助于增强模型的泛化（Variance） 能力。
   参考：
   相关文章：

决策树算法之随机森林

2. 分类算法 - 随机森林

 上次我写了决策树算法，决策树可以解决分类问题，也有CART算法可以解决回归问题，而随机森林也和决策树非常类似，采用了CART算法来生成决策树，因此既可以解决分类问题，也可以解决回归问题。从名字中可以看出，随机森林是用随机的方式构建的一个森林，而这个森林是由很多的相互不关联的决策树组成。实时上随机森林从本质上属于机器学习的一个很重要的分支叫做集成学习。集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型，各自独立地学习和作出预测。这些预测最后结合成单预测，因此优于任何一个单分类的做出预测。   所以理论上，随机森林的表现一般要优于单一的决策树，因为随机森林的结果是通过多个决策树结果投票来决定最后的结果。简单来说，随机森林中每个决策树都有一个自己的结果，随机森林通过统计每个决策树的结果，选择投票数最多的结果作为其最终结果。我觉得中国一句谚语很形象的表达了随机森林的运作模式，就是“三个臭皮匠，顶个诸葛亮”。
                                           我有一批100条的数据，通过颜色、长度、甜度、生长地方和水果类别，那么我要预测在某种颜色、长度、甜度和生长地方的水果究竟是什么水果，随机森林要怎么做呢？
   这里的抽样是指的在这批水果中，有放回地抽样，比如我要生成3个决策树来预测水果种类，那么每棵树要抽样50条数据来生成，每棵树抽取数据后数据要放回，下一棵树抽取数据仍然要从100条数据里面抽取。这种方法就叫做 bootstrap重采样技术 。
   每棵树利用抽取的样本生成一棵树，值得注意的是，由于采用的是CART算法，因此生成的是二叉树，并且可以处理连续性数据。如果每个样本的特征维度为M，像以上提到的数据，样本特征维度5，指定一个常数m<<M，随机地从5个特征中选取m个特征子集 （这一点非常重要，这也是随机森林的随机这个名字的来源，因此这样才能保证生成的决策树不同） ，每次树进行分裂时，从这m个特征中选择最优的，并且每棵决策树都最大可能地进行生长而不进行剪枝。   此时，一颗茂盛的决策树就生成了。
   根据3颗决策树的结果，如果是连续型的数据最终需要求均值获得结果，如果是分类型的数据最后求众数获得结果。
   1）正如上文所述，随机森林算法能解决分类与回归两种类型的问题，并在这两个方面都有相当好的估计表现
   2）随机森林对于高维数据集的处理能力令人兴奋，它可以处理成千上万的输入变量，并确定最重要的变量，因此被认为是一个不错的降维方法。此外，该模型能够输出变量的重要性程度，这是一个非常便利的功能
   3）在对缺失数据进行估计时，随机森林是一个十分有效的方法。就算存在大量的数据缺失，随机森林也能较好地保持精确性
   4）当存在分类不平衡的情况时，随机森林能够提供平衡数据集误差的有效方法
   5）模型的上述性能可以被扩展运用到未标记的数据集中，用于引导无监督聚类、数据透视和异常检测
   6）随机森林算法中包含了对输入数据的重复自抽样过程，即所谓的bootstrap抽样。这样一来，数据集中大约三分之一将没有用于模型的训练而是用于测试，这样的数据被称为out of bag samples，通过这些样本估计的误差被称为out of bag error。研究表明，这种out of bag方法的与测试集规模同训练集一致的估计方法有着相同的精确程度，因此在随机森林中我们无需再对测试集进行另外的设置。
   1）随机森林在解决回归问题时并没有像它在分类中表现的那么好，这是因为它并不能给出一个连续型的输出。当进行回归时，随机森林不能够作出超越训练集数据范围的预测，这可能导致在对某些还有特定噪声的数据进行建模时出现过度拟合。
   2）对于许多统计建模者来说，随机森林给人的感觉像是一个黑盒子——你几乎无法控制模型内部的运行，只能在不同的参数和随机种子之间进行尝试。

3. 决策树、随机森林

在了解树模型之前，自然想到树模型和线性模型，他们有什么区别呢？
  
 决策树与逻辑回归的分类区别也在于此。
  
 树形模型更加接近人的思维方式，可以 产生可视化的分类规则，产生的模型具有可解释性 。树模型拟合出来的函数其实是 分区间的阶梯函数 。
  
 决策树（decision tree）是一种基本的分类与回归方法，此处主要讨论分类的决策树。决策树是一种十分常用的分类方法，属于有监督学习（Supervised Learning）。所谓有监督学习，就是给出一堆样本，每个样本都有一组属性和一个分类结果，也就是分类结果已知，那么通过学习这些样本得到一个决策树，这个决策树能够对新的数据给出正确的分类。
                                          
 决策树是一种树形结构，它主要有三种不同的节点：
  
 决策树算法主要包括三个部分： 特征选择、树的生成、树的剪枝。 
  
 比较常用的决策树算法有ID3，C4.5和CART（Classification And Regression Tree），CART的分类效果一般优于其他决策树。
  
 样本数量，特征数量上面，一开始需要注意的：
  
 
  
                                                                                  
 当熵中的概率由数据估计(特别是最大似然估计)得到时，所对应的熵称为 经验熵 (empirical entropy)。
  
 什么叫由数据估计？比如有10个数据，一共有两个类别，A类和B类。其中有7个数据属于A类，则该A类的概率即为十分之七。其中有3个数据属于B类，则该B类的概率即为十分之三。浅显的解释就是，这概率是我们根据数据数出来的。
  
 训练数据集D，则训练数据集D的经验熵为H(D)，|D|表示其样本容量，及样本个数。设有K个类Ck，k = 1,2,3,···,K，|Ck|为属于类Ck的样本个数，这经验熵公式可以写为：
                                          
 信息增益表示得知特征X的信息而使得类Y的信息不确定性减少的程度。
  
 条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性，随机变量X给定的条件下随机变量Y的条件熵(conditional entropy) H(Y|X)，定义X给定条件下Y的条件概率分布的熵对X的数学期望：
                                          
 当熵和条件熵中的概率由数据估计（特别是极大似然估计）得到时，所对应的分别为经验熵和经验条件熵，此时如果有0概率，令0log0=0。
  
  信息增益 
                                          
 一般地， 熵H(D)与条件熵H(D|A)之差成为互信息(mutual information) 。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。
  
  信息增益比 
                                          
  Gini 指数 
                                          
 
  
  
 举例计算Gini指数（不纯度）
                                          
 
  
                                          
 这个分类结果明显并不是很好，因为它没有将见面与不见面完全的分开，在算法中，当然不能凭我们的“感觉”去评价分类结果的好坏。我们需要用一个数去表示。（具体数值代入上面的基尼指数计算公式）
  
  信息增益 vs 信息增益比 
  
  Gini 指数 vs 熵 
  
 ID3算法的核心是在决策树各个结点上对应信息增益准则选择特征，递归地构建决策树。
  
 具体方法是：
  
 1）从根结点(root node)开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征。
  
 2）由该特征的不同取值建立子节点，再对子结点递归地调用以上方法，构建决策树；直到 所有特征的信息增益均很小或没有特征可以选择 为止；
  
 3）最后得到一个决策树。
  
 ID3相当于用 极大似然法进行概率模型的选择 。
  
 与ID3算法相似，但是做了改进，将信息增益比作为选择特征的标准。
  
 CART 的全称是分类与回归树。从这个名字中就应该知道，CART 既可以用于分类问题，也可以用于回归问题。
  
 回归树中，使用平方误差最小化准则来选择特征并进行划分。每一个叶子节点给出的预测值，是划分到该叶子节点的所有样本目标值的均值，这样只是在给定划分的情况下最小化了平方误差。
  
 要确定最优化分，还需要遍历所有属性，以及其所有的取值来分别尝试划分并计算在此种划分情况下的最小平方误差，选取最小的作为此次划分的依据。由于回归树生成使用平方误差最小化准则，所以又叫做最小二乘回归树。
  
 ID3 
  
 熵表示的是数据中包含的信息量大小。熵越小，数据的纯度越高，也就是说数据越趋于一致，这是我们希望的划分之后每个子节点的样子。
  
 信息增益 = 划分前熵 - 划分后熵。信息增益越大，则意味着使用属性 a 来进行划分所获得的 “纯度提升” 越大 **。也就是说，用属性 a 来划分训练集，得到的结果中纯度比较高。
  
  ID3 仅仅适用于二分类问题。ID3 仅仅能够处理离散属性。 
  
  C4.5 克服了 ID3 仅仅能够处理离散属性的问题，以及信息增益偏向选择取值较多特征的问题，使用信息增益比来选择特征。 信息增益比 = 信息增益 / 划分前熵 选择信息增益比最大的作为最优特征。
  
 C4.5 处理连续特征是先将特征取值排序，以连续两个值中间值作为划分标准。尝试每一种划分，并计算修正后的信息增益，选择信息增益最大的分裂点作为该属性的分裂点。
  
 CART 与 ID3，C4.5 不同之处在于  CART 生成的树必须是二叉树 。也就是说，无论是回归还是分类问题，无论特征是离散的还是连续的，无论属性取值有多个还是两个，内部节点只能根据属性值进行二分。
  
 决策树生成算法递归的产生决策树，直到不能继续下去为止，这样产生的树往往对训练数据的分类很准确，但对未知测试数据的分类缺没有那么精确，即会出现过拟合现象。过拟合产生的原因在于在学习时过多的考虑如何提高对训练数据的正确分类，从而构建出过于复杂的决策树，解决方法是考虑决策树的复杂度，对已经生成的树进行简化。
  
 剪枝（pruning）：从已经生成的树上裁掉一些子树或叶节点，并将其根节点或父节点作为新的叶子节点，从而简化分类树模型。
  
 实现方式：极小化决策树整体的损失函数或代价函数来实现
  
 决策树学习的损失函数定义为：
  
 https://www.cnblogs.com/ooon/p/5647309.html
  
 鉴于决策树容易过拟合的缺点，随机森林采用多个决策树的投票机制来改善决策树，我们假设随机森林使用了m棵决策树，那么就需要产生m个一定数量的样本集来训练每一棵树，如果用全样本去训练m棵决策树显然是不可取的，全样本训练忽视了局部样本的规律，对于模型的泛化能力是有害的。
  
 产生n个样本的方法采用Bootstraping法，这是一种有放回的抽样方法，产生n个样本。
  
 而最终结果采用Bagging的策略来获得，即多数投票机制。
  
 随机森林的生成方法：
  
 1.从样本集中通过重采样的方式产生n个样本
  
 2.假设样本特征数目为a，对n个样本选择a中的k个特征，用建立决策树的方式获得最佳分割点
  
 3.重复m次，产生m棵决策树
  
 4.多数投票机制来进行预测
  
 （需要注意的一点是，这里m是指循环的次数，n是指样本的数目，n个样本构成训练的样本集，而m次循环中又会产生m个这样的样本集）
  
 随机森林是一个比较优秀的模型，在我的项目的使用效果上来看，它对于多维特征的数据集分类有很高的效率，还可以做特征重要性的选择。运行效率和准确率较高，实现起来也比较简单。 但是在数据噪音比较大的情况下会过拟合，过拟合的缺点对于随机森林来说还是较为致命的。 
  
 机器学习实战（三）——决策树 https://blog.csdn.net/jiaoyangwm/article/details/79525237

决策树、随机森林

4. 随机森林算法梳理

 全称Bootstrap Aggregation的集成算法。每个基学习器都会对训练集进行 有放回抽样得到子训练集 ，比较著名的采样法为 0.632 自助法。每个基学习器 基于不同子训练集进行训练，并综合所有基学习器的预测值得到最终的预测结果 。 Bagging 常用的综合方法是投票法，票数最多的类别为预测类别 。
                                           Boosting 训练过程为阶梯状， 基模型的训练是有顺序的，每个基模型都会在前一个基模型学习的基础上进行学习，最终综合所有基模型的预测值产生最终的预测结果，用的比较多的综合方式为加权法 。   
                                           
   Stacking 是 先用全部数据训练好基模型，然后每个基模型都对每个训练样本进行的预测，其预测值将作为训练样本的特征值，最终会得到新的训练样本，然后基于新的训练样本进行训练得到模型，然后得到最终预测结果。    
                                           
   那么，为什么集成学习会好于单个学习器呢？原因可能有三：
   训练样本可能无法选择出最好的单个学习器，由于没法选择出最好的学习器，所以干脆结合起来一起用；   假设能找到最好的学习器，但由于算法运算的限制无法找到最优解，只能找到次优解，采用集成学习可以弥补算法的不足；   可能算法无法得到最优解，而集成学习能够得到近似解。比如说最优解是一条对角线，而单个决策树得到的结果只能是平行于坐标轴的，但是集成学习可以去拟合这条对角线。
   不是所有集成学习框架中的基模型都是弱模型。Bagging 和 Stacking 中的基模型为强模型（偏差低，方差高），而Boosting 中的基模型为弱模型（偏差高，方差低）。
                                           对于 Bagging 来说，每个基模型的权重等于 1/m 且期望近似相等，故我们可以得到：
                                           通过上式我们可以看到：
   在此我们知道了为什么 Bagging 中的基模型一定要为强模型，如果 Bagging 使用弱模型则会导致整体模型的偏差提高，而准确度降低。Random Forest 是经典的基于 Bagging 框架的模型，并在此基础上通过引入特征采样和样本采样来降低基模型间的相关性，在公式中显著降低方差公式中的第二项，略微升高第一项，从而使得整体降低模型整体方差。
   对于 Boosting 来说，由于基模型共用同一套训练集，所以基模型间具有强相关性，故模型间的相关系数近似等于 1，针对 Boosting 化简公式为：
                                           通过观察整体方差的表达式我们容易发现：
   基于 Boosting 框架的 Gradient Boosting Decision Tree 模型中基模型也为树模型，同 Random Forrest，我们也可以对特征进行随机抽样来使基模型间的相关性降低，从而达到减少方差的效果。
   ️那么这里有一个小小的疑问，Bagging 和 Boosting 到底用的是什么模型呢？
   随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于集成学习方法。随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。“森林”我们很好理解，一棵叫做树，那么成百上千棵就可以叫做森林了，这也是随机森林的主要思想--集成思想的体现。然而，bagging的代价是不用单棵决策树来做预测，具体哪个变量起到重要作用变得未知，所以bagging改进了预测准确率但损失了解释性。
   “森林”容易理解，就是由很多“树”组成，那么“随机”体现在什么方面呢？
   （1）训练集随机的选取：如果训练集大小为N，对于每棵树而言，随机且有放回地从训练集中的抽取N个训练样本（这种采样方式称为bootstrap sample方法），作为该树的训练集；这样保证了每颗树的训练集都不同，从而构建的树也不同
   （2）特征的随机选取：从M个特征中选取m个特征，这样可以避免某个特征与分类结果具有强相关性，如果所有特征都选取，那么所有的树都会很相似，那样就不够“随机”了
   另外还有一点，随机森林法构建树的时候不需要做额外的剪枝操作。个人理解：因为前两个“随机”操作，以及多颗树的建立，已经避免了过拟合现象，所以这种情况下，我们只需要让每棵树在它自己的领域内做到最好就可以了。
   随机森林算法的预测性能与两个因素有关：
   （1）森林中任意两棵树的相关性，相关性越强，则总体性能越容易差
   （2）森林中每棵树的预测性能，每棵树越好，则总体性能越好
   其实可以理解为要求“好而不同”。然而特征数m的选择越大，则相关性与个体性能都比较好，特征数m选择越小，则相关性与个体性能都更小，所以m的选择影响着随机森林的预测性能。
   在包括N个样本的数据集中，采用有放回的抽样方式选择N个样本，构成中间数据集，然后在这个中间数据集的所有特征中随机选择几个特征，作为最终的数据集。以上述方式构建多个数据集；一般回归问题选用全部特征，分类问题选择全部特征个数的平方根个特征
   利用CART为每个数据集建立一个完全分裂、没有经过剪枝的决策树，最终得到多棵CART决策树；
   根据得到的每一个决策树的结果来计算新数据的预测值。
   由于RF在实际应用中的良好特性，基于RF，有很多变种算法，应用也很广泛，不光可以用于分类回归，还可以用于特征转换，异常点检测等。下面对于这些RF家族的算法中有代表性的做一个总结。
   extra trees是RF的一个变种, 原理几乎和RF一模一样，有区别有：
   对于每个决策树的训练集，RF采用的是 随机采样bootstrap来选择采样集作为每个决策树的训练集 ，而extra trees一般不采用随机采样，即 每个决策树采用原始训练集。 
   在选定了划分特征后，RF的决策树会基于基尼系数，均方差之类的原则，选择一个最优的特征值划分点，这和传统的决策树相同。但是extra trees比较的激进，他会随机的选择一个特征值来划分决策树。
   从第二点可以看出， 由于随机选择了特征值的划分点位，而不是最优点位，这样会导致生成的决策树的规模一般会大于RF所生成的决策树。   也就是说，模型的方差相对于RF进一步减少，但是偏倚相对于RF进一步增大。在某些时候，extra trees的泛化能力比RF更好。 
   Totally Random Trees Embedding(以下简称 TRTE)是一种 非监督学习的数据转化方法。它将低维的数据集映射到高维 ，从而让映射到高维的数据更好的运用于分类回归模型。我们知道，在支持向量机中运用了核方法来将低维的数据集映射到高维，此处TRTE提供了另外一种方法。
   TRTE在数据转化的过程也使用了类似于RF的方法，建立T个决策树来拟合数据。当决策树建立完毕以后，数据集里的每个数据在T个决策树中叶子节点的位置也定下来了。比如我们有3颗决策树，每个决策树有5个叶子节点，某个数据特征x划分到第一个决策树的第2个叶子节点，第二个决策树的第3个叶子节点，第三个决策树的第5个叶子节点。则x映射后的特征编码为(0,1,0,0,0, 0,0,1,0,0, 0,0,0,0,1), 有15维的高维特征。这里特征维度之间加上空格是为了强调三颗决策树各自的子编码。
   映射到高维特征后，可以继续使用监督学习的各种分类回归算法了。
   Isolation Forest（以下简称IForest）是一种 异常点检测的方法。 它也使用了类似于RF的方法来检测异常点。
   对于在T个决策树的样本集，IForest也会对训练集进行随机采样,但是采样个数不需要和RF一样，对于RF，需要采样到采样集样本个数等于训练集个数。但是IForest不需要采样这么多，一般来说，采样个数要远远小于训练集个数？为什么呢？因为我们的目的是异常点检测，只需要部分的样本我们一般就可以将异常点区别出来了。
   对于每一个决策树的建立， IForest采用随机选择一个划分特征，对划分特征随机选择一个划分阈值。这点也和RF不同。
   另外，IForest一般会选择一个比较小的最大决策树深度max_depth,原因同样本采集，用少量的异常点检测一般不需要这么大规模的决策树。
   对于异常点的判断，则是将测试样本点x拟合到T颗决策树。计算在每颗决策树上该样本的叶子节点的深度ht(x),从而可以计算出平均高度h(x)。此时我们用下面的公式计算样本点x的异常概率:
     
   其中，m为样本个数。c(m)的表达式为：
     
   s(x,m)的取值范围是[0,1],取值越接近于1，则是异常点的概率也越大。
   RF的主要优点有：   训练可以 高度并行化 ，对于大数据时代的大样本训练速度有优势。
   由于可以随机选择决策树节点划分特征，这样在 样本特征维度很高的时候，仍然能高效的训练模型。 
   在训练后，可以给出各个特征对于输出的重要性
   由于采用了随机采样，训练出的模型的 方差小，泛化能力强。 
   相对于Boosting系列的Adaboost和GBDT，  RF实现比较简单 。
    对部分特征缺失不敏感。 
   缺点：   在某些噪音比较大的样本集上， RF模型容易陷入过拟合。 
    取值划分比较多的特征容易对RF的决策产生更大的影响，从而影响拟合的模型的效果。 
   数据维度相对低（几十维），同时对准确性有较高要求时。   因为不需要很多参数调整就可以达到不错的效果，基本上不知道用什么方法的时候都可以先试一下随机森林。
    sklearn.ensemble.RandomForestClassifier(n_estimators=100, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None)

5. 决策树与随机森林

 决策树（decision tree）是一种基本的分类与回归方法，本文主要讨论用于分类的决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布，其主要优点是模型具有可读性，分类速度快。决策树学习通常包括三个步骤：特征选择，决策树的生成和决策树的修剪。而随机森林则是由多个决策树所构成的一种分类器，更准确的说，随机森林是由多个弱分类器组合形成的强分类器。
   本文将先对决策树特征选择的算法ID3, C4.5和CART进行计算，然后介绍决策树的剪枝策略，最后介绍随机森林。
   在 信息论 中， 条件熵 描述了在已知第二个随机变量X的前提下，随机变量Y的信息熵还剩多少。基于X条件的Y的信息熵，用H(Y|X)表示。
   如果H(Y|X=x)为变数Y在变数X取特定值x条件下的熵，那么H(Y|X)就是H(Y|X=x)在X取遍所有可能的x后取平均的结果。
                                           首先需要知道的是熵的公式：
                                           
   条件熵的推导公式如下：
                                                                                   
   决策树分类从根节点开始，对实例的某一特征进行测试，根据测试结果将实例分配到其子节点。每一个子节点对应着该特征的一个取值。如此递归地对实例进行测试并分配，直至达到叶节点，最后将实例分配到叶节点的类中。
   决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行划分。如果利用一个特征进行分类的结果与随机分类的结果没有很大差别，则称这个特征是没有分类能力的。通常特征选择的准则是信息增益或信息增益比，特征选择的常用算法有ID3，C4.5，CART。
    信息增益表示得知特征A的信息而使得数据X的信息的不确定性的程度。    信息增益定义：特征A对训练数据集D的信息增益g(D, A)定义为集合D的经验熵H(D)与给定特征A的条件下D的经验条件熵H(D|A)之差，即：
                                           
   根据信息增益选择特征的方法是：对于给定数据集D，计算其每个特征的信息增益，并比较他们的大小，选择信息增益最大的特征。使用信息增益选择特征的算法称为C3算法。
   
   
                                           
                                                                                   信息增益值的大小是相对于训练数据集而言的，并没有绝对意义。在分类为题困难时，也就是说在训练数据集的经验熵大的时候，信息增益值会偏大。反之，信息增益值会偏小。因此，使用信息增益比可以对这一问题进行校正，这是另一种特征选择算法，也即C4.5算法。
    信息增益比定义 ：特征A对训练数据集D的信息增益比g R (D, A)定义为其信息增益g(D, A)与训练集D的经验熵之比：
                                           
   基尼指数是CART分类树用来选择最优特征的算法，同时决定了该特征的最优二值切分点。
   定义：假设有K个类，样本点属于第k类的概率为p k ，则概率分布的基尼指数定义：
                                           
   对于给定的样本集合D，其基尼指数为：
                                           
   一个特征的信息增益/基尼系数越大，表明特征对样本的熵减少的能力更强，这个特征使得数据由不确定性变成确定性的能力越强。
   决策树生成算法产生的决策树对于训练数据的分类往往很准确，但对于未知数据的分类却没有这么准确，即容易出现过拟合情况。解决的办法便是考虑树的复杂度，对已生成的树进行剪枝简化。
   决策树的剪枝往往通过极小化决策树整体的损失函数来实现。   设树T的叶节点个数为|T|，t是树T的叶节点，该叶节点有N t 个样本点，其中k类的样本点有N tk 个，k=1,2,3...K, H t (T)为叶节点t上的经验熵, α>=0为参数，则决策树学习的损失函数可以定义为：
                                                                                                                                                                   
   损失函数中C(T)表示模型对训练数据的预测误差，也即拟合程度。|T|表示模型复杂度，即节点越多模型越复杂，使用参数α来控制两者之间的影响。α越大模型越简单，对数据拟合差；α越小模型越复杂，对数据拟合性好；α=0时则不考虑模型复杂度。
   因此，剪枝就是在确定了α时，选择损失函数最小的树。
                                                                                                                                                                                                           参考：   《统计学习方法》李航   机器学习.  邹博

决策树与随机森林

6. 随机森林算法简介

随机森林是一种包含多个决策树的分类器。随机森林的算法是由Leo Breiman和Adele Cutler发展推论出的。随机森林，顾名思义就是用随机的方式建立一个森林，森林里面由很多的决策树组成，而这些决策树之间没有关联。
  
 随机森林就是用过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支------集成学习（Ensemble Learning）方法。集成学习就是使用一系列学习器进行学习，并将各个学习方法通过某种特定的规则进行整合，以获得比单个学习器更好的学习效果。集成学习通过建立几个模型，并将它们组合起来来解决单一预测问题。它的工作原理主要是生成多个分类器或者模型，各自独立地学习和作出预测。
  
 随机森林是由多棵决策树构成的。对于每棵树，他们使用的训练集是采用放回的方式从总的训练集中采样出来的。而在训练每棵树的结点时，使用的特征是从所有特征中采用按照一定比例随机地无放回的方式抽取的。
  
 随机森林的建立基本由随机采样和完全分裂两部分组成。
  
 随机森林对输入的数据进行行、列的采样，但两种采样的方法有所不同。对于行采样，采用的方式是有放回的的采样，即在采样得到的样本集合中，可能会有重复的样本。假设输入样本为N个，那么采样的样本也为N个。这使得在训练时，每棵树的输入样本都不是全部的样本，所以相对不容易出现过拟合。对于列采样，采用的方式是按照一定的比例无放回的抽样，从M个特征中，选择m个样本（m<M）;
  
 在形成决策树的过程中，决策树的每个节点都要按完全分裂的方式来分裂，直到结点不能再分裂。采用这种方式建立出的决策树的某一个叶子节点要么是无法继续分裂的，要么里面的所有样本都是指向同一个分类器。

7. 10、决策树集成--随机森林

 随机森林本质上是许多决策树的集合，其中每棵树都和其他树略有不同，每棵树的预测可能都相对较好，但可能对部分数据过拟合，我们对这些树的结果取平均值来降低过拟合，这样既保证了预测能力，又降低了过拟合。随机森林可用于回归RandomForestRegressor和分类RandomForestClassifier。
   随机树构造方法： 一 每棵树随机选择数据，从n个数据中有放回地随机抽取一个样本，共抽取n次，这样会创建一个与原数据集大小相同的数据集，但有些数据会缺失（大约三分之一），有些会重复。 二 每棵树随机选择特征，选择部分特征而不是全部。
   输出
                                           在没有调节任何参数的情况下，随机森林的精度为97%，比分类算法（逻辑回归、线性SVM）或单棵决策树都要好。随机森林的默认参数通常就可以给出很好的结果。
   输出
                                           与单棵树相比，随机森林中有更多的特征的重要性不为0。它选择了“worst perimeter”（最大周长）作为信息量最大的特征，单棵决策树选的是“worst radius”（最大半径）。一般来说，随机森林给出的特征重要性要比单棵树给出的更为可靠，随机森林比单棵树更能从总体把握数据的特征。
   这种方法非常强大，通常不需要反复调节参数就可以给出很好的结果，也不需要对数据进行缩放。随机森林拥有决策树的所有优点，同时弥补了决策树的一些缺陷。
   随机森林是随机的，设置不同的随机状态（不设置random_state参数）可以彻底改变构建的模型。
   随机森林中的树越多，模型的鲁棒性就越好。更多的树可以降低过拟合，但需要的内存也越多，即在内存允许的情况下尽量多。
   对于维度非常高的稀疏数据（比如文本数据），随机森林的表现往往不是很好。
   调节的参数主要有n_estimators（树的个数）、max_features和max_depth。n_estimators总是越大越好，较小的max_features可以降低过拟合，一般来说使用默认值就好。

10、决策树集成--随机森林

8. 决策树分类算法有哪些

问题一：决策树算法是按什么来进行分类的  决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。 
  决策树方法最早产生于上世纪60年代，到70年代末。由J Ross Quinlan提出了ID3算法，此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进，对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进，既适合于分类问题，又适合于回归问题。 
  决策树算法构造决策树来发现数据中蕴涵的分类规则．如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。第一步，决策树的生成：由训练样本集生成决策树的过程。一般情况下，训练样本数据集是根据实际需要有历史的、有一定综合程度的，用于数据分析处理的数据集。第二步，决策树的剪枝：决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程，主要是用新的样本数据集（称为测试数据集）中的数据校验决策树生成过程中产生的初步规则，将那些影响预衡准确性的分枝剪除。 
  
   问题二：数据挖掘分类方法决策树可以分多类么  数据挖掘,也称之为数据库中知识发现是一个可以从海量数据中智能地和自动地抽取一些有用的、可信的、有效的和可以理解的模式的过程.分类是数据挖掘的重要内容之一.目前,分类已广泛应用于许多领域,如医疗诊断、天气预测、信用证实、顾客区分、欺诈甄别. 现己有多种分类的方法,其中决策树分类法在海量数据环境中应用最为广泛.其原因如下： 
  1、决策树分类的直观的表示方法较容易转化为标准的数据库查询 
  2、决策树分类归纳的方法行之有效,尤其适合大型数据集. 
  3、决策树在分类过程中,除了数据集中已包括的信息外,不再需要额外的信息. 
  4、决策树分类模型的精确度较高. 该文首先研究了评估分类模型的方法.在此基础上着重研究了决策树分类方法,并对决策树算法的可伸缩性问题进行了具体分析,最后给出了基于OLE DB for DM开发决策树分类预测应用程序. 
  
   问题三：基于规则的分类器（比如用RIPPER算法）和决策树的区别在哪，使用场景有什么不同？  决策树实际上是规则分类器。基于转换的错误驱动学习方法的提出者曾经在论文中论证过这个问题，他的学习方法是规则学习器，但和决策树等价。 
  
   问题四：决策树的优缺点是什么啊  决策树(Decision Tree)是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。 
  决策树的优缺点： 
  优点： 
  
  1) 可以生成可以理解的规则。 
  
  2) 计算量相对来说不是很大。 
  
  3) 可以处理连续和种类字穿。 
  
  4) 决策树可以清晰的显示哪些字段比较重要 
  
  缺点： 
  
  1) 对连续性的字段比较难预测。 
  
  2) 对有时间顺序的数据，需要很多预处理的工作。 
  
  3) 当类别太多时，错误可能就会增加的比较快。 
  
  4) 一般的算法分类的时候，只是根据一个字段来分类。 
  
   问题五：c4.5决策树算法怎么得到分类结果  决策树主要有ID3，C4.5，CART等形式。ID3选取信息增益的属性递归进行分类，C4.5改进为使用信息增益率来选取分类属性。CART是Classfication and Regression Tree的缩写。表明CART不仅可以进行分类，也可以进行回归。 
  
   问题六：决策树分类算法的适用领域，不要概括成经济、社会、医疗领域，具体到实际问题。且用什么软件实现较方便。  决策树算法主要用于数据挖掘和机器学习，数据挖掘就是从海量数据中找出规律。一个有名的例子就是啤酒和尿布的例子，这是数据挖掘的典型。决策树算法包括ID3，C4.5，CART等，各种算法都是利用海量的数据来生成决策树的，决策树能帮助人或者机器做出决策。最简单的一个例子就是你去看病，根据决策树，医生能够判断这是什么病。软件的话用VISUAL STUDIO就可以，C语言，C++,C#，java都可以。 
  
   问题七：贝叶斯网络和贝叶斯分类算法的区别  贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯(Na?ve Bayes，NB)分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，而且方法简单、分类准确率高、速度快。 
  由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值，而此假设在实际情况中经常是不成立的，因此其分类准确率可能会下降。为此，就衍生出许多降低独立性假设的贝叶斯分类算法，如TAN(tree augmented Bayes network)算法。