支持向量机（SVM）

2024-05-17

1. 支持向量机（SVM）

  参考Jerrylead 和 july-支持向量机通俗导论 
   再回忆一下逻辑回归：Logistic回归目的是从特征学习出一个0/1分类模型，而 这个模型是将特征的线性组合作为自变量 ，由于自变量的取值范围是负无穷到正无穷。因此，使用logistic函数（或称作sigmoid函数） 将自变量映射到(0,1)上，映射后的值被认为是属于y=1的概率 。
                                           中间那条线是θ T x=0，logistic回归强调 所有点 尽可能地远离中间那条线。学习出的结果也就中间那条线。   但是：   考虑上面3个点A、B和C。从图中我们可以确定A是×类别的， 然而C我们是不太确定的 ，B还算能够确定。这样我们可以得出结论， 我们更应该关心靠近中间分割线的点，让他们尽可能地远离中间线，而不是在所有点上达到最优（引出了下面的函数间隔与几何间隔） 。
   我想这就是支持向量机的思路和logistic回归的不同点：   支持向量机考虑局部（不关心已经确定远离的点），   逻辑回归一个考虑全局（已经远离的点可能通过调整中间线使其能够更加远离，但是也可能使一部分点靠近中间线来换取另外一部分点更加远离中间线。）
   上面已经知道，θ T x=0是分类的线，在svm中，只考虑局部，只考虑θ T x的正负问题，而不用关心g（z）。因此，在这里，用w T x+b代替θ T x，并 对g(z)做一个简化 ，将其简单映射到类别标签y=1和y=-1上。
                                           这里的y取值为1和-1（在svm中，只考虑局部，只考虑θ T x的正负问题），是为了方便定义：在分类正确的情况下，函数间隔（确信度 ）的大小
   比如，在分类正确的情况下，y等于1，wx+b应该为正数越大，则情况越好，是正例的确定度就越大。就如上图的A点。y等于-1，wx+b应该为负数越大，则情况越好是负例的确信度就越大。
   所以， 函数间隔越大，说明分类正确的置信度越大。函数间隔越小 ，比如上图c点，说明越不能确定c点属于哪一类。 
   可以为 别的值，只是为了方便。这一点在参考的第二个博客上也已经说明了。
   由上面解释，已知可以用y(wT x + b) 的正负性来判定（或表示）分类的正确性。
   定义函数间隔如下：
                                           也就是，这个样本点x与超平面之间的间隔（但是现在有些不准确，所以有下面的几何间隔）。
                                           此时，若根据SVM的思想，最大化这个间隔，就能提高分类正确的确信度了吗？
   答案是否定的，因为，如果成比例的改变w 和b（如将它们改成2w 和2b），则函数间隔的值f(x) 却变成了原来的2 倍（ 虽然函数值增大了，达到了目标，但是此时超平面没有改变 ），所以只有函数间隔还远远不够。
    我们真正关心的，其实是“几何上”的点到平面的距离，于是可以用几何知识推理出来的几何间隔。 而不是一开始人们想当然定义的函数间隔。
   事实上，我们可以对法向量w 加些约束条件（ 这就是调优问题的思考了 )，从而引出真正定义点到超平面的距离——几何间隔（geometrical margin）的概念。
                                           又因为x 0 是超平面w T x + b=0上的点，利用向量之间的运算
                                                                                   再令上式乘上对应的类别y，即可得出几何间隔
                                           从上述函数间隔和几何间隔的定义可以看出：几何间隔就是函数间隔除以∥w∥，而 函数间隔实际上就是，只是人为定义的一个间隔度量，而几何间隔才是直观上的点到超平面的距离。 
   接下来就是我们的目标：寻找一个超平面， 使得离超平面比较近的点能有更大的间距。 也就是我们不考虑所有的点都必须远离超平面，我们关心求得的超平面能够让所有点中离它最近的点具有最大间距。也就是找到最大的几何间隔。
                                           由上一小节可以知道，我们这里要找的最大间隔分类超平面中的“间隔”指的是几何间隔。
                                           上面两个式子的意思是（ 注意，函数间距上面是折线，几何间距上面是波浪线 ）：   最大化几何间隔   约束条件是，每个样例的函数间隔都要大于全局的那一个函数间隔（也就是所有训练集里的最小的那个）
   用函数间隔表示几何间隔
                                           于是得到了这个式子：
                                           然而这个时候目标函数不是凸函数，约束条件也不是线性的，没法直接代入优化软件里计算。我们还要改写。前面说到 同时扩大w和b对结果没有影响 ，因此，我们将全局的函数间隔值定义为1。于是，上述的函数转变成了
                                           由于求1/||w||的最大值，相当于求||w||²的最小值，因此结果为：
                                           因为现在的 目标函数是二次的，约束条件是线性的，所以它是一个凸二次规划问题 。这个问题可以用现成的QP (Quadratic Programming) 5优化包进行求解。一言以蔽之：在一定的约束条件下，目标最优，损失最小。
    根据前面几个文章的话，SVM作为判别模型，它的的模型，就是  w T x i  + b 。参数就是w和b。学习完参数以后，新来的样例作为x i ，得到结果大于1，说明在超平面上面，所以是正例。反之亦然。 
    根据SVM的思想，SVM的初步目标函数，就是所有样例的几何间隔尽可能的大 
    至此，得到了SVM的目标函数，算是初步解决了SVM的这个问题，用优化包求解得到wb，即可得到具有最大几何间距的超平面，提高分类每个点的确信度，分类目标完成。 
   接下来介绍的是手工求解w和b的方法了，一种更优的求解方法。
                                           从上可以看出 ，就同时扩大w和b就相当于等式两边同时除以函数间隔 γ，而新的w和b仍然是旧的wb的函数，所以最大化仍然可以进行。
    效果等价于，令函数间隔γ=1，综上所述，零γ=1是合理的，而且也方便了原优化问题的计算 。
   由拉格朗日对偶（线性可分条件下SVM的对偶算法）引入核函数（非线性可分条件下SVM的算法）
   上一篇说到，得到了 如下的线性可分的SVM的目标函数 ，可以利用优化包进行求解。
                                           此外，由于这个问题的特殊结构，还可以通过拉格朗日对偶性（Lagrange Duality）变换到对偶变量(dual variable) 的优化问题，即通过求解与原问题等价的对偶问题（dual problem）得到原始问题的最优解，这就是线性可分条件下支持向量机的对偶算法。
    引入对偶的优点： 
   因为 引入拉格朗日算子可以求出极值。 （参考最优化方法的解释）
   这种极值问题怎么求
                                           首先，同样定义拉格朗日公式，希望可以利用拉格朗日算子法求得最优解，得到：
                                           但是，出现问题了，此时加入的约束条件g已经不再等于0了，所以，此时可以调整算子alpha变成很大很大的 值，使结果负无穷， 这显然是不合理的。 
   所以，我们需要 排除在满足条件下，也会无解的情况。 
   因此，我们定义下面的函数
                                           要看这个函数有什么优点，就要看看这个函数相比于L(ω,α,b)有什么变化： 加了max，加了α I 大于等于零。 
   所以，当g和h不满足约束时，总可以调整α i 和β i 来使thetap具最大值为正无穷。
   只有当g和h满足约束时，此时g<0，我们可以调整α i 和β i （使α i 等于0，β i 任意），得到最大值，即θ p =f(w)。
   于是函数等价于这样
                                           于是原来的极值问题min f(w)  就等价于求min θ p 了，   即：
                                           也就是说，最小化 θ p ，就是为了得到最小的 f(w)，而能有f(w)就说明了满足约束条件。所以这个等价于原来的极值问题。
   至此， 相比于拉格朗日公式L(ω,α,b)，现在即加入了拉格朗日算子，又排除了纯粹的拉格朗日公式中出现无穷的情况。 
   但是，又出现了新的问题，也就是，如果直接求解，首先面对的就是两个参数（最里面的是max，这个max问题有两个参数），而且alpha也是不等式约束，再在w上求最小值，这个过程并不容易做。那么应该怎么办呢？
    在最优化课程里，当遇到不好解的优化问题时，可以转化为原问题的对偶问题试试。    此处，d代表对偶。D--dual
   我们定义函数
                                           θ D  将问题转化为先求L(ω,α,b)关于 ω 的最小值（此时α和β是固定值），之后再求θ D  的最大值。 上来面对的是一个参数，相对简单些。 
   相对于原问题，更换了min和max的顺序，得到了它的对偶问题。
                                            --------------------------------------------------------------------------------------------------------------    一般的更换顺序的结果是MaxMin(X) <= MinMax(X)。也就是，此时有
                                           对偶问题已经表示出来了，这个对偶问题也相对原问题好求，那么，这两个问题等价吗？或者说，对偶问题的解是不是原问题的解呢？
   需要用KKT条件来判断了。
    对于拉格朗日算子的深入理解可以看看《最优化方法》，讲义的最后一页。 
   含有不等式约束的问题，常常 用KKT条件求得候选最优解 
   对于一般化的拉格朗日公式：
                                           最优值 w 必须满足以下三个条件：
   ----------1、L对 w 求导为零   ----------2、h(w)=0   ----------3、α i g i =0 ，i = 1，...，k
   注意此时
                                            第三个条件表明了KKT的思想：极值会在可行域边界取得。 ----解释：   -----对于一个特定的自变量w1，当自变量w1在 第 i 个 可行域边界（g i (w1)=0）时，说明此时这个约束是起到了作用的。 这个约束是w1被g i 约束了。此时只能到g i 的平面上（即边界），再多就出界了。。。 而对于最优解来说，就是f(w)达到最优，所以L中，除了f(w)部分，其余应该都等于0，所以此时α>0(或许等于零也可以？疑问）
   ----而此时，w1在其他的约束条件g 非i 下，有g 非i (w1)<0），说明W1可以随意些，说明此时这个约束并没有起到作用，但是作为最优解，为了 除了f(w)部分，其余应该都等于0 ，所以其系数α应该等于零。
    ---------------------------------------------------------------------------------------- 
    注意：这个是传统最优化问题的一般式，这个问题有k个不等式约束方程，所有的点都要满足这k个不等式约束。 。假设有一百个样本点，只有有三个极值N1，N2，N3，那么说明其余97个点带入这k个方程中去都会小于零。  另外对于这三个极值点，可能会有g i (N1) = 0,除了第i个g以外，g(N1)都小于0 。然后对于极值N2，g j (N2)=0，除了第j个约束以外，其余的g(N2)都小于0。
    而本节一开始讨论的问题，只有一个约束方程（因为参数只有w和b）即：y（w T x+b）>=1，所有的点（一共m个）都要满足这个约束方程。 而关于为什么非支持向量的系数alpha会等于零呢？也就是相当于前面的，k=1（有k个约束条件）的情况下，m个样本点中，非支持向量的约束g<0，为了最优解，除了f(w)应该都等于零，所以alpha应该等于零。
   另外可以参考这段话：
                                           即，若d* = p*   x * 满足KKT条件
   由上面那句话可以知道，
   折腾这么长时间，也就是为了说明，已经知道原问题
                                           是凸优化问题，所以，只要对偶问题的自变量w满足了KKT条件，那么它就是对偶问题的最优解w * ，同时也是原问题的最优解了。
   所以，由上可知，只要解出了2.1.3中的问题的参数w和b，也就是原问题的解了。
   重新回到SVM的优化问题（其中每个约束式实际就是一个训练样本）：
                                           我们将约束条件改写为拉格朗日的形式：
                                           由KKT条件可知，只有当函数间隔是1（g=0）的时候，α i >0。此时，这个样例 w i  在约束平面上受到约束 。对于其它的不在线上的样例点（g<0），极值不会在其范围内去的，所以这些样例点前面的系数α i =0.
                                           实线是最大间隔超平面，假设×号的是正例，圆圈的是负例。在虚线上的点就是函数间隔是1的点，他们前面的系数α i >0， 这三个点被称作 支持向量。 
   由上面问题，构造拉格朗日函数如下（没有等式约束，所以没有β）：
                                            ———————————————————————————————— 
   下面我们按照对偶问题的求解步骤来一步步进行，由2.1.3可知，对偶问题的形式为：
                                           首先求解L的最小值（最里面的先求），此时αi是固定的，L的最小值只与w和b有关。对w和b分别求偏导数。
                                           得到
                                           将上式带回到拉格朗日函数中得到，此时得到的是该函数的最小值（目标函数是凸函数）， 即里面的min L已经求出，接下来就是求max了    代入后，化简过程如下：
                                           最后得到
                                           由于最后一项是0，因此简化为
                                           这里，上式中左右边的向量内积，用方括号表示。
   到这一步，拉格朗日函数只包含了一个变量α i 。接着进行下一步 ，最大化的过程，求得α i 。
                                           假设求得了α i  就能根据求导得到的结果
                                           求得w，然后就能得到b。
                                           b 就是  距离超平面最近的正的函数间隔要等于离超平面最近的负的函数间隔。  （其实，由前面的那个x和圈的图，可以认为b就是截距，这个截距b等于上下两条虚线的截距的平均值。）
    注意，这里的w，b，alpha都是 向量，都是m维的向量 
   至于这里的α怎么求得，即上面的最大化问题怎么求解，将留给下一篇中的SMO算法来阐明。
   也就是说，手动解的话，还是需要利用SMO算法，求得α才行。
    ———————————————————————————————— 
   这里考虑另外一个问题，由于前面求解中得到
                                           用α i 代替w带入判别模型w T x+b，得到：
                                           也就是说， 利用判别模型对新来样本进行判别时 ，以前新来的要分类的样本首先根据w和b做一次线性运算，然后看求的结果是大于1还是小于1来判断正例还是负例。大于1，说明在超平面的上面，说明是正例。同理，小于1说明在超平面的下面，说明是负例。
    约束条件是wx+b-1小于等于零，所以判断就是wx+b与1进行大小比较 
    现在有了alpha，不需要求出w （那b呢，b怎么求呢，前面已经解释，b是由离超平面最近的间隔和负的函数间隔相等。。。得到的。所以，将新来的样本与训练数据中 支持向量 做内积以后，再确定最大的正数函数间隔以及最小的负数函数间隔，即可。）
    就冲上面这段话，支持向量的系数alpha，也不能等于0。 
   另外，那有人会说，与前面所有的样本都做运算是不是太耗时了？其实不然，我们从KKT条件中得到，只有支持向量的α i >0 （不等于零）其他情况α i 是等于零的。 比如，像前面那个x和圈的图，新来的样本只需要和三个支持向量做运算即可 。
    由此可以看到，求出α i 以后，只需要利用支持向量，就可以来判断新来的样例是正例还是负例了。也许这也是是为什么叫支持向量机吧。 
                                           上面这个公式，为下面要提到的核函数（kernel）做了很好的铺垫。
   下面，先把没求得的alpha放一放，趁着刚刚得到的这个公式的热乎劲，再去看看核函数。

支持向量机（SVM）

2. 支持向量机（SVM）

        支持向量机（support vector machine），故一般简称SVM，通俗来讲，它是一种二分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区，因此支持向量机也被称为最大边缘区分类器。其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。SVM在很多诸如文本分类，图像分类，生物序列分析和生物数据挖掘，手写字符识别等领域有很多的应用。
  
         支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面，分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。
  
         假设给定一些分属于两类的2维点，这些点可以通过直线分割， 我们要找到一条最优的分割线，如何来界定一个超平面是不是最优的呢?
  
         如图：
                                          
         在上面的图中，a和b都可以作为分类超平面，但最优超平面只有一个，最优分类平面使间隔最大化。 那是不是某条直线比其他的更加合适呢? 我们可以凭直觉来定义一条评价直线好坏的标准:
  
         距离样本太近的直线不是最优的，因为这样的直线对噪声敏感度高，泛化性较差。 因此我们的目标是找到一条直线（图中的最优超平面），离所有点的距离最远。 由此， SVM算法的实质是找出一个能够将某个值最大化的超平面，这个值就是超平面离所有训练样本的最小距离。这个最小距离用SVM术语来说叫做间隔(margin) 。
  
         描述：给定一些数据点，它们分别属于两个不同的类，现在要找到一个线性分类器把这些数据分成两类。如果用x表示数据点，用y表示类别（y可以取1或者-1，分别代表两个不同的类），一个线性分类器的学习目标便是要在n维的数据空间中找到一个超平面（hyper plane），这个超平面的方程可以表示为（ wT中的T代表转置）：
                                          
         例如：现在有一个二维平面，平面上有两种不同的数据，分别用圈和叉表示。由于这些数据是线性可分的，所以可以用一条直线将这两类数据分开，这条直线就相当于一个超平面，超平面一边的数据点所对应的y全是-1 ，另一边所对应的y全是1。
                                          
         我们令分类函数为：
                                          
         当f(x) 等于0的时候，x便是位于超平面上的点，而f(x)大于0的点对应 y=1 的数据点，f(x)小于0的点对应y=-1的点，如下图所示：
                                          
         一个点距离超平面的远近可以表示分类预测的确信或准确程度，如何确定这个超平面呢？从直观上而言，这个超平面应该是最适合分开两类数据的直线。而判定“最适合”的标准就是这条直线离直线两边的数据的间隔最大。所以，得寻找有着最大间隔的超平面。
                                                                                                                                                                                                                                                  
 补充知识点： 点到平面的距离 
                                          
          支持向量机学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面.。对线性可分的训练数据集而言，线性可分分离超平面有无穷多个(等价于感知机)，但是几何间隔最大的分离超平面是唯一的。这里的间隔最大化又称为硬间隔最大化。
  
         间隔最大化的直观解释是:对训练数据集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类。也就是说，不仅将正负实例点分开，而且对最难分的实例点(离超平面最近的点)也有足够大的确信度将它们分开。这样的超平面应该对未知的新实例有很好的分类预测能力。
  
       按照我们前面的分析，对一个数据点进行分类，  当它的margin越大的时候，分类的confidence越大。  对于一个包含n个点的数据集，我们可以很自然地定义它的margin为所有这n个点的margin值中最小的那个。于是，为了使得分类的confidence高，我们希望所选择的超平面hyper plane能够最大化这个margin值。让所选择的超平面能够最大化这个“间隔”值，这个间隔就是下图中的Gap的一半：
                                                                                  
  为什么用几何间隔求最大的分离超平面而不用函数间隔？ 
                                                                                                                                                                  
  例题： 
                                                                                                                          
 我们构造了约束最优化问题，就是下面这个：
                                          
         此外，由于这个问题的特殊结构，还可以通过拉格朗日对偶性（Lagrange Duality）变换到对偶变量 (dual variable) 的优化问题，即通过求解与原问题等价的对偶问题（dual problem）得到原始问题的最优解，这就是线性可分条件下支持向量机的对偶算法，这样做的优点在于：一者对偶问题往往更容易求解；二者可以自然的引入核函数，进而推广到非线性分类问题。
  
 补充知识点： 拉格朗日乘子法学习 
  
                      拉格朗日KKT条件 
  
                      KKT条件介绍 
  
                      拉格朗日对偶 
  
          通过给每一个约束条件加上一个拉格朗日乘子（Lagrange multiplier）α，定义拉格朗日函数（通过拉格朗日函数将约束条件融合到目标函数里去，从而只用一个函数表达式便能清楚的表达出我们的问题）：
                                                                                  
  求解这个式子的过程需要拉格朗日对偶性的相关知识。
                                                                                                                                                                                                                                                  
  例题： 
                                          
          接下来谈谈线性不可分的情况，因为 线性可分这种假设实在是太有局限性 了。下图就是一个典型的线性不可分的分类图，我们没有办法用一条直线去将其分成两个区域，每个区域只包含一种颜色的点。
                                          
          要想在这种情况下的分类器，有两种方式， 一种是用曲线 去将其完全分开，曲线就是一种 非线性 的情况，跟之后将谈到的 核函数 有一定的关系：
                                          
          另外一种还是用直线，不过不用去保证可分性 ，就是包容那些分错的情况，不过我们得加入惩罚函数，使得点分错的情况越合理越好。其实在很多时候，不是在训练的时候分类函数越完美越好，因为训练函数中有些数据本来就是噪声，可能就是在人工加上分类标签的时候加错了，如果我们在训练（学习）的时候把这些错误的点学习到了，那么模型在下次碰到这些错误情况的时候就难免出错了。这种学习的时候学到了“噪声”的过程就是一个过拟合（over-fitting），这在机器学习中是一个大忌。
  
 我们可以为分错的点加上一点惩罚，对一个分错的点的 惩罚函数 就是 这个点到其正确位置的距离： 
                                                                                                                                                                                                                                                                                                                                                                          
          对于线性不可分的情况，我们可以用核函数让空间从原本的线性空间变成一个更高维的空间 ， 在这个高维的线性空间下，再用一个超平面进行划分 。 这儿举个例子，来理解一下如何利用空间的维度变得更高来帮助我们分类的： 
                                          
         上图是一个线性不可分的图，当我们把这两个类似于椭圆形的点映射到一个高维空间后，映射函数为：
                                          
         用这个函数可以将上图的平面中的点映射到一个三维空间（z1,z2,z3)，并且对映射后的坐标加以旋转之后就可以得到一个线性可分的点集了。
                                          
         形象说明：例如世界上本来没有两个完全一样的物体，对于所有的两个物体，我们可以通过增加维度来让他们最终有所区别，比如说两本书，从(颜色，内容)两个维度来说，可能是一样的，我们可以加上作者这个维度，是在不行我们还可以加入页码，可以加入拥有者，可以加入购买地点，可以加入笔记内容等等。当维度增加到无限维的时候，一定可以让任意的两个物体可分了。
  
  核函数定义： 
                                                                                  
  核技巧在支持向量机中的应用： 
                                                                                  
  常用核函数： 
                                          
  非线性支持向量机学习算法： 
                                          
         支持向量机的学习问题可以形式化为求解凸二次规划问题。这样的凸二次规划问题具有全局最优解，并且有许多最优化算法可以用于这一一问题的求解。但是当训练样本容量很大时，这些算法往往变得非常低效，以致无法使用。所以，如何高效地实现支持向量机学习就成为一一个重要的问题。目前人们已提出许多快速实现算法.本节讲述其中的序列最小最优化(sequential minimal optimization, SMO)算法。
                                          
         上述问题是要求解N个参数(α1,α2,α3,...,αN)，其他参数均为已知，序列最小最优化算法(SMO)可以高效的求解上述SVM问题，它把原始求解N个参数二次规划问题分解成很多个子二次规划问题分别求解，每个子问题只需要求解2个参数，方法类似于坐标上升，节省时间成本和降低了内存需求。每次启发式选择两个变量进行优化，不断循环，直到达到函数最优值。
  
         整个SMO算法包括两部分，求解两个变量的 二次规划 问题和选择这两个变量的 启发式 方法。
                                                                                                                                                                                                                                                                                                                                  
  上面求得的(α1)new和(α2)new是在η>0的情况下求得的：
                                          
         当时为了推导公式我们直接默认它是大于0了，现在我们需要重新审视这一项（η）。这一项是原来关于的二次项的系数。我们可以分下面三种情况讨论：
                                          
  （1）当η>0时 ：这个二次函数开口向上，所以要求这个二次函数的最小值，如果说极值点不在计算出的可行域的范围内，就要根据这个极值点和可行域边界值的关系来得到取最小值的地方：
  
 ①如果这个极值点在可行域左边，那么我们可以得到这个可行域内二次函数一定在单增，所以此时L应该是那个取最小值的地方。就如大括号的第三种情况。
  
 ②如果这个极值点在可行域右边，那么此时可行域内一定单减，所以此时H就是那个取最小值的地方，就是大括号里的第一种情况。
  
  （2）当η=0时： 这个二次函数就变成了一个一次函数，那么不管这个一次函数的单调性怎样，最小值一定是在边界处取到。所以到时候计算可行域的两个边界的值，看哪个小就用哪个。
  
  （3）当η<0时: 这个二次函数开口向下，那么此时怎么得到取最小值的点呢？很容易就能想到：最小值也是在可行域的边界处取到。很容易理解，此时开口向下，当极值点在区间内时，最小值只能在端点处取，因为极值点处是最大的。而当极值点在区间外时，区间内一定是单调的，此时最小值也只能在端点处取。通过计算比较边界处的目标函数值，哪个小取哪个。
  
 通过以上判断求出(α2)new以后，再根据公式求出(α1)new，然后带入目标函数（1）中。即如下过程：
                                          
         上述分析是在从N个变量中已经选出两个变量进行优化的方法，下面分析如何高效地选择两个变量进行优化，使得目标函数下降的最快。

3. 你知道支持向量机（SVM）是什么意思吗？

超级通俗的解释：支持向量机是用来解决分类问题的。先考虑最简单的情况，豌豆和米粒，用晒子很快可以分开，小颗粒漏下去，大颗粒保留。用一个函数来表示就是当直径d大于某个值D，就判定为豌豆，小于某个值就是米粒。d>D, 豌豆d<D,米粒在数轴上就是在d左边就是米粒，右边就是绿豆，这是一维的情况。但是实际问题没这么简单，考虑的问题不单单是尺寸，一个花的两个品种，怎么分类，假设决定他们分类的有两个属性，花瓣尺寸和颜色。单独用一个属性来分类，像刚才分米粒那样，就不行了。这个时候我们设置两个值尺寸x和颜色y.我们把所有的数据都丢到x-y平面上作为点，按道理如果只有这两个属性决定了两个品种，数据肯定会按两类聚集在这个二维平面上。

你知道支持向量机（SVM）是什么意思吗？

4. 你知道支持向量机（SVM）是什么意思吗

SVM - support vector machine, 俗称支持向量机，为一种supervised learning算法，属于classification的范畴。在数据挖掘的应用中，与unsupervised的Clustering相对应和区别。广泛应用于机器学习(Machine Learning), 计算机视觉(Computer Vision) 和数据挖掘(Data Mining)当中。假设我们要通过三八线把实心圈和空心圈分成两类。那么有无数多条线可以完成这个任务。在SVM中，我们寻找一条最优的分界线使得它到两边的margin都最大。在这种情况下边缘加粗的几个数据点就叫做support vector，这也是这个分类算法名字的来源。We got a bunch of data points in a n- dimensional to infinite-dimensional space, Then one can always find a optimal hyperplane which is always in the n-1 dimension. 我举个例子吧，当你给SVM一段文本，比如“这款手机屏幕很大，我很喜欢”，你想知道这个文本的情感倾向是积极的还是消极的，你把这个文本扔给SVM分类器，SVM会告诉你说它的情感是积极的。但是现在我们多了一个选项，“中立”。

5. 什么是支持向量机（SVM）以及它的用途？

SVM - support vector machine, 俗称支持向量机，为一种supervised learning算法，属于classification的范畴。在数据挖掘的应用中，与unsupervised的Clustering相对应和区别。
广泛应用于机器学习(Machine Learning), 计算机视觉(Computer Vision) 和数据挖掘(Data Mining)当中。
假设要通过三八线把实心圈和空心圈分成两类，那么有无数多条线可以完成这个任务。在SVM中，寻找一条最优的分界线使得它到两边的margin都最大。

扩展资料：
SVM 的优点
1、高维度：SVM 可以高效的处理高维度特征空间的分类问题。这在实际应用中意义深远。比如，在文章分类问题中，单词或是词组组成了特征空间，特征空间的维度高达 10 的 6 次方以上。
2、节省内存：尽管训练样本点可能有很多，但 SVM 做决策时，仅仅依赖有限个样本（即支持向量），因此计算机内存仅仅需要储存这些支持向量。这大大降低了内存占用率。
3、应用广泛：实际应用中的分类问题往往需要非线性的决策边界。通过灵活运用核函数，SVM 可以容易的生成不同的非线性决策边界，这保证它在不同问题上都可以有出色的表现（当然，对于不同的问题，如何选择最适合的核函数是一个需要使用者解决的问题）。
参考资料来源：百度百科-支持向量机

什么是支持向量机（SVM）以及它的用途？

6. 什么是支持向量机（SVM）以及它的用途？

SVM - support vector machine, 俗称支持向量机，为一种supervised learning算法，属于classification的范畴。在数据挖掘的应用中，与unsupervised的Clustering相对应和区别。
广泛应用于机器学习(Machine Learning), 计算机视觉(Computer Vision) 和数据挖掘(Data Mining)当中。
假设要通过三八线把实心圈和空心圈分成两类，那么有无数多条线可以完成这个任务。在SVM中，寻找一条最优的分界线使得它到两边的margin都最大。

扩展资料：
SVM 的优点
1、高维度：SVM 可以高效的处理高维度特征空间的分类问题。这在实际应用中意义深远。比如，在文章分类问题中，单词或是词组组成了特征空间，特征空间的维度高达 10 的 6 次方以上。
2、节省内存：尽管训练样本点可能有很多，但 SVM 做决策时，仅仅依赖有限个样本（即支持向量），因此计算机内存仅仅需要储存这些支持向量。这大大降低了内存占用率。
3、应用广泛：实际应用中的分类问题往往需要非线性的决策边界。通过灵活运用核函数，SVM 可以容易的生成不同的非线性决策边界，这保证它在不同问题上都可以有出色的表现（当然，对于不同的问题，如何选择最适合的核函数是一个需要使用者解决的问题）。
参考资料来源：百度百科-支持向量机

7. 支持向量机(SVM)基本原理

 看了很多关于SVM的博客，但是常常只能保存书签之后看，有时候有的博客就突然没了，这里就作为搬运工总结一下之后自己看吧。主要内容来自于：    支持向量机通俗导论（理解SVM的三层境界） 
    线性回归    给定数据集  , 其中,   ,线性回归试图学习到一个线性模型,尽可能地输出正确标记.
   如果我们要用线性回归算法来解决一个分类问题,(对于分类,y 取值为 0 或者 1),但如果你使用的是线性回归,那么假设函数的输出值可能远大于 1,或者远小于 0,就算所有训练样本的标签 y 都是 0 或 1但是如果算法得到的值远大于 1 或者远小于 0 的话,就会感觉很奇怪。所以我们在接下来的要研究的算法就叫做逻辑回归算法,这个算法的性质是:它的输出值永远在 0 到 1 之间。
    所以逻辑回归就是一个分类算法,这个算法的输出值永远在 0 到 1 之间.    我们先看二分类的LR,具体做法是:利用sigmoid 函数,将每一个点的回归值映射到0,1之间.sigmoid函数特性如下:   
                                           
   如图所示,令  , 当 z > 0  , z 越大, sigmoid 返回值越接近1(但永远不会超过1). 反之,当z < 0时,z 越小, sigmoid 返回值越接近0(但永远不会小于0).   
                                           
    支持向量机 ，因其英文名为support vector machine，故一般简称SVM，通俗来讲，它是一种二类分类模型，其基本模型定义为 特征空间 上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。
    线性分类器    给定一些数据点，它们分别属于两个不同的类，现在要找到一个线性分类器把这些数据分成两类。如果用x表示数据点，用y表示类别（y可以取1或者-1，分别代表两个不同的类），一个线性分类器的学习目标便是要在n维的数据空间中找到一个超平面（hyper plane），这个超平面的方程可以表示为（ wT中的T代表转置）：     
   logistic回归目的是从特征学习出一个0/1分类模型，而这个模型是将特性的线性组合作为自变量，由于自变量的取值范围是负无穷到正无穷。因此，使用logistic函数（或称作sigmoid函数）将自变量映射到(0,1)上，映射后的值被认为是属于y=1的概率。   假设函数:        其中x是n维特征向量，函数g就是logistic函数。        图像为：   
                                           
   在超平面w x+b=0确定的情况下，|w x+b|能够表示点x到距离超平面的远近，而通过观察w x+b的符号与类标记y的符号是否一致可判断分类是否正确，所以，可以用(y (w*x+b))的正负性来判定或表示分类的正确性。于此，我们便引出了函数间隔（functional margin）的概念。   定义函数间隔  （用表示）为     
   而超平面(w，b)关于T中所有样本点(xi，yi)的函数间隔最小值（其中，x是特征，y是结果标签，i表示第i个样本），便为超平面(w, b)关于训练数据集T的函数间隔：        但这样定义的函数间隔有问题，即如果成比例的改变w和b（如将它们改成2w和2b），则函数间隔的值f(x)却变成了原来的2倍（虽然此时超平面没有改变），所以只有函数间隔还远远不够。
   事实上，我们可以对法向量w加些约束条件，从而引出真正定义点到超平面的距离--几何间隔（geometrical margin）的概念。
   假定对于一个点 x ，令其垂直投影到超平面上的对应点为 x0 ，w 是垂直于超平面的一个向量，  为样本x到超平面的距离，如下图所示：   
                                           
   根据平面几何知识，有        其中||w||为w的二阶范数（范数是一个类似于模的表示长度的概念），  是单位向量（一个向量除以它的模称之为单位向量）。
   又由于x0 是超平面上的点，满足 f(x0)=0，代入超平面的方程  ,可得  ，即  
   随即让此式  的两边同时乘以  ，再根据  和  ，即可算出  ：        为了得到  的绝对值，令  乘上对应的类别 y，即可得出几何间隔（用  表示）的定义：        从上述函数间隔和几何间隔的定义可以看出：几何间隔就是函数间隔除以||w||，而且函数间隔y (wx+b) = y f(x)实际上就是|f(x)|，只是人为定义的一个间隔度量，而几何间隔|f(x)|/||w||才是直观上的点到超平面的距离。
   对一个数据点进行分类，当超平面离数据点的“间隔”越大，分类的确信度（confidence）也越大。所以，为了使得分类的确信度尽量高，需要让所选择的超平面能够最大化这个“间隔”值。这个间隔就是下图中的Gap的一半。
                                           通过由前面的分析可知：函数间隔不适合用来最大化间隔值，因为在超平面固定以后，可以等比例地缩放w的长度和b的值，这样可以使得  的值任意大，亦即函数间隔  可以在超平面保持不变的情况下被取得任意大。但几何间隔因为除上了  ，使得在缩放w和b的时候几何间隔的值  是不会改变的，它只随着超平面的变动而变动，因此，这是更加合适的一个间隔。换言之，这里要找的最大间隔分类超平面中的“间隔”指的是几何间隔。
   于是最大间隔分类器（maximum margin classifier）的目标函数可以定义为        同时需满足一些条件，根据间隔的定义，有        回顾下几何间隔的定义  ，可知：如果令函数间隔  等于1（之所以令等于1，是为了方便推导和优化，且这样做对目标函数的优化没有影响），则有   = 1 / ||w||且  ，从而上述目标函数转化成了：        相当于在相应的约束条件  下，最大化这个1/||w||值，而1/||w||便是几何间隔。
   据了解，
   由于这个问题的特殊结构，还可以通过拉格朗日对偶性（Lagrange Duality）变换到对偶变量 (dual variable) 的优化问题，即通过求解与原问题等价的对偶问题（dual problem）得到原始问题的最优解，这就是线性可分条件下支持向量机的对偶算法，这样做的优点在于：一者对偶问题往往更容易求解；二者可以自然的引入核函数，进而推广到非线性分类问题。
   那什么是拉格朗日对偶性呢？简单来讲，通过给每一个约束条件加上一个拉格朗日乘子  ,（Lagrange multiplier），定义拉格朗日函数（通过拉格朗日函数将约束条件融合到目标函数里去，从而只用一个函数表达式便能清楚的表达出我们的问题）     
   然后令：        容易验证，当某个约束条件不满足时，例如  ，那么显然有  （只要令  即可）。而当所有约束条件都满足时，则最优值为  ，亦即最初要最小化的量。
   因此，在要求约束条件得到满足的情况下最小化  ，实际上等价于直接最小化  （当然，这里也有约束条件，就是   ≥0,i=1,…,n）   ，因为如果约束条件没有得到满足，  会等于无穷大，自然不会是我们所要求的最小值。
   具体写出来，目标函数变成了：
     
   这里用  表示这个问题的最优值，且和最初的问题是等价的。如果直接求解，那么一上来便得面对w和b两个参数，而  又是不等式约束，这个求解过程不好做。不妨把最小和最大的位置交换一下，变成：     
   交换以后的新问题是原始问题的对偶问题，这个新问题的最优值用  来表示。而且有  ≤  ，在满足某些条件的情况下，这两者相等，这个时候就可以通过求解对偶问题来间接地求解原始问题。
   换言之，之所以从minmax  的原始问题，转化为maxmin  的对偶问题，一者因为  是  的近似解，二者，转化为对偶问题后，更容易求解。
   下面可以先求L 对w、b的极小，再求L对  的极大。
    KKT条件      ≤  在满足某些条件的情况下，两者等价，这所谓的“满足某些条件”就是要满足KKT条件。
   要让两者等价需满足strong duality （强对偶），而后有学者在强对偶下提出了KKT条件，且KKT条件的成立要满足constraint qualifications，而constraint qualifications之一就是Slater条件。所谓Slater 条件，即指：凸优化问题，如果存在一个点x，使得所有等式约束都成立，并且所有不等式约束都严格成立（即取严格不等号，而非等号），则满足Slater 条件。对于此处，Slater 条件成立，所以  ≤  可以取等号。
   一般地，一个最优化数学模型能够表示成下列标准形式：        其中，f(x)是需要最小化的函数，h(x)是等式约束，g(x)是不等式约束，p和q分别为等式约束和不等式约束的数量。   KKT条件的意义：它是一个非线性规划（Nonlinear Programming）问题能有最优化解法的必要和充分条件。
   而KKT条件就是指上面最优化数学模型的标准形式中的最小点 x* 必须满足下面的条件：
   我们这里的问题是满足 KKT 条件的（首先已经满足Slater条件，再者f和gi也都是可微的，即L对w和b都可导），因此现在我们便转化为求解第二个问题。
   也就是说，原始问题通过满足KKT条件，已经转化成了对偶问题。而求解这个对偶学习问题，分为3个步骤：首先要让L(w，b，a) 关于 w 和 b 最小化，然后求对  的极大，最后利用SMO算法求解对偶问题中的拉格朗日乘子。
   对偶问题求解的3个步骤
   将以上结果代入之前的L：     
   得到：     
   具体推导过程是比较复杂的，如下所示：
                                           最后，得到：
     
   “倒数第4步”推导到“倒数第3步”使用了线性代数的转置运算，由于ai和yi都是实数，因此转置后与自身一样。“倒数第3步”推导到“倒数第2步”使用了(a+b+c+…)(a+b+c+…)=aa+ab+ac+ba+bb+bc+…的乘法运算法则。最后一步是上一步的顺序调整。
   从上面的最后一个式子，我们可以看出，此时的拉格朗日函数只包含了一个变量，那就是  （求出了  便能求出w，和b，由此可见，则核心问题：分类函数  也就可以轻而易举的求出来了）。
   上述式子要解决的是在参数上  求最大值W的问题，至于  和  都是已知数。要了解这个SMO算法是如何推导的，请跳到下文第3.5节、SMO算法。
    总结    让我们再来看看上述推导过程中得到的一些有趣的形式。首先就是关于我们的 hyper plane ，对于一个数据点 x 进行分类，实际上是通过把 x 带入到  算出结果然后根据其正负号来进行类别划分的。而前面的推导中我们得到:        因此分类函数为：     
   这里的形式的有趣之处在于，对于新点 x的预测，只需要计算它与训练数据点的内积即可（表示向量内积），这一点至关重要，是之后使用 Kernel 进行非线性推广的基本前提。此外，所谓 Supporting Vector 也在这里显示出来——事实上，所有非Supporting Vector 所对应的系数  都是等于零的，因此对于新点的内积计算实际上只要针对少量的“支持向量”而不是所有的训练数据即可。
   为什么非支持向量对应的  等于零呢？直观上来理解的话，就是这些“后方”的点——正如我们之前分析过的一样，对超平面是没有影响的，由于分类完全有超平面决定，所以这些无关的点并不会参与分类问题的计算，因而也就不会产生任何影响了。
   回忆一下我们通过 Lagrange multiplier得到的目标函数：
                                           注意到如果 xi 是支持向量的话，上式中红颜色的部分是等于 0 的（因为支持向量的 functional margin 等于 1 ），而对于非支持向量来说，functional margin 会大于 1 ，因此红颜色部分是大于零的，而  又是非负的，为了满足最大化，  必须等于 0 。这也就是这些非Supporting Vector 的点的局限性。
   至此，我们便得到了一个maximum margin hyper plane classifier，这就是所谓的支持向量机（Support Vector Machine）。当然，到目前为止，我们的 SVM 还比较弱，只能处理线性的情况，不过，在得到了对偶dual 形式之后，通过 Kernel 推广到非线性的情况就变成了一件非常容易的事情了(通过求解对偶问题得到最优解，这就是线性可分条件下支持向量机的对偶算法，这样做的优点在于：一者对偶问题往往更容易求解；二者可以自然的引入核函数，进而推广到非线性分类问题”)。
   事实上，大部分时候数据并不是线性可分的，这个时候满足这样条件的超平面就根本不存在。在上文中，我们已经了解到了SVM处理线性可分的情况，那对于非线性的数据SVM咋处理呢？对于非线性的情况，SVM 的处理方法是选择一个核函数 κ(⋅,⋅) ，通过将数据映射到高维空间，来解决在原始空间中线性不可分的问题。
   具体来说，在线性不可分的情况下，支持向量机首先在低维空间中完成计算，然后通过核函数将输入空间映射到高维特征空间，最终在高维特征空间中构造出最优分离超平面，从而把平面上本身不好分的非线性数据分开。如图所示，一堆数据在二维空间无法划分，从而映射到三维空间里划分：
                                           而在我们遇到核函数之前，如果用原始的方法，那么在用线性学习器学习一个非线性关系，需要选择一个非线性特征集，并且将数据写成新的表达形式，这等价于应用一个固定的非线性映射，将数据映射到特征空间，在特征空间中使用线性学习器，因此，考虑的假设集是这种类型的函数：        这里ϕ：X->F是从输入空间到某个特征空间的映射，这意味着建立非线性学习器分为两步：
   首先使用一个非线性映射将数据变换到一个特征空间F，   然后在特征空间使用线性学习器分类。
   而由于对偶形式就是线性学习器的一个重要性质，这意味着假设可以表达为训练点的线性组合，因此决策规则可以用测试点和训练点的内积来表示：        如果有一种方式可以在特征空间中直接计算内积〈φ(xi · φ(x)〉，就像在原始输入点的函数中一样，就有可能将两个步骤融合到一起建立一个非线性的学习器，这样直接计算法的方法称为核函数方法：   核是一个函数K，对所有x，z，满足  ，这里φ是从X到内积特征空间F的映射。
   来看个核函数的例子。如下图所示的两类数据，分别分布为两个圆圈的形状，这样的数据本身就是线性不可分的，此时咱们该如何把这两类数据分开呢(下文将会有一个相应的三维空间图)？
                                           事实上，上图所述的这个数据集，是用两个半径不同的圆圈加上了少量的噪音生成得到的，所以，一个理想的分界应该是一个“圆圈”而不是一条线（超平面）。如果用  和  来表示这个二维平面的两个坐标的话，我们知道一条二次曲线（圆圈是二次曲线的一种特殊情况）的方程可以写作这样的形式：        注意上面的形式，如果我们构造另外一个五维的空间，其中五个坐标的值分别为  ，那么显然，上面的方程在新的坐标系下可以写作：        关于新的坐标  ，这正是一个 hyper plane 的方程！也就是说，如果我们做一个映射  ，将   按照上面的规则映射为  ，那么在新的空间中原来的数据将变成线性可分的，从而使用之前我们推导的线性分类算法就可以进行处理了。这正是 Kernel 方法处理非线性问题的基本思想。
   再进一步描述 Kernel 的细节之前，不妨再来看看上述例子在映射过后的直观形态。当然，你我可能无法把 5 维空间画出来，不过由于我这里生成数据的时候用了特殊的情形，所以这里的超平面实际的方程是这个样子的（圆心在  轴上的一个正圆）        因此我只需要把它映射到  ，这样一个三维空间中即可，下图即是映射之后的结果，将坐标轴经过适当的旋转，就可以很明显地看出，数据是可以通过一个平面来分开的
                                           核函数相当于把原来的分类函数：     
   映射成：     
   而其中的  可以通过求解如下 dual 问题而得到的：     
   这样一来问题就解决了吗？似乎是的：拿到非线性数据，就找一个映射

支持向量机(SVM)基本原理

8. 支持向量机SVM（3）核函数、非线性支持向量机

 前面已经分别介绍了基于硬间隔最大化的线性可分支持向量机、基于软间隔最大化的线性支持向量机，这次来总结下使用核函数来解决非线性可分问题的非线性支持向量机。
   对于非线性可分问题，我们本着简化问题的思想，自然是希望将其转化为熟悉的线性可分问题进行处理，那么怎么做呢？对于一个在样本的原始空间中不是线性可分的数据，如下左图中的红色样本点和蓝色样本点，如果想要进行分类的话，可以将数据映射到更高维的特征空间中，如果映射的合适的话，就能找到一个超平面将数据分类，如下右图所示：
                                           这种做法是特例还是可以普遍使用的呢？《机器学习》书上说：
   不过书上并没有解释原因，我们先从低维直观的理解一下，如下图所示：在一维线性不可分的数据，可以映射成在二维线性可分的，在二维线性不可分的数据，可以映射成在三维线性可分的：
                                           在更高的维度也适用吗？实际上，这个论点在理论上是有证明的，即 Cover定理 ，Cover定理可以理解为：当空间的维数D越大时，在该空间的N个数据点间的线性可分的概率就越大。如果固定数据的数量N，维度D小于数据数量N时，特征空间维度越高，越有可能使数据线性可分；在维度超过数据数量时，数据一定线性可分（试想如果我们把每个数据点都映射到不同的坐标轴上，那么可不就是线性可分的了么）。
   因此，我们对非线性可分的数据，可以将数据映射至高维空间，然后再用我们熟悉的线性分类器来分类，至此，剩下的问题就是怎么映射呢？这就需要核函数登场了。
   核函数是一个广泛使用的技术，事实上它比支持向量机出现的更早，它可以将一个空间的向量映射到另一个空间，刚好符合我们解决非线性可分问题的需求， 核函数定义 ：
   核函数的一大优势就是，它通过定义函数  来隐式的定义映射  ，一般来说，直接计算函数  是比较容易的，因为它是在原始低维度进行的，而通过  计算是很困难的，因为  是高维的，甚至是无穷维的。
   既然核函数这么棒，那怎么获得一个核函数呢？或者说怎么判断一个函数是不是核函数？通常我们所说的核函数都是正定核函数， 正定核函数的充要条件： 
   有了这个定义，理论上我们可以构造出核函数，不过对非常困难，因为要保证任意输入的Gram矩阵都要是半正定矩阵，所以在实际使用中，我们一般使用前辈们总结好的常用核函数。
    证明： 
   根据定义，核函数的映射涉及从欧氏空间到希尔伯特空间的转化，其过程是怎样的呢？如果我们在Gram矩阵是半正定的条件下，把这个映射过程推出来不就相当于证明了上述定理的充分性了吗~
   前提：  是对称函数、  是半正定矩阵
     
     
   除去对应的基底，将其表示为希尔伯特空间的向量（一个函数可以看成一个无穷维的向量，空间中的任何一个函数都可以表示为一组正交基的线性组合）：
     
     
   计算二者内积：
     
   也就是核函数定义中的：
     
   至此就证明了上述定理的充分性，至于必要性，求出Gram矩阵就可以证明，比较简单就不说了。
     这个特性叫做 再生性（reproducing property） ，所以这个空间叫做 再生核希尔伯特空间(RKHS, reproducing kernel Hilbert space) 。
   对定义的低维度到高纬度的映射  来说，我们不需要知道这个映射是什么就可以计算得到高维的内积  ，这就是SVM中使用的 核技巧 。
   *上述核函数及证明中出现较多的各种数学空间，如果不熟悉的话可以看文末的附录，对各种空间的关系有一个大致的展示。
     
   使用线性核函数跟不使用核函数是一样的，还是无法处理非线性可分问题的，不过从这个角度出发，我们可以把 线性可分SVM看作非线性不可分SVM的使用线性核函数的特例 。
     
   SVM中也称为径向基核函数（Radial Basis Function,RBF），是非线性支持向量机中最常用的核函数：
     
   因为在映射后的高维空间中，支持向量机还是在解决线性可分的数据，所以原理、目标函数什么的都跟之前是一样的，只是最终的形式上有所不同，最终可得非线性支持向量机模型：
     
   非线性支持向量机的算法过程：
   核函数的引入大大提升了支持向量机的应用范围，使得其在非线性可分问题上也有了很好的分类表现，而且核技巧使得隐式的高维映射成为可能，使用起来也非常便捷。
   还记得我们在 逻辑回归 中针对非线性可分问题说过：
   所以相对于逻辑回归等线性分类器来说，SVM具有很大的优势，这也是SVM在过去几十年里流行的主要原因之一，其优美的数学推导也让很多学者非常喜欢，不过随着近几年集成学习、神经网络的兴起和数据量的爆炸性增长，SVM也慢慢的不再那么流行了，不过其在特定问题上仍然是一个很有魅力的算法，值得大家掌握。
   现在三种SVM都写完了，来总结一下SVM的优缺点吧：
     
   数学空间：数学中的空间的组成包括两个部分：研究的对象和内在的规则，或者叫做元素和结构。