逻辑回归原理

2024-04-28

1. 逻辑回归原理

逻辑回归原理基本概念
1. 什么是逻辑回归
逻辑回归就是这样的一个过程：面对一个回归或者分类问题，建立代价函数，然后通过优化方法迭代求解出最优的模型参数，然后测试验证我们这个求解的模型的好坏。

Logistic回归虽然名字里带“回归”，但是它实际上是一种分类方法，主要用于两分类问题（即输出只有两种，分别代表两个类别）

回归模型中，y是一个定性变量，比如y=0或1，logistic方法主要应用于研究某些事件发生的概率

2. 逻辑回归的优缺点
优点：
1）速度快，适合二分类问题
2）简单易于理解，直接看到各个特征的权重
3）能容易地更新模型吸收新的数据
缺点：
对数据和场景的适应能力有局限性，不如决策树算法适应性那么强

3. 逻辑回归和多重线性回归的区别
Logistic回归与多重线性回归实际上有很多相同之处，最大的区别就在于它们的因变量不同，其他的基本都差不多。正是因为如此，这两种回归可以归于同一个家族，即广义线性模型（generalizedlinear model）。
这一家族中的模型形式基本上都差不多，不同的就是因变量不同。这一家族中的模型形式基本上都差不多，不同的就是因变量不同。

如果是连续的，就是多重线性回归
如果是二项分布，就是Logistic回归
如果是Poisson分布，就是Poisson回归
如果是负二项分布，就是负二项回归
4. 逻辑回归用途
寻找危险因素：寻找某一疾病的危险因素等；
预测：根据模型，预测在不同的自变量情况下，发生某病或某种情况的概率有多大；
判别：实际上跟预测有些类似，也是根据模型，判断某人属于某病或属于某种情况的概率有多大，也就是看一下这个人有多大的可能性是属于某病。
5. Regression 常规步骤
寻找h函数（即预测函数）
构造J函数（损失函数）
想办法使得J函数最小并求得回归参数（θ）
6. 构造预测函数h(x)
1) Logistic函数（或称为Sigmoid函数），函数形式为：



对于线性边界的情况，边界形式如下：


其中，训练数据为向量

最佳参数


构造预测函数为：


函数h(x)的值有特殊的含义，它表示结果取1的概率，因此对于输入x分类结果为类别1和类别0的概率分别为：
P(y=1│x;θ)=h_θ (x)
P(y=0│x;θ)=1-h_θ (x)

7.构造损失函数J（m个样本，每个样本具有n个特征）
Cost函数和J函数如下，它们是基于最大似然估计推导得到的。


8. 损失函数详细推导过程
1） 求代价函数
概率综合起来写成：

取似然函数为：

对数似然函数为：


最大似然估计就是求使l(θ)取最大值时的θ，其实这里可以使用梯度上升法求解，求得的θ就是要求的最佳参数。

在Andrew Ng的课程中将J(θ)取为下式，即：


2) 梯度下降法求解最小值


θ更新过程可以写成：


9. 向量化
ectorization是使用矩阵计算来代替for循环，以简化计算过程，提高效率。
向量化过程：
约定训练数据的矩阵形式如下，x的每一行为一条训练样本，而每一列为不同的特称取值：

g(A)的参数A为一列向量，所以实现g函数时要支持列向量作为参数，并返回列向量。
θ更新过程可以改为：


综上所述，Vectorization后θ更新的步骤如下：

求 A=x*θ
求 E=g(A)-y
求
10.正则化
（1） 过拟合问题
过拟合即是过分拟合了训练数据，使得模型的复杂度提高，繁华能力较差（对未知数据的预测能力）
下面左图即为欠拟合，中图为合适的拟合，右图为过拟合。


（2）过拟合主要原因
过拟合问题往往源自过多的特征
解决方法
1）减少特征数量（减少特征会失去一些信息，即使特征选的很好）
• 可用人工选择要保留的特征；
• 模型选择算法；
2）正则化（特征较多时比较有效）
• 保留所有特征，但减少θ的大小

（3）正则化方法
正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化项就越大。

正则项可以取不同的形式，在回归问题中取平方损失，就是参数的L2范数，也可以取L1范数。取平方损失时，模型的损失函数变为：

lambda是正则项系数：
• 如果它的值很大，说明对模型的复杂度惩罚大，对拟合数据的损失惩罚小，这样它就不会过分拟合数据，在训练数据上的偏差较大，在未知数据上的方差较小，但是可能出现欠拟合的现象；
• 如果它的值很小，说明比较注重对训练数据的拟合，在训练数据上的偏差会小，但是可能会导致过拟合。

逻辑回归原理

2. 逻辑回归分类

逻辑回归是应用非常广泛的一个分类机器学习算法，它将数据拟合到一个logistic函数中，从而能够完成对事件发生的概率进行预测。
逻辑函数：

3. 多元逻辑回归模型的介绍

在1980年Ohlson第一个将逻辑回归方法引入财务危机预警领域，他选择了1970～1976年间破产的105家公司和2058家非破产公司组成的配对样本，分析了样本公司在破产概率区间上的分布以及两类错误和分割点之间的关系，发现公司规模、资本结构、业绩和当前的融资能力进行财务危机的预测准确率达到96.12%。逻辑回归分析方法使财务预警得到了重大改进，克服了传统判别分析中的许多问题，包括变量属于正态分布的假设以及破产和非破产企业具有同一协方差矩阵的假设。

多元逻辑回归模型的介绍

4. 多元逻辑回归模型的应用误区

多元逻辑回归模型的应用误区
多元逻辑回归模型的理论前提相对判别分析法要宽松得多，且没有关于分布类型、协方差阵等方面的严格假定。不过，在大量运用多元逻辑回归的研究中往往忽视了另一个相当重要的问题，即模型自变量之间可能存在的多重共线性干扰。与其他多元回归方法一样，Logistic回归模型也对多元共线性敏感。
当变量之间的相关程度提高时，系数估计的标准误将会急剧增加；同时，系数对样本和模型设置都非常敏感，模型设置的微小变化、在同时，系数对样本和模型设置都非常敏感，模型设置的微小变化、在样本总体中加入或删除案例等变动，都会导致系数估计的较大变化。
由于财务比率均由具有相互钩稽关系的财务报表计算得出，同类指标之间的相关程度是非常大的，不加处理地让这些高度相关的变量直接进入模型必然会导致严重的多重共线性干扰。令人遗憾的是，国内外大多数相关研究都没有意识到这一问题，由此得出的判别模型，其稳定性和准确性显然不容乐观。

5. 多元逻辑回归模型的多元逻辑回归模型概述

多元逻辑回归（Logistic）被引入财务风险预测研究之后，财务危机预测即简化为已知一公司具有某些财务特征，而计算其在一段时间内陷入财务危机的概率问题。如果算出的概率大于设定的分割点，则判定该公司将陷入财务风险。由于多元逻辑回归不要求数据的正态分布，因而其参数估计也比多元判别分析（MDA）更加稳健。虽然许多研究在运用多元逻辑回归方法时都忽略了自变量之间的多重共线性问题，但正如我们在后文所指出的，这一不足并非Logistic分析本身的缺陷。该方法目前在判别分析研究领域仍然占有主流地位。

多元逻辑回归模型的多元逻辑回归模型概述

6. 多元逻辑回归模型的多元逻辑回归模型的应用误区

多元逻辑回归模型的理论前提相对判别分析法要宽松得多，且没有关于分布类型、协方差阵等方面的严格假定。不过，在大量运用多元逻辑 回归的研究中往往忽视了另一个相当重要的问题，即模型自变量之间可能存在的多重共线性干扰。与其他多元回归方法一样，Logistic回归模型也对多元共线性敏感。当变量之间的相关程度提高时，系数估计的标准误将会急剧增加；同时，系数对样本和模型设置都非常敏感，模型设置的微小变化、在样本总体中加入或删除案例等变动，都会导致系数估计的较大变化。由于财务比率均由具有相互钩稽关系的财务报表计算得出，同类指标之间的相关程度是非常大的，不加处理地让这些高度相关的变量直接进入模型必然会导致严重的多重共线性干扰。令人遗憾的是，国内外大多数相关研究都没有意识到这一问题，由此得出的判别模型，其稳定性和准确性显然不容乐观。

7. 逻辑回归有哪些模型

1.二项式逻辑回归:
因变量是有两种结果的二元变量，比如赢=1，输= 0；
自变量可以是分类变量，也可以是连续变量；要求正样本数N至少是自变量数的10倍。
2.无序多分类逻辑回归；
因变量为无序多类变量，如健康知识获取途径(传统大众媒体=1，网络=2，社区宣传= 3)；自变量可以是分类变量，也可以是连续变量；也可用于因变量为有序多分类变量，但不满足平行检验条件的数据。
原理:模型方程是由因变量各水平(除参考水平外)与参考水平之比的自然对数建立的。
3.有序多分类逻辑回归:
因变量是有序的多类别变量，如疾病严重程度(轻度=1，中度=2，重度= 3)；自变量可以是分类变量，也可以是连续变量。
原理:将多类因变量依次划分为多元二元Logistic回归；
要求平行线检验，即自变量系数是否相等；如果没有，则使用没有多分类的逻辑回归。

逻辑回归有哪些模型

8. 逻辑回归结果解读

您好，您的问题我已经看到了，正在整理答案，请稍等一会儿哦~【摘要】
逻辑回归结果解读【提问】
您好，您的问题我已经看到了，正在整理答案，请稍等一会儿哦~【回答】


你看一下【回答】
那从这个结果来看，是可以得出除对照组之外的组之间的可能性大小关系吧【提问】
可以【回答】
也就是我的那个排序是有意义的，不显著就可以约等于可能性相等，显著就看与对照组的倍数大小，倍数越大，可能性越大【提问】
是的【回答】
好的，我懂了，你太厉害了，解释的很有说服力，非常感谢，这里是不是不能再问下一个问题呢，我后面再提问一个问题，您再抢一下可以不。【提问】
这个我不一定可以分配的到【回答】
我直接私信向您提问了，感谢！【提问】
好的【回答】