logistic回归模型的参数估计是什么书里的内容

2024-04-28

1. logistic回归模型的参数估计是什么书里的内容

Logistic回归简介
Logistic回归:主要用于因变量为分类变量(如疾病的缓解、不缓解,评比中的好、中、差等)的回归分析,自变量可以为分类变量,也可以为连续变量。因变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。
Odds:称为比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。
OR(Odds Ratio):比值比,优势比。
2.SPSS中做Logistic回归的操作步骤
分析>回归>二元Logistic回归
选择因变量和自变量(协变量)
3.结果怎么看
一些指标和数据怎么看
“EXP(B)”即为相应变量的OR值(又叫优势比,比值比),为在其他条件不变的情况下,自变量每改变1个单位,事件的发生比“Odds”的变化率。
伪决定系数cox  Snell R2和Nagelkerke R2,这两个指标从不同角度反映了当前模型中自变量解释了因变量的变异占因变量总变异的比例。但对于Logistic回归而言,通常看到的伪决定系数的大小不像线性回归模型中的决定系数那么大。
预测结果列联表解释,看”分类表“中的数据,提供了2类样本的预测正确率和总的正确率。
建立Logistic回归方程
logit(P)=β-0+β1*X1+β2*X2+……+βm*Xm
4.自变量的筛选方法和逐步回归
与线性回归类似,在Logistic回归中应尽量纳入对因变量有影响作用的变量,而将对因变量没有影响或影响较小的变量排除在模型之外。
①.Wald检验:Wals是一个统计量,用检验自变量对因变量是否有影响的。它越大,或者说它对应的sig越小,则影响越显著。
②.似然比检验(Likelihood Ratio
Test):Logistic模型的估计一般是使用极大似然法,即使得模型的似然函数L达到最大值。-2lnL被称为Diviance,记为D。L越大,则D越大,模型预测效果越好。似然比检验是通过比较是否包含某个或几个参数β的多个模型的D值。
③.比分检验(Score Test)
以上三种假设检验中,似然比检验是基于整个模型的拟合情况进行的,结果最为可靠;比分检验结果一般与似然比检验结果一致。最差的就是Wald检验,它考虑各因素的综合作用,当因素间存在共线性的时候,结果不可靠。故在筛选变量时,用Wald法应慎重。
SPSS中提供了六种自变量的筛选方法,向前法(Forward)和向后法(Backward)分别有三种。基于条件参数估计和偏最大似然估计的筛选方法都比较可靠,尤以后者为佳。但基于Wald统计量的检验则不然,它实际上未考虑各因素的综合作用,当因素间存在共线性时,结果不可靠,故应当慎用。
5.模型效果的判断指标
①.对数似然值与伪决定系数
Logistic模型是通过极大似然法求解的,极大似然值实际上也是一个概率,取值在0~1之间。取值为1,代表模型达到完美,此时其对数值为0;似然值越小,则其对数值越负,因此-2倍的对数似然值就可以用来表示模型的拟合效果,其值越小,越接近于0,说明模型拟合效果越好。
②.模型预测正确率
对因变量结局预测的准确程度也可以反映模型的效果,SPSS在Logistic回归过程中会输出包含预测分类结果与原始数据分类结果的列联表,默认是按照概率是否大于0.5进行分割。
③.ROC曲线
ROC曲线即受试者工作特征曲线(Receiver
Operating Characteristic Curve),或译作接受者操作特征曲线。它是一种广泛应用的数据统计方法,1950年应用于雷达信号检测的分析,用于区别“噪声”与“信号”。在对Logistic回归模型拟合效果进行判断时,通过ROC曲线可直接使用模型预测概率进行。应用ROC曲线可帮助研究者确定合理的预测概率分类点,即将预测概率大于(或小于)多少的研究对象判断为阳性结果(或阴性结果)。ROC曲线,预测效果最佳时,曲线应该是从左下角垂直上升至顶,然后水平方向向右延伸到右上角。如果ROC曲线沿着主对角线方向分布,表示分类是机遇造成的,正确分类和错分的概率各为50%,此时该诊断方法完全无效。

logistic回归模型的参数估计是什么书里的内容

2. 什么是logistic回归模型?

logistic回归与多重线性回归一样,在应用之前也是需要分析一下资料是否可以采用logistic回归模型。并不是说因变量是分类变量我就可以直接采用logistic回归,有些条件仍然是需要考虑的。
首要的条件应该是需要看一下自变量与因变量之间是什么样的一种关系。多重线性回归中,要求自变量与因变量符合线性关系。而logistic回归则不同,它要求的是自变量与logit(y)符合线性关系,所谓logit实际上就是ln(P/1-P)。也就是说,自变量应与ln(P/1-P)呈线性关系。当然,这种情形主要针对多分类变量和连续变量。对于二分类变量就无所谓了,因为两点永远是一条直线。
这里举一个例子。某因素y与自变量x之间关系分析,y为二分类变量,x为四分类变量。如果x的四分类直接表示为1,2,3,4。则分析结果为p=0.07,显示对y的影响在0.05水准时无统计学意义,而如果将x作为虚拟变量,以1为参照,产生x2,x3,x4三个变量,重新分析,则结果显示:x2,x3,x4的p值分别为0.08,0.05和0.03。也就是说,尽管2和1相比无统计学意义,但3和1相比,4和1相比,均有统计学意义。
为什么会产生如此结果?实际上如果仔细分析一下,就可以发现,因为x与logit(y)并不是呈线性关系。而是呈如下图的关系:

这就是导致上述差异的原因。从图中来看,x的4与1相差最大,其次是2,3与1相差最小。实际分析结果也是如此,上述分析中,x2,x3,x4产生的危险度分别为3.1,2.9,3.4。
因此,一开始x以1,2,3,4的形式直接与y进行分析,默认的是认为它们与logit(p)呈直线关系,而实际上并非如此,因此掩盖了部分信息,从而导致应有的差异没有被检验出来。而一旦转换为虚拟变量的形式,由于虚拟变量都是二分类的,我们不再需要考虑其与logit(p)的关系,因而显示出了更为精确的结果。
最后强调一下,如果你对自变量x与y的关系不清楚,在样本含量允许的条件下,最好转换为虚拟变量的形式,这样不至于出现太大的误差。
如果你不清楚应该如何探索他们的关系,也可以采用虚拟变量的形式,比如上述x,如果转换的虚拟变量x2,x3,x4他们的OR值呈直线关系,那x基本上可以直接以1,2,3,4的形式直接与y进行分析。而我们刚才也看到了,x2,x3,x4的危险度分别为3.1,2.9,3.4。并不呈直线关系,所以还是考虑以虚拟变量形式进行分析最好。
总之,虚拟变量在logistic回归分析中是非常有利的工具,善于利用可以帮助你探索出很多有用的信息。
统计的分析策略是一个探索的过程,只要留心,你就会发现在探索数据关系的过程中充满了乐趣,因为你能发现别人所发现不了的隐藏的信息。希望大家多学点统计分析策略,把统计作为一种艺术,在分析探索中找到乐趣。
样本量的估计可能是临床最头疼的一件事了,其实很多的临床研究事前是从来不考虑样本量的,至少我接触的临床研究大都如此。他们大都是想到就开始做,但是事后他们会寻求研究中样本量的依据,尤其是在投文章被审稿人提问之后。可能很少有人想到研究之前还要考虑一下样本够不够的问题。其实这也难怪,临床有临床的特点,很多情况下是很难符合统计学要求的,尤其一些动物试验,可能真的做不了很多。这种情况下确实是很为难的。
本篇文章仅是从统计学角度说明logistic回归所需的样本量的大致估计,不涉及临床特殊问题。
其实不仅logistic回归,所有的研究一般都需要对样本量事前有一个估计,这样做的目的是为了尽可能地得出阳性结果。比如,你事前没有估计,假设你做了20例,发现是阴性结果。如果事前估计的话,可能会提示你需要30例或25例可能会得出阳性结果,那这时候你会不会后悔没有事前估计?当然,你可以补实验,但是不管从哪方面角度来讲,补做的实验跟一开始做得实验可能各种条件已经变化,如果你在杂志中说你的实验是补做的,那估计发表的可能性就不大了。
一般来说,简单的研究,比如组间比较,包括两组和多组比较,都有比较成熟的公式计算一下你到底需要多少例数。这些在多数的统计学教材和流行病学教材中都有提及。而对于较为复杂的研究,比如多重线性回归、logistic回归之类的,涉及多个因素。这种方法理论上也是有计算公式的,但是目前来讲,似乎尚无大家公认有效的公式,而且这些公式大都计算繁琐,因此,现实中很少有人对logistic回归等这样的分析方法采用计算的方法来估计样本量。而更多地是采用经验法。
其实关于logistic回归的样本量在部分著作中也有提及,一般来讲,比较有把握的说法是:每个结局至少需要10例样品。这里说得是每个结局。例如,观察胃癌的危险因素,那就是说,胃癌是结局,不是你的总的例数,而是胃癌的例数就需要这么多,那总的例数当然更多。比如我有7个研究因素,那我就至少需要70例,如果你是1:1的研究,那总共就需要140例。如果1:2甚至更高的,那就需要的更多了。
而且,样本量的大小也不能光看这一个,如果你的研究因素中出现多重共线性等问题,那可能需要更多的样本,如果你的因变量不是二分类,而是多分类,可能也需要更大的样本来保证你的结果的可靠性。
理论上来讲,logistic回归采用的是最大似然估计,这种估计方法有很多优点,然而,一个主要的缺点就是,必须有足够的样本才能保证它的优点,或者说,它的优点都是建立在大样本的基础上的。一般来讲,logistic回归需要的样本量要多于多重线性回归。
最后仍然需要说一句,目前确实没有很好的、很权威的关于logistic回归样本量的估计方法,更多的都是根据自己的经验以及分析过程中的细节发现。如果你没有太大的把握,就去请教统计老师吧,至少他能给你提出一些建议。

3. Logistic回归模型的介绍

《Logistic回归模型:方法与应用》是2001年高等教育出版社出版的图书,作者是王济川。

Logistic回归模型的介绍

4. 用Logistic 回归模型时的代码举例

用Logistic 回归模型时的代码举例
logistic回归模型,主要是用来对多因素影响的事件进行概率预测,它是普通多元线性回归模型的进一步扩展,logistic模型是非线性模型。比如说我们曾经做过的土地利用评价,就分别用多元线性回归模型和Logistic模型进行试验。影响耕地的因素假设有高程、土壤类型、当地人口数量和GDP总量,把上述四种因素作为自变量,某块地是否为耕地的概率为P,即应变量。然后根据已经有的样本数据,求出logistic模型的系数,一般用最大似然法结合牛顿—拉斐逊法解系数,求出F(P)=G(高程,土壤,人口,GDP)的一个回归函数,即Logistic模型,然后把全地区的数据代入上式,求出每个地方是否为耕地的概率,用来对土地利用的评价提供科学的依据。希望我的答案能让你满意,我以前就是做这方面研究的。

春满人间百花吐艳 福临小院四季常安 欢度春节 

5. logistic回归模型的参数呈现线性关系

是的,他是一种广义的线性回归分析模型
当logistic回归模型能够较好地拟合数据时,我们便可以对模型的系数进行解释了,类似于线性回归系数。Logistic回归系数也可以被解释为对应自变量一个单位的变化所导致的因变量上的变化。在logistic回归系列(二)中,我们把logistic回归因变量转化成了比数对数后进行回归,简化了预测问题,有利于描述整个步骤背后的逻辑。
然而,对于更常见的非线性所做的转化来说,自变量在logistic回归中造成的影响有许多解释。
第一种解释方法直接使用了从logistic回归得出的系数。Logistic回归系数简单表示自变量每变化一个单位,预测的发生某事件或者具有某种特征的比数对数的改变。除了因变量的单位代表的是比数对数,系数的解释和普通回归中的系数的解释是完全一样的。
2比数第二种解释将logistic回归系数进行转化,使得自变量影响的是比数而非比数对数。为了找到对比数的影响,把logistic回归系数取指数或者反对数就可以了。例如:


可以得出


第三种解释logistic回归系数的方法涉及将对比数对数或者比数的影响转化为对概率的影响。由于自变量和概率之间的关系并不是线性的而且不可加的,它们之间无法用一个系数来完整描述。对概率带来的影响在指定好某一个特殊值或者某一组特殊值后在能够被确认

logistic回归模型的参数呈现线性关系

6. logistic回归模型采用的参数估计方法为

极大似然估计
logistic回归模型是概率分布,可以用极大似然估计(maximum likelihood)来得到模型参数w。简单理解就是选择模型参数 w ,使数据集得到相应标签的概率最大。

logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。

7. 用Logistic 回归模型时的代码举例

用Logistic
回归模型时的代码举例
logistic回归模型,主要是用来对多因素影响的事件进行概率预测,它是普通多元线性回归模型的进一步扩展,logistic模型是非线性模型。比如说我们曾经做过的土地利用评价,就分别用多元线性回归模型和Logistic模型进行试验。影响耕地的因素假设有高程、土壤类型、当地人口数量和GDP总量,把上述四种因素作为自变量,某块地是否为耕地的概率为P,即应变量。然后根据已经有的样本数据,求出logistic模型的系数,一般用最大似然法结合牛顿—拉斐逊法解系数,求出F(P)=G(高程,土壤,人口,GDP)的一个回归函数,即Logistic模型,然后把全地区的数据代入上式,求出每个地方是否为耕地的概率,用来对土地利用的评价提供科学的依据。希望我的答案能让你满意,我以前就是做这方面研究的。
春满人间百花吐艳
福临小院四季常安
欢度春节

用Logistic 回归模型时的代码举例

8. logistic回归分析步骤是什么?