cox风险比例模型

2024-05-13

1. cox风险比例模型

在任意一个时间点,两组人群发生时间的风险比例是恒定的;或者说其危险曲线应该是成比例而且是不能交叉的;也就是如果一个体在某个时间点的死亡风险是另外一个体的两倍,那么在其他任意时间点的死亡风险也同样是2倍。
  
 •Kaplan-Meier法是非参数法,而Cox模型是半参数法,一般来说在符合一定条件下,后者的检验效应要大于前者
   •Kaplan-Meier法一般处理单因素对研究生存结局的影响,而Cox模型可以同时处理多个因素对生存结局的影响
                                          
 结果解读:
   1. z 的列给出Wald统计值。它对应于每个回归系数与其标准误差的比率(z = coef / se(coef))。 wald统计量评估给定变量的β(ββ)系数是否在统计学上显着不同于0.从上面的输出,我们可以得出结论,变量性别具有高度统计上显着的系数。
   2.第二个特征 coef 就是公式中的回归系数b(有时也叫做beta值).对于具有较高该变量值的受试者,正号表示危险(死亡风险)较高,因此预后更差。变量性别被编码为数字向量。 1:男,2:女。 Cox模型的R总结给出了第二组相对于第一组的风险比(HR),即女性与男性。在这些数据中,性别的β系数= -0.53表明女性死亡风险(较低的存活率)低于男性。
   3. exp(coef) 则是Cox模型中最主要的概念风险比(HR-hazard ratio):
   •HR = 1: No effect
   •HR < 1: Reduction in the hazard
   •HR > 1: Increase in Hazard
   在癌症研究中:
   HR> 1 is called bad prognostic factor
   HR < 1 is called good prognostic factor
   4.最后,输出给出了模型总体显着性的三个替代测试的p值:似然比检验,Wald检验和得分数据统计。这三种方法是渐近等价的。对于足够大的N,它们将给出类似的结果。对于小N,它们可能有所不同。对于小样本量,似然比检验具有更好的行为,因此通常是优选的。
    上面输出结果详细解读: 
   z(-3.176)值代表Wald统计量,其值等于回归系数coef除以其标准误se(coef),即z = coef/se(coef);有统计量必有其对应的假设检验的显著性P值(0.00149),其说明bata值是否与0有统计学意义上的显著差别。
   coef(-0.5310)值小于0说明HR值小于1,而这里的Cox模型是group two相对于group one而言的,那么按照测试数据集来说:male=1,female=2,即女性的死亡风险相比男性要低
   exp(coef)等于0.59,即风险比例等于0.59,说明女性(female=2)减少了0.59倍风险,女性与良好预后相关
   lower .95 upper .95则是exp(coef)的95%置信区间
  
 同时考虑年龄、性别以及ECOG performance score(ph.ecog)对生存结局的影响
  
 这里的结果形式大致上跟单因素的一样,我们主要需要看的是以下几点:
  
 Likelihood ratio test/Wald test/Score (logrank) test三种假设检验方法给出的P值说明Cox模型对三个因素均进行了beta值是否为0的假设检验,并且拒绝了omnibus null hypothesis(beta=0的零假设)
  
 该模型结果给出了三个因素各自在其他因素保持不变下的HR以及P值;比如年龄因素的HR=1.01以及P=0.23,说明年龄因素在调整了性别和ph.ecog因素的影响后,其对HR的变化贡献较小(只有1%)
  
 而看性别因素,HR=0.58,以及P=0.000986,说明在保持其他因素不变的情况下,年龄和死亡风险有很强的关系,女性能将死亡风险降低0.58倍,再次说明了女性与良好预后相关
  
 参考文章: Cox比例风险模型与R实现

cox风险比例模型

2. 生存分析之Cox比例风险模型

  之前文章 介绍了Kaplan-Meier生存曲线分析,Kaplan-Meier模型除了展示预后状况,也可以用log-rank法检测是否分组预后有显著差异。cox比例风险模型则适合衡量具体某一因素对生存的影响程度,用HR(hazard ratio)值体现,HR是某一因素影响生存的比率。cox模型公式如下。     
   HR值对应含义如下
   不过我们不只看HR值,还要看95%CI即95%置信度区间,如果95%CI跨越了1,一般就不认为该因素对生存有显著影响。另外要提示的是HR值受 输入值的规模 (身高用CM为单位还是M为单位)影响,所以如果得到非常巨大/小的HR结果,要思考自己数据缩放问题。
   下面用  lung  数据集分别展示单因素、多因素cox分析。
   使用  coxph  函数进行cox回归分析。我们看性别对肺癌预后有多大影响。
   用  summary  函数查看结果,其中  coef  是系数beta,  exp(coef)  就是HR值,在这里是 0.5880,95%CI是 0.4237 ~ 0.816. P值给3个,如果样本少适合"Likelihood ratio test",如果样本量大,3个方法P值不会差异太多。
   如果有多个因素的数据,进行多因素cox回归是适合的。也同样使用  coxph  和  summary  函数。
   可以看到性别因素sex是显著影响生存预后的,但是年龄因素age(HR:1.013, P:0.171, 95%CI:0.9945~1.0318)不是。然后使用  ggforest  函数直接画出森林图。
   图片如下,效果有点复古。也可以自己手动画森林图,95%CI用线段(geom_segment)表示,HR值用点(geom_point)然后颜色表示P值即可。
                                           参考    Cox Proportional-Hazards Model - Easy Guides - Wiki - STHDA     Drawing Survival Curves using 'ggplot2' • survminer 

3. 生存分析(二)-- Cox比例风险模型(Cox proportional-hazards model)

  Cox比例风险模型 (考克斯,1972年)是常用的统计在医学研究调查的患者和一个或多个预测变量的存活时间之间的关联回归模型。
   在上一章  生存分析基础  中,我们描述了生存分析的基本概念以及生存数据的分析和汇总方法,包括:
   上述方法-Kaplan-Meier曲线和logrank检验-是 单变量分析的 示例。他们根据调查中的一个因素描述了生存情况,但忽略了其他因素的影响。
   此外,仅当预测变量为分类变量时(例如:治疗A与治疗B;男性与女性),Kaplan-Meier曲线和对数秩检验才有用。对于定量预测指标(例如基因表达,体重或年龄),它们并不容易工作。
   一种替代方法是Cox比例风险回归分析,它既适用于定量预测变量也适用于类别变量。此外,Cox回归模型扩展了生存分析方法,可以同时评估几种风险因素对生存时间的影响。
   在本文中,我们将描述Cox回归模型并提供使用R软件的实际示例。
    内容 
                                           在临床研究中,有许多情况,其中几个已知量(称为  协变量covariates )可能会影响患者的预后。
   例如,假设比较了两组患者:有和没有特定基因型的患者。如果其中一组还包含较年长的个体,则生存率的任何差异都可能归因于基因型或年龄,或两者都有。因此,在调查与任何一个因素相关的生存率时,通常需要针对其他因素的影响进行调整。
   统计模型是一种常用工具,可以同时分析多个因素的生存率。此外,统计模型还提供了每个因素的影响大小。
   考克斯比例风险模型是用于对生存分析数据进行建模的最重要方法之一。下一节介绍Cox回归模型的基础。
   该模型的目的是同时评估几个因素对生存的影响。换句话说,它允许我们检查特定因素如何影响特定时间点特定事件(例如,感染,死亡)的发生率。该比率通常称为风险比率。预测变量(或因子)在生存分析文献中通常称为 协变量 covariates 。
   Cox模型由 h(t) 表示的 风险函数 表示。简而言之,危险函数可以解释为在时间t死亡的风险。可以估计如下:
                                           其中:
   Cox模型可以被写为变量 x(i)的 危险对数的多元线性回归,而基线危险是随时间变化的“截距”项。
   系数  bi  称为危险比率(HR,hazard ratio)。 bi  值大于零,或相当于风险比率大于1,表明随着第 i 个协变量值的增加,事件风险增加,因此生存时间缩短。
   换句话说,风险比大于1表示协变量与事件概率正相关,因此与存活时间负相关。   总之,   HR=1:无影响   HR1:危险增加
   在癌症研究中:
   Cox模型的关键假设是观察组(或患者)的危险曲线应成比例,并且不能交叉。
   假设两个x值不同的患者k和k'。相应的风险函数可以简单地写成如下:
                                                                                                                           因此,Cox 模型是一个比例风险模型:任何一组事件的风险都是其他任何一组事件风险的常数倍。这一假设意味着,如上所述,各组的危险曲线应成比例,不能交叉。
   换言之,如果一个人在某个初始时间点的死亡风险是另一个人的两倍,那么在以后的任何时候,死亡风险仍然是另一个人的两倍。
   这种比例风险的假设应该得到检验。我们将在本系列的下一篇文章中讨论评估比例性的方法: Cox模型假设 。
   我们将使用两个R包:
   函数 coxph ()[在 survival 包中]可用于计算R中的Cox比例风险回归模型。
   简化格式如下:
   我们将在生存R数据包中使用肺癌数据。
   我们将使用以下协变量来拟合Cox回归:年龄,性别,ph.ecog和wt.loss。
   我们首先为所有这些变量计算单变量Cox分析。然后我们将使用两个变量来拟合多元Cox分析,以描述这些因素如何共同影响生存。
   单变量Cox分析的计算公式如下:
   Cox模型的功能 摘要 ()产生更完整的报告:
   Cox回归结果可以解释为:
   要将单变量coxph函数一次应用于多个协变量,请输入以下命令:
   上面的输出显示了每个变量相对于总生存率的回归beta系数,效应大小(以危险比给出)和统计显着性。通过单独的单变量Cox回归评估每个因素。
   从上面的输出中,
   现在,我们要描述这些因素如何共同影响生存。为了回答这个问题,我们将执行多元Cox回归分析。由于变量ph.karno在单变量Cox分析中不重要,因此在多变量分析中将其跳过。我们将3个因素(性别,年龄和ph.ecog)纳入多元模型。
   时间常数协变量的死亡时间的Cox回归指定如下:
   所有三个总体测试(似然性,Wald和得分)的p值均显着,表明该模型具有显著性。这些测试评估了所有beta的综合零假设为0。在上面的示例中,检验统计量非常一致,并且完全拒绝了综合零假设。
   在多变量Cox分析中,协变量性别和ph.ecog保持显着性(p <0.05)。但是,协变量年龄不显着(p = 0.23,大于0.05)。
   性别的p值为0.000986,危险比HR = exp(coef)= 0.58,表明患者的性别与死亡风险降低之间有很强的关系。协变量的危险比可解释为对危险的倍增效应。例如,保持其他协变量不变(女性(性别= 2))可将危险降低0.58或42%。我们得出结论,成为女性与良好的预后相关。
   同样,ph.ecog的p值为4.45e-05,危险比HR = 1.59,表明ph.ecog值与死亡风险增加之间有很强的关系。保持其他协变量不变,ph.ecog的值越高,生存率越低。
   相比之下,年龄的p值现在为p = 0.23。危险比HR = exp(coef)= 1.01,95%置信区间为0.99至1.03。由于HR的置信区间为1,因此这些结果表明,在调整phog值和患者的性别之后,年龄对HR差异的贡献较小,并且仅趋于显着。例如,在其他协变量保持不变的情况下,再增加一岁会引起每日死亡危险,其系数为expβ= 1.01或1%,这并不是一个重要的贡献。
   将Cox模型拟合到数据后,就可以可视化特定风险组在任何给定时间点的预测生存率。函数 survfit ()估计生存比例,默认情况下为协变量的平均值。
                                           我们不妨展示估计的生存率如何取决于目标协变量的值。
   考虑到这一点,我们想评估性别对估计生存率的影响。在这种情况下,我们用两行构造一个新的数据帧,每一行代表性别。其他协变量固定为其平均值(如果是连续变量)或最低水平(如果它们是离散变量)。对于伪协变量,平均值为数据集中编码为1的比例。该数据帧通过 newdata 参数传递给 survfit ():
                                           在本文中,我们描述了Cox回归模型,用于同时评估多种风险因素与患者生存时间之间的关系。我们演示了如何使用 生存 包计算Cox模型。此外,我们描述了如何使用 survminer 软件包来可视化分析结果。

生存分析(二)-- Cox比例风险模型(Cox proportional-hazards model)

最新文章
热门文章
推荐阅读