微信公众号 联系我们 关于我们 3618客服热线:020-32784919   推广热线:020-32780069
资讯
频道
当前位置:首页 > 医疗器械资讯 > 行业资讯 > 生存分析----参数回归

生存分析----参数回归

文章来源:www.3618med.com发布日期:2013-06-25浏览次数:27841

        生存时间数据分析的一个重要内容是模型拟合或分布拟合,描述生存时间分布的模型通 常有指数分布、Weibull分布、对数正态分布、Gamma分布等,常见生存时间分布的概率密度 函数f(t)、生存函数S(t)和风险函数h(t)见表17-4。实际对生存数据作分布拟台时,可用上述模型分别进行拟合,根据拟合优度检验的结果选择适当的模型。但是,对于一批生存数据,事先不知道生存时间分布的总体趋势,也不好判断应该用什么样的模型合适,遣时许多研究者一般直接采用非参数方法或半参数法。 但是,如果一批数据确实符合某特定的参数模型,由于非参数方法的精度一般低于参数方法,因此,按照非参数方法进行的分析就不能有效地利用和阐述样本数据所包含的信息,同时它对样本量的要求也高于参数方法。

         (一)指数模型

        指数分布是一种纯随机死亡模型,在任何时间上的风险函数为一常数.即风险函数的大小 不受生存时间长短的影响,以独特的“无记忆性”而闻名。λ为指数分布的风险率,称为刻度参数或尺度参数.其大小决定了生存时间的长短。风险率越大,生存率下降越快,生存时间越短;风险率越小,生存时间越长。

        (二)Weibull模型
        Weibull分布也是生存分析的理论基础,由瑞典科学家Waloddi Weibull提出。Weibull分布是指数分布的一种推广形式,它不像指数分布假定危险率是常数,因而有更广的应用性。 λ和γ为两个参数。λ称为尺度参数,它决定分布的分散度;γ为形状参数.它决定该分布的形态。γ>1时风险函数随时间单调递增;γ<1时风险函数随时间单调递减;显然,当γ=l时,风险不随时间变化,Weibull分布退化为指数分布,所以指数分布是Weibull分布在γ=l时的特例,

        (三)Gamma模型
        生存分析讨诒两类不同的Gamma模型:标准Gamma模型(2参数)和广义Gamma模型(3参数)。标准Gamma分布的特性取决于两个参数γ和λ,γ为形状参数,λ为尺度参数。 当0<γ<1时,若时间从0增加到无穷时,风险函数从无穷单调地减小到γ,表现为负老化; 当γ>1时,若时间从0增加到无穷时,风险函数从0增加到λ,表现为正老化;当γ=1时,风 险等于常数γ,即指数分布情形。 广义Gamma模型比我们之前考虑的其他模型多一个参数,它的风险函数可呈现更多的形状。特别地,它可以是U形或浴盆形的风险函数,在这样的函数中风险先下降,下降到小 值后又升高。众所周知,人类在整个生命周期中的死亡危险性就属于这种形状。 一般地,似然比统计量用于比较嵌套模型。如果限制模型B中的参数可得到模型A,那么 模型A嵌套于模型B。比如,指数模型同时嵌套于Weibull模型和标准Gamma模型。当Weibull模型的γ=1时,或当标准Gamma模型的形状参数和尺度参数都=1时,便得到指数 模型。如果模型A嵌套于模型B.可以通过取两模型对数似然值的正差值的2倍来评价A模 型的拟合优度。 广义Gamma分布是一个相当灵活的三参数分布族,指数模型(λ=γ=1)、Weibull模型(γ=1)和标准Gamma模型(λ=γ)都是广义Gamma模型的特例。可据此进行参数回归模 型的拟合优度检验。

        【例17-5】在17年里追踪调查了149位糖尿病患者,数据见表17-5。变量及其赋值如下,试进行患者生存刚目的影响因素分析并进行生存预测。 结局(status ,l表示死亡,0表示截尾);生存时间(t,年);随访开始时年龄(agel,岁);体重指数(BMI;诊断出糖尿病时的年龄(Age0,岁);吸烟状况(smk,0表示不吸烟;l.表示曾吸烟;2.表示吸烟);收缩压(SBP,mmHg);舒张压(DBP,mmHg);心电图读数(ECG,0表示正常;1表示可疑;2表示异常);病人是否有冠心病(CHD,0表示无;1表示有).
 




        考虑到例17-5中收缩压和舒张压两个变量有一定的相关性,数据分析时取平均血压 (MBP),即令MBP=SBP* (1/3)+DBP* (2/3)。程序名为CT17-5。

        PROC LIFEREG过程对生存数据拟合参数模型,其大特点在于可以处理右截尾、左截 尾或区间截尾数据.同时含有丰富的生存分布形式,特别是其中的广义Gamma分布可以进行许多其他概率分布的似然比拟合优度检验。 CLASS语句用于说明分类变量。 MODEI.语句指出哪些变量用于该模型的回归部分以及模型的误差项或随机项的分布是 什么。MODEL语句可用的选项:

         (1) DISTRIBUTIONI DISTID—distribution-type(分布的类型).说明生存时间的分布型。exponential,weibull,Gamma.normal,Inormal,Logistic,Logistic指定指数分布、Weibull分布、Gamma分布、正态分布、对数正态分布、Logistic分布和对数Logistic分布。

        (2)NOLOG要求不对反应变地进行对数变换,缺省时LIFEREG过程对反应变量进行对数变换。

        (3)SCALE=value(值),要求尺度参数以这个值作为初始值。

        (4)NOSCALE要求尺度参数固定。

        (5)SHAPI:1= value(值),要求形状参数用规定的value值为初始值。 (6)NOSHAPEI要求个形状参数SHAPE1保持固定。 OUTPUT语句创建一个新SAS数据集,它包含模型拟台之后计算的统计量。 OUTPUT < OUT=SAS-data-set > keyword=nameOUT=SAS-data-set(SAS数据集).命名输出数据集。keyword - name(关键同一名 字),规定在OUTPUT数据集中包含的统计量(如下).并给出包含这些统计量的新名字。 
        ①CONTROL在输人数据集中命名用于控制分位数估计的变量。 
        ②PREDJCTEDIP,命名存放分位数估计结果的变量。缺省时计算第50百分位数即中位 生存时间。 
        ③QUANTILES | Q,给出所要求汁算的分位数列表。 
        ④STD_ERR | STD,命名存放分位数标准差估计结果的变量。 
        ⑤XBETA命名存放分位计算结果的 变量。 LIFEREG过程也可以得到原始数据集外其他枷变挝值所列应的预测值。模型拟合 前,将这些协变班值附加在原数据集后,生存时间设置为缺失值。这样这些观测不用于模 型拟台,但可生成它们的预测值。如果只需要几个观察值(真实值或假想值)的预测,则 生成一个变量如USE,若需要预测,则该变 量=l;否则,该变量=0。OUTPUT语句中 包括CONTROL=USE。 

 


        主要分析结果及解释:

        以下是程序CTl7-5输出的主要结果及其解释。

 



        在PROC LIFEREG中没有直接拟合标准Gamma模型的方法,但PROC LIFEREG可以将尺度参数和形状参数设定为特定值。若拟合标准Gamma模型,可试用许多不同的值(比如用直线搜索法),直到找到一个能使对数似然值达到大的共同的尺度参数和形状参数。本倒 不再尝试。 现比对3个模型的拟合效果,可采用似然比检验,似然比统计量的公式为:

        式中χ2v服从自由度为v的χ2分布,−2logLq和− 2logLq+v分别为含q和q+v个参数的模型的对数似然函数值。因Weibull分布包含两个参数,指数分布包含1个参数.广义Gamma分布包含3个参数,标准Gamma分布包含2个参数。所以,各种分布拟合效果有无差异的假设检验结果可汇总如下,见表17-6。

        17. 6kPa(132mmHg),舒张压(DBP)12. 8kPa(96mmHg),心电图读数正常,预测此类患者的中位生存时间为28.7年。第2号患者随|方开始时年龄(agel)49岁,收缩压(SBP)17.3kPa(130rnmHg),舒张压(DBP)9. 6kPa(72mmHg),心电图读数正常,预测此类患者的中位生存时间为32.5年。其他依此类推。