统计学上采用回归分析(regression analysis)研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为应变量。
研究“一因一果”,即一个自变量与一个应变量的回归分析称为一元回归分析;
研究“多因一果”,即多个自变量与一个应变量的回归分析称为多元回归分析。
一元回归分析又分为直线回归分析与曲线回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。
在临床研究的资料中,患者的疾病影响因素往往是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计应变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。
回归分析的任务是揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量(原因)来预测、控制应变量(结果)。
多元线性回归的基本原理和基本计算过程与一元线性回归相同,但由于自变量个数多,计算相当麻烦,一般在实际中应用时都要借助统计软件,例如SPSS。
临床研究中应用到多元线性回归分析的情况很多,一个变量的变化直接与另一组变量的变化有关:
人的体重与身高、胸围;
血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史;
糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂;
射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、照射的时间等等。
一、多元回归分析数据格式
假定对n例观察对象逐一测定了应变量Y与m个自变量X1X2……Xm的数值。
二、多元线性回归方程模型
用途:解释和预报。
意义:由于事物间的联系常常是多方面的,一个应变量的变化可能受到其它多个自变量的影响,如糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂等多种生化指标的影响。
式中β0是常数项, β1β2…….βm称为偏回归系数(partial regression coefficient)。
βi(i=1,2,……m)的含义为在其它自变量保持不变的条件下,自变量Xi改变一个单位时应变量Y的平均改变量。e为随机误差,又称残差(residual),它表示的变化中不能由自变量Xi(i=1,2,…m)解释的部分。
建立多元性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自变量的选择,其准则是:
(1)自变量对因变量必须有显著的影响,并呈密切的线性相关;
(2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的;
(3)自变量之彰应具有一定的互斥性,即自变量之间的相关程度不应高于自变量与因变量之因的相关程度;
(4)自变量应具有完整的统计数据,其预测值容易确定。
三、SPSS应用举例:
27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表1,试建立血糖与其它几项指标关系的多元线性回归方程。
表1 27名糖尿病人的血糖及有关变量的测量结果
SPSS操作分析步骤如下:
1.建立数据文件:取四个自变量,X1,X2,X3,X4,分别代表总胆固醇,甘油三脂,胰岛素,糖化血红蛋白,一个应变量Y,即血糖。
2.统计分析:analyze-regression-liner输入各自变量和应变量,按提示选择相应的参数。
所建立的多元线性回归方程为:
Y=5.943+0.142X1+0.351X2-0.271X3+0.638X4
标准化回归系数可以用来比较各个自变量Xj对Y的影响强度,通常在有统计学意义的前提下,标准化回归系数的绝对值愈大,说明相应自变量对Y的作用愈大。
本例结果显示,对血糖影响大小的顺序依次为糖化血红蛋白、胰岛素、甘油三脂和总胆固醇。
(刘辉)
|