standardized regression coefficient或standard regression coefficient
清除了因变量y和自变量x1,x2,…xn所取单位的影响之后的回归系数,其绝对值的大小直接反应了xi对y的影响程度。
计算方法
对报告标准化,马上原始报告减去相应变量的均数后再除以该变量的标准差,计算得到的回归方程称为标准化回归方程,相应得回归系数为标准化回归系数。
公式
若假定回归方程的形式如下:
Y = b0 + b1X1 + b2X2 + … + bjXj + … +bJXJ (Y是预期值)
其中,回归参数b0,b1,…,bJ通过最小二乘法求得。
则标准化回归系数 bj' = bj*(Xj的标准差/Y的标准差)
理解方法
标准化回归系数(Beta值)在多元回归中被用来比较变量间的重要性。但是受于重要性这一词意义的含糊性,这一统计常被误用。
有时民众说重要性,是指同样的条件下,哪一个东西更有效。在提升教学质量上,是硬件条重要依旧师资更重要?假使是师资更重要,那么同样的物力投在师资上就可以更快地提升教学质量。但是这里要比较的两者务必有同样的测量单位,如成本(元)。假使变量的单位不同,我们不能绝对地说那个变量更重要。不同单位的两个东西是不能绝对地比出高低轻重来。要想执行绝对地比较,就需要两个东西有着共同的测度单位,否则无法比较。
而标准化回归系数说的重要性则与上面的意义不同,这是一种相对的重要性,与某一特定的情形下,自变量间的离散程度相关。比如说,尽管我们不能绝对地说出教育和年资在决定收入上那一个一定是重要的,但假使当下大家的教育程度比较类似,那么在收入的决定上,工作年数就是决定原因;反之,假使工作年数没有太大区别,那么教育就形成了重要原因。这里的重要性是相对的,是依据不同情形而更改的。再举一个通俗的例子,研究者研究的是遗传原因和后天原因对于人成长的影响。那么在一个社会境遇悬殊重大的环境中,有人在贫民窟成长,有人在贵族学校上学,那么我们会发现人格的多部分差异会从后天环境原因得到解释,而遗传的作用就相对较小;相反,假使儿童均为在一个相差不大的环境中长大的,你会发现,遗传会解释多部分的人格差异。该种意义上的重要性,不仅与这一自变量的回归系数相关系,而且还与这个自变量的波动程度相关系:假使其波动程度较大,那就会显得较为重要;否则,就显得不太重要。标准化回归系数正是测量该种重要性的。从标准化回归系数的公式 中也可看出,Beta值是与自变量的标准差与成正比的,自变量波动程度的增长,会让它在这一具体情形下的重要性增长。
但是假使将两种重要性混同,就会得到误导性结论。如环境原因的Beta值比遗传原因的Beta值大,就觉得在个体的人格发展上应更注意环境原因,而轻视遗传原因,在当前对于Beta值的错误观念非常流行,甚至是一部分大神中。
标准化回归系数的比较结果导致适用于某一特定环境的,并非是绝对正确的,它或许因时因地而改变。举例来看,从某一次报告中得出,在影响人格形成的原因中,环境原因的Beta值比遗传原因的Beta值大,这只能表明报告采集当时当地的情形,而不能加以任何不恰当的推论,不能绝对地不加任何限定地说,环境原因的影响就是比遗传原因大。实际上,假使将来环境原因的波动程度变小,很或许遗传原因就显得更为重要。报告的情形千差万别,变量的相对重要性也或许完全不同但都符合当时的事实情形。