多变量分析

什么是多变量分析

多变量分析是多个变量统计分析技术在社会研究中的运用。又称多元分析。它的分类方法很多，首要有按变量层次分类和按功能分类。多变量分析为统计方法的一种，包含了很多的方法，最基本的为单变量，再延伸出来的多变量分析。统计资料中有多个变量（或称原因、指标）同期存在时的统计分析，是统计学的重要分支，是单变量统计的成长。统计学中的多变量统计分析起因为医学和心理学。1930年代它在理论上发展迅速，但受于计算复杂，事实应用很少。1970年代以来受于计算机的蓬勃发展和普及，多变量统计分析已渗入到差不多所有的学科。到80年代后期，计算机软件包已很广泛，运用也方便，所以多变量分析方法也更为普及。

多变量统计分析

比如对630位炊事员高血压病执行调查,检查项目中除血压外，尚有年纪、性别、体重、体胖等15个项目（变量）。假使用单变量统计分析法考察超重与血压的关系，一般是把报告做成表1的形式。从表1可见，超重组与不超重组对比，高血压患病率高出一倍以上。但假使把资料按体胖者与不体胖者划分成两组，再考察每组内的超重与高血压患病率的关系，就未能发现超重与高血压患病率有任何显著的联系。也就是说，单变量统计分析忽略了此外原因（这样例中的体胖及年纪等）的影响。对于有多个变量客观存在而又相互影响的资料，采取简单的单变量统计分析是不合理的。多变量统计分析就能把变量间的内在联系和相互影响考虑以内。

多变量统计的理论基础和工具是数学中的几率论和矩阵。但对于事实应用者来说，只要有合适的计算机和软件包以及掌握一部分初步的多变量统计知识就可以运用它来处理事实困难。多变量统计的内容很多，但从事实应用角度看，首要包含回归分析、判别分析、因子分析、主成分分析、聚类分析、生存分析等六个大的分支。

市场研究中的多变量分析技术

回归分析技术：是监督类分析方法，最重要的认识多变量分析的基础方法，只有掌握了回归我们才可进入多变量分析，其它很多方法均为变种。首要用在影响研究、满意度研究等，诚然市场研究差不多是解释性回归分析，也就是不注重预期而关注解释自变量对因变量的影响。首要把握R平方、逐渐回归、标准化回归系数（当作权重或重要性）等；回归也是预处理技术，缺省值处理等

主成分分析和因子分析：是非监督类分析方法的代表，是首要认识多变量分析的基础方法，只有掌握了因子分析我们才可进入多原因相互关系的研究；首要用在消费者举动立场等研究、价值观立场语句的分析、市场细分以前的因子聚类等，问卷的信度和效度检验等，因子分析也可算是报告的预处理技术。主成分分析与因子分析是两种方法，要能够区分。主成分分析可以消减变量，权重等，主成分还可以用作构建综合排名！

判别分析技术：判别分析是最好的构建Biplot二元判别图的好方法，首要用于分类和判别图，也是图示化技术的一种；

对应分析技术：市场研究非常有用的研究技术，首要分析定类变量，构建二元图，也是图示化技术的一种；

Logistics回归技术：分类技术，首要针对因变量是0-1情形下的判别，该技术是我们认识非线性关系的重要基础，很多情形下，我们需要做出是与否的分析，基础模型就是它了，像客户离网分析、客户价值分析、客户信用等都用这个模型；

聚类分析技术：首要用在市场细分方面，但聚类分析本质上不是统计分析，是报告处理技术，从事市场细分的人要好好把握，尤其是注重聚类分析的细节，可以执行变量和样本的聚类；记住：样本聚类有机会报告排列不同聚类结果不同，要执行聚类后的平稳性试探，一般也要采取方差最大旋转，有时候斜交更适合聚类细分；诚然，聚类后的细分市场识别是头痛困难，用到上面的几种技术，也很繁琐！我当下执行市场细分差不多都用报告挖掘软件工具了！当下比较好用的是Two-Step两阶段聚类；

MDS多维尺度分析技术：这个技术当前不太用了，但它是认识多变量分析技术，特别是测量与分析技术好的视角。比如，类似性和差异性测量、语异差异法等，洞察潜在消费者心理和潜在分类维度等。

其它：GLM通用线性模型、Logit回归、Probit分析、牢靠性分析等

多变量分析的分支1.回归分析

当多个变量x1，x2,…，xm（称为回归变量或自变量、独立变量）同期影响某个指标 y（称为因变量或依靠变量）时，可执行回归分析，回归分析的第一个任务就是求回归变量对指标 y的影响的统计规律性（也称回归关系）；第二个任务是寻求大量的回归变量中哪一部分能对指标 y造成影响（常称为原因分析或变量的过滤）；第三个任务(也称有关分析)是在固定（或称清除）其余变量的影响后，考察每一个回归变量对指标 y的有关程度（称为偏有关系数）。上述三个任务常是相互联系，可以同期完成。

回归变量x1，x2，…，xm与因变量y之间最常见的统计关系有两大类型：线性模型和非线性模型。线性模型中假定y 的首要部分（记为），可由x1，x2，xm线性表明为

其中b0,b1，b2，…，bm是未知常数，需用样本去预期，ε 是用取代y后的误差。这是最常用的模型，称为多重线性回归或多元线性回归。用样本预期线性回归模型中未知常数的方法也很多，经典的方法为最小二乘法，它的理论较为完善，此法较适用于回归变量之间的有关性不很大时。其余求未知常数b0,b1，b2，…，bm的方法仍有岭回归、特质根回归、主成分回归等，它们常用于回归变量之间有关性很大时。

非线性回归模型中y的首要部分与x1,x2，…，xm的关系为非线性函数：

其中┃ 的形式已知，未知常数 α1，α2；…用样本去预期。医学中最常见的非线性回归是logistic回归，它常用于疾病对照研究以及生长发育困难中。

在前述的炊事员高血压病调查中，运用线性模型和最小二乘法求出未知常数，再用逐渐回归选取变量，可求得15个变量中有 7个变量对炊事员舒张压有明显的影响，它们按偏有关系数大小排列为：年纪 (0.297)，体胖程度 (0.253)，肾炎史(0.162)，性别(0.117)，工作类别(0.081),高血压家族史(0.061)，嗜咸程度(0.052)。从有关性大小看，体胖对舒张压的影响与年纪的影响大体相当。此外还可看出：工种，家族史和嗜咸对舒张压虽有影响，但影响甚小。

2.判别分析

依据样本的某些指标来决定样本归属的类别。比如在医疗诊断中，要确定一个病人能否患有急性阑尾炎，这就是一个判别困难。为了回答这一困难往往需要对病人执行多项指标（变量）的检测，然后依据各类指标的观测值将病人归入患有急性阑尾炎或不患有急性阑尾炎的类中。判别分析一般是先确立一个判别函数，将各指标的观测值代入相应的变量，再依据某判别规则（如函数值大于某值）做出分析、鉴别或决策。比如，为了研究亚硝酸基盐化合物与胃癌的关系，有人曾对胃癌组（记为H1）、萎缩性胃炎组(H2)、浅表性胃炎组(H3)3组病人测量下方6个指标(变量)：性别（x1,男为1,女为0）、年纪(x2)、胃液中pH值(x3)、唾液中亚硝酸盐浓度(x4)、胃液中亚硝酸盐浓度(x5)、胃液中二甲基亚硝酸胺浓度 (x6)。用判别分析法，可求出6个指标（变量）在 3个疾病组中分布有明显不同的是x1,x2，x4,x6；其余两个指标在不同组中的分布大体相同。对应于每个疾病组可建立下方的判别函数：

u1=-11.48+2.68x1+0.37x2+0.04x4+0.90x6 (H1) u2=-14.06+3.79x1+0.35x2+0.50x4+1.82x6 (H2) u3=-6.36+1.84x1+0.27x2+0.34x4+0.84x6 (H3)

在判别分析时，可将测得的患者值(x1,x2,x4,x6)代入判别函数,求得一组函数值u1，u2，u3。这里的判别规则是：假使u1最大,则患者判属疾病组H1；假使u2最大,则判属H2；假使u3最大，则属H3。如此，诊断就变成了报告的处理及分析，现代化医院自动诊断的原理就基于此。一般说的把医生的经验和知识存入计算机，也就是在计算机中建立诊断的经验方式──判别函数。判别函数中变量前的系数含有重要的信息。上列中变量x3，x5前的系数均是0；x1前的3个系数(2.68，3.79，1.84)表明相对于女性(x1=0)来说,男性 (x1=1)更容易得萎缩性胃炎(3.79)或胃癌(2.68)； x2前的3个系数表明相同年纪者得胃癌、萎缩性胃炎、浅表性胃炎的比为0.37:0.35:0.27；等等。

3.因子分析

也称原因分析。医学、生物学及一切社会和自然现象中各变量（或事物）之间常存在有有关性或类似性。这是由于变量（或事物）之间往往存在有共性原因（称为公因子或共性因子），这些共性因子同期影响不同的变量（或事物）。因子分析的根本任务就是从大量的变量（或事物）中由表及里找出隐含于它们内部的公因子，表示公因子的首要特点，并用由事实测量到的变量（或事物）构造公因子。因子分析有R型及Q型之分，用于变量之间时说为 R型因子分析，用于事物之间时说为Q型。

以R型因子分析为例,设样本中的变量为x1,x2，…，xm，隐藏的公因子为┃1,┃2，…，┃k。这时每个变量在理论上常可写成下面的形式：

上式右边的第一部分是变量中公因子(┃1,┃2，…，┃k)起作用的部分，后一部分是与公因子无关的部分（称为独立性部分）。因子分析的根本任务就是用样本求出┃1,┃2，…，┃k及其系数｛α吗｝，系数α吗称为权或负荷系数，当样本是标准化报告且假定公因子之间彼此不有关时,则权α吗就是公因子┃j与变量xi间的有关系数。利用因子分析方法可以从所观测到的变量中推断出少数因子，用最少的因子来解释所观测到的变量，进而揭示事物之间内在的联系。对因子的事实解释务必结合专业知识并由实践检验。比如中国学者梁月华、孙尚拱曾用因子分析法找出隐含在6个易测量的生理指标（缩减压、舒张压、呼吸、心率、体温及唾液量）内部的公因子┃1，并用实验判定┃1可很好地代表交感神经的平衡状态，最后用 ┃1 论证了中医的“寒热”其本质就是交感神经的压抑或兴奋。

主成分分析是研究如何把彼此有关的变量综合成一个（或少数几个）综合指标（或称主成分），而该综合指标应能最大程度地反应观测变量所供应的信息。如记(x1,x2，…，xm)为观测变量,欲求的综合指标Z一般可写成

事实上Z往往只能吸收m个变量中有关最大的一部分信息（相似于因子分析中┃1），此当观测变量间彼此很少有有关性时，运用主成分分析是不合适的。假使观测变量间有关性可以分成几组而各组间又很少有关，这时不能用一个主成分综合全体变量，而应多取几个主成分。

事实运用时，受于主成分分析与因子分析极为类似，所以不少统计学家常把两种分析不加区别，名称也相互套用。

主成分分析在医学研究中有很多应用，比如有人把5个易测量的老化征（白斑、老年斑、闭目单腿直立时间、老年环、脱齿数）综合成一个指标Z,计算显示综合值Z可以吸收5个老化征全体信息中的43％，能综合地反应出形体老化的程度。

4.聚类分析

也称为分类学。经典的分类学诞生于几百年前，比如化石分类、植物标本分类等。以往的分类多依靠一部分特异性指标。假使对于所需分类的事物，不存在或很难运用特异性指标时就只能采取多变量统计分析法。把数学方法引进分类学并称之为“聚类分析”是60年代的事。此后聚类分析发展迅速，并获得普遍应用，但还不大成熟。

聚类分析也可分为 R型及Q型，对变量作分类称R型，对样品（观察单元、事物）作分类称 Q型。分类的基础是类似性或距离。假使两个变量（或样品）彼此类似或距离很近，自然就分在与一类。所以在执行聚类分析时务必先定义类似性或距离。类似性或距离的定义法种类繁多。比如，常用变量间的有关系数代表变量间的类似性，以几何中两点间的欧氏距离（先要去量纲）代表两个样品间的距离。然后选用分类的数学公式，对它们的分类做出判别。这些公式也是种类繁多。迄今没有一种公式是最优的。事实工作者常选用多种方法试算，再结合专业知识确定分类的结果。

5.生存分析

生存分析起因为寿命表。生物的生存时间除了受健康的影响外，同期还受社会原因，生活条件等影响。生存分析研究哪些原因对“寿命”有明显影响，它的风险程度如何。20世纪末生存分析已不仅用于研究人的寿命困难，还用于一切广义的“寿命”或相关“死亡”的困难，比如发动机的寿命，病人手术后的生存时间，两种疗效的对比分析等。生存分析有多种模型，最常用的有Cox回归模型，它的特点是：m个变量联合作用的相对风险可以表明成每个变量单独作用时相对风险的乘积（故也称为乘法模型）。此外常用的模型为可加性模型，它的特点是：m 个变量联合作用的相对风险可表明为每个变量单独作用之和。究竟应运用什么样的模型应在具体困难中结合专业知识确定。

推荐文章

热门文章

推荐文章

热门文章