首页百科金融统计文章详细

生物统计

外汇网2021-06-19 12:37:26 56

发展简况

最早提出生物统计思想的是比利时数学家L.A.J.凯特莱,他尝试把统计学的理论应用于处理生物学、医学和社会学中的困难。1866年,揭示了遗传的基本规律,这是最早运用数理统计于生物实验的一个成功的范例(见)。1889年,在《自然的遗传》一书中,通过对人体身高的研究表示,子代的身高不仅与亲代的身高有关,而且有向平均值“回归”的趋势,自此提出了“回归”和“有关”的概念和算法,进而奠定了生物统计的基础。高尔顿的学生K.皮尔逊更深一步把统计学应用于生物研究,提出了事实测定数与理论预期数之间的偏离度指数即卡方差()的概念和算法,这在属性的统计分析上起了重要作用。1899年,他创办了《生物统计》杂志,还建立了一所数理统计学校。他的学生W.S.戈塞特对样本标准差作了很多研究,并于1908年以“Student”的笔名将t-检验法发表于《生物统计》杂志上。此后,t-检验法就成了生物统计学中的基本工具之一。英国数学家表示,只注意事后的报告分析是不够的,事先务必作好实验设计。他使实验设计成了生物统计的一个分支。他的学生G.W.斯奈迪格把变异来源不同的均方比值称为F值,并表示当值大于理论上 5%几率水准的值时,该项变异来源的必然性效应就从偶然性变量中分析出来了,这就是“方差分析法”。上述这些方法对于农业科学、生物学尤其是的研究,起了巨大的助推作用,20世纪20年代以来,各种数理统计方法相继创立,它们在实验室、田间、饲养和临床实验中得到普遍应用并日益扩大到整个工业界。70年代,伴随计算机的普及,使本来受于计算量过大而必须放弃的统计方法又得到了新的生命力,应用更为普遍,并在现代科技中占有十分重要的地位。个体与总的参数

一个观测对象(如一个7岁男孩)的某些性状(如身高等)的量度结果,称为一个个体。来源相同的各个个体(如各个 7岁男孩的身高值)之间的差异称为个体变异。总的是通过统计所欲了解的对象,其中的个体可以是有限的也可以是无限的。观测报告可以是计数的(离散的)(如单位面积中的昆虫数),也可以是计量的(如身高、体重、血压、肺活量等)。总的最基本的参数有两类:表明水平的称为位置参数或型值,如平均数、中位数、率等;反应个体差异大小的称为分散度参数,如标准差、极差等。总的参数是一个客观存在但一般却又是未知的常数。只能用样本去预期它。如此做自然会有误差。样本平均数,即

[1432-01]其中表明第 个个体的观测值;为样本中的个体数,称为样本大小;∑为求和号,∑表明的合计凡是从样本计算出来的数值都称为统计量,它是对相应的总的值的一种预期比如是总的均数 的一种预期。若总的均数恰好等于,则称为 的无偏预期,意谓用预期虽有误差但平均来看是无偏的。此时又称 为 的期望,记作[1432-02]。率

反应事物或现象显现的可能或频度,常用百分率或小数表明。如:受染率、死亡率、男婴率等。若以代表阳性率,则阴性率=1-。若将男婴记作=1,女婴记作=0,则个婴儿的性别指标的均数=(∑/=就是男婴率。可见,率可以看成是个体取值为1或0的计数报告的均数。该种样本的率也是对应的总的率的无偏预期。总的的率又称为几率。

中位数是报告按大小排列后位于中央的数值。对于分布不对称的指标(如机体内、外环境中的有害物质浓度等)往往会有少数特大值,此时,中位数比均数更具代表性,也更平稳。当为偶数时,则取中央两数的均数。

众数即最常显现的数值。如正常妊娠天数的众数为280日。

极差即最大值与最小值之差。是用于表明报告分散度的简单指标。

方差比极差更全面地反应个体差异的大小。若总的中有个个体,则总的的方差为

[1432-05] (2)样本方差 [1432-06] (3)是总的方差的无偏预期。若(3)式的分母改用,就不是无偏预期。-1是自由度:样本中有个独立的观测指标,它们均为随机变量,它们对于总的均数的离差平方和∑(-),是个独立随机变量之和,称为有个自由度;而(3)式中的∑(-),是用代替了,等于对个的值加了一个制约,即∑务必等于,换言之,∑(-)只相当于-1个独立的随机变量之和,所以它只有-1个自由度。一般地说,对统计量每加之一种制约就用去了一个自由度。为了运算上的方便,离均差平方和有时也记作:

[1432-09] (4)

标准差是方差的平方根。它和观测值有相同的单位。是最常用的表明报告分散程度的指标。对于正态分布的报告,它的用处尤大。样本标准差是对总的标准差的一种预期。的值可在有统计功能的计算器上直接得出。计算值的功能键常用[on]表明。

变异系数即

[1432-9a] (5)它是不受单位影响的量,可用于比较两种单位不同的指标(如生物体的长度与重量)的个体变异大小。比如,三只小白鼠的体重=22,24,27(克)。它们的均数

=(22+24+27)/3=24.3(克)[1432-11]标准差 [1432-21]变异系数 [1432-13]极差Δ=27-22=5(克)。中位数是24克。

几率表明客观事物或许发生的程度。它是事实观察到的率(如男婴率)的总的均值或期望值。它的通用符号是。常用小数或分数表明其大小。比如用0≤≤1表明几率的取值规模为0~1:假定(男婴)=22/43=0.512表明生男婴的几率为22/43或0.512,即略大于1/2。这一理论值是依据反复多次的大样本统计结果归纳出来的。几率可以从量的方面来看明总的的性质。所谓“小几率事件”是指事实上不大或许发生的事件。

为充分地了解一个总的,就须知道个体的取值规模,以及显现的各种或许值的几率,即几率分布,简称分布。

正态分布一种理想的对称型分布。有些生物学指标远非正态分布,而是呈左右不对称的所谓偏态,但当样本放大时,它们的均数却趋向正态分布。这一性质有重要的实用价值。

直方图一种依据频数表绘制的图,它以横轴上的长方形的面积表明各组的频数,长方形在横轴上的边长相当于组距(图1[1000位20岁男生的身高])。

假使一步步地缩减直方图的组距,同期放大样本含量,最终将要趋于图2[正态分布]那样的极限。在图2中,曲线下方横轴以上的面积表明几率,该种曲线称为“(几率)分布曲线”。

正态分布具有下方性质:以总的均数为中心,在中心处的分布曲线最高;两侧与 距离相等的对称区间的上方有相同的面积(几率);与 相距愈远的区域的几率愈小;可以用与(总的标准差)这两个参数来描述整个分布(图3[标准差与正态分布曲线])只要知道了 和,则个体落入任何区间的几率均可从(统计学书上)事先算好的正态分布表中查得。表1 [标准正态分布尾部几率简表]是该种表的一个摘要。

标准正态分布凡是正态分布的报告,均可通过减去均数并除以标准差而使之形成均数为0、标准差为1的标准正态分布。经历该种变换的指标记为,

[1433-11] (6) 遵从均数为 标准差为的正态分布,一般以简单的符号来表明:~( ,)。故可用~(0,1)表明“遵从标准正态分布”。该种分布很常用,特别是表1所列几个界限值。

当样本含量放大时,不论原始报告是不是正态分布,它的大部分统计指标均趋向正态分布,进而可以更深一步化为标准正态分布,再依据 的界值来做出推断(表1[标准正态分布尾部几率简表])。

正常规模生物界的正常规模常用于诊断、鉴别和分类。策划正常规模需要一部分先决条件:原始报告务必来自同一总的;样本对总的的代表性要好;仪器、试剂和方法都没有偏性。理想的界限应有较高的灵敏度与特异度。前者是对异常者的识别率=1-假阳性率;后者是对正常者的识别率=1-假阴性率。当仍未掌握异常者的情形时,可暂将特异度定在0.95(即95%的正常者为此规模所覆盖)的水准;待掌握了异常者的报告分布后,再酌情修改界限以便兼顾灵敏度与特异度这两个方面。抽样

为了预期总的的参数(如均数、率、标准差等)而从其中抽出一部分个体构成供分析的样本称为抽样。抽样方法应能防止主、客观原因产生偏性(即系统误差),保证样本对总的的代表性。简单随机抽样是以抽签或相当于抽签的方式从总的中抽取个体构成样本。其要点是:总的中每个个体被抽中的可能务必均等。系统抽样是将总的划分为时间或空间顺序相等的个部分,再机械地取每一部分的第个个体构成样本,是一次随机抽定的。比如,欲抽查十分之一学生的成绩,可从0到9这10个整数中随机地抽定一个数,如果为3,则凡学生证号最后一个数是 3者都是被抽中的对象。分层抽样是事先将总的分为不同的层次(如地区、年纪、性别等),再分别从各层次中按适当比例抽样。用此法可以从层间差异较大的总的中获取代表性较好的样本。整群抽样是以群体为单位执行抽样,凡抽中的单位就全面调查。此法便于实行,但抽样误差较大,一般不可沿用基于简单随机抽样的普通公式计算抽样误差。另外,还可以分阶段地、混合地运用上述方法。如两阶段抽样、多阶段抽样、分层整群抽样、多阶段等几率抽样等。

用样本统计量去预期总的参数难免会有抽样误差,它的大小与个体变异(标准差)的大小成正比;与样本含量的平方根成反比。表明抽样误差大小的统计指标是标准误 [1434-01]或代以统计量 [1434-02] (7)相当于将每一个样本(设想有很多来自同一总的的样本)的均数(或率)看形成一个个体时的标准差,它反应了取自同一总的的不同样本之间的差异(7)式适用于简单随机抽样和系统抽样。其余几种抽样方法的算式较繁。

差异的明显性两个或两组报告对比,总会有或大或小的差异。困难是该种差异仅仅是抽样误差的反应呢依旧受于它们来自不同的总的?即能否存在着本质性差异?用统计学的术语来看,就是要分析报告间的差异能否“明显”。用统计方法来推断差异的性质称为差异的明显性检验。明显性检验的方法很多,基本步骤大体如下:先假定报告均来自同一总的,即如果要比较的报告并无本质性差异,称为零如果;依据原始报告计算因抽样误差而显现此种程度差异的几率;若甚小,则依据“小几率事件事实上不大或许发生”这一原理否定零如果,觉得“差异明显”,即该种差异从统计学的角度来说是故意义的;反之,若不算小,就不否定零如果,觉得“差异不明显”,即不能消除抽样误差规模内的波动。正确地运用明显性检验,可使实验或调查的结论建立在更科学、稳妥的基础之上,避免简单化和绝对化。

明显性水准几率的大小只能相对来说,在生物学报告的差异明显性检验中,已习惯用=0.05为小几率的上限。有时,为严格起见,也规定=0.01。称为明显性水准,它是当零如果正确时却错误地将其否定(第Ⅰ类错误)的几率。但也不是 定得愈小愈好。假使零如果是不对的却未是否定,它(第Ⅱ类错误)的几率 将因规定得愈小而愈大。放大样本可以减小显现第Ⅰ或第Ⅱ类错误的几率。

两个计数报告的比较最简单的差异明显性检验是比较按零如果系“来自同一总的”的两个计数与。

[1434-03] (8)服从标准正态分布。换言之,>1.96的几率<0.05(表1[标准正态分布尾部几率简表])。

比如,用“714”试治喘息型气管炎,与用氨茶碱执行比较:在每名病例身上交替运用这两种药各一疗程。二分之一病例先服甲药,另一半先服乙药。结果16位病例用氨茶碱效果较好(=16),5位用“714”较好(=5)。

将上述结果代入(8)式

[1434-03a]因>1.96,<0.05,故否定零如果,所以可以觉得两药的疗效并没有相同,即“714”的疗效差于氨茶碱。

凡用标准正态分布统计量执行的明显性检验,均可称为检验。

两个均数的比较也可用检验:

[1434-04] (9)其中和分别表明第1个样本的均值标准和含量,余类推。为总的方差,一般是未知的,故常用右边的近似式。当两样本的含量 +=<25时,(9)式的近似程度欠佳,最好用检验。

检验是依据统计量的几率分布(称为分布,见表2[禾苗喷雾后净上涨度(cm)])而执行的明显性检验。比较两个均数时,

[1434-05] (10)其中为合并的方差,即

[1434-06]

[1434-07] (11)其中表明第1个样本中的报告,表明第2个样本中的报告,其余符号意义同前自由度=+-2用[tav]表明明显性水准为、自由度为的临界值,可从表 3中查得。若按(10)式算得的的绝对值大于[tav],则<,有明显性差异。

比如,在一块小区田里选20兜长势均匀的禾苗作试验,随机抽取其中10兜喷以粗制“920”溶液,其余喷水作对照。三日后,测量禾苗净上涨度,结果如表2[禾苗喷雾后净上涨度(cm)]。

由(11)式

[1434-08]代入(10)式

[1434-09]查表3[值表]值表" class=image>,当=0.01,=10+10-2=18,0.01,18=2.88;此例=4.55>2.88,<0.01,有明显性差异。

结论:粗制“920”有增速禾苗生长的作用。

两个率的比较当样本较大,以致两个样本的阳性数、阴性数都大于5时,可用检验:

[1434-10] (12)、和,分别表明第1组的阳性率、阴性率和含量,余类推。若应用检验的上述条件不能满足,可用近似程度较好的检验:

[1434-11] (13)其中[p-1]=(1+1)(+2),1是第 1组的阳性数,[q-1]=1-[p-1],余类推。自由度=+-2。

比如,甲组=23,其中两个呈“+”反映,乙组=77,全为“―”反映。当下来检验差异的明显性。[p-1]=(2+1)/(23+2)=0.120,[q-1]=1-0.120=0.880;[p-2]=(0+1)/(77+2)=0.013,[q-2]=1-0.013=0.987。代入(13) 式得=1.65,=23+77-2=98,靠近100,由表3[值表]值表" class=image>知[1435-33],>0.05,故无明显性差异。

置信限由样本预期总的,难免会有抽样误差,这就造成了统计量的可信程度和可信规模的困难。假使我们将统计量(或)看形成一个个体,的总的均数为,标准差为=/[1435-0];而且不论的分布能否正态,只要不是很小,就近似正态分布,亦即=(-)/近似标准正态分布。于是下式

[1435-01] (14)成立的几率为0.95。用代替其中的,稍作变换,即得由样本统计量 和来预期总的参数 的一个区间(规模):

[1435-02] (15)这一区间的事实计算值随样本而异,但它们覆盖[u1]的可能──称为置信水准──是95%,所以称(15)式为95%置信区间,它的上、下限就是置信限。

比如按表 4 [161位 7岁男孩身高的频数分布]中报告可算出161位7岁男孩的身高均值=115.01(厘米),标准差=4.63,标准误由(7)式得[1435-03]。由 (15)式得 7岁男孩身高总的均数 的95%置信限为[114.95,115.73]。

两总的均数之差-的置信限可按下式计算:

[1435-04] (16)式中符号意义同前当置信水准(1-)为95%时,=0.05;=1+2-2;据此,从表2[禾苗喷雾后净上涨度(cm)]中即可查出[tav]的值。

方差分析 也是基本的统计分析方法之一,较常用于分析实验报告。用于检验多组均数间差异的明显性和多原因的单独效应与交互影响的明显性等。基本思路:正态分布报告的变差,可分为未能控制与未能解释的“误差”和来源清晰与能够解释的“效应”这两多部分。后者还可以更深一步划分成各种不同原因及其交互影响所引起的效应。

按一个原因的不同水平分组的报告结构:

观测值=平均效应+该水准(组)效应+误差(17)当检验组报告间的差异明显性时,零如果相当于“各组效应都是零”;当零如果被否定时备选如果相当于“在种处理(水平)中起码有一种的效应不为零”。

一般用离均差平方和(记作)来衡量报告间的变异,再除以自由度()则称为均方,记作=/,它反应了平均的变异程度。设每组各有个报告,则组共有=个。它们的总变异[1435-05],表明第组的第个报告;各组之间的变异[1435-06],是第组的均数;组内变异(即误差)[1435-07]。三者之间有下方关系:

=+(18)它们的自由度也同样可加:

(-1)=(-1)+(-) (19)组间均方 =/(-1)与组内均方 =/(-)之比

=/(20)可用来检验组间差异的明显性。的界值可从值表中查得。用于方差分析的软件可以打印出包含 及相应的尾部几率值的表格(表6[表5中报告的方差分析表])。

比如将 30位缩减压在200毫米汞柱左右的高血压病例随机分为3组,每组各用一种药物,一个疗程后测血压,结果如表5[三组病人用药后的血压(mmHg)]。

利用现成的计算机软件打印的结果如表6[表5中报告的方差分析表]。表中<0.01,显示组间有明显性差异。即自由变。

按两个原因分组的报告结构:

观测值=均数+行效应+列效应

+交互影响+误差 (21)其中“均数”指平均效应,行效应指按第1原因分组的组效应,列效应指按第2原因分组的组效应。交互影响的含义:当报告按两个以上的原因分组时,假使这些原因的效应并没有是彼此独立的,即一个原因的效应随另一原因的水准不同而异,则称这两个原因之间存在着交互影响。

比如在三种病型的病例身上试用 4种药物后的血压更改如表7 [原始报告]所示。其中每个报告代表一个病人的用药结果。

表8[方差分析表]是计算机给出的结果。

从 值可以看出:三种病型之间无明显性差异;药物间有明显性差异;药物与病型的交互影响无明显性。“均数”除非来因为配对报告之差或两均数之差,一般均为有明显性的,即不为零。

只有执行了重复实验,即两原因的各种不同水平的搭配均有两个以上报告,才有机会算出交互影响项的变异。这是在设计时应当想到的。

上述内容不难推广到三个以上原因的方差分析。

理论的验证──检验生物科学注重实验、调查。归纳得来的理论、演绎得来的假说,还须经历实践来验证。受于个体差异大是生物学报告的固有特点,所以该种验证也只能是统计的。统计量

是 个独立标准正态分布统计量的平方和,它的分布与自由度V相关(表9[表]表" class=image>,图4[分布]分布" class=image>)。在生物学研究中用处很大,常用于衡量某种理论与事实计数的相符性,或按两种指标分组的列联表的独立性。事实观察到的分配在表中每个小格里的计数报告,可以假定是服从泊松分布规律的报告──它的特点是方差等于平均数,且当样本不很小时,近似于正态分布。自此可以理解下列这个常用的基本公式。

=[1436-01] (22)其中的理论数可按欲检验的生物学理论或零如果计算,自由度 =中蕴含独立统计量的个数。对于普通的只有一行格的单向表──1×表,因受合计的约束,

V=-1而双向的有行列的×表,则因受行合计与列合计的约束,

=(-1)(-1)对计算结果的分析可参照差异的明显性检验。

比如番茄的真实紫茎、缺刻叶植株AACC与真实绿茎、马铃薯叶植株aacc杂交,子2代得如下结果(株数):紫茎缺刻叶 紫茎马铃薯叶 绿茎缺刻叶绿茎马铃薯叶

247908334上述观察频数能否与遗传学的独立分配定律的理论比例:9:3:3:1吻合,可用分布来衡量实验观察结果与理论频数之间的相符度。将上述理论比例改为组成比即:

[1436-02]或0.5625:0.1875:0.1875:0.0625子2代总株数为247+90+83+34=454;理论频数是总株数与组成比的乘积,故得255.375:85.125:85.125:28.375,代入(22)式:

=[1437-01]自由度=4-1=3,查表9[表]表" class=image>,[x053]=2.37>1.72,故>0.5,高度相符。衡量相符度不能用小样。列联表

即按两种指标分成行列的所谓×表,常用于衡量指标间的联系或独立性,为此亦可用(22)式。

比如依据表10[白血病人按病型与血型分组]中报告分析血型与白血病病型间有无联系。零如果是“二者没有联系”。括号中报告是依据零如果计算的理论频数=行合计×列合计÷总计。代入(22)式得=1.84,=行数-1×列数-1=(2-1)×(4-1)=3。查表3,[x053]=2.37>1.84,>0.5,故不是否定零如果。即不能觉得血型与白血病病型有联系。

回归与有关用来建立或清晰两种指标之间的关系的统计技术。前者可用于分析一个变量受另一变量影响的程度;后者则用于分析两个对称或“平等”的指标之间的关联程度。

直线回归是用简单的直线方程=+来拟合依变量(表明它的预期值)受自变量影响的情形。式中的与可以在有回归功能键的计算器上直接得出,但需按表明书将成对的观测报告(,)输入。计算程序的原理在于使 [1437-02]极小化。若自变量不止一个,则有=+++…,称为多元回归,可用于预期、判别与指标的综合等。一般的微电脑常有计算多元回归系数等的程序。

直线有关系数=/(其中为回归系数,、分别为与的标准差),其绝对值反应两个指标有关的程度。的取值规模是-1到+1它也可以在计算器上直接得出。

几率单位分析法首要用于处理生物对化学或物理刺激的反映曲线。是一种以剂量的对数为自变量,以反映率的几率单位为依变量,进而使S型曲线直线化而便于分析的一种方法,可用于测定药物、毒物或物理原因对机体作用的力度和分析它们的联合作用。无分布法

大部分统计分析方法都建立在“报告为正态分布”这一基本假定之上,而很多生物学报告远非正态分布,采取无分布法可以绕过这一问题。这类方法往往比较直观,而且计算简便。有时,一部分(或全部)观测结果并没有能直接用报告表明,只能用反应大小或程度的等级或秩次表明。比如,观测结果是“-”,“±”,“+”及“++”以上,排序后的等级便是1,2,3,4……很多很有效的无分布法就是基于报告或观测结果的大小顺序的。受于无分布法一般并没有涉及报告分布的参数(如平均数),所以有时也称为非参数方法。生存分析

很多生物现象的动态观察结果都比一次性的横断面观察更能表明困难。比如:恶性肿瘤病例接受手术医治的效果,要看他们术后经历一段时间的生存率,或者有必要描绘出在不同条件下的生存率曲线(以时间为横轴,生存率为纵轴),以便执行分析与比较;器官移植的效果,要看异体器官在体内正常工作和不被排斥的时间等。生存分析的用途是大量的。多元分析

又称多指标或多变量分析,是对多个观测指标同期执行综合性分析,所以比普通的一元统计分析更为全面、有效。这是40年代就已显现的一连串好方法。受于涉及较深的数学知识和很复杂的计算,妨碍了它们的普及,伴随计算机和统计软件包的日益完善,预料多元分析不久将令形成生物科学研究的常规武器。多重返归是指多个自变量和一个因变量的回归;而多元回归是指不止一个因变量的回归。但二者常被混淆运用。它们可用于预期、指标的综合或自变量的过滤。判别分析是利用形如多重返归方程的判别函数来执行个体种类的分析或诊断。聚类分析是将很多个体或指标按它们的类似程度来归类。对个体执行聚类称为Q型聚类;对指标执行聚类称为R型聚类。Q型聚类和判别分析是数量分类学的两种基本方法。趋势面是以地理上的经、纬度为自变量的高次方程,可用于绘制研究对象在地理上的分布密度的等高线图,亦可用于预期。主成分分析的目的在于将很多彼此有关的指标变换成少数几个彼此独立的综合指标,而且它们包含了原来那些指标的差不多全部统计信息。因子分析的计算程序与主成分分析相似,但它不是研究指标的变换,而是分析个体间的内在联系,此法为心理学家所首创,也可用于研究复杂的疾病。统计模型

差不多所有的统计方法都有一个数学模型作为背景。除了上述方法之外,在生物科学研究中用处较大的仍有:捉放捉模型,用于个体总数的预期;对数线性模型,用于多维列联表(即按多个指标分组的计数资料)的分析;Logit模型,既可用来同期消除多个混杂原因的影响,又可用于处理定量的混杂变量与危险因子。假使所有指标均为定性的,Logit模型就成了对数线性模型的一个特殊情况。

标签:

随机快审展示
加入快审,优先展示

加入VIP