简介
样本的已知函数;其作用是把样本中相关总的的信息汇集起来;是数理统计学中一个重要的基本概念。统计量依靠且只依靠于样本
x1,
x2,…
xn;它不含总的分布的任何未知参数。从样本推断总的(见统计推断)一般是通过统计量执行的。比如
x1,
x2,…,
xn是从正态总的
N(
μ ,1)(见正态分布)中抽出的简单随机样本,其中均值(见数学期望)
μ是未知的,为了对
μ做出推断,计算样本均值。可以证明,在一定意义下,塣包含样本中相关
μ的全部信息,因此能对
μ做出不错的推断。这里塣只依靠于样本
x1,
x2,…,
xn,是一个统计量。常用统计量
样本矩
设
x1,
x2,…,
xn是一个大小为
n的样本,对自然数
k,分别称 为
k阶样本原点矩和
k阶样本中心矩, 统称为样本矩。很多最常用的统计量,都可由样本矩构造。比如,样本均值(即
α1)和样本方差 是常用的两个统计量,前者反应总的中心位置的信息,后者反应总的分散情形。仍有其余常用的统计量,如样本标准差,样本变异系数
S/塣,样本偏度,样本峰度等均为样本矩的函数。若(
x1,
Y1),(
x2,
Y2),…,(
xn,
Yn)是从二维总的(
x,
Y)抽出的简单样本,则样本协方差·及样本有关系数 也是常用的统计量,
r可用于推断
x和
Y的有关性。
次序统计量
把样本
X1,
x2,…,
xn由小到大排列,得到,称之为样本
x1,
x2,…,
xn的次序统计量。其中最小次序统计量
x(1)最大次序统计量
x(n)称为极值,在那些如年枯水量、年最大地震级数、材料的断裂力度等的统计困难中很有用。仍有一部分由次序统计量派生出来的有用的统计量,如:样本中位数 是总的分布中心位置的一种度量,若样本大小
n为奇数,,若
n为偶数,,它容易计算且有不错的稳健性。样本
p分位数Zp(0<
p<1)及极差
x(n)-
x(1)也是重要的统计量。其中Zp当时即为中位数,而当时,表明不胜过1+
np的最大整数)。样本分位数的一个重要应用是构造接连总的分布的非参数性容忍区间(见区间预期)。
U统计量
这是W.霍夫丁于1948年引进的,它在非参数统计中有大量的应用。其定义是:设
x1,
x2,…,
xn,为简单样本,m为不胜过
n的自然数,为m元对称函数,则称 为样本
x1,
x2,…,
xn的以为核的
U统计量。样本均值和样本方差均为它的特殊情况。从霍夫丁开始,该种统计量的大样本性质得到了深入的研究,首要应用于构造非参数性的量的统一最小方差无偏预期(见点预期),并在该种预期的基础上检验非参数性总的中的相关如果。
秩统计量
把样本
X1,
X2,…,
Xn 按大小排列为,若 则称
Ri为
xi的秩,全部
n个秩
R1,
R2,…,
Rn组成秩统计量,它的取值总是1,2,…,
n的某个排列。秩统计量是非参数统计的一个首要工具。
仍有一部分统计量是因其与适当的统计方法的联系而引进的。如如果检验中的似然比原则所致使的似然比统计量,K.皮尔森的拟合优度(见如果检验)准则所致使的ⅹ统计量,线性统计模型中的最小二乘法所致使的一连串线性与二次型统计量,等等。充分性与完全性
统计量是由样本加工而成的, 在用统计量代替样本作统计推断时,样本中所含的信息或许有所损失,假使在将样本加工为统计量时,信息毫无损失,则称此统计量为充分统计量。比如,从一大批产品中依次抽出
n个,若第
i次抽出的是合格品,则
xi=0,否则
xi=1(
i=1,2,…,
n)。总的分布取决于整批产品的废品率
p,可以证明:统计量,即样本中的废品个数,包含了(
x1,
x2,…,
xn)中相关
p的全部信息,是一个充分统计量。若取m<
n,令
Tm(
x1,,则
Tm仍是一个统计量,然而不是充分的。
充分性是数理统计的一个重要基本概念,它是R.A.费希尔在1925年引进的,费希尔提出,并由J.奈曼和P.R.哈尔莫斯在1949年严格证明了一个判定统计量充分性的方法,叫因子分解定理。这个定理适用面广且应用方便,利用它可以验证很多常见统计量的充分性。比如,若正态总的有已知方差,则样本均值塣是充分统计量。若正态总的的均值、方差都未知,则样本均值和样本方差
S合起来组成充分统计量(塣,
S)。一个统计量能否充分,与总的分布有紧密关系。
将样本加工成统计量要求越简单越好。简单的程度的大小,首要用统计量的维数来衡量。简单地讲,若统计量
T2是由统计量
T1加工而来(即
T2是
T1的函数),则
T2比
T1简单。在此意义上,最简单的充分统计量叫极小充分统计量。这是E.L.莱曼和H.谢菲于1950年提出的。前例中的充分统计量都有极小性。在任何情形下,样本
x1,
x2,…,
xn自身就是一个充分统计量,但一般不是极小的。
有关统计量的其他重要的基本概念是完全性。设
T为一统计量,
θ为总的分布参数,若对
θ的任意函数
g(
θ),基于
T的无偏预期至多只有一个(以几率1相等的两个预期量看为相同),则称
T为完全的。抽样分布
统计量的分布叫抽样分布。它与样本分布不同,后者是指样本
x1,
x2,…,
xn的联合分布。
统计量的性质以及运用某一统计量作推断的优良性,取决于其分布。所以抽样分布的研究是数理统计中的重要课题。寻求统计量的精确的抽样分布,属于所谓的小样本理论(见大样本统计)的规模,但是只在总的分布为正态时获得比较系统的结果。对一维正态总的,有三个重要的抽样分布,即ⅹ分布、
t分布和
F分布。
ⅹ分布 设随机变量
x1,
x2,…,
xn是相互独立且服从标准正态分布
N(0,1),则随机变量的分布称为自由度为
n的ⅹ分布(其密度函数及下文的
t分布、
F分布的密度函数表达式均见几率分布)。这个分布是 F.赫尔梅特于1875年在研究正态总的的样本方差时得到的。若
x1,
x2,…,
xn是抽自正态总的
N(
μ,
σ)的简单样本,则变量服从自由度为
n-1的ⅹ分布。若
x1,
x2,…,
xn服从的不是标准正态分布,而依次是正态分布
N(
μi,1)(
i=1,2,…,
n),则的分布称为非中心ⅹ分布,称为非中心参数。 当
δ=0时即前面所定义的ⅹ分布。为此,有时也称它为中心ⅹ分布。中心与非中心的ⅹ分布在正态线性模型误差方差的预期理论中,在正态总体方差的检验困难中(见如果检验),以及一般地在正态变量的二次型理论中都有重要的应用。
t分布 设随机变量ξ,
η独立,且分别服从正态分布
N(
δ,1)及自由度
n的中心ⅹ分布,则变量的分布称为自由度
n、非中心参数
δ的非中心
t分布;当
δ=0时说为中心
t分布。若
x1,
x2,…,
xn是从正态总的
N(
μ ,
σ)中抽出的简单样本,以塣记样本均值,以记样本方差,则服从自由度
n-1的
t分布。这个结果是英国统计学家W.S.戈塞特(又译哥色特,笔名“学生”)于 1908年提出的。
t分布在相关正态总的均值的预期和检验困难中,在正态线性统计模型对可估函数的推断困难中有重要意义,
t分布的显现开始了数理统计的小样本理论的成长。
F分布 是 R.A.费希尔在20世纪20年代提出的。设随机变量ξ,
η独立,ξ服从自由度m、非中心参数
δ的非中心ⅹ分布,
η服从自由度
n的中心ⅹ分布,则的分布称为自由度(m,
n)、非中心参数
δ的非中心
F分布,当
δ=0时说为中心
F 分布。若
x1,
x2,…,
xm和
Y1,
Y2,…,
Yn分别是从正态总的
N(
μ,
σ)和
N(
v,
σ),中抽出的独立简单样本,以
S娝和
S娤分别记为诸
xi和诸
Yi的样本方差,则方差比统计量
S娝/
S娤服从自由度(m-1,
n-1)的中心
F分布。中心和非中心的
F分布在方差分析理论中有重要应用。
多维正态总的的重要的抽样分布有维夏特分布和霍特林的
T分布(见多元统计分析)。
一个统计量若服从某分布,常以该分布的名字命名该统计量,如ⅹ统计量、
F统计量、
T统计量等。
受于寻求精确的抽样分布有问题,统计学者转而研究当样本大小
n→∞时统计量的渐近分布(即极限分布),该种研究是数理统计大样本理论的基础性工作。已经有很多重要的统计方法,就是基于该种工作而提出的。像K.皮尔森有关拟合优度统计量的极限分布是分布的著名结果(1900)就是一个有代表性的例子。
参考书目 复旦大学编:《几率论》(第2册,数理统计),人民教育出版社,北京,1979。 费史著,王福保译:《几率论及数理统计》,上海科学技术出版社,上海,1962。(M.Fisz,Wahrscheinlichkei-tsrechnung und MatheMatische Statistik,VEB Deu-tscher Verlag der Wissenschaften,Berlin, 1958.) 陈希孺著:《数理统计引论》,科学出版社,北京,1981。