样本方差无偏性证明(通用4篇)
篇1:样本方差无偏性证明
ˆi,是完全可以计因为,样本残差可以看作是总体随机项的估计量,而样本残差iyiy
算的,因此,可以用样本残差的方差来估计总体随机项的方差。
我们目的是得到的无偏估计量,因此,我们需要确定样本残差平方和的自由度fe,使得
i2
2(3.4.3)E
fe
由于0,所以,上式等价于
i2
2(3.4.4)E
fe
可以证明fen2,其中n是样本容量。下面给出证明:
篇2:样本方差无偏性证明
样本方差有2种表达方式:
S2
n1n(Xi)2-----(1)ni1
1n
Sn1(Xi)2-----(2)n1i12
从理论上说这2种定义都是可行的,现实生活中更经常使用方程(2),是因为方程(2)是总体方差真实值2的无偏估计量,而(1)是有偏估计量。无偏性在应用中非常重要,估计量只有无偏才能保证在样本数目足够大时无限趋近于真实值,估计才有意义。证明方程(2)的无偏性如下,思路是对估计量求期望,看是否等于总体方差:
n1E(Sn1)E[(Xi)2]n1i1
n1E{[(Xi)()]2}n1i1
nn12E{[(Xi)2(Xi)()n()2}n1i1i12
n1{E(Xi)22nE()2nE()2}n1i1
n1{E(Xi)2nE()2}n1i1
212{nn()}n1n
2
证毕。
如果有问题,可随时联系我。
祝好!
篇3:方差传递公式估计式的无偏性
在测量工作中, 用Bessel公式可以计算一个直接测量列的方差的无偏估计值。但在间接测量时, 待测量是由直接测量的量通过计算而得到的, 其方差也是由直接测量量的方差通过方差传递公式计算而得到的。实际上只能用方差传递公式的估计式来估算方差, 而关于此估计式是否为无偏估计却并不是显而易见的。如有文献指出[1], 如x是真实值μx的无偏估计量, U =U (x) 是x的非线性函数, 那么一般地U (x) 是U (μx) 的有偏估计, 并指出偏差主要来自x的方差σ
1 若干引理
假设随机变量x1和x2分别服从正态分布N (μ1, σ
引理1[2]对任意n维向量t1= (t11, …, t1n) T, 如果t1Tt1=t
引理2[2]假设随机向量ξ= (ξ1, …, ξn) T的各分量相互独立并且都服从标准正态分布;T是n×n阶正交矩阵。那么η=T ξ= (η1, …, ηn) T的各分量仍然相互独立并且都服从标准正态分布。
由以上两个引理可以证明
引理3向量
证明易见
然后, 由引理1知, 存在正交矩阵
考虑正交变换
则由引理2知y11, …, y1n (以及y21, …, y2n) 独立同标准正态分布, 且 (1) 式、 (2) 式可见
所以
由 (2) 式还可得
所以
由于y11, …, y1n (以及y21, …, y2n) 相互独立, 向量
2 方差传递公式的原始形式
现设间接测量量y与直接测量量x1, …, xN的函数关系为
y=f (x1, …, xN) (5)
将式 (5) 在x1, …, xN的期望值μ1, …, μN附近按Taylor级数展开, 忽略二阶及以上项, 则有
y≈f (μ1, …, μN) +
两边取期望得
E (y) ≈f (μ1, …, μN) (7)
代入 (6) 式有
两边取期望, 便可得到方差传递公式的原始形式
但实际使用的则是 (7) 式和 (8) 式的估计式。
3 方差传递公式的估计式
显然, 若 (5) 式中的x1, …, xN是测得值或样本均值, 因其期望为μ1, …, μN, 故由 (6) 式知, 在将测得值或样本均值代入由 (5) 式所决定的函数关系式中并作Taylor展开时, 在忽略二阶及以上项的情况下, y的期望的估计值亦即 (7) 式的 (近似无偏) 估计值可通过把测得值或样本均值代入 (5) 式计算而得到。
但是, 把 (8) 式中的方差和协方差分别用样本方差s2 (xi) 和样本协方差s (xi, xj) 代替, 得到的还不是 (8) 式的估计式, 因为还有偏导数计算的问题。显然, 若偏导数用测得值或样本均值代入计算, 则偏导数作为测得值或样本均值的函数, 在忽略高阶项的情况下, 由 (6) 式可知其期望即为
但是很明显s2 (y) 一般并不是σ2 (y) 的 (近似) 无偏估计, 除非直接测量量xi的样本[可设为xi= (xi1, …, xin) ]是独立同正态分布的。因为此时不仅直接测量量xi的样本均值
在实际进行方差估算时, (9) 式中偏导数有时也可直接用一次测得的值代入计算, 如果测量只进行了一次的话, 只要此时估算的方差与测得值相互独立即可。这个条件通常是容易满足的, 因为通常测量仪器的仪器误差 (限) 都是固定的, 与测量值无关。
4 结论
从以上分析可以得出如下结论:方差传递公式的估计式 (9) 是方差传递公式 (8) 的 (近似) 无偏估计的条件, 一是随机误差 (测得值或其平均值与其期望值之差) 为小量, 使得Taylor展开式中的高阶项可以忽略;二是直接测量量的样本xi= (xi1, …, xin) 独立同正态分布, 这也应看成是实际测量工作中多次测量的不确定度评定以正态分布为基础的一个重要理由。注意这里并没有对xi和xj (如果它们不独立) 的联合分布提出限制。
摘要:推广正态样本的均值与样本方差相互独立之定理, 证明正态样本 (x1, x2) 与其协方差也是相互独立的。如果假定在直接测量中样本独立同正态分布并且随机误差是小量, 那么间接测量的方差传递公式的估计式是方差传递公式的无偏估计式。
关键词:方差传递,无偏估计,正态分布
参考文献
[1] Willian N.Statistics for engineers and scientists.New York:McGraw-Hill, 2006
篇4:复杂样本的方差估计
对复杂样本按照理论直接推导出方差估计一则十分困难,二则从节约费用和时间的角度考虑代价也很大。通常采用的替代方法主要有随机组法、平衡半样本方法、刀切法和自助法等。本文研究采用基于逆抽样设计的方法对复杂样本进行方差估计,并将该方法与传统方法进行比较,探讨其适用条件。
二、逆抽样设计方法简介
逆抽样设计(Inverse Sampling Design,简称ISD方法)的思想由Hinkins等提出,Rao等研究了该方法的一些理论性质。该方法的基本思想是,通过选择一个抽样机制,对调查得到的复杂样本进行二次抽样。二次抽样机制的设计抵消了初始复杂样本中的分层、整群抽样等效应,使得按照该抽样机制抽选出来的子样本具有简单随机样本结构,后续分析基于这些具有简单随机样本结构的子样本进行。下图为该方法的流程示意图:
用数学符号来表示,假设进行某项调查,按照某种复杂抽样设计从一有限总体中抽出了一个大小为n的初始样本Sp,其中下标p(primary)表示初始样本。现希望从Sp中抽出一个大小为n'的子样本s',使得s'被抽中的无条件概率p(s')和简单随机抽样匹配,也即
由于抽取子样本s'是一个两步的过程,由全概率公式,有
其中,p(sp)为初始样本sp被抽中的概率,为sp已被抽选出来的前提下,s'被抽中的条件概率。
如果不依赖于sp,则由(1)式,有
(2)式即为从初始样本sp中选择s'的抽样机制。
逆抽样设计方法包括了如下基本的三个步骤:
(1)逆掉初始样本的复杂抽样设计,使得能够产生具有简单随机样本结构的子样本;
(2)重复执行逆抽样设计,以产生多个这样的子样本;
(3)基于每一个子样本数据进行分析,最后再以适当的方式进行合并。
三、逆抽样设计方法下的估计量构造
假设总体目标参数为θ,基于某复杂抽样设计p(sp),调查得到一个复杂样本sp。若存在对应于该复杂抽样设计p(sp) 的逆抽样设计,并将该逆抽样设计独立地重复执行B次,得到了B个具有简单随机样本结构的子样本(=1,2,⋯,B)。令和表示由第个子样本得到的总体参数估计和该估计量的方差估计,则θ的估计可构造为
如果是θ的无偏估计,那么也同样会是θ的无偏估计。
将基于初始复杂样本Sp的总体参数θ的估计记为,则的方差估计可构造为:
由(4)式,如果无偏,则也是无偏的。
四、与传统方法的比较研究
作为一种新的复杂样本方差估计方法,与现有方法相比较有哪些特征?本文用一个基于实际调查数据的模拟,对这些问题进行分析。
(一)数据说明
模拟分析的数据取自2007中国公民科学素质调查,为全国数据。中国公民科学素质调查是通过全国性的抽样调查,来了解分析我国18—69周岁的公民对科学的理解和对科学技术的态度等与公民科学素质相关问题的状况。调查的核心指标是中国公民在科学术语、科学观点、科学方法和科学与社会关系四个方面的具备比例和对应的得分。在对这四个方面的具备比例和对应的得分进行适当加权之后,得到一个总的科学素质具备比例和得分。调查的总样本量是10080,通过对出现单元无回答的问卷进行删除处理,最终得到的有效问卷共10059份。
以该数据集作为模拟总体,将各省份数据按照东、中、西部地区划分成三层,东、中、西部的划分情况如下:东部地区包括北京、天津、河北、辽宁、上海、江苏、浙江、福建、山东、广东、广西、海南12个省、自治区、直辖市;中部地区包括山西、内蒙古、吉林、黑龙江、安徽、江西、河南、湖北、湖南9个省、自治区;西部地区包括重庆、四川、贵州、云南、西藏、陕西、甘肃、宁夏、青海、新疆10个省、自治区。将这三层以按比例分配的方式从这个模拟总体中抽出5%的样本。关注的指标有两个,一个是总体均值,为科学素质指数的总平均得分,用来表示;另一个是总体比率,为科学方法项平均得分与总平均得分之比,用来表示,其中为科学素质指数科学方法项的平均得分。模拟总体的层结构及各层抽取的样本量等信息如表1所示:
(二)抽样方法的逆设计
由于采用分层抽样从模拟总体中抽取了一个初始样本,由逆抽样设计方法的三个步骤,首先需要逆掉产生初始样本的分层抽样设计。
对于本例,
Nh和nh分别表示第h层中的总体和样本单元数,h=1,2,3。我们的目的是要从sp中抽取一个大小为n'的子样本s',使得,其中。显然,n'不能大于min(nh),因为子样本s'可能会全部来自于h层中的某一层。令n=(,,)T表示子样本s'中各层的样本单元数,其中0≤≤n',,则由(2)式,有:观察(5)式背后的概率机制,得出所采用的分层抽样方法的逆设计步骤如下:
(1)决定所要抽取的子样本大小n',n'最大不能超过min(nh);
(2)从超几何分布中产生3个随机数{,,},其中++=n',且,,≥0;
(3)在第h层内,从nh个初始样本中以不放回简单随机抽样的方式抽出一个大小为的子样本,各层之间的抽取相互独立;
(4)合并从各层中抽得的子样本。如此便从初始样本sp中抽得了一个大小为n'、完全意义上的简单随机样本,从而实现了初始抽样的逆设计。
(三)对应的ISD估计量
设将上述分层抽样的逆设计独立地重复执行了B次,得到了B个大小为n'的子样本(=1,2,⋯,B)。则总体均值的ISD估计为
的方差估计为
其中,和分别表示抽出的第个子样本中X的均值和方差。
总体比率R的ISD估计为
的方差估计为
其中,和的定义如前所述,和分别表示第个子样本中Y的均值和方差,则表示第个子样本中X和Y的协方差。
(四)模拟比较
从四个方面将逆抽样设计方法与传统复杂样本的方差估计方法进行对比:精度、灵活性、管理因素和泄密控制。对比的方法有:随机组法(Random Group)、刀切法(Jackkinfe)和自助法(Bootstrap)。实际中泰勒级数法和平衡半样本方法也有广泛的应用,但泰勒级数法本身并不能单独使用,需要结合其它方法;而平衡半样本方法则最常用于分层的、每层抽两个单元的设计,这与本文模拟分析所采用的抽样设计并不一致,因而这里没有将泰勒级数和平衡半样本方法纳入比较范围。
1.精度
从模拟总体中抽出大小为503的样本,基于此样本,用不同方法对研究变量进行方差估计。为了更好地对不同方法的效果进行对比,尽量避免由于抽样的随机性造成的影响,进行100次独立重复抽取,最后将结果进行平均。
对于逆抽样设计方法,抽取的子样本大小n'定为min(nh)=133,子样本的抽取个数B定为1000;对于随机组法和刀切法,需要进行随机组的划分,随机组的个数定为20,每层中随机组的大小分别为11、7和6;对于自助法,采用Rao和Wu给出的方法,从每层中有放回地抽取容量为nh-1的简单随机样本,抽取次数和逆抽样设计方法一样,定为1000次。主要以偏倚作为精度的度量标准,表2列出了模拟分析的结果:
由表2中的结果,对于均值、比率的估计以及均值估计的方差估计,逆抽样设计方法都取得了比较好的效果。对于比率估计的方差估计,四种方法中逆抽样设计方法的偏倚最大。原因可能在于,消除比率估计的偏倚通常需要较大的样本量,而采用逆抽样设计方法,通常只能抽取相比初始样本小得多的子样本。
2.灵活性
灵活性可以从两个方面来考察。从适用的估计量来看,逆抽样设计方法和随机组、自助法一样,几乎适用于任何估计量。刀切法则不适用于如分位数等的一些统计量。从适用的抽样设计来看,逆抽样设计方法有其局限性。原因在于,一方面,对于部分抽样设计,精确的逆抽样设计不存在,而只能采用近似的方法;另一方面,逆抽样设计方法目前尚不适用于对数据进行了加权调整的情形。而其它三种方法则适用于几乎任何抽样设计,同时也适用于加权调整后的情形。
3.管理因素
管理因素主要体现在费用、时间和操作的简便性等方面。随机组和自助法的处理费用都相对较低,因为对这两种方法都有现成的软件可用,而刀切法和逆抽样设计方法则需要编制相应的软件程序。逆抽样设计方法和自助法由于需要重复抽取子样本,计算量较大,耗费的时间也比较长。以本次模拟分析为例,执行随机组法和刀切法所对应的计算机程序,所耗费的CPU时间不相上下,而逆抽样设计方法和自助法所耗费的CPU时间则分别是随机组法的11倍和32倍。从操作的简便性来看,逆抽样设计方法则优于随机组、刀切法和自助法。
4.泄密控制
采用逆抽样设计方法则能有效地控制数据的归属泄密的问题。由(4)式,用逆抽样设计的方法估计方差,不需要利用抽样权重、层、群标识等信息,因而在一些涉及受访者隐私数据的调查中,逆抽样设计方法可能是一种行之有效的方差估计方法。
五、总结
对复杂样本进行方差估计,通常采用的是随机组、刀切法等方法,本文提出将逆抽样设计方法应用于复杂样本的方差估计。模拟分析的结果表明,ISD估计具有较好的收敛性,且对于线性总体参数的估计和方差估计,逆抽样设计方法的效果都较为理想。
通过将逆抽样设计方法与传统方差估计方法进行多角度比较,本文也探讨了该方法的适用条件。对比分析的结果表明,逆抽样设计方法在灵活性、操作的简便性和数据的泄密控制等方面特点突出,有其可取之处。实际中,可权衡精度、费用、灵活性等诸多因素,有针对性地设计抽样调查方案,以便采用逆抽样设计方法进行方差估计。
■ 参考文献
1.Susan Hinkins, H. Lock Oh and Fritz Scheuren. Inverse Sampling Design Algorithms[J]. Survey Methodology, 1997, 23(1): 11-21.
2.J.N.K. Rao, A.J. Scott and E. Benhin. Undoing Complex Survey Data Structures: Some Theory and Applications of Inverse Sampling[J]. Survey Methodology, 2003, 29(2): 107-128.
3.J.N.K. Rao, C.F.J. Wu. Resampling Inference With Complex Survey Data[J]. Journal of the American Statistical Association, 1988, 83(401): 231-241.
4.倪加勋。调查概论[M]。北京:中国财政经济出版社。2004:253-258。