基于CBR和加权泊松的泊松低方差计数数据模型效率比较

2022-09-12

在数据分析和数据建模的过程中, 我们通常需要假定数据变量服从某种分布, 以便于建立与分布参数有关的模型或方程, 之后利用观测值对参数进行估计, 从而达到研究和分析的目的。由于变量是随机的, 我们无法确定变量在某个情况下的具体取值, 因此通过假定它服从某个分布, 然而感兴趣的只是它们的平均水平, 即各变量之间的关系都建立在均值的基础上, 方差则用于计算估计的精度和假设检验。而大多数情况下, 一旦分布的假定确定, 随之确定的也就是数据必须符合该分布的均值和方差特征。对于许多单参数分布, 均值和方差均有一一对应的关系, 如果均值确定, 方差由于是均值的函数也就自然地确定下来, 例如伯努利分布具有单参数p, 均值μ=p, 方差v=p (1-p) , 即v=v (μ) =μ (1-μ) 。在这种单参数的情况下, 如果观测数据的均值符合假定 (即认为p≈) , 数据的方差和均值就必须满足一定条件 (即例如假定Y服从两点分布, 认为p≈, 则方差应该有Var (Y) =p (1-p) ≈ (1-) ) , 此时若观测到方差系统地大于分布假设下 (此时常被观测均值决定) 的方差, 就出现了所谓的“超散布性” (overdispersion) , 类似地, 若出现方差偏小的情况, 也就相应出现了“超聚集性” (underdispersion) 。

具体到本文需要讨论的泊松分布:现实中常常出现方差不满足假定的情况。由于参数λ为的泊松分布具有均值和方差相等的特点, 如果假定服从泊松分布的数据的样本方差大于模型估计的方差——即样本均值, 就出现了“超散布性”, 本文称之为泊松分布高方差 (extra-Poisson variation) , 而当样本方差低于样本均值时, 称此时的“超聚集性”为泊松分布低方差, 后文出现的泊松低方差都符合该定义。

正如之前所说, 通常建立模型如线性回归都基于均值, 因此方差违反假定分布并不影响参数估计效率, 但在区间估计和假设检验时就会出现问题。当“超聚集性”出现时, 真实的方差会被低估, 这将会错误的表现出数据中原本不显著的差异, 相反地, “超聚集性”出现时, 真实的方差会被高估, 这样可能无法检验出组间分布的真实差异, 参数的置信区间也会给得过大。因此对于方差超扩散或超聚集的数据, 方差问题的处理显得尤为重要, 针对此的模型建立是该类问题分析的关键。

泊松分布的超散布性数据在现实中较为常见, 简单的序列正相关和非齐次性都可能引起超散布性的出现。泊松低方差的情况则较为少见, 但在医学和社会领域中却经常出现。本文的目标就在于探讨针对泊松低方差数据的分布模型。

1 两种泊松低方差问题的处理方法介绍

泊松分布为模拟计数数据提供了良好的模型, 但均值和方差相等的要求在现实中却显得太为苛刻。因此处理泊松低方差的方法探究就集中在合适的修正分布的寻找上。能够描述计数数据且具有泊松低方差特点 (即均值大于方差) 的分布包括两种典型的泊松低方差模型:加权泊松分布模型和CBR分布模型。

1.1 加权泊松分布 (Martin S R and P Besbeas[4], 2004)

由Rao CR (1965) 提出, 若随机变量Y服从加权泊松分布, 其密度函数为

它是保证求和为1的标准化因子。

一种较为简单的权重为

对于β1, β2>0, 它的分布类似将概率密度向均值“挤压”得到, 分布更加集中, 相对于标准的泊松分布就有更小的方差, 称该分布为三参数指数加权泊松分布, 记为EWP3。特殊地, 当β1, β2=β时, 称为两参数指数加权泊松分布, 记为EWP2分布, 当β=0时退化为标准泊松分布。对于EWP2和EWP3, 它们拥有更高的峰值, 标准化因子W可以由式 (a) 导出。尽管矩的表达没有显式, 但可以确定分布的方差随着β1, β2或β的增大而降低。

1.2 纯生过程模型 (CBR)

不得不提的是, 在处理泊松低方差数据的问题中还有一类较为有效的方法。由Faddy (1997) [2]在随机过程的基础上提出这种变出生概率 (CBR) 分布。这个分布是建立在广义泊松分布的基础上:Faddy认为, 任何关于{0, 1, 2, …}的离散分布都有广义泊松特性即纯生过程。考虑一个Markov计数过程, X (t) 为 (0, t) 内的事件发生数, 在 (t, t+δt) 内有转移概率:

其中λn为事件数为n时的事件发生率, 我们感兴趣的只是某一时刻x (t) 的分布, 这里t可以不失一般性地取1, 在此模型中, 时刻1时的事件数X的分布具有如下形式:

这里认为初始时刻的事件数是从1开始的。因此, CBR分布是由一系列不同的事件发生率参数{λ1, λ2, …λk, …}决定的。通常可以认为λk是k的函数。Faddy在1997年已经证明, 对于递增的{λ1, λ2, <…<λk, <…<}, X (t) 将表现出泊松高方差特征, 而当λ1>λ2, >…>λk…递减时, 也就表现出泊松低方差特征。

2 参数估计

上述两种分布的参数估计都可通过极大似然法求出。记xi为第i个样本的事件发生数, 观测数据中中事件数k的频数fk (k=1, 23, …) , 则EWP2和EWP3分布的负对数似然方程为 (已去除与参数无关的项1 n k!) :

通过求使 (b) 式达到最小值的得到估计参数。

对于纯生过程模型, 概率分布向量 (p1 (1) p2 (1) …pN (1) 就是矩阵exp (Q) 的第一行, 若N=xmax, 其负对数似然函数为:

通过最小化上式即可得到 (λ1, λ2, …λN) 的极大似然估计。而参数估计的方差可以通过数值计算时产生的Hessian矩阵得到。

3 EWP2、EWP3、CBR与标准泊松的实例比较

之所以选择一个足够合适的分布的重要的意义不仅在于它能较合适地刻画观测数据, 更在于它能够精确地刻画不同组别之间的差异。本文引用Faddy (2001) [1]的小鼠胚胎着床数数据, 在产生该数据的实验中, 对已经怀孕的小鼠用药 (除草剂2, 4, 5-T) , 同时记录小鼠子宫上的胚胎着床数。该数据给出了7种剂量水平下胚胎着床数的频率分布, 每种分布都具有泊松低方差特征 (除20剂量组) 。作者已对该数据用CBR方法做了较好的分析和探讨。本文这部分在此数据的CBR分析基础上再加入标准泊松、EWP2和EWP3的运用, 对0剂量组和75/90剂量组进行各自的和联合的估计, 以比较这四种分布检验组间差异的能力, 过程中使用似然比检验。

似然比统计量

似然比检验在大样本时具有渐进性, 当样本量n趋于无穷, ?2log (Λ) 将渐进服从分布, r为参数空间ΘandΘ0的维数之差。估计的过程共进行12次极大似然估计, 最终得到似然比检验结果如表1。

标准泊松分布的0剂量组和75/90剂量组的极大对数似然函数值分别为-1837.763和-318.618, 即负两倍似然比为2.691 (自由度为1) , p值为0.10 (实际值大于0.1) , 即使在10%的显著性水平上都无法认为0剂量和75/90剂量对小鼠胚胎着床的影响是显著的。EWP2的负两倍似然比为4.789, p值比标准泊松略小, 为0.0912, 在10%的显著性水平下可以认为0剂量组和75/90剂量组小鼠胚胎着床的显著差异, 但如果显著性水平在5%则无法拒绝原假设。相比之下, CBR和EWP3的负两倍似然比统计量的p值都小得多, 在通常5%的显著性水平下能够有力地表明0剂量组和75/90剂量组之间的差异是显著的, 且其中EWP3的检验效率甚至明显高于CBR, p值0.0075达到高度显著。

以上检验至少说明在0剂量组和75/90剂量组的比较上EWP2、EWP3和CBR都优于标准泊松, 能够有效地检测出不同组别之间的分布差异, 从而证明了本文之初的观点:, 标准泊松无法准确刻画该实验数据具有泊松低方差的特性, 因此将高估剂量组内的方差, 在检验上无法有效地识别组间真实存在的差异。如果轻易地使用泊松分布进行分析, 将得出0剂量组和75/90剂量组无显著差异的错误结论。而加权泊松分布和CBR都在某种程度上克服了标准泊松的缺点, 其中EWP3和CBR则“灵敏”地发现了组间的显著性不同。且EWP3能够表现地比EWP3出色, 还因为剂量组下的频数分布略微左偏, 2个加权参数容许EWP3更贴切地拟合原始数据的真实分布。

4 结语

当数据出现“超散布性”和“超聚集性”时可能出现问题, 分布假定的错误将分别低估和高估真实数据的方差, 从而影响模型的合理性, 有时甚至导致得出错误的结论。本文着眼于一类典型的“超聚集性”问题——泊松低方差特性, 并针对该类问题的解决的两种方法:泊松加权分布模型和纯生过程分布模型相对标准泊松分布在差异检验改进效果上进行了比较。前者通过对标准泊松分布进行加权修正, 克服了泊松分布均值和方差必须相等的局限性, 其中EWP2和EWP3具有形式简单且适用性强的特点, 而EWP3在很多情况下会优于EWP2, 多一个参数能够较好地模拟较普遍的不对称的单峰经验分布。而纯生过程分布模型在思路上则有很大不同, 它基于随机过程中的事件发生机制, 对于分类的事件计数数据在理论上有很强的适用性。CBR能够用足够多的参数模拟不同事件数间频率的变化特征, 通过建立与k的合适的函数形式, 可以构造出任何离散分布, 尤其适和分析分类较多的数据。本文通过对一个泊松低方差实例的分析验证了三类分布在模拟效果和组间差异检验效率上的比较:不论是加权泊松分布模型或是纯生分布模型, 都明显优于标准泊松分布。基于加权泊松分布模型和纯生分布模型对分布较好的拟合效果, 标准泊松分布无法检测出的剂量组之间显著差异却能够被CBR EWP2和EPW3较好地检测出来, 且CBR和EWP3较EWP2表现出更大的优势。

摘要:现实中的数据常会出现“超散布性”和“超聚集性”现象, 分布假定的错误会导致模型不合理甚至得出错误的结论。本文着重于一类典型的“超聚集性”问题——泊松低方差的讨论, 着眼于两种主要的解决方法——加权泊松分布模型和纯生过程分布模型, 并在Faddy的CBR分析实例基础上进一步比较标准泊松模型与这两种模型在分布拟合效果及检验效果上的差异, 强调面对“超聚集性”数据时选择正确分布的重要性。

关键词:“超聚集性”,泊松低方差,加权泊松分布模型,纯生过程分布模型

参考文献

[1] Faddy MJ, Bosch RJ (2001) Likeli-hood-based modeling and analysis of data underdispersed relative to the Poisson distribution.Biometrics, 57, 620~24.

[2] Faddy MJ (1997) Extended Poisson process modelling and analysis of count data.Biometrical Journal, 39, 431~40.

[3] Martin S Ridout, Panagiotis Besbeas (2004) An empirical model for underdispersed count data.Statistical Modelling, 4:77~89.

[4] Rao CR (1965) On discrete distribu-tions arising out of methods of ascertainment.In Patil GP ed.Classical and contagious discrete distributions.Calcutta:Pergamon Press and StatisticalPublishing Society, 320~32.

[5] 茆诗松, 王静龙, 濮晓龙.高等数理统计[M].施普林格出版社.2004.

[6] 张波, 张景肖.应用随机过程[M].清华大学出版社.2004.

上一篇:“互联网+”理念下创新创业人才培养模式改革下一篇:校企合作下的会计专业师资队伍建设研究