正态分布模型检验论文

2024-04-09

正态分布模型检验论文(通用10篇)

篇1:正态分布模型检验论文

正态Liouville分布参数μ的最优检验

讨论并给出了当样本服从正态Liouville分布时参数μ的最优检验,并指出此时有关函数f(x)应满足的条件.

作 者:陈兰祥 阚少白  作者单位:同济大学应用数学系,上海92 刊 名:同济大学学报(自然科学版)  ISTIC EI PKU英文刊名:JOURNAL OF TONGJI UNIVERSITY( NATURAL SCIENCE) 年,卷(期): 30(6) 分类号:O212.1 关键词:充分完备统计量   一致最有势检验   一致最有势无偏检验  

篇2:正态分布模型检验论文

有些统计方法只适用于正态分布或近似正态分布资料,如用均数和标准差描述资料的集中或离散情况,用正态分布法确定正常值范围及用t检验两均数间相差是否显著等,因此在用这些方法前,需考虑进行正态性检验。

正态分布的特征是对称和正态峰。分布对称时众数和均数密合,若均数-众数>0,称正偏态。因为有少数变量值很大,使曲线右侧尾部拖得很长,故又称右偏态;若均数-众数<0称负偏态。因为有少数变量值很小,使曲线左侧尾部拖得很长,故又称左偏态,见图7.1(a)。 来源:

正态曲线的峰度叫正态峰,见图7.1(b)中的虚线,离均数近的或很远的变量值都较正态峰的多的称尖峭峰,离均数近或很远变量值都较正态峰的少的称平阔峰。 来源:

图7.1 频数分布的偏度和峰度

正态性检验的方法有两类。一类对偏度、峰度只用一个指标综合检验,另一类是对两者各用一个指标检验,前者有w法、d法、正态概率纸法等,后者有动差法亦称矩法。现仅将w法与动差法分述于下;

1.w法 此法宜用于小样本资料的正态性检验,尤其是n≤50时,检验步骤如下;

(1)将n个变量值xi从小至大排队编秩。

x1

(2)由附表5按n查出ain系数列入表7.5第(5)栏,由于当n为奇数时,对应于中位数秩次的ain为0,所以中位数只列出,不参加计算。第(6)栏是第(5)栏与第(4)栏的乘积。

(3)按式(7.8)计算w值

(7.8)

式中分子的∑,当n是偶数时,为的缩写,当n是奇数时为的缩写,表7.5

第(6)栏的合计平方后即为分子。分母按原始资料计算。

(4)查附表6得p值,作出推断结论,按n查得w(n,α),α是检验前指定的检验水准,若w>w(n,α)则在α水准上按受h0,资料来自正态分布总体,或服从正态分布;若w≤w(n,α),则在α水准上拒绝h0,接受h1,资料非正态。 来源:

例7.8 测得20例40—49岁健康人右侧腓总神经的传导速度(m/sec)如表7.5第(2)、第(3)栏,试检验此资料是否服从正态分布。

h0:总体服从正态分布 来源:

h1:总体为非正态分布

α=0.05

计算表7.5各栏。

表7.5 w法正态性检验计算表

传导速度(m/sec)

18.2240 ∑ain(xa-i+1-xi)

∑xi=1004 ∑xi2=50756.16 ∑(x-x )2=355.36

代入式(7.8)

w=(18.2240)2/355.36=0.9347 来源:

查附表6,n=20,α=0.05,w(20,0.05)=0.905 来源:

篇3:正态分布模型检验论文

关键词:多元统计分析,统计软件,正态分布,R软件,假设检验

随着计算机的发展以及各种统计软件的开发,传统的理论教学模式已不适应社会发展的需求,面临着严峻的挑战。多元统计分析的基本思想和方法与统计软件相结合的教学模式成为了现代多元统计分析课程教学的主要途径之一。当前越来越多的领域,比如社会科学、计量经济学以及生物工程等,往往会涉及到用多元统计分析方法处理一些数据资料。现代多元统计理论与数据分析方法是现代统计人才必须掌握的基础知识。因此,多元统计分析课程的教学模式也越来越受到人们的关注。在进行统计分析时,常用的统计软件有SAS、SPSS、S-Plus以及R等。其中R软件是一套完整的数据处理、计算和制图软件系统。在Tiobe公布的2011年11月编程语言排行榜上,R语言位列第27位,市场占有率是0.5%,SAS是0.386%,排在第35位。可见R软件是目前用户增长最快,且已成为了统计学家和数据分析师所钟爱的统计软件之一。关于R统计软件的诸多优点可参见文献[2-4].本文以一个正态总体均值向量的检验为例介绍R统计软件在抽样调查教学中的应用。

1 一个正态总体均值向量的检验

设X1,X2,⋯,Xn是来自p维正态总体Np(μ,Σ)的一个容量为n的样本,并且记

下面在协方差阵Σ已知与未知两种情况下,讨论均值向量μ的检验问题。

1.1 协方差阵已知情况下均值向量的检验

我们首先在协方差阵Σ已知时,考虑关于均值向量的如下检验问题:

其中μ0为已知的p维向量。定义检验统计量

显然进而跟据二次型分布定理可知T02服从自由度为p的标准卡方分布,即T02~χ2(p)。对任一给定的检验水平α,记χ21-α(p)为χ2(p)分布的1-α分位点。那么通过样本计算出T02,如果T02>χ21-α(p),则拒绝H0,否则不能拒绝H0。该检验过程的R程序代码如下:

1.2 协方差阵未知情况下均值向量的检验

接下来在协方差阵Σ未知时,考虑关于均值向量的如下检验问题:

其中μ0为已知的p维向量。定义检验统计量:

注意到其中Wp(n-1,Σ)表示自由度为n-1的Wishart分布。进而可得T2服从自由度为p和n-1的Hotelling分布,即T2~T2(p,n-1)。另外跟据Hotelling分布性质可知:

其中F(p,n-p)表示自由度为p和n-p的F分布。因此,对任一给定的检验水平α,记F1-α(p,n-p)为F(p,n-p)分布的1-α分位点。那么通过样本计算出统计量的值大于F1-α(p,n-p),则拒绝H0,否则不能拒绝H0。该检验过程的R程序代码如下:

2 案例分析

接下来我们通过一个具体的教学案例来说明无放回简单随机抽样的R软件实现。大学生的素质高低受各方面因素的影响,其中包括家庭与家庭教育(X1)、学校生活环境(X2)、学校周围环境(X3)和个人向上发展的心理动机(X4)等。某大学从在校学生中抽取了20名学生,对以上因素在自己成长和发展过程中的影响程度给予评分(9分制),具体数据如表1所示。

注:数据来自于文献[1]

考虑检验问题:

检验过程中取检验水平取为α=0.05。检验过程的R程序代码如下

利用R软件运行上述程序代码即可完成检验过程。运行结果表明检验统计量的值为12.41981,而检验的临界值为3.006917。由于统计量的值远远大于临界值,因此拒绝原假设,认为总体的均值显著地不等于(7,5,4,8)。

3 结束语

《多元统计分析》是一门应用性很强的课程,采用统计软件处理、分析实际数据是现代统计发展的需要。因此,在教学过程中应在充分结合实际案例,采用统计软件进行数据处理和分析。本文介绍了R统计软件在一个多元正态总体均值向量检验中的应用。通过案例来阐述R统计软件对均值向量检验的具体过程。结合统计软件教学,一方面加深对统计思想和方法的理解;另一方面增强了学生学习专业知识的兴趣,同时也提高了学生解决实际问题的能力以及就业的竞争能力。

参考文献

[1]朱建平.应用多元统计分析[M].北京:科学出版社,2006.

[2]薛毅,陈立萍.统计建模与R软件[M].北京:清华大学出版社,2006.

[3]汤银才.R语言与统计分析[M].北京:高等教育出版社,2005.

[4]王斌会.多元统计分析及R语言建模[M].广州:暨南大学出版社,2010.

[5]苏玉霞.SPSS软件在统计学教学中的应用[J].电脑知识与技术,2010,6(31):8892-8893.

[6]闫朝晖.R软件在多元统计分析教学中的应用研究[J].科技创新导报,2011(1):157-158.

[7]王怀亮.R软件在系统聚类分析中的应用[J].合作经济与科技,2011(14):126-127.

篇4:公司分布的费用估算模型

关键词:费用 模型

甲市一家大型公司由5个部门(A、B、C、D、E)组成。现要将它的几个部门迁出甲市,迁至乙市或丙市。除去因政府鼓励这样做以外,还有用房便宜,招工方便等好处。对这些好处已作出如下的数量估值,所值每年万元数如下表:

然而,疏散之后各部门间的通讯费用将增加。部门间每年通讯量如下表:

不同城市之间单位通讯量的费用如下表(单位:元)

试求各部门应该置于何市,使年费用最少?

假设变量Xij=0 第i个部门不迁往第j个城市1 第i个部门迁往第j个城市

其中各部门依次为A、B、C、D、E,各城市依次为甲、乙丙。

令Aij代表第i个部门迁往第j个城市的新增价值(元),Tij代表第i个部门与第j个部门的通讯量,Cij代表第 i个城市与第j个城市的单位通讯量的费用。

则A=0 100000 1000000 150000 2000000 100000 1500000 200000 1500000 5000 150000 ,

T=0 0 1000 1500 00 0 1400 1200 00 0 0 0 20000 0 0 0 7000 0 0 0 0

C=100 130 90130 50 14090 140 50

则可建立如下模型:

minZ=■■T■(■■X■X■C■)-■■A■X■

s.t. Clm=0或1

Lingo程序如下:

MODEL:

SETS:

part/1..5/;

city/1..3/;

part_city(part,city):x,a;

part_part(part,part):t;

city_city(city,city):c;

ENDSETS

DATA:

a=0,100000,100000,

0,150000,200000,

0,100000,150000,

0,200000,150000,

0,50000,150000;

t=0,0,1000,1500,0,

0,0,1400,1200,0,

0,0,0,0,2000,

0,0,0,0,700,

0,0,0,0,0;

c=100,130,90,

130,50,140,

90,140,50;

ENDDATA

MIN=@SUM(part_part(i,j)|i#LE#4#AND#j#GE#(i+1):t(i,j)*

@SUM(city_city(l,m):x(i,l)*x(j,m)*c(l,m)))-

@SUM(part_city:a*x);

@FOR(part(i):@SUM(city(j):x(i,j))=1); !每个部门只能迁往一个城市

@FOR(part_city(i,j):@BIN(x(i,j)));

END

所求解为:

x(1,3)=1,x(2,3)=1,x(3,3)=x,x(4,3)=1,x(5,3)=1,其它为0,即各部门迁往丙市最少费用为-360000元。即这样迁市获利最多,为360000元。

参考文献:

[1]肖华勇.实用数学建模与软件应用[M].西安:西北工业大学出版社,2008.

[2]Mark M.Meerschaert.数学建模方法与分析[M].北京:机械工业出版社,2008.

篇5:正态分布模型检验论文

我国夏季雨带分布类型的集成估算模型

定义了客观、定量表征我国1951-夏季3种雨带类型变化的指数,分析了它们的年代际和年际尺度的变化特征,在此基础上提出了建立雨带类型估算模型的新方法.利用估算模型分析了大气、海洋等诸多因子对雨带类型不同尺度变化的作用,并检验了估算效果.结果表明,3种雨带类型变化是由显著的年代际和年际尺度变化叠加而成的,其中年际变化主要受El Ni(n)o/LaNi(n)a事件、东亚夏季风和西太平洋副热带高压脊线位置的.影响,而年代际变化主要受到PDO,AO,ENSO,Ni(n)o3区海温和夏季风的年代际变化的控制.雨带类型集成估算模型的估算结果表明,文中提出的分尺度估算然后再做集成的估算方法,估算准确率比不进行尺度分离有了明显提高.

作 者:魏凤英 作者单位:中国气象科学研究院灾害天气国家重点实验室,北京,100081刊 名:自然科学进展 ISTIC PKU英文刊名:PROGRESS IN NATURAL SCIENCE年,卷(期):17(5)分类号:P4关键词:雨带类型 年际变化 年代际变化 集成 估算模型

篇6:试卷成绩分布的正态性检验方法

对考试成绩应用教育统计与测量的方法进行正态性检验, 是教学诊断的核心和主要基础。所谓正态性检验, 就是采用统计图表或一些基本统计指标对考试成绩进行分布形态的判别[1], 以揭示成绩分布的整体形态、分段特征以及其他一些重要测量信息。根据判别的结果, 教师可以从中提取一些重要的教学诊断信息, 从而实施针对性的教学改革。

2003年以来, 许多学者从教学管理[2]、教学监控[3,4]等方面探讨了正态性检验的意义和作用, 发展了基于数理统计和概率论的正态性检验方法[5,6,7], 开发了相应的计算机管理系统[8]。这些研究在促进教学绩效管理和教学改革方面做出了重要的贡献, 有力地推动了我国新一轮的教育改革和高校教学评建工作。但是这些研究还存着在一些缺陷, 具体表现在:混淆了教育统计与数理统计的区别, 缺乏对正态性检验方法在应用时的具体教育条件的分析, 往往导致对教学问题的误诊;以线性代数和数理统计为基础, 未考虑高校文科教师和中小学教师的实际, 限制了研究成果的应用;缺乏整合性研究, 对正态性检验方法未能进行有效的比较和鉴别, 导致因方法的不同而出现的争议。因此, 本文以初等数学知识和教育测量为基础, 结合统计工具来探讨各种正态性检验方法的运用, 并对各种检验方法进行优劣比较, 以提高教师教学诊断的能力。

2. 正态性检验及检验途径

2.1 正态性检验与成绩分布

正态性检验借助基本统计指标或统计图表, 对样本数据 (如一个班级的考试成绩) 进行整理和缩减, 以便揭示出杂乱无章的数据背后隐藏的统计规律性。通常情况下, 正态性检验是判断成绩分布的偏斜程度, 即判断成绩分布属于正态分布还是属于偏态分布。

正态分布是一种理论分布。在正态分布上, 算术平均数 (M) 附近数据分布密度高, 而远离算术平均数, 数据分布密度逐渐降低。偏态分布包括正偏态分布和负偏态分布。在正偏态分布上低分端数据分布密度高, 而高分端分布密度很低。负偏态分布与正偏态分布恰恰相反。

2.2 正态性检验的途径

进行正态性检验有两条途径:一是应用原始数据的正态性检验, 可获得描述分布形态的统计指标, 如偏度系数、峰度系数、拟合指数等。二是应用分组数据的正态性检验, 包括获得次数分布直方图 (表) 和正态拟合曲线。

这两种途径各有优劣。第一种途径所获得的统计指标提供的测量信息很精确, 但是无法反映出成绩分布各阶段特征。第二种途径借助统计图表, 可以直观有效地揭示分布的整体和各阶段特征, 但是由于在统计分组时存在归组效应 (归组误差) [1], 较之基本统计指标, 其分析精度较差。

3. 几种主要的正态性检验方法

3.1 直方图法

采用成绩直方图法时, 要注意样本的大小和组距的大小。直方图法通常采用的组距为10分, 这种情况要求学生的人数N>30。如果学生人数N<30, 则宜于采用小于10分的组距[10]。

这是因为组距较小时归组效应较小, 相对而言损失信息较少, 在数据较少的情况下可以获得较多的曲线特征。

无论是手工制作还是应用Exel (设置内置函数) 来制作, 都可以生成直方图。对于已经建立的直方图, 用光滑的曲线连接各分组矩形顶端的中点, 可得到一条拟合曲线。而应用SPSS则更为简便, 对输入的原始数据应用frequences命令中的histogram选项, 就可以直接生成直方图和一条拟合曲线。

对于考试成绩遵从何种分布, 需要根据曲线分布的形状凭借经验来判断。为了减少判断的误差, 可以结合算术平均数 (M) 、中数 (Md) 和众数 (Mo) 三者之间的关系进一步确定。正态分布中, M=Md=Mo;正偏态分布中, M>Md>Mo;负偏态分布中, M

3.2 Pearson偏态量法

Pearson偏态量法是根据M、Md、Mo几个基本统计量的关系来计算Pearson偏态量 (SK) 。

(S为样本数据的标准差)

当SK=0时为正态分布;当SK>0为正偏态分布;当SK<0为负偏态分布。

由于Pearson偏态量法计算简单, 因此可对几个基本统计量进行手工运算。另外也可在SPSS和Exel中通过设定内置函数直接得到分析结果。

3.3 偏度和峰度检验法

偏度检验法属于三级动差体系, 采用偏度系数g1来描述分布的偏斜程度。峰度检验法属于四级动差体系, 采用峰度系数g2来描述单峰分布的高狭或低阔程度。

当g1=0时为对称分布。当g1>0时为正偏态;正g1<0时为负偏态。

当g2=0时, 为正态分布峰度;当g2>0时, 比正态峰度低阔;当g2<0时, 比正态峰度高狭。

在SPSS工具中可以调用analyze工具下的descriptives菜单, 选择对话窗内的skewness和kurtosis选项并执行命令, 在SPSS的output文件中可以直接读取偏度系数和峰度系数。

3.4 χ2拟合优度检验法

χ2拟合优度检验法是基于χ2分布函数来分析连续性测量数据是否遵从正态分布的问题。考试成绩是一种连续性的测量数据, 通过整理考试成绩的次数分布表, 根据正态分布的理论 (期望) 次数 (foi) 和实际分布的次数 (fei) , 对次数进行假设检验, 从而判断分布是否遵从正态分布。

(foi为次数分布各区间实际次数, fei为正态分布各区间的理论次数)

在SPSS中进行χ2拟合优度检验, 要调用analyze工具下descriptives菜单中的crosstab分析, 选择对话窗中的chi-square选项并执行命令, 就可以在SPSS的output文件中直接读取检验的伴随概率 (p) 。如果p>0.05, 则可以用正态分布来拟合;如果p<0.05, 则不能用正态分布来拟合。

3.5 正态性检验方法的比较和工具选择

3.5.1 几种正态性判别方法的比较

直方图法简单易行, 直观性强, 能揭示整个分布的分组特征。但分析结果的随意性较大, 尤其是在组距过大或者过小时会产生明显的归组效应, 分布的形态会随着组距的变化发生一些变化, 因此误判的概率较高, 同时它也不能给出判断的错误概率, 分析者的把握性最小。

皮尔逊偏态量法简单易行, 根据M、Md、Mo这几个基本统计量就可得到结果。但由于缺少分布的直观图表, 信息损失较大, 因此误判的概率较大。该法也不适用于分析平峰分布、多峰分布和离散分布情况, 此外, 还不能给出判断的错误概率, 分析者的把握性较小。

偏度和峰度检验法主要针对单峰分布进行检验, 结果精确, 而且可以说明偏斜的程度, 分析者的把握性较大。但是应用条件比较苛刻, 要求样本容量足够大, 偏度系数要求样本容量N>100, 而峰度系数要求样本N>200, 不适用于针对一个班级的试卷分析, 不适用于多峰分布和离散分布的情况。此外, 也不能给出判断的错误概率。

和以上几种方法相比, χ2拟合优度检验法遵循推论统计思想, 获得结果最为精确, 而且可以得到判断的错误概率 (p<0.05) , 分析者有相当大的把握来判断正态性。但是χ2拟合优度检验法也存在明显的缺点。一是仅能对成绩分布做出是否遵从正态的判断, 不能判断分布的偏斜方向和偏斜程度, 也不能用于分析多峰分布和离散分布的情况。二是分析过程相对比较繁琐复杂, 限制了它的推广应用。

3.5.2 工具的选择

在工具选择上, 偏度和峰度检验法、χ2拟合优度检验法适宜于用SPSS来分析;直方图法适宜于Exel进行分析, 也可采用SPSS进行分析;皮尔逊偏态量法比较适合手工运算, 应用Exe和SPSS一般只能得到几个基本统计量, 也可通过设置内置函数采用Exel和SPSS来分析。

综上所述, 在正态性检验时要根据成绩的实际情况以及教育测量和教育统计的条件, 灵活地运用各种统计方法。为了提高正态性检验的科学性, 在必要时特别是不同方法所检验的结果发生矛盾时, 要同时运用多种方法进行审慎的比较分析。

参考文献

[1]张厚粲, 徐建平.教育与心理统计学[M].北京:北京师范大学出版社, 2004:183-184, 39.

[2]兰谦, 刘志伟, 程牛亮等.高校教学管理之试卷分析浅议[J].山西医科大学学报, 2005, 1 (7) :89-90.

[3]叶仁玉.正态性检验在教学监控中的应用[J].安庆师范学院学报, 2005, 3 (11) :104-105.

[4]戴朝寿, 酆格斐, 张欣等.正态分布在教育教学测评中的应用[J].徐州师范大学学报 (自然科学版) , 2006, 4 (24) :49-51.

[5]许志光, 金任铉.试卷质量分析的数理统计方法[J].吉林师范大学学报 (自然科学版) , 2003, (2) :50-51.

[6]熊德之, 刘为凯, 宁小青.基于数理统计的试卷分析方法[J].武汉工程大学学报, 2007, 1 (29) :78-80.

[7]陈广雷.基于投影偏度和投影峰度的投影寻踪自助法的正态性检验[J].数学杂志, 2006, 2 (26) :147-154.

[8]刘应成.考试系统中成绩正态分布检验的设计与实现[J].重庆工学院学报, 2004, (4) :188-191.

[9]杨晓明.SPSS在教育统计中的应用[M].北京:高等教育出版社, 2004:2.

篇7:应用于物种分布模型的多种算法

[关键词]模型建立;模型选择;物种分布模型

[中图分类号] G642.0 [文献标识码] A [文章编号] 2095-3437(2016)05-0120-02

物种分布模型也称为生态模型[1],用算法来预测特定地区内的物种分布,依赖物种和环境变量之间的统计关系。衡量生态模型的3个目标是:真实性、广泛性和准确性,一般情况下,只能达到期望目标的三分之二。物种分布模型是静态实证模型,而非机械模型。物种分布模型将观测到的物种-环境的现象与指定区域的环境变量联系起来。它们之间的关系非常复杂。[2]在过去的30年中,学者们已经创建了很多模型去预测物种-环境之间的关系。但是,不同的模型做出的预测是不同的。[3]下面介绍比较常见的11种物种分布模型。

一、模型种类

基于物种和环境变量之间的联系预测物种分布,有很多物种分布模型。下面介绍几种常用的模型。

广义线性模型是一般线性模型的扩展,包括线性回归、逻辑回归和泊松回归。广义线性模型的自变量包括交互项和高阶项,所以该模型更适用于物种和环境变量之间的非线性关系,且所有的参数都有统计学意义。使用时,应注意精度问题,移除无关变量。

广义可加模型是广义线性模型的非参数推广,适用性更强。其使用光滑函数建立物种-环境之间的非线性关系。光滑函数的自变量都是相互独立的,并且构建最终的模型。使用时,应适当减少,以避免过拟合。

多元自适应回归样条是线性回归模型的推广,能够自动模拟非线性和交互作用。使用时,系数是可变的,并且不同级的变量,其参数有不同的最优化值。当自变量较多且交互项的阶数较低时,多元自适应回归样条效果良好。

混合判别分析是线性判别分析的推广,是基于混合模型的一种分类方法,具体是一个因变量可写成一些自变量的线性组合。假设每一类环境变量均服从正态分布,用混合的正态分布获取每个分类的密度估计。

广义线性模型用一个简单的模型拟合物种和环境变量之间的关系,而广义助推法是把很多简单模型的预测结果组合起来给出物种分布和环境变量之间的更为精确的估计。即使预测变量和因变量之间的关系比较复杂,广义助推法最终也会产生与观测值非常接近的估计值。

人工神经网络是由大量处理单元组成的一个复杂的模型系统,能够描述复杂的全局行为。人工神经网络的关键特性就是包含一个隐元。每一个隐元得到信息,输入,求和,增加常量,然后通过一个固定函数转换结果。

分类回归树使用递归分区把数据分割成越来越小的同质的子集,直到达到终止条件。在决策树中,每一类数据都可以表示成一个“节点”,只能被分成两部分。相比于传统的方法,分类回归树能够揭示复杂的预测因子之间的相互作用。

随机森林应用Breimans的随机森林算法,称为预测物种分布最准确的模型之一。它通过对大量的分类树的计算来进行分类和回归,是一个包含多个决策树的分类器。当有新的样本进入的时候,就让森林中的每一棵决策树进行判断,观察哪一类被选择最多,就预测这个样本为哪一类。

预测规则遗传算法是基于遗传算法,建立限制物种分布的规则集的一种物种分布模型。它是一组随机的数学规则,每个规则被确定为一个基因,这些基因随机的组合起来去形成可能的模型描述潜在的物种分布。

最大熵方法是预测物种地理分布的万能机器学习方法,无需调整参数,直接使用默认值即可,得到比较精确的预测结果。它的基本原理是通过最大熵的概率分布预测目标概率分布。

分层模型将不同的物种分布模型组合起来。分层模型已发展到环境科学研究领域,对观测成分或过程成分进行组合,适用于预测数据记录和物种、环境之间的不确定性。

二、模型比较

物种和环境变量之间的关系是复杂多变的。物种分布模型可分成三大类,回归模型、分类模型和复杂模型。

广义线性模型用经典的方法量化物种-环境变量之间的联系。当物种和环境变量是多元的关系时,广义相加型更适宜。物种选择对广义可加模型或者广义线性模型影响较大。

多元自适应回归样条函数,与广义可加模型很相似,这两者性能优于广义线性模型。多元自适应回归样条比广义可加模型速度快。分层模型通常将2种或3种回归进程组合到一起。从本质上来讲,分层模型就是一系列的广义线性模型。混合判别分析、分类回归树、广义助推法都是分类模型,但是都嵌入了回归算法。与回归模型相比,分类模型在处理数据集的异常方面更精确。混合判别分析是改进的判别分析。分类树分析与传统的判别分析、聚类分析很相似。同广义可加模型相比,分类树不需要依赖物种-环境变量之间的先验假设。广义助推模型将很多简单样本模型组合在一起,可以给出更精确的预测结果。混合判别分析、分类回归树和广义助推法都是没有参数的,所以比较适合相对复杂的物种与环境关系。

分类回归树和广义助推法用递归分割完成模型预测。

人工神经网络、随机森林、最大熵和预测规则遗传算法都是复杂模型。分类回归树、广义助推法、人工神经网络、随机森林、最大熵都做了递归参数优化,所以这些模型都被称为机器学习技术。复杂模型能准确地提出输入数据的隐藏特性,能捕捉到所给数据的细节部分,这样通常会导致数据过拟合,一般会造成模型预测的偏差。在机器学习工具中,分类回归树比人工神经网络算法更有效。最大熵和预测规则遗传算法将实际生态位细致划分到每一个地理空间,同随机森林、广义助推法相比,最大熵和预测规则遗传算法与当前的分布适应度更差。

一般而言,最大熵方法的预测精度优于预测规则遗传算法。

一些研究比较了回归模型、分类模型和复杂模型的准确度。所有的物种分布模型都使用数值型和分类型的环境变量。广义线性模型和广义可加模型的回归特点决定了它们适用于数值型变量。多元自适应回归样条比分类回归树更适合数值变量。而复杂模型对于数值变量和分类变量都能处理得很好。以分类树为基础的机器学习方法更适合那些无序的、非线性的、维数高的数据。预测鸟的分布,效果最好的是随机森林,其次是分类回归树,最后是人工神经网络。

三、模型应用

在应用模型的时候要注意一些关键步骤,比如检验、标定、数据验证(数据评估)、可信度和资格评定。简单来讲就是:模型选择,模型建立,参数评估。研究人员需要根据他们的研究对象和研究目标来选择合适的模型。尽管复杂的模型有更高的预测精度,但是简单的模型也有自己独特的优势。广义线性模型浅显易懂,所有变量的回归系数都可以清楚的表达和解释。相反,其他的模型有太多的参数,以至于无法做出有实际意义的生态解读。研究人员应该熟悉每一种模型的特性。广义可加模型适用于多峰连续变量的数据;多元自适应回归样条适合于高阶交互作用的数据;广义助推法和分类回归树适用于伴随有离群观测的大量分类变量的情况;人工神经网络适合于较为复杂的物种与环境关系的情况。对于自变量和交互项项数较多时,随机森林是一种理想模型。

统计模型的建立是指为物种分布选择一个合适的算法,定义具体的因变量类型并评估模型系数,从而在建模环境下选择最优的统计路径。在本文中,我们缩小了模型建立的范围,重点在于模型结构的确定。在此,模型建立包括自变量、模型参数、变量的交互项和多项式的选择。模型参数的不同将会引起模型表现的巨大不同。模型参数的评估通常是由统计软件自动执行的,这是模型发展的关键步骤。变量系数可以由最小二乘法、极大似然法、马可夫链蒙特卡洛法、卡尔曼滤波器,引导程序以及机器学习技术中的算法来评估。变量的选择也通过变量的“贡献程度”来进行,然后由信息准则来测量。目前,大多数的物种分布模型为系数评估与模型评价提供了充足的工具。

四、讨论

在这篇综述中,比较了11种物种分布模型的特性以及这11种模型的适用范围,并且说明了如何使用这些模型。本文旨在给出当前用于预测物种分布的模型的技术指导。无论使用哪种模型,研究者们首先要做的就是仔细观察数据;之后,认真构造模型公式,应当慎重选择自变量,检查是否有必要加入多项式和交互项;另外,也需要考虑模型参数。模型评估过程也很重要,但当前模型并没有提供足够的数据来检查模型的性能。为了提升结果的准确性,一般对特定的数据集使用多种物种分布模型。

[ 注 释 ]

[1] 张文驹,陈家宽.物种分布区研究进展[J].生物多样性, 2003(5).

[2] 李国庆,刘长成,刘玉国,杨军,张新时,郭柯.物种分布模型理论研究进展[J].生态学报,2013(16).

[3] 刘芳,李晟,李迪强.利用分布有/无数据预测物种空间分布的研究方法综述[J].生态学报,2013(22).

篇8:正态分布模型检验论文

关键词:期望,假设检验,虚拟变量,回归

0 引言

设ξ, η是两个相互独立的随机变量, ξ~N (μ1, σ12) , η~N (μ2, σ22) , ξ1, ξ2, …, ξn1和η1, η2, …, ηn2分别是来自总体ξ和η的样本, 它们的样本均值和方差分别记为。考虑总体方差σ12与σ22未知但相等的情况, 当原假设H0:μ1=μ2成立时, 采用的统计量[1]是, 其中, 该统计量服从自由度为n-2的t分布, 其中n=n1+n2。本文通过引进虚拟变量 (dummy variable) [2], 建立回归模型, 给出两个正态总体的期望的假设检验的另种方法。该回归的方法不仅能检验两个总体的期望是否相同, 而且能估计期望之差及期望之差的置信区间。

1 回归模型的建立

n1+n2维列向量y= (ξ1, ξ2, …, ξn1, η1, η2, …, ηn2) ′, 对应的n1+n2维列向量d= (0, 0, …, 0, 1, 1, …, 1) ′。建立回归模型y=β0+β1d+ε, 假设该模型满足经典的假定条件[2], 其中E (ε|d) =0, E (ε′ε|d) =σ2In。

则有E (y|d=1) =β0+β1, E (y|d=0) =β0, β1=E (y|d=1) -E (y|d=0) 表示两个总体ξ和η的期望的差。

2 两种方法的等价性

针对方差未知但相同的两个正态总体期望的假设检验, 由上述构造的回归模型的解释变量d的t检验的统计量t与通常构造的统计量T是等价的, 即 (2) 和 (1) 式是等价的。

由β1的含义:表示两个总体ξ和η的期望之差;故, 就表示相应样本的期望之差, 即

根据 (3) - (5) 式, 得到 (1) 和 (2) 式是等价的, 而且都服从自由度n-2为的t分布。但利用回归的方法不仅能对原假设进行检验, 而且同时能估计期望之差及期望之差的置信区间。以下给出了实证分析的例子。

3 实证分析

例[1]某纺织厂生产的纱线, 其强力服从正态分布, 为比较甲、乙两地生产棉花所纺纱线的强力, 各抽取7个和8个样本进行测量, 得数据如下 (单位:公斤)

甲地:1.55 1.47 1.52 1.60 1.43 1.53 1.54

乙地:1.42 1.49 1.46 1.34 1.38 1.54 1.38 1.51

问两种棉花所纺纱线的强力有无显著差异?

解:问题可以归结为假设H0:μ1=μ2的检验。

首先根据 (1) 式计算:

根据回归的方法得到 (2) 式的的结果为,

从计算的结果相等进一步直接验证了通常的检验方法和回归的方法是等价的。

对于给定的显著性水平α=0.05, 统计量所对应的P值为0.032<0.05, 故拒绝原假设, 两种棉花所纺纱线的强力有较明显的差异。

通过y关于d回归, 得到的回归结果如下:

通过回归的方法除了能对原假设进行检验外, 还可以估计出期望之差为公斤, 而且能估计期望之差的置信区间为。通过回归方程, 还可以挖掘另外的信息:两个样本的均值分别为1.44和1.52。

总之, 对方差未知但相同的两个正态总体期望的假设检验采用回归的方法不仅与通常的方法等价, 而且能够挖掘出更多的信息。

参考文献

[1]龚德恩.经济数学基础:第三分册概率统计[M].4版.四川人民出版社, 2005.

[2]Jeffrey M.Wooldridge.Introductory Econometrics A Modern Approach[M].Fourth Edition.Tsinghua University Press, 2009.

篇9:正态分布模型检验论文

【关键词】临床标本;微生物检验;阳性率;流行病学;分布

【中图分类号】R446 【文献标识码】A 【文章编号】1004-7484(2012)08-0398-02

目前在临床上感染性疾病的病原学诊断依据主要来源于临床微生物检验,检验能够对感染性疾病展开合理治疗产生指导作用。对病原微生物检测进行有效加强,使阳性检出率得以提高为目前临床微生物检验的首要任务[1]。本次研究中出于对临床标本微生物检验阳性率的流行病学分布现状进行分析探讨的目的,对我院在2009年-2011年间临床标本微生物检验的阳性率展开回顾性分析,现汇报结果如下。

1 材料与方法

1.1 一般材料

搜集我院在2009年9月-2010年9月间与2010年10月-2011年10月间临床标本9880份。

1.2 标本分类

在这9880份标本中包括有呼吸道标本5126份,血液、胸腹水以及脑脊液标本1889份,大便标本511份,其他非呼吸道标本2354份。

1.3 方法

本次研究中的所有搜集到的标本均采用全自动细菌鉴定药敏分析仪,所有操作流程均严格按照标准执行,并展开质量控制。

1.4 数据处理

在本次研究过程中所得到的所有相关数据,均采用SPSS14.0统计学数据处理软件进行处理分析,计数资料采用t检验,组间对比采用X2检验,P<0.05为差异具有显著性,具有统计学意义。

2 结果

经统计发现,对于呼吸道标本的阳性率而言,2009-2010年间较2010-2011 年间高,且差异具有统計学意义(P<0.05);对于血培养标本而言其阳性率表现为2010-2011 年间高于2009-2010年间,且(P<0.05);其他非呼吸道标本的阳性率在2009-2010年间高于2010-2011 年间,且(P<0.05);大便标本的阳性率在这两年间差异不显著;全部标本的阳性率呈现出2009-2010年间高于2010-2011 年间的状态,且差异显著(P<0.05)。详见表1。

3 讨论

由于现代信息技术得到了迅猛发展,医学微生物学检验技术也开始向微机化、自动化、微量化以及分子生物学方向发展, 并且逐渐成为对临床感染性疾病诊断以及治疗进行有效指导的主要依据,尤其在最近几年传染性疾病检测工作中产生巨大作用。然而微生物检验至今还没有达到令人十分理想的效果,在众多影像因素中临床标本检验阳性率相对较低为主要原因[2]。在本次研究中,通过对2009年-2010年间临床标本生物检验阳性率与2010-2011年间进行比较,发现,两个时间短的阳性率存在很大的差异,导致这一结果的主要原因包括有以下几点:① 微生物标本采集规范。曾有相关研究结果显示,致使实验结果同临床诊断间的符合率低的主要因素为分析前原因,而对于分析前原因则主要包括患者准备、检验申请、标本采集以及标本运输等,该操作流程相对比较复杂,存在诸多潜在因素,很容易发生问题。在展开分析前,应由医疗机构统一组织实施质量保证。由于临床科室的医务人员不是十分了解标本采集的要求以及相关的注意事项或则是没有严格按照标本采集要求去执行,从而会使标本不合格的发生率得以增加,导致病原微生物检测率相对较低或者是根本没有检测到致病微生物,不但无法对病原信息予以提供, 反到会对临床医生产生误导[3]。② 微生物标本的保存以及运送不规范。在对微生物标本进行保存与运送的过程中,应对维持病原微生物的活力、对非致病微生物污染以及过度繁殖进行防止等原则予以注意。检测目的不同的微生物标本, 其保存以及运送方法应存在一定的差异。譬如说厌氧菌培养的标本应采取较为特殊的运送措施, 不但要对接触空气进行避免,而且应即刻送检,不然兼性厌氧菌过度生长会使检测阳性率得以有效降低[4]。③ 检验人员经验不足。临床微生物检验一般以形态学以及生理学的生化反应为依据,这就对操作人员要具有较强的判断能力提出了要求。从事微生物检验的技术人员应具备手工操作、定性试验以及主观判断等诸多能力。这时对于工作人员的基础知识以及个人经验而言就显得尤为重要,能够对检验结果的准确性产生直接影响。对检验人员的科学技术素质予以注重, 对一套完整的质量保证体系进行合理建立[5]。

参考文献:

[1] 申子瑜,李少男,王治国.我国政府对临床实验室质量保证的管理行为[J].中华检验医学杂志,2009,29(21):126-128.

[2] 王雪文,顾克菊,陶建敏.微生物标本采集中的存在问题及干预对策[J].上海护理,2009,29(11):347-348.

[3] 李梸佳,董开秀,许辛伯.临床粪尿常规检验标本不合格因素分析[J].国际检验医学杂志,2010,31(27):756-757.

[4] 别明江,余倩,王婷立,等.二级医院微生物检验质量控制[J].现代预防医学,2008,35(19):3778-3779.

篇10:正态分布模型检验论文

1 建立体育考核标准数学模型的指导思想

(1)体育技能考核是学生体育学业评价的重要组成部分,标准的实施要有利于激励和促进学生参与体育学习的主动性。

(2)由于体育学习内容的多样性,考核标准的制定要适用不同项目的考核,且不同项目间等级率(分级率)应一致。

(3)标准中等(分)级的划分采用通用的五级制即优(90~100)、良(80~89)、中(70~79)、及格(60~69)、不及格(低于60),等级与分级可互相换算。

(4)各等(分)级在学生整体成绩中所占的比例的设定应该根据不同地区、不同学段、不同性别的运动水平及各校学生体育学业评价的组成及组成部分的权重为依据。本文以等(分)级比例:优秀15%,良好30%,中40%,及格10%,不及格5%为例。

2 建立体育考核标准数学模型的算法依据

正态分布也称常态分布,它在连续型随机变量的概率分布中是最常见,也是最重要的一种分布。教育规律表明,学生的智力水平,包括学习能力,实际动手能力等呈正态分布。因而正常的考试成绩分布应基本服从正态分布。体育学习中技术与技能的形成受到相互独立的多种因素影响,又难以肯定哪种因素起了主要作用,因此,可以认为体育技术与技能考核的成绩是符合正态分布的。

标准正态分布的数学模型是随机变量X的概率分布密度函数:undefined通过u值代换:undefined,其函数式为undefined

3 建立体育考核标准数学模型的步骤

3.1 制作正态曲线的分布草图(如图1)

该工作的主要任务是在正态分布图上将各等级的比例构画出来,使其具有直观性。

3.2 计算出从-∞到各ui值所围成的面积(概率)

该工作的主要任务是为查正态分布表以求出各等级的ui作准备。

3.3 查表(正态分布表)求各等级的ui

该工作的主要任务是找出各等级标准的变量的值。

3.4 求各等级标准的原始成绩

该工作的主要任务是根据变量标准化的公式将各等级的ui值还原成xi值,即各等级的实际标准。

4 建立体育考核标准数学模型案例

案例:测得上两届学生乒乓球技能考核项目“一分钟对练有效击球次数”的平均数undefined次,标准差S=7.714次,经检验,原始数据服从正态分布。现要建立本届学生本考核项目的考核标准,假定本届学生的该项成绩与上两届学生成绩具有相同的正态分布,那么,通过对各等级的人数比例设定为:优秀15%,良好30%,中40%,及格10%,不及格5%,即可求出各等级的成绩标准,具体计算方法及步骤如下:

4.1 制作正态曲线分布草图(图1)

再按例中的要求,按照大致的比例划出各个等级的区域(各个区间),以及各等级的最低限值ui。从图1中可知,凡考核成绩在u1及上成绩的,均达到了优秀;在[u2,u1)区间里的均为良好。同理凡在考核成绩在u4这个位置以下的,均为不及格。由此,可以看出,要制定各个等级的标准,实际上就是要求出各个等级的下限值。

4.2 计算出从-∞到各ui值所围成的面积(概率)根据图1已知各等级的面积为

优秀:[u1,∞)的面积(概率)为P{u1≤u<∞}=0.15

良好:[u2,u1)的面积(概率)为P{u2≤u

中等:[u3,u2)的面积(概率)为P{u3≤u

及格:[u4,u3)的面积(概率)为P{u4≤u

不及格:(-∞,u4)的面积(概率)为P{-∞

因正态分布表里所给出的面积(概率)值都是从-∞到某个ui值所围成的,所以为求出本例的各ui值,必须求出从)-∞到各等级ui值所围成的所构成的面积(概率)。根据已知条件有:

(-∞,u1]的面积(概率):P{-∞

(-∞,u2]的面积(概率):P{-∞

(-∞,u3]的面积(概率):P{-∞

(-∞,u4]的面积(概率):P{-∞

由于P{-∞

(-∞,u5]的面积(概率)=P{-∞

(-∞,u6]的面积(概率)=P{-∞

4.3 求各等级的ui值

根据正态分布表内的面积(概率)找对应的ui。

P{-∞

P{-∞

P{-∞

P{-∞

4.4 求各等级的标准

根据u值公式undefined

优秀标准:undefined次

良好校准:undefined次

中等标准:undefined次

及格标准:undefined次

5 结论

1.根据体育技术与技能考核的成绩是符合正态分布的,采用随机变量的概率分布密度函数算法,结合体育规律,计算出原始数据的均值 和标准差S,制定符合不同项目、不同性别的技能考核标准是可行的。

2.本文所举例的数学模型为:x优undefined;x良undefined;x中undefined;x及undefined;undefined。(优秀率15%,良好率30%,中率40%,及格率10%,不及格率5%)。

3.由于我国地域辽阔,东西南北差异大,对于等(分)级的人数比例设定可根据校、地区的实际情况而定。

参考文献

[1]丛平湖.体育统计学[M].北京:高等教育出版社,2007,2.

[2]贾俊平等.统计学[M].北京:中国人民大学出版社,2011,7.

上一篇:道路交通管理涉案车辆工作制度下一篇:谈质量管理体系策划