统计学相关性分析

2024-05-20

统计学相关性分析（共6篇）

篇1：统计学相关性分析

对宏观统计分析方法的相关探讨论文

【摘要】自从我国实施改革开放政策过后，通货投资和消费膨胀压力、市场需求旺盛现象同步衍生，尤其是在国家基础性财政、信贷规模急剧扩张背景下，要求我们必须尽快制定实施一类宏观形态的统计分析指标框架，包括宏观经济运行状况、总供求统计、总需求构成要素等分析单元等。在此类背景下，笔者决定以宏观经济运行结果作为起点，全程借助总供求平衡和总需求构成要素作为依托媒介，使得宏观统计分析方式和国民经济核算体系关联特性，得到更加完善的调试规划，进一步为我国社会经济建设事业可持续发展，提供无限的支撑引导动力。

【关键词】宏观统计核算模式总需求市场空间调试

随着我国社会主义经济体制改革步伐日渐加快，涉及不同区域传统经济和上层建筑结构发生本质性改变，但是对于国家经济总量结构调整、生态平衡、公平竞争等发展关系来讲，始终无法完全依靠市场自发作用控制，关于政府宏观调控政策地指导地位还是异常深刻的。需要加以强调的是，如今宏观决策可以说和统计分析关系缜密，如此一来，社会诸多现象才会被清晰的认知，同步衍生出更多类型的高智能产品，最终为宏观政策调控和不同层级决策提供标准性指导线索。由此看来，验证解析宏观统计分析在政府管理中核心指导效用，引起人们对该类事务的重视态度，是十分必要的`。

一、现阶段宏观统计分析和国民经济核算体系之间的关联特性认证

自从我国覆盖落实全新国民经济核算体系过后，不管是宏观统计规则和记录表格样式都同步更改，在此期间更获取了十分精准的数字信息，如资金流通表，能够进一步细致审视分配状况，验证总需求衍生流程。须知如今我国宏观统计分析面临极大的挑战危机，便是统计资料上的漏洞，想要在较短时间内确认宏观统计指标，就必须搜集更为详细的数列信息，这一切结果都不得不借用全新国民经济核算体系予以补充完善。

另外，该类核算体系更加需要宏观统计分析的配套支持，二者相辅相成，共同打造出富有中国特色的国民经济统计学理论。今后政府在贯彻国民经济核算体系构建指标环节中，需要更深层次地校验既有宏观统计分析原理、手段，希望借此为国民经济统计学科多元化可持续渗透发展，提供更加稳固的保障条件。

二、日后宏观统计分析在我国政府宏观调控过程中的科学指导方式补充

在社会主义市场经济环境作用下，政府想要系统化落实经济宏观调控任务，就必须时刻关注市场规律与其余要素的交互式效用，令不同类型经济成分、价格形势、经营流通模式有机融合，这也不可避免地令国民经济系统变得更加复杂深入。作为现代专业化统计分析技术型人员，需要定期吸纳整合我国一切经济发展变化信息，及时提升统计参与决策能度，将统计过程中的监督、指导建议补充职能发挥完全，不断迎合现代社会综合式管理需求。

(一)在合理时间范围内精确化描述特定事物的变化发展过程

任何事物都会经历由低到高等级的革新延展流程，宏观经济分析自然不可排除在外，其往往在人们多元化生产活动和创新科学技术支持下，获得进步。实际上初始阶段的统计，不过是进行过往资料整理，不管是时间、精准性方面都无法予以认证。尤其经过我国数学、计算机理论技术改革，统计学开始获得新生机遇，开始主张利用详细数据信息映射现实状况。所以说，今后宏观统计分析工作必须要充分结合马克思主义和科学方法论指导内容，进行问题多方位考察研究，督促分析人员细致处理手头任务，使得今后不同层次的统计分析服务质量获得根本改善。

(二)借助各类培训途径提升统计分析人员专业技能和职业道德素质

透过客观层面审视，宏观统计分析涉猎广泛，需要参与人员保留多方面专业知识，如经济学、社会科学知识等，尽量为政府宏观调控和不同层级决策提供指导性建议。因此，今后宏观统计分析机构要集中一切技术手段，加大创新人才培养投入力度，令内部工作人员不断汲取全新知识和方法，借此适应今后不断复杂的宏观统计分析工作环境。

另一方面，统计分析工序中必须发挥出显著的整体、系统化指导效应，令一切事物关联和制约特性被充分挖掘，进一步辅助分析人员筛选出最为优质化的管理方案。同时，其应全力主张紧跟国家政策和经济发展局势，透过宏观分析实践提炼出全新观念和改革措施，帮助上级领导解决统计分析事务上的一切困境。具体来讲，这部分统计数据要及时、理论要新颖、信息要超前、分析研究结果要精准。长此以往，关于宏观统计分析在政府宏观调控中的支持效用，才能倾数发挥，最终为我国社会主义市场提供更加人性、科学化的服务。

综上所述，关于宏观统计分析事务，其涉猎内容过于广泛，专业性较强，为了避免令今后政府宏观调控决策产生任何限制隐患，分析人员要定期接受创新技能培训活动，细致观察和国民经济核算体系相关的一切要素，结合计算机技术进行智能化分析延展。相信不过多久，必将能够为政府科学决策和社会主义市场经济协调发展，提供保障。

参考文献：

[1]王春如，宏观经济统计分析的基本问题研究，江苏科技信息，，(12).

[2]吴琼.宏观经济统计分析初探，财经界(学术版)，2015，(10).

[3]丁常胜.宏观经济统计分析中的主要问题及完善措施U.企业改革与管理，2015，(21).

篇2：统计学相关性分析

摘要

本文介绍两组相关变量问的典型相关与典型冗余分析的统计分析方法，以及在SAS软件包中如何实现，文中给出了一个典型的例子。关键词：统计分析；典型相关；典型冗余分析

在实际问题中，经常遇到需要研究两组变量间的相关关系，而且每组变量中间常常存在多重相关性。比如工厂生产的产品质量指标与原材料、工艺指标间的相关关系；体育科研中运动员的体力测试指标与运动能力指标间的相关关系；经济领域中投资性变量与国民收入变量间的相关关系；教育学中学生高考各科成绩与高二年级各主科成绩间的相关关系；医学研究中患某种疾病病人的各种症状程度与用科学方法检查的一些指标间的相关关系等等。

研究两个变量组之间相关关系的常用方法是多元统计中的典型相关分析(参考[2]和 [3])。如果进一步研究这两组多重相关变量间的相互依赖关系，即考虑多对多的回归建模问题，除了最小二乘准则下的多对多回归分析、双重筛选逐步回归分析，以及提取自变量成分的主成分回归等方法外，还有近年发展起来的偏最小二乘(PLS)回归方法。关于多对多回归建模问题，我们将另文介绍。本文介绍典型相关与典型冗余分析，它是偏最小二乘回归的理论基础。

一典型相关分析的基本思想与解法

第一组变量记为X=(X1Xp)，第二组变量记为Y=(Y1Yq)(不妨设p≤q)。典型相关分析借助于主成分分析提取成分的思想，从第一组变量X提取典型成分V(V是X1,„,Xp的线性组合)；再从第二组变量Y提取典型成分W(W是Y1,„,Yq的线性组合)，并要求V和W 的相关程度达到最大。这时V和W 的相关程度可以大致反映两组变量X和Y的相关关系。

X11 12记p+q维随机向量Z=的协差阵∑=其中∑11一是X的协差阵，，21 22Y∑22：是Y的协差阵，∑l2=∑21是X，Y的协差阵。我们用X和Y的线性组合 V=aX和W=bY之问的相关来研究X和Y之间的相关。我们希望找到a和b，使ρ(V，W)最大。由相关系数的定义，ρ(V，W)=

Cov(V,W)Var(v)Var(w)

分析上式将发现：在使得V,W的相关达最大的同时，V和W的方差将达最小，这说明按此准则得到的典型成分V和W，对原变量组X和Y的代表性最差，它们无法更多地反映原变量组的变异信息。另方面因V，W任意线性组合的相关系数与 V，W 的相关系数相等，即使得相关系数最大的V=aX和W=bX并不唯一。故在典型相关分析解法中附加了约束条件：

Var(U)= a∑11a = 1 Var(V)= b∑22b = 1。

问题化为在约束条件Var(U)=1，Var(V)=1下，求a和b，使得ρ(U,V)= a∑l2b达最大。

X定义l 设X=(X1Xp)，Y=(Y1Yq)，p+q维随机向量Y的均值向量为

O，协差阵∑>O(不妨设p≤q)。如果存在a1 =(al1，„，alp)和b1 =(b1l，„，b1q)使得

ρ1=ρ(a1X，b lY)=

Var(,X)1,Var(,Y)1max(X,Y)

则称aX ,b Y是X，Y的第一对典型相关变量，它们之间的相关系数称为第一个典型相关系数。

如果存在ak(ak1,akp)和bk(bk1,akq)使得

①akX , b kY和前面 k-1对典型变量都不关；

②Var(akX)= l，Var(b kY)= 1；

③akX与b kY的相关系数 k最大，则称akX , b kY是X，Y的第k对典型相关变量，它们之间的相关系数k称为第k个典型相关系数(k2,,p)。

已知p+q维总体Z的n次中心化观测数据阵为:

x11x12x1px21x22x2pZn(pq)xn1xn2xnpy11yn1y12yn2y21y22y1qy2qXnpynqY nq若假定Z~Npq(0,),则协差阵∑的最大似然估计为

11XXSZZnnYXXYS11S12 YYS21S22下面我们将从样本协差阵S出发，来讨论两组变量问的相关关系。

令TS111/2SS121/222为p×q阵，则p×q阵和q×q阵TT的非零特征根相同，且非零特征根均为正的。若rk(T)=rk(S12)=r≤p(因p≤q)，非零特征根依次为 1≥2≥„≥T >O(且λi>O，i=1，„，r)。记r阶对角阵D=diag(λi，„，λr)。利用p×q阵T的奇异值分解定理(参考[4])有 222T(a,,a)D(,,)

1r12pqrr其中口ai(i=l，„，r)为TT对应于i2的单位正交特征向量；i(i=1，„，r)为TT对应于i2的单位正交特征向量，且ai与i满足关系式：iai1/2S11i,容易验证与满足：biai(i1,r)1/2S22ibi1iTi。令

11/2aibiS111/2i(i1,r)

i1iS22i则ViaiX,WibiY为X,Y的第i对样本典型相关变量，i为第i个样本典型相关系数。

二典型相关系数的显著性检验

总体z的两组变量X=(X1Xp)和Y=(Y1Yq)如果不相关，即Cov(X,Y)= ∑12=0，以上有关两组变量典型相关的讨论就毫无意义.故在讨论两组变量间的相关关系之前，应首先对假设H0：∑l2=0作统计检验，它等价于检验H0：ρl=0。

设总体Z~Npq(0,)，用似然比方法可导出检验H0：∑l2=0的似然比统计量Λ，利用矩阵行列式及其分块行列式的关系，可得出

SS11||S222IpS11S12S22S21(11)

i111p其中p+q阶方阵s是∑的最大似然估计量，Sy分别是∑ij(i,j=1,2)的最大似然估计i2(i1,,p)是TT的特征值。

统计量Λ的精确分布已由Hotelting(1936年)等人给出，但表达式很复杂。由Λ统计量出发可导出检验H0的近似检验方法，如 Willksλ统计量，Pillai的迹，Hotettintg-Lawley迹和Roy的极大根等(参阅[2])。

当否定H0时，表明X,Y相关，进而可得出至少第一个典型相关系数ρ1≠0。相应的第一对典型相关变量V1,W1可能已经提取了两组变量相关关系的绝大部分信息。两组变量余下的部分可认为不相关，这时ρ1≈(i=2,„,p)。故在否定H0后，有必要检验H0:i(i2,,p)即第i个及以后的所有典型相关系数均为0。利用似然比方法可导出检验H0的似然比统计量，并给出该统计量的近似分布。从i=2开始逐个检验，直到某个i0，使H0相容时为止。这时说明第i0个及以后的所有典型相关系数均为0。假定经检验，前m个典型相关系数显著地不等于0(m≤p)。

(t)(t)(t)三典型结构与典型冗余分析

1．典型结构

求出典型变量后，进一步可以来计算原始变量与典型变量之问的相关系数阵——典型结构。

记A=(al，a2，„，ar)为P×r矩阵，B=(bl，b2，„，br)为q×r矩阵，典型随机向量V(V1,,Vr)(a1X,arX)AX;W(W1,Wr)(b1y,brY)BY；随机向量Z的11 12S11S12S协差阵为∑=>0，随机向量的协差阵为S21S22是∑的最大似然21 22然估计。则

Cov(X，V)=Cov(X，AX)=∑11A，Cov(X，W)=Cov(X，BY)=∑12B，Cov(Y，V)=Gov(Y,AX)= ∑12A，Cov(Y，W)=Coy(X，BY)=∑22B。

用Sij代替以上公式中的∑ij(i，j=1，2)，即可计算出原始变量与典型变量之间的协差阵。由协差阵还可以计算原始变量与典型变量之间的相关系数阵。若假定原始变量均为标准化变量，则以上计算得到的原始变量与典型变量的协方差阵就是相关系数阵。

若计算这四个相关系数阵中各列(或各行)相关系数的平方和，还将得出下面一些有关的概念。2．几个概念类似于主成分分析，把Vk看成是由第一组标准化变量X提取的成分，Wk看成是由第二组标准化变量Y提取的成分，由相关阵R(X，V)=S11A=[r(Xj，Vk)](p,r)和R(Y，W)=S11B=[r(Xj，Vk)](q,r)分别计算第k列的平方和。记

1p21p2Rd(X,Vk)r(Xj,Vk),Rd(Y,Wk)r(Yj,Vk)(k1,,r)

pj1qj1并称Rd(X,Vk))(或Rd(Y,Wk))为第k个典型变量 Vk(或Wk)解释本组变量X(或Y)总变差的百分比。记

1mp21mq2Rd(X;V1,,Vm)r(Xj,Vk),Rd(Y;W1,,Wm)r(Xj,Vk)

pk1j1qk1j1并称Rd(X;V1,,Vm)(或Rd(Y;W1,,Wm))为前m(m≤r)个典型变量V1,,Vm(W1,,Wm)解释本组变量X(或Y)总变差的累计百分比。

在典型相关分析中，从两组变量分别提取的两个典型成分首先要求相关程度最大，同时也希望每个典型成分解释各组变差的百分比也尽可能的大。百分比的多少反映由每组变量提取的用于典型相关分析的变差的多少。

类似于主成分分析，还可以引入前m个典型变量对本组第j个变量Xi(或Yj，)的贡献等概念(参考[1])。3．典型冗余分析

我们进一步来讨论典型变量解释另一组变量总变差百分比的问题。在典型相关分析中，因所提取的每对典型成分保证其相关程度达最大，故每个典型成分不仅解释了本组变量韵信息，还解释了另一组变量的信息。典型相关系数越大，典型成分解释对方变量组变差的信息也将越多。

类似可以定义Rd(X;Vk))(或Rd(Y;Wk))为Wk(或Vk)解释另一组总变差的百分比。以下给出利用典型变量解释本组变差的百分比来计算解释另一组变差百分比的公式：

Rd(X;Vk)1prj1p2(Xj,Vk)2,,r)kRd(X;Vk)(k12，Rd(Y;Vk)1qrj1p(Xj,Vk)2,,r)kRd(Y;Wk)(k1事实上，由典型变量的系数ak与bk之间的关系： ak1kS11S12bkkakS11S12bkkS11akS11S11S12bkS12bk以及典型111变量与原始变量(假定已标准化)的相关阵即得：r(Xj，Wk)= λk(Xj;Vk)，故有Rd(X;Wk)=2kRd(X;Vk)，类似可证明另一式。

Rd(X;Wk)表示第一组中典型变量解释的变差被第二组中典型变量重复解释的百分比，简称为第一组典型变量的冗余测度；Rd(X;Vk)表示第二组中典型变量解释的变差被第一组中典型变量重复解释的百分比，简称为第二组典型变量的冗余测度。

冗余测度的大小表示这对典型变量能够对另一组变差相互解释的程度大小。它将为进一步讨论多对多建模提供一些有用信息。

四应用例子一康复俱乐20名成员测试数据的典型相关分析

康复俱乐部对20名中年人测量了三个生理指标：WEIGHT(体重)，WAIST(腰围)，PULSE(脉膊)和三个训练指标：CHINS(拉单杠次数)，SITUPS(仰卧起坐次数)，JUMPS(跳高)(数据见以下数据行)。试分析生理指标和训练指标这二组变量间的相关性。

解使用SAS/STAT软件中的CANCORR过程来完成典型相关分析。首先把测试数据生成SAS数据集，SAS程序如下：

data da20x6;input weight waist pulse chins situps jumps@@;label wight =’体重’ waist=’腰围’ pulse=’脉搏’ chins=’单杠’

situps=’仰卧起坐’ jumps=’跳高’;

cards;191 36 50 5 162 60 189 37 52 2 110 60 193 38 58 12 101 101 162 35 62 12 105 37 189 35 46 13 155 58 182 36 56 4 101 42 211 38 56 8 101 38 167 34 60 6 125 40 176 31 74 15 200 40 154 33 56 17 251 250 169 34 50 17 120 38 166 33 52 13 210 115 154 34 64 14 215 105 247 46 50 1 50 50 193 36 46 6 70 31 202 37 62 12 210 120 156 33 54 15 225 73 138 33 68 2 110 43;run;proc cancorr data=da20x6 all vname=’生理指标’wname=’训练指标’;var weight waist pulse;with chins situps jumps;run;DATA步创建康复俱乐部测试数据的SAS数据集(名为DA20X6)，它有20个观测，6个变量。

CANCORR过程用于对输入数据集DA20X6做典型相关分析。选项ALL要求输出所有可选择的计算结果；VNAIVIE=给出VAR语句中变量组的标签为生理指标；WNAIVIE=对WITH语句给出的第二组变量规定标签为训练指标。VAR语句列出第一组变量的名字，WITH列出第二组变量的名字。部分计算结果见输出1至输出5。

输出1 均值、标准差和两组变量问的相关系数

— 输出1列出6个变量的均值和标准差及生理指标和训练指标之间的相数。理指标和训练指标之间的相关性是中等的，其中WAIST和SITUPS 相关系数最大为-0.6456。

输出2 典型相关分析系数及显著性检验

— 输出2给出典型相关分析的一般结果。第一典型相关系数为07956，它比生理指标和训练指标两组间的任一个相关系数都大检验总体中所有典型相关均为O的零假设时显著性概率为0.0635(即Pr>F的值)，故在α=0.10的显著水平下，否定所有典型相关为0的假设。也就是至少有一个典型相关是显著的。从后面的检验结果可知，只有第一典型相关系数是显著不等于0的。因此，两组变量相关性的研究可转化为研究第一对典型相关变量的相关性。

输出3 标准化后典型变量的系数

— 输出结果中还给出原始变量和标准化变量的典型相关变量的系数。因六个变量没有用相同单位测量，我们来分析标准化后的系数(见输出3)。来自生理指标的第一典型变量V1为(右上角带“*”的变量表示标准化变量)： V1=-0.7754WEIGHT* + 1.5793WAIST*1054SITUPS* + O．7164JUMPS*

它在SITUPS*上的系数最大这一对典型变量主要是反映腰围(WAIST*)和仰卧起坐(SITUPS)的负相关关系。

输出4 典型结构—原始变量和典型变量的相关系数阵

—由输出4可看出来自生理指标的第一典型变量v1与腰围(WAIST)的相关系数为0.92，V与体重(WEIGHT)的相关为0.6206，它们都是正的。但典型变量V1在体重上的系数为负的(-0.7754)，即体重在V1的系数和它与V1的相关反号。来自训练指标的第一典型变量Wl与三个训练指标的相关都是负值，其中跳高(JUMPS)在W1的系数(0.7164)和它与Wl的相关(-0.1622)也是反号。因此，体重和跳高在这两组变量中是一个校正(或抑制)变量。

一个变量同典型变量的相关与在典型变量上的系数符号相反似乎是矛盾的。下面以体重为例来说明这一现象，我们知道肥胖性同腰围和体重之间的关系很密切的。一般说来，有理由认为胖的人比瘦的人仰卧起坐的次数少。假定这组样本中没有身高非常高的人，因此体重和腰围之间的相关(0．8702)是很强的。· 腰围大的人倾向于比腰围小的人胖。因此腰围与仰卧起坐为负相关(-0.6456)。· 体重大的人倾向于比体重小的人胖。于是体重与仰卧起坐为负相关(-0.4931)。

考虑用多元回归方法由WAIST*(腰围)和WEIGHT*(体重)来预测SITUPS*(仰卧起坐)，得到的回归式为：SITUPS* =0.2833 WEIGHT* – 0.8921 WAIST*，回归式中WEIGHT* 系数的符号为正似乎不合理，关于系数的符号可解释如下：

· 若固定体重的值，腰围大的人倾向于较强壮和较胖，故而仰卧起坐次数少，于是腰围的多元回归系数(-0.8921)应是负的。

· 若固定腰围的值，体重大的人倾向于比较高和比较瘦，故而仰卧起坐次数多；因此体重的多元回归系数(0.2833)应为正的。这里体重与仰卧起坐的相关同体重的回归系数符号相反。

因此，第一典型相关一般解释为以体重(WEIGHT)和跳高(JUMPS)作为校正(或抑制)变量来强化腰围(WAIST)和抑卧起坐(SITUPS)之间的负相关关系。

输出5 CANCORR过程产生的典型冗余分析结果

—输出5给出典型冗余分析的结果。我们来分析标准化的方差，第一典型变量vl可以解释45．08％组内变差，并解释25．84％的另一组(训练指标)的变差；而典型变量wl可以解释40.81％组内变差，并解释28．54％的另一组(生理指标)的变差。可见第一对典型变量V1和Wl都不能很好地全面地预测另一组变量。第二和第三对典型变量实际上都没有给出什么信息，三个典型变量解释另一组总变差的累计百分比分别为0.2969和0.2767。

输出5中第4张表格给出训练指标组中各个变量被生理指标变量组提取的前M个(M=1，2，3)典型变量V1，„，VM解释变差的累计百分比(即多重相关的平方和：r2(Y1,Vk))，可以看出只有CHINS(O.3351)和SITUPS(0.4233)可被对k1M方变量组的第一典型变量Vl预测，Vl对JUMPS(O.0167)几乎没有预测能力。从第3张表格类似可得出，而来自训练指标的第一典型变量Wl对WAIST(O.5421)有相当好的预测能力，对WEIGHT(0.2438)较差，而对PULSE(0.0701)几乎没有预测能力。

[参考文献]

篇3：统计学相关性分析

一、两种收入

我国的城镇居民中, 绝大部分是属于工薪阶层以及其他依靠劳动收入生活的居民。经济增长的好处直接体现在了他们收入的绝对增长上。然而, 对于劳动收入的增长是否会使得扣除各项必需生活费用后的可支配收入得到同比的增长, 本节将会运用人们所熟知的两种收入类型的拟合优度检验来说明宏观的增长以及较为实际的可支配增长的关系。首先, 以下是我国2003年至2007年度城镇单位人均劳动收入以及城镇居民人均可支配收入的数据资料:

用拟合优度进行检验, 研究可支配收入增长的情况是否与劳动收入的增长情况相符, 由于数据差异较大, 所以选择比较增长百分比 (较上一年) 。

假设可支配收入的增长情况与劳动收入增长情况, 设定劳动收入为期望数值, 可支配收入为观察数值, 根据拟合优度检验统计量:

则有:

得到X2=5.3984, 在自由度为K-1=4的X2 (卡方) 分布表中, 我们找到了显著性水平为α=0.25的临界值X2=5.39。由此, 我们可以得出结论, 在置信水平为1-α=0.75的情况下, 可支配收入的增长与劳动收入的增长情况不相符。主要原因为个人社会保障支出和所得税支出的总和的增加, 个人实际可以自由支配的收入增速较大低于劳动收入的增长。这表明, 在现实生活中, 随着经济的发展, 人们也许能够得到更多的现代化服务与享受, 但是真正个人可支配收入的增加却不尽如人意。

二、各地区城镇居民家庭人均消费支出的方差分析

我国的经济发展大致可以分为三个区域, 分别为东部发达地区、中部发展中地区以及西部欠发达地区。长江三角洲、珠江三角洲和京津唐地区三大城市群三足鼎立态势渐趋明朗。在高速发展的经济环境下, 物价水平以及消费水平的变动使得不同地区之间的差异变得越来越大, 2009年, 我国的流动人口已达3亿之多。这个如此庞大的群体中, 绝大多数是农村到城镇的流动人口以及一部分城镇到城镇的流动人口。这个群体是支撑我国城镇发展的基层力量, 发挥着无可替代的作用。然而, 他们的生活状况、生活水平和经济需求却没有得到应有的重视。在从农村来到城市以后, 相对非常低的收入无法使他们能够适应城镇的消费水平和物价水平, 从而产生了一系列的民生问题和社会问题。下面, 我们选取我国近年来经济发展的前三强 (港澳台地区除外) 北京、上海以及广东, 另外再选紧随其后的天津和江苏, 来研究近五年来城镇居民的生活成本, 也就是消费支出是否接近。以下是五年来上述五个地区的城镇居民家庭人均消费支出数据 (元) :

资料来源:http://www.stats.gov.cn/

为研究这五个地区的城镇居民消费水平是否大致相同, 我们对这组数据进行单因素方差分析。我们选取显著性水平α=0.05来分析五年来的平均支出水平是否大致相同。

假设这五个地区的城镇居民家庭人均消费支出总体平均水平相同。经计算, 我们可以得出ANOVA表如下:

由分析可见, F分布上侧面积 (P-Value) 远远小于α=0.05, 所以我们拒绝原假设, 这五个地区的城镇居民家庭人均消费支出不全相同。那么, 我们再根据FISHER的LSD检验法来确定究竟是哪几个地区的水平不相同。因为每一个处理的样本数都为5, 所以我们可以使用简便的LSD法。将五个地区两两比较,

|北京-上海|=547.522<2431, 所以平均水平没有显著性区别。

|北京-广东|=1562.854<2431, 所以平均水平没有显著性区别。

|北京-江苏|=4743.578>2431, 所以平均水平有显著性区别。

|北京-天津|=3564.826>2431, 所以平均水平有显著性区别。

|上海-广东|=2110.376<2431, 所以平均水平没有显著性区别。

|上海-江苏|=5291.1<2431, 所以平均水平没有显著性区别。

|上海-天津|=4112.348>2431, 所以平均水平有显著性区别。

|广东-江苏|=3180.724>2431, 所以平均水平有显著性区别。

|广东-天津|=2001.972<2431, 所以平均水平没有显著性区别。

|江苏-天津|=1178.752<2431, 所以平均水平没有显著性区别。

经分析, 我们得出结论, 在我国经济发展前列的地区中, 城市消费水平已经显著不相等, 体现在领头地区的消费水平过高。可想而知, 全国范围内的不同地区的差异会更显著, 近五年来, 庞大的3亿城市流动人口, 因为大部分来自农村或较不发达地区, 其中大部分人正在经历明显的生活支出骤升的过程。

三、收入增长与负担增长并存

观察我国近年来的居民可支配收入水平变化 (本文以城镇居民为例) , 发现五年来城镇家庭人均收入增加了近6000元, 同比2003年增加了约65%。但是, 随着社会经济的发展, 人们不得不背上越来越多的经济负担。下表为我国2003至2007年城镇居民可支配收入水平以及消费支出水平的变化。

根据以上资料我们可以观察到, 在近6000元的增长幅度中, 消费支出的增长占去了约3500元的份额, 而余留下的收入仅增加了不到2400元, 在去除居民消费物价指数影响之后, 这个数字更是下降到了2166元。五年来, 可支配收入的实际增加额只有2166元, 然而还有许多潜在的经济负担没有体现在统计数据之中, 在人口稠密经济发达的大型城市, 人们面临的现实的以及潜在的经济负担将会更加沉重。

四、结果分析

本文主要针对经济发展与居民实际生活压力与幸福感的关系, 选取部分统计数据进行了统计分析。首先对劳动收入的增长与人均可支配收入的增长进行了分析, 在同样的经济环境下, 劳动收入的增长却没能很好地带动可支配收入的同比增长。说明其他的因素, 如所得税以及各项保障支出等的费用增加, 使得居民个人实际可以使用的收入并没有显著增长。

资料来源:http://www.stats.gov.cn/

流动人口的总体幸福感与生活满足感与其他人群相比显得尤其的低下。这部分人群中主要由从农村流动到城市的农民工以及各种受薪酬吸引而流动到大城市的外来务工人员组成。通过方差分析, 我们发现就算是在我国经济发展前列的城市, 生活消费水平都显著不相等, 而这些流动人口的来源地的生活水平与我国各个城市的生活水平就会可想而知更加悬殊了, 他们来到城市却很难适应城市的高生活成本。我国城市中的一栋栋高楼、一座座平地而起的大厦以及社会生活各个方面的基础建设都是由这些外来务工人员作为主力军完成的, 但是作为回报, 他们却很难承担的起与这个城市生活费用。这些问题直接导致了各种社会问题以及社会不稳定、不和谐因素的产生。

从个人可支配收入与生活支出费用的关系分析中, 我们得知, 看似明显的个人可支配收入的增长中, 大部分的增长额却被生活费用支出所占去。导致这一问题的原因在于随着社会经济的发展, 竞争加剧, 人口问题严重, 住房越来越拥挤, 人们在近年来所要承受的经济负担较以往也同样有大幅的增加。现如今, 对于城镇居民来说最棘手的问题莫过于住房问题, 其次是教育问题, 医疗问题, 保险问题等。据南方日报2009年调查显示, 在我国15个一线城市中, 我国的经济中心———上海的居民购房信心最低。另外据香港文汇报的报道称, 一项2009年的内地民调显示, 内地大城市中上海、深圳的购房信心垫底。上海的居民收入额高居全国首位, 增长幅度也为全国之首, 然而在高增长的背后, 隐藏的问题是生活费用的高额增长。纵观全国, 二线城市的购房信心平均得分比一线城市高出10分之多。可支配收入与生活消费支出的差额是真实的留存收益的余额增长, 去除通胀等影响的消费者物价指数以后, 我们发现居民的实际留存收益的增长并没有那么迅速。

近年来, 中国的经济发展进一步腾飞, 然而高速经济增长下, 居民生活幸福感与满足感却有待增长。为研究这一问题, 我们应考虑经济增长与人民生活的复杂关系, 本文对这一问题的探讨能够提供一些分析与帮助。

摘要：文章就经济发展与人民生活水平的关系进行了一系列讨论与分析, 运用统计检验, 为部分经济发展带来的现象进行分析, 探讨这些现象存在的原因, 从而为复杂的经济发展问题提供参考。

关键词：经济增长,可支配收入,消费支出,幸福感

参考文献

[1].www.stats.gov.cn.中华人民共和国国家统计局

[2].203.207.226.100/files/200912/2009f12d7c131026077.html.“调查显示二线城市居民购房信心高于一线城市”

[3].203.207.226.100/files/200911/2009f11d12c1309522914.html.“调查显示内地购房信心持续低迷”

篇4：浅析多元统计分析及相关应用

【关键词】多元统计分析；多元线性回归；ADF检验；协整分析

随着社会经济的进步发展，学者发现利用一元回归分析已经满足不了实证分析的要求。这是因为研究问题除了受到一维变量的影响，也会受到其他因素的作用。尤其是在延长样本数据时期、增大样本容量、引入其他影响因素之后，数据内部之间的规律难以依靠一元回归挖掘出来。多元统计分析开始被广泛应用在经济、管理、农业、社会、生物等研究领域。

一、多元统计分析的发展

纵观多元统计分析的发展进程，二位正态总体的分析方法虽然出现于19世纪，但多元统计分析的正式兴起却在20世纪。20世纪30年代，费希尔、霍特林等人为多元统计分析研究奠定理论基础。进入40年代，心理、教育、生物等领域开始将多元统计分析作为研究手段分析问题。但由于计算工作量较为繁杂和时局的影响，多元统计分析并未广发应用在其他领域，得到更进一步的发展。50年代后，计算机的出现为其发展提供技术便利，相关理论也得以提出。时至今日，诸如SPSS、R、SAS、EVIEWS等多种计量软件使得多元统计分析实际应用在各学科领域。

二、多元统计分析的基本方法

1.多元回归分析

多元回归分析的基本原理与一元线性回归分析相似，只不过是自变量为两个或两个以上。通过多元回归分析，几个变量之间是否存在的特定相关关系以及是何种关系将得到验证。在实证研究中，则通常会引入控制变量，通过控制一些变量的取值，可以更好研究主要自变量影响程度，在此基础上可以进行因素分析，厘清各因素间的相互关系。

2.主成分分析

与多元线性回归法不同，主成分分析适用于更多个指标的数据处理。在建立多层次的指标体系后，将多个指标转化为保留原有数据大部分信息的几个综合指标，并利用这几个综合指标来分析。将复杂的指标数据进行压缩，变量之间不存在相关性，压缩后得到的指标要有代表性，不能损失太多原始信息，能够准确解释研究问题的内在关系。分析步骤主要包括以下几步：標准化处理原始数据矩阵；基于标准化数据矩阵建立标准化相关系数矩阵；计算特征根、特征向量及标准正交化特征向量；依据结果确定主成分个数；计算主成分和主成分值；计算研究样本的得分值并加以评价。

3.因子分析

与主成分分析法相似，因子分析也是对多个变量的降维处理。通过研究相关阵或协方差阵的内部关系，提取代表性的因子，以因子为新的解释变量，计算得出个样本的因子得分，并加以排序、评价分析。与主成分分析方法处理程序不同，因子分析在得到特征向量等数据后，需要确定公共因子个数，并计算因子载荷矩阵和各样本的因子得分、总因子得分。

4.聚类分析

聚类分析也是实证分析当中常用的一种研究方法。它是将数据按照一定的标准将以分类，同类别下的数据之间差异比较下，不同类别之间的数据则有较大的差异。具体的分析方法包括层次聚类法、非层次聚类法、智能聚类法等。

三、多元回归分析的应用

本文选择多元线性回归法加以实际应用。本文采用时间序列方法分析安徽省R&D投入与经济增长之间的关系。安徽省GDP绝对值取自2001-2015年的《中国统计年鉴》，R&D经费与R&D人员都则取自中国科技统计网站的中国科技统计数据（2001-2015年）。为了消除异方差的影响，将三变量对数化处理。同时，对数化的数据也能够反映变量之间的弹性系数，不改变变量之间的协整关系。GERD代表R&D投入经费，GRP代表R&D人员，GDP代表经济增长。

1.单位根检验

通过EVIEWS6.0软件估计，结果显示，原序列lnGDP、lnGERD、lnGRP是非平稳时间序列。对三者进行一阶差分后，D（lnGDP）、D（lnGRP）、D（lnGERD）通过ADF检验，拒绝原假设，即差分后的序列是平稳的。因此，lnGDP、lnGRP、 lnGERD是一阶单整的。

2.协整分析

由ADF检验可知，lnGDP、lnGRP、lnGERD符合协整分析的条件。本文采用回归残差的协整检验方法。检验结果显示，残差序列在1%的显著性水平下拒绝原假设，可以确定残差序列是平稳的，变量之间存在长期协整关系。

3.回归分析

回归方程结果为：lnGDP = 7.6579lnGERD + 0.3510 lnGRP +C。模型可决系数为0.8767，接近于1，且F值也通过显著性检验，说明回归方程的拟合效果较好且变量之间的线性关系显著。

参考文献：

[1]左瑞琼.多元统计分析方法介绍及在经济中的应用[J].时代经贸，2007（9）：27-28.

[2]乌冉.多元统计分析介绍及其在一些方面的应用[J].百科论丛，2010（4）：349-350.

[3]姜波.多元统计分析方法在实际问题中的应用[J].沈阳师范大学学报（自然科学版），2012（4）：465-467.

[4] 杨锦忠，宋希云.多元统计分析及其在烟草学中的应用[J].中国烟草学报， 2014（5）：134-137.

篇5：统计学相关性分析

3.相关与回归的区别和联系：相关表示两变量间的相互关系，是双方向的。而回归则表示y随x而变化，这种关系是单方向的。医学资料中的有些资料用相关表示较适宜，比如兄弟与姐妹间的身长关系、人的身长与前臂长之间的关系等资料。另有些资料用相关和回归都适宜，此时须视研究需要而定。就一般计算程序来说，是先求出相关系数r并对其进行假设检验，如果r显著并有进行回归分析之必要，再建立回归方程。

回归系数与相关系数的正负号都有两变量离均差积之和的符号业决定，所以同一资料的b与其r的符号相同。回归系数有单位，形式为(应变量单位/自变量单位)相关系数没有单位。相关系数的范围在-1～+1之间，而回归系数没有这种限制。来源：

4.适合作相关和回归分析的资料通常有两种资料：(1)一个变量x是选定的，另一个变y是从正态分布的总体中随机抽取的，宜作回归分析。(2)两变量x、y(或x1、x2)都是从正态分布的总体中随机抽取的，即是正态双变量中的随机样本。这时，若需要由一个变量推算另一个变量可作回归分析;若只需说明两变量间的相互关系可作相关分析。如果变量(一个或两个)呈明显偏态时，须经过适当的变量代换(如对数代换等)，使资料接受正态分布后再做相关与回归分析;或者采用秩相关法。

5.在回归分析中，由x推算y与由y推算x的回归方程是不同的，不可混淆。

但我们必须正确选定自变量与应变量，一般说，事物的原因作自变量x，当事物的因果关系不很明确时，选误差较小的即个体变异小的变量作自变量x，以推算应变量y。来源：

统计学相关性分析

篇1：统计学相关性分析

篇2：统计学相关性分析

篇3：统计学相关性分析

篇4：浅析多元统计分析及相关应用

篇5：统计学相关性分析

篇6：相关行业统计报表调整说明

本站热搜

相关推荐