线性回归

2024-05-03

线性回归(精选十篇)

线性回归 篇1

一、多重共线性的本质和后果

如果有个自变量满足下面的条件:Xi (i=1, 2, …k)

则它们存在共线性关系。其中!1!2, …!k为常数, 但不同时为零;!为噪声数据, 且|&|’[0, ∝]。当&=0时, 就是完全共线性;&→0时, 共线性越严重;&→∝时, 变量之间完全不相关。&的取值范围如此之大, 可知共线性是普遍存在的[13]。

如果出现完全共线性, (回归分析中的参数 (将无法确定。而对于高度共线性, 参数尽管可以估计, 但可能招致以下后果[11]:不改变参数估计的无偏性;使参数的最小二乘估计的方差很大, 从而使得对模型难以取舍;各个回归系数的值很难精确估计, 甚至可能出现符号错误的现象;回归系数对样本数据的微小变化可能变得非常敏感。

二、处理多重共线性问题的方法

目前国内文献中处理严重共线性的方法常用的有以下几种:岭回归 (RR) 、主成分回归 (PCR) 、逐步回归、偏最小二乘法 (PLS) 、数据分组处理算法 (GMDH) 等。

(一) 岭回归

岭回归由Arthur E.Hoerl和Robert W.Kennard (1970) [1]提出, 其基本思想为[4]:

设线性回归模型为:Y=X (+&

参数的最小二乘估计为: ($= (X1X) -1X1Y

如果自变量之间存在较强的多重共线性, 即|X1X|≈0, 给X1X加上一个正的常数矩阵kI (k>0) , I为单位阵, 构造 (X1X+kI) -1使得|X1X+kI|≈0的可能性比|X1X|≈0的可能性大, 从而避免了因|X1X|≈0造成!"的方差变大, 故岭回归的估计量为!" (k) = (X1X+kI) -1X1Y, 其中k为岭回归参数, k>0且为常数。

(二) 主成分回归

William F.Massy (1965) [12]提出的主成分回归是根据多元统计分析中的主成分分析原理, 来处理多重共线性模型的一种参数估计方法。其基本思想[16]:利用主成分分析将解释变量转换成若干个主成分, 这些主成分从不同的侧面反映了解释变量的综合影响, 并且互不相关, 因此, 可以将被解释变量关于这些主成分进行回归, 再根据主成分与解释变量之间的对应关系, 求得原回归模型的估计方程。

(三) 逐步回归分析

逐步回归分析方法是综合了逐步剔除法和逐步引入法的特点产生的方法。其基本原理[4]为:从一个自变量出发, 视自变量对因变量的影响显著性大小, 从大到小引入回归方程, 同时, 在逐个自变量选人回归方程中, 如果发现先前被引入的自变量在其后由于某些自变量的引入而失去其重要性, 可以从回归方程中随时予以剔除。引入一个变量或剔除一个变量, 为逐步回归的一步, 每步都要进行显著性检验, 以便保证每次引入变量前回归方程中只包括显著性变量, 这个过程反复进行, 直到既无不显著变量从方程中剔除, 又无显著变量需要引入回归方程为止。

(四) 偏最小二乘回归

伍德 (S.Wold) 和阿巴诺 (C.Albano) 等人于1983年首次提出偏最小二乘回归。密西根大学 (Michigan University) 的弗耐尔 (Fornell) 教授称偏最小二乘回归为第二代回归分析方法[6]。偏最小二乘回归的方法是基于因子的提取, 使新的因子变量相互独立, 满足G-M条件, 先建立因变量对因子的回归, 再还原成与自变量的回归模型。它是建立在主成分分析和主成分回归基础上的一种多元数据分析方法, 是一种将降维空间的每个元素组成的预测矩阵与被预测矩阵间的协方差最大化的降维技术。

(五) 数据分组处理算法

数据分组处理算法是由乌克兰科学院A.G.Ivakhnenko院士在1967年提出的。GMDH是建立在人类生存历史中最古老的、最富有成效的试探法则-选择学说基础之上的, 它将黑箱思想、生物神经元方法、归纳法和Godel的数理逻辑方法有机地结合起来[16]。它采用多层迭代, 借助自组织原理, 利用数据和计算机相对客观地选择变量之间的关系, 通过启发式学习实现输入输出间的非线性映射, 用外准则选取最优模型, 实现对所研究系统内部结构的模拟[21]。

(六) 其他一些新的方法

1、聚类回归分析

蒋平等 (2005) 提出了聚类回归分析的方法[9], 其基本思想为通过聚类分析, 按照相似程度大小将变量组分成若干类, 从每一类中找出一个变量作为该类的代表变量组成自变量集则最后所选出的自变量的个数与分类数相同, 而且其相似程度也是最低的, 从而在一定程度上消除共线性。但是该方法首先要在动态聚类中给定一个参数k, 因而也就主观的确定了模型中的解释变量的个数。

2、不相关法

王玉梅 (2006) [19]提出了不相关法, 其基本思想:当各个解释变量 (如Xi与Xj, i≠j) 之间存在着多重共线性时, 其最直接的表现就是各个解释变量之间的决定系数 (r2i, j) 很大。r2i, j很大, 则意味着Xi的变化能够说明Xj的变化。如果我们能够在保留Xi全部信息的同时, 以Xi为基础, 对其他的解释变量进行一定的线形变换, 使之转换为一个新变量, 如将Xj转换为Xjj, 并且使得Xi与新变量Xjj之间的决定系数 (r2i, jj) 降低到最小程度———如 (1-r2i, j) , 则就可以消除多重共线性。

三、各种回归方法的比较

1、主成分回归、岭回归、逐步回归和GMDH的比较[14]

岭回归参数k的选取原则和方法存在主观性;没有明确的含义;它的参数估计量始终是有偏估计;由于岭回归要保留所有变量, 因此对变量的选择要特别谨慎, 但灵活运用岭回归方法, 可以对分析各变量之间的作用和关系带来独特而有效的帮助[22]。

主成分回归具有降维的作用, 在一定程度上消除了共线性的危害, 其偏差由保留主成分的个数决[3]。但王惠文 (1996) [18]、陈伟 (2002) [2]对主成分回归消除共线性的能力并不乐观, 文献[17]也指出完全共线性的情形不适用主成分回归;而且它比岭回归的值选择随意性更大。在SPSS中无法用菜单直接实现主成分分析, 文献[5]给出了基于SPSS的主成分回归的直接实现。

从处理有害共线性的角度看, 逐步回归优于岭回归和主成分回归。GMDH利用了有害共线性的几个病态特征来剔除它们, 使其在处理有害共线性问题上比其它方法有明显的优势。GMDH不需要对有害共线性是否存在进行检测, 而岭回归和主成分回归的前提条件是存在严重共线性, 否则就不宜使用。GMDH选择最优变量子集显得更严格、合理, 逐步回归面临着F检验的显著性水平!的选择困难, 它通常得不到最优变量子集。

2、GMDH和PLS的比较[6]

偏最小二乘回归模型只要选取的因子足够多, 完全可以包容自变量系统的全部信息, 因子的选择比较容易[8];在回归速率上, 偏最小二乘法比一般的多元回归方法更快一些, 对样本的要求更加宽松[20]。面对多重共线性, 偏最小二乘法的优势在于对自变量系统的综合提取利用及对因变量全面合理的解释能力上, 而GMDH的优势在于用精简的自变量完成对数据拟合和预测的高精度要求, 两者正好结合起来, 相辅相成。

3、主成分回归和PLS的比较[8]

主成分回归和PLS的主要区别在于主成分回归成分或因子的提取来自于相关系数阵"1", 它追求的是自身方差的最大化, 第一主成分反映的是自变量系统变异的最大方向, 但它没有考虑因变量的信息。而PLS因子的提取着力于因子和协方差的最大化, 因子不仅携带了较多的自变量系统的信息, 而且最大限度地反映了对因变量的解释能力, 一般在回归效果相同的情况下, 偏最小二乘回归用的因子数比主成分回归要少。

四、总结

1、对于多重共线性问题, 还有一些其他的解决办法, 如差分法[10]、利用先验信息改变参数的约束形式、变换模型的形式、综合使用时间序列数据与截面数据以及增加样本容量[16]等。

2、对于用聚类回归分析和不相关法来解决多重共线性问题, 这方面的文献不多, 并没有在实际经济问题中的应用.3、可以利用神经网络来解决多重共线性问题[7、24], 利用传统的统计方法和数据挖掘算法的结合, 来解决多重共线性问题, 这是一个新的思路和发展方向。

———————————

摘要:本文对多重共线性的处理方法进行了综述, 希望能使读者系统地了解这些方法。

“线性回归直线”的教学思考 篇2

“线性回归直线”的教学思考

重庆市复旦中学 袁 亮

一、问题的提出

在新课标教材《数学3(必修)》第二章统计第三小节变量间的相关关系课本中介绍了用每个样本点与线性回归直线对应点的纵坐标差的平方和最小来刻画“从整体上看,各点与直线的距离最小”,并用最小二乘法推导出线性回归方程的斜率与纵截距。

在刻画“从整体上看,各点与直线的距离最小”中新课标教材《数学3(必修)》给出了另外三种方式。但是在选择上没有给出任何关于哪样的程度是可靠性强及合理的解释,就直接选取了每个样本点与线性回归直线对应点的纵坐标差的平方和最小来刻画。

那么上述三种方式模拟出的直线是怎样的形式,以及怎样的程度才是比较合理的和可靠性强的?

二、讨论与分析

以新课标教材探究中人体脂肪含量和年龄关系为例

如果我们只用除去最后一个数据即点(61,34,6)来用最小二乘法拟合回归直线,则可计算得到回归方程为y=0.5775x-0.4854,如果代入61年龄检验可得到y=34.74,与样本中所采集的数据34.6之间的偏差为0.14。

2.1教材所提供的其他三种方式拟合回归直线。

2.1.1各点到直线距离和最小来拟合回归直线。

我们把“各点到直线距离和最小来拟合回归直线”记作方法一。

把我们所获得的组数据(最后一组数据用来检验回归直线的拟合情况用),记为:

通过利用LINGO软件编程可以实现计算出Q(a,b)最小时的a,b,进而得到此法下拟合的回归直线方程为y=0.6x-2.2,如果代入最后一点的数据61检验可得到y=34.4,与样本中所采集的数据34.6之间的偏差为-0.2。

2.1.2直线两侧点个数基本相同来拟合回归直线。

我们把“直线两侧点个数基本相同来拟合回归直线”记作方法二。

可以想到如果把13这组数据描绘成散点图,然后用一条斜向下的直线去分割数量得到的直线肯定不合适;所以我们还是用和数据走势一致的直线去拟合回归直线,同时也很容易想到这样的直线不定。

通过散点图的观察和计算13组数据所构成点的坐标与原点的斜率可以看出斜率变化不大,因而我们用过原点的直线去拟合回归直线并让直线两侧的点数基本相同,根据斜率大小找到回归直线方程为y=0.5639x,如果代入最后一个点的数据61检验可得到y=34.3979,与样本中所采集的数据34.6之间的偏差为-0.。

2.1.3用多条直线的斜率、纵截距平均数来表示回归直线。

我们把“用多条直线的斜率、纵截距平均数来表示回归直线”记作方法三。

不难想到这多条直线的选取应该根据样本点的走势来看,同时可以想到这种方法去拟合的直线不定。

根据样本描绘的散点图选择了多组与整体走势相近的7组点得到直线的斜率和纵截距,然后用斜率、纵截距的平均值作为回归直线的斜率和纵截距,从而得到的拟合回归直线方程为y=0.639x-2.5534,如果代入最后一个点的数据61检验可得到y=36.43,与样本中所采集的数据34.6之间的偏差为1.827。

2.2比较上述的四种方法拟合的回归直线的特点。

首先说到方法一,这是最容易想到的,同时也是最让人接受的方法,在实际教学过程中很多学生都会问到这个方法为什么教材直接就否定了而采用“最小二乘法”,即利用各个样本点与回归直线偏差的平方和来拟合,且从图形中也可以看到,点到直线的距离与点到直线的偏差“等价”,两者之间差一个系数而已。

其实两个方法之间的确有差异,虽然看起两者只差一个系数,但是这个数却与回归直线的斜率有关,即在确定直线之前是一个变量。再有比较两种方法可以看到利用“最小二乘法”得到的估计值比较接近实际测量值。

其次说到方法二和方法三,在实际教学中学生很容易想到这两个方法使用起来一不方便,二这两个方法所确定的直线不唯一也就不好判定谁具有最佳的拟合程度。而且从刚才利用两个方法拟合到的直线也可以看出与实际测量值的`差距比较大。

2.3最小二乘法的特点。

追溯最小二乘法的历史可以知道早在18法国科学家勒让德独立发现,并成功的让高斯通过统计40天的谷神星的观测数据计算得到了谷神星的轨迹。从这点来说最小二乘法不仅可以很好的拟合两个变量的直线形式,而且还可以拟合两个变量的曲线形式。

不过任何方法都有其缺点,利用最小二乘法拟合直线时对两个变量的数据要求比较高,要使得数据的随机误差满足正态分布,同时也可以验证当样本点中出现了异常点时,用最小二乘法拟合得到的直线则误差较大。

三、结束语

在比较了最小二乘法与其他的方法拟合回归直线的优缺点后,可以让学生更好的体会到最小二乘法的优越性和必要性,使得数学学习更加自然;而且回顾最小二乘法的历史也让学生体会数学的魅力。

再者在新课程的教学背景下,从教材的编排中可以看出,现在教学更需要注重知识的实用性和过程性,不仅要求学生要知道怎样去用,更要明白为什么可以这么用。

【参考文献】

[1]人民教育出版社中学数学室。普通高中新课程实验教课书。数学3必修(A版)[M].北京:人民教育出版社,

[2]冯守平。全最小一乘法[J].安徽。安徽大学学报。

多元线性回归分析实例分析 篇3

关键词:MINITAB软件 多元线性回归 显著性 实例分析

中图分类号:O212 文献标识码:A 文章编号:1672-3791(2014)10(b)-0022-02

回归分析是数据分析中使用很多的一种方法。回归分析是定量的给出变量间的变化规律,它不仅提供变量间的回归方程,而且可以判断所建立回归方程的有效性。在方程有效性的前提下,可以用方程做预测和控制,并了解预测和控制的精度。多元回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。

MINITAB软件是现代质量管理统计的领导者,全球六西格玛实施的共同语言,它以无可比拟的强大功能和简易的可视化操作获得了广大质量学者和统计专家的青睐。MINITAB软件是为质量改善、教育和研究应用领域提供统计软件和服务,是质量管理和六西格玛实施软件工具,更是持续质量改进的良好工具软件。

1 多元线性回归分析的一般模型

多元线性回归分析的一般模型为:设是个自变量(解释变量),是因变量,多元线性回归模型的理论假设是

其中,是个未知参数,称为回归常数,称为回归系数,为随机误差。

2 MINITAB软件建立模型

下面通过一个实例来详细讲解,如何运用MINITAB软件进行多元线性回归。现抽取20个家庭调查资料的部分变量,数据见表1,试对父母身高与儿子身高进行回归分析。

使用MINITAB软件,输入表1中数据,选择指令“统计>回归>回归”,在出现界面输入相应的变量名;打开“图形”窗,选择“四合一”及在“残差与变量”中填入各自变量名称;打开“存储”窗,选择“残差”、“标准化残差”及“拟合值”,点击“确定”后,得到输出结果。

MINITAB输出结果:

回归方程:

儿子身高=-23.7+0.303父亲身高+0.880母亲身高+0.0593锻炼次数

S=1.11974 R-sq=96.33% R-sq(调整)=95.65%

回归方程拟合出来以后,我们要解决以下几个问题:(1)给出方程显著性检验,从总体上判定回归方程有效与否。(2)给出方程总效果好坏的度量。(3)在回归方程效果显著时,对各个回归系数进行显著性检验,将效应不显著的自变量删除,以优化模型,这点在多元回归中尤为重要。(4)残差诊断,检验数据是否符合回归的基本假定,检验整个回归模型与数据拟合的是否很好,可否进一步改进回归方程来优化现有模型。

3 MINITAB输出结果分析

如何判断整个回归方程是否有意义?就要进行回归方程显著性检验,也就是要检验下列问题:H0:模型无意义,H1模型有意义。本例(表3)ANOVA表中P =0<0.05,所以拒绝H0:模型无意义,接受H1模型有意义。说明在显著性水平a=0.05下,线性回归方程总效果是显著的。

如果实际观测值与拟合出来的回归线很接近,就说明回归线与数据拟合的很好,就可以说回归方程的总效果很好。(表2)我们通常用Rsq、Rsq(adj)、S作为回归方程总效果的度量,以此来比较几种回归方程效果的好坏。Rsq是回归平方和占离差平方和的比率,其数值越接近1代表模型拟合的越好。当然Rsq并不是回归模型拟合效果的最好度量指标,因为当多一个自变量加入模型时,不管这个自变量是否显著,回归平方和就会增大,Rsq也会增大,这样就看不出新增加的自变量是否有意义,这点在多元回归中更为明显。因此我们用Rsq(adj)去修正Rsq,以考虑总项数给模型带来的影响。Rsq(adj)≤Rsq两者数值越接近越好,另一个指标是残差标准差,它是从观察值与拟合回归线的平均偏离程度来度量的,也是回归模型中标准差σ的估计值。对于几个不同的回归方程的效果加以比较时,S是个最重要的指标,那个S最小,哪个回归方程就最小。

从本例输出结果看Rsq96.33%,Rsq(adj)=95.65%来看,两者很接近,S=1.11974比较小,模型还可以。

回归方程显著时,做回归系数显著性检验,一般假设H0:β=0,H1:β≠0,若P<0.05,则回归系数不为零,说明系数对应的自变量是显著的。当只有一个自变量时,回归方程显著性检验与回归系数检验是等价的,但是当自变量不止一个时,回归总效果显著不能排除某几个变量是无意义的。我们进行回归方程系数检验的目的,就是要找出是否有“滥竽充数”的自变量,把这些多余的自变量从方程中删除掉,以修正现有模型。

从本例输出结果看到三个自变量P值都小于0.05,故三个都为显著因子。

模型中,X1系数0.303表示:如果父亲比同一代人的平均身高多1cm,那么他的儿子将比儿子那一代人的平均身高多出0.303 cm;X2的系数解释也是如此;X3的系数表示参加体育锻炼的次数和身高之间存在正相关;常数项一般没有与它相对应的实际意义上的解释。

参考文献

[1]张海燕.基于多元线性回归模型的四川农村居民收入增长分析[J].统计观察,2010(13):88-90.

[2]孙雪飞.回归分析在房地产销售中的应用[J].科技咨询导报,2007(26):168-169.

线性回归 篇4

关键词:约束线性回归模型,约束最小二乘估计,条件广义岭估计

考虑带齐次线性等式约束的线性回归模型

Y=+ε,ε~(0,σ2In),=0 (1)

(1)式中Yn×1的观测向量,Xn×p的设计矩阵,Rq×p的矩阵,εn×1的随机误差向量,Inn阶单位矩阵,βB=Δ{β:Rβ=0}为未知回归系数向量,σ2>0为误差方差。秩(X)=p,秩(R)=qβ的约束最小二乘(RLS)估计为

βR*=β^-(XX)-1R(R(XX)-2R)-1Rβ^(2)

(2)式中β^=(XX)-1XY,它在约束=0下是β唯一的BLU估计。文献[1,2]给出了不同的条件岭估计并讨论了其优良性。本文给出了一种新的条件广义岭估计,并讨论了它的优良性。

1 条件广义岭估计

定义1 对于约束线性回归模型式(1),称由下式给出的β^R(k)为β的条件广义岭估计

β^R(Κ)=β^(Κ)-Sk-1R(RSk-1R)-1Rβ^(Κ)(3)

(3)式中β^(Κ)=(XX+Κ)-1X-1YΚ=diag(k1,k2,kp)SΚ=XX+Κ。显然条件广义岭估计是一个很大的估计类,且β^R(0)=βR*

定理1 对于条件广义岭估计,有limmin(ki)β^R(k)=0

证明 设MK=Sk-1-S-1kR′(RS-1kR′)-1Sk-1,则MK可以写成如下形式

ΜΚ=(QSΚQ)+=V((+Κp-m)-1000)V

,其中Q=Ip-R′(RR′)-1R ,∧是QXXQ的个非平凡特征根组成的对角矩阵,V是一个正交矩阵。对于(3)式所给出的β^R(Κ)可以写成β^R(Κ)=ΜΚXY,而对于MK当min(ki)→∞时MK=0,此时有β^R(Κ)=0limmin(ki)β^R(Κ)=0

2 条件广义岭估计的优良性

将约束线性回归模型式(1)化为其典则形:

Y=+ε,ε~(0,σ2I),=0 (4)

(4)式中Z=XQ,α=Qβ,L=RQ,QXX的标准正交化特征向量组成的正交阵,ZZ=QXXQ=∧=diag(λ1,λ2,…,λp)称α为条件典则参数, α的岭估计为α^=(ΖΖ)-1ΖY=-1ΖY,α的条件BLU估计为

α*L=

(ZZ)-1-(ZZ)-1L′(L(ZZ)-1L′)-1L(ZZ)-1]ZY (5)

由定义1可知, α的条件广义岭估计为

α^L(Κ)=α^-Sk-1L(LSk-1L)-1Lα^,

m(K)= MSE(α,αL(K)),则有

ΜSE(ααL(Κ))=σ2λi(λi+ki)2+ki2αi2(λi+ki)2(6)

定理2 当0kiσ2αi时,

ΜSE(α^L(Κ)<ΜSE(αL*)

证明 对m(k)求导得,σ2i=1p-m-2λi(λi+ki)3+i=1p-m2kiλiαi2(λi+ki)3=i=1p-m2λi(λi+ki)3(kiαi2-σ2),

所以当0kiσ2αidm(k)k<0,而m(k)在ki≥0是连续的,这就说明m(k)在0kiσ2αi内随ki的增大而减小。故当0kiσ2αi时, m(ki)<m(0),而m(0)=MSE(α*L),即可得ΜSE(α^L(Κ)<ΜSE(αL*)

定理3 当β/[2Kp-m-1Q+(QX/XQ)+]+βσ2时,有ΜSEΜ(β,β^R(Κ))ΜSEΜ(β,βR*)

证明 设D=ΜSEΜ(β,β^R(Κ))-ΜSEΜ(β,βR*),因为ΜSEΜ(β,β^R(Κ)=σ2ΜΚXXΜΚ+ΚΚΜΚββΜΚΜSEΜ(β,βR*)=σ2Μ0XXΜ0

D=σ2N-MKKββKMK,其中N=M0XXM0-MKXXMK,而(QXXQ)+=(QXXQ)+Q=Q(QXXQ)+,M0=(QXXQ)+,所以有M0XXM0=M0,MKXXMK=MK(SK-K)MK=MK-KMΚ2,于是N= M0 -MK + KMΚ2,又

Ν=V(Γ000)V

,其中Γ=∧-1-(∧+Kp-m)-1+K(∧+Kp-m)-2。Γ的元素ri=(2λiki+ki2)/λi(λi+ki)2,当λi>0时,对ki>0有ri>0,故N为非负定矩阵,且秩为p-m,令

δ=ΚΜΚβ=V(Κp-m(+Κp-m)-1000)V/β

,

D=σ2N-δδ′,因为N是非负定对称矩阵,且δu(N),可知,D是非负定矩阵的充要条件为δN+δσ2。

δΝ+δ=βV(Κp-m2(+Κp-m)-1Γ-1(+Κp-m)-1000)Vβ

将代入得

Kp-m2(∧+Kp-m)-1Γ-1(∧+Kp-m)-1=(2K2p-m+∧-1)-1,所以

δΝ+δ=β[V(2Κp-m2+-1000)V]+β=β[2Κp-m-1Q+(QXXQ)+]+β

,

β′[2Kp-m-1Q+(QXXQ)+]+βσ2成立。

参考文献

[1] Jurgen G B.Restricted ridge estimation.Statistics&Probability Let-ters,2003;65:57—64

[2] Sarkar N.Anewestimator combining the regression and the restrictedleast squares methods of estimation.Comm Statist Theory Methods 21(1992):1987—2000

[3]史建红.约束线性回归模型回归系数的条件岭估计.山西师范大学学报(自然科学版),2001;15:10—16

广义线性回归参数的学生化极限定理 篇5

广义线性回归参数的学生化极限定理

在一定条件下证明了当广义线性回归参数β0的.极大似然估计^βn满足形如Fn1/2(β0)(^βn-β0)d→ N(0,I)的极限定理时,用^βn取代Fn1/2(β0)中的β0时,结果仍成立.

作 者:岳丽 陈希孺 YUE Li CHEN Xiru  作者单位:岳丽,YUE Li(武汉大学数学与统计学院,武汉,430072)

陈希孺,CHEN Xiru(中国科学院研究生院,北京,100049)

刊 名:系统科学与数学  ISTIC PKU英文刊名:JOURNAL OF SYSTEMS SCIENCE AND MATHEMATICAL SCIENCES 年,卷(期): 28(3) 分类号:O1 关键词:广义线性回归   渐近正态性   学生化  

线性回归 篇6

关键词:BP神经网络 一元线性回归 社会固定资产投资额

一、引言

固定资产投资是社会扩大再生产的主要手段,是实现国民经济持续、快速、健康发展的原动力,是拉动我国经济飞速增长的主要因素。固定投资对我国的社会主义现代化建设具有重要意义。根据经济增长理论,固定投资的增长会带动经济的增长,还会创造更多的就业岗位。

固定资产投资可分为国内预算、国家贷款投资、外商投资和自筹及其他资金来源四个部分。对这四部分进行预测,获得较为准确的固定资产投资数据,对于政策制定者、商业投资者和求职就业者,都有十分重要的现实意义.

(一)BP神经网络模型

构建BP神经网络,需要三个步骤:生成神经网络、权值初始化以及网络仿真。

(二)BP神经网络预测

四、比较与结论

一元线性回归预测优点是计算相对简单。缺点:需要较多的观测值,缺乏权值分配过程,对于非线性关系样本缺乏解释能力。BP神经网络预测具有任意逼近非线性函数的特性,优点不需要知道输入输出变量间的关系,只需采用Matlab神经网络工具箱,通过对输入输出数据的训练,获得输入输出之间的映射关系即可得到预测值。

(作者单位:上海理工大学管理学院)

参考文献:

[1]吴海军. ARIMA模型在北京市全社会固定资产投资预测中的应用[J].经济研究导刊,2007(2):131-133.

[2]孟露露. 固定资产投资与经济增长关系的回归分析[J]. 中小企业管理与科技,2009(2):89-90.

[3]徐志勇、秦伟良、李奇松. 江苏省全社会固定资产投资预测[J]. 安徽农业科学,2007(35):1551-1553.

[4]李晓超等编辑. 中国统计年鉴-2008. 北京: 中国统计出版,2008

[5]董长虹. Matlab神经网络与应用(第2版本)[M]. 北京:国防工业出版社,2007:64-67.

[6]刘莉、贺聪. 基于时间序列的BP神经网络的滑坡预测预报及其在Matlab中的实现[J]. 中国水运,2006(12):72-74.

[7]朱顺泉. 基于Matlab的BP神经网络在现金流量分析中的应用[J]. 中国管理信息化,2008(3):39-40.

土工试验中线性回归应用分析 篇7

关键词:土工试验,线性回归,准确性

1 土工试验数据

传统的土工试验数据是通过记录、计算、绘制曲线再间接计算出来的。记录工作量大, 误差大, 存在错记、漏记现象;传统计算与绘图速度慢、效率低, 难以满足现代工程勘察要求。

近年来, 线性回归处理法被一些实验室相继应用, 很好地解决大量试验数据处理的问题。

本实验室依据直接剪切试验中的剪应力τ与压力p呈现线性关系, 液塑限联合试验中圆锥下沉的深度h和含水率ω的双对数呈现线性关系, 选择了某土工试验科技公司的采集系统对土样的直接剪切试验的粘聚力c、摩擦角准, 液塑限联合试验液限ωL、塑限ωP进行采集、计算和求解。

由于土样的差异性, 试验数据各点往往不在一条直线上;试验数据表明, 只有相关系数r≥0.95时才能得到较为可靠的计算结果, 否则应仔细检查相关原因, 而后重新确定补做的试验。

2 土工试验中的线性方程

在土工试验中, 用线性方程的方法计算较为准确, 也较为简单, 根据其数值变化就可以总结出线性方程的回归方程式。例如y=a+bx, a为常数项, b为回归系数。线性方程中的a、b、x、y等相关系数的估计值计算表达式为:

根据上述公式, 通过具体试验中若干组x、y值的测定, 就能计算出a、b和x、y的值。

3 直剪试验中线性回归法分析

直剪试验是用来确定土的c、准值, 在现行国家、行业等标准中是通过对同一土样取4个以上试样分别在不同的垂直压力下的抗剪强度值的测定, 做出相应的关系曲线图, 而所画出的p-τ曲线图上的点往往不能连成一条直线, 而根据莫尔一库伦强度理论用一条直线近视地代替, 从而确定土的粘聚力c、摩擦角准值。

这种作图法容易造成的人为误差和经验误差, 并且工作量大、操作较慢。

线性回归能够有效解决作图引发的问题, 在实际计算中依据两个变量成正比例关系τ=c+ptan准, 对任一试样多点的直剪试验压力值p以及剪应力值τ输入τ=c+ptan准线性回归方程式, 由此可通过计算得出正确的粘聚力c和摩擦角准的值。曲线值中的任意四个点之间的相关系数r≥0.95, 则该组样的相关性能较好, 否则将重新补点测试。

表1、表2是某边坡、某工民建土样的直剪试验数据处理结果。

表1、表2通过作图法和线性回归法两种数据处理结果进行比较与分析, 表1c值最大绝对误差为0.20k Pa, 平均绝对误差为0.08k Pa, 准值最大绝对误差为0.2°, 平均绝对误差为0.1°;表2c值最大绝对误差为0.20k Pa, 平均绝对误差为0.11k Pa, 准值最大绝对误差为0.1°, 平均绝对误差为0.1°。可见误差很微小, 在允许误差范围内, 同时回归计算利用了线性关系, 有理论依据, 其结果更具有合理性。由此可知, 线性回归法可用于直剪试验的数据整理中。

4 液塑线联合试验中线性回归分析

现行国家、行业等标准的液塑限联合试验是利用圆锥的下沉深度以及含水率之间的双对数的线性关系, 使用作图法得出了试样的液限值ωL和塑限值ωP。

试验中按照相应的规定所测定的点数不应少于三点, 并且规定每个点数所对应的圆锥入土深度范围约为3~4mm、7~9mm、15~17mm。由于试验误差, 双对数坐标图上的三点往往不在一条直线上, 根据规程应用作图法求算液、塑限值。

具体做法是:通过高含水率的点和其余两点连成两条直线, 在下沉为2mm处查得相应的两个含水率, 当两个含水率的差值小于2%时, 以两点含水率的平均值与高含水率的点连成一直线, 在双对数坐标图上读10mm、17mm的液限, 2mm的塑限。当两个含水率的差值大于、等于2%时, 应重做试验。作图法主要的问题在于操作相对缓慢, 计算效率不高, 并且容易引发较大的误差。

线性回归法则能有效减少液塑限试验的数据处理误差, 能从繁琐的作图、计算工作中解放出来。在使用线性回归方法计算液限和塑限值的过程中, 利用圆锥入土深度h (mm) 以及含水率ω (%) 的双对数呈正比例关系logω=a+blogh, 通过线性回归计算方式得出了正确的液限和塑限的值。

判定相应的液限和塑限的值是否合格, 是否应重做试验, 则应通过相关系数r值是否大于等于0.95进行判定。

表3、表4是某公路、某工民建勘察土样液塑限试验数据通过作图法和线性回归算法处理所得结果。

表3、表4通过作图法和线性回归法两种数据处理结果进行比较与分析, 表3ωL (100g锥) 最大绝对误差为0.2, 平均绝对误差为0.1, ωP最大绝对误差为0.1, 平均绝对误差为0.1;表4ωL (76g锥) 最大绝对误差为0.2, 平均绝对误差为0.1, ωP最大绝对误差为0.1, 平均绝对误差为0.1。土工试验规程规定:当液塑限小于40时误差为1, 等于、大于40时误差为2;而表3、表4误差均小于1, 在允许误差范围内, 说明线性回归能很好地应用于液塑限试验中。

5 结论

“直剪试验和液塑限测定原理依据库仑定律”是研究土工试验中线性回归最常用的实例, 本文也不例外, 以此为基础建立的数理关系较为明晰;并且通过采集系统进行计算与画图, 避免了传统计算与作图的繁琐和复杂, 计算结果精确而快速。这是通过反复计算和检验得出的结论, 也是本文不厌花大量试验数据论证得出的结果。同时, 体现了线性回归算法相对于原来传统的计算方法的优越性。

比较上述的作图法与线性回归计算结果相差很小, 微小的差异也在允许误差范围内。后者最明显的优势在于数据处理中大大缩短了计算时间, 同时结果的精确性没有下降, 这就是线性回归在土工试验中的应用价值和现实意义。

参考文献

[1]范孟华.应用最小二乘法和excel图表法处理土工试验数据[J].路基工程, 2006 (06) .

[2]苏巧荣.土工试验数据分析方法探讨[J].河南大学学报 (自然科学版) , 2006 (01) .

[3]袁聚云.土工试验与原理[M].同济大学出版社, 2003.

[4]张克恭, 刘松玉等.土力学[M].中国建筑工业出版社, 2001.

[5]交通部公路科学研究所.公路土工试验规程 (JTGE40-2007) [R].人民交通出版社, 2007.

[6]南京水利科学研究院.土工试验规程 (SL237-1999) [R].中国水利水电出版社, 1999.

基于差分隐私的线性回归分析 篇8

信息化社会的发展进步使得部分机构可以获得大量个人和组织的数据信息进行数据挖掘与分析研究,从而带来商业价值和科研价值。例如各大商场的顾客购物数据和证券公司个人交易数据的分析与统计等。但是,这些数据涉及的大量个人隐私信息的数据发布和分析都面临着隐私泄露问题。因此,隐私保护问题已成为重要的研究课题。隐私保护技术可以解决个人和组织的数据发布和数据分析带来的隐私安全问题。如何发布数据而又不泄露隐私信息是隐私保护技术的主要目的。

当前,差分隐私成为一种新的隐私保护技术,差分隐私保护是通过添加特定的噪声使得数据失真来达到隐私保护的目的。与传统的隐私保护技术相似,差分隐私保护技术的实施主要考虑两个因素:(1)怎样保证算法的设计符合差分隐私的定义,从而确保隐私数据不被泄露;(2)怎样减少噪声带来的误差,从而提高数据的可靠性。

文献[13]借鉴基于差分隐私下拉普拉斯机制与逻辑回归方法提出一种ω*的计算方法LP Log,此方法先求出ω*。然后再往数据中添加拉普拉斯噪音,然而由于回归分析的输入与输出有紧密的关联性,使得敏感度非常高,最后导致预测精度比较低。文献[14]提出了一种对目标函数直接扰动的方法,该方法是对元组目标函数的均值添加噪音。

上述2种回归分析方法均存在各自的不足。第一种回归分析方法,它的回归分类精确度比较低,噪音误差比较高;第二种方法缺陷在于,基于扰动机制的回归分析方法目前只适用于特定的目标函数,存在一定的局限性。针对这些缺陷,本文提出基于拉普拉斯机制的线性回归分析。

2 差分隐私保护

2.1 差分隐私

差分隐私保护通过向数据中添加噪声使敏感数据失真,而部分数据或数据属性保持不变。差分隐私保护技术可以达到这样一个效果,即在用户数据中增加或减少一个记录数据,不会影响数据的输出结果,不影响数据的有效性与可靠性。即使在最坏的情况下,如果攻击者知道数据中除一条记录数据之外的所有数据信息,仍可以做到保证这一条数据信息不被泄露的效果。

定理1[1]对于所有差别至多为一个记录数据的两个数据集D1和D2,Range(K)表示一个随机函数K的取值范围,Pr[Es]表示事件Es的披露风险,若随机函数K提供ε-差分隐私保护,则对于所有S⊆Range(K),有Pr[K(D1)∈S]≤exp(ε)×Pr[K(D2)∈S]参数ε>0是公开非隐私的,并由数据拥有者制定,所以ε的值越小,隐私保护的级别就越高。

2.2 差分隐私实现的主要技术

实现差分隐私保护的主要手段就是向数据中添加噪音,常用的噪音添加机制主要有两类,一类为拉普拉斯机制(Laplace机制)[11],另一类是指数机制[12]。

2.2.1 拉普拉斯分布

Laplace机制适用于输出结果是数值型的算法,主要用来处理输出结果为数值型的分析任务。该机制通过引入一个数据集作为输入,数值集作为输出,释放函数F的结果,给出一个函数F,Laplace机制通过向函数F的每个输出值添加i.i.d(独立同分布)噪音(记为η)把函数F转换成一个差分隐私算法G。则拉普拉斯机制的概率密度函数为

通过拉普拉斯分布计算噪音:

定义1Laplace机制.给定数据集D,设有函数f:D→Rd,其敏感度为Δf,那么随机算法M(D)=f(D)+Y提供ε-差分隐私保护,其中Y∼Lap(Δf/ε)为随机噪声,服从尺度参数为Δf/ε的Laplace分布。

如图2可以看出,不同参数的Laplace机制分布中,ε越小,引入的噪声越大.

2.2.2 指数机制

定义2[12]指数机制,该机制主要适用于算法中输出结果是非数值型的算法。设随机算法M,数据集D为输入数据,输出为一实数r∈Range,q(D,r)为可用性函数,Δq为函数q(D,r)的敏感度。若算法M以正比于的概率从Range中选择并输出r,那么算法M提供ε-差分隐私保护。

下面是一个指数机制的应用例子。例如进行一次三好学生的选举,名额只有一个,现在候选人有四个,分别记为A,B,C,D,辅导员需要根据候选人的得票数进行选择,并且要保证整个投票过程满足ε-差分隐私保护的要求。以最终候选者得票数作为可用性函数,很显然Δq=1。那么根据指数机制的定义,在给定的差分隐私保护预算ε下,就可以计算出4位选者得票数的概率。如图3所示。

3 回归分析

回归分析是数据挖掘学习中常用的数据分析方法,该类分析的目的是采用统计学习方法对已知敏感数据进行分类,常用的回归分析方法包括线性回归与逻辑回归。线性回归,其目的是找出相关两个属性的线性模型,从而对未知的数据进行预测和分析。逻辑回归主要是对事件发生与不发生的概率进行分类。如图4(a)中的线性回归图例中,线性回归分析的目的是要找出“医疗费用”与“年龄”的线性关系,也就是找出医疗费用与年龄的线性模型,最终使得病人分布点到该直线的平方误差和最小。本篇论文着重介绍基于差分隐私保护下拉普拉斯机制(Laplace)的线性回归分析与研究。

3.1 差分隐私技术应用于线性回归

回归分析中通常有两类函数:一类是预测函数;第二类是目标函数。不论是逻辑回归还是线性回归分析,最后求解时通常归结为寻找目标函数的最优解问题。以下是线性回归问题的形式化表述。

给定训练数据集合D={t1,t2,…,tn},有n个元组,每个元组包含d+1个属性X1,…,Xd,Y,其中Xi∈Rn,Y∈{0,1},或者[-1,1]。元组ti=(xi,yi),其中xi表示(x1,x2,…,xd)向量.假设ρ(xi)表示预测函数。式(3)表示D上的线性回归预测函数。

从式(3)可以看出,只要获得权重向量ω*,即可以对元组ti进行分类。而向量ω*通常用下列公式表示,公式中,f(ti,ω)代表目标函数。

线性回归的目标函数为

线性模型的精确度,用预测值的平均平方差来衡量,如公式:,n为数据集元组个数,yi为第i个元组的年收入,x是包含其它元组属性值的向量,ω是模型参数,线性模型为y=ω*x+b。

3.2 算法设计

数据集D,目标函数f D(ω),隐私预算ε.d为向量xi值的个数,λφti是f(ti,ω)中φ的多项式系数,φ是ω值的乘积,Φj为所有可能的φ值。∑∑

1:设置

2:for each 0≤j≤J do

3:for eachφ∈Φj do

4:设置

5:end for

6:end for

8:计算

9:返回

假设我们有一个二维数据库,数据库有三个元组:(x1,y1)=(1,0.4),(x2,y2)=(0.9,0.3),(x3,y3)=(-0.5,-1)。线性回归的目标函数为f D(ω)=2.06ω2-2.34ω+1.25,最优解。算法给每一个多项式系数添加Lap(2(d+1)2/ε)噪音,最后在运行噪音目标函数中优化ω。我们把算法应用在数据库D上,算法的第一行将设置Δ=2(d+1)2=8,然后产生噪音目标函数。注意当多项式系数保持大致不变时,的全局最优解非常接近原始ω*的值。

4 实验分析

4.1 实验环境

本算法使用Matlab语言来实现,编程环境为Matlab(7.10版本),实验环境为Windows XP 2.66GHz,2.00GB。实验的数据集包含188846个数据记录,为巴西人口普查记录。

4.2 实验步骤

数据集含有13个属性,即年龄、性别、婚姻状况、教育程度、是否残疾、出生地、每周工作时间、居住当前地年数、住宅所有权、家庭成员,子女个数、汽车数量和每年收入。在这些属性中,只有婚姻状况超过两个值,单身/已婚,离婚/丧偶。我们把婚姻状况转变成2个属性,即单身/已婚,转变后,我们的数据集变为14维。我们在数据集上进行回归分析,用剩余属性来预测每年收入。

本篇论文将实验数据分为训练数据和测试数据两个部分:训练数据占原始数据的80%,用来构建线性模型,测试数据占原始数据的20%,用来对模型进行最优化的评估并且对未知数据的变化趋向进行预测。实验的第一步先将将原始数据集进行标准化。

4.3 结果分析

设置参数ε=0.1,0.2,0.4,0.8,1.6,3.2。运行算法程序得出相应的误差率,实验结果如图所示。

在拉普拉斯机制中,概率密度函数随机产生噪音,继而添加噪音后所得实验的误差率也是随机性的,所以每一次实验误差率都是不一样的。下图为不同隐私预算与平均平方差的关系。

由图可得隐私预算越大,它的平均平方差就越小,也就是说隐私预算越大,误差率也就越小,从而线性模型拟合的效果就越好。

5 结论

本文介绍差分隐私的相关概念以及隐私保护的重要性。重点研究了差分隐私保护下拉普拉斯机制的线性回归分析。首先,设计相关算法;其次,给每一个多项式系数添加Lap(2(d+1)2/ε)噪音,最后在运行噪音目标函数中优化ω。最后,发布噪音数据。实验运行结果显示,随着隐私预算增加,误差率越小,数据可用性较好,实现了数据的隐私保护。线性回归分析比较简单,因为目标函数就是ω多项式本身。差分隐私将是未来一个长期研究的课题,将其应用到回归分析中,尚有很多需要改进的地方,这是笔者下一步研究的方向。

摘要:随着数据分析和发布等应用需求的出现和发展,如何保护隐私数据和防止敏感信息泄露成为当前面临的重大挑战。文中对差分隐私保护技术的基本原理和特征进行了阐述,重点介绍差分隐私下拉普拉斯机制的线性回归分析技术,它既保护了用户的隐私信息,又不影响数据的可用性,达到了研究目的。在对已有技术深入对比分析的基础上,指出了差分隐私保护技术的未来发展方向。

应用多元线性回归分析城乡收入差距 篇9

在面对我国城乡收入差距不断扩大所来一系列问题上,本论文着重通过计量模型分析下列问题:

城乡收入差距在中国的发展现状如何?中国是否存在“库兹涅茨曲线”所描述的倒U型关系?

利用相关系数分析城乡收入差距与其影响因素的显著性如何?

利用线性回归分析选择城乡收入差距扩大的最优影响因素。

这些影响城乡收入差距的因素能否通过政策手段加以改变?

2 城乡收入现状分析

根据经济学中衡量城乡收入差距的基本参数是城乡居民收入比率和城乡居民人均消费比率。利用这两个指标可对我国城乡居民收入的差距给出基本评判。

3 城乡收入差距扩大解释变量实证研究

当前理论界关于我国城乡收入差距变动为何先改善而后继续恶化,以至于“倒U”假说的经典理论不成立,具有不同的解释。因此本论从比较综合,比较全面的角度选取理论界所提出的影响因素,概括而言,可以认为影响城乡收入差距的因素主要有经济发展、制度和政策、城市化程度、人力资本、经济体制改革、城乡居民消费水平。[2]

3.1 变量选择说明

根据上述所确定的城乡收入差距的影响因素分析,将利用统计分析研究确定城乡收入差距的与其相关因素构建数量关系。由于在指标选取过程,有些指标无法取得数据,所以本为主要选取对于每个影响因素具有代表性影响的指标。

3.1.1 被解释变量[2]、[3]

城乡人均收入差距(y):以城镇居民人均收入可支配收入与农村居民人均收入比来描述城乡收入状况。其值越大,表示城乡收入差距越大。

3.1.2 解释变量[2]、[3]

a.经济发展以人均国内生产总值GDP(x1)作为其重要指标;目前中国的经济发展水平还比较低,按照边际产出理论、库兹涅茨理论假设我们知道中国城乡收入差距处于不断的扩大,因此我们可以初步的认为,人均国民生产总值与城乡收入成正相关。

b.制度和政策的因素主要选取两个指标,即国家财政支农支出占财政总支出比例(x2)和每年农民所交各农业税额(x3);一般情况下政府可以通过税收和支付手段解决城乡收入分配不均问题。因此我们可以认为政府支农支出与城乡收入差距呈负相关,而税收与城乡收入差距呈正相关。

c.城市化程度因素主要选取指标为:非农人口在占总人口的比例(x4);我们认城市化程度越高,则城乡收入差距则越小,因为城镇化程度高说明非农业人口减少,即农村劳动力流入城市比较多,则农村居民收入提高;可知城市化程度与城乡收入成负相关。因此计算时要取其倒数。

d.人力资本影响主要选取指标为:劳动力平均教育水平为初中以上文化占农村劳动力的比重(x5);由于国民的素质的提高可以消除收入差距,因此可以认为教育水平与城乡收入差距呈负相关,即教育水平越高,城乡收入差距越小。因此计算时取其倒数。

e.经济体制改革影响选取指标为:国有企业员工占总员工比例(x6);在经济体制改革中,由于国有企业的改革,造成了下岗,影响到职工收入,因此可认为国有企业员工占有率与城乡收入差距呈负相关,即国有企业员工多,则城乡差距越小。

f.城乡居民消费水平选取指标为:城镇居民人均消费支出与农村人均消费支出比(x7);由于消费水平受到收入的影响,说明消费支出多即收入就多,因此可认为城乡消费比与城乡收入差距呈正相关,即消费比越大,城乡收入差距就大。

3.2 解释变量的显著性检验

将应用spss软件,来检验解释变量与被解释变量的相关性。检验数据来源《中国统计年鉴》以及http://www.stats.gov.com/中华统计年鉴网,样本时间为1995-2004年连续10年时间序列。应用spss软件做相关系数分析,我们可以得出结论是城乡收入差距与以上的因子选择具有显著的相关性,因为各个因子的Sag的值都小于0.05。这说明解释变量和被解释变量之间的线性相关性是显著的。

4 利用多元线性回归模型选择最优影响因子

设随机变量y与一般变量的线性回归模型为:[3]

其中,是p+1个未知参数,称为回归系数。y称为被解释变量,而是p个可以精确测量并可控制的一般变量,称为解释变量。当p=1时,即为一元线性回归模型,时,我们称式(3.1)为多元线性回归模型,是随机误差,与一元线性回归一样,对随机误差项我们假定为

称为理论回归方程。

下列对于我们城乡收入差距的实例进行研究,对于一个实际问题,我们获得N组观测数据(,则线性回归模型(4.2)可表示为

在建立线性回归模型后,我们要对回归方程进行总体检验,即检验在总体水平上,因变量和自变量之间有没有线性关系,这是对总体的其他情况进行线性统计推断时重要的前提。确定系数R2可以用来评价线性回归方程的拟合优度。也就是说,这个量以及它的算术平方根R本身就是推断总体是否有线性关系的统计量。

利用spss软件检验回归方程的拟合优度:结果如下图1。

相关系数R2能够说明:这些自变量能够解释因变量总变化的百分比。从图可以看出R2=0.984。也就是说,回归方程中的7个解释变量可以对程序收入差距进行98.4%的解释。这说明这个回归方程的拟合度是很不错。

但在回归方程拟合度不错的情况下,还要进行多重共线性检验。方差膨胀因子法:记为预测变量关于所有其他预测变量作回归得到的复相关系数之平方。那么xj的方差膨胀因子为:

从上面公式中可以看出,若与其他预测变量有较强的线性关系,那么将接近于1,从而就会很大,方差膨胀因子的值大于10,常被视为数据有共线性问题的一种信号。将利用方差膨胀因子法进行检验,利用spss软件对各个影响因子的进行多重共线性检验。即检验结果如图2。

从上述的图表中各知道每个变量因子的方差膨胀因子都远远大于10,所以可以说明,各个变量因子存在着严重的共线性问题。因此我们要消除共线性现象,而消除共线性的方法主要采用向后回归法、向前回归法、逐步回归法、岭回归方法和因子剔出法,将采用逐步回归法选择最优影响因子。利用spss选择最优影响因子,即结果如图3(总体回归的显著性检验)和图4(影响因子的显著性检验)

根据以上分析结果,得到城乡消费的回归的最优因子,从图表中可以看出F的检验水平,,且sig.=0.000。这说明在总体水平上检验是显著,而城乡消费比这个因子是线性回归的最优因子。

即可建立回归方程为:y=0.157+0.902x1

从实际来看,城乡消费水平是由城乡收入的水平决定,它是最直接的影响因子,可以说缩小城乡收入差距最直接的办法就是增加农民收入。因此我们应该采取直接或间接的措施增加农民收入,从而缩小城乡收入差距。

结束语

本论文讨论了我国城乡收入差距问题在偏离了库兹涅茨理论情况下,提出了影响城收入差的多个因子,可以说明城乡收入差距不断扩大不能归结于某一个原因,在我国是一个比较复杂的问题,由于中国特殊的国情,与西方国家不同,因此不能把西方国家的评价标准放到我国来进行评价。但本论文应用多元线性回归结果可以明确一个重要问题,不管是什么原因影响了城乡收入差距不断扩大,对于目前最重要的是要增加农民的收入,政府应该尝试各种办法提高农民收入,这是目前减小城乡收入的最亟需解决的问题。[6]

参考文献

[1]周皓.统计基础和SPSS11.0[M].北京:清华大学出版社,20041,1.

[2]郭兴方.基于多因素的我国城乡收入差距实证分析[J].中国人口资源与环境,2005,15:14.

[3]高展军,于文祥,杜寒芳.城乡收入差距解释变量的实证研究[J].交通运输与经济,2005,7,3。

[4]林文浩.概率与数里统计[M].福建:厦门大学出版社,200,28.

[5]喻晓东.城乡收入差距继续扩大的原因和解决途径[J].农村经济,2006,6

我国电力需求的线性回归分析与预测 篇10

关键词:电力需求,产业结构变化,效率改进

0 引言

自从1949年建国以来, 随着经济的增长我国一直电力短缺, 直到1997、1998年前后电力短缺的局面才得到缓解。但1998年后又出现了供大于求的现象, 致使许多电厂不景气, 机组被迫停产, 到2003年下半年又再次出现了电力短缺, 一直持续至2006年才有所缓解。可见, 我国电力供给在短缺和过剩之间频繁的波动与对电力需求预期的准确与否有很大关系[1]。

那么, 2007年及以后的几年中我国的电力需求情况将会是怎样变化呢?按照我国目前电力供给发展的状况能不能适应这一变化趋势呢?本文将对我国电力需求进行定量分析从而预测其变化趋势, 希望能够对规避电力供求波动所带来的危害具有参考价值。

1 变量分析与选取

(1) 国内生产总值。经济增长及其对生活标准的影响是促进电力消费增长的主要动力。林伯强检验了电力需求与GDP之间存在长期均衡关系[2]。

(2) 产业结构变化。产业结构中第三产业异军突起, 二十年间上涨了十几个百分点, 而第三产业以低能耗高劳动密集为特点。同时, 国企改革又使更多效益差的大型国有企业 (特别是重工业和电力消费大户) 关闭或改造, 这些对中国电力需求的增长产生了重大的冲击。因此, 第三产业和第二产业的比值与电力需求之间应该存在负相关的关系。

(3) 效率改进。20世纪90年代我国能源密集度有所下降, GDP年均增长9.7%, 能源消费年均增长2.3%, 而能源密集度指数由1990年的61.4下降为2000年的30.3, 这反映了经济结构和产业增加值来源这两者的变化, 以及能源效率的改进[3]。这些变化说明能源节约措施产生了显著的积极效果。因此, 效率改进 (用工业生产产值/工业消费的电力表示) 被认为是决定电力消费的另外一个重要变量。随着新技术与能源节约的措施被引入到各个产业, 这个比率与电力消费之间的关系应该是负相关的。

(4) 人口数量。人口数量是另外一个决定电力需求的重要因素。由于庞大的人口基数, 人口的增长和生活水平的提高仍然对电力消费产生了相当大的影响。人口数量与电力需求之间应该是正相关的关系。

(5) 电价。电价也是影响电力需求的一个重要因素。不过, 中国的电价是根据供给成本行政性地确定的, 供给成本包括全部燃料、运行和维护成本、以及需回收的建设成本及合理的利润。由于各级政府的许多主管部门及许多利益相关者介入了电价的批准过程, 因此中国的电价制定是一个复杂且敏感的部门问题。而且各省之间、甚至同一个省内的电价都有很大的不同, 因而不可能估算出全国的平均电价。若采用由中国国家统计局公布的燃料价格指数来代表电力价格, 由于发电主要用煤, 而燃料价格是煤, 油, 天然气等许多燃料的平均价格, 所以仅以燃料价格指数来代表电价会有很大的偏差[4]。本文不将电价选为变量。

2 模型与数据

基于以上的讨论, 中国的电力需求函数模型可以用下式表示:

公式中PD表示电力需求量, GDP表示国内生产总值, STRE表示第三产业与第二产业产值之比, PDT表示工业产值与工业电力消耗之比, PPA表示人口数量, C (1) 、C (2) 、C (3) 、C (4) 、C (5) 表示常系数。

根据上面的所确定的模型的变量, 收集了1985~2005年相关数据, 数据来源于《中国统计年鉴》。

通过Spss与Eviews软件用最小二乘法对多元线性模型进行回归分析, 得出以下模型:

t= (-2.727) (6.266) (-4.973) (-17.534) (4.046)

p= (0.015) (0.000) (0.000) (0.000) (0.001)

R-squared=0.993 Adjusted R-squared=0.985

F-statistic=269.653 Prob (F-statistic) =0.0000000

在显著性水平a=0.05的情况下, 查F分布表, 得临界值F0.05 (4, 16) =3.01, F>F0.05, 回归方程显著。

在显著性水平а=0.05的情况下, 查t分布表, 得临界值t0.025=2.093, 各参数t值均大于临界值, 各参数均显著。

3 模型检验

3.1 经济意义检验

以上回归模型符合因素分析中的理论分析, 可见其经济意义检验可以通过。

3.2 多重共线性的检验和消除

通过表1可以看出GDP和PPA与其他解释变量之间可能存在多重共线。

再用方差膨胀因子法[5]检验得:

可见VIFGDP>10 VIFPPA>10且VIFSTE<5VIFPDT<5, 即GDP和PPA与其他解释变量之间存在多重共线, 而STRE和PDT与其他解释变量之间不存在多重共线。

但是GDP和人口数量一般情况下与宏观数据都具有较强相关性, 这里也并无特殊关系。并且, 虽然这里解释变量之间存在高度线性关系, 但多重共线性并没有造成不利后果。

3.3 自相关性检验

因为DW=1.636161 dl=1.03 du=1.67, dl

用偏相关系数法[7]检验结果如表2所示。

由表2得, 各期偏相关系数-0.5

3.4 异方差性检验

由表3可知, 计算残差与预测值的Spearman等级相关系数为-0.623, 且检验在а=0.01时拒绝原假设, 因此认为无异方差。

注:自由度均为21;采取双尾检验;**标识的系数显著水平为0.01

4 实证分析

通过模型分析可知, 电力需求与国内生产总值, 第三产业与第二产业产值之比, 工业产值与工业电力消耗之比以及人口数量呈线性相关关系。并且以上变量可以解释电力需求的几乎全部变动 (99.3%) :

(1) 国内生产总值。模型中GDP的系数为0.769411, 也就是说GDP每增加一亿元就会引起电力消费需求增加0.769411亿kWh。而电力需求的GDP弹性为0.63, 即GDP上涨1%会引起电力消费需求上涨0.63%。这些均说明电力需求随着GDP的增长而持续稳定增长, 然而中国正处于一个新的经济周期的上升阶段, GDP将会持续稳步增长, 从而会拉动电力需求的持续增长。

(2) 产业结构变化。模型中以第三产业与第二产业产值之比代表的产业结构变化变量的系数为-178080.6。因为第二产业在整个经济中的比重趋于稳定, 所以此系数表明第三产业每相对增加一个单位就会引起电力需求减少-178080.6亿kWh。而电力需求的产业结构变化变量弹性为-0.67, 即第三产业相对第二产业上涨1%会引起电力需求下降0.67%。这些均说明产业结构调整对降低电力需求有相当大作用。近年来, 国家对第三产业的扶持和加大投入使第三产业对国民生产总值的贡献也越来越大, 这样有利于改变电力需求的紧张局面。

(3) 效率改进。本模型的效率改进的系数为-36669.69, 也就是说每亿千瓦小时电量的产值增加一亿元会引起电力需求减少26669.69亿kWh。这表明能源利用率对电力需求产生的影响很大, 因此, 提高能源的利用率大, 力发展高附价值、低耗能行业能在解决电力需求问题上有至关重要的作用。

(4) 人口数量。中国人口基数大, 导致年人口增长的绝对量大。并且这一态势将会在很长时间内保持, 从而引起对电力持续强劲的需求;同时随着人们生活水平的提高, 各种电器越来越多地进入人们的生活, 对电力的依赖也会越来越强。

5 预测分析

从需求方面来看, 国家采取的抑制宏观经济局部过热的一系列调控政策将会稳定经济的增长速度。而我国人口增长率没有大幅攀升的迹象。这样GDP和人口总量不会给电力需求带来更大的增幅。近年来, 我国中央政府采取的调整产业结构和向集约型经济转型的一系列政策使得第三产业和一些地能耗、高附加值的工业企业在国民经济中的比重不断提高, 同时也改进了企业的经济效率, 这样有利于缓解对电力的需求。由上可见, 在将来的一段时期内经济增长对电力能源的依赖将稍有下降, 电力需求的总体增长状况将稍有缓解。从供给方面看, 为逐步改变电力投资不足、新增电力投产速度与电力需求增长不匹配、电网输配能力不足、电煤供应紧张的不利局面, 我国一方面加大对电力部门的投资, 优化投资结构;另一方面加强对电力需求的侧管理。2006年随着大批电源项目的相继建成投产, 电力供应能力明显增强 (全国发电量达到28 344亿kWh, 同比增长13.5%) , 供需形势明显缓解, 电力缺口显著减少, 缺电范围明显减小, 缺电程度明显减轻, 拉限电条数不足上年的4%。

预计2007年全国发电量增长11%, 全社会用电量增长11%, 电力供求基本实现平衡。2008年至2010年间电力供给将有富余。

电力工业是国民经济的基础产业, 它既是促进国民经济发展的生产资料, 又是人们生活中不可缺少的生活资料。中国“经济要发展, 电力要先行”的发展战略目前仍然有效。适当的“先行”可避免周期性电力短缺带来的经济损失。同时电力部门应建立一个科学、高效的预警机制。

参考文献

[1]赵林峰, 韩国燕, 李勇, 王印红.基于半参数分析的电力需求预测算法[J].中国安全科学学报, 2006, (8) .

[2]林伯强.结构变化效率改进与能源需求预测[J].经济研究, 2003, (3) .

[3]韩智勇, 魏一鸣, 范英.中国能源强度与经济结构变化特征研究[J].数理统计与管理, 2004, (11) .

[4]金霞, 祝海岩.电力需求分析与实证研究[J].经济与管理, 2005, (10) .

[5]马昕, 徐娜.我国电力需求的计量经济分析[J].统计观察, 2006, (5) .

上一篇:教师职业下一篇:中间协议模型