多元分析、主成分分析

2024-05-01

多元分析、主成分分析(精选十篇)

多元分析、主成分分析 篇1

新疆地处欧亚大陆的中心地带, 占中国疆土面积的1 /6, 自古以来就是中国向西开放的重要门户. 考虑到地缘因素, 新疆已被确定为中国战略资源重要储备区和21 世纪经济社会发展的重要支点.

衡量一个地区的发展状况应该从社会生产的各个方面去考虑. 本文运用数理统计中的主成分分析方法对新疆各地州区域经济情况进行分析. 根据数据的适当性和可得性选出了如下主要指标: X1 人均地区生产总值; X2 社会消费品零售总额; X3 出口总额; X4 人均第三产业增加值; X5 人均农林牧渔业总产值; X6 人均工业增加值; X7 财政收入;X8 产值利税率, X9 工业总产值.

二、主成分分析

主成分分析法是多元统计分析技术中应用广泛的一种方法. 其基本原理是通过一定的多元统计分析方法测算出各个指标在样本之间的相对差距, 用相关阵或协差阵的结构来对原始变量数据矩阵进行降维处理. 即在一定的约束条件下, 对原始变量作了一次特殊的正交变换. 而得到一组具有某种良好的方差性质的新变量, 这组新变量彼此互不相关且在各自的特征方向上有最大方差, 从中选取前几个变量来代替原变量, 计算出这几个主分量的权重, 然后进行综合评价结果的加权合成, 并根据综合评价值的大小进行排序.

利用Sas软件对新疆十个地州区域的经济发展水平进行主成分分析, 从上述中的九个变量X1, X2, X3, X4, X5, X6, X7, X8, X9 当中提取主成分.

编写SAS程序如下:

运行结果:由上表特征向量, 可知前两个主成分的表达式为:

主分量一中各个变量的系数基本为正值, 表示各项指标都在增加, 新疆经济水平正在提高, x9 正值最大, 代表了工业总产值水平提高最多. 主分量二中x2, x3, x4 为正值, 其余为副, 表示社会消费品零售总额, 出口总额, 人均第三产业增加与其他指标变化呈反位相, 也就是说当消费, 出口, 第三产业总额增加时, 其他总值有所减小, 但因副值较小, 减少不明显. 乌鲁木齐和克拉玛依的经济发展水平位于全省其他地区以上.

四、新疆十个地州市区域经济发展水平结果分析

比较主成分分析结果, 我们可以得到各地州的粗略排名情况. 下面我们分析一下这些地区排名的合理性极可能情况.

乌鲁木齐市和克拉玛依市的经济发展水平高, 经济综合实力排名居前列. 乌鲁木齐作为新疆的首府, 是新疆的经济中心和交通枢纽. 近年来, 乌鲁木齐加快了经济开发区的建设和发展, 积极吸引外资, 加快城市化建设进程, 促使外向型经济和民营经济快速发展, 从而有力地推动了当地的经济发展.

克拉玛依市土地面积86. 54 万平方公里, 占全疆的0.52% ; 耕地面积1. 55 万平方公里, 占全疆的0. 65% ; 2008 年人均GDP为96006 元, 人均工业增加值为168183. 30 元, 人均第三产业增加值17806. 90 元.

排名最后的塔城地区人口压力大, 而且人口素质很低, 农业生产水平低下, 工业结构单一, 仅煤炭和石油加工等.排名倒是第二的昌吉地区也是地广人稀, 人口压力小, 虽然第三产业有所发展, 但是地处偏远区, 经济发展滞后.

由综合分析我们可以看出, 克拉玛依市和乌鲁木齐市远远地高于其他地州.

主成分分析及算法 篇2

主成分分析及算法

以主成分分析(PCA)特征结构的理论分析为基础,分别从神经网络和向量量化器两个不同的角度给出了最大主成分线的算法实现和比较,并由此讨论了HEBB算法对学习率的依赖和敏感度.

作 者:李玉珍 王宜怀 LI Yu-zhen WANG Yi-huai 作者单位:苏州大学,计算机科学与技术学院,江苏,苏州,215006刊 名:苏州大学学报(自然科学版) ISTIC英文刊名:JOURNAL OF SUZHOU UNIVERSITY NATURAL SCIENCE EDITION年,卷(期):21(1)分类号:O242.2关键词:主成分分析 神经网络 学习率 算法

宜宾油樟营养器官精油主成分分析 篇3

关键词:油樟;1,8-桉叶油素;黄樟油素;气相色谱-质谱联用技术;精油

中图分类号:O657.63文献标志码:A 文章编号:1002-1302(2014)11-0348-03

油樟[Cinnamomumlongepaniculatum(Gamble)N.Chao]系樟科樟属的珍贵树种,由于精油含量高,因此是一种重要的经济树种。该物种于1974年由四川省林业科学院森林植物分类专家赵良能发现并命名,当时认为油樟是特产于四川和陕西西部的新种[1]。但在后期的研究中,李敏敬、陶光复等通过调查发现,在湖北西部、湖南西部、陕西南部也有油樟分布[2-3]。四川省宜宾市位于四川南部,气候温暖湿润、土壤肥沃,非常适合油樟树的生长,境内的宜宾县有“油樟王国”之称,油樟油产量占全国70%以上[1]。现已建成“天然油樟母本园”21.7hm2,选育了优质油樟母树6500多株,油樟种植面积已达2万hm2,年产油量达到3000t。四川宜宾油樟叶精油出油率(3.8%~4.5%)高于其他地区的油樟,如精油的桉叶油素是广东、江西等樟油的1.6倍[1],具有很好的應用前景。开展油樟精油成分分析研究是进一步开发油樟资源的前提,现有文献仅报道了油樟叶精油成分[4],但有关其根、茎精油的成分研究还未见报道。为此,本研究采用气相色谱-质谱联用法分析油樟叶、根、茎的精油主成分,以期对宜宾油樟资源的进一步合理、有效利用提供参考。

1材料与方法

1.1材料

油樟叶、茎、根采自四川省宜宾市翠屏区宗场乡油樟林基地,乙醚(分析纯,成都市科龙化工试剂厂)。

1.2主要仪器设备

磨口玻璃蒸馏器、圆形电子调温电热套、日本岛津GCMS-QP2010气相色谱质谱联用仪。

1.3方法

1.3.1精油制备方法

分别称取10.0g油樟叶、50.0g油樟根、50.0g茎,剪碎后放入3支1000mL的磨口圆底烧瓶中,每个烧瓶中加入750mL蒸馏水后接上磨口连接头,与冷凝管相连。调节电热套,使烧瓶中的水保持微沸,蒸馏120min,获得芳香油-水混合物,然后加入50mL乙醚,转入分液漏斗中,摇匀后静置24h。取有机相,用乙醚定容至100mL,稀释至适当浓度,供分析测试用。

1.3.2气质联用仪(GC-MS)分析条件

气相色谱条件:色谱柱Rtx-5MS(30.0m×0.25mm×0.25μm)弹性石英毛细管柱(美国Restek公司生产);初始温度50℃,保持3min,以5℃/min升温至180℃;载气为纯度大于99.999%的氦气;柱流量1.5mL/min,分流比50∶1;进样口温度200℃;进样量1μL。质谱条件:EI源(电子能量70eV),相对分子质量扫描范围30~550u,倍增管电压1.2kV,溶剂延迟3min,离子源温度200℃,接口温度200℃,溶剂延迟时间为3min,检测阈值为1000,将峰值大于100000的色谱峰进行定性分析。

2结果与分析

2.1油樟叶精油分析

按“1.3”节的方法测得油樟叶总离子流色谱图(图1)。由图1可知,优化的气相色谱条件,可以很好地将油樟叶精油中的各成分分离开来,各峰形对称,峰与峰之间完全分开,基

线稳定无飘移。与文献[4-5]相比,分析时间由原来的40min以上缩短至29min,提高了分析效率。定性可信度高的色谱峰如表1所示。

由表1可知,叶精油中1,8-桉叶油素相对含量最多,为60.81%,稍高于黄远征等报道的58.55%[4]。另2种成分β-水芹烯和α-萜品醇的相对含量分别为13.27%、12.90%。文献[4]报道的含量高于10%的物质是香桧烯(14.18%)、α-萜品醇(15.43%),未检测到β-水芹烯。本次试验中未测到香桧烯,2种物质的结构式如图2所示,二者互为同分异构体,在后期生产实践中,可进一步开展单体的分离纯化与性质研究。

α-蒎烯、2(10)-蒎烯、月桂烯、1,1-二甲基,2-(3-甲基-1,3-丁二烯)-环丙烷、4-萜品醇的含量介于1.10%~3.35%之间,侧柏烯、γ-萜品烯、(1.α,2.β,5.α)-

2-甲基,5-(1-甲基乙基)-二环[3.1.0]2-己醇、(1.α,2.α,5.α)-2-甲基,5-(1-甲基乙基)-二环[3.1.0]2-己醇的含量介于0.34%~0.89%。

油樟叶精油成分是油樟分型的重要依据,李毓敬等依据油樟叶精油的主要化学成分类型,将湖南油樟分为甲基丁香酚型、龙脑型、樟脑型、桉叶油素型、芳樟醇型、倍半萜烯型6个不同的化学类型[2]。陶光复等测得湖北长阳县油樟油的主要成分是布勒醇(44.78%)、β-桉叶醇(15.61%)、香叶醛(10.80%)、橙花醛(7.63%)、愈创醇(5.07%)、β-石竹烯(2.46%)和1,8-桉叶油素(1.72%)[3]。程必强等报道了叶精油的主要化学成分是β-桉叶醇(40.98%)、榄香醇(10.84%)、愈创醇(4.61%)[6]。本试验结果表明,宜宾油樟为桉叶油素型油樟。

nlc202309032136

2.2油樟茎精油成分分析

按“1.3”节方法测得的油樟茎油总离子流色谱图见图3,定性结果见表2。

由表2可知,油樟茎精油以1,8-桉叶油素为主,占鉴定到的3种物质的99.37%,另2种物质为4-萜品醇和α-萜品醇,含量分别为0.24%、0.39%,这与油樟叶精油的成分有很大差异。进一步研究枝条与树叶出油率和产品成分的影响,将有助于综合利用油樟资源。

2.3油樟根精油成分分析

根据“1.3”节的方法对油樟根精油分析,结果如图4、表3所示。

由表3可知,油樟根精油的主要成分是黄樟油素,相对含量高达93.18%,而1,8-桉叶油素和樟脑的相对含量分别为5.31%、1.51%,由此可见根精油成分与叶、茎精油成分有很大差异。

3结论与讨论

本试验结果表明,宜宾油樟叶、茎、根的精油化学成分构成差异较大,其中叶精油的成分比根、茎丰富,主要成分1,8-桉叶油素的相对含量为60.81%,β-水芹烯和α-萜品醇的相对含量分别为13.27%、12.90%。而茎精油主要成分1,8-桉叶油素的相对含量高达99.37%,其他2种成分4-萜品醇和α-萜品醇含量仅分别为0.24%、0.39%。根精油主要成分为黄樟油素,含量为93.18%,而1,8-桉叶油素的相对含量仅为5.31%。油樟叶精油的主要成分分析结果表明,宜宾油樟属于1,8-桉叶油素型。

油樟油是我国重要的外贸商品,精油中的多种单体物质是医药、日化、香精香料的重要原料。1,8-桉叶油素具有抗菌、杀虫、疏风解热、祛湿解毒作用[7],对多种药物具有良好的透皮渗透作用。β-水芹烯是一种具有生物活性的天然杀虫剂,是生物杀虫剂中的一个重要活性成分[8]。黄樟油素可用于合成洋茉莉醛、胡椒基丁醚、左旋多巴、胡椒乙胺、甲基多巴等化工、医药原料[9]。洋茉莉醛不仅可用于香料和调味品工业,而且也可用作电镀工业中的光亮剂;此外,洋茉莉醛还是一些生物碱和特殊化学品合成的重要原料。胡椒乙胺是多巴胺和黄连素合成的重要原料,其中左旋多巴胺是治疗震颤麻痹症的有效药物之一。然而,黄樟油素具有较强的致癌毒性[10],在生产过程中应当采取合理控制工艺,以预防其对工作人员的毒害作用[11]。在植物精油市场上,粗油制品价格低,精加工制品纯度越高价格越高。一直以来,我国油樟油的提炼、精制技术落后,产品单一、品位不高,限制了产品附加值的提升,不利于农户油樟种植积极性的提高,影响了产业的发展。开展油樟加工技术的研究是促进油樟产业快速、健康发展的关键。

参考文献:

[1]罗中杰,李维一,魏琴,等.宜宾油樟的现状及未来[J].四川师范大学学报:自然科学版,2001,24(3):317-319.

[2]李毓敬,李宝灵,曾幻添,等.湖南油樟的化学类型[J].植物资源与环境,1993,2(3):7-11.

[3]陶光复,丁靖垲,孙汉董.湖北油樟叶精油的化学成分[J].武汉植物学研究,2002,20(1):75-77.

[4]黄远征,温鸣章,赵蕙,等.关于油樟叶芳香油化学成分的研究[J].武汉植物学研究,1986,4(1):59-63.

[5]尹礼国,卿海军,曾林久,等.三种方法制备的岩桂叶精油(浸膏)的分析[J].林产化学与工业,2009,29(6):69-72.

[6]程必强,喻学俭,丁靖垲,等.[HJ2mm]中国樟属植物资源及其芳香成分[M].昆明:云南科技出版社,1997:34-35.

[7]王文元,顾丽莉,吴志民.1,8-桉叶油素的研究进展[J].食品与药品,2007,9(02A):56-59.

[8]夏克坚,任宇红,聂丽娟,等.β-水芹烯的合成与应用[J].南昌大学学报:理科版,2001,25(4):380-382.

[9]罗小龙.黄樟油素的生产及应用[J].林产化工通讯,1998(5):24-27.

[10]林大清,池淑君,袁定国,等.樟叶油对雄性小鼠生殖细胞的诱变性[J].癌变·畸變·突变,1994,6(5):27-29.

[11]罗中杰,黄亮.气相色谱法测量空气中的黄樟素[J].化学研究与应用,1999,11(1):99-101.

多元分析、主成分分析 篇4

一、指标体系构建

研究表明, 经济增长不仅是经济总量的增加, 还包含经济结构的转变、优化和产业结构的升级调整。此外, 政策性因素如投资、财政和税收的放松或管制, 外资的涌入导致具有比较优势的产业获利, 缺乏竞争力的产业受到冲击, 均被认为是影响收入差距的重要因素。笔者用广西人均地区生产总值增长率、第一、二、三产业占GDP比例等指标量化表示经济增长水平;用外贸进出口总额占GDP比重作为对外贸易依存度的变量;地方财政用于教育、社会保障和就业支出表示政府支持低收入群体的力度;居民消费价格指数CPI代表物价上涨通货膨胀的影响;城镇登记失业率代表就业程度等等。以上各指标代表的地区经济社会发展水平即收入差距形成的成因, 构成本文建模时重点考虑的变量。

本文利用基尼系数测算结果作因变量, 影响广西城镇居民收入差距的14个因素作自变量:X1:人均GDP增长率;X2:全社会固定资产投资总额占GDP比例;X3:外贸进出口总额占GDP比例;X4:外商直接投资额占GDP比例;X5:地方财政总支出占GDP比例;X6:地方财政用于教育支出占比;X7:地方财政用于社会保障和就业支出占比;X8:医疗保健支出占人均GDP比;X9:居民消费价格指数CPI;X10:商品零售价格指数;X11:城镇登记失业率;X12:第一产业占GDP比;X13:第二产业占GDP比;X14:第三产业占GDP比。

众多指标之间可能存在一定的相关性, 笔者先采用主成分分析法找出上述影响因素的若干主成分, 采用其主成分得分作为自变量拟合回归方程, 进而揭示各个主成分乃至各因素对广西城镇居民收入差距的影响方向及其程度。

二、主成分分析模型的建立

KMO和Bartlett球形检验结果显示:KMO测度值为0.612, Bartlett检验值为524.196, 概率值P=0, 证实模型适合使用主成分分析方法。

表1按照特征值从大到小的次序列出了所有主成分。按照特征值大于1的原则, 第一个主成分的特征值为4.861, 解释了总变异的34.722%;第二个主成分的特征值为3.999, 它解释了总变异的28.567%;依此类推。而其他特征值小于1 (省略列出) , 说明这些主成分的解释力度不如原始变量。根据主成分个数确定原则可确定三个主成分, 其累计方差贡献率达到84.184%, 概括原始变量包含信息的84.184%, 较好代表14个影响因子。

从表2可见, 第一公因子F1在全社会固定资产投资总额占比、地方财政总支出占比、地方财政用于社会保障和就业支出占比及第一、第二产业占比上都有较大的载荷, 故可以认为F1是较全面地反映各项经济因素的综合指标。将其归为“经济环境因素”。

第二公因子F2在居民消费价格指数、商品零售价格指数、人均地区生产总值增长率上都有较大的载荷, 将其归为“指数增长因素”。

第三公因子F3在外贸进出口总额占比、外商直接投资额占比上都有较大的载荷, 将其归为“对外开放因素”。

结合主成分得分系数矩阵, 写出用原始变量表示的主成分的线性表达式:

同理可得F2、F3的表达式。

三、多元回归分析模型的建立

为进一步对前述分析结果进行科学评价, 再建立多元回归分析模型, 对影响城镇居民收入差异的主要因素进行定量分析。取基尼系数为因变量, 考查城镇居民收入差距是否受到解释变量“经济环境因素”、“指数增长因素”、“对外开放因素”的影响。

建立回归模型如下:JN=β0+β1F1+β2F2+β3F3+μ, μ为除这3个变量以外的一些不可估计量的影响, 设定模型的显著性水平为0.05。

对模型进行检验, 通过拟合优度检验来看, 调整后的R平方达到0.838, 表明拟合效果很好, 解释程度较高。显著度检验F值等于37.26, 说明模型估计的整体效果尚好。sig.值小于0.001, 变量值均通过t检验, 回归方程具有统计学意义。

JN=0.368+0.587F1-0.201F2-0.690F3+μ, μ为残差因子

从回归模型可知:衡量广西城镇居民收入差距的指标基尼系数除了受到“经济环境因素”、“指数增长因素”和“对外开放因素”三大因素长期影响外, 同时还受到外在诸多随机因素的影响, 如一些自然因素, 政治因素等突发不确定信息, 因数据获得有限, 未得到充分提取和利用, 导致模型拟合精确度因受到外在短期随机因素的冲击有所降低。

为详细考察每个影响因素对城镇居民收入差距的影响情况, 现将多元回归方程中的主成分用其表达式代入, 整理如下:

四、结语

回归方程表明, 在影响城镇居民收入差距的14个因素中, 除了X2、X5、X7、X8、X13和X14的回归系数为正数, 其他因素的回归系数均为负数。

X5, X7, 地方财政总支出占GDP比例、地方财政用于社会保障和就业支出占比系数为正。通常认为政府主导的财政支出政策对改善民生具有积极作用, 可减少收入差距。实证研究结论却相反, 原因可能是当前社会保障支出结构不够合理, 保障体系不完善, 保障水平偏低, 覆盖面狭窄, 具有收入调节功能的地方财政措施落实不到位。因此, 需要各级地方政府有针对性地采用财政手段进行干预调节, 利用财政收入的转移支付功能等措施来确保低收入群体的基本生活。

X1因子对收入差距的影响系数为负, 经济环境发展得越快, 收入差距越小。尽管收入差距伴随着经济的高速增长而出现, 但经济增长过程中的收入差距拉大属正常现象。一方面, 经济增长本身并不会直接导致收入差距的扩大, 两者之间关系不能简单称为因果;另一方面当经济增长的效率高, 结构效益向好的时候, 就能够改善居民收入分配状况, 使群众有机会分享经济发展成果, 提高居民生活水平。

X12、X13、X14, 三个表示产业结构的指标系数一负两正, 说明优化产业结构, 降低第一产业比重, 加大对第二、三产业的投入, 在当前一定时期内会扩大广西城镇居民收入差距。收入差距与产业结构调整和升级直接相关, 产业的变动过程中导致劳动力的大量转移, 引发下岗、失业现象, 会加大收入差距, 但劳动力转移过程中也会带来就业机会、技术及人才自由流动, 从而缩小收入差距, 这取决于在产业结构优化过程中资源配置的合理性。

X9, 居民消费价格指数指标的系数为负, 说明某种程度的物价上涨会给居民收入差距的加大带来一定的压力。发生物价上涨时, 政府为了维持社会稳定, 采取措施加大对低收入阶层的补助;收入差距与CPI之间的传导机制需要经过一段时间才能发挥作用, 短期内所看到的只是表面关系。因此, 我们不能够以过高的物价上涨幅度来实现缩小居民收入分配差距。

X4, 对外贸易依存度指标的系数为负, 说明随着开放的深入, 广西城镇居民收入差距将逐渐减小。广西充分发挥出海大通道和西部桥头堡的区位优势, 积极实施“走出去”战略。通过调节资金引进的方向, 引导资金流入到制造业、与贸易相关的金融业和服务业, 同时贸易开放战略如能有针对性地向农业等落后产业倾斜, 增加贸易政策决策的民主化, 将更能发挥贸易缩小收入差距的作用。

摘要:经济体制和社会经济结构发生的深刻变化, 在带来积极效应的同时, 也带来了新的问题:收入差距不断加大, 低收入居民增收困难的矛盾突出等。本文运用19912012年广西统计数据进行实证研究, 通过主成分分析和回归分析建立模型, 定量分析宏观环境对广西城镇居民收入差距所带来的影响及影响程度。

关键词:城镇居民,收入差距,主成分,多元回归

参考文献

[1] .陈宗胜, 周云波.再论改革与发展中的收入分配[M].北京:经济科学出版社, 2002

海洋经济与环境发展的主成分分析 篇5

海洋经济与环境发展的主成分分析

摘要:应用主成分分析方法,对大连海洋经济和环境发展两者之间的关系进行探讨,选取具有代表性、数据齐全的10项指标,对近4年来大连海洋经济和环境发展的情况进行定量分析,筛选出具有良好代表性的2个主成分,并以这2个主成分的贡献率进行加权平均,构造出综合评价函数.以此对大连市在这两者关系的`协调方面进行综合评价.在此基础上,提出海洋经济和环境协调发展的具体建议.作 者:蔡静    张翠霞    侯磊    CAI Jing    ZHANG CUI-xia    HOU Lei  作者单位:蔡静,CAI Jing(大连水产学院,人文法律系,辽宁,大连,116023)

张翠霞,ZHANG CUI-xia(中国科学院海洋研究所,山东,青岛,266071)

侯磊,HOU Lei(沪东造船厂,上海,200129)

期 刊:海洋环境科学  ISTICPKU  Journal:MARINE ENVIRONMENTAL SCIENCE 年,卷(期):2007, 26(3) 分类号:X22 P74 关键词:主成分分析    海洋经济    环境发展    海洋产业   

多元分析、主成分分析 篇6

【关键词】主成分分析;因子分析;新指标解释

一、引言

随着数理统计理论的发展,作为它的分支的“多元统计分析方法”在近20年越来越受到人们的重视。这不仅是因为很多事情都是带有随机因素,而且在具体分析问题的时候,人们需要考虑的因素不止有一个。比如在购物的时候,我们评价商品并不是仅仅看其价格,还要关注质量、保修期等多方面的因素。在学校里,评价一个学生也是至少需要“德、智、体”三方面的指标。多元统计分析就是用统计的方法分析这种带有多指标的随机性问题。上述的例子所涉及的指标其实并不多,但更多的时候会遇到很多指标,如考察一个企业,需要了解其规模、产量、产值、税收、员工数、利润等,如果我们关注所有的指标就会大大增加分析的复杂性,而且也不宜抓住主要的因素。因此有必要对这些原始的指标数据进行降维,亦即用较少的新指标来代替原始指标,这就是主成分分析与因子分析在解决问题时所要体现的思想。可以说,出于数据降维的目的它们是没有区别。

二、具体实例分析

但是在新生成的指标的解释方面,它们还是有较大不同的。首先看一下两种方法的数学模型。主成分分析是考虑原来的指标的线性组合,把原始指标的线性组合叫做主成分。从这一点可以看出,主成分其实就是原来指标的压缩综合。而因子分析模型则是把原始指标表示成因子的线性组合(如果姑且不去考虑随机扰动的因素),也就是说因子分析的目的是要找出影响所有原始指标的内在因素。因此尽管两种方法都是对原始数据进行降维,得到新的指标,但是在对新指标的解释是有不同的。下面分析一个具体例子。该例通常出现在统计教科书中因子分析一章,但本文从主成分分析和因子分析两方面同时对其进行剖析。

考察某校学生的学习成绩状况。随机抽取了30个学生,关注起数学、物理、化学、语文、历史、英语六门课程的成绩。故形成了如下的30行、6列的原始数组。我们需要从中提炼出1,2个新指标。

通过MATLAB软件中的主成分分析与因子分析程序,可以看到通过两种方法的数据降维处理后按照累计贡献率均提炼出了两个新的指标,它们都是从上述的原始二维数组出发,计算其协方差距阵的特征值与特征向量,因此很容易搞不清楚所得到的两个新变量到底是主成分变量,还是因子变量。其实,我们此时回顾一下前文中提到的数学模型就清楚了。主成分分析是原始变量的线性组合,结合此例,即为所获得的两个新指标是原始指标的综合。又注意到原始变量前的组合系数(也叫作载荷)大小,不难发现,在其中的一个新指标中数学、物理、化学、三科占的比重比较大,因此可以把该综合指标形象地称为“理科”主成分;而在另一个新指标中语文、历史、英语三科占的比重比较大,因此可以把该综合指标形象地称为“文科”主成分。此时再考虑因子分析的模型。如前文所讲,原始变量表示成了因子的线性组合。结合此例,即数学、物理、化学、语文、历史、英语这原六个指标表示成了两个新的指标的线性组合。考虑到因子的组合系数,发现在数学、物理、化学这三科的线性表示中一个因子的组合系数比较大,而另一个比较小,因此可以把所占分量较大的那个因子形象地理解成“理性思维”因子,同样的道理可以把另一个新指标理解为“文性思维”因子。

三、总结

从此例可以看出,虽然主成分分析与因子分析都是从原始数据的协方差矩阵(有时是相关系数阵)出发,计算特征值与特征向量,按照累计贡献率大于85%的原则确定新的指标个数。但是为了避免搞混两种方法,在解释新的指标时应回馈到各自的模型上面来。即:按照主成分分析理论,新指标仅仅是原始指标的简单汇总,如果想用较少的几个变量替代原来的变量则用主成分分析;而对于因子分析,新指标则是对所有原始指标皆有影响的那些公共因子,所以当需要寻找潜在的影响要因时,倾向于用因子分析。明白了这一点,对新指标的解释也就变得顺理成章了。

【参考文献】

[1]高惠璇 应用多元统计分析 2005

[2]李静萍 谢邦昌 多元统计分析方法与应用 2008

[3]李卫东 应用多元统计分析 2008

[4]陆恒芹 苏勤 陈丽荣 女性旅游者行为特征分析及其动机研究—以西递、宏村为例 2006

[5]陆虹 用因子分析测量“护士工作满意度量表”的结构效度[期刊论文] 2007

[6]赵磊 李继海 朱大洲 籍保平 5种鹿茸营养成分的主成分分析[期刊论文] 2010

核主成分分析概述 篇7

核主成分分析是一种非线性推广的主成分分析。大量结果显示[31], 核主成分分析法由于在非线性统计和高阶统计特征提取具有较好的效果, 相对于传统的主成分分析观测数据的特点, 具有更好的分类能力。传统的基于矢量的主成分分析和核主成分分析方法, 计算数字图像数据的特征的方法是, 所有二维图像数据计算出由一个堆积行的列向量, 进而对样本图像的列向量协方差矩阵奇异的整体值分解, 然后计算主成分投影, 最典型的例子是著名的面部识别, “特征脸”技术[32]。由上面的处理方法计算得到的图片, 二维图像数据的不足之处是, 图像矩阵堆叠成一个矩阵列向量的像素行后, 在图像之间的相关矩阵被破坏。而且, 传统的计算方法是, 核主成分分析通过非线性映射到高维特征空间进行整体改造, 然后得到向量的内积后 (内核功能) , 操作时并没有考虑到的图像区域或区域的相关信息。

2 核主成分分析

如果得到了向量空间的正交分解, 是对所有训练样本的而言, 那么, m个子空间的求和就构成了样本空间, 也就是

普遍的方案是将m组变换为n个坐标轴方向, n个坐标轴方向都包含在m个组之中, 以使输入向量可变换成成n子向量的加和

在计算输入向量的内积时, 则对其所对的子内积计算向量, 每个内积分向量的定义允许有不同的定义, 也就是说允许引入不同的内核, 各内积分矢量的加权和构建了原有的矢量, 也就是下式所示:

其中kl (x il, x jl) 表示表示第l个子向量的核函数, 显然如果各子向量的核函数满足Mercer条件, 则k (x, y) 也一定满足Mercer条件即为核函数[33]。

基于区域核函数的距离测度算法步骤如下:

(1) 给出数据块的尺寸。将原设图像与目标图像的矩阵分解若干个数据块, 各个数据块按照行来累积成一个列矢量, 每个列矢量累积成一个列矢量。

(2) 抽取一个核函数, 求出原始图像及目标图像的核目标空间的协方差矩阵。

(3) 计算协方差矩阵的特征根和特征向量, 按照大小将特征值排序, 并取前几个 (按方差贡献率确定) 。

(4) 将计算得出的协方差矩阵的特征向量 保存起来, 计算出目标图像与原始图像的特征向量的距离, 并按照大小进行排序, 得到距离最相近的目标图像就是检索图像。

3、结论

上面定义的核函数称为组合核函数, 而各子向量的核函数称为局部核函数, 如果使用组合核函数进行核主成分分析, 则所提取的图像主成分不仅包含图像的整体特征同时又包含图像数据局部特征[1]。文献[2]在运用支持向量机对图像数据进行分类时, 根据图像数据的特点, 提出了一种具体的组合核函数的构成方式, 即将图像用若干个像素邻域 (各邻域可以交叠也可以不交叠) 覆盖, 各邻域的像素数据所形成的向量可视为整个图像数据向量的子向量, 在计算两图像的内积时, 首先对两图像相应的各邻域分别求内积, 再以各邻域的内积之和作为两图像之间的内积, 该文的实验结果表明, 基于局部核函数的支持向量机的分类能力比基于整体核函数的支持向量机的分类准确率要高。根据这一核主成分分析, 得出了一个顺利成章的方向, 因为最初是由在SVM的引导下得出的核主成分分析法。

文献[3]也提出了一种基于组合核函数的KPCA, 该文定义了一种条件正定核函数而非满足Mercer定理的核函数, 也没有考虑各输入向量各分量的关系。本章提出根据图像数据的之间的矢量相关性得到的各个组成部分, 也就是根据窗口用来使区域相关的图像数据由核函数来加权求和体现。

参考文献

[1]Pentland A et al, Photobook:tools for conteni-based manipulation of image databases, International Joumal of Computer Vision 1996, 18 (3) :233-254

[2]Smith J R and Chang S F, Querying by color regions using the Visual SEEk content-based visual query system, Intelligent Multimedia Information Retrieval (Maybury, M T, ed) .AAAIPress, Menlo Park, CA, 1997:23-41

多元分析、主成分分析 篇8

本文的数据收集自《中国食物成分表》[1], 经过仔细筛选, 确定了如下指标作为解释主食营养的指标:能量 (千卡) X1;蛋白质 (克) X2;脂肪 (克) X3;碳水化物 (克) X4;维生素E (毫克) X5;铁 (毫克) X6;钙 (毫克) X7。用主成分分析法将以上指标重新组合成少数几个相互无关的综合变量。采用的标准化处理方法是对指标进行正态化。即令xi*= (xi-X軍i) /Si, 其中X軍i和Si分别是指标xi的样本均值和样本标准差。

2 主成份分析模型

主成份分析法 (Principal Component Analysis, PCA) 也称主分量分析或矩阵数据分析, 通过变量变换的方法把相关的变量变为若干不相关的综合指标变量[2]。

若某研究对象有两项指标ζ1和ζ2, 从总体ζ (ζ1, ζ2) 中抽取了N个样品, 它们散布在椭圆平面内 (见图1) , 指标ζ1与ζ2有相关性。η1和η2分别是椭圆的长轴和短轴, η1⊥η2, 故η1与η2互不相关。其中η1是点ζ (ζ1, ζ2) 在长轴上的投影坐标, η2是该点在短轴上的投影坐标。从图1可以看出点的N个观测值的波动大部分可以归结为η1轴上投影点的波动, 而η2轴上投影点的波动较小。若η1作为一个综台指标, 则η1可较好地反映出N个观测值的变化情况, η2的作用次要。综合指标η1称为主成份, 找出主成份的工作称为主成份分析。

可见, 主成份分析即选择恰当的投影方向, 将高维空间的点投影到低维空间上, 且使低维空间上的投影尽可能多地保存原空间的信息, 就是要使低维空间上投影的方差尽可能地大。[2]

3 主成份分析法的应用

3.1 原始数据的处理和标准化

首先对所选14种主食的营养成分含量进行标准化, 然后利用SPSS软件对标准化后数据进行分析。得到相关矩阵 (表1) 。

3.2 中国主食营养成分主成份分析的计算结果

利用SPSS软件对标准化后数据进行分析得到公因子方差 (如表2) 、解释的总方差 (如表3) 。

第一主成分解释了总方差的33.311%, 第二主成分解释了总方差的27.931%, 第三主成分解释了总方差的18.000%, 第四主成分解释了总方差的14.689%。四个主成分累计方差贡献率为93.931%。这说明四个主成分能够解释这7个变量约94%的信息。

列出前四个主成分的特征向量并计算综合得分。如表4。

第一主成分的表达式为:F1=-0.023X1-0.388X2+0.895X3-0.448X4+0.853X5-0.626X6-0.244X7。同理可得其他主成分F2, F3。

构造综合营养指标函数。以各主成分的贡献率为权重构造各种主食的营养指标函数, 公式如下:

最后算出主食的综合得分并排名, 结果如表5。

3.3 结果分析

通过SPSS软件进行主成分分析, 得到四个主成分。第一主成分称作脂肪维E因子, 第二主成分称为能量碳水化物因子, 第三主成分称为铁钙因子, 第四主成分称为蛋白质因子。

为维持正常的生理功能, 维生素是人和动物必须从食物中获得的一类微量有机物质。维生素E是一种脂溶性维生素, 不溶于水而溶于脂肪或脂肪溶剂, 它在生物体内的存在与吸收都与脂肪有关。故维生素E和脂肪是一对好搭档, 常态下, 维生素E就溶解在脂肪里, 它们组成第一主成分显然合理。多食用第一主成分高的食物, 可以帮助我们由内而外抗氧化, 从身体内部到皮肤外表得到全面延缓老化的效果。

在人类膳食中, 能量的60%-70%来自于碳水化合物, 故碳水化合物和能量具有正相关性, 组成了第二主成分, 反映了食物的能量含量。碳水化合物在体内氧化速度较快, 能够及时供给能量以满足机体需要。碳水化合物可以保障人体能量和营养素的需要、改善胃肠道环境和预防龋齿。我国营养专家认为碳水化合物产热量占总热量的60—65%为宜。

第三主成分由钙和铁组成, 反应了食物的矿物元素含量。其中矿物质元素是核心, 如, 钙不仅仅是造体元素, 也是生理代谢不可缺少的元素, 许多疾病都与缺钙有关。铁是人体血红蛋白、肌红蛋白、细胞色素和酶系统的重要组成成分, 是人体生理代谢、营养平衡的必需元素, 一旦缺乏就会引起铁缺乏症。

第四主成分为蛋白质因子, 反应了食物的蛋白质含量。

4 结论

本文得到了中国主食营养因素的四个主成分。分别是:第一主成分称作脂肪维E因子, 第二主成分称为能量碳水化物因子, 第三主成分称为铁钙因子, 第四主成分称为蛋白质因子。

本文中, 脂肪维E因子含量最高的是玉米 (白, 包谷) , 能量碳水化物因子含量最高的是稻米 (大米) , 铁钙因子含量最高的是小米, 蛋白质因子含量最高的是稻米 (香大米) 。而综合排名第一的是玉米面 (白) 。推荐以上四种作为日常主食。荞麦、大麦 (元麦) 、苦荞麦粉排名靠后, 不推荐作为日常主食, 但可以和其他主食搭配食用, 取长补短。

对于加强营养, 我们要考虑三方面, 即蛋白质、矿物质和维生素。[3]首先考虑蛋白质。普通健康成年男性或女性每公斤体重大约需要0.8克蛋白质。目前大众饮食日趋高热量化, 我们要防范蛋白质及热量摄入过多的危害。其次, 考虑补充矿物质和维生素。矿物质和维生素都属于人体生长发育的六大营养素。维生素、矿物质是功能性营养素[4]。以稻米为主食的南方人, 应该多吃些小米、荞麦, 增加钙铁等矿物质的摄取。由于不同谷类的营养侧重不同, 食用多种粮食可以弥补单一种类营养物质的不足。比如我们经常吃的八宝粥、杂粮馒头等, 不仅美味, 而且营养丰富。改变主食结构、丰富主食种类, 对提高健康意义重大。

注:可食部分均计100.

摘要:本文利用主成分分析方法, 以中国传统主食为研究对象, 选择小麦粉、稻米、玉米面、高粱等14种原料, 查找其能量、蛋白质、脂肪、钙等7种营养相关因素的含量, 通过SPSS软件进行降维分析, 得出四种主成分第一主成分称作脂肪维E因子, 第二主成分称为能量碳水化物因子, 第三主成分称为钙铁因子, 第四主成分称为蛋白质因子。它们解释了样本所研究的营养因素总数的93.931%, 较好地概括反映了样本的营养值。主食营养对人们身体健康的影响不容忽视, 本文提出了改善主食结构, 加强主食营养的建议。

关键词:主成分分析法,营养成分,中国主食

参考文献

[1]中国食物成分表[M].2版.北京大学医学出版社.2009, 12.

[2]汪应洛.系统工程[M].4版.机械工业出版社.2011, 6:54-60.

[3]王晓芳, 李林轩.专用小麦粉生产中的品质监控[J].现代面粉工业, 2010, 6:27-30.

多元分析、主成分分析 篇9

关键词:循环经济,发展对策,经济评价

一、引言

全面客观的对我国循环经济实施情况进行评价, 给政府及相关产业的后继发展带来了极大地便利, 促进了我国循环经济的发展;反过来, 我国城市中循环经济得到顺利发展, 又可以反过来促进城市向更高层次发展, 形成良性循环, 促进产业间的良性互动发展, 并最终推动社会经济的发展。所以, 研究循环经济的评价方法, 创建科学合理的选择模型, 无论是对政府还是对相关产业都具有十分重要的理论和现实意义。文章在构建循环经济评价指标体系的基础上, 采用主成分分析法对我国循环经济进行客观、公正的综合评价。

二、评价指标

文章在参考国内外关于循环经济评价的指标体系的基础上, 结合我国城市存在的普遍情况, 制定出如下评价指标体系。该指标体系的最终指标 (即第一层指标) 为, 我国循环经济评价综合指标A。该指标下设资源利用指标A1, 环境污染指标A2, 社会发展指标A3, 具体指标体系,

三、我国循环经济综合评价方法

主成分分析法基本原理在多变量的分析中, 为了完整地搜集信息对每个样品要测量许多项指标, 然而从统计的角度来看, 这些变量可能存在着很强的相关性, 增加了分析问题的复杂性, 因此自然想到用少数几个不相关的综合变量反映原变量提供的大部分信息, 从数学的角度来看, 这就是降维思想。主成分分析法能消除指标间信息的重叠, 而且能根据指标所提供的信息, 通过数学运算而自动生权, 具有客观性。主成分分析法计算过程如下。

1、数据标准化

不同评价指标的量纲不同, 数值差别较大, 使得各个指标的作用常难于比较, 因此需要对原始数据进行标准化处理。设有n个待评价样品, 每个样品有p个评价指标, zij (i=1, 2, …, n;j=1, 2, …, p) 为第i个样品的第j个评价指标, 标准化计算公式如下。

2、由标准化数据求相关系数矩阵R

其中:

3、相关系数矩阵特征值λ与特征向量L.

求相关系数矩阵的特征值λi (i=1, 2, …, p) , 并记作:λ1≥λ2≥…λi≥λp≥0, 同时求得的相应特征向量为:βl= (βl1, βl2, …, βlp) T, l=1, 2, …, p

4、计算主成分得分值

第i个样品在p个主成分方向上的得分值Zi1, Zi2, …, Zi P为:

在综合评价指标体系中, 存在三种性质的指标:一是正指标, 即指标值越大, 所表示的实际成果越大;二是逆指标, 即指标值越大, 所表示的实际成果越低;一是适度指标, 即指标值在某一区间表示最优水平。在对不同类型的指标进行无量纲化处理时, 应采用不同的方法, 目的是处理后的指标都具有正指标的性质。所采用的具体处理公式如下:

四、结论

改革开放以后, 我国国民经济增长非常迅速, 国家的经济实力也迅速增长, GDP总量居世界第三位。但是资源和环境的问题也越来越突出。中国人均资源较少, 因此需要转变我国经粗放型的、消耗型的经济发展方式。城市实施循环经济的评价问题在实践中常因缺乏合适的选择评价方法而导致选择不理想, 本文在构建我国循环经济综合水平评价指标体系的基础上, 应用多元统计分析中主成分分析法, 给出了一种综合评判城市循环经济水平和实力的评价方法, 该克服了传统评价方法的弊端, 能够对不同城市开展循环经济的水平进行了公正、公平的定量评价与分析。随着科学发展观、和谐理论的深入人心, 人、环境与经济的可持续发展、和谐发展, 获得全面的社会进步受到人们的普遍重视。正是因为此, 要求我们必须对循环经济实施的效果进行经济评价, 只有这样, 我们才能将我国循环经济真正的发展起来。

参考文献

教室卫生评价指标的主成分分析 篇10

教室是学生学习的最主要场所,学生在学校的大部分时间都是在教室中度过,因而教室卫生对学生健康影响较大。主成分分析法是良好的构效关系分析方法,为完善标准,了解各指标的实际关联,笔者用主成分分析法对《评价》中的教室主要指标进行了分析。

1 对象与方法

1.1 对象

随机抽取沈阳市和平区6所中小学教室进行卫生监测,其中小学3所,中学3所。每所学校每个年级调查1间教室,共调查31间教室。

1.2 方法

1.2.1 测量

按照《评价》的要求进行教室卫生学指标测量。

1.2.2 主成分分析

利用SPSS 11.5软件[2]对实际调查中影响教室得分的主要指标,如人均面积、课桌椅符合率、采光系数、玻地比、教室照度、CO2体积分数、室温、教室噪声等,进行主成分分析,列出主成分表达式,探讨各成分的意义,并对同一成分中部分指标进行相关分析,分析各因子间关系。

1.2.3 相对权重

将各主成分表达式乘以相应的特征根,得到各指标的系数,归一化后,即可得到相对权重,进而确定主要影响因素;将原标准相应权重归一化,与新权重进行比较。

2 结果

经KMO检验及球型检验,该数据符合主成分分析的要求。 特征根及方差贡献率见表1。根据特征根及方差贡献率大小综合考虑,决定提取前4个主成分,各成分因子负荷见表2。

通过观察因子负荷和因子得分(表3)可以发现:第1主成分主要由人均面积、采光系数、教室照度构成,其中教室照度、采光系数2项占主要部分,可以认为该成分主要反映了包括教室的自然照明(采光系数)和人工照明(教室照度)的实际综合光照情况。另外,人均面积为负指标,经相关分析发现人均面积与采光系数和教室照度均呈显著负相关(r=-0.648,P<0.01,r=-0.588,P<0.01),因而推测,人均面积可能为影响教室照明的负性影响因素。

第2主成分主要由教室噪声和玻地比构成,按照《评价》的要求,测量外界噪声干扰要分别在开窗和关窗时进行2次,以关窗为本底值,故而教室噪声与窗口的大小或玻地比可能有相关性。经相关分析教室噪声和玻地比呈正相关(r=0.402,P<0.05)。因此推测第2主成分主要反映外界环境通过窗户对教室的影响,且以噪声为主。

第3主成分主要由CO2体积分数和室温构成,它们同是标准中室内微小气候的指标,因而该成分反映教室室内微小气候。

第4主成分主要由课桌椅符合率构成,反映教室课桌椅情况。

简化的主成分表达式如下:

Z1=-0.352X1+0.343X3+0.332X5

Z2=0.426X4+0.580X8

Z3=0.585X6+0.526X7

Z4=0.899X2

将各主成分表达式乘以相应的特征根,得到各指标系数,归一化后,即可得指标的相对权重(表4)。影响程度最大为光照的总体情况(26%),其次是微小气候(包括CO2体积分数、室温,共占23%),噪声(14%)。

将原标准相应的权重归一化,与新权重进行比较。教室照度、室温、CO2体积分数、教室噪声、人均面积权重与原标准相差不大,采光系数、玻地比权重增大,课桌椅符合率权重减小。

3 讨论

3.1 各指标间的相互关系

通过分析发现,学校教室卫生指标主要可以分为4类,1类即包括教室的自然照明(采光系数)和人工照明(教室照度)实际光照的综合情况;2类主要为外界环境通过窗户对教室的影响,且以噪声为主;3类为室内微小气候由CO2体积分数和室温构成;4类反映教室课桌椅情况,由课桌椅符合率构成。这与《综合评价标准》划分的维度基本相符,建议将自然照明和人工照明划为同一维度。

分析结果发现,人均面积在光照主成分中为负性作用,且与教室照明和采光均呈负相关,在调查中笔者也发现类似情况。对于这一现象笔者认为城市地区教室的大小大致相同,教室人均面积主要取决于教室人数[3,4,5],人均面积大,人数也较少。这样的教室通常照明较差,采光也不好,可能的原因一是由于教室人数少,座位相对分散,在同样照明的情况下,单位课桌面积的平均照度也有所下降;二是该类教室多是非重点教室,灯具陈旧、损坏严重,教室位置不好,采光较差。另外,人数较少,为了节能,灯具使用率也人为地减低。教室人均面积的原标准确定主要依据课桌的长度[6],目的是为了座位的舒适;但通过分析发现,人均面积与照明亦有一定关联,应该在今后修订标准时加以适当考虑这一混杂因素,减少其对评价结果的干扰。

分析还发现噪声与玻地比呈正相关,并且同为一个主成分的影响指标。因而,噪声可能与玻地比存在某种关联,或有共同的作用。由于2者都与直接通向外界的窗户大小关联,故提示玻地比可能反映了外界环境通过窗户对教室的影响。因而,玻地比不仅仅与采光有关,建议今后应该考虑制定一个通过窗户这一重要媒介影响教室的能反映外界声、光、影像干扰的综合指标。

CO2体积分数、室温共同反映了冬季室内微小气候的情况。调查发现 CO2浓度、室温的因子系数符号相同,提示2者作用是同向的,他们共同反映教室空气质量,高CO2则教室空气质量差,同样过高室温也不是良好环境的反映,因此冬季室温不宜过高,原标准仅有室温下限,建议参考《儿童少年卫生学》规定的16~20℃[6]的范围制定其上限。

3.2 各因素对教室卫生状况的影响及权重大小的修订

参考各成分构成和各指标权重,笔者发现光照是当前影响教室卫生的最重要的指标,无论是光照的总体情况(26%)或是采光系数、教室照度都有较大权重。提示今后应改善教室光照。另外,反映自然光的采光系数权重有较大提升,反映各教室在自然光方面有较大差异,今后应加强监测,努力改善;同时也应规范测量的方法,减少其不确定性[7]。

指标权重的决定最好由专家主观经验和统计学依据2方面因素共同决定[8]。既要使权重反映指标的卫生学重要性,又要考虑在实际测量中变异波动的情况。原标准的权重主要依据专家经验,结合此次实际调查分析后,建议应适当提高采光系数、玻地比的权重,减小课桌椅符合率的权重。

当然,此次评价仍存在许多不足之处,欠缺对农村学校的评估,评价指标也仅限于教室卫生的主要指标,有待于今后进一步改进。

参考文献

[1]卫生部学校卫生标准专业委员会.学校卫生监督综合评价.GB/T18205-2000.北京:中国标准出版社,2000:1.

[2]唐功爽.基于SPSS的主成分分析与因子分析的辨析.统计教育,2007(2):12-14.

[3]郑志华.2000年云南省学校卫生监测结果分析.中国校医,2003,l7(1):50.

[4]李香兰,徐能义,赵金龙.包头市区中小学校经常性卫生状况调查分析.包头医学院学报,2003,18(3):186-188.

[5]冯碧君,赵薇,蔡建忆.宁波市区16所中学卫生监督监测结果分析.海峡预防医学杂志,2003,9(2):54.

[6]叶广俊,主编.儿童少年卫生学.4版.北京:人民卫生出版社,2000:156-167.

[7]张宁,沈明珠.教室采光系数测量的不确定度评定.中国校医,2003,17(5):428-429.

上一篇:安全质量事故下一篇:中小型养猪场