多元数据

2024-05-05

多元数据(精选九篇)

多元数据 篇1

随着遥感技术的发展,获取的遥感数据越来越丰富,不同传感器获取的影像数据在几何、光谱和空间分辨率等方面存在着一定的局限性和差异性。一般情况下,多光谱图像的光谱分辨率较高,但空间分辨率比较低;全色图像具有高空间分辨率,但光谱分辨率较低。为了增加图像信息提取的精确性和可靠性,可以将低空间分辨率的多光谱图像和高空间分辨率的全色图像进行融合,使融合后的多光谱图像在保留光谱特性的同时具有较高的空间分辨率,达到优势互补,提高图像综合分析精确度的目的。

1 遥感影像数据融合原理

1.1 影像融合原理

根据融合目的和融合层次智能地选择合适的融合算法,将空间配准的遥感影像数据(或提取的图像特征或模式识别的属性说明)进行有机合成,得到目标的更准确表示或估计。

1.2 融合的基本模型

遥感信息的形式从层次上可分为:像元级(特征提取之前)、特征级(属性说明之前)和决策级(各传感器数据独立属性说明之后)。因此信息融合就可相应在像元级、特征级和决策级3个层次上进行,形成3种融合框架,融合的水平依此由低到高。

2 基于Erdas软件遥感影像融合的实验分析

2.1 基于主成分(PCA)变换的遥感影像融合实验

2.1.1 PCA融合原理

主成分变换是基于变量之间的相互关系,在尽量不丢失信息的前提下,利用线性变换的方法实现数据压缩。主成分变换主要用于:数据压缩(去相关),影像增强,在光谱特征空间中突出物理意义显著的指数(如亮度、绿度、湿度等),土地利用的动态变化监测。

一般图像的线性变换可表示为:

式(1)中,X是待变换图像的数据矩阵,Y是变换后的数据矩阵,T为变换矩阵。

2.1.2 PCA融合方法

(1)将多波段影像与高分辨率全色影像配准,然后求解多波段影像矩阵的特征值,其值按大小顺序排列;

(2)由特征值计算对应的特征矢量,并根据式(1)对原始影像进行正变换,得到主分量;

(3)将高分辨率全色影像按照第一主分量的方差与均值进行拉伸,并用拉伸后影像取代第一个主分量影像,然后,进行反变换得到融合影像。

2.1.3 PCA融合的结果

分辨率融合是对不同空间分辨率遥感图像的融合处理,使用融合后的遥感图像既具有较好的空间分辨率,又具有多光谱特征,从而达到图像增强的目的。

从融合后的影像与原影像目视对比可以得知:更能突出影像的感兴趣的特征和范围,不同目标区更加明确,便于目标影像的解译和判读。

2.2 基于IHS变换法的遥感影像融合实验

2.2.1 IHS变换融合原理

IHS方法是以色度学角度出发,对IHS坐标的图二原Quickbird全色影像

物理意义进行分析,进而提出将强度分量用高分辨数据代替,从而得到融合结果,其特征是将多波段数据作为不同颜色空间中的坐标值。

遥感图像融合中,IHS变换法(I亮度、H色调、S饱和度)是最为常用也是最为基本的方法。IHS变换法可以提高结果图像的地物纹理特性,增强其空间细节表现能力,但光谱失真较大,融合后图像识别和解译的精确度不高。文中在对多光谱图像进行IHS变换后,将全色图像和多光谱图像的I分量进行直方图匹配,然后进行反变换得到融合结果。这样得到的图像同时具有较好的空间分辨率和保留较多的光谱特性,提高了图像识别和解译的精度,如图一至图三所示。

2.2.2 IHS变换融合方法

(1)影像处理;(2)RGB→IHS转换;(3)直方图均衡化处理;(4)用全色波段影像代替亮度波段影像;(5)IHS到RGB的反转变换;(6)处理后的变换影像与原影像分析。

2.2.3 IHS变换融合结果

如图四和图五所示,从目视的角度来看,传统IHS融合影像纹理信息保持较好,但是光谱信息损失较大。文中介绍的方法得到的图像保留了较多的光谱信息和图像中的纹理信息,从视觉效果上看是令人满意的。

2.3 主成分(PCA)融合和IHS变换融合比较

IHS方法由于I分量的直方图分布与全色图像直方图分布差异较大,造成与原图像的整体色彩有较大差异,但同类地物基本具有接近的色彩。而PCA方法由于第一主分量的均值和方差与全色数据相差较大,因此损失掉了第一主分量中的部分光谱信息,变换后所得到的RGB合成图像整体色彩同原图像差异也比较大。

PC变换方法与IHS变换相比,其在同一次融合处理中,可同时提高n个多光谱波段影像的空间分辨率。其缺点是PC变换第1主成分(包含了多光谱波段的大多数信息)的信息量要比全色波段影像的信息量高。当用修改后的全色波段影像的灰度值替代PC1,再进行反变换得到的增强后的多光谱波段影像,其信息量会受到损失。另外,尽管修改后的全色波段与PC变换第1主成分全局统计特征相似但局部统计特征不相似,因此PC变换也会造成信息失真。

3 结束语

多源遥感影像数据具有冗余性、互补性、合作性。一般来说,对冗余信息的融合,可以减小对目标解译、识别的误差和不确定性,提高精确性;对互补信息的融合,可以提高输出成果的鲁棒性、可信度对合作信息的融合,可以增强融合系统的协调性。因此多源遥感影像数据融合虽仍处于发展中,但它在地质、农业、测绘等方面得到广泛应用。遥感影像融合将继续在地质、农业、测绘等方面发挥重要作用。

参考文献

[1]贾永红,李德仁,孙家柄.多源遥感影像数据融合[J].遥感技术与应用,2000,3(15).

[2]王仁礼,戚铭尧,王慧.用于图像融合的IHS变换方法的比较[J].测绘学院学报,2000,17(4).

多元数据 篇2

这节课主要是让学生从不同角度去分析数据图表,得出对应的结论,从而培养学生的多角度思考问题的素养。通过对网民用户规模数据表的分析,让学生自主学习,掌握基本的图表建立方法,然后能够熟练应用于具体的实例中。从网民用户规模增长率上切入到网络购物的问题上,同时抛出几个任务让学生完成,增加拓展任务,提高学生的思维能力。

本节课预先用录屏软件将学生自主学习内容录制好,学生通过观看视频,自主学习基本的图表建立方法,并运用到实际任务操作中,巩固了自学的知识。

多元数据 篇3

【关键词】汽车 智能 车联网 大数据

【中图分类号】G 【文献标识码】A

【文章编号】0450-9889(2016)06C-0191-02

随着我国汽车市场的快速发展,车联网服务在其中潜藏着巨大的发展空间。因为在中国,城市交通拥堵、交通事故、汽车尾气排放等问题日益严重,目前政府出台的限购、单双号限行、架设立交桥、建设轻轨和地铁等措施均是通过道路交通的宏观规划来解决问题,但从长远发展考虑,还急需从汽车自身挖掘出更多的长效措施,而诞生于“互联网+”和大数据时代的车联网服务是解决上述交通问题的内在关键途径。本文简要描述车联网的发展现状、多元消费需求情况,探索大数据时代的车联网在交通领域的多方应用。

一、车联网和大数据概念

车联网,是近年从物联网产业衍生出来的新兴行业,融合汽车、传感、通信、云计算、互联网、信息处理和大数据等技术,采集、传输、提取、处理和分享车辆具体位置、驾驶状态和运行轨迹等相关数据信息,实现车与车、车与路、车与人的互联互通,促进交通管理和数字城市的大力发展。

大数据,包含数字、图片、视频等巨量信息数据资料,目前不能在可承受的时间内利用常规软件,但需要新的处理模式完成数据撷取、处理、管理以及整合成用户需求的多元资讯。根据维克托·迈尔-舍恩伯格(英)和肯尼思·库克耶的《大数据时代》著作,新的处理模式不采用随机分析,而采取对所有数据进行分析和处理,提出新的处理模式需要具备更强大的决策力、价值挖掘力、流程优化能力和信息洞察力,才能应付海量的、高正常率的和多样化的数据信息资料。

二、汽车市场发展现状

2014年,中国汽车行业开启互联网和大数据模式,各方都在探寻车联网概念落地的方式。“BAT”(百度、阿里巴巴、腾讯)用地图、娱乐和信息等服务消除了车企维系多年的OBD数据壁垒,开启汽车真正进入联网模式之门。就在2014年,百度、腾讯和阿里巴巴均发布了各自特色的车联网产品,如百度的CarNet、腾讯的路宝盒子、阿里巴巴的智驾盒子,利用App和O2O服务平台,帮助车主进行汽车安全检查。2015年初,百度还对外宣布了“人、车、手机”车联网战略。同时,谷歌、微软和苹果等国外IT巨头更是大力投入研发,而西门子、先锋、德赛西威等汽车零部件供应商也在争相抢夺车联网设备这一市场。

当然,少不了各大车企的激烈竞争。2014年末,上海通用就发布了“车·联·无限”车联网战略,紧密围绕车载信息服务、移动娱乐、消费服务和智能驾驶等三大核心,进一步整合OnStar安吉星车载服务。并且,通用安吉星(onstar)、丰田G-book、日产Carwings等外资车联网设备品牌已由过去专供高端车,转化为非常普遍的车载装置,而本土汽车公司上海汽车、吉利汽车等也推出了类似的产品。

由此看出,无论是汽车厂家、大运营商,还是互联网IT巨头公司,都已纷纷布局车联网这个发展潜力无限的新兴产业。同时,许多专业网站预测,车联网服务利润将很快超越汽车硬件市场,未来私人订制的汽车互联网服务和用户在使用服务过程中产生的行为大数据将是车联网产业链的最大盈利因素。因此,围绕汽车后市场服务的车联网发展,离不开大数据的支持。

三、互联网时代的汽车服务需求

众所周知,研发任何一款产品,都应围绕顾客需求才能获得市场占有率,而基于互联网的汽车服务需求也不例外,经研究,可概括为以下几方面:

一是需要能够准确、全方位地获知车辆驾驶信息的硬件设备。随着交通事故的攀升,社会碰瓷行为频发,人们越来越渴望拥有一款能随时记录车辆行驶过程信息的电子设备,就如飞机行驶专用的“黑匣子”,可以准确记录运动状态,为交通事故提供证据。当然,现在市场上已经出现类型电子设备,比如行车记录仪,但是如果能生产出类似网球比赛的“鹰眼”设备,把监控设备、云端计算机和显示屏功能集成,那么就极大方便用户储存和利用驾驶信息。

二是需要能够及时、准确地推送最优服务信息。对车辆驾驶和周边环境的大数据进行统计、分析,得出切合车主服务需求的最佳解决方案,最终推送最优服务信息。如推送最佳的交通路线、最近的加油站位置、驾驶习惯矫正指南和保险购置建议,甚至针对熟知路段实施无人驾驶等。

三是需要拥有智能化的信息车载服务系统。利用该系统,可以像“傻瓜相机”、全自动洗衣机,尤其智能手机等自动化、智能化的产品一样,实现汽车的一键控制;还可以将局域网络里的车辆互联互通,实现车辆管理。

四、可行性分析

为了达成顾客对汽车服务的多元需求,需要探讨数据信息采集、车联网服务平台建立和有效数据模型设计等关键途径的可行性。

(一)数据采集可行性。若要实现车联网,汽车内部电器的运行数据就要传输至某种系统服务平台才能实现存储和处理。但是,目前,车企保护自有整车系统态度强硬,担心一旦汽车联网以后,便要承担各种风险。也许,只有随着车载终端设备标准化和开放性的加强,云平台作用日益凸显,移动4G时代和大数据时代衍生出的更多新产业和新商业,才能促使车企各方敞开自家的整车系统,共同从顾客角度,探索汽车新产业,最终实现汽车数据信息地便捷采集。可喜的是,车辆位置、速度和路线等外部运行信息,现在已经能够通过GPS、RFID、传感器、摄像头等装置,完成状态信息数据和运行环境信息数据的采集;利用互联网技术,可将采集到的所有车辆信息数据传输至计算机中央处理器。

(二)车联网服务平台开发可行性。采集到车辆大数据后,需要借助一个服务平台,通过计算机技术,将这些海量的车辆数据信息进行分析和处理,从而计算出满足客户需求的模式。如不同车辆的最佳驾驶路线、路况预警和交通灯周期优化等。然而,车联网涉及了多维的服务大数据,非常有必要建立云服务的大数据服务平台,具有数据管理、数据应用、服务营运和增值服务等满足内部、外部需求的功能,实现车、人、路的数据整合、分析和管理。当然,基于互联网环境和云计算技术,建立这样的服务平台可行性很大。

(三)数据算法、模型设计可行性。车辆的海量数据来自各系统终端的结构化、非结构化数据,若要满足客户或者行业的个性化服务需求,就必须通过设计相关算法、建立数据模型,例如保费风险模型和驾驶行为模型,从而充分利用和挖掘这些大数据的价值。当前,数据处理的技术和手段还需要不断进步,并且无论使用哪种数据处理技术,首先都需要完成数据的质量识别、优劣控制。然而,目前由于车型系统的多样性、车辆设备工作环境的复杂性,数据很难获取统一的质量标准,如何处理不同质量标准的数据,如何看待由这些数据产生的价值精准性,也是需要继续深入研究的重点问题。

但是,无论如何,互联网、大数据、模型算法和创新都将会快速推动车联网智能化、实用化和个性化发展,最终实现我国道路交通的精细化管理。

五、车联网大数据的应用

假若车与车、车与路、车与人实现了互联互通,那么互联网与数据分析就很容易在汽车行业生态圈的各产业环节获得更多的应用,大致可应用到车载终端设备、车辆管控、车辆安全、车辆维修、交通管理优化,以及车主保险和生活娱乐信息推送等领域。

(一)配置车载设备,采集信息数据。为了能够准确、全方位地获知车辆驾驶信息,那么汽车相关方的互联互通就首要配置OBD设备或者车联网终端设备,这样才能采集到车辆及其电器本身的运行数据,比如车速、转速、扭矩、电池电量、油耗、故障代码等。当然,还需要配备通信设备,如蓝牙、GSM基站定位或者GPS等获取车辆位置信息数据。如今,虽然许多硬件厂商推出了行车记录仪、车载导航装备、后视镜等产品,但是市场上仍急需携带相对轻便、成本较低、车辆信息较具安全保障的车载设备。

(二)充分利用大数据,提高车生活质量。现阶段,最简单、快捷的汽车直接接入移动互联网方式是汽车后装市场的企业通过联网智能硬件接入,这样可以具有相当数量的汽车作为载体实现真正的“车联网”,那么某一领域内就会搜集到海量的汽车数据。这些数据的价值利用可分为自身应用和外部应用。

大数据自身应用价值采用“大数据+云平台”的服务模式,综合汽车自身的海量数据、车主的生活环境和需求数据,如交通路况、天气情况、4S店分布、汽车保险业务、二手车消费等,再通过建立有效数据模型,对数据进行合理分析,从而为车主自身提供更准确、到位的汽车活动信息,比如推送汽车绿色出行、汽车保险和二手车市场服务,以及车载导航定位、娱乐资讯、安防系统、安全驾驶预警、节能驾驶服务以及出行诱导等多角度服务,从而封存“汽车是代步工具”的帽子,拓展汽车人性化的功能,将汽车植入人们的日常生活当中。

而大数据外部应用价值同样采用“大数据+云平台”的服务模式,汇总车载终端设备采集到的各类车辆运行数据,通过远程信息服务平台,为车主、车队或者交通管理部门提供车辆监控、车辆管理和交通优化等服务。比如为用户的安全驾驶提供监控和预警;为车队提供车辆监控、优化配置、故障排查和节能减排等服务;又如提供交通红绿灯优化服务,交通信息网络可根据路口实际车辆数据信息自动调节红灯或者绿灯的时间长度,或者定期地系统分析路口车流量信息,新建或者取消交通灯。相对于使用改造交通道路的大动作来说,这方面的业务能很便捷地从汽车自身优化使用角度,解决交通管理和交通事故问题。

(三)建立汽车智能消费系统,一键解决交付问题。如今,购物盛行计算机网络支付或者手机网络支付形式。若实现车联网后,为了在行驶过程中,减少消费支付环节,提高相关行业的服务效率,可建立汽车智能消费系统,只要触动汽车内部某一设备,如车载设备或者后视镜,便可实现汽车系统、收费系统和银行之间的数据连接,完成关联银行卡的金额自动划扣动作。汽车智能消费系统可应用至高速公路收费站、加油站、停车场、交通处罚等领域,根据不同的消费领域,系统会可将应支付的款项金额和实际支付金额发送至手机短信。

【参考文献】

[1]冯凌凌.大数据时代基于4G网络的车联网发展探索[J].网络安全技术与应用,2014(14)

[2]张江波.基于汽车诊断技术的元征车联网平台项目商业计划书[D].甘肃:兰州大学,2014

[3]芮祥麟.大数据在车联网中的应用[J].软件和信息服务,2015(3)

时序立体数据多元线性回归建模方法 篇4

当今, 知识“爆炸”、信息“爆炸”已成为社会经济发展中所呈现的一个显著特点。数据形式的多样性、海量性已成为数据收集者和研究者们所共同面临的一个难题。对问题和现象的研究已不再局限于利用截面数据进行分析, 而是从多角度、多维度等方面对自然问题、经济问题和社会问题进行深入的分析和探讨。

本文的研究对象是一种由截面数据 (样本点×变量) 和时间序列数据 (时间×样本点) 共同组成的具有立体结构的三维数组, 即时序立体数据 (样本点×变量×时间, 见图1) 。已有很多学者较成功地分析研究了多维度数组的多元分析方法。其中应用最为广泛的是R.L.Tucker提出的Tucker3模型 (或三维主成分分析) [1,2]。Tucker3模型是对三维立体数据进行分解的一种方法, 它实际上是对高维数组矩阵施以奇异值分解 (single value decomposition, SVD) 的一般形式, 模型的成功之处在于它实现了对立体数据表进行三个维度的整体简化[3]。

在数据结构上, 纵向数据与时序立体数据平面化后的数据形式比较相似。纵向数据是对观测对象的每一个体按时间顺序重复观测, 将截面数据和时间序列数据相结合, 既能分析个体随时间的变化趋势, 又能反映个体间的差异以及个体内的变化趋势。虽然二者都是截面数据与时间序列数据的结合, 但它们的区别主要是:时序立体数据是三维数据, “时间”是作为其中一个维度而存在。在具体研究时把“时间”维度在样本点×变量的平面上进行“展开” (如图2) ;纵向数据本质上仍是截面数据, 相当于时序立体数据“时间”维度在样本点×变量的平面上“拉直”的结果。

然而, 由于经典的多元分析方法一般情况下研究的对象是截面数据 (二维数据矩阵) , 而并没有对更高维度的数据矩阵进行探讨, 所以有必要对三维度数据矩阵 (三维度数组) 进行相应的研究。本文的研究并不是从微观层面作为切入点, 而是以时序立体数据整体结构, 既以时序立体数据本身的“立体”结构作为研究对象, 并以定义的点积和常数型均值为基础, 试图从理论上找出样本之间、变量之间空间上的相关关系, 从而达到对时序立体数据进行多元回归分析的目的。

2 时序立体数据多元线性回归模型

2.1 时序立体数据变量间的点积定义

无论是什么形式的数据结构, 进行多元统计分析的一个必要的前提条件是对点积的定义。由于点积是度量数据之间“距离”与相关关系的理论基础, 所以其重要性就不言而喻了。

定义变量Xj与Xk点积为:

Xj, Xk=tr (XjΤXk) =i=1nt=1Τxij (t) xik (t) (1)

2.2 时序立体数据多元线性回归建模过程

(1) 时序立体数据相关定义如下:

Xj= (x1j (t) , x2j (t) , , xnj (t) ) xij (t) = (xij (1) xij (2) xij (Τ) )

Y= (y1 (t) , y2 (t) , , yn (t) ) yi (t) = (yi (1) yi (2) yi (Τ) )

lΤ= (111) 是T×1维向量, 则可以得到:

ln×Τ=lnlΤ= (lΤlΤlΤ) = (111111111) n×Τ (2)

(2) 时序立体数据多元回归模型

对于因变量为Y, p个自变量为X1, X2, …, Xp的多元回归模型的一般形式可以写为:

yi (t) =β0lΤ+β1xi1 (t) +β2xi2 (t) ++βpxip (t) +εi (t) , i=1, 2, , n (3)

其中, εi (t) = (εi (1) εi (2) εi (Τ) 为随机误差向量, yi (t) = (yi (1) yi (2) yi (Τ) ) , xij (t) = (xij (1) xij (2) xij (Τ) ) , j=1, 2, , p.

同理, 样本回归模型的形式如下:

y^i (t) =β^0lΤ+β^1xi1 (t) +β^2xi2 (t) ++β^pxip (t) (4)

根据参数最小二乘估计的判断标准:残差平方和达到最小, 可以得到:

SSE=i=1n|yi (t) -β^0lΤ-j=1pβjx^ij (t) |2=i=1n (yi (t) -β^0lΤ-j=1pβjx^ij (t) ) (yi (t) -β^0lΤ-j=1pβjx^ij (t) ) ´min (5)

根据最小二乘原理, 对上式中的β^0, β^1, , β^p求偏导数, 得到正规方程组如下:

{β^0i=1nlΤlΤ+i=1nlΤj=1pβ^jxij (t) =i=1nlΤyi (t) β^0i=1nlΤxi1 (t) +j=1pβ^ji=1nxi1 (t) xij (t) =i=1nxi1yi (t) β^0i=1nlΤxik (t) +j=1pβ^ji=1nxik (t) xij (t) =i=1nxikyi (t) β^0i=1nlΤxip (t) +j=1pβ^ji=1nxip (t) xij (t) =i=1nxipyi (t) (6)

解这p+1个方程组成的线性代数方程组, 即可得到p+1个待估参数的估计值β^j (j=0, 1, 2, , k, , p)

式 (6) 矩阵表示法如下:

(i=1nlΤlΤi=1nlΤxi1 (t) i=1nlΤxip (t) i=1nlΤxi1 (t) i=1nxi1 (t) xi1 (t) i=1nxi1 (t) xip (t) i=1nlΤxip (t) i=1nxi1 (t) xip (t) i=1nxip (t) xip (t) ) (β^0β^1β^p) = (i=1nlΤyi (t) i=1nxi1 (t) yi (t) i=1nxip (t) yi (t) ) (7)

根据前面叙述的变量之间点积的定义, 通过最小二乘得到的正规方程的矩阵形式 (7) 式, 可以用点积的形式表示成:

(tr (ln×Τln×Τ) tr (ln×ΤX1) tr (ln×ΤXp) tr (X1ln×Τ) tr (X1X2) tr (X1Xp) tr (Xpln×Τ) tr (XpX1) tr (XpXp) ) (β^0β^1β^p) = (tr (ln×ΤY) tr (X1Y) tr (XpY) ) (8)

因为tr (A′B) =tr (B′A) , 所以上式仍然是对称矩阵, 并且式 (7) 与式 (8) 是等价关系。

3 我国现代服务业实证回归分析

国际经济发展经验表明, 现代服务业的发达程度是衡量一个国家和地蛆经济、社会现代化水平的重要标志。而且, 加快现代服务业的发展, 也是落实科学发展观、实现我国经济可持续发展的必然选择。由此可见, 大力发展现代服务业已经成为我国经济发展新阶段的一种必然趋势。徐国祥和常宁认为:现代服务业是在工业化高度发展阶段产生的, 主要依托电子信息技术和现代管理理念而发展起来的知识密集型的生产性服务业[4]。

3.1 指标的选择与说明

本文选取了能够衡量现代服务业发展水平的四个重要指标[5], 并以我国2003~2007年31个省、自治区、直辖市的统计数据[6]来构建进行实证回归分析的基础时序立体数据。

具体的指标口径如下:

①现代服务业增加值 (Y) :该指标是衡量现代服务业发展水平的基础性指标, 其口径为:第三产业扣除交通运输仓储及邮电通信业和批发零售贸易及餐饮住宿业。本文对该指标采取对数处理, 既为了防止数量级过大, 又可以通过回归考察其变化的弹性。

②现代服务业从业人员 (X1) :该指标也与传统的第三产业从业人员不同, 它是第三产业中11个行业从业人数的总和, 包括:信息传输, 计算机服务和软件业、金融业、房地产业、租赁和商务服务业、科学研究, 技术服务和地质勘察业、居民服务和其他服务业、水利, 环境和公共设施管理业、教育业、卫生, 社会保障和社会福利业、文化, 体育和娱乐业、公共管理和社会组织。同理, 本文对该指标采取对数处理。

③人均现代服务业固定资产投资额 (X2) :各地区按主要行业分的全社会固定资产投资与各地区年末人口数的比值。

④生产型现代服务业所占比重 (X3) :生产型现代服务业增加值占现代服务业增加值的比重。生产型现代服务业包括:金融业、房地产业、科学研究和综合技术服务业。

3.2 实证回归简要结果

我国现代服务业时序立体数据回归模型如式 (9) :

lnY=lnX1+X2+X3+ε (9)

按照上文所述的建模过程, 具体回归方程如式 (10) :

lnY=1.22lnX1+1.02X2+2.25X3 (10)

同时, 可以一并计算出回归方程的两个检验结果: ①可决系数: R-squared=0.997。②方程总体线性显著性F检验: F-statistic=19107.371 (prob=0.0000, α=0.05) 。

结果表明:①回归方程中自变量对因变量的解释力比较充分、并且总体线性检验是显著的, 模型的建立总体上是正确的。②回归方程所体现的指标之间的关系符合我国现代服务业发展的经济含义, 尤其是生产型现代服务业所占比重回归系数 (2.25) 正表明了我国现代服务业发展的内涵。

4 结论

本文通过时序立体数据变量间的点积定义, 有效的建立了这种具有立体结构数据变量间的回归模型。整个建模过程有如下两个显著特点:

①对于收集的统计数据, 无需进行“拉直”处理转化为截面数据。

②纵向数据回归模型的研究对象是具有多次时间观测的微观个体;而时序立体数据回归模型首先是对时序立体数据进行平面化处理, 然后通过点积的定义建立变量之间的空间相关关系, 进而达到回归分析的目的。其研究对象并不是微观个体, 而是从宏观的角度来研究数据本身的“立体”相关关系。

摘要:在信息技术快速发展的今天, 数据形式的多样性使得对问题和现象的研究不再局限于单纯利用截面数据或时间序列数据进行分析, 而是从多角度、多维度等方面对这些自然问题、经济问题和社会问题进行深入的分析和探讨。本文所研究的是一种由截面数据和时间序列数据共同组成的具有立体结构的三维数组, 即时序立体数据, 并以定义的点积和常数型均值为基础, 试图从理论上推导出时序立体数据的回归模型。同时, 以我国现代服务业的实际数据进行相应的实证分析。

关键词:时序立体数据,点积,常数型均值,多元线性回归

参考文献

[1]Tucker R L.Some mathematical notes on the three-mode factor analysis[J].Psychomerika, 1966, (31) :279~311.

[2]Tucker R L.Relations between multidimensionalscaling and three-mode factor analysis[J].Psychomerika, 1972, (37) :3~27.

[3]王惠文.时序立体表数据分析的理论研究及其应用[D].北京:北京航空航天大学出版社, 1992.

[4]徐国祥, 常宁.现代服务业统计标准的设计[J].统计研究, 2004, (12) :10~12.

[5]李朝鲜, 李宝仁.现代服务业评价指标体系与方法研究[M].北京:中国经济出版社, 2007:210~214.

[6]国家统计局.中国统计年鉴[M].北京:中国统计出版社, 2004~2008.

[7]何晓群.多元统计分析[M].北京:中国人民大学出版社, 2004.

[8]李子奈, 潘文卿.计量经济学 (第2版) [M].北京:高等教育出版社, 2005.

基于事件的多元水文数据整编与挖掘 篇5

珠江三角洲河网地区水事件频发,每年都会经历洪水、暴雨、台风暴潮及咸潮等事件,受潮汐影响,每天都有潮起潮落,水文环境时刻发生着变化,复杂错综的水事件或因果相关,或偶发叠加,在应对和防御这些事件的过程中,当地水利工程管理部门采取了一系列水利工程调度措施,这些工程开启闭运行指令的组合都构成事件。

这些事件或独立发生,或叠加发生,但均有开始、演变、发展和结束等过程。事件的开始和结束均有明显的时间标记和水文特征值,演变过程由一系列水文特征数值组成,与时间序列对应。它们常常叠加发生,互相影响,具备因果关系,如台风可能导致暴雨、暴潮,暴雨时常与洪水相伴,洪水有时会遭遇天文大潮,应对事件必须要采取相应的工程调控措施,工程措施实施后会影响受控范围的水文特征变化。但事件的过程建立在时间序列上,伴随事件产生和结束。

作为一种新的数据分析工具,数据挖掘技术的发展十分迅速,而水文数据挖掘研究近年来不断发展,从早期水文数据的单项和局部数据的模拟与处理方面[1,2],向对基于水文数据库的全局性、多元化、相似性等因素数据挖掘研究和应用方面不断深入[3,4,5]。本文利用水文数据的相似性特点,提出了基于事件的多元水文数据整编与挖掘思路,通过对事件的分类、定义、数据提取,特征搜索与数据挖掘,以期构建基于水事件的经验模型和知识体系。

正确理解和掌握事件的实时性、连续性、偶发性、多元性、相似性等特点,通过时间序列上的多元相关性分析应用,借助数据挖掘,综合分析,查找出事件发生规律,总结出应对事件的经验和方法,达到对未来事件正确防范、从容应对的目标。

1 中顺大围试验区基本情况

中顺大围试验区位于广东省中山市,属珠江三角洲河网地区,长120 km,分东西2条干堤,与南部五桂山区构成1个790 km2的三角形防洪工程,沿堤近50座水闸控制着内部上百条纵横交错的河网流态,形成了1个封闭的流域范围,围内(中顺大围范围内)主要水事件有洪水、暴雨、台风、咸潮及水闸调度等5类事件。

1.1 洪水事件

主要指西江上游产生洪峰,中顺大围外江水位上涨,参考水文站水位到达防洪预案设定限值时的演变过程,关注重点是外江水位、潮位,围内降雨和内河水位,同时关注与之伴随的工程调度措施。洪水期间,堤防水闸一般关闭,围内河网水体停流,如遇围内暴雨或外江水位长期高位维持,围内则面临内涝和水环境恶化的困境,需要挖掘或提取综合利用洪水资源、借助下游潮汐和泵站调度解决内涝或水环境困境的知识体系,建立应对洪水事件的经验模型。

1.2 暴雨事件

主要指围内发生降雨,根据强度演变为可能的暴雨、大暴雨等事件,导致围内内河水位上涨,重点关注降雨量、降雨强度、内河水位演变过程,相关关注外江水位、潮位及与之伴随的工程调度措施。暴雨期间,需要对围内水量预排,排水量大小关系内涝和围内工农业用水,需要挖掘或提取历史暴雨及预排的应对调度措施,建立不同降雨量、强度下围内河涌水位上升速度与排涝工程措施的关系模型,以期建立起应对暴雨事件的经验模型。

1.3 台风事件

主要指西太平洋或南海生成的热带气旋,视强度不同经由热带低气压、热带风暴、强热带风暴、台风、强台风、超强台风等6个等级的变化过程。重点关注中心位置、移动方向和速度、风力等级等,相关关注由此产生的降雨、水位、潮位变化及采取的工程调度防御措施等。台风往往带来大的风暴潮和暴雨,但有时并没有多少降雨,因此在防御台风事件时常常综合防御暴雨事件,围内水位与风暴潮高度的反向水头差大小直接影响水闸工程的安全,需要挖掘和提取历史上防御台风和暴雨综合事件过程中的水文模型和相应的工程调度措施,正确掌握确保工程安全和防止内涝的平衡关系。

1.4 咸潮事件

至枯水季节,上游来水不足,伴随大潮,潮水上溯,外江潮水含盐度上升,产生咸潮,咸潮属水质事件,重点关注水体含盐量、潮水位,相关关注应对咸潮采取的工程调度防御措施等。

1.5 调度事件

应对上述事件和围内生产、环境用水而采取的调度措施,由一系列调度指令组成,具体到每个工程个体的开启闭操作指令,如全日关闸、排渍,关闸防咸、蓄水,水体置换等典型调度事件。

中顺大围已建成完善的工程监控系统,包括近100个水位站点、15个雨量站点、4个ADCP流量站、4个自动测咸站,实时获取水位、雨量、流量等水文数据,监控系统长期自动记录工程运行状态。系统已积累了大量的多元水文数据,并将长期不断地持续积累。

2 数据分类与整编

2.1 多元水文数据描述

基于事件的多元水文数据主要划分为以下几类:

1)水位数据。各水位(潮位)站点在时间序列上的数值记录,当水位达到某警戒值时记录为洪水事件。

2)雨量数据。各雨量站点在时间序列上的数值记录,当录得降雨时,记录降雨事件,视记录降雨量大小区分暴雨、大暴雨、特大暴雨事件。

3)热带气旋数据。热带气旋时间序列上的特征值记录,包括中心位置、移动速度、中心风速、气压等。视中心风速在时间序列上区分热带风暴、强热带风暴、台风、强台风、超强台风。

4)咸潮数据。潮水含盐量在时间序列上的特征值记录,当录得盐度值时记录咸潮事件,视咸度值大小,启动关闸防咸调度事件。

5)调度数据。为满足各种事件防御需要而启动的工程运行指令组合,依调度目标不同,启动不同调度事件,记录时间序列上各被调度工程的启闭运行状态。

6)事件数据。反映事件类别、名称、编号、开始和结束时间,以及事件水文特征信息等。

2.2 多元水文数据整编

2.2.1  数据现状

数据整编的目的是为了满足基于事件的多元相关分析和数据挖掘需要,为了获取和积累事件应对经验和知识体系。

中顺大围水文遥测系统按照规范标准建有水文遥测数据库,由于站点建设的时间先后,存储了跨度达1~20 a的数据,较为完整的数据为6 a内数据,流量数据不足1 a。

2.2.2  整编原则

数据整编按照以下3个原则分类进行:

1)区分时间精度。指基于事件特征记录值的时间间隔密度,最高时间精度为初始入库时的原始记录间隔值,一般为5 min间隔。提出时间精度概念,是为了便于检索和查询,提高数据挖掘效率,不同的时间精度,整编出不同的数据表库对应,以满足不同时间尺度下的查询分析和应用展示。按照不同的时间精度,主要整编了5、15 min,1、4、24 h数据;5 min~1 h数据时间跨度不超过1月,1 h数据间隔以上数据跨度不超过1 a。

2)按照事件分类。整编不同时间精度下的水位、降雨、热带气旋、咸潮、工程调度运行等数据。

3)面向数据挖掘。数据挖掘是基于事件的多元水文数据整编的目标,整编、搭建易于挖掘和综合分析的数据仓库系统,为获取经验和知识模型提供保障。

2.2.3  整编方法

以自动整编为主,人工干预为辅进行整编,基于水文遥测和工程监控系统的为数据源,在数据管理系统中通过软件进行自动整编。

水位、雨量、咸度、流量数据通过数据库服务软件自动提取和抽稀获取,并重构不同时间精度的多元水文数据库;

调度事件数据通过自动获取工程监控系统中的工程开关状态及时间,在人工辅助下完善不能自动获取的工程运行状态数据,随着中顺大围工程调度决策支持系统的建成运行,调度事件数据整编也会实现自动化;

热带气旋数据库借助第三方专业台风监控平台自动获取,并且实时更新;

事件数据整编由人工生成并通过历史数据校准。对于洪水事件,当参考站水位值达到限值时自动记录开始时间,以上级三防部门的预案启动和结束的通知做校核;暴雨事件由气象部门的预警信息作为启动和结束点,以事件结束后的历史降雨数据做校核,重新界定起止时间;台风事件按照气象部门的预报和级别人工输入;咸潮事件由系统界定咸度超标时记录,低于标准时结束。

人工辅助干预的事件整编已纳入业务部门的值班人员日常工作范畴,通过系统界面录入即可,事件分类已经约定,事件和编号由系统自动生成。

3 多元水文数据挖掘

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[6]。数据挖掘技术在人工智能领域,习惯上又称为数据库中的知识发现(KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤[7]。知识发现过程由以下3个阶段组成:1)数据准备;2)数据挖掘;3)结果表达和解释。

本文提出基于事件的多元水文数据挖掘,旨在通过对本地区水事件的相似性分析,对各类事件演变过程产生的时间序列数据进行抽取、清理,经过系统加工、汇总和整编构建数据仓库,在数据挖掘技术支撑下,获取各类事件的特征和演变规律,重要的是获取应对事件所采取的综合调度措施、方法,积累一系列经验模型和知识集合,为积极应对洪水、暴雨、风暴潮等严重水事件,科学调度水利工程提供决策支持。

3.1 多元水文数据表达

中顺大围工程调度系统是集信息采集、通讯网络、远程监控、调度指挥、决策支持系统为一体的水利信息化应用系统,其中工程调度决策支持系统是系统的核心。调度决策支持系统以数据仓库和挖掘为目标,基于事件,对多元水文数据进行挖掘,应用仪表盘软件设计思路表达,在时间序列上,综合表达水位、雨量、流量、事件、咸度等多元水文信息,开发了多元水文信息查询系统,系统界面如图1所示。

系统将水位、雨量、流量、咸度等多元水文信息与事件集成在同一时间轴上,形成时间流与数据流对应,时间尺度与事件尺度对应,直观显示在同一事件时段内水位、降雨、流量、咸度等的变化及相关性。图1中左侧为特征查询数据显示区,右侧为综合查询选择区,顶栏为时间精度选择,中间多元信息查询显示区可依次选择水位、雨量、流量或咸度,也可自由组合,无降雨的季节可以补充选择咸度,底部3栏自上而下分别为事件、时间、月相等轴。

事件轴:用标准台风、暴雨符号、自行设计的工程调度指令符号标注事件的开始和结束时间点。

时间轴:在时间轴上拖动选择框可以方便地选择时间范围,也可以左右扩展时间框范围,不同的时间精度也约定了相应的时间范围,选择事件的开始标志可以框定事件开始到结束的时间范围框。

月相轴:感潮地区,非常关注农历时,潮汐规律与月相相关,月相轴用月亮的阴晴圆缺变化来直观表达潮汐规律,同时也是农历时间轴。

3.2 多元水文数据挖掘

数据挖掘通过分类、估计、预测、相关性分组或关联规则、聚类、描述、可视化等流程与方法获取知识和经验模型[6]。

由于已构建了基于事件的多元水文数据仓库,基于事件的水文特征聚类分析变得可行和简单。传统结构化数据库管理系统提供的多项复合条件检索,已为中顺大围工程调度决策支持系统获取一系列水事件发生规律,包括时间、演进、特征范围,特别是为获取应对事件所采取的防御措施、调度方法等知识经验提供便利,辅以专家决策,对将要发生的水事件进行评估和特征预测也已初步可行。

多元水文信息查询系统目前已实现基于SQLServer数据库的综合应用查询,可以综合查询台风、暴雨及综合调度事件,借助数据库复合检索查询,获取历史台风、暴雨产生的多元水文特征数据,以及基于事件(相似形分组[6])的关联查询,通过综合分析和挖掘,获取的知识和经验模型包括历年洪水特征和演进、暴雨及特征、台风演进及暴雨、暴潮特征、咸潮规律等模型,以及防御上述事件所采取的工程综合调度模型。在试验区内,基于算法的数据挖掘尚在起步中。

4 结语

本文提出的思路,是在中顺大围工程调度决策支持系统建设中的一个应用尝试,数据仓库和挖掘是一门新兴技术,涉及一系列数据仓库支撑技术[7]、各类挖掘算法[3,4],需要在今后系统深入建设中进一步深入应用和研究。

摘要:珠江三角洲河网地区水事件频发,且事件又具因果相关、偶发叠加等多元性特点,为此提出基于事件的多元水文数据整编与挖掘思路,在计算机信息系统上实现对多元水文数据的相似性分析和挖掘,可望得出一系列基于事件的经验模型,为防御和应对洪水、暴雨、风暴潮及其他水事件提供决策支持。

关键词:事件,水文数据,时间序列,数据挖掘

参考文献

[1]艾萍,王志坚,索丽生,等.水文数据在线分析与知识发现系统模型研究[J].水利学报,2001(11):15-16.

[2]艾萍,倪伟新.我国水文数据挖掘技术研究的回顾与展望[J].计算机工程与应用,2003(28):13-14.

[3]李士进,朱跃龙,张晓花,等.基于BORDA计数法的多元水文时间序列相似性分析[J].水利学报,2009(3):378-379.

[4]张奕韬,万定生.水文时间序列关联规则挖掘模型研究[J].计算机与数字工程,2008(12):35-36.

[5]欧阳如琳,任立良,周成虎.水文时间序列的相似性搜索研究[J].河海大学学报:自然科学版,2010(3):241-242.

[6]谭建豪.数据挖掘技术[M].北京:中国水利水电出版社,2009:128-185.

教学质量评价数据的多元统计分析 篇6

关键词:教学质量,聚类分析,主成分分析

一、引言

随着高等教育规模的日益扩大, 教学质量问题在办学水平中越来越备受关注。自2004年起, 我校教务部门和刘文教授课题组就开始致力于教学质量监控体系的构建及实践的研究, 通过3年的研究, 建立了一套科学、完善的教学质量监控体系, 并有效地运行在教学管理工作中, 使我院在教学质量监控的内涵和评价技术手段上得到巨大的提升, 有效地保障了教学质量。

当前我校教学质量评价项目主要有:教师课堂教学质量评价 (领导评价) 、教师课堂教学质量评价 (督导专家组评价) 、教师授课质量调查 (学生评价) 等, 在这些项目中对评价数据常用的分析方法有总评分、平均值、标准差、最大值、最小值等。这些常用的评价方法计算虽然简单, 但降低了评价结果的可靠性和有效性, 对数据信息的利用效率较低。在很大程度上限制和影响了教学质量的评价及信息的利用。因此, 探寻和建立科学、规范、完善的教学质量评价标准及统计评价方法, 将是提高教学质量评价的重要手段。

二、教学质量评价数据的统计分析

选择本校“教师课堂教学质量评价”作为标准, 由各专业的学生进行评教, 以此评价承担教学的教师其教学质量在学生中的看法及教学效果的优劣。

1. 课堂教学质量评价指标的描述

学生对教师的教学质量评价有8项指标, 评价指标的具体内容为x1:教学严谨, 仪表端庄, 无迟到、早退、拖堂等情况;x2:内容熟悉, 重点突出, 条理清楚, 概念准确;x3:板书规范, 字工整、清楚;x4:能理论联系实际, 内容充实, 并注重知识更新;x5:善于引导和启发学生思维能力的培养;x6:语言准确、语音清晰, 使用普通话教学;x7:讲课具有吸引力, 学生精力集中, 课堂气氛活跃;x8:认真辅导和批改作业。

2. 数据的描述

课堂教学质量评价表中各项指标权重均为0.125, 评分由0-12.5分构成, 让学生对该学期每位任课教师课堂教学质量进行评分, 再从所有被评价教师中抽出10位教师, 计算他们各项指标得分单项均值, 得到分值数据, 见表1。将数据整理并录入SPSS16.0统计软件, 采用多元统计方法进行统计分析。

3. 聚类分析评价

聚类分析是将没有分类信息的资料按相近或相似程度进行分类的一种多元统计分析方法。接下来对建立的SPSS数据文件进行系统聚类分析。

根据聚类分析树状图1, 对10位教师作三个类别划分得到。第一类:t1、t6、t7、t10;第二类:t2、t3、t4、t8、t9;第三类:t5。

计算三类教师在八项评价指标的平均值, 可以得出:第一类教师在x2、x3、x4、x5、x7评价指标上的得分最高, 说明他们熟悉教学内容、注重知识更新, 讲课重点突出、条理清楚、具有吸引力, 并且能理论联系实际、善于引导和启发学生思维能力的培养, 课堂气氛活跃、学生精力集中, 板书工整规范、字迹清楚。第二类教师代表的是众多教师, 除了第一类教师外, 他们基本上在各项指标上都表现得良好。第三类教师在x3、x4、x5、x7评价指标上的得分较低, 从这几个指标折射出该类教师在授课内容、教学方法、教师基本功、调动学生的学习积极性等方面有待加强和提高。

4. 主成分分析评价

主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。接下来对标准化后的数据进行主成分分析, 根据主成分个数提取原则, 前3个因子的特征值大于1, 提取前3个主成分, 累积贡献率为90.67%, 分析结果见表2。表3为初始因子载荷阵, 表中的每行表示相应主成分与对应变量的相关系数, 由表3可知, x2、x3、x4、x7系数较高, 为第一主成分, 根据评价指标可知, 它反映的是教学内容、教学效果、教学方法的信息;同理, 第二主成分主要反映的是教学态度指标的信息;第三主成分主要反映的是教学效果指标的信息。前3个主成分包含了分析的8个评价指标的全部信息。

另外, 初始因子载荷阵还不能得出主成分的表达式, 把表3中的每行的系数除以其相应的开根后的特征根得到主成分系数向量, 确定出三个主成分函数表达式, 然后利用主成分函数、综合主成分公式:F=0.4348F1+0.3395F2+0.1325F3求出10位教师的主成分值、综合主成分值见表4, 不同教师的综合得分及排名次序为:t1 (1.34) 、t7 (1.29) 、t6 (0.65) 、t10 (0.64) 、t5 (0.53) 、t2 (-0.53) 、t4 (-0.78) 、t9 (-0.87) 、t8 (-0.91) 、t3 (-1.36) 。教师t1、t7、t6、t10得分最高, 分别排在前四位, 这四位教师在教学内容、教学效果、教学方法方面都是排名靠前的, 他们具备了扎实的理论基础和较强的教学能力, 在教学中讲授生动而具有吸引力, 课堂气氛活跃, 善于调动学生思维能力, 深受学生的好评。

三、结论

开展教学质量评价的价值和意义在于:首先, 能够完善教师教学效果考核制度, 奖励在教学工作中有突出贡献的教师;其次, 对教学效果不好、学生反映大的教师及时做出整改, 让教师及时了解学生对课堂教学的意见, 有针对性地改进教学的方式和方法, 不断提高教学质量;最后, 使教学管理部门有效掌握教师的教学情况, 有效地进行教学质量监控。通过对教师课堂教学质量评价表的统计分析, 建立较为先进的教学评价体系, 确立了评价表的统计分析方法, 得到具有统计学意义的反馈结论, 为决策部门制定相关机制提供参考, 为相关人员开发网上评教和教学质量反馈系统解决了统计层面上的技术问题。

参考文献

[1]刘文, 王盈盈, 丁先露.地方中医院校教学质量监控体系的构建及实践[J].贵阳中医学院学报, 2008, 30 (1) :35-37.

[2]贵阳中医学院教学质量监控手册[Z].贵阳中医学院教务处, 2007.

[3]张尧庭, 方开泰著.多元统计分析引论[M].北京:科学出版社, 1982.

多元数据 篇7

分布式查询处理是用户与分布式数据库系统的接口,也是分布式数据库主要研究的问题之一。在分布式数据库系统中,常以两种不同的目标来考虑查询优化,一种目标是以总代价最小为标准,总代价包括CPU代价、I/O代价和数据通过网络传输的代价,另一种目标是以每个查询的响应时间最短为标准[1]。在远程通信网络中,各站点之间的数据传输速度比单机情况下内存与磁盘访问的数据传输速度要慢,在这种情况下,通常以减少传输的次数和数据量作为优化的目标;在高速局域网中传输时间比局部处理时间要短得多,在这种情况下,以响应时间作为优化目标。

在分布式数据库中,分布式多元连接查询处理占有很大的比重,一个连接算法的好坏直接关系到分布式数据库的执行效率[2]。对于多元连接操作,有人利用图论中的最小生成树算法来生成一种连接操作的顺序以使总代价最小,但是这种方法并没有利用数据的分布性特点。本文将利用分布式数据库的这一特点,在最小生成树法的基础上进行改进,提高查询的并行性。

2. 最小生成树法

给定查询Q,设其所涉及到的待连接的关系为{Rl,R2,…R n},用图G(V,E)来表示这个关系以及它们可能的连接,其中V={R1,…R2 R n},E={},估算连接代价作为边上的权。对于n个关系的连接图可以建立许多不同的生成树,每一颗生成树都代表一种连接方案。

最小生成树法可分为如下两个过程[1]:

(1)预处理;根据半连接操作和直接连接操作代价估算模型分别计算Ri和Rj的连接代价,在所估算的两种代价中选取小的连接代价作为连接图相应边上的权值。

(2)构造最小生成树;对于边稀疏的连接图可选择Kruskal算法构造最小生成树,反之可用Prim算法构造最小生成树。

整个算法描述如下[1]:

(1)计算并依据连接代价最小的原则确定连接图各边的权。

(2)输入连接图信息。

(3)用Kruskal算法求最小生成树,并输出。

算法的主要步骤是每次从边集中选取一条未经处理的有最小权的边进行分析,如果Ri、Rj同属于(是一个不相交的节点集合,初始状态Vs={{R1},{R2}…,{R n}})的一个元素集,则将删去,如果Ri、Rj,分别属于的两个元素集,则将边加到T0中,并将这两个元素集并为一个元素集,然后再从边集中另选取权最小的边进行处理,直到找到一棵最小生成树为止。

3. 改进的最小生成树法

由于最小生成树法未利用到分布式数据库数据的分布性,因此本文将提出一种基于最小生成树的连接图划分方法来将连接图划分为多个子连接图,这样不同子连接图内的连接操作可以并行进行,这样就提高了查询的并行性,也就减少了响应时间。

连接图的划分方法描述如下:

(1)根据半连接操作和直接连接操作代价估算模型分别计算各边的连接代价,在所估算的两种代价中选取小的连接代价作为连接图相应边上的权值,然后选择所有连接代价中最小的一个边(设为RiRj),将它划为一组T1。

(2)在剩下的连接中选择代价最小的一个边(假设为RmRn),若该边的两个节点中有一个节点已属于已有的组Ti,而另一个节点不属于任何一组,则将这一条边并入Ti;若两个节点均不属于任何一组,则单独作为新的一组Tj;若两个节点均属于不同的组,则去掉该边。

(3)重复步骤(2)直到所有的边都已分到相应的组。

经过以上处理,就将连接图划分为多个子连接图,子连接图中的连接按照最小生成树法进行。所有子连接图中的连接操作都可以并行进行,随着连接操作的进行,子连接图中的节点最终将合为一个,这样又形成一个连接图,然后利用最小生成树法即可将整个查询操作进行完毕。整个过程如图1所示。

改进最小生成树算法对连接图进行了划分,提高了整个连接操作的并行性,减少了响应时间,但由于各边的权值随着连接的进行是在动态变化的,而改进最小生成树算法在划分连接图时将连接图划分为并行操作的多个连接图,所以很有可能使总代价并非是最小的。不过由于整个方法从头至尾都遵循最小生成树法选择最小权值边的特点,这样就保证了总的代价并不会是最大的。

4. 结束语

本文对最小生成树法在分布式数据库多元连接中的应用进行了阐述和分析,并对最小生成树法进行了改进以提高连接操作的并行性,由此来减少响应时间。通过实践验证,这种方法不仅可以应用到局域网的查询中,而且对于要求事务并行处理的系统同样适用。

参考文献

[1]闫丽,华彦涛,王艳辉.一种基于半连接的分布式数据库多元连接查询优化算法.通化师范学院学报.第26卷第6期:22-23

[2]胡枫,于福溪.最小生成树算法在多元连接中的应用及算法分析.青海师范大学学报(自然科学版),2004年第2期:38-40

[3]胡枫,陶世群.一种分布式数据库多元连接查询优化算法及改进.计算机工程与应用,2001(16):125-127

[4]钟武,胡守仁.一种改进的多连接查询优化方法.软件学报,1998(2)

多元数据 篇8

1 大数据时代广播电视编导人才培养中存在的问题

1.1 实践教学模式落后

首先,校内实践模式不符合当前的时代发展需求。当前大部分高校的广播电视编导专业都开设了实践课程,并建立了以学校、院系为单位的实践平台和技能操作实验室。但总体而言,实践平台在器械设备、技术资源等方面还相对落后,且利用率较低。其次,校外实践基地建设过于陈旧。我国大部分广播电视编导专业都与当地的网络媒体、传媒公司、企事业单位、广播电视台、报社等合作,建立了专业实践基地。但在具体实施过程中时常出现单方面的输出问题,这就导致部分无力承担的媒体单位拒收高校广播电视编导专业的实习生,学生的实践能力得不到锻炼和提高。

1.2 课程模块不合理

目前,我国大部分高校的广播电视编导专业在课程设置方面存在同质化现象。多以中国传媒大学、浙江传媒学院的专业设置为模版,导致该专业学生个性化特色不明显。比如,江苏省常州工学院广播电视编导专业的课程设置主要包括色彩学、电视艺术概论、戏剧戏曲与表演艺术、传播学概论、摄影、广播电视播音与主持等。显然,这些课程多依据广播电视媒体类型设置,与当前大数据时代的多元化需求不相适应。

2 大数据时代广播电视编导多元化培养策略

2.1 完善实践教学模式

如果要完善广播电视编导专业实践教学模式,就应当加强校媒联合,一方面,媒体单位可以为学生提供实习机会和实践基地;另一方面,学生也可以帮助单位进行数据分析与搜集,相互合作,实现互助共赢。其实,西方发达国家早已实现学界和媒体的联合互助,比如,美国哥伦比亚大学就与相关媒体进行了合作,学校向合作媒体提供数据分析,媒体则为即将大学毕业的学生提供多样化的实践机会。目前,我国大部分高校的广播电视编导专业在实践过程中一味强调人员输出,导致合作媒体压力过大,最终拒收实习学生。在大数据时代背景下,高校应当采取措施,及时改变与媒体的合作态势,充分发挥自身的数据可视化操作能力及数据分析能力,与媒体实现优势互补,完善校媒合作机制。

2.2 增加数据信息课程

在大数据时代,广播电视媒体采访的对象不再是人,而是数据库,因此,广播电视从业人员必须具备大数据应用能力。目前,西方国家的媒体要求从业人员能够从庞杂的数据中准确、快速地选取有价值的数据,并预测数据蕴含的有价值信息,且整理成新闻故事。可见,广播电视编导如果要准确、高效完成编导任务,适应当前媒体发展要求,就必须不断提升自身的数据分析能力。但目前我国一些高校广播电视编导专业的课程设置忽视了计算机应用技术,导致这门课程的课时和比分较少。这显然不利于该专业学生数据分析能力的提升。因此,高校应当在广播电视编导专业课程设置中充分重视信息技术专业课程,着力提升学生的数据搜集、分析、筛选和操作能力,培养高素质、复合型编导人才。

2.3 培养大数据分析能力

进入大数据时代,媒体数据分析人员应当主动承担起主导舆论、代表舆论、影响舆论的责任,同时,还应当具备一定的主题把握能力、节目策划能力和舆论引导能力。因此,高校广播电视编导专业应当在人才培养过程中培养学生的政治敏感度和舆论数据分析能力。其次,还要关注学生的信息预警和预测能力。在大数据技术支撑下,对许多有价值信息的预测可能性逐渐加大,因此,应当引导学生利用数据处理技巧对相关数据进行分析,进而完成人类能力范围之外的预测任务。这种预测不仅是指对自然事件的预测,还包括社会事件的预测。高校在广播电视编导专业教学中指引学生关注人们的心理活动、行为方式和语言表达,对这些元素的分析可以为新闻编导提供帮助。

参考文献

多元数据 篇9

多元化经营 (Diversification Strategy) 是企业最重要的经营方式之一, 是企业同时生产或经营两种以上基本经济用途不同的产品或者劳务的一种发展战略。 (1) 多元化经营类型的划分。安索夫的分类。安索夫在其《企业战略》一书中最早提出关于多元化经营的分类, 他将多元化分为四类:水平多元化, 即企业利用现有市场, 向水平方向扩展生产经营领域, 进行产品与市场的复合开发, 针对与老顾客同类的顾客开发出新的产品;垂直一体化, 即企业进入生产经营活动或产品的上游或下游产业, 进行产品的开发;同心圆 (concentric) 多元化, 指以企业原有资源为基础的多元化, 又可以细分为三类:技术市场相关型、市场相关型、技术相关型;混合型 (conglomerate) 多元化, 即企业进入与现有经营领域不相关的多种新领域, 在与现有技术、市场、产品无关的领域中寻找成长机会。利格列与鲁迈尔特的分类。利格列 (Wrigley) 通过计算专业化比率 (SR) 来测量企业的多元化程度, 并据此对多元化经营进行了分类, 见 (表1) 。1974年, 鲁迈尔特在利格列专业化比率的基础上, 又提出了相关性比率 (the Related Ratio, RR) 概念。鲁迈尔特还将利格列分类中的产品改为业务 (Business) 并在此基础上对企业多元化经营提出更为科学的分类。见 (表2) 。 (表1) 和 (表2) 显示了三种多元化经营的内容与关系。所谓主导型多元化是指企业坚持某一行业经营为主, 有限发展其他行业, 其他行业所占的比例比较低。所谓相关型多元化是指企业以某种有形或无形的资源如技术、市场或生产为中心经营相关的多种行业。不相关型多元化则是指企业不以某项生产或资源为中心而是在彼此无直接联系的行业和领域开展多种业务经营。 (2) 其他分类。按多元化经营行业和部门的关系划分, 具体可分为为横向多元化 (Horizontal Business) 、纵向多元化 (Vertical Business) 和纯粹多元化 (Pure Business) 三种。按多元化经营各个行业间是否存在相互关联关系划分, 具体可分为为相关多元化R (Related Business) 和非相关多元化U (Unrelated Business) 两种类型。

二、多元化经营绩效概述及现状分析

(一) 绩效概述

绩效也被称为业绩、效绩、成效等, 反映了人们从事某一活动所取得的成绩或效果。绩效有以下衡量模式:财务模式衡量。财务模式衡量下, 企业的总部是评价的主体, 部门及经理是被评价的对象, 绩效评价的目标是为了适应多元化经营和企业的分权管理需要。这种评价方式是以企业根据会计准则编制的会计报表为基础的, 会计报表中的数据计算出来的指标便于比较, 有很强的可比性;会计报表中的数据均为历史数据, 与未来预测的数据相比具有更强的客观性, 同时, 在进行绩效评价时, 直接从报表中取得严格遵循准则的数据最大限度的减少了人为数据的调整。但单一的财务指标会使得多元化经营的企业的各个责任中心的经理们行为短期化, 因为财务指标的结果通常是由各责任中心的会计部门计算出来的, 可能会忽视企业整体战略目标, 但这并没有动摇财务指标作为绩效评价主要指标的地位。EVA衡量。EVA (Economic Value Added) 即经济增加值, 是在1990年由美国纽约的斯特思·斯图尔特咨询公司 (Stem Stewart) 所提出的一种绩效评价与激励系统。它是指一定时期的企业税后净利润 (NOPAT) 与投入资本的资金成本的差额, 用于衡量绩效评价期企业增加的价值。EVA衡量的目的在于使公司经营者以股东价值最大化作为其行为准则, 积极谋求企业战略目标的实现。相比于传统的绩效管理方法, EVA能够较好地从结果上衡量企业所实现的财富增值, 更好地解释企业使用包括财资本、智力资本等要素在内的全要素生产率。但是学术界对于EVA的实证研究是有所限制的, 计算EVA时所进行的必要调整可能并不符合成本效益原则, 它也无法解释企业内在的成长性机会。平衡计分卡衡量。在1992年《哈佛商业评论》中, 复兴全球战略集团创始人和哈佛商学院教授Robert Kaplan首先提出了“平衡计分卡”。平衡计分卡是以企业相关者利益最大化为目标, 追求各相关利益者之间多元目标的平衡, 设计了财务、客户、内部流程以及学习与创新四类评价指标。其创新之处在于使管理者有了一种准确认识企业绩效的视角, 帮助管理者准确做出正确的战略规划并有效地实施和执行。但是平衡计分卡一般要使用十几个或更多的指标, 对于指标的权重是一个无法回避的问题, 而且平衡计分卡没有给出确切的计分方法, 从而不能产生一个绩效评价的结果, 这种方法在外部评价中难以推广。

(二) 纺织服装业上市公司多元化经营的现状分析

我国纺织服装业上市公司在纺织服装业大类中实施相关多元化经营的情况非常普遍。相关多元化经营的领域从纺织原料生产、纤维品制造、纺织、印染, 到服装辅料生产、服装生产, 到产业用品的生产, 几乎贯穿了整个纺织服装业的产业链。上市公司选择不同的子行业也出于各自不同的目的, 有的是利用自身已有的资源扩大规模, 有的则选择利润率高的子行业进行投资。在向其他行业投资, 实施非相关多元化经营时, 上市公司的选择也是各不相同, 投资的比例与业务收入的比例也都不同。单单从行业类别来看, 上市公司选择最多的是房地产业、医药行业以及酒店业。由于近年来房地产业、医药行业等行业发展迅速, 是利润率较高的行业, 所以使得不少纺织服装业上市公司都选择其作为非相关多元化经营的方向。从2007年我国纺织服装业上市公司实施多元化经营的类型来看, 按照本文采用的多元化经营分类方法 (实证部分有详细介绍) , 实施专业化经营的公司有12家, 占22.22%;实施主导业务经营的公司有10家, 占18.52%;实施相关多元化经营的公司有20家, 占37.04%;实施非相关多元化经营的公司有12家, 占22.22%, 如 (图2) 所示。可以看出, 我国纺织服装业上市公司仅在某一子行业经营的比例还是比较低的, 实行多元化经营已经是纺织服装业上市公司普遍存在的一种情况。我国纺织服装业上市公司涉足相关行业、非相关行业的情况非常普遍。在研究期间 (2005年至2007) , 有的公司在纺织服装业大类中实施相关多元化经营, 利用自身已有的资源扩大规模或者选择利润率高的子行业进行投资, 取得了很好的经营绩效。由于多元化经营对企业的管理能力要求很高, 所以企业要管理好不同业务, 制定合适的经营战略, 是对自身财务能力和经营能力的一大挑战。在实施多元化经营时, 若一味追求多元化、广而泛, 选择与原来主业毫无关联的行业风险会很大, 尤其是没有核心竞争能力的无关联的产品多元化, 往往以失败告终。

三、研究设计

(一) 指标选取

本文根据略加调整的鲁迈尔特分类法把选取样本企业的多元化经营类型分类, 借鉴鲁迈尔特分类法见 (表1) , 主要因为这种方法比较客观和全面, 它运用多元化程度的衡量指标来确定具体数值范围进行多元化类型的分类, 避免因研究者的主观性而造成研究结果的偏差, 而且它是对利格列的分类的改进与补充。由于构建的评价指标要符合科学性原则、可获得性原则、综合性原则和层次性原则, 所以本文依据财务模式衡量绩效的评价方式选出如下指标: (1) 盈利能力指标。权益净利率 (ROE) 又称投资报酬率, 是指企业一定时期内净收益同总资本的比率, 该指标充分体现了投资者投入企业的自有资本获取净收益的能力, 突出反映了投资与报酬的关系, 是评价企业资本经营绩效的核心指标。一般认为, 企业权益净利率越高, 企业自有资本获取收益的能力越强, 运营效益越好。即:权益净利率=净利润÷平均净资产×100%。总资产收益率是指企业一定时期内获得的收益总额与平均资产总额的比率。总资产报酬率表示企业包括净资产和负债在内的全部资产的总体获利能力, 是评价企业资产运营效益的重要指标, 全面反映了企业的获利能力和投入产出状况。—般情况下, 该指标越高, 表明企业投入产出的水平越好, 企业的资产运营越有效。即:总资产收益率=净利润÷平均总资产×100%。 (2) 偿债能力指标。流动比率是指企业一定时期流动资产与流动负债的比率, 是评价企业短期偿债能力的常用指标, 该指标的数值越大表示短期偿债能力越强。即:流动比率=流动资产÷流动负债×100%。产权比率是指企业一定时期负债总额同所有者权益总额的比率, 是企业财务结构稳健与否的重要标志, 是衡量企业负债水平及风险程度的重要判断标准。即:产权比率=负债总额÷所有者权益总额×100%。 (3) 经营风险衡量指标。用盈利能力指标在三年内的标准差来衡量经营风险的大小。标准差大, 表示公司的盈利能力波动越大, 经营风险越大, 反之亦然。即:权益净利率的标准差=[ (第一年权益净利率-平均权益净利率) 2+第二年权益净利率-平均权益净利率) 2+ (第三年权益净利率-平均权益净利率) 2]1/2;总资产收益率的标准差=[ (第一年总资产收益率-平均总资产收益率) 2+ (第二年总资产收益率-平均总资产收益率) 2+ (第三年总资产收益-平均总资产收益率) 2]1/2。

(二) 样本选择与数据采集

本文的研究对象是在沪深两市的纺织服装业上市公司, 其中包括在中小企业板上市的纺织服装业上市公司。为了使实证数据更加具有实效性, 本文选择2005年至2007年三年期间并取其平均值 (没有选取2008年的数据主要原因是金融危机可能影响结论的准确度) , 而且是在2004年以前上市的公司作为样本, 以保证数据的一致性。根据专业化比率小于百分之九十五的划分为多元化经营企业的惯例, 剔除主业收入比例低、多元化经营变动幅度大的公司, 最终得到样本公司42家。实证所需的分行业收入数据, 按照中国证监会指定信息披露的巨潮咨询网, 逐一打开各样本公司2005年、2006年与2007年的年度财务报告, 将分行业收入的原始数据摘录下来, 由于没有统一的披露标准, 本文按照《中国上市公司分类指引》进行分行业数据整理。

四、实证结果分析

(一) 多元经营盈力能力分析

本文拟采用鲁迈尔特的分类法对多元化经营类型进行界定, 考虑到我国纺织服装业上市公司的专业化比率 (SR) 和相关化比率 (RR) 较高, 所以对鲁迈尔特的分类法 (SR=0.7, RR=0.7作为相关多元化和不相关多元化的分类标准) 略加调整。本文分类如 (表3) 所示。从2007年我国纺织服装业上市公司实施多元化经营的类型来看, 按照本文采用的多元化经营分类方法, 实施主导业务经营的公司有10家, 实施相关多元化经营的公司有20家, 实施非相关多元化经营的公司有12家。可以看出, 我国纺织服装业上市公司实行多元化经营已经是一种普遍存在的情况。根据本文确定的企业绩效评价指标, 从各公司的年度报告中提取出需要的数据, 进而计算各个绩效指标。运用SPSS13.0的统计描述功能, 将各组变量的平均值、个数及标准差汇总如 (表3) 所示。从盈利能力方面来分析。通过 (表3) 可以看到相关多元化经营型的权益净利率及总资产收益率这些盈利能力指标都是正数, 从均值来看, 实施相关多元化经营的公司的盈利能力指标明显优于其他两种类型的公司, 而非相关多元化经营的公司的盈利能力则相对最差。这可能是实行非相关多元经营的公司进入陌生的经营领域而导致的营销费用、管理费用等各项费用和成本的增长, 超过了其主营业务收入和主营业务利润的增长率, 最终反而会加剧整个公司净利润的负增长, 使得公司的盈利能力被削弱。从偿债能力方面来分析。根据各组的平均值来看, 实施相关多元化经营的公司的流动比率较另外两种类型的公司高些, 产权比率则相对较低, 这从一定程度上说明相关多元化经营的公司的偿债能力较强, 主导业务型次之, 非相关业务型最差。从经营风险方面来分析。根据分组情况, 相关多元化经营类型的两项盈利能力指标的标准差都是最小的, 这说明企业实施相关多元化经营能够降低净资产收益率和总资产收益率在各年之间的变化程度, 使企业在这三年中保持平稳的盈利能力, 降低了企业的经营风险。主导业务型的经营风险比较大, 非相关业务型的经营风险在三者中是最大的。综上所述, 相关多元化经营类型的盈利能力最好而且偿债能力较好, 经营风险又低, 所以对它的经营绩效评价在这三者中是最好的。主导多元化经营类型的经营绩效次之, 非相关多元化经营类型的绩效最差。

注:A (主导业务型) 、B (相关业务型) 、C (非相关业务型) ;Y1 (权益净利率) 、Y2 (总资产收益率) 、Y3 (流动比率) 、Y4 (产权比率) 、Y5 (权益净利率标准差) 、Y6 (总资产收益率标准差)

注:A (主导业务型) ;B (相关业务型) ;C (非相关业务型)

(二) 多元化经营类型的综合评价

样本经济效益的好坏可以从一定程度上反映出每种多元化经营类型的优劣, 而各种类型样本的比例表示每种多元化经营类型应用的广泛程度。因此, 如果从整体上来考察纺织服装业各种多元化经营类型的优劣, 则需要结合各种类型的样本比例进一步评价各种类型的优劣。本文根据样本比例排名和绩效排名的加权平均值, 计算得到各个类型的一个综合排序值, 其中最小值的为最优模式, 最大值的为最差模式。按照综合排序值由小到大的顺序, 多元化经营模式由优到差。本文根据两种排名的重要性设定每种排名的权重, 由于绩效在多元化类型的综合评价中更为有效, 因此该指标的权重要略高于样本比例的权重。故设定样本比例排名的权重为0.4, 绩效排名的权重为0.6。综合排序值的计算公式为:0.4×样本比例排名+0.6×绩效排名。根据计算公式, 可以计算出每种多元化经营类型的综合排序值, 如 (表4) 所示。由于B类型的综合排序值最小, A类型的综合排序值稍大, C类型的综合排序值最大, 所以可以看出相关业务型的综合评价排名第一, 主导业务型的综合评价排名第二, 非相关业务型的综合评价排名第三, 见 (表5) 。相关业务型的经营效果最好。这主要是企业充分利用剩余资施和剩余能力, 相关多元化经营的领域从纺织原料生产、纤维品制造、纺织、印染, 到服装辅料生产、服装生产, 到产业用品的生产, 几乎贯穿了整个纺织服装业的产业链, 这些都与企业主营业务有着纵向或者横向的关联, 有利于发挥基于核心技术的竞争优势。主导业务型的经营效果次之。这有可能是企业经营品种少, 没有充分利用剩余资施和剩余能力, 使经营风险较大的缘故。非相关业务型的经营效果最差。这可能是企业跨行业经营幅度太大, 在不相关行业没有自己的核心竞争力, 导致投入成本大于收益的原因。

本文对于我国纺织服装业上市公司的多元化经营绩效的评价, 提出了综合排名的方法, 这种方法综合体现了不同多元化经营类型的适用度和绩效, 可以很好的反映出每种类型的优劣, 在样本更多、数据更充分的时候, 这种方法会更加有效。希望本文的方法可以为多元化的实证研究提供一个新思路, 对指导我国企业多元化实践有所帮助。

参考文献

[1]池国华、迟旭升:《我国上市公司经营业绩评价系统研究》, 《会计研究》2003年第8期。

[2]赵晓艳:《多元化经营和公司价值关系的理论与实务》, 《特区经济》2005年第12期。

[3]余鹏翼、金天:《多元化经营与公司业绩:来自我国上市公司的经营证据》, 《会计研究》2006年第4期。

[4]郑爱华:《股权结构、多元化经营与企业绩效研究综述国企业集团行业多元化与绩效关系的实证检验——对DP关系模型的修正》, 《财会通讯》2008年第4期。

上一篇:自然保护区域下一篇:图文系统