多维决策分析

2024-05-04

多维决策分析(精选三篇)

多维决策分析 篇1

当前,社会保险制度的改革和完善已经成为我国各级政府关心的重大问题,随着城镇化发展和社会进步,人们对社会养老保险的认识和依赖日益突出。根据新近实施的《社会保险法》,我国的“社会保险制度坚持广覆盖、保基本、多层次、可持续的方针,社会保险水平应当与经济社会发展水平相适应”的要求,迫切需要对社会保险制度的实施情况做出长期的、大范围的、科学的、定量的评价,而养老保险作为我国社会保险最重要的险种,对其政策合理性、科学性与可持续性的研究尤为重要和紧迫,为此,2003年以来,在国家人社部的统一部署下,各级劳动保障部门积极推进养老保险联网数据上传工作,迄今在国家和省一级的层面已经形成了养老保险海量数据库,同时数据质量也不断提高,建立养老保险分析决策系统(DSS),对这些数据进行有效分析,并使之成为日益紧迫的社会保险精细化管理的支撑,已经成为社会保障部门的重要任务。而要有效地进行这项工作,数据仓库技术和数据的多维分析成为必备的两个技术手段。

1 数据仓库设计

数据仓库是在管理人员决策中的面向主题的、集成的、非易失的并且随时间变化而变化的数据集合。数据仓库特别适用于海量只读数据快速、灵活地按主题进行的分析任务。针对目前江苏省养老保险联网数据已经达TB数量级的实际,采用数据仓库进行养老保险DSS系统的建设无疑是正确选择。

1.1 数据仓库的体系结构

养老保险分析决策数据库独立于养老保险业务数据库系统,但又同业务数据库系统息息相关,其总体结构如图1所示。

(1) 源数据

构成数据仓库的事务数据,目前为江苏省养老保险联网数据库。

(2) 数据加载层(L0)

用于加载源数据的表,L0中的表与源数据的表或数据文件相对应,为保证加载性能,每次加载前都会将L0中的数据清空。

(3) 数据整合层(L1)

为数据完整性计,将所有历史数据都保存在该层中,同时也利于随后报表层数据模型的扩展。

(4) 报表层(L2-Ln)

多维数据模型,供数据分析、数据挖掘和报表展示用。

(5) ETL流程

通过ETL任务,将数据从源数据依次加载到L0、L1,最终到报表层(L2-Ln)供多维分析使用,主要任务包括数据的抽取、转换和加载等。

(6) 数据展现工具

主要由查询生产工具、多维分析工具和数据挖掘工具等组成,本系统主要使用SAP的WEBI作为数据展现工具。

1.2 数据仓库的数据组织

养老保险分析决策系统中的元数据是有关社会保障领域内养老保险业务数据的数据。它记录了养老保险数据的描述、数据类型、域、结构、内容、键、索引等项内容。比如“个人缴费基数”数据的描述是:它是参保单位和参保人缴纳社会保险费数额的基本数据,缴费基数的高低决定缴费额的多少,影响参保人社会保险待遇的高低。元数据中的数据类型用于说明数据仓库中数据所特有的类型,这些类型可能有:图像、布尔、整数、字符、浮点数等。元数据中的数据粒度是数据细致化程度的级别,直接反映了数据细节信息。

1.3 数据仓库的开发模型

目前关系型数据库理论已经非常成熟,因此对OLAP多维数据的表示和存储多以关系数据库为核心,利用关系型数据结构来进行设计。关系数据库将多维数据库中的多维结构划分为两类表,一类是事实表,用来存储养老保险数据事实的度量值和各个维的码值;另一类是维表,即维的描述信息,包括维的层次和维成员。所谓“事实”实际上是不同维度在某一取值下的交叉点;维表和事实表通过主关键字和外关键字相联,这种结构被称为“星型”模型;而对于层次较为复杂的维,为了避免冗余数据占用过大的存储空间,原有的各维表可能会被进一步扩展为小的事实表,形成一些局部的“层次”区域,这种结构是对“星型”模型的扩展,称为“雪花”模型。图2就是养老保险分析决策系统中的“雪花”模型。

在图2中,养老保险单位缴费数据为事实表,并包含了三个维表:参保单位维度表、地域(行政区划)维度表和时间(年度月份)维度表。其中参保单位维度表用了多张维度表来表示,形成了明显的层次关系。

数据仓库的模型定义完后,ETL流程会将从数据源的提取数据装入数据仓库中,DSS系统根据业务主题进行相应的数据综合,最终用户的分析请求被动态翻译成SQL请求,然后由关系数据库来处理SQL请求,最后查询结果经过多维展现工具处理后结合表现层的相应技术返回给用户。

2 多维数据分析设计

多维分析就是联机分析处理OLAP,是针对数据仓库应用中广泛出现的大量的聚集操作而产生的一种新技术。决策者需要的数据往往是多指标的数据,需要从多个角度观察某一指标或多个指标的值,并找出这些指标间的关系,这些数据结果总是与不同的观察角度和不同的数据级别相关,这些观察数据的角度称为维。分析决策数据是多维数据,多维数据是分析决策的主要内容。

2.1 养老保险多维数据的基本概念

(1) 数据变量

也叫变量,是指养老保险数据的实际意义,即描述养老保险数据“是什么”,通常是一个反映养老保险业务数值度量的指标。根据人社部“养老保险联网指标”文件的规定,目前我国养老保险的联网指标有180项,从理论上讲,这180个指标项都是养老保险DSS的数据变量。数据变量是与分析主题密切相关的。

(2) 数据维

指养老保险业务分析人员观察数据的角度。养老保险数据的维度是相当多的,比如研究数据变量随地区变化情况的地域维,研究数据变量随时间变化情况的时间维等。

(3) 数据维的层次

考虑到分析人员对养老保险数据存在细致要求程度不同的需求,在顶层的维度之下又设计了若干层次的子维度,比如地域维就有省、市、县三个层次的子维度。

(4) 维成员

维的一个取值称为该维的一个维成员。如果一个维是多层次的,那么该维的维成员是在不同维层次的取值的组合。比如“江苏省、淮安市、楚州区”,就是地域维的一个维成员。

(5) 多维数据集

多维分析使用多维数据集作为存储结构以加快查询的执行。养老保险数据分析的一个多维数据集可以表示为:(维1,维2,…,维n,数据变量)。例如“征缴率”是按时间、地域和参保人类型组织起来的三维立方体,用多维数据集表示为:(时间,地域,参保人类型,征缴率)。

(6) 数据单元

多维数据集的一组取值称为数据单元。数据单元是多维数据集的核心值,是用户在数据仓库应用中所看到的数据。“2010年3月江苏省淮安市楚州区企业职工养老保险费征缴率为98.6%”用数据单元表示为:(2010年3月,江苏省淮安市楚州区,企业职工,98.6%)。

2.2 多维分析设计

OLAP分析保证高效地对大数据量进行多维分析查询,透过针对各种分析主题定义数据立方体,使决策分析人员可以在多维模型的基础上访问数据,并进行数据切片、切块、钻取、旋转等分析处理。基于Kimball维度建模设计思想,构建多维分析模型需要做以下工作:

(1) 主题分析

目前养老保险联网指标涵盖了养老保险全业务,分析主题可以有很多,我们选择用户需求最为迫切的“基金监管”主题域进行主题分析,该主题域包括“基金征缴分析”和“基金安全分析”两个分析主题。

• 基金征缴分析

可以使用户从多个方面了解基金收入的总体情况及变化趋势,它通过基金收入金额、参保情况、缴费情况、养老金发放情况等方面反映一段时间一定地域范围内的基金征缴情况。

• 基金安全分析

从养老金征缴和发放的业务环节筛查重复参保、重复领取养老金的违法违规行为,为制定科学、有效的防范措施提供数据支持,避免基金受到损失。

(2) 事实表设计

事实表设计要注意两点,一是数据粒度的确定,二是事实度量的确定。数据粒度的确定历来是数据仓库设计过程中的一个难点,其合适与否事关存放数据量的大小,影响数据仓库所能回答的查询的类型,对查询性能的影响也很大;为了有效解决这个难题,我们在数据量与分析业务之间找平衡,采用了“双重粒度级”的解决方案,即同时提取具有轻度汇总数据级和真实细节数据级(最低粒度级)的数据,大部分的数据分析是针对被压缩的、存取效率相对高的轻度汇总数据级数据进行,需要分析更低的细节数据时才访问最低粒度级数据。比如在“基金安全分析”中,需要找出在全省范围内重复参保和重复领取养老金的人员,这个查询就要求最低粒度级的数据分析粒度,即要到参保个人的级别;而在“基金征缴分析”中主要分析养老金征缴情况随时间和地域的变化趋势,因此数据粒度到行政区划(省-市-县)级即可。为了提升低粒度数据分析的效率,我们在设计相关维度表时,尽可能依照分析主题的业务性质使用多层次维,这样既提高了查询效率又丰富了钻取层次,扩大了数据分析的丰度。

事实表的度量字段切忌过多,能覆盖分析指标项即可,而维参照字段则必须覆盖针对该事实的观察维度需求;出于查询性能的考虑,事实表之间的参照关系应尽可能简单。根据养老保险联网数据的表结构,结合业务需求,基金监管主题域共设计了七张事实表和三张汇总据事实表,包含67个指标度量,分别覆盖有关参保单位/个人的缴费、欠费、发放的轻度汇总数据级和最低粒度级数据以及个人账户情况等事实的度量。

(3) 维度表的设计

因为养老保险业务多,经办区属层次及分布广,分属不同业务和区属的分析人员对同一事实数据的观察角度非常多,因此,养老保险数据分析维度设计是DSS设计的重点。在对数据维度进行梳理的基础上,我们对数据维度做了抽象和提升,从顶层设计了四个维度,分别是:研究变量随地区变化情况的地域维,研究变量随时间变化情况的时间维,研究变量随企事业单位变化情况的参保单位维以及研究变量随参保人变化情况的参保个人维。对于这四个顶层维度,我们关注其内部维层次的设计,以参保单位维度为例,实际上,各个参保单位是独立的,没有层次关系,但如果把十几万家单位都放在同一层表示的话,不仅影响多维分析的效率,而且也无法区分各级各类养老保险征缴和待遇发放业务,为此,我们引入若干虚拟参保单位层次维,把参保单位组织成一个树状结构,其属性成员如图3所示。

2.3 数据挖掘

我们探索提供多种数据挖掘算法以实现对养老保险数据的挖掘,有效支持养老保险业务趋势的分析和预测,提高对养老保险业务监控的时效性和敏感性。

养老保险政策测算模型 用于养老保险新政策的测算及老政策的调整测算。我国养老保险政策的调整近年来呈现频度加大、调整幅度加大的趋势,每一次政策调整都会对基金收入和支出产生重大影响,而且,这些影响往往是长期性的,影响巨大,建立政策测算模型进行评估非常必要。

养老保险基金支付预测模型 采用时间序列挖掘方法,建立养老保险基金支付预测模型,预测今后一段时间基金支付情况,并能细化到各地市、各区县,为基金监管提供支持。

养老保险欺诈行为检测模型 根据参保人的缴费与养老金领取数据,设计异常数据挖掘算法,找出重复参保和重复领取养老金人员的业务特征,有效防控各种骗保行为,以保证养老保险基金的安全。

2.4 多维数据分析实现

将上述设计应用到Oracle数据仓库平台来创建数据仓库,使用SAP的WEBI作为数据展现工具,采用Oracle Stored Procedures和Oracle Job scheduling技术实现ETL流程,我们开发了江苏养老保险分析决策系统。下面是参保单位缴费事实表F_COM_PAY_PENSION的创建脚本,其他表的创建类似。

3 结果和分析

基金征缴分析仪表盘是基金征缴分析主题的粗粒度汇总层次页面,是基金征缴的全局分析模块,通过仪表盘用户可从空间(地域)和时间(年份月度)两个方面了解基金收入的总体情况及变化趋势,如图4所示。

(1) 参保征缴地域分布分析

地域分布反映某一个时间点上参保单位和参保人在各个地域层次上的分布情况,该功能统计参保单位和各类参保人(分为单位职工和农民工)养保缴费人数和金额在各个地域的分布,并进而算出负担系数、参保缴费率、征缴率和清欠率等养老金征缴业务中的重要指标数据随地域的变化情况,可以了解各地基金收入的变化异常,以及应收、实收的不平衡性,这些数据既可作为变化分析也可作为相关比对分析,对保证基金平稳非常重要。

(2) 参保征缴时间趋势分析

时间趋势分析反映某一个地域(省、市、县)上参保单位和参保人在不同时期参保和缴费情况,该功能统计参保单位和各类参保人(分为单位职工和农民工)养保缴费人数和金额随时间的变化趋势,并进而算出负担系数、参保缴费率、征缴率和清欠率等养老金征缴业务中的重要指标数据随时间的变化情况,通过趋势分析,可以了解基金收入的走势和变化异常,及时制定决策,采取应对措施,达到基金监管的目的。

以上两个模块反映养老保险基金征缴的整体情况,各部分均可链接到相应的主题模块,通过数据钻取进一步进行明细情况分析。

在基金安全分析主题中,事实表采用最低粒度级的参保人缴费/养老金领取数据,维度采用地域和时间两个维度,针对全省千万条记录级的海量数据(已按时间分区)分析处理,钻取时间均控制在3秒钟以内,达到了设计要求。通过这个主题分析,系统定期筛选出危害养老保险基金安全的违规行为,提交给相关劳动保障职能部门监管和处理,已为国家避免了上百万元的损失,运行结果参见图5~图8。

4 结 语

自国家金保工程正式实施以来,数据库系统作为MIS的基础在劳动保障领域得到了广泛应用,但数据仓库作为决策支持系统(DSS)的基础在该领域的应用还处于相对初级阶段。本文从实际出发,对基于数据仓库的养老保险分析决策系统的数据多维分析设计进行了比较全面的分析,并给出了实现方法,并在确保基金安全的相关数据挖掘方面进行了有益探索,效果比较理想,相信会推动数据仓库技术以及DSS技术在劳动保障领域的应用和发展。

参考文献

[1]Kimball R,Ross M.The Data Warehouse Toolkit:the Complete Guideto Dimensional Modeling[M].北京:电子工业出版社,2003.

[2]夏火松.数据仓库与数据挖掘技术[M].北京:科学出版社,2009.

[3]叶学芳,何跃.石油钻井信息系统中多维分析的设计[J].计算机应用与软件,2010,27(11):16-18.

[4]刘萍萍,等.多维分析在养老保险原型系统中的应用研究[J].计算机与数字工程,2008,36(2):55-56.

[5]严任远.基于数据仓库的企业OLAP多维模型的设计与实现[J].情报杂志,2006,9:21-25.

多维分析信息网络论文 篇2

1多维分析视角的同构信息网络分析

1.1多维网络

同构信息网络属于新型的数据形式,为了对其进行分析需要实现简单模型的建立,以该模型为基础进行分析操作。将同构信息网络进行抽象之后就得到了多维网络模型。例如一个小型的社交网络,将社交网络中的每一个人都视为一个节点,每一个节点都具有姓名、国籍、职业、年龄、学历等多维属性。两个节点之间的连线代表着两人的朋友关系,可以实现信息的共享,因此两节点之间的线中都包含了多条信息,而每条信息中又包含了ID、信息、主题等多维属性。通过多维网络实现了对社交网络的建模,从而对社交网络中的实体信息进行了展示,从而将实体与实体之间具体的关系进行了表示。

1.2简单嵌套立方体中的联机分析处理操作

在对简单嵌套立方体进行分析的过程中,选取双向两层联机分析处理查询方式,主要包括点到边的查询与边到点的查询两种类型。为了能够对这种查询进行更好的理解,沿用上文社交网络的例子来进行说明。在多维网络中可能存在的联机分析处理类型的查询包括:第一,不同国家的人如何实现信息的共享及信息在不同类别如何发布;第二,对特点信息进行分享的人在职业方面的结构分布。这两个查询都涉及到多维网络的聚集操作,首先从对应的图立方体中找到对应的度量网络,之后从对应的数据立方体中找到答案对应的度量。首先,点到边的查询。首先对结点进行分析,之后再对边进行分析,也就是所谓的先对图立方体进行多维分析,之后再对动态生成的`数据立方体进行多维分析。在对上面的第一个类型进行查询的过程中,首先依据国籍维度对所有的节点进行分组,将在国籍方面具有相同值的节点划分到同一组中,同时将这些节点对应的边进行合并,从而得到不同国籍之间所分享的信息,之后再对这些分享信息按照类别对其进行划分。其次,边到点的查询。首先对边进行联机分析查询,之后再对节点进行分析,也就是说先对内层数据立方体进行分析,之后再对动态生成的图立方体进行分析。在对上文第二类型进行查询的过程中,首先应该对所有的共享信息的类别分布进行计算,之后在对特定的类型进行选定,从而对该类别信息进行分享的人进行选择,之后在对这些选择的人的职业拓扑情况进行计算。通过对共享信息类别的分布进行计算得知人们对政治信息关注较多,在选定了政治类别的信息之后,对共享这些政治信息的人们的职业拓扑分布进行计算,从而得知教师、医师之间进行政治信息共享的较多。

2多维分析视角的异构信息网络分析

2.1多维异构网络

图1代表一个小型的多维异构网络,其中结点代表两种实体,方形代表的是作者,三角形代表的是论文,两者之间的连线代表论文是该作者所发表,若两个三角形指向一个方形,则证明两篇论文为同一位作家所发表,如果两个方形指向一个三角形,则证明两位作家共同发表了一篇论文。图1中的多维异构网络对文献网络进行了形象的刻画,一方面对作者的合作关系与论文的出处关系进行了表达,另一方面对作者与论文两种之间类型之间的关系进行了表达。在多维网络中包含了两种不同类型的实体,因此将其称之为两类型多维异构网络。

2.2两层嵌套立方体

通过两类型多维异构网络可以实现两层嵌套立方体的获得,由图1所示的两类型多维异构网络可知两层嵌套立方体主要包括两种情况:第一,重视对V1类型实体与实体之间的关联进行重点研究,则V1类型实体的属性构成了未曾图立方体的维度,通过对其属性子集聚集进行计算得到图立方体,将图立方体的度量作为度量网络,将V1实体进行分组,不同小组之间的V2类型实体的属性构成了内层数据立方体的维,通过对其属性子集聚集进行计算得到数据立方体。数据立方体存在与图立方体的度量中,两者之前形成嵌套关系。第二,重视对V2类型实体与实体之间的关联进行重点研究,将V2实体集合构成外层他立方体,V1类型实体结合构成内层数据立方体,两者自检相互嵌套。综上所述,两层嵌套立方体指的是外层图立方体中包含内层数据立方体,同一种类型的实体既可以构成内层图立方体,也可以构成外层的数据立方体。因此,同一个两种类型多维异构网络依据分析角度可以分为两个两层嵌套立方体。在两层嵌套立方体中,两类对象存在既独立又关联的关系。

2.3多层嵌套立方体

两种类型的多维网络能够形成对应的两层嵌套立方体。在异构信息网络中,实体类型包括多种类型,两层嵌套立方体可以扩展成为多层嵌套立方体。例如三种类型的异构网络能够形成六个不同的三层嵌套立方体。因此,多方体中同样适应。此外,还可以通过复合查询的方式对多层嵌套立方体中的多种类型分析对象进行查询。在多层嵌套立方体的联机分析处理操作过程中,N层嵌套立方体上的复合查询需要N-1次转换分析对象操作,从而形成N-1个部分立方体。

3总结

多维决策分析 篇3

随着各行业各业务系统的不断建设和部署, 由于各系统建设的时间不同、使用的开发技术不同以及研发单位不同, 导致各系统处于自我封闭状态, 形成各信息孤岛;尤其是绝大部分的业务系统属于信息处理系统, 每天产生大量的交易业务数据[1,2,3]。因此如何快速有效地从海量各信息孤岛的多源异构数据中进行信息集成和加工处理, 提取出高于各业务系统的有价值高层决策信息, 是当今信息处理领域的一个新的重要研究方向, 即系统之系统 (System of Systems) [4,5,6], 如图1所示。

为更好地阐述面向多源异构数据的多维决策分析与可视化方法, 结合承建的嘉定气象局项目, 以气象数据为例进行研究。众所周知, 与天气相关的气象数据记载已经由来已久, 随着观测手段和技术的不断创新和发展, 形成了多维立体的观测手段, 如自动气象站、卫星、雷达和GPS等;另一方面, 气象领域是信息化建设最早和应用广泛的行业之一, 因此气象行业的信息化程度非常高, 具体体现在不同的时期建立了满足不同业务需求的信息化系统, 随着观测密度的增强和观测频次的提高, 气象部门已积累了海量多源异构的气象历史数据, 因此选取气象数据作为研究对象是合理的且具有现实意义的[7,8,9]。鉴于气象局精细化天气预报业务对数据高质量的特殊要求, 气象专业通信网络的不断建设, 各观测信息系统产生的资料数据多以分发的方式, 由相应业务单位在线获取并保存在本地, 考虑到分发的效率, 大量的资料数据以相对固定的文件格式进行存储。这对利用二次资料做高一层次的多维决策分析提出了严峻的挑战。

虽然, 气象业务上已开发一些用于气象数据处理和展示的软件, 但与当今高准确的精细气象业务需求和现今的信息技术发展相比, 原有系统存在着以下几个方面的不足[10]:首先是没有采用本地数据库技术, 因此存在处理的数据量有限且分析深度不足的缺陷;其次, 缺乏专题决策的功能, 因原有系统数据来源相对单一, 考虑分析的效率存在历史数据的时间间隔相对较短, 因此无法实现特定专题决策所需的数据;再者是分析结果的展示方式单一, 多以表格的方式呈现, 没有实现多种图表并存展示的可视化技术;最后, 没有实现无用户管理的多用户并发分析, 原有系统是以单机单用户方式进行分析。

针对以上问题, 在分析现有气象数据处理与展示平台的基础上, 提出一种面向多源异构数据的多维决策分析与可视化方法。

1 面向多源异构数据的多维决策分析与可视化流程

为更好地阐述本文提出的一种面向多源异构数据的多维决策分析与可视化方法, 结合该方法涉及的主要环节和处理流程, 形成如图2所示的处理框图。

此处理流程主要包括数据自动抽取与格式转换模块 (含实时在线访问控制模块) 、基于专题的多维数据分析模块以及多形式的可视化展示模块等。下文针对每一核心模块进行分析设计。

2 多源异构数据的自动抽取与格式转换

2.1 数据的来源和特点

经调研, 目前主流的数据来源可归纳为四大类, 分别是远程FTP服务器、远程数据库服务器、局域网数据库服务器和本地数据服务器。其中: (1) FTP服务器方式是指通过互联网获取连接到一台或多台FTP服务器的数据; (2) 远程数据库服务器方式是指从物理距离较远的多台远程数据库服务器获取数据; (3) 局域网数据库服务器是指从局域网或企业网上的数据库服务器获取相应的数据, 与第二类的差别主要在网络跨度上; (4) 本地数据服务器方式是指从本地服务器上获取本地的数据文件等。

不论是哪种方式获取, 由于各自治系统建设的时间、研发单位、采用的技术和具体业务的特定要求等, 导致了数据的存储方式、数据类型以及更新频次等不同, 进而呈现出数据异构、来源多样和海量数据等诸多特点, 同时也给在各自治系统之上的数据统一集成和专题数据加工带来前所未有的挑战, 当然也为更好地发挥数据在重大决策中的支持作用带来了新的机遇。

气象行业是一个信息化开展较早和信息化水平较高的行业之一, 除了上述一般行业数据来源的多种方式之外;考虑到气象数据的特点以及发布的严谨性, 气象数据不仅来源多、异构和海量外, 还具有很强的时空特性、采集多样性、记录格式多样性以及展现形式多样性的行业特点。

2.2 数据自动抽取与格式转换

针对各自治系统提供数据方式的不同以及兼顾气象数据的特点, 提出并设计了一种多源异构海量数据的实时数据自动抽取与转换模型, 具体如图3所示。

该模型包括实时控制监测层、实时抽取格式处理层以及实时存储层等。其中:实时控制监测层主要完成多源数据的访问权限的配置与管理、访问的方式配置、访问频次设定以及异常处理等, 目的是与各数据来源建立合法可靠的数据访问机制。实时自动抽取与格式转换处理层主要完成对实时监测到的数据进行正确性检查, 根据各异构数据的不同抽取规则对实时在线获取的数据进行分类多线程的自动抽取, 并结合决策基础数据库的存储设计要求进行相应格式转换, 形成具体统一规范的数据格式, 此层显然是最核心的处理层, 在设计时要特别注意转换的效率和转换的正确性, 是后期应用的基础性工作。实时存储层主要是完成对产品数据的保存和数据的实时被利用, 同时也方便以后历史数据的查询和统计分析等。

3 在线多用户的多维决策分析模型

3.1 无用户管理下的多用户技术

为了简化面向多源异构数据的多维决策分析与可视化系统使用的复杂性, 改善用户体验效果, 结合实际业务的特点与使用习惯, 设计了一种新的多用户并发处理技术, 其特点是在无用户管理的情况下, 能实现多用户并发访问并不相互干扰的多用户访问方法。

结合气象历史数据的多维决策分析模型来说, 为同时满足多个不同用户能对不同的专题进行多维分析与决策的需求, 且彼此间互不干扰。与一般的系统之系统一样, 用户主要从不同的专题角度对来自多源的决策基础数据库中数据进行多维的剖析, 为方便用户灵活设定专题分析过程和设置, 必将在专题分析过程中形成各类临时专题分析数据, 此类数据没有必要永久保存, 另外用户主要是对分析的结果进行展示, 一般不对分析结果数据进行修改;又经前面多源异构数据的自动抽取与格式转换后, 形成了一个集中统一的决策基础数据库。以上这些用户多维分析特征以及数据组织特点, 为无用户管理下的并发多用户访问提供了可能。从技术实现上说, 是采用用户首次连接系统时的服务器时间戳进行该用户的身份标识, 当然在专题分析中使用的各种中间临时表以及最终结果数据表在设计时, 需增加一个时间戳字段, 用来区分各用户, 达到互不干扰的效果。

3.2 基于专题的多维决策分析模型

通过前节的数据自动抽取与格式转换模块对多源异构数据进行处理后, 已形成了一个本地统一集成的决策基础数据库, 下一步的目标是如何围绕某一决策专题, 通过多维决策分析模块, 快速准备形成用户定制的各类专题统计决策信息。具体来说, 可分为三个环节, 分别是专题分析的需求设定, 专题多维统计与分析处理, 专题决策信息的保存入库, 如图4所示。

专题分析的需求设定模块主要实现由用户根据决策基础数据库中数据进行收集的情况, 围绕用户本次专题决策的目标, 通过可视化界面灵活方便地对专题分析的需求进行设计, 也是后一阶段专题数据统计与分析的依据。比如设定统计的数据集和数据属性, 统计的方式以及统计的时间范围和空间范围等。

专题多维统计与分析模块主要负责对设定的专题分析需求, 进行临时表的初始化、多表数据的二次抽取、数据的多维统计和复杂决策分析、形成专题决策数据。以气象历史资料的多维分析为例, 通过客户端对不同气象要素录入所需专题分析的条件, 服务器根据录入的条件参数触发多维分析处理算法, 调用不同的中间物理表和视图, 采用存储过程对数据进行包括时间维、地区维和高度维在内的多维分析处理, 生成气象专题决策数据。

专题决策信息的保存入库模块相对比较简单, 主要功能完成对前一过程生成的专题决策数据进行实时格式转换, 并正确存入相应的各临时专题库。

4 可视化方法

各类专题决策分析的结果可视化是多源异构数据多维决策分析系统的一种非常重要的组成部分, 可视化的效果直接影响到数据背后隐含重要信息的有效展示以及决策专家对数据的理解。以气象数据处理为例, 决策多维分析的结果可分为一维数据、二维数据、多维数据、文本与超文本、层次和图形等多种形式。在可视化时, 本研究以多种形式展示给客户端, 为达到更直观和更友好展示的效果, 采用.NET专业展示组件, 用包括直线图、折线图、饼状图在内的图形形式进行展示, 以及以各种汇总表的方式进行展示;考虑到后期方便对决策信息的进一步利用, 系统在设计时提供了与决策相关的数据信息和图片信息的导出保存功能。

5 气象应用实例

为了更好阐述本文提出的一种面对多源异构数据的多维决策分析与可视化方法在实际行业中的应用效果, 本文以实验室承担的招标项目“嘉定区气象灾害监测及评估系统工程 (一期) ”中气象历史资料多维分析与可视化子项目为应用实例进行叙述。

5.1 功能介绍

子项目“气象历史资料多维分析与可视化平台”是实现嘉定区所有站点历年来的数据进行多维分析和直观展示。具体可分为风、降水、空气温度、气压和温度、能见度日照、积雪积冰、天气日数、地中日数和其他要素九大专题统计与分析模块, 各模块又分为多项统计子功能, 一共有120余项专题分析统计功能, 部分统计分析功能涉及的数据来源多, 且多维分析算法复杂, 需经过多层的抽取和转换。

5.2 实现效果

在实现技术环节, 采用Microsoft的Visual Studio2008开发平台, 使用了数据库SQL Server 2008及.NET组件等。下文以实际业务的软件截图进行介绍。

图5是系统的主界面图, 用来对专题功能的选择, 专题分析的需求设定, 专题结果展示与保存等功能。

图6是用来完成对专题分析需求的设定的一个温度实例。其主要功能是气象业务工作人员完成对所需气象要素、站点数、统计项目、统计方式、统计时间以及其它条件的设定。

图7是温度专题实例的多维分析的可视化效果。基于专题的多维决策分析模块根据客户端输入的专题条件调用不同的存储过程对不同的中间表、视图或气象基本表进行数据分析处理, 将最终结果以表格、柱状图、折线图以及饼状图等多维方式展示在客户端前并生成相应的统计图, 也可以对数据表格和统计图进行导出, 生成Excel与图片保存。

通过以上相关实例的介绍, 验证了文中面向多源异构数据的多维决策分析与可视化方法是可行和有效的, 并结合实际嘉定气象局的气象历史资料多维决策分析与可视化业务实现了相关应用软件系统, 应用表明该系统已为高层专题决策分析中起到不可或缺的作用。

6 结束语

针对行业内海量异构历史数据分析与处理问题, 围绕数据的多维决策分析与可视化这一科学问题, 概据具体历史数据的特点以及实际业务的具体要求, 提出了一种面向多源异构数据的多维决策分析与可视化方法与处理模型, 并加以实现, 最大限度地克服了现有系统分析维数不够和可视化单调的不足。从该系统在实际业务中应用来看, 其大大地提升了对历史数据的使用水平, 提高了专题科学决策的有效性。另外, 该方法对非气象历史资料的分析与处理也有一定的参考借鉴意义。当然, 在数据多维分析算法以及专业化可视展示方面的研究有待加强, 有助于进一步优化对海量异构历史数据的利用。

参考文献

[1]张明华, 黄冬梅, 熊中敏, 等.多源异构海量海洋数据综合管理平台构建研究[J].海洋科学, 2012, 36 (2) :110-115.

[2]封博卿, 赵静, 常慧辉, 等.轨道交通应急指挥多源异构数据的融合方法[J].铁路计算机应用, 2012, 21 (5) :61-64.

[3]韩强, 黄刚, 冯涛, 等.智能电网多业务数据集成技术[J].电力信息化, 2012, 10 (12) :92-96.

[4]Butterfield M L, Pearlman J S, Vickroy S C A.System-of-Systems Engineering GEOSS:Architectural Approach[J].Systems Journal, IEEE, 2008, 2 (3) :321-332.

[5]卢捍华, 张顺颐, 王亚石, 等.系统体系方法与软件系统功能形式分解[J].通信学报, 2010, 31 (12) :131-139.

[6]Ramos A L, Ferreira J V, Barcelo J.Model-Based Systems Engineering:An Emerging Approach for Modern Systems[J].Systems, Man, and Cybernetics, Part C:Applications and Reviews, IEEE Transactions on, 2012, 42 (1) :101-111.

[7]张靖, 程希来.多源异构数据整合应用研究[J].成都信息工程学院学报, 2009, 24 (3) :254-258.

[8]秋黎华, 卢光辉, 陈文源.海市气象数据资料建设与共享[D].电子科技大学硕士学位论文, 2009.

[9]窦以文, 卢俐, 刘旭林, 等.气象数据存贮管理系统[J].计算机系统应用, 2011, 20 (7) :116-120.

上一篇:酸性氧化物下一篇:气囊助产的临床研究