基于数据仓库技术的政务数据汇集共享解决方案

2022-09-11

一、引言

政务数据涉及工商、税务、交通、医疗、教育等领域, 具有庞大的数据储量, 目前数据广泛存储于各地、各级政府机关的不同系统中。由于各部门所建政务信息系统, 仅为满足特定功能而生, 且各信息系统采用的数据库、数据标准不统一, 数据之间结构差异性大, 导致难以直接汇集共享[1]。行政审批、许可、备案、监督检查、执法等业务所产成的数据质量高, 由于数据存放于所属应用系统中, 数据碎片化、零散化导致政务数据价值高, 但利用率低。政府数据特点可以概括为数据存量大但分散存储、数据价值高但利用率低。

二、数据仓库定义及其特点

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合, 用于支持管理决策[2]。数据仓库具有主题性、集成性、稳定性、动态性等特征。数据仓库是面向主题的, 数据是按照一定主题进行组织。一个主题通常与多个业务系统相关。数据仓库是集成的, 数据仓库的数据来自于分散的业务系统, 需将数据从原来系统中抽取出来。数据仓库中数据是不允许修改的, 即数据保存到数据仓库后, 用户仅可通过分析工具进行查询和分析, 而不能修改。数据仓库数据会随时间变化而定期更新, 数据的更新升级主要在数据采集环节完成。数据仓库具备的主题性、集成性等特点, 有利于解决政务数据分散、难于共享的问题。

三、数据仓库架构设计

(一) 数据仓库设计原则

(1) 数据标准性:应根据国家、地方标准, 结合已有数据的情况, 建立数据标准体系。 (2) 数据完整性:应通过约束条件控制, 检验进入数据仓库的数据值, 确保数据的完整性。 (3) 数据可扩展性:应充分考虑其扩展性, 使得新需求增加时, 不至于引起架构重大调整。 (4) 数据安全性:应实现数据分级管理, 按需访问, 保证数据安全[3]。

(二) 数据仓库架构设计

数据仓库架构主要包括数据采集获取层、数据管理存储层、数据共享应用层等3个层次。

1. 数据采集获取层

数据采集获取不是将原有数据直接导入, 而是需进行预处理。原有数据一般存在数据不完整、形式不统一等情况。原数据直接导入将对数据挖掘分析造成混乱, 在进入数据仓库之前必须经过抽取、转换才能进入数据仓库。定义数据抽取转换方案, 必需考虑网络异构、数据库及数据结构不同、数据去重及空值等问题。 (1) 数据清洗。数据补缺:对空数据、缺失数据进行数据补缺操作, 无法处理的做好标记;数据去重:通过行列互换、排序等去除重复记录;数据替换:对无效数据进行数据替换, 比如乱码数据根据数据特性转成默认值, 对于时间数据统一调整为YYYYmmdd;数据转换:按一定规则对数据进行合并、拆分;格式规范化:将源数据抽取的数据格式转换成数据仓库的目标格式;主外键约束:通过建立主外键约束, 对非法数据进行替换或导出到错误文件重新处理。 (2) 数据交换平台。基于数据总线技术的统一数据交换模式是一种松耦合的连接方式。在这种模式下, 无需通过与原应用系统相互直连进行数据交换, 而是通过数据交换平台统一维护各个信息系统之间的接口, 统一对各应用系统做数据交换。随着参与数据交换的系统增加, 该模式在可扩展性和稳定性等方面的优势就越显突出, 更能适应业务工作的不断发展。另外, 数据交换平台可以简单而快捷的实现异构数据的交换, 提升交换效率和稳定性。 (3) 数据加载。原应用系统在业务表中一般都有时间戳, 当系统更新修改业务数据时, 同时修改时间戳字段值, 数据加载时可对时间戳发生变化的数值进行加载;或则可通过全表对比方式, 抽取所有源数据, 在更新目标表之前先根据主键和字段进行数据比对, 有更新的进行update或insert。 (4) 异常处理。在抽取转换过程中, 当遇到错误时, 应遵循最大限度接收数据, 将错误信息单独输出, 无需中断执行命令, 错误数据修改后可再单独加载。对于网络中断等外部原因造成的异常, 应设定尝试次数或尝试时间, 超数或超时后, 可转为手工干预。

2. 数据管理存储层

数据存储管理是整个数据仓库的核心, 应对数据进行分级分类和规范管理, 数据仓库所有数据表、视图、触发器、字段等对象都应按照统一的标准规范进行命名和管理。 (1) 元数据管理。元数据是描述数据仓库内数据结构和建立方法的数据。元数据是“关于数据的数据”, 包含数据的名称、位置、来源、数据格式等一系列描述信息。元数据的存储方式可用文件系统也可以通过数据库来存储管理, 另外需提供一个友好的可视化界面, 方便查询、输入、编辑各种元数据。 (2) 数据分层分类存储。为了使采集获取的数据能够更好地挖掘分析, 对数据实施分层分类管理尤为重要。通常可将数据分为实时类数据、基础类数据、元数据类数据。另外, 为了提高数据仓库的存储效率, 实时数据表可按照年份, 分别存放到不同的表分区, 提高数据的读取效率。 (3) 数据表结构关联。数据仓库所采集的数据是为主题分析服务的, 通常在设计时, 会建立多个数据表, 并重新建立表结构, 便于统计分析。数据表可以划分为两类:一类是事实数据表, 用来存储数据仓库中的实际数据, 其记录数会不断增加;另一类是维度数据表, 如关于时间、地域和类别等分析要素, 维度表信息比较固定。通常按时间、区域、分析对象等要素对多个事实表和多个维度表进行关联。

3. 数据共享应用层

数据仓库是面向主题的, 政府利用数据仓库技术汇集、分析已有的政务数据, 提升管理水平, 应该说存在较多的应用场景, 例如, 可汇集企业法人工商登记信息、纳税信息、行政处罚信息、法律纠纷判决信息等, 开展企业信用分析, 加强特定企业的监管。 (1) 数据分析。数据分析大部分可结合数据统计分析工具, 建立相应模型, 对各类数据进行关联性、预测性分析。如:任意时间范围的统计、数据比对分析、排序统计、趋势分析等。 (2) 报表展示。将分析数据在图表中展示, 并支持Excel、HTML、Word等格式的输出, 图表是每个数据仓库必不可少的应用。同时, 也应考虑支持基于地理图层的直观展示。

四、结论

随着政务数据共享、开放、治理工作的持续推进, 数据仓库作为数据汇集、共享、分析的一种有效、可行的技术解决方案, 在政府部门存在较大的应用空间。同时, 当面对海量数据的分析需求时, 数据仓库技术也可结合分布式计算、存储及大数据分析等信息化技术, 来更好的提供解决方案。

摘要:随着政务数据共享开放工作的持续推进, 政府部门可利用数据仓库技术, 解决政务数据分散、难于共享等问题, 实现政务数据资源规范管理和汇集共享。

关键词:数据仓库,政务数据

参考文献

[1] 陈志泊.数据仓库与数据挖掘[M].清华大学出版社, 2009.14.

[2] (美) 曼蒂.数据仓库工具箱[M].华大学出版社, 2007.32-34.

[3] (美) 荫蒙.数据仓库[M].机械工业出版社, 2006.43-46.

上一篇:论农业科研档案信息资源的开发和运用下一篇:因人而异的乳腺摄影技术