数据仓库技术在数据服务平台中的应用

2022-09-12

随着我国金融业的飞速发展, 银行如何通过对客户数据的归类存储、对各种要素的自动判别分析, 从己存在的、大量的数据中挖掘出银行经营管理人员、业务分析人员所需要的信息, 以支持决策分析是一个迫切需要解决的问题。由于当前绝大多数企业内数据的真正状况是分散而非集成的, 数据不一致问题、外部数据和非结构化数据问题都难以解决。

数据仓库正是随着关系数据库、并行处理和分布式技术的飞速发展而提出的解决使用数据的一种新技术、新概念, 它是目前已知的最为广泛采用的解决方案。它不是对传统数据库的替代, 而是在传统数据库的基础上对数据进行重新组织。利用数据仓库整和金融企业内部所有分散的原始的业务数据, 并通过便捷有效的数据访问手段, 可以支持企业内部不同部门, 不同需求, 不同层次的用户随时获得自己所需的信息, 并能将网络中分布的商业数据集成到一起, 为决策者提供各种类型的数据分析。

1 数据仓库的定义及特征

数据仓库之父W.H.Inmon在《建立数据仓库》一书中提出:数据仓库就是面向主题的、集成的、不可更新的 (稳定性) 、随时间不断变化 (不同时间) 的数据集合, 用以支持经营管理中的决策制定过程。

数据仓库将不同介质、不同组织方式的数据集成转换而成为一个一致的分析型数据环境, 为不同来源的数据提供了一致的数据视图。它的最大优点在于它能把企业网络中不同信息岛上的数据集中到一起, 存储在一个单一的集成的数据库中, 并提供各种手段对数据进行统计、分析, 并且允许企业的各个部门共享数据, 为企业更快、更好地做出决策提供更加准确、完整的信息。

2 数据仓库的体系结构

数据仓库系统主要包括数据源、数据的存储与管理、OLAP服务器、前端工具四部分组成。数据仓库系统的任务就是对进入数据仓库的原始数据进行抽取、转换、过滤、清洗等处理, 最终进入数据仓库, 以及对数据仓库中存储的数据进行更新、管理、使用、表现等的相关软件/工具进行集合, 用以支持数据仓库应用或管理决策。数据源:为数据仓库提供原始数据。可以是外部数据、操作型数据库、管理数据库、生产系统数据库等。这些数据源可以是集中的或分布的、异构的。数据的存储与管理:是整个数据仓库系统的核心。针对现有各业务系统的数据, 进行抽取、清理, 并有效集成, 按照主题进行重新组织, 最终确定数据仓库的物理存储结构, 同时组织存储数据仓库元数据。OLAP服务器:对分析需要的数据进行有效集成, 按多维模型予以组织, 以便进行多角度、多层次的分析, 并发现数据趋势。前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。

3 银联数据服务平台数据仓库

银联数据服务平台系统又称为基于数据仓库的统计分析系统。它是在整合深圳分公司所有数据包括交易日志、商户资料、ATM终端资料、POS终端资料等的基础上, 对数据资源进行充分挖掘、实现多维统计分析功能, 给服务对象提供一个开放式 (WEB) 的资料查询、统计分析、无纸化沟通的平台, 让数据真正成为分公司、专业化公司、银行、商户进行市场决策, 提高跨行交易质量的重要依据。

系统总体设计, 银联数据服务平台统计分析系统实现的是一个基于数据仓库多维数据模型J2EE架构的业务数据分析系统。它所提供的是基于海量历史数据的分析而实现的面向决策支持层、管理层和业务运行层3个层次的功能。根据银行业务功能需求, 提出了银联数据服务平台是一个具有三层体系结构的解决方案。

数据仓库模型建立与数据组织, 数据仓库的建模主要包括建立数据仓库的概念模型, 逻辑模型和物理模型。首先, 根据业务需求确定系统边界, 分析主题域, 确定当前需要装载的主题。主题是一个逻辑概念, 它应该能够完整、统一地刻画出分析对象所涉及的各项数据以及相互联系, 它的确定限定了数据仓库的规模和应用范围。第二, 细化主题分析内容并进行数据组织, 确定粒度划分和层次划分以及分割策略。这些操作决定着系统的信息量和查询效率, 对系统有重要影响。最后, 生成数据仓库, 设计接口, 装入数据。

在后台数据库的设计中, 采用星型模型多维数据分析模型。利用这种模型可以很好地完成以主题分析为主的数据库设计, 从而理清金融行业数据库中纷繁杂乱的海量数据。为客户从各个维度观察数据打下坚实的后台数据基础。

数据的抽取、转换及装载, 数据仓库的数据源是来自OLTP (操作型环境) 中的操作数据。这些数据源都有不同的格式、标准和含义。物理点上, 他们分布于几台PC上, 分属于不同的操作系统与数据库管理系统上, 这对数据源的采集带来了困难。数据必须首先按一定的模式进行整理与过滤 (同一对象多个实例) , 最后转换成一个数据仓库接口需要的标准数据源。

本系统使用SQL Server 2000的数据转换服务DTS包及存储过程来实现数据的抽取、转换及装载。在数据仓库生成过程中, 数据变换与集成过程十分关键而复杂, 其过程如下。

DB1、DB2→数据读取→数据转换→质量保证→数据装载→目标数据库。

数据仓库的查询, 前台查询系统负责数据的展现, 它包括日志查询、MDX (多维语言) 查询以及可视化界面查询等。

系统的前端采用JSP技术实现报表的发布, 有效减弱了业务逻辑接口和数据接口之间的耦合。同时, 很好地分离了各模块的角色和责任, 有助于提高代码的可重用性和灵活性。系统提供了多种查询统计分析界面, 包括基本的查询统计、二维动态查询、多维展现、各种固定报表输出等。考虑到用户的需求, 利用J2EE技术开发的基于浏览器/服务器模式 (Browser/server, 简称B/S) 的数据服务平台系统, 实现了数据仓库中的数据在internet上的共享, 用户使用浏览器就可以方便快捷地查询、分析。

4 结语

综上所述, 数据仓库为解决目前数据分析中遇到的问题指明了方向, 为信息分析提供了良好的平台, 基于数据仓库的联机分析处理实现了在全局数据的基础上, 实时、动态地按照分析人员意愿展开信息分析的功能, 信息分析人员通过友好的交互界面可以方便地浏览数据仓库中存储的数据。因此, 数据仓库技术在国内银行业及金融业将有良好的应用前景。

摘要:本文介绍了数据仓库的定义、特征、结构及其相关技术。结合深圳银联数据服务平台, 提出了系统数据仓库的解决方案及其实现过程。文章还讨论了联机分析处理在数据仓库环境下针对信息分析的应用, 并进行了评价。

关键词:数据仓库,数据集成,联机分析处理,数据立方体

参考文献

[1] Inmon.W.H著.王志海, 等译.数据仓库.第三版[M].北京:机械工业出版社, 2003.

[2] 王珊, 等.数据仓库技术与联机分析处理[M].北京:科学出版社, 1998.

上一篇:浅谈我省公路养护机械化的发展对策下一篇:浅谈初中政治活动课教学中如何培养学生创新能力