数据仓库技术

2024-05-02

数据仓库技术(精选十篇)

数据仓库技术 篇1

关键词:数据仓库,普通数据仓库,空间数据仓库,构建,模型

1 概述

随着不同的MIS系统在企业不同部门的大规模应用及企业对数据管理不断提出新的要求,不仅要求能实现传统的联机事务处理(on-line transaction processing,OLTP),而且越来越多的要求是各种应用系统能够在企业不断积累的以及从企业外部获取的丰富信息资源的基础上,把这些分散的、不一致的、凌乱的信息资源加以利用,即更多地参与数据分析和决策支持,由此出现了一种用于数据分析处理和决策支持的数据存储和组织技术,即数据仓库技术。现在根据笔者在读软件工程硕士相关课程讲授数据仓库技术的基础上,认真阅读大量技术论文、资料,结合自己的理解,对数据仓库的实现特别是大型数据仓库的构建进行归纳总结及初步探讨。

2 什么是数据仓库

美国著名信息工程学家“数据仓库”之父W.H.Inmon于1993年在其著作《构建数据仓库》中对数据仓库定义为:数据仓库是为决策支持服务的面向主题的、集成的并随时间变化而又相对稳定的数据集合。即数据仓库技术是将普通的操作型数据通过集成提取,进而提供分析型数据的一种信息技术;构建数据仓库的目的是企业为了充分利用丰富的内、外部数据资源,帮助用户更好地理解信息,从新的角度看待它们,以便获得更好的洞察力、发现模式和趋势,从中挖掘出信息和知识,更好地进行辅助决策。数据仓库的通用体系结构如图1所示。

如上图数据仓库的体系结构分数据源、数据转换、数据仓库、数据集市和用户几部分。数据源,包括企业内部的业务数据、遗留数据、其它业务系统数据及相关WEB数据等;数据转换是数据仓库构建的重要环节,主要是对各种复杂的数据源进行抽取、转换、装载及其他处理,同时要实现数据质量跟踪监控以及元数据抽取与创建等工作;数据仓库主要实现对各种数据的组织、存储及管理等;数据集市(data mart)是为不同业务而单独设计的数据仓库系统,即开发者为企业内部的不同用户群定制特殊的数据仓库子系统。用户部分,即具体面向使用者的应用部分,主要是指数据仓库存取与检索为用户提供了访问数据仓库或数据集市的功能,其中分析与报告为用户使用数据仓库提供了一组工具,用于帮助用户对数据仓库或数据集市进行联机分析或数据挖掘等。

3 数据仓库构建方法

3.1 普通数据仓库构建方法

对于普通数据仓库的构建,企业在对整个系统的建设综合各种因素的基础上,集众人之长共同研究制定全面的、长远的、清晰的远景规划及技术实施远景,接着按“目标具体、全面规划、分步实施、步步见效、构建技术软硬件环境及建立支撑平台”的原则和步骤,将整个项目的实施分阶段、分步骤实施,可以在每一阶段建设的基础上分阶段纳入不同的业务系统,逐步建立起一个综合的、专题较为完善的、适合部门、子单位使用的完整、健壮的数据仓库系统,从而才能使投资尽快获得收益。

数据仓库建设的典型架构主要有以下三种:1)DB-DW架构:对于此种架构数据仓库建设方法有两种基本类型:一种是自顶向下,即先建立全局级的、整体的数据仓库,然后从中抽取数据建立面向各个了部门、子单位的数据集市,此种方法的优点是所有数据在进入数据仓库前都要进行清洗和转换,能够保证数据的一致性,这种架构一般适用于相对独立集中或规模较小的企业;另一种是自底向上的建设方法,即先建立一个或几个数据集市(Data Mart),分布实施以解决企业面临的局部问题,然后再从数据集市中抽取数据构建统一的数据仓库。由此形成了两种数据仓库体系结构DW-DM和DM-DW。2)DB-ODS-DW架构:ODS(Operational Data Store)是指用于支持企业日常的全局应用的数据集合,ODS解决企业日常应用的问题,一般只存放临时(当前或近期)的数据,同操作型数据库类似,其数据可进行联机插入、删除、更新等修改,这与数据仓库有所不同,数据仓库中数据只是增加,没有修改,因此形成了数据仓库DB-ODS-DW的架构。3)分布式数据仓库架构:集中式的数据仓库虽然有为企业提供统一的数据视图,数据一致性可以得到很好保证的优势,但构建一个集中数据仓库,不仅耗时,而且费力,投入很大,产出效益很缓慢,并且集中式的数据仓库的存取瓶颈和安全性终究是不容忽视的问题;同时许多大型企业或集团公司大多采用总分的组织管理模式,即总集团公司下设立了分布各地的下属分公司;同时网络技术和并行处理技术的迅速发展也为数据仓库技术发展提供了较大空间,以上诸多原因促成了分布式数据仓库应用架构。分布式数据仓库应用架构是由总分数据仓库结构组成,分部数据仓库存储对局部决策有意义的数据,总部数据仓库存储对全局有意义的数据。它将从局部数据仓库和总部的操作环境中抽取数据。

在数据仓库的构建过程中,利用模糊数学可实现数据仓库内数据的语义表示,丰富数据加工的手段,提高分析处理的能力。数据仓库的构建,一般采取先构建数据集市,最后将各个数据集市整合在一起形成数据仓库的渐进模式;通过概念层、逻辑层、物理层建模,确定相关主题域的数据集市并对其进行OLAP分析。构建数据仓库模型一般采用以下三种:

1)星型模型:星型模型是最常用的数据仓库设计结构的实现模式。使数据仓库形成了一个集成系统,为用户提供分析服务对象。该模型的核心是事实表,围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。如图2所示。

2)星系模型(也称雪花模型):雪花模型对星型模型的维度表进一步标准化,对星型模型中的维度表进行了规范化处理。同时也是对星型模型的扩展,每一个维度都可以向外连接到多个详细类别表。在实际应用中,用户的需求多种多样,数据来源可能为多个事实表,故可采用多个事实表共存,之间通过公用的维表相关联的星系模型,也称为事实星座。如图3所示。

3)原子级数据模型和汇总级数据模型并存:坚持原子级数据模型和汇总级数据模型并存,而且要尽可能地细化原子级数据。

4)设立代理键:代理键是维表中一些没有业务含义的字段,只是一个由数据仓库加载程序时建立的数字。

3.2 空间数据仓库构建方法

随着GIS(地理信息系统)在各行业的广泛应用,最初面向事务处理为主的空间数据库信息系统已不能满足需要,信息系统开始从管理转向决策处理,空间数据仓库就是为满足这种新的需求而提出的空间信息集成系统。即构建空间数据仓库目的是要实现对分散的、互相独立的多种地理空间数据库信息系统进行统一集成和管理,形成用户获取测绘数字产品的普遍模式、界面和标准,然后按照相应的主题功能查询数据仓库得到多种测绘数字产品,再根据用户需求通过各种专业模型关联多种专题信息,从多维角度进行分析,满足用户空间辅助决策分析信息的需求。尤其是地理信息决策支持系统中,空间数据仓库系统显得尤为重要。

空间数据仓库具有普通数据仓库的普遍特征,但其本身有一些特殊性。并且空间数据仓也并不是空间数据库的简单集合。与空间数据库比,空间数据库除支持数据库外,还支持数据文件、文本文件、应用程序等众多数据源;另外空间数据仓库中的数据有时间数据、空间数据、属性数据及异构数据等多种数据;其次空间数据仓库中还包括了数据处理规则、算法等;再次空间数据仓库的数据是对原始数据进行加工、处理、集成等转换,是对数据的增值和统一;空间数据库还引入了时间纵的概念,它是以时间为基准来管理数据,可以截取不同时间尺度上的信息,从瞬态到区段时间直到全体,空间数据仓库是依赖于时间维的数据结构,它可以根据不同的需要划分不同的时间粒度等级,以便进行各种复杂的趋势分析,如GIS中对土地地质变化研究、地球气候的变化趋势研究等,以支持政府部门的宏观决策。当然,不言而喻,它还包含了空间维的方位数据。

正因为空间数据仓库与普通数据仓库的不同,并且它以空间数据仓库完全不是相同的概念,一般空间数据仓库以如下体系结构分为四大功能模块,分别是源数据、数据变换工具、空间数据仓库、客户端分析工具。源数据它不仅指那些常见的空间数据库,还包括文件、网页、知识库、遗留系统等各种数据源。数据变换工具与具有普通数据仓库数据变换相同的提取转换功能,但它还包括了特有的间变换等。空间数据仓库以立体、多维的方式来组织和显示数据。但最基本的空间维和时间维是其反映客观世界动态变化的基础,空间数据仓库技术最关键要点也就是时间维和空间维数据组织方式。其基本体系结构如图4。

目前空间数据仓库已成为国、内外GIS研究的热点并取得了较大进展,由于空间数据仓库管理的数据量庞大,决策支持的空间计算异常复杂,因此以下几方面研究是究的重点:1)构建空间数据结构,主要实现如何高效地存贮和检索异常庞大的空间数据,这在GIS尤其重,也成为研究的热点;2)对空间、时间、属性及各种异构数据的集成;3)空间数据的商业应用,即在大型数据库中如何引入新的空间数据;4)对决策支持模型方法的研究,即空间数据挖掘。

对于已使用数据仓库的企业,要把空间信息融合进企业现有的数据仓库中,在原有系统不作较大改动的前提下,一般采用三种模式构建企业空间数据仓库:1)把空间信息作为多维模型中的空间维引入;2)把空间信息作为研究主题引入;3)在维和度量中都包含空间信息因此,计算并存储所有空间度量是不现实的。一般使用空间索引树(如R—tree)在最细空间粒度上构建分组层次,作为空间维的分层,每个空间维需要建立一棵空间索引树。

总之,数据仓库构建是数据仓库技术的关键,数据仓库技术是一项基于数据管理和利用的综合性技术和解决方案,尤其是现在空间数据仓库在GIS中的广泛应用,它成为数据库市场的新一轮增长点,同时也成为下一代信息系统的重要组成部分。但数据仓库的实现特别是大型数据仓库的实现将面临许多技术问题,要真正发挥数据仓库的作用,开发一个灵活、高效的数据仓库,还有许多问题需要进一步研究和探讨。

参考文献

[1]徐立中,李臣明,王建颖.信息与系统集成技术及应用[M].北京:科学出版社,2006.

[2]陈慧萍,陈岚峰,王建东.大型数据仓库实现技术的研究[J].计算机工程与设计,2006,27(21):3956-3958,3961.

[3]肖创柏,冯维文,刘时光.基于语义表示的数据仓库构建方法[J].计算机工程,2007,33(10):73-75,78.

[4]Inmon W H.Building the Data Warehouse[M].3rd ed.Beijing:ChinaMachine Press,2002:20-23.

[5]邹逸江.空间数据仓库的概念框架和认知过程[J].计算机应用研究,2007,24(5):186-189.

[6]杨光,艾波,张雷.数据仓库实施策略[J].计算机应用,1999,19(9).

数据仓库技术 篇2

浅谈利用数据仓库技术构建环境数据中心

介绍了环境数据中心的组成及建设目标、数据仓库技术在环境数据中心的应用、数据仓库管理技术、联机分析处理,认为数据仓库技术为决策支持系统开辟了一条新途径.

作 者:朱丽 ZHU Li 作者单位:连云港市环境信息中心,江苏,连云港,22刊 名:环境科学导刊英文刊名:ENVIRONMENTAL SCIENCE SURVEY年,卷(期):27(3)分类号:X32关键词:数据仓库 环境数据中心 构建

浅论数据仓库技术 篇3

关键词:数据仓库;面向主题;数据库

中图法分类号:TP311.11

文献标识码:A

数据仓库(Data Warehousing,DW)是近年来兴起的一种新的数据库应用。随着各种计算机技术,如数据模型、数据库技术和应用开发技术的不断进步,数据仓库技术也在不断发展,并在实际应用中发挥了巨大的作用。

1数据仓库的起源

如今是网络的时代,数据仓库的出现和发展是网络时代的数据特征,也是数据库系统应用到一定阶段的必然产物。最初的数据管理形式主要是文件系统,数据的存取方式是固定的、死板的。1969年,E.F Codd博士提出了关系数据模型。此后,关系数据库的出现开创了数据管理的一个新时代。

近几十年来,像C/S系统结构、存储过程等新技术、新思路的出现,SQL在数据库中的应用,使得关系数据库成为联机事务处理系统的主宰。然而,应用是不断进步的,当联机事务处理系统应用到一定阶段后。用户发现这不足以获得市场竞争的优势,他们需要对大量的业务数据进行分析,从而作出有利的决策。这种基于业务数据的决策分析,称之为联机分析处理,比以往任何时候都显得重要。人们在实际应用中发现要查询的数据越来越多,所以人们就设想专门为业务的统计分析建立一个数据中心,这个中心就叫数据仓库。

业界公认的数据仓库概念创始人W.H Inmon在《数据仓库》一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的、随时间不断变化的数据集合。从辨证的眼光来看,数据仓库的兴起实际是数据管理的一种回归,是螺旋式的上升。

如今,各大数据库厂商纷纷宣布产品支持数据仓库并提出一整套用以建立和使用数据仓库的产品,比如:Informix公司的数据仓库解决方案Oracle公司的数据仓库解决方案;Sybase公司的交互式数据仓库解决方案等等。这些发展引起了学术界的极大兴趣,出现了专门研究数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)的论文。

数据仓库虽然起源于20世纪90年代,但其发展非常迅速,特别是网络技术的飞速发展,为数据仓库的发展提供了更宽阔的数据跑道。当今数据仓库已经不再是纯粹的理论。而是一个活生生的事实。

2数据仓库的结构

(1)基本体系结构(结构1)

它由以下5个基本组成部分:

数据源(DB),为数据仓库提供最底层数据的运作数据库系统及外部数据;

监视器,负责感知数据源发生的变化,并按数据仓库的需求提取数据;

集成器,将从运作数据库中提取的数据经过转换、计算、综合等操作,并集成到数据仓库中;

数据仓库(DW),存储已经按企业级视图转换的数据,供分析处理用;

客户应用,供用户对数据仓库中的数据进行访问查询,并以直观的方式表示分析结果的工具。

(2)数据组织结构(如图2)

3数据仓库的特性

传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处理、决策分析等各种数据处理工作,由于企业的日常事务处理工作,而难于实现对数据分析处理要求,已无法满足数据处理多样化的要求。近年来,随着数据库技术的应用和发展。人们尝试对DB中的数据进行再加工,形成一个综合的、面向分析的环境,以更好支持决策分析,从而形成了数据仓库技术。

数据仓库是面向主题的。这与传统数据库面向应用相对应。主题是一个在较高层次上将数据归类的标准。每一个主题对应一个宏观的分析领域。例如:对一个保险公司来说,应用问题可能是汽车保险、人寿保险与意外伤亡保险,公司的主题域却可能是顾客、保险单、保险费和索赔。不同类型的公司其主题域是不同的,这样管理人员就可根据不同的主题进行分析,作出切实可行的决策。

数据仓库是集成的。在数据仓库的所有特性中,这是最重要的。数据仓库中的数据是从多个不同的数据源传来的。当这些数据进入数据仓库时,必须经过数据加工和集成,进行转换,重新格式化,重新排列以及汇总等操作,这是建立数据仓库的关键步骤。这样得到的结果就是只要是存在于数据仓库中的数据就是具有企业的单一物理映像。

数据仓库是非易失的。即稳定性。操作型环境中的数据一般必然是要更新的,但数据仓库中的数据呈现出一组非常不同的特性。数据仓库中的数据通常是以批量方式载入与访问的,对其数据并不进行一般意义上的数据更新。这样数据仓库就保存了所有的历史数据,而不是日常事务处理产生的数据,数据经过加工和集成进入数据仓库是极少或根本不能修改的。

数据仓库是随时间变化的,它是不同时间的数据集合。时变性是指数据仓库中的每个数据单元都只是在某一时刻是准确的。在任何情况下记录都包含某种形式的时间标志用以说明数据在哪一时间是准确的。不同环境中有不同的时间范围,操作型环境的时间范围一般是60~90年,而数据仓库中的数据的时间范围通常是5~10年。由于这种时间范围上的差异,数据仓库含有比任何其他环境中都多的历史数据。

4数据仓库的技术趋势

数据仓库没有严格的数学理论基础,它更偏向干工程。由于这种工程性,数据仓库技术的发展主要包括以下3个方面:

4.1数据的抽取

数据的抽取是数据进入数据仓库的入口,它通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、转换、增量、调度和监控等几个方面。

在技术发展上,数据抽取所涉及的单个技术环节都已经相对成熟,但整体的集成度还很不够。目前市场上所提供的大多是数据抽取工具,这些工具只能成为辅助的角色。未来的技术发展将集中在系统集成化方面,它将互连、复制、转换、增量、调度和监控等纳入标准化的统一管理,以适应数据仓库本身或数据源的变化,使系统更加便于管理和维护。

4.2数据的存储和管理

数据的存储和管理是数据仓库真正的关键技术。数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。要决定采用什么产品和技术来建立数据仓库,主要从以下几个问题着手分析:

(1)对大量数据的存储和管理;

(2)并行处理;

(3)针对决策支持查询的优化;

(4)支持多维分析的查询模式。

在数据仓库的数据存储管理领域。未来的发展将使数据库厂商明确推出数据仓库引擎,并作为服务器产品与数据库服务器并驾

齐驱,面向决策支持扩充的并行关系数据库将是数据仓库的核心。最具发展潜力。

4.3数据的表现

数据的表现是数据仓库的门面。主要集中在多维分析、数理统计和数据挖掘方面。

多维分析是数据仓库的重要表现形式,近几年来,多维分析领域的工具和产品注重提供基于Web的前端联机分析界面,而不仅仅是网上数据的发布。

数理统计原本与数据仓库没有直接的联系,但在实际应用中需要通过对数据的统计来验证假设,以进行决策。数理统计的算法和功能将普遍集成到联机分析产品中,同时与因特网/网络技术紧密结合,推出适用于内联网,终端免维护的数据仓库访问前端。

数据挖掘与数理统计相似,数据挖掘与数据仓库也没有直接的联系。目前许多数据挖掘工具其实不过是数理统计的应用,它们并不能真正寻找出数据的规律。而是验证尽可能多的假设,最后由人来判断其合理性。未来的发展将使数据挖掘不仅仅是验证人们对数据特性的假设,而且更要主动地寻找并发现蕴藏在数据之中的规律。

随着各种计算机技术,如数据模型、数据库技术和应用开发技术的不断进步,数据仓库技术也在不断发展,并在实际应用中发挥了巨大的作用。目前使用数据仓库所产生的巨大效益刺激了对数据仓库技术的需求,数据仓库市场正以迅猛势头向前发展:一方面。数据仓库市场需求量越来越大。每年约以400%的速度扩张:另一方面。数据仓库产品越来越成熟,生产数据仓库工具的厂家越来越多。数据仓库技术及市场将向以下方向发展:

(1)并行化和可扩展性。在硬件层次上。采用多处理器并行结构;在数据库层次上,数据库厂商推出了并行产品,以适应数据仓库市场的需要。

(2)集中化。随着数据仓库项目越来越大,就要求对信息进行集中管理,此外,数据的一致性也要求数据集中管理。

(3)数据仓库与因特网/内联网的集成。即前台是网络服务器,后台是数据仓库系统。数据仓库的信息及统计分析结果以网络的形式表现。

(4)数据挖掘工具和人工智能管理的成熟与广泛使用。这将是今后推动决策支持演变过程的主要力量,相信会有越来越多的专家系统问世。为企业的决策提供支持。

(5)通用数据库。数据仓库将支持多媒体、结构化和非结构化数据。即向通用数据库发展,具有面向对象的能力。

(6)专用数据仓库。即数据仓库的打包。它是指数据仓库将集成一些工具和应用,打包推向用户。

5结束语

数据仓库建设中数据处理技术的研究 篇4

在当今快节奏的、以信息为基础的经济社会中,企业必须整合大量不同的异构数据源来支持其战略决策,比如商业智能或企业绩效管理。总体数据管理、数据仓库和数据集市是实施这种战略的基础。建立一个企业级的数据仓库(data warehouse)是一项巨大的工程,其中数据处理又占据其中50%-70%的工作量。数据处理包含很多方面:一是从多种数据源综合数据仓库所需要的数据,保证数据的综合性、易用性、数据的质量和数据的时效性;另一方面就是如何从现有数据中衍生出所需要的指标。

数据的抽取(Extract)、转换(Transform)和加载(Load)即ETL实施是数据处理的主要手段。ETL功能改造了源系统中的相关数据,将它们变成有用的信息存储在数据仓库中,是提供数据仓库信息内容的前期工作。如果没有对源数据进行正确的抽取、清洗和用正确的格式进行整合,作为数据仓库中枢功能的查询处理,就不能进行。

2 数据仓库概述

2.1 数据仓库的基本概念

数据仓库(data warehouse)经过数十年的发展,人们对它的认识也逐步深入。数据仓库的创始人W.H.Inmon给数据仓库的定义是:数据仓库是一个面向主题的、集成的、非易失的,随时间变化的用来支持管理人员决策的数据集合。从数据仓库的功能角度来看,将其定义为:数据仓库是指企业中可查询的数据源;数据仓库是一种信息环境。根据数据仓库的应用,数据仓库可以分为:

数据仓库将分散的日常操作数据加工处理、集成、综合后,形成归纳总结数据乃至专业分析数据,从而成为历史性详细数据。

2.2 数据仓库建设中的关键问题

数据仓库的结构如图1所示。

数据仓库从多种数据源中提取数据,经过数据抽取、清洗、转换等过程加载到数据仓库系统中输出供企业中各种不同层次的人员使用:普通用户,使用查询和报表功能;高级用户,使用多维展现的在线分析功能(OLAP);专家级用户,使用数据挖掘功能做决策分析。

数据仓库中的数据源来自于多个数据库子系统。这些数据库子系统是面向不同应用建立的,彼此独立。由于各种原因如数据输入错误、不同来源数据引起的不同表示方法、数据间的不一致、数据的不完整、NULL值等导致数据仓库中的数据不可避免地在数据的名称、类型、描述、关联、取值等方面出现问题,从而扭曲其获得的信息,影响信息系统的运行效果,也为企业建立数据仓库、建立决策支持系统、应用商务智能化带来隐患。因此数据处理就成为数据仓库建设中的关键。

3 数据处理的步骤

3.1 数据获取

根据数据仓库的主题确定哪些关联数据源是分析的对象,这些数据源不仅包含企业中业务数据库系统中的数据,还包括来自企业外部的数据,比如同业其他单位的信息、监管部门的信息、统计数据等。把这些数据源按照业务处理系统、业务管理系统、外部资源等等分类,同时也按照数据仓库的主题进行分类,确定外部数据的实体、关系和属性,形成数据采集文档,构成数据仓库系统的原始数据集。

3.2 数据清洗

3.2.1 数据清洗原因

数据清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等问题,通过试抽取,将有问题的记录先剔除出来,根据实际情况调整相应的清洗操作。主要问题如下

1)数据不完整:需提取字段的属性缺值,或者只含有不可用的聚合数值;

2)数据不一致:字段编码或名称不一致,比如,定期存款表、活期存款表、内部账、贷款表中对账户状态的定义各不相同,数据汇总的时候就会出错;再比如,age=‘42’,而birthday=03/07/1997;

3)数据冗余:所谓冗余信息,就是指不同关系表中存在的同一含义的字段,而同一含义不仅指这些字段的取得或计算方式一样,还指它们成立的条件一样,例如截止某一时间同一地区的同一贷种的贷款余额。在OLTP系统中,这样的字段往往是基于性能考虑而设计的,而在面向分析设计模型时,为了保证结果的唯一性和准确性,就必须用且只用其中之一的数据产生分析结果;

4)其他错误:比如2005/05/09销户的账户,2005/05/15居然又发生一笔交易,2005/04/30日的数据记录中有2005/05开户的数据记录,这种错误会给数据统计带来麻烦。

3.2.2 数据清洗原则

1)不完整数据清洗:首先检测出数据源中的不完整数据(主要是看数据仓库开发中感兴趣的字段值是否丢失或为缺省值),然后判断数据的可用性,根据一条记录的不完整程度和其他因素来决定这条记录是保留还是删除。最后推断丢失属性的值,人工补上或用自动的方法用常量或平均值或最可能的值补上;

2)改正不一致的数据,统一不同数据源或不同数据库表中的同一个实体;

3)由于多个数据源的整合而产生的冗余数据可以在数据转换阶段解决;

4)出现在数据仓库维中的字段以维表属性为依据清洗。

3.3 数据转换

数据转换包括数据格式转换、数据类型转换、数据汇总计算、数据拼接等等,也是保证数据准确性的重要一环。

3.3.1 数据转换的原则

1)建立源数据和目标数据的映射关系;

2)建立数据提取规则参数表,确定提取的源表;

3)制定数据抽取的方式:全量数据抽取还是增量数据抽取;

3.3.2 数据转换注意事项

1)数据仓库系统中各字段最好重新命名,体现数据的一致性。比如日期问题,不同的含义就要起不同的名称,如状态变动日期、余额变动日期等;

2)数据转换过程本质上就是数据映射过程。正确的取数建立在对业务数据库系统设计的准确理解及对企业业务的清晰了解基础上。

比如数据仓库中有“贷款余额”字段,贷款业务数据库中“贷款本金信息表”,“本金异动表”和“放款主表”中都有“贷款余额”字段,究竟从哪个表中取值?如果这几张表中这个字段的含义是相同的,那么取哪个都不会出错。实际情况中往往是不同的。“贷款本金信息表”是每账户一笔纪录,只保存最新的余额值;“本金异动表”是每账户每变动日期每变动时间一条记录,保留变动的历史轨迹;“放款主表”中也是每账户一条记录,但是信息很多,数据量巨大,扫描一遍的时间长。究竟从哪个表中取数要看数据仓库设计中此字段的具体含义;

另外,若某个字段值可以从业务系统的多个数据库表中提取,那么提取的规则是看这几张表中哪个表的数据记录是最完备的就从中提取。比如存款业务的主档表包含所有的存款账户,而明细档表只包含发生交易的账户,也许有账户长期以来就没有交易,统计账户数量或者账户余额时从主档表中取出的数据才是齐全的。操作时可以根据业务源系统的类别及数据库表之间的关系选定一个取数的优先级。

总之,当数据仓库中同一表中的数据来自于源系统中不同的表,甚至不同的库时,抽取时务必保证这些数据单位一致,而且都满足同一时间条件。

3)数据仓库中有些字段的值是由源系统综合后得到的。比如:定期存款科目=存款种类+存期;贷款科目=贷款种类+账户状态等;

4)数据量不大就采用全量数据抽取方式以简化数据处理过程。否则就采用增量数据抽取方式。

数据转换成功执行的前提条件是对操作型业务数据库系统的充分理解。

3.4 数据质量评估

1)数据量评估:确定数据量,包括历史数据和增量数据的数据量;

2)数据完整性评估:验证数据库实体的每个属性都有明确的值,不存在“空”或“未知”的属性;

3)数据准确性评估:数据库中的实体应和现实世界中的实体一致,找出造成差异的原因和设计改进的方法,使数据的准确性达到允许的范围之内;

4)数据有效性评估:根据业务系统中规则,评估系统中非法数据的数量和情况,并设计改进的方法;

以上对数据的评估需要在数据源和数据仓库两方面进行并写出数据源评估的报告和数据仓库数据评估的报告。各个阶段形成的文档资料构成数据仓库元数据的一部分。

4 结束语

结合实际项目,总结概括了数据仓库建设中数据处理的几个方面。对企业的信息化建设具有积极的指导意义。

摘要:数据仓库建设是一项巨大的工程,数据处理又是其中至关重要的一个环节。本文从数据处理过程中数据收集、数据清洗、数据转换和数据质量评估几方面说明数据处理过程中常出现的问题及其解决方法。系统已在银行业务中予以实现。

关键词:数据仓库,数据处理,数据清洗和转换

参考文献

[1]Kimball R.数据仓库工具箱:维度建模的完全指南[M].2版.北京:电子工业出版社,2003.

[2]Inmon W H.数据仓库[M].北京:机械工业出版社,2003.

[3]Fan W G,Lu H J,Stuart E,et al.Discovering and reconciling value conflicts for numerical data integration[J].Information Systems,2001(26):635-656.

[4]杨俊生.数据驱动方式下的数据源分析[J].中国金融电脑,2004,(5):41-43.

[5]陈伟,丁秋林.数据清理中不完整数据的清理方法[J].微型机与应用,2005(2):44-45.

数据仓库与数据挖掘学习心得. 篇5

通过数据仓库与数据挖掘的这门课的学习,掌握了数据仓库与数据挖掘的一些基础知识和基本概念,了解了数据仓库与数据库的区别。下面谈谈我对数据仓库与数据挖掘学习心得以及阅读相关方面的论文的学习体会。

《浅谈数据仓库与数据挖掘》这篇论文主要是介绍数据仓库与数据挖掘的的一些基本概念。数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。主题是数据数据归类的标准,每个主题对应一个客观分析的领域,他可为辅助决策集成多个部门不同系统的大量数据。数据仓库包含了大量的历史数据,经集成后进入数据仓库的数据极少更新的。数据仓库内的数据时间一般为5年至10年,主要用于进行时间趋势分析。数据仓库的数据量很大。

数据仓库的特点如下:

1、数据仓库是面向主题的;

2、数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库;

3、数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;

4、数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求,它在商业领域取得了巨大的成功。

作为一个系统,数据仓库至少包括3个基本的功能部分:数据获取:数据存储和管理;信息访问。

数据挖掘的定义:数据挖掘从技术上来说是从大量的、不完全的、有噪音的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。

数据开采技术的目标是从大量数据中,发现隐藏于其后的规律或数据间的的关系,从而服务于决策。数据挖掘的主要任务有广义知识;分类和预测;关联分析;聚类。

《数据仓库与数据挖掘技术在金融信息化中的应用》论文主要通过介绍数据额仓库与数据挖掘的起源、定义以及特征的等方面的介绍引出其在金融信息化中的应用。在金融信息化的应用方面,金融机构利用信息技术从过去积累的、海量的、以不同形式存储的数据资料里提取隐藏着的许多

重要信息,并对它们进行高层次的分析,发现和挖掘出这些数据间的整体特征描述及发展趋势预测,找出对决策有价值的信息,以防范银行的经营风险、实现银行科技管理及银行科学决策。

数据仓库技术在档案管理领域的应用 篇6

关键词:数据仓库构建策略体系结构

数据仓库是一种面向主题的、集成的、随时间的变化且具非易失性的数据集合。它是对传统数据库技术在站场式数据管理需求下的提升,借助这项技术,不仅可以开展数据信息的知识化管理,将库内各类数据、信息关联起来,建立信息知识库,并按照信息知识的含义,分门别类,达到实现知识应用的目的,同时还可以将档案管理工作中的非数字化信息纳入管理工作的范畴,提高档案的利用率。

1数据仓库的构建策略

数据仓库最早是W.H.Inmon于1992年提出的,他指出,数据仓库是面向主题的、集成的、时间变异的、非违约的一系列用于管理和决策制定的数据集。

数据仓库按照范围层次的不同,分为企业级全局数据仓库和部门级数据仓库。全局数据仓库在全组织范围内为各个部门提供管理、决策支持,又名中央数据仓库:部门级数据仓库一般只为某个局部范围内的管理人员服务,也称为数据集市。下面介绍数据仓库常见的三种构建策略。

1.1“自底向上”建立数据仓库。“自底向上”建立数据仓库的过程如下:业务系统源数据库——独立数据集市——企业级数据仓库,整个过程分为两个步骤:

第一步是从关键的部分开始,先建立部门级数据集市,并不断进行扩充和完善,每个数据集市包含某一特定业务领域的数据。在这一步中,通过ETL流程把业务系统中的数据经过抽取、转换后加载到数据集市,然后通过OLAP工具或数据挖掘工具直接访,问数据集市便可进行信息分析,从而把用于数据分析与决策支持的数据集市与业务处理系统物理上分离,每个数据集市可独立实施来执行数据仓库的职能,因此也称为独立数据集市,但需要指出的是。信息技术人员必须针对每个数据集市设计独立的ETL处理程序,把各业务系统的操作数据按照需要分别转换到相应的独立数据集市中。

独立数据集市的优点表现在:一是初期投资较少,并能迅速获取回报;二是就单个数据集市来说。因其数据结构相对较简单,管理比较容易。缺点表现在:一是各数据集市中存在数据不一致的问题,难以直接进行跨数据集市的信息访问,导致出现一个个信息孤岛:二是随着数据集市的增加,系统结构将变得复杂而难以维护,并且系统整体投资迅速增加。因此,如果要以整个企业的视图来分析数据,独立数据集市不是合适的选择。现在,人们在规划数据仓库时已经逐渐转为实施企业级的数据仓库。

第二步是当更多的主题加入数据集市时,将这些独立数据集市进行再集成,最终建立的就是企业级数据仓库。通过本步骤的实施虽然能最终解决数据的一致性问题,但缺点为:一是对数据集市的集成难度较大;二是企业级数据仓库本身投资巨大,这会进一步加大系统的整体投资,同时将会导致第一步中对独立数据集市的投资出现浪费现象。

1.2“自顶向下”建立数据仓库。W.H.Inmon曾提出“自顶向下”建立数据仓库的方法,也就是说,先建立一个全局的数据仓库,然后在其基础上建立部门级和个人级的数据集市。

ETL流程首先将所有业务处理系统中的数据按照统一的存储模型加载到中央数据仓库,然后再按照各部门特定的需求把相关数据复制到部门数据集市。因为中央数据仓库汇集了来自各业务处理系统的数据,同时也负责向各数据集市提供信息。业务人员在进行数据分析与信息访问时将根据需要连接到不同的数据集市。

这种结构的优点是解决了统一数据存储模型和数据一致性的问题,有利于各级数据仓库的一致性的控制。缺点主要体现在三个方面:一是业务人员对信息的访问非常不方便,很难进行跨数据集市之间的信息分析:二是全局数据仓库本身建设规模大,投资巨大,并且实施周期长,见效较慢;三是当数据集市增加时,会使系统整体投资迅速增加,同时管理的复杂性也随之增加。

1.3建立统一的企业级数据仓库。数据集市分为物理与逻辑两种,物理数据集市设立在中央数据仓库之外,具有专门的软硬件设备,一般都使用OLAP服务器,按照特定需求组建多维立方体来提供多维信息分析;逻辑数据集市设立在中央数据仓库之内,由在基础数据之上形成的小结表或者逻辑视图组成,数据集市主要针对粒度较粗、预先定义的分析需求,对于动态的业务查询,粒度较细的或者针对基础数据的分析则不能完成。中央数据仓库采用符合数据库范式理论(一般为第三范式、的存储模型来保存基础数据,从而为整个企业提供一致的信息视图。在中央数据仓库中还设立了一个数据转换与缓冲区,作为ETL处理的一部分。这是因为在很多数据仓库的ETL处理流程中,增加了一个ODS层来进行数据的整理,但这将大大增加整体投资和管理复杂性,理想的方法是,在中央数据仓库中设置一部分存储空间作为数据转换与缓冲区,借助数据仓库引擎强大的复杂查询处理能力,通过SQL实现数据的转换与清洗。

这种数据仓库结构解决了其他数据仓库结构中存在的诸多问题,是一种比较理想的企业级数据仓库系统架构。但由于把详细数据分析、部分的数据转换与清洗等复杂处理均集中在中央数据仓库,从而对作为数据仓库引擎的RDBMS和相应的服务器带来了极大的挑战。选择这种数据仓库基础平台的基本要求是:数据仓库引擎和相应的数据库服务器具有优良的线性扩展能力,系统具有非常好的并行处理能力,能有效而简单地进行系统管理。

2档案管理中的联合数据仓库体系结构

数据仓库的应用按用户的需求可分为信息的使用和知识的挖掘两类,数据挖掘即为知识发现中的一个步骤,知识发现过程一般由以下几个步骤组成:①数据清理;②数据集成;③数据选择;④数据变换;⑤数据挖掘;⑥模式评估;⑦知识表示。数据挖掘的概念就是从存放在数据库、数据仓库或其它信息库中的大量数据中识别出有效的、新颖的、潜在有用的,以及最终可理解的知识的过程。利用数据仓库技术建立知识管理工具库,对相关的显性和隐性知识资源进行明晰化、系统化地管理。定位拥有专门技能的人,建立专家网络,让所有人都能快速而方便地学习或了解所需要的信息和知识,无论数据库、文档、图片还是音像信息。要达到这一目标,我们就需对知识进行合理地分类规划,将它们分门别类地放进各个仓库里,因此,分类整理、存储及管理知识仓库是数据挖掘的重要步骤。

探讨数据仓库的OLAP技术 篇7

关键词:数据仓库,OLAP,技术

现代计算机技术的不断发展,数据仓库技术也成为开展信息服务新渠道的有效途径,一个企业的信息系统中,有大量的负责数据,怎样在这些负责的数据中,提取到对企业决策有作用的信息析,就成为企业信息管理人员面临的最大难题。传统的企业数据库系统是联机事务处理系统(On-Line Transaction Processing, 简称OLTP),这是主要的数据处理手段,它的主要作用是用于事务处理,但是处理的效果有些不尽人意。因此,人们开始利用OLTP数据库的数据进行在加工,组成一个系统的,综合的,对数据的分析决策有更大帮助的数据仓库。

1 数据仓库的概念

数据仓库企业提供数据分析的场所,可以系统的分析数据,给企业提供有效的信息,方便领导人作出决策。大量组织机构已发现,当今世界是一个充满竞争力的世界,数据仓库本身就是一个有价值的竞争工具。按照W.H.Inmon这位数据仓库系统构造方面的领头设计师的说法,“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程”。

2 现代数据仓库的OLAP技术

2.1 OLAP数据模型

在OLAP数据模型中,信息常被是被抽象的几个立方体 (Cube) 。多维结构是提供决策的主体,也是OLAP的核心。多维数据是以多维方式组织数据的,在通过综合总结,数据将被存放在多维数据库中,有效的提供数据库的响应速度。维使人们对数据的认识角度,是考虑问题时的一类属性,属性集合构成一个维。度量则是对数据的取值。OLAP提供了一个多维的数据模式,不管这些数据在计算中是如何存储的,但从用户的角度看,数据都是多维的,数据立方体的每个单元中存放了一个数值。多维数据模型上的OLAP操作,给数据提供了更清晰的分析平台,可让数据分析变得更便捷。数据仓库模型中运用最广泛的多维数据模型。在多维数据模型的基础上,可以进行一些典型的操作:例如上卷 (Drill-up) 、下卷 (Drill-down) 等。

除了这些基本的数据分析外,还可以为企业提供详细的数据报表和数据统计,还能回答企业管理人员提出的假设性问题。

2.2 数据立方体

数据仓库和OLAP基于多维数据模型,数据立方体是多维数据库的核心,一般大型的数据可都要进行核查,所以,数据立方体的有效计算会直接影响到数据可的操作水平,只有预先计算数据立方体的全部或部分,才能大幅度降低复杂查询响应时间,提高联机分析处理的性能。大多数多维OLAP按多维阵列建立立方模型,能直接把索引做进数据立方体的结构,方便收集数据子集。而关系OLAP利用关系数据库模型,其数据立方体是按关系表格的集合实现的,用以代替多维阵列。

2.3 OLAP的数据组织方式

主要的组成方式有,多维OLAP (MOLAP) ,关系型OLAP (ROLAP) 以及混合型OLAP (HOLAP) 。

多维OLAP数据通常是用一个专业的多维数据库来存储OLAP分析所要的数据的,数据以多维方式存储,也以多维的视图展示出来。在MOLAP的结构中,企业内部分散的各种OLTP数据库中的数据经在清洁、提取、修复之后提交给多维数据库,也可以直接提供给数数据库,当这些数据库被存进了数据库的同时,可以根据各数据处在的维进行处理和集合计算,最后再将结果存储到数据库中,用户通过客户端应用软件的界面递交分析需求给OLAP服务器,再由OLAP服务器检索多维数据库以得到结果并返回给用户。

ROLAP将分析用的多维数据存储在关系数据库中,用作ROLAP存储器的RDBMS针对OLAP作相应的优化,ROLAP通常是指那些数据量比较大,计算机运行比较复杂的数据处理。HOLAP把MOLAP和ROLAP两种结构技术优点进行有机结合,利用MOLAP技术存储上层汇总数据,利用ROLAP存储细节数据,就是低层关系,高层是多维矩阵型的.,而这种方式的特点就是灵活,还能满足用户各种复杂的分析请求。

3 OLAP技术的发展方向

OLAP是现代信息处理的新型技术方式,它的操作简单,效率高,同时具有可视化的效果,这些优点有力的帮助了决策支持系统在企业管理中的广泛使用,其本身也得到了较好的发展。

OLAP技术现已经在医疗保险、金融、制造业,商业零售、电信,公用事业等领域中得到了广泛的使用。而这种技术在目前的发展趋势主要是: (1) OLAP技术与和数据挖掘技术的结合。同时成为书库分析的工具,OLAP是分析型的,DM是验证型的,他们的组合为联机分析挖掘 (O-LAM) 技术提供的技术支持,其灵活性和操作性较实际; (2) OLAP技术与Web技术结合,扩宽OLAP的使用范围,成为OLAP发展的一个新方向。

4 结束语

通过数据仓库技术,企业可以获得有效的信息,提高决策的正确度,给现代企业带来较好的经济效益,但是,数据仓库在发展的过程中,同样遇到了各种技术问题。文章主要介绍了数据仓库及OLAP技术的概念和其关键技术。把OLAP技术运用于数据仓库,有利于企业用户从多方面获得有效的数据信息,以提供决策支持。

参考文献

[1]王能斌.数据库系统教程[M].北京:电子工业出版社, 2002.

[2]萨师煊, 王珊.数据库系统概论[M].4版.北京:高等教育出版社, 2006.

[3]张敏, 徐震, 冯登国.数据库安全[M].北京:科学出版社, 2005.

[4]牛少彰.信息安全概论[M].北京:北京邮电大学出版社, 2004.

基于数据仓库技术的应用研究 篇8

1.1 医药销售领域对决策支持的迫切需求

在日益激烈的市场竞争中, 信息对企业的生存和发展起着至关重要的作用。企业数据随着时间和业务的发展不断膨胀, “知识爆炸”和“信息爆炸”成了信息社会的常用词汇。各企业建立的用来收集、存储、管理业务数据的数据库系统, 在相当程度上提高了工作效率。然而, 传统的数据库应用只是对数据进行简单的处理, 越来越不能满足企业发展的对信息更深层次的需要。以我国医药流通行业为例, 随着该行业对外开放, 医药企业将面临来自美国、英国等发达国家同行的严峻挑战。为此, 企业必须改变自己原有的经营模式, 来面对来自各个方面的竞争和挑战。因此, 必须有支撑经营模式转变的新型信息系统, 为企业提供客户分析、市场分析、产品销售分析和决策分析的支撑, 为提升企业的竞争力服务, 为客户提供优质服务。

然而, 目前大部分医药生产销售企业的信息系统, 都是基于传统数据库的业务管理系统, 这些系统存在着以下不足:

(1) 各个业务系统能够处理的信息量有限, 各部门之间能共享信息, 企业决策者希望能够以多种形式、多种角度来展现和分析销售数据, 但目前的业务系统对此却无能为力。

(2) 各个业务系统虽然能够记录每天的业务数据, 但不能给出决策者更关心的诸如下一年的销量、生产计划等预测性数据, 以支持决策。

传统数据库系统不能很好地支持决策, 是因为它是面向业务操作设计的, 虽然能简化具体操作人员的劳动强度, 但不能对这些数据所包含的内在信息进行提取。因此, 同其他行业一样, 在医药生产销售领域, 各个企业渴望建立一种新的系统, 以满足该领域对决策支持的需求。

1.2 数据仓库满足决策支持的需求

为了满足各个行业对决策支持的需求, 需要用新的技术或工程化方案来弥补原有数据库系统的不足, 把企业各个部门现有业务数据集成到新的系统中, 以便提取有用的信息, 帮助他们在业务管理和发展上做出及时、正确的判断, 数据仓库技术就是因此产生的。

数据仓库是计算机和数据库应用发展到一定阶段的必然产物。如今信息处理部门的工作重点已经不限于简单的数据收集和管理。在大量生产业务数据积累的基础上, 企业内部各级人员都希望能够快速、交互并方便有效地从这些大量杂乱的数据中提取有意义的信息, 决策者更希望能利用现有数据指导企业决策和发掘企业竞争优势。由此可以看出, 构建数据仓库的目的是建立一种体系化的数据存储环境, 将分析决策所需的大量数据从传统的操作环境中分离出来, 使分散、不一致的操作数据转换成集成、统一的信息。企业内部不同单位、不同角色的人员都可以在此单一的环境之下, 通过运用其中的数据与信息, 发现全新的视野和新的问题、新的分析与想法, 进而发展出制度化的决策系统, 并获取更多经营效益。

数据仓库也是适应决策支持系统的需要而产生的。所采用的软件产品应该能够支持决策过程的全部工作内容。完整的数据仓库是个十分庞大的系统, 主要包括3个方面的内容:数据仓库技术、联机分析处理技术 (OLAP) 和数据挖掘 (Data Mining) 技术。

1.3 医药销售领域决策支持需求的解决方案

随着市场竞争的日益激烈, 医药生产销售行业对决策支持系统的需求越来越迫切, 不少医药生产销售企业包括全球制药巨头也采用数据仓库技术, 纷纷建立了自己的数据仓库系统, 用来支持企业的日常决策乃至战略发展决策。可以说, 数据仓库系统是为了决策支持而产生的, 它既然能够满足不同行业的决策支持需求, 当然也能满足医药销售领域的需求。

笔者通过给一家全球知名的医药生产销售企业成功实施数据仓库系统-“医药销售数据分析系统”, 可以得出结论:数据仓库技术能够成功很好地满足医药生产销售企业业务发展的需要, 能够满足企业对决策支持的需求。

医药生产销售企业建立数据仓库系统是为了改善公司现有计算机应用系统现状, 以满足企业内部用户对药品销售、流通情况越来越多、越来越复杂的统计、分析、预测需求。它在保持现有应用系统功能的基础上, 充分利用医药企业的各种数据源, 包括药品生产、销售等业务数据、财务数据、和计划数据等, 对其进行面向决策的数据重组, 将其转移到数据仓库中, 并在该数据仓库的基础上建立面向最终用户的基于决策支持的统计分析应用系统和灵活的查询系统。通过该数据仓库系统, 用户可以从各种不同的角度对药品销售计划、完成情况和收益情况进行深层次的统计和分析, 使得企业对医药销售分析与预测更快捷、更准确和更科学, 以帮助管理者和经营者正确决策。

1.4 数据仓库基本概念介绍

“数据仓库 (Data Warehouse) ”这个名词首次由号称“数据仓库之父”的William H-Inmon提出。他在《构建数据仓库》一书中指出, “数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合, 用以支持经营管理中的决策制定过程。”随着人们对数据系统研究管理和维护的不但深入, 对数据仓库有如下几个特点达成了共识:数据仓库中的数据是面向主题的、集成的、不可更新的、随时间增加的, 建立数据仓库的目的是为了更好地支持决策分析。

提起数据仓库技术, 一定要了解一些基本概念, 在此做以下简单的介绍。如果想了解更多信息, 请参见关于数据仓库方面的专著。

元数据 (Meta Data) , 是关于数据的数据, 类似数据库系统中的数据字典, 是以概念、主题、集团或层次等形式建立的信息结构并记录数据对象的位置。

数据集市 (Data Mart) , 也被称做“小型数据仓库”。如果说数据仓库是建立在企业级的数据模型之上的话, 那么数据集市就是企业级数据仓库的一个子集, 他主要面向部门级业务, 并且只面向某个特定的主题。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。

维度 (Dimension) , 是多维数据集的结构性特征, 是事实数据表中用来描述数据分门别类的有组织的层次结构。

多维数据集 (Multi-Dimensional Data Set) , 也叫数据立方体, 是一个包含维度和度量值的等结构的数据集合, 通常从数据仓库的子集构造, 通过多维数据集, 可实现对数据仓库中的数据进行快速访问。

OLAP, 联机分析处理, 对多维数据集进行快速、稳定一致和交互性的存取, 允许管理决策人员对数据进行深入观察的技术, 我们平常经常听到的诸如对数据的“钻取 (Drill) ”和“切片 (Slide) ”就是OLAP通过技术实现的。根据数据存储的方式, OLAP可分为基于多为数据库的MOLAP和基于关系型数据库的ROLAP两种类型。

ETL, 抽取 (Extract) 、转换 (Transform) 和装载 (Load) , 是实现数据从业务系统向数据仓库转化的必要过程以及完成转化需要使用的工具和策略。这个过程往往根据系统定义好的元数据, 根据原有业务系统和数据仓库的特点, 一次性或者增量地把数据转化到数据仓库中。目前, 好多数据仓库提供商提供了比较完善的ETL工具。

1.5 从数据库到数据仓库的转换

数据仓库是由数据库进化而来, 是以大型数据库系统作为基础, 附加在原有系统之上并存储了从企业所有业务数据库中获取的综合数据并能利用这些综合数据为用户提供处理过的有用的信息的应用系统。

原有传统型数据库提供联机业务处理功能 (OLTP) , 主要按用户的要求对业务数据进行查询和处理。由于用户需求的不断提升, 将它用于决策支持在功能和性能上都是不够的, 必须进行改进和更新, 数据库到数据仓库的转换是必须的。数据库到数据仓库的转换, 除了指系统功能的转换之外, 还包括数据的抽取和转换。数据的转换有时会很复杂, 为了提高数据转换的效率和性能, 往往在数据仓库和业务系统之间增加一个中间数据库 (Staging Tables) , 用以临时存储从业务系统中导出的数据, 然后再根据导入策略定时或一次性将数据导入到数据仓库中。

1.6 数据仓库的体系化环境和数据组织

传统的数据库技术是以单一的数据资源为中心, 进行业务处理、批处理等工作。而数据仓库技术具有分析处理等特点, 它既是一种结构和富有哲理性的方法, 也是一种技术, 也是存储数据的一种形式。数据仓库弥补了传统操作型数据库以单一的数据资源为中心的缺点, 发展出了一种新的体系化环境。

2、辉瑞制药公司数据仓库解决方案

辉瑞公司是目前全球名列前茅的医药和保健品生产销售企业。该公司的产品行销全球150多个国家和地区。根据2011年福布斯全球200强企业统计表名, 2011年辉瑞的全球总销售额突破600亿美元, 利润150亿美元。

这样一个遍布全球的药品生产和销售企业, 每天产生的生产和销售数据的数量巨大可想而知。同时, 由于这些数据散布在不同区域中功能各异的业务系统中, 数据分散, 不利于统计和数据共享, 因此, 如果没有集成的数据仓库管理统一管理, 很难从业务数据中发现能供决策分析使用的数据。

为了解决上述问题, 早在1996年, 辉瑞就开始着手实施数据仓库。当时, 辉瑞建立数据仓库的总体目标是:

实现药品生产、流通环节的数据分析、挖掘和知识发现。

数据仓库不仅要存储药品生产和销售数据, 同时还要存储与制药相关的诸如生物、政策上的以及仓储方面的信息。

为了达到以上目标, 辉瑞制药公司建立数据仓库、集成异构数据时必须要解决以下问题:

先要建立一个或几个区域性的中央数据仓库系统, 也称基础数据仓库。由于辉瑞公司业务遍布全球, 不适合建立大集中式的、统一的中央数据仓库, 否则非常难以实施。

依据区域性数据仓库, 要建立统一、标准的数据视图, 以保证不同区域数据分析的角度和层次是一致的。

依据区域性数据仓库, 要建立一个辉瑞和第三方数据抽取的知识库。

数据仓库建设的重点应放在数据集成的方案上, 并非前端的展现工具。

在数据的使用上, 集成的数据应该更容易获取、比较、交换和操纵。

1996年, 全球知名数据库 (数据仓库) 提供商ORACLE公司根据辉瑞公司的业务运行特点和数据整合的需求, 为其提供了一个完整的数据仓库解决方案, 简单介绍如下:

辉瑞制药公司不仅要集成本公司内部的生产、销售数据, 而且还要继承与行业相关的外部数据。因此, 在数据仓库建设过程中, 必须考虑内部数据与外部数据的融合。

辉瑞数据仓库的体系ETL层抽取来自辉瑞内部、外部以及第三方的数据。将数据暂存在在临时数据库 (Staging Tables) 中。然后再进入中央数据仓库中。根据数据使用者的需求, 数据仓库里的数据经过整理进入不同的数据集市 (Data Mart) 中, 以便通过OLAP工具展现出来。与此类似, 我国的西安杨森公司也使用了国内一家IT公司为其开发的基于OLAP的销售数据分析系统, 致力于此方面研究和利用, 这里不再祥述。

经过以上介绍, 我们可以知道, 大多数医药公司已经或正在建设自己的销售分析系统。使用的技术也是多种多样。有的企业建立在大型中央数据仓库之上, 有的直接利用关系数据库系统加上BI工具。有的则找专业IT公司为自己开发。每种方案都有各自的优势, 也有各自的缺点。建立一套数据分析系统, 除了满足企业的功能需求外, 还要考虑公司的资源投入、信息化策略等问题, 结合B I前端OLAP展现工具, 很好地将业务数据整合到数据仓库中, 并根据数据分析的需要, 通过定制数据立方体, 以丰富的表现形式展现分析数据。系统除了满足企业对销售数据分析的功能需求外, 还满足了公司信息化整体策略和风格。

摘要:作为近年来发展迅速的一种新兴技术, 数据仓库能把收集来的数据转变成有意义的可用在分析和报表等应用程序的信息。目前数据仓库技术已经在社会各个行业中成功应用, 为决策支持提供服务。本文以一个建立在医药销售领域的数据仓库实际应用为例, 阐述了数据仓库技术的原理、数据仓库工具及其关键技术以及未来的发展方向。

关键词:数据仓库,元数据,多维数据集,OLAP,ETL,销售达成率

参考文献

[1]W.H.Inm on.构建数据仓库.机械工业出版社, 2000年5月.

[2]彭木根.数据仓库技术与实现.电子工业出版社, 2002年6月.

[3]李子木, 莫倩, 周兴铭.数据库技术的研究现状及未来方向.计算机科学, 1998年Vol.25 No.4.

[4]许向东, 张全寿.数据仓库与数据发掘的应用, 计算机系统应用, 19 9 8年4月.

[5]练慧萍, 杨明福.数据仓库技术及其在电子商务中的应用.微型电脑应用, 1998年5月.

数据仓库技术 篇9

现代物流要求仓库系统能快速及时地处理货物信息,给管理层提供决策支持,而现在的仓库管理系统(WMS)只是基本上实现了仓库事务管理,而对于时间、信息准确性及决策支持方面的功能支持不足。本文提出综合运用RFID自动识别技术和数据仓库及其上的信息技术构建更先进的仓库管理系统应对现代物流发展要求。

射频RFID识别技术是现代科技中较为先进的信息识别技术,具有非接触、容量大、读取快的特点,将其引入仓库管理系统能够实现仓库实时状态的可视化,使仓库管理更加快速地响应环境的变化,同时可以提高仓库内部资源的利用率;数据挖掘技术已被证明为获得企业竞争优势的主要手段,将企业积累的大量历史沉睡数据变为企业的潜在的财富,为经营分析者提供强大的OLAP(联机分析处理)报表,为经营决策者提供决策分析。在实际应用中,二者结合度并不高,本文尝试RFID识别技术与数据仓库及数据挖掘技术的联合应用,使企业获得仓库信息的及时的自动获取及分析,辅助仓库管理,并对企业决策提供支持。

1 现有仓库管理系统的研究

在现在的物流管理系统中,仓库管理系统已经作为一个非常重要的组成部分发展日益成熟,具有以下特点:

1.1 完善的事务处理系统,缺乏决策支持能力。

仓库管理通常分为操作人员和操作流程模块,操作人员包括3个角色,分别是,仓库管理员,搬运员(包括手工搬运员和叉车驾驶员),其他相关用户(包括供应商,客户,上级领导以及其他仓库外部人员)。操作流程分别是:入库、出库、盘点和查询。现有的仓库管理系统都是基于这些人员和流程的事务处理系统,也即是为处理当前业务而专门设计的解决当前问题的信息系统。这种系统能够迅速及时的对操作人员提供业务支持,但是对于管理层了解企业仓库情况,做出下一步的准全局决策的帮助效果不大。

1.2 采用条码技术。

仓库管理系统一般通过条码技术识别货物信息,相比手工记录提高了识别速度。(1)识别速度慢。由于条码仅能够标记同类货物,条码本身属于被动式识别,即需要人工操作,利用光学原理识别,这种识别方式在货物数量比较少时能起到良好作用,但当处理大批量货物时企业不能够实时的获得仓库具体货物的进出信息,了解货物的存放位置,并且仓库流程中的重复读取数据以及传统的读取方式造成企业资源的巨大浪费。(2)读取信息不准确。条码技术因为收集信息量偏少、易受干扰、不可重写、读取距离短、读取烦琐等局限性,数据读取不准确,WMS不能准确获得库存信息,数据大都需要经过一定处理才能进入数据库系统。(3)信息不标准。条码技术采用一维编码,对于现代物流要求的供应链管理来讲,不能够满足供应链上货物从产地到目的地的跟踪过程的信息存储,同时不满足后续过程数据仓库中对数据呈现出时间、产地、目的地等多维性的的需求。

1.3 数据缺乏组织性。

仓库货物繁多混杂,仓库日处理事物数量庞大,WMS存储的一般都是短期数据。WMS一般采用关系型数据库,其中的数据缺乏组织性,也没有系统的、集成的历史记录,所以很难对这些数据作出具体详细的分析,发现有用的信息,把握企业的发展趋势和市场变化。

因此,本文尝试通过使用RFID射频自动识别技术使企业实时准确获取库存信息,并能利用其信息的标准化使企业利用数据仓库及其以上的数据分析技术及时的分析库存现状,提供企业货物存储的位置及最佳存放或拣选路线的分析;对企业的库存利用率、缺货补货情况甚至企业的营销情况做出决策支持,增加其企业应对市场的能力。

2 技术介绍

2.1 射频识别RFID。

射频识别技术(Radio Frequency Identification),俗称电子标签,是一种新型的非接触式自动识别技术,实现对静止或移动的物体的自动识别。利用RFID,在商品上置入特制的微芯片,称为RFID标签(RFID Tags),可以用来追踪和管理几乎所有的物理对象,是物流工程、追踪等领域信息化的重要手段之一。

工作原理: 应答器进入阅读器发出的电磁场后, 接收阅读器所发出的射频信号, 借着感应电流所获得的能量发送出存储在芯片中的产品信息, 或者是主动发送某一频率的信号。 阅读器读取信息并解码后送至中央信息系统进行有关数据信息的处理, 如图 1。

2.2 数据仓库技术。

数据仓库作为一种新兴并日益成熟的技术引起了人们的广泛重视。数据仓库+数据挖掘+联机处理分析的结构已被认为是决策支持系统的有效解决方案。与传统的面向事务性处理的数据库相比, 数据仓库面向复杂的分析型数据, 解决了数据集成、 数据综合、 数据不一致等问题, 使企业的业务操作环境和信息分析环境分离, 从而有效地为决策提供实时的信息服务。 再配合以数据挖掘技术和联机分析处理技术, 就可以构成实用的决策支持。 数据仓库与传统型事务处理数据库的区别: (1) 数据仓库的首要特征是面向企业重要的主题, 它是一种分析驱动/面向主题的数据处理技术, 而传统的事务数据库是事务驱动/面向应用的数据处理方式。 (2) 数据仓库另一个主要特征是数据的集成化, 如一致的命名规则、 一致的度量单位、 一致的编码规则、 一致的数据物理属性等。 这样保证了据的可靠性与一致性。 (3) 数据仓库中的数据不是一个时刻的数据, 而是一个时间段的数据。 事务数据库对当前是 “精确” 的, 而数据仓库中的数据对一个时间段来说都是 “精确” 的, 故具有时间跨度性。 (4) 面向应用的事务数据库的操作基于单个记录的插入、 更新与删除, 性能敏感、 内容易变且无冗余, 而面向主题的数据仓库系统的操作基于多个数据源数据的成批刷新, 性能不敏感、 内容可有冗余。

3 RFID与数据挖掘技术改进WMS概述

将RFID射频识别技术与数据仓库技术应用在仓库管理系统中,就是采用RFID射频识别技术来跟踪货物在仓库中的信息,将这些信息存储在事物性数据库,提取到数据仓库中,以数据仓库作为企业层的数据源,再加上各种数据挖掘技术,组成有效的决策支持系统,并结合企业专家知识库系统,增强传统仓库管理信息系统的实时决策功能。

3.1 可行性分析。

RFID射频识别技术能实时、准确并能标准化的的读取信息,对于企业数据仓库及时的将最近时段的数据与历史数据联系进行分析起到良好作用。在现在企业仓库中,人工读取与条形码读取方式处于主导地位,企业一般采用业务处理系统而缺乏数据仓库分析来支持企业管理层的决策。(1)解决实时读取,使数据仓库及时得到一手数据。人工读取受人员限制影响较大, 读取缓慢; 条形码自身编码性质及依附可视化读取的特点, 只能一次一个, 造成收集信息量偏少、 易受干扰、 不可重写、 读取距离短、 读取烦琐, 都不能满足现代仓库数目巨大的仓储要求, 也不适合企业及时、 准确并能标准化得读取信息。 RFID 技术因为其特点可以远距离读取, 并可以同时读取多个 RFID 的标签资料, 满足大量货物共同处理时不产生拥堵、 等待, 能实现实时的数据读取。 (2) RFID 电子标签信息精确。 条码需要人工读取, 很容易造成人为错误, RFID 标签内的资料全部是通过电磁波传递, 可以在很大程度上降低这种错误的可能性。 信息一旦写入标签中, 不易丢失, 更改信息需要一定权限以及特殊读写装置, 保证标签信息的准确性。 在数据仓库处理中, 最不希望出现的情况就是处理错误信息, 也即所谓的 “垃圾进垃圾出”, RFID 电子标签能有效减少信息的错误率, 保证数据仓库源头的清洁。 (3) RFID 电子标签资料容量上大, 可以按照一定标准储存信息, 标签中的信息存储与用户数据库中的存储方式保持一致, 减少企业在信息读取后将其载入数据仓库时进行数据清洗、 净化、 转化等数据预处理的时间, 使企业迅速的得到一手数据, 结合历史数据做出决策。

3.2 系统构架分析。根据这种思想初步构成如图2所示的改进仓库管理信息系统的应用模式:

3.2.1 RFID识别模块。

以入库操作为例,说明RFID识别模块设计:(1)仓库收到供应商的发货通知;(2)货物进入仓库时,系统自动扫描RFID标签,进行身份验证,确认为合法标签后与订货单核对;否则反馈信息并拒绝其入库;(3)仓库管理系统将符合要订货单的货品在仓库知识库中查询应该摆放的货位,并在相应的托盘RFID标签内写入,生成入库单并更新数据库;(4)搬运员用手持设备读取在RFID标签中的商品信息,在收到这些实时数据后,根据已有的知识库按其指示路径堆放货品;(5)搬运员用手持设备读取在托盘电子标签中的货位信息,搬运员通过手持设备向系统反馈信息,更新在库托盘信息表和仓库货位信息表;完成更新数据库;(6)系统将入库商品报表发送至供应商系统。

3.2.2 数据仓库建立模块。

(1) 确定主题进行数据建模 。 根据企业决策需求确定主题 , 选择数据源 , 对数据仓库的数据组织进行逻辑结构的设计。 针对仓库管理系统, 可分别设立仓库内货品存放位置及路径主题、 企业货品需求和利润计算等多个主题, 并针对各个主题选择不同数据源。 (2) 设计数据仓库中的数据库, 即设计多维数据结构的事实表和维表。 针对不同主题选择不同数据模型。 (3) 数据转换过程。 实现从源系统中抽取数据、 清理数据、 一致性格式化数据、 综合数据、 装载数据等过程的设计和编码, 利用 RFID 技术能 及时和准确读取信息的特点, 实现数据仓库对企业数据的实时精确地掌握, 减少以前手 工 或 条 码 时 期 信 息 收 集 缓 慢 粗 放 的 情况。 (4) 定义元数据, 即定义数据的意义及系统各组成部件之间的关系。 元数据包括关键字、 属性、 数据描述、 物理数据结构及数据时限等。 利用原数据跟踪数据来源, 增加时间戳, 对 RFID 自动识别 性能进行监控和调整, 保证信息质量。

3.2.3 数据分析处理模块。

基于数据仓库上的数据分析技术主要包括:OLAP技术和数据挖掘技术。(1)联机分析处理技术:即OLAP技术,是数据仓库系统中最重要的技术,通过对数据仓库中建立的多维数据集进行多维切片分析、多维切块分析、多维旋转分析、上卷分析、下钻分析等方式,能够为烟草企业提供快速的多视角多维度的OLAP数据立方体查询,使企业从不同角度,不同层次上查看企业仓库中的货品情况。(2)数据挖掘技术:数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用的数据中,提取隐含在其中的、人们事先不知道的、 但又是潜在的、 有用的信息和知识的过程。

采用这两种技术实现对数据仓库中建立的多维数据集的分析, 在本系统研究中, 突出的解决两类问题, 一类是仓库内部货物存放位置和叉车行走路线的问题分析, 另一类是企业整体角度对货物缺货与补货情况分析、 货品盈利率分析以及货品需求情况的分析。 如图所示:

3.2.4 分析结果前端显示模块 。

通过前端显示软件设计使数据分析结果以图表或其他易见形式表达给管理层 , 是管理层对仓库情况有直观的认识, 加强对仓库的监管能力和未来情况的决策能力。

4 结论

本文提出将RFID与数据仓库技术结合,利用RFID实时准确获取信息的能力,结合数据仓库的分析技术,给企业提供仓库内部的优化支持和企业货物缺货补货、序曲球水平的分析。本文制作出初步架构,还存在具体算法分析等问题,在以后的研究工作中加以改进。

参考文献

[1]王锐,等.数据挖掘技术以及应用现状分析[J].电脑技术,2007(69):20-23.

[2]张月,潘郁.物流管理数据仓库模型[J].南京工业大学学报,2005,27(2):72-76.

[3]杨登.基于数据仓库的物流配送系统的分析与设计[J].吉林化工学院学报,2008,25(4):75-79.

[4]凌云,林华治.RFID在仓库管理系统中的应用[J].中国管理信息化,2009,12(3):43-45.

浅谈数据仓库与数据挖掘技术及应用 篇10

1.1 数据仓库的定义及特点

(1)定义:业界公认的数据仓库概念创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。

(2)特点:数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据。

1.2 数据仓库与数据库的区别

数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。数据库是面向事务的设计,数据仓库是面向主题设计的;数据库一般存储在线交易数据,数据仓库存储的一般是历史数据;数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计;数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。数据仓库弥补了原有的数据库的缺点,将原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环境。

2 数据挖掘的定义及功能

2.1 数据挖掘的定义

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

2.2 数据挖掘的功能

数据挖掘综合了各个学科技术,有很多的功能,当前的主要功能如下:

(1)分类:按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。

(2)聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。例如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。

(3)关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。

(4)预测:把握分析对象发展的规律,对未来的趋势做出预见。例如:对未来经济发展的判断。

(5)偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。

需要注意的是:数据挖掘的各项功能不是独立存在的,在数据挖掘中互相联系,发挥作用。

3 数据仓库与数据挖掘技术及应用

3.1 数据仓库技术及应用

数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。数据仓库并没有严格的数学理论基础,它更偏向于工程。由于数据仓库的这种工程性,因而在技术上可以根据它的工作过程分为:数据的抽取、存储和管理、数据的表现以及数据仓库的设计的技术咨询四个方面。

3.1.1 数据的抽取

数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面。数据仓库的数据并不要求与联机事务处理系统保持实时的同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。在数据仓库的世界里,它们只能成为辅助的角色。

3.1.2 数据的存储和管理

数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。要决定采用什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分析。

数据仓库遇到的第一个问题是对大量数据的存储和管理。这里所涉及的数据量比传统事务处理大得多,且随时间的推移而累积。从现有技术和产品来看,只有关系数据库系统能够担当此任。

数据仓库要解决的第二个问题是并行处理。在传统联机事务处理应用中,用户访问系统的特点是短小而密集;对于一个多处理机系统来说,能够将用户的请求进行均衡分担是关键,这便是并发操作。而在数据仓库系统中,并行处理技术在数据仓库中比以往更加重要。目前,关系数据库系统在并行处理方面已能做到对查询语句的分解并行、基于数据分割的并行、以及支持跨平台多处理机的群集环境和MPP环境,能够支持多达上百个处理机的硬件系统并保持性能的扩展能力。

数据仓库的第三个问题是针对决策支持查询的优化。这个问题主要针对关系数据库而言,因为其它数据管理环境连基本的通用查询能力都还不完善。在技术上,针对决策支持的优化涉及数据库系统的索引机制、查询优化器、连接策略、数据排序和采样等诸多部分。

数据仓库的第四个问题是支持多维分析的查询模式,这也是关系数据库在数据仓库领域遇到的最严峻的挑战之一。

在数据仓库的数据存储管理领域,从当今的技术发展来看,面向决策支持扩充的并行关系数据库将是数据仓库的核心。在市场上,数据库厂商将成为数据仓库的中坚力量。

3.1.3 数据的表现

数据表现是数据仓库的门面,这是一个工具厂商的天下,它们主要集中在多维分析、数理统计和数据挖掘方面。在当前的数据仓库应用中,多维分析是数据仓库的重要表现形式,有效地利用数理统计就已经能够获得可观的效益。

3.1.4 数据仓库设计的技术咨询

在数据仓库的实施过程中,有一些更为基本的问题需要解答。它们包括:数据仓库提供哪些部门使用,不同的部门怎样发挥数据仓库的决策效益,数据仓库需要存放哪些数据,这些数据以什么样的结构存放,数据从哪里装载,装载的频率多少为合适,需要购置哪些数据管理的产品和工具来建立数据仓库,等等。这些问题依赖于特定的数据仓库系统,属于技术咨询的范畴。

事实上,数据仓库决不是简单的产品堆砌,它是综合性的解决方案和系统工程。在数据仓库的实施过程中,技术咨询服务至关重要,是一个不可缺少的部分,它甚至于比购买产品更为重要。目前,数据仓库的技术咨询主要来自数据仓库软件产品的供应商和独立的针对数据仓库技术的咨询公司。

90年代以来,计算机技术,尤其是数据库技术的发展为DSS提供了技术支持;激烈的市场竞争促进了高层次决策人员对DSS的实际需求。两方面的共同作用,促成了以DW为核心、以O-LAP和DM工具为手段建设DSS的可行方案。数据库技术的发展DW需要以下数据库技术的支持。

(1)高性能数据库服务器DW的应用不同于传统DB的OLTP应用。传统DB的应用是操作型的,而DW的应用是分析型的,它需要高性能的DBMS核心的支持,以使较快地获得分析结果,这通常需数秒至数分钟。虽然比OLTP的响应时间长一些,但由于分析型应用涉及的数据量大,查询要求复杂,因此,对DBMS核心的性能要求更高,同DBMS必须具有良好的查询优化机制。

(2)并行数据库技术DW中的数据量大,而且随着时间的延长,新的数据还会不断进入。DW中的数据库通常是GB甚至TB级的,可谓是超大规模数据库(VLDB)。而并行数据库技术是存储和管理VLDB,并提供对VLDB复杂查询处理的有效技术。

(3)数据库互操作技术DW中的数据大多来自企业或行业中业已运行的OLTP数据库或外部的数据源。这些数据库常常是异构的,甚至是文件系统中的数据。DW必须从这些异构数据源中定期抽取、转换和集成所需要的数据,并把它们存入DW中。因此,异构数据源之间的互访和互操作技术是必需的。

3.2 数据挖掘技术及应用

作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的、复杂的数据结构,维数大。最后,数据挖掘是许多学科的交叉,运用了统计学、计算机、数学等学科的技术。以下是常见和应用最广泛的算法和模型:

(1)统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题;回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归;统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

(2)关联规则。关联规则是一种简单、实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛,适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则进行有效的评价,筛选有意义的关联规则。

(3)聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异。常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价。此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

(4)决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值。分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

(5)神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

(6)遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分来更新当前群体的一组假设,实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉[重组)选择两个不同个体[染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

摘要:数据仓库技术是基于信息系统业务发展的需要,基于数据库系统技术发展而来,并逐步独立的一系列新的应用技术。数据挖掘技术为应对信息爆炸、海量信息的处理提供了科学和有效的手段。本文简单介绍了关系数据仓库、数据挖掘的概念、结构、基本原理、技术和应用领域。

关键词:数据仓库,数据挖掘,信息技术应用

参考文献

[1]王珊,等.数据仓库技术与联机分析处理[M].北京:科学出版社,1999.

[2]Tom Hammergren著.曹增强,王备战,等译.数据仓库技术(Data Wharehousing:Building the Corpo-rate Knowledge Base)[M].北京:中国水利水电出版社,1998.

[3]Harjinder S.GILL等著.王仲谋,刘书舟译.数据仓库——客户/服务器计算指南[M].北京:清华大学出版社,西蒙舒斯特国际出版公司,1997.

[4]王珊,王秋月.我国数据仓库的应用展望[J].计算机世界专题综述,1996.

[5]苏新宁,杨建林,江念南,栗湘.数据仓库和数据挖掘[M].北京:清华大学出版社,2006.

[6]Jiawei Han,Micheline Kamber著.范明,孟小峰等译.数据挖掘概念与技术[M].北京:机械工业出版社,2001.

[7]邹先霞,王淑礼,魏长华.数据仓库与数据挖掘技术浅谈[J].高等函授学报(自然科学版),2000,(03).

上一篇:文人相轻下一篇:安全文化模型