数据仓库

2024-05-18

数据仓库(精选十篇)

数据仓库 篇1

数字化校园的构成可以用图1表示, 计算机网络是数字化校园的基础设施;网络基本服务是数字信息流动的基础, 包括电子邮件、文件传输、域名服务、身份认证、目录服务等;在此基础上要建立各类基于网络的数据仓库, 包括职能信息库、课程资源库、数字化图书资源等;应用支撑系统包括办公自动化系统、各类管理信息系统、网络教学系统以及数字图书馆管理系统等等;在此之上的信息服务系统是校内用户的主要使用界面, 为师生提供各种服务, 如信息交流、信息查询、决策支持、电子商务等。五个区域分别表示数字化学习环境的功能领域:组织管理、教学活动、学术研究、公共服务和学校社区服务等, 各个功能领域之间是密切相关、相互促进的。

以选课系统为例解析数据仓库的构建与应用

数据挖掘, 又称为数据库中的知识发现 (Knowledge Discovery in Database, 简称KDD) , 是指从大型数据库中提取人们感兴趣的信息, 提取的知识表示为概念 (Concepts) 、规则 (Rules) 、规律 (Regularities) 、模式 (Pattems) 等形式。数据挖掘可以应用于各个领域, 包括商务管理、生产控制、市场分析、工程设计和科学探索等。利用数据挖掘技术, 挖掘选课系统中积累的有用信息, 可以使学校的相关部门有弹性地调节所开的课程, 调整热门课程和冷门课程的人数, 调节相关课程的学分, 通过选课率及相关信息做出正确决策, 鼓励和引导学生选择互补的课程, 这有利于学生整体素质的提高, 也有利于教师、教室等资源的合理分配。

1. 确定数据仓库和OLAP模型

OLAP (Online Analytical Mining或OLAP Mining) 是基于数据仓库的信息分析处理过程, 其基本特点是能够从多种角度对从原始数据中转化出来的信息进行快速、一致、交互地处理, 从中获得对数据更深入地了解。OLAM将二者结合起来, 发展一种建立在OLAP和数据仓库基础上的新的挖掘技术, 它兼有OLAP多维分析的在线性、灵活性和数据挖掘对数据处理的深入性, 是数据库应用工具未来发展的方向之一。

通常要先分析原有业务数据库, 确定待建的数据仓库主题。再根据用户的需求来确定各个级别数据仓库的存储主题。这里选取学生选课管理这一典型业务为主题。为了保证数据的正确性和一致性, 还要确保这些数据是按同样的方法记录的同一件事情, 需要对选课的原始数据进行预处理, 转换成适合数据挖掘的数据。数据预处理 (Data preprocessing) 包括三个步骤:数据清理 (Data cleaning) 、数据集成 (Data integration) 和数据变换 (Data transformation) 。完成数据的预处理之后, 便可确定待建的数据仓库模型, 实现OLAP建模, 生成多维数据集 (CUBE) 。可以建立以ROLAP方式存储的选课数目分析多维数据集 (以时间维、学号维、院系专业维为维度, 选课数目为度量值) 、选课学分分析多维数据集 (以课程类别维、课程开课部门维、学号学历维为维度, 学分为度量值) 等许多个不同的多维数据立方体。

2. 数据挖掘关联算法的实现

关于关联规则的挖掘算法主要有循环式扫描算法、增量式更新算法、并行挖掘算法、元模式制导、基于约束挖掘等等。目前大多数研究集中在频繁数据项的挖掘方法上。其中比较典型的关联规则挖掘算法有Apriori算法和FP-growth算法。

数据仓库与数据挖掘论文 篇2

摘 要 决策树学习是人们广泛使用的一种归纳推理形式。先就决策树和决策树学习算法进行介绍,然后用实例阐述决策树在教育信息处理中的应用,主要以在教学评价中的应用为例来加以介绍。

关键词 决策树;数据挖掘;教育信息处理;教学评价

当今社会处于一个信息爆炸的时代,海量的数据可以用来选择和发掘信息,然而有时却让人无从下手,因此数据挖掘技术受到人们的高度关注。数据挖掘是从大量的、不完全的、有噪声的、模糊的或者随机的数据中提取人们事先不知道的但又是有用的信息和知识的过程。它的方法很多,其中决策树是一种解决实际应用分类问题的数据挖掘方法。在教育教学中,根据决策树算法的实际特点,它可以在教育信息处理中的信息采集上发挥很大的作用。决策树介绍

决策树学习是人们广泛使用的一种归纳推理形式。决策树起源于概念学习系统,其思路是找出最有分辨能力的属性,把数据库划分为许多子集(对应树的一个分枝),构成一个分枝过程,然后对每一个子集递归调用分支过程,直到所有子集包含同一类的数据。最后得到的决策树能对新的例子进行分类。它一般是从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它一般需要给定一组训练例子,训练例子一般被看成用于创建模型的数据集。由此可以看出,决策树是一个类似于流程图的树结构,其中每一个内部结点表示对一个属性的测试,每一个分支代表一个决策输出,而每个叶节点代表一个目标分类。决策树通过把实例从根节点排列到某个叶子节点来分类实例,叶子结点即为实例所属的分类,树上每个节点说明对实例的某个属性的测试,节点的每个后继分支对应于该属性的一个可能值。假如需要根据人员的外貌特征对人员进行分类,用于人员的外貌特征有3个,外貌列表={高度,发色,眼睛};各属性的值域分别为:高度={高,矮},发色={黑色,红色,金色},眼睛={黑色,棕色}。分类结果有两种:种类={+,-}。提供的训练例子集为:T={<(矮,金色,黑色),+>,<(高,金色,棕色),->,<(高,红色,黑色),+>,<(矮,黑色,黑色),->,<(高,黑色,黑色),->,<(高,金色,黑色),+>,<(高,黑色,棕色),->,<(矮,金色,棕色),->}。上述文字可构造图1所示决策树。决策树学习算法

决策树算法有几种,如ID3、C4.5、CA RT等。其中ID3算法是最经典的算法,该算法从根节点开始,这个根结点被赋予一个最好的属性。随后对该属性的每个取值都生成相应的分支,在每个分支的终点上又生成新的节点。然后按照该属性的取值将每个训练例子都分别赋给一个相应的新节点。如果没有任何训练例子能赋给某个节点,那么该节点连同相应的分支都将被删除。这时,将每一个新节点都视作一个新的根节点,重复执行整个过程。这里,最好属性的选择要基于信息增益这个统计特性。在定义信息增益前,先要了解另一统计特性:熵。

给定一组有c个分类的训练例子,对属性a来说,它有值v,其中pi是在第i类中属性a取值为v的概率。为了能选出最好的属性,需要使用度量信息增益。一属性的信息增益就是按照该属性对训练例子进行划分所带来的熵的减少量。其中,T是训练例子的集合,Tj是属性A取值为j的训练例子集合,为T的一个子集。决策树在教育中的应用

在教育教学中,尤其是在高等教育体系中,学校的数据库中存贮着大量的教育教学信息,其中一部分和教学有关,如学校的开课排课情况、教师情况;一部分和学生有关,如学生历年的考试、测验成绩等。这些大量的数据后面隐藏着大量的信息,只要加以分析,就能得到许多有用的信息,如教育规律、学生的培养模式、学生学科间的差异性和相关性的一些规律。这些规律对教育管理决策来说是相当重要的,对教育教学改革有指导性的意义。

3.1 决策树在教育信息处理中的应用

决策树表示的是一个离散值函数,树中每一个节点表示一个属性,同时目标分类具有离散的输出值信息。教育中的大量信息,一般都是对一些离散的数据进行分析,比如学习成绩一般分成优、良、中、差,外语六级成绩分成过与未过,这些信息都可以用决策树来加以分类归纳,对于连续的属性值,也可以进行离散化处理后再利用决策树来加以分析。

3.2 决策树在教学评价中的应用案例

决策树在教育信息处理中的应用很广泛,下面以决策树在教学评价中的应用为例,来说明在教育信息处理中是如何使用决策树来分析的。教学评价在教育中是一个重要的问题,它是指依据一定的教学目标与教学规范标准,通过对学校教与学等教育情况的系统检测与考核,评定其教学效果与教学目标的实现程度。教学评价具有复杂性、多因素性和模糊性等特点。如何客观、科学、全面地对教学进行评价,是教学评价中一个重要的课题,下面尝试将决策树应用于教学评价。

在评价之初要有一个数据采集的过程,之后可以用决策树来加以分析。课堂教学评价指标体系分为若干项,从教师的角度可以分为授课态度A1、授课方法A2、授课内容A3、授课效果A4、教学评价A5,可以取训练例子如表1所示。

对给定的训练例子数据是把连续的数据离散化的结果,A为评分90~100,B为评分80~89,C为评分70~79,D为评分60~69,E为评分<60,N1为教师编号,表中的A5为目标分类。

如果利用前面的ID3算法建立决策树,先检验所有信息增益的特征属性,选择信息增益最大的属性作为决策树的结点,由该特征的不同取值建立分支,对此分支的实例子集递归该方法建立决策树的结点和分支,直到某一子集中的例子属于同一类。

对给定训练例子的熵为:E(T)= 1.295 46。

表1 训练例子

N1 A1 A2 A3 A4 A5 1 B B B B 良 2 B B B B 良 3 B B B C 良 4 A A A A 优 5 B C C C 中 6 C C C C 中 7 B C B B 良 8 B B C C 良 9 C B C C 中 A A B B 良

以属性A1为例,A1的值={A,B,C},由表中可以看出A3的信息增益最大,所以选A3属性作为根节点的测试属性,并根据其值向下分支,利用ID3算法进一步划分,当根节点到当前节点的路径上包括所有属性或当前节点的训练样本同属一类时,算法结束。根据以上分析给出图2所示决策树。

图2 决策树

可以根据生成的决策树,方便地提取其描述的知识,比如授课内容A3在这里产生的信息增益最大等信息。小结

在教育信息中存在隐藏在数据中的规则,这些规则可以用不同的方法被挖掘。本文只是对决策树中的分类ID3算法在数据处理中的应用进行研究,目的是得到教育教学中存在的规则,利用发现的规则对教育管理决策提供有参考意义的信息。

参 考 文 献

大数据让数据仓库更具价值 篇3

谈到大数据,首先想到的是数据管理,在数据管理方面,人们想到的是Hadoop和MapReduce等新兴技术,但是这些新兴技术并不能解决所有的数据管理问题。数据仓库作为一种传统的数据技术在大数据时代依然焕发着自己的活力。

数据仓库:从技术角度看问题

说到数据仓库,就要从数据仓库的概念提出说起。数据仓库概念最早诞生于1983年,然后就出现了商务智能,直到20世纪90年代开始成熟,并出现了提取、转换和加载(ETL),ETL的出现大大促进了商务智能(BI)的发展。以后,数据仓库出现了各种扩展,出现了多维的联机分析处理(OLAP)、数据集市、探查型数据仓库和ODS。

有了ODS即便更新和业务处理遇到集成数据问题,系统还是能够进行处理。其后,星型模型和事实表等都有了容身之地。有了探索型数据仓库,统计学家有了一个数据基础,可以支撑从数据管理员到统计分析员等不同角色的数据挖掘分析需求。一直到后来,数据仓库变成了企业的信息工厂,进而数据仓库也被称为企业数据仓库(EDW)。

随着EDW环境复杂性的增加,企业越来越认为需要一种监控机制来管理数据仓库,而这种监控机制与事务处理的监控机制本质上存在着各种差异。与此同时,商务智能的发展也随着数据仓库技术的发展而不断演进,商务智能的发展要求其不仅仅为决策层提供支持,同时,也要给普通的业务人员提供支持。不仅要能从整个战略层面进行综合分析,还能够在具体的战术层面进行详细指导,这些是商务智能未来的发展趋势。随着信息量的快速增长,产生了如网页文本等信息数据分析的需求。进而衍生了对大数据的分析技术。

事实上,大数据和数据仓库是同一个问题的两个方面,大数据是业务视角,需要汇聚各类数据,建立客户全景视图,实现客户深度洞察,而数据仓库是技术视角,需要汇聚各类数据,全景实现数据全生命周期管理、元数据管理和数据监视管理。

数据仓库和大数据的结合就是通过技术手段来解决业务问题。随着大数据时代的发展,数据仓库对于企业决策的支持作用将会越来越大。由此,数据仓库也成为了各大数据解决方案厂商着力开展的业务领域。IBM、甲骨文,惠普、Teradata等厂商纷纷部署了自己的数据仓库技术和产品。绝大多数的数据仓库厂商能够利用网格或者云架构将他们的产品扩展到PB级别,而且他们能够完成数据库内分析,即在大规模并行数据仓库网格或者云环境中实现。他们还可以在企业数据仓库之内来支持数据转化和数据清洗功能。

数据仓库发展迎挑战

目前,大量的数据运行的企业中,新兴的数据类型层出不穷,数据量增加的速度越来越快,越来越多的业务提出实时的需求,所有这些都让数据仓库在企业运营和领导决策支持中显现出“疲态”。

数据仓库遇到的第一个挑战是对大量数据的存储和管理。现在的数据量已经大大超越了传统事物处理的数据量,而且随着时间的推移,数据量还将不断增加,数据类型还将更加多元化。

第二是数据仓库要解决并行处理的问题。在传统联机事务处理应用中,用户访问系统的特点是短小而密集。对于一个多处理机系统来说,能够将用户的请求进行均衡分担进行并行操作是非常关键的。在数据仓库系统中,用户访问的特点是庞大而稀疏,每一个查询和统计都很复杂,但是访问频率很低。

最后,对于企业级数据仓库而言,数据源的 ETL操作是另一个挑战,特别是实时的ETL操作。传统的数据工具不能解决高容量和低延迟的需求,而能够满足这些需求的技术正是企业需要的。要解决这项需求所面临的主要挑战是,是否可以在给定的时间内移动必要的数据量。传统的批量处理过程需要几个小时甚至几天的时间才能够完成这样的操作,这就不能满足业务实时决策的要求。其他相关的挑战在加载到数据仓库时要减少操作系统上的影响,因为在数据仓库中运行大的查询会降低操作系统对使用者和客户的服务。

另外,从各种各样用户设备上访问数据仓库中的业务信息,也影响到了数据仓库的工作量以及它所支持的信息。从工作量的角度来看,用户设备需要大量的小查询,就需要在很低的延迟下跨越地域进行回答。从信息的角度来看,用户使用移动设备希望实现随时随地的即时访问,用户需要的是最新的信息。而且需要很快地加载信息,以便用户可以和历史内容一起访问数据。

三把利剑破解数据难题

Forrester高级数据管理分析师James Kobielus曾表示,数据仓库可以通过三种方式帮助企业处理好数据问题:第一,在企业数据仓库中,给不同的数据一个比较稳定的主题划分,按照主题来组织企业数据,比如,数据仓库架构中的OLAP cube,客户数据是一个分区,财务数据是一个分区,人力资源数据是一个分区。不管是物理上的实现还是逻辑上划分,这些数据主题都会比较稳定。这样有利于根据数据的关联性来匹配下游的应用和用户。这是数据仓库管理的核心所在,也是通过数据仓库处理大数据的重要方式。

第二种方式是通过数据库内分析,也就是在数据仓库内部执行数据挖掘。利用数据仓库执行数据清洗、数据挖掘和回归分析。因为使用数据挖掘或者回归分析可以从根本上了解数据建模式,所以这种方式可以很好地处理数据。然后使用数据库内挖掘来填充下游的分析数据集市,数据挖掘和统计模型专业人士可以利用它将复杂的模式实现可视化。

第三种方式就是将数据仓库作为数据治理的核心,可以合理地在数据仓库中维护主数据。当数据仓库作为数据治理与数据清洗的核心时,它将有助于搞清楚所有的信息。在整个企业架构中,数据就像是洪水一般涌入数据仓库,数据仓库作为数据的枢纽,可以确保大数据在下游的应用。

有了这三种方式,然后结合Hadoop、MapReduce等大数据新兴技术,企业就可以处理好大数据难题。

总之,数据仓库是一项基于数据管理的综合性技术和解决方案,数据仓库是企业不可或缺的关键性组成部分,它将成为数据库市场的新一轮增长点。作为下一代应用系统的重要组成部分,数据仓库可以把企业方方面面产生的数据汇集起来,然后分门别类,并最终对这些繁复复杂的信息进行分析处理,让其成为了解企业运营、进行企业决策的宝贵资料。

浅谈数据挖掘与数据仓库 篇4

1.1 数据挖掘与传统数据分析的区别

数据挖掘与传统的数据分析, 如查询、报表、联机应用分析的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。即数据挖掘是要发现那些不能靠直觉发现的信息或知识, 甚至是违背直觉的信息或知识, 挖掘出的信息越出乎意料就可能越有价值。而传统的数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件。因此数据挖掘与传统分析方法有很大的不同。

1.2 数据挖掘的应用价值

(1) 分类:首先从数据中选出已经分好类的训练集, 在该训练集上运用数据挖掘分类的技术, 建立分类模型, 对于没有分类的数据进行分类。 (2) 估计:与分类类似, 不同之处在于, 分类描述的是离散型变量的输出, 而估值处理连续值的输出;分类是确定数目的, 估计是不确定的。 (3) 聚类:是对记录分组。聚类和分类的区别是聚集不依赖于预先定义好的类, 不需要训练集。中国移动采用先进的数据挖掘工具马克威分析系统, 对用户wap上网的行为进行聚类分析, 通过客户分群, 进行精确营销。 (4) 关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟, 比重有多大, 可以通过关联的支持度和可信度来描述。与关联不同, 序列是一种纵向的联系。例如:今天银行调整利率, 明天股市的变化。 (5) 预测:通过分类或估值得出模型, 该模型用于对未知变量的预言。 (6) 偏差的检测:对分析对象的少数的、极端的特例的描述, 揭示内在的原因。

除此之外, 在客户分析, 运筹和企业资源的优化, 异常检测, 企业分析模型的管理的方面都有广泛使用价值。

2 数据仓库

2.1 数据仓库的特征

(1) 面向主题 (Subject Oriented) 的数据集合。数据仓库围绕一些主题如顾客、供应商、产品和销售来组织。数据仓库关注决策者的数据建模与分析, 而不是组织机构的日常操作和事务处理。 (2) 集成 (Integrated) 的数据集合。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的, 必须消除源数据中的不一致性, 以保证数据仓库内的信息是关于整个企业的一致的全局信息。 (3) 时变 (Time Variant) 的数据集合。数据存储从历史的角度提供信息。数据仓库中的数据通常包含历史信息, 通过这些信息, 可以对企业的发展历程和未来趋势做出定量分析和预测。 (4) 非易失 (Nonvolatile) 的数据集合。数据仓库的数据主要供企业决策分析之用, 所涉及的数据操作主要是数据查询, 修改和删除操作很少, 通常只需要定期的加载、刷新。数据仓库里的数据通常只需要两种操作:初始化载入和数据访问, 因此其数据相对稳定, 极少或根本不更新。

2.2 数据仓库的类型

数据仓库的类型根据数据仓库所管理的数据类型和它们所解决的企业问题范围, 一般可将数据仓库分为下列3种类型:企业数据仓库 (EDW) 、操作型数据库 (ODS) 和数据集市 (Data Marts) 。 (1) 企业数据仓库为通用数据仓库, 它既含有大量详细的数据, 也含有大量累赘的或聚集的数据, 这些数据具有不易改变性和面向历史性。此种数据仓库被用来进行涵盖多种企业领域上的战略或战术上的决策。 (2) 操作型数据库既可以被用来针对工作数据做决策支持, 又可用做将数据加载到数据仓库时的过渡区域。与EDW相比, ODS是面向主题和面向综合的, 易变的, 仅含有目前的、详细的数据, 不含有累计的、历史性的数据。 (3) 数据集市是为了特定的应用目的或应用范围, 而从数据仓库中独立出来的一部分数据, 也可称为部门数据或主题数据。几组数据集市可以组成一个EDW。

2.3 数据仓库与传统数据库的比较

二者的联系既有联系又有区别。数据仓库的出现, 并不是要取代数据库。目前, 大部分数据仓库还是用关系数据库管理系统来管理的。可以说, 数据库、数据仓库相辅相成、各有千秋。二者的区别可以从以下几个方面进行比较:

(1) 出发点不同:数据库是面向事务的设计;数据仓库是面向主题设计的。 (2) 存储的数据不同:数据库一般存储在线交易数据;数据仓库存储的一般是历史数据。 (3) 设计规则不同:数据库设计是尽量避免冗余, 一般采用符合范式的规则来设计;数据仓库在设计是有意引入冗余, 采用反范式的方式来设计。 (4) 提供的功能不同:数据库是为捕获数据而设计, 数据仓库是为分析数据而设计。 (5) 基本元素不同:数据库的基本元素是事实表, 数据仓库的基本元素是维度表。 (6) 容量不同:数据库在基本容量上要比数据仓库小的多。 (7) 服务对象不同:数据库是为了高效的事务处理而设计的, 服务对象为企业业务处理方面的工作人员;数据仓库是为了分析数据进行决策而设计的, 服务对象为企业高层决策人员。

3 数据仓库与数据挖掘的关系

当然为了数据挖掘你也不必非得建立一个数据仓库, 数据仓库不是必需的。建立一个巨大的数据仓库, 把各个不同源的数据统一在一起, 解决所有的数据冲突问题, 然后把所有的数据导到一个数据仓库内, 是一项巨大的工程, 可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘, 你可以把一个或几个事务数据库导到一个只读的数据库中, 就把它当作数据集市, 然后在他上面进行数据挖掘。

摘要:数据挖掘与数据仓库是当今新的技术热点, 数据仓库是一种解决数据使用的高效技术, 数据挖掘为之提供了更好的决策支持和服务, 同时促进了数据仓库技术的发展。本文简单介绍了这两者的概念和应用。

数据仓库总结 篇5

数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。

数据挖掘与传统分析工具不同的是数据挖掘使用的是基于发现的方法,运用模式匹配和其它算法决定数据之间的重要联系。

数据挖掘的步骤

1.描述数据---计算统计变量(比如平均值、均方差等),再用图表或图片直观的表示出来,进而可以看出一些变量之间的相关性。

2.历史数据建立一个预言模型,然后再用另外一些数据对这个模型进行测试。

3.验证你的模型

数据挖掘与传统数据分析方法区别

(1)数据挖掘的数据源与以前相比有了显著的改变;数据是海量的;数据有噪声;数据可能是非结构化的;(2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。

在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”-里面的数据几乎不再被访问。也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。

数据挖掘方法与过程

   方法:决策树 关联规则 人工神经网络

粗糙集理论

遗传算法

过程:1.对数据库数据整理,抽取出用来完成特定挖掘目标的数据集。2.选择合适的挖掘方法和工具,在领域专家指导下进行知识获取研究3.对事物的发展进行预测

数据采集与处理:从数据仓库中选取相关的数据集合。知识库:指导数据挖掘和评价挖掘结果。

数据挖掘:对数据仓库中提取的数据进行分析处理。

知识评价:是以兴趣度作为衡量标准来查找和选择对最终决策活动友有益的的知识。

OLAP与数据挖掘(DM)的比较 相同之处:OLAP与DM都是数据库(数据仓库)上的分析工具;不同之处:(1)前者是验证型的,后者是挖掘型的;(2)前者建立在多维视图的基础之上,强调执行效率和对用户请求命令的及时响应,而且其直接数据源一般是数据仓库;后者建立在各种数据源的基础上,重在发现隐藏在数据深层次的对人们有用的模式,一般并不过多考虑执行效率和响应速度。

(3)数据挖掘与OLAP不同,主要体现在它分析数据的深入和分析过程的自动化,自动化的含义是其分析过程不需要客户的参与,这是它的优点,也正是其不足。因为在实际中,客户也希望参与到挖掘中来,例如只想对数据的某一子集进行挖掘,对不同抽取、集成水平的数据进行挖掘,或是根据自己的需要动态选择挖掘算法等等。因此,OLAP与数据挖掘各有所长。

OLAP与OLTP的区别(1)OLTP主要面向公司职员;OLAP则主要面向公司领导者。(2)OLTP应用主要是用来完成客户的事务处理,其数据基础是操作型数据库,如民航订票系统、银行储蓄系统等等,通常需要进行大量的更新操作,同时对响应时间要求较高;而OLAP是以数据仓库或数据多维视图为基础的数据分析处理,是针对特定问题的联机数据访问和分析,它一般不对仓库数据作修改处理,而只是查询,其应用主要是对客户当前及历史数据进行分析,辅助领导决策,其典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制定等,主要是进行大量的查询操作,对时间的要求不太严格。

OLTP

OLAP 面向人群

业务系统的操作、维护人员

管理、决策者 功能

日常操作处理

分析、决策辅助 实现方式

基于交易的处理系统

基于查询的分析系统 应用场合 面向生产应用

面向特定主题 数据库设计

实体-联系模型

星形或雪花模型 数据

当前的、最新的细节数据

历史的、聚合的数据 响应时间

对响应时间要求非常高

查询时间长

数据仓库与数据集市的差别

(1)范围不同:数据仓库面向的是整个企业,为整个企业提供所需的数据;数据集市则面向各个部门。

(2)粒度不同:数据仓库中的数据粒度非常小;数据集市中的数据主要是概括级的数据。

(3)数据组织方式不同

数据集市中数据的结构通常被描述为星型结构或雪花结构。一个星型结构包含两个基本部分—一个事实表和各种支持维表。事实表描述数据集市中最密集的数据。在电话公司中,用于呼叫的数据是典型的最密集数据;在银行中,与账目核对和自动柜员机有关的数据是典型的最密集数据。对于零售业而言,销售和库存数据是最密集的数据等等。

数据仓库:是一个面向主题的、集成的、不可更新的且随时间不断变化的数据集合,用来支持管理人员的决策。数据仓库的根本任务:把信息加以整理归纳并及时提供给管理决策人员。主要作用:提供报表和图表、支持多维分析、数据挖掘的基础。

数据挖掘:(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

聚类分析:聚类(clustering)就是将数据对象集合进行分析,将数据集划分为多个类或簇,使得同一类中的数据对象之间具有较高的相似度,而不同类之间的数据对象具有较大的差异度。将上述分析过程称为„„

粒度是指数据仓库中记录数据或对数据进行综合时所使用的时间参数,它决定了数据仓库中所存储的数据单元在时间上的详细程度和级别。分割是指将数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。

数据分割后的数据单元称为分片。

元数据:元数据是数据仓库数据本身信息的数据。不仅包括在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据,而且还包括关于数据含义的商业信息。

OLTP:是传统的关系型数据库的主要应用,主要面对基本的、日常的事务处理。

OLAP:是数据仓库上的分析展示工具,它建立在数据多维视图的基础上。联机分析处理。OLAM:OLAP与数据挖掘结合起来,发展出一种为数据挖掘服务的具有新型OLAP的数据仓库,将更能适应实际的需要。数据仓库系统的四个层次体系结构:数据源 数据的存储与管理 联机分析处理

前端工具 数据仓库设计需考虑的四种视图:自顶向下视图 数据源视图 数据仓库视图 商务查询视图 数据仓库设计

自上而下 自底而上

混合的方法

数据仓库建模

数据仓库通常采三层结构:底层:数据仓库服务器 中间层:OLAP服务器 顶层:前端工具 ETL:是数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

神经网络:神经网络是由许许多多的被称为神经元或网络节点的基本单元构成,而这些基本单元则模仿了人脑中的神经元。将多个基本单元以某种适当的方式连接起来,就构成了神经网络。

决策树:又称为判定树,是一个类似于流程图的树型结构。决策树是一种简单的知识表示方法,它将事例逐步分类成代表不同的类别。在决策树的图形表示中,矩形表示内部结点,椭圆表示叶子结点,短线表示分枝,分枝上的标注表示一次测试的输出结果。

关联规则:是数据挖掘的一个重要内容,它反映了一个变量与其他变量之间的相互依存性和关联性;其中,关联是指在两个或两个以上变量取值之间所存在的某种规律性。关联规则挖掘:是为了发现变量之间的这种依存性和关联性的规则,并利用令人感兴趣的规则来预测多个变量之间潜在的关联或是通过其他变量来预测一个变量的存在。

文本数据挖掘:也称文本挖掘,它是将文本信息源作为分析对象,利用智能算法,并结合文字处理技术,分析大量非结构化文本源,从中寻找信息的结构、模型、模式等各种隐含的知识。

遗传算法:是一种基于生物进化过程中自然选择与遗传机制的模拟算法,该算法是模拟达尔文主义“适者生存”思想的一种全局优化方法,实质是一种繁衍、检测和评价的迭代算法。

 数据分类的基本技术有:判定树归纳、贝叶斯分类、贝叶斯网络、神经网络等;  预测的方法主要有:线性的、非线性的、广义线性回归。

数据仓库中的不同综合级别,称为“粒度”。粒度越大,表示细节程度越低,综合程度越高。元数据(metadata):关于数据的数据。粗糙集:能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。

用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。

对数据立方体的典型操作包括:切片、切块以及旋转等。多维数据模型:是为了满足用户从多角度多层次进行数据查询和分析的需要而建立起来的基于事实和维的数据库模型,其基本的应用是为了实现OLAP(Online Analytical Processing)维(Dimension):是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。

维的层次(Level):人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。维的成员(Member):维的一个取值,是数据项在某维中位置的描述。度量(Measure):多维数组的取值。

星型模式:是最常见的模型范式。这种模式的数据仓库包含:一个大的事实表和一组小的维表。事实表:包含大批数据和不含冗余的中心表

维表:附属表,每维一个表

雪花模式:是星型模式的变种,其中某些维表是规范化的,因而数据被进一步分解到附加的表中。

多维数据模型上的OLAP操作:有钻取、切片和切块、以及旋转等。

钻取:是改变维的层次,变换分析的粒度。它包括向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)。Drill-up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而Drill-down则相反,它从汇总数据深入到细节数据进行观察或增加新维。

切片和切块:是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。

旋转:是变换维的方向,即在表格中重新安排维的放置。

OLAM产生的原因

一方面,分析工具OLAP功能虽强大,能为客户端应用程序提供完善的查询和分析,但它也存在以下不足:

1)OLAP是一种验证型分析工具,是由用户驱动的。即在某个假设的前提下通过数据查询和分析来验证或否定这个假设,这很大程度上受到用户假设能力的限制。

2)OLAP分析事先需要对用户的需求有全面而深入的了解,然而用户的需求并不是确定的,难以把握。所以OLAP分析常常采用试凑法在大型数据库或仓库中搜索,不仅花时间,而且可能产生一些无用的结果。

3)即使搜索到了有用的信息,由于缺乏应有的维度,从不同的视图得到的结果可能并不相同,容易产生误导。

另一方面,数据挖掘虽然可以使用复杂算法来分析数据和创建模型表示有关数据的信息,用户也不必提出确切的要求,系统就能够根据数据本身的规律性,自动地挖掘数据潜在的模式,或通过联想,建立新的业务模型以辅助决策。但它也存在一些缺点:

1)DM是挖掘型分析工具,是由数据驱动的。用户需要事先提出挖掘任务。但对于用户来讲,很多时候预先是不知道想挖掘什么样的知识的。

2)由于数据库或数据仓库中存有大量数据和信息,用户仅仅指出挖掘任务,而不提供其他搜索线索,这样DM工具就会遍历整个数据库,导致搜索空间太大。计算机将处于长时间的工作,而且结果中可能会生成很多无用信息。

3)即使挖掘出了潜在有价值的信息,但它究竟用来做什么分析用,用户也可能不清楚。

两种技术各存在不足,但同时也可以相辅相成。如果将OLAP同DM配合集成,一方面OLAP的分析结果给DM提供挖掘的依据,引导DM的进行;另一方面,在数据挖掘的结果中进行OLAP分析,则OLAP分析的深度就可拓展。这样用户就可以灵活选择所需的数据挖掘功能,并动态交换挖掘任务,在数据仓库的基础上提供更有效的决策支持。鉴于OLAP与DM技术在决策分析中的这种互补性,促成了OLAM技术的形成。

数据仓库、数据挖掘在电子商务中的应用

1.控制商品库存

对于零售业,库存销量比是一个重要的效率指标。通过使用数据仓库,企业可以随时跟踪库存,及时通过网上供货商补充,实现了库存商品的有效控制。比如美国沃玛特连锁店,数据仓库规模从最初的6 万亿字节增加到现在的100 万亿字节,实现了存货少效益高的良性循环,始终保持着行业领先。2.减少跳线率

对于航空、银行等服务性行业,由于行业竞争激烈,存在“跳线”的现象,即客户从A 公司跳到B 公司,几个月后又重新回到A 公司,导致企业资金浪费。采用数据仓库后,进行数据挖掘,预测客户跳线机率,在客户跳线之前尽可能挽留,减少跳线率。3.客户跟踪

目前在电子商务网站中,84%的在线交易没有跟踪客户;96%的在线交易不能提供符合客户的个性化服务;75%的在线交易无法辨别重复客户;导致电子商务企业不能抓住已有的客户,更不用谈潜在客户的发展,丧失了该部分重要的资源。随着客户个性化需求的逐步增加,电子商务企业更是无从招架。当启用数据仓库后,网站能够对客户的信息以及浏览页面进行整理并存储,当客户再次访问后,数据仓库就会为客户提出相应的扩展服务,使顾客能够更加信任该网站,进而提升了该企业的效益。4.聚类客户

在电子商务中,通过客户相似浏览行为和客户的共同特征进行分析,深层次挖掘和分析企业的客户、市场、销售、服务与支信息,可以帮助电子商务的组织者及时了解客户,尽可能满足客户需求,向客户提供更适合的服务。

5.提供优质个性化服务,提高客户忠诚度在电子商务活动中,网站的内容、标题、奖励方案、服务等方面都可能吸引客户。由于电子商务网站的众多,客户可以很方便的在网站间切换,因此电子商务网站应该能够对客户访问信息进行挖掘,通过客户的浏览行为,从而了解客户的忠诚度、喜好及需求,快速调整WEB 页面满足客户的需求。比如京东网,通过分析客户浏览的页面,运用数据挖掘中的序列模式发现技术进行挖掘,可以把客户需求的相关物品呈现出来,方便客户挑选,6.提高点击率,完善电子商务网站设计通过数据挖掘技术,分析客户的行为记录和反馈行为,电子商务企业可以更加有效地优化网站结构,提高网站的点击率。例如通过关联规则,针对客户需求,调整站点结构,把客户访问过的有关联的文件进行直接链接,从而使客户很容易访问想要的页面,增加客户再次访问的概率。

7.决策信息服务

数据仓库用于实现对决策主体数据的存储和综合,通过从源数据库中抽取、清理、集成和转换,提供标准的报表和图表;通过从多种角度构建多维数据模型,采用联机分析处理实现多维数据分析;进而挖掘出隐藏在数据背后的模式和信息,可以针对整个企业的状况和未来发展做出比较完整、合理、准确的分析和预测,从而为企业提供了多方位的决策支持。

会计数据仓库建立探讨 篇6

【关键词】 会计软件;数据接口标准;数据仓库;数据模型

随着会计信息化的发展,我国的会计软件种类也越来越多,但是往往都自成体系,采用的数据库平台和数据结构也就大不相同。由此使得不同的会计软件之间,以及会计软件与会计数据相关的业务软件之间的数据交换,形成了一定的障碍。2004年9月20日,GB/T19581—2004《信息技术会计核算软件数据接口》国家标准的颁布,在很大程度上解决了会计软件之间数据交换的障碍。只要符合会计数据接口标准要求,实现会计信息化的单位就很容易将历年的会计数据导出,通过建立数据仓库,并利用会计核算软件对数据仓库的数据进行相关的财务分析和决策。同时利用数据仓库对繁多的会计数据进行管理,不仅将提高会计数据利用率,通过利用数据仓库进行财务分析,还可以提高管理决策的质量。

一、会计核算软件标准数据接口基本内容

由于目前财务软件的平台复杂多样,而这些软件之间的数据没有一个统一的数据规范,造成不同财务软件之间数据交流相当困难。GB/T19581—2004《信息技术会计核算软件数据接口》的颁布主要是对国内所有正在使用的会计核算软件(包括含会计核算功能的会计信息系统、管理信息系统等)规定统一的数据输出的内容和格式。会计核算软件数据接口分两个部分,一部分是规定其内容,包括电子账簿、会计科目、科目余额、记账凭证、报表等;另一部分规定其输出的格式要求,包括文本文件的输出方式和XML 文件的输出方式,并要求以一定期间为单位导出会计核算数据。

二、数据仓库与接口标准之间的关系

William H. Inmon 在1993年写的《Building the Data Warehouse》论著中,将数据仓库定义为:“一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理层的决策过程”。由定义可知,数据仓库的主要特征为:面向主题性、数据的集成性、稳定性、时变性。通过数据仓库,不同层次的管理人员可以进行各种管理决策的分析。数据仓库中存放的是数据的历史值,并且是静态的历史数据,可以定期添加,具有低访问率,高访问量的特点。而这些数据都来源于其他不同的数据库。

目前的多数财务软件在数据库的选用、数据库的格式上大不相同,导致各财务软件之间不能互相交换数据,也给审计软件导入财务软件的数据带来了一定的困难。而以往数据仓库在财务上的应用,基本上都是面向单个企业的单独开发。GB/T19581—2004《信息技术会计核算软件数据接口》的颁布,在很大程度上解决了这种障碍。按照会计核算软件数据接口标准的数据结构和内容,建立一个标准数据库即数据仓库,从而企业可以根据会计数据接口标准要求,将原数据库中的数据转换为标准规定的格式,并可以通过数据仓库将符合要求的会计数据从会计核算软件导入或导出,从而实现对数据仓库进行相关的财务分析及决策。

三、数据仓库的模型设计

数据仓库创建之前首先要根据需求明确所构建内容的主题域。在根据需求分析确定主题域后,就可以通过建立数据模型对数据仓库进行描述。模型是对现实世界进行的抽象描述,在信息管理中要实现对信息的管理与分析,就要依靠数据模型将现实世界的事物转换为信息世界的数据。创建数据仓库所采用的模型主要有概念模型、逻辑模型、物理模型。

(一)主题域的确定

数据仓库设计的关键是主题域的确定,整个数据仓库的数据都是围绕主题和软件标准数据接口而组织的,主要用于对企业的财务进行分析。根据数据接口标准规定的数据文件,主题可以分为以下几类:

资产负债表主题:主要分析企业某一特定日期内的财务状况,还可以进一步细化分为资产主题,负债主题,所有者权益主题;

现金流量表主题:分析企业在一定会计期间现金及现金等价物的流入和流出情况;

利润表主题:用于分析企业在一定会计期间的经营成果;

所有者权益变动表主题:分析企业一定时期所有者权益变动的情况;

财务分析指标主题:通过以上主题来分析企业一定时期的营运能力、偿债能力、获利能力及发展能力等。

(二)概念模型设计

星型模型和雪花型模型是概念模型设计常使用的两种模型。雪花型模型是对星型模型的扩展,适用于具有复杂结构数据仓库的应用,星型模型是最常使用的模型。模型设计主要用于设置事实表与维表之间的连接,使每个维表通过主键与外键连接,进而实现与事实表的连接。概念模型的设计就是要根据需求,确定业务中的指标实体和维实体,以及在实体间建立联系,概念模型设计后可以在一些开发工具中,利用一些技术功能直接转换为物理模型,再生成数据库,从而节约了时间并提高了效率。

(三)逻辑模型设计

通常在概念模型设计好后,还要依靠逻辑模型来实现概念模型到物理模型的转换。由于目前数据库都建立在关系数据库基础上,所以所采用的逻辑模型主要是关系模型。会计核算软件数据接口标准对所涉及的数据元素规定了统一的格式,在建立的逻辑模型中,要根据数据接口的规定对数据的字段进行格式描述。逻辑模型设计主要包括事实表,维表设计以及粒度的划分。

(1)事实表。直接反映了数据仓库中应用的主题,是星型结构中最主要的表,包含了数据仓库中最主要的信息,如资产负债表、现金流量表、利润表、所有者权益变动表、财务分析表。而数据仓库的数据都是来自于不同数据接口的数据库,在进行数据仓库的逻辑模型设计时,还要确定各表中的数据元素即字段与数据源的逻辑关系,以便核算软件按照接口标准要求输出文件。其中的对应关系可以归纳为:第一种是数据元素和数据源的一一对应,即可以在核算软件中找到与数据元素直接对应的表与字段;第二种是数据元素需数据源通过计算得到,即必须对数据源进行计算处理才能满足标准规定的数据元素的需要;最后一种对应关系是依据逻辑判断非源于特定数据源的数据。数据源的确定和对应关系是会计软件输出符合标准数据的逻辑基础。因为过于庞大的事实表在表的处理、备份和恢复、用户的查询等方面需要较长的时间,在设计时要注意使事实表尽可能地小。

(2)维表。主要用来描述事实表,与事实表有着非常重要的关系,在事实表中大多数属性都要依赖于维表,维表的主键组成了事实表的外键,每个维表都通过主键与事实表的外键连接,实现数据库快速查询。维表的属性也要根据接口标准规定进行规范定义。维表也会影响企业决策的因素,如不同企业、日期、指标类别都是影响企业决策的因素,通过这些因素决策者可以按照不同企业不同日期不同指标类别进行决策分析。根据事实表设计的维表有会计期间维表、报表编码维表、日期维表、企业维表等。

(3)粒度的划分。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。通过粒度的划分,决定了数据仓库是采用单一粒度还是多重粒度,以及粒度的划分层次。粒度级越低,细化程度越高;相反,粒度级越高,细化程度越低。粒度的划分直接影响到数据仓库中的数据量和信息查询,以及进一步进行OLAP(联机分析处理)和数据挖掘的效果。如果主题的数据量、信息量较多,对主题数据分析细化程度要求较高,就要根据用户对数据仓库应用的需求,采用多重粒度进行数据划分。用低粒度即细化到月的数据,保存近期的会计报表及财务分析指标数据,对时间较远的会计报表及财务分析指标数据的保存用粒度较大即细化到年的数据。这样既可以对财务近况进行细节分析,又可以利用粒度较大的数据对财务趋势进行分析;否则采用单一粒度进行划分。

(四)物理模型设计

逻辑模型在物理系统中的体现模式,需要通过数据仓库的物理模型设计来实现。包括逻辑模型中的各种实体表的具体化,包括表的数据结构类型、索引策略、数据存放位置及数据存储分配等。会计软件数据接口标准中所要求的数据接口输出数据,包含接口标准要求的16个数据文件和1个格式说明文件,每个文件的文件名都进行了严格的规定。同时在标准中对16个数据文件的81个数据元素也进行了严格定义,首先,在物理模型设计中表的数据结构应根据接口标准要求,对数据的格式及内容进行统一的定义规范,如表的字段标识符要采用三位数字进行标记,字段的类型长度最多为5位可变长字符。只要会计软件的数据仓库的数据接口符合接口标准,就可以实现输出符合标准的数据。其次,由于数据仓库的数据量很大,通过索引的创建可以提高数据存取的效率,通常按事实表的主键和外键来建立索引。在数据仓库中首先需要为事实表设置索引,在为事实表的主键声明约束时,应该按照这些列的声明次序创建一个惟一的索引。而对于使用频率较高的外键,应置于主键索引的前面,以提高查询效率。

数据仓库中的数据可以通过数据库访问接口,将源数据库中的数据转换为标准格式的数据导入。其中数据的存储通常按数据的重要性、使用频率以及对响应时间的要求进行分类,并将不同类型的数据分别存储在不同的存储设备中,其中重要性高、经常存取并对响应时间要求高的数据存放在高速存储设备上,而存取频率低或对存取响应时间要求低的数据则可以存放在低速存储设备上。

四、数据仓库的创建

通过对数据仓库中的事实表、维表的逻辑模型设计,同时根据在物理模型中对各种表的存储区间、方式的处理,在数据仓库的实施过程,采用适当的数据仓库创建工具,就可以创建数据仓库。目前用于创建数据库的工具主要有SQL Server、Oracle10i、Sybase等。数据仓库的创建可以根据具体情况选择适合的开发工具。

五、数据的采集及转换

数据仓库的物理模型设计完成后,就要根据会计核算软件数据接口标准,来完成数据仓库结构的建立,实现数据仓库和元数据库的创建,然后就可以对数据仓库进行数据的加载。元数据库是数据仓库的灵魂,没有元数据库,用户就无法对数据仓库的数据进行良好的定义、组织和管理。数据的采集及转换是建立数据仓库中最重要的处理过程之一,这一过程实际上是要把来自不同的操作性数据源、不同的数据进行集成,将非标准的数据转化为在一定程度上的标准化的数据。采集之前首先需要对数据进行预处理,即进行准备工作包括清空工作区、准备区。由于数据仓库中的数据来源十分复杂,这些数据在进入数据仓库之前常常需要在准备区对数据进行标准化处理,即将不同数据结构的数据进行统一处理,如源数据库中的数据类型与长度和标准规定的有所差别,就需要进行数据的类型转换、长度的截取等工作。数据的采集可以通过数据库接口访问源数据库,将数据转换为标准格式数据存入数据仓库,同时为了确保数据仓库中数据质量,还要对数据进行必要的清理即筛选工作。数据的清理工作必须严格依据元数据的定义进行,数据清理结束就可以将经过净化和转换的数据加载到数据仓库事实表中。实现的工具主要有SQL Sever、Oracle等。对数据提取以后,同样也可以利用SQL语言实现对数据的加载。

六、数据仓库的使用

在会计数据标准接口中,已经将会计科目、会计凭证、会计账簿、会计报表等中的数据纳入,并进行了统一规范。因此可以通过标准数据接口将每年的会计数据保存到数据仓库。按照会计数据接口标准要求,将会计数据仓库中的历年数据输入到会计核算软件中,并利用会计核算软件对其进行相关的财务分析、经济前景预测,以帮助管理者为企业的将来做出正确的决策。随着数据接口标准的推广实施,基于会计核算软件数据接口的数据分析技术和方法会越来越多,并且应用范围也会越来越广泛。

【参考文献】

[1] 会计核算软件数据标准接口国家标准实施指南编委会.GB/T 19581—2004《信息技术会计核算软件数据标准接口》实施指南[S].北京:中国标准出版社,2005.

[2] 陈京民.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2007.

基于数据仓库的试验数据管理系统 篇7

试验数据是分析飞机系统性能的重要依据之一。各种试验数据往往存在着种类繁多、容量较大等特点,在对其进行分类、管理和查询时存在条件混乱、读取速度缓慢和无法对数据进一步分析等困难。因此,设计一套基于数据仓库技术的数据管理系统就显得极为重要。系统通过友好的人机界面来管理试验数据,同时还可更深层次地分析这些数据,生成如报表、图像等更加直观的数据形式,方便设计人员分析飞机系统性能。

1 数据仓库技术在构建系统中的应用

1.1 数据仓库

数据仓库综合和合并多维空间的数据。它是语义上一致的数据存储,它充当决策支持数据模型的实现,并提供使用者决策所需信息的手段。数据仓库也常常看做是一种体系结构,通过将异构数据源中的数据集成在一起构造、支持结构化或专门查询、分析报告和决策制定[5]。

1.2 多维数据模型

多维数据模型又称之为数据立方体。该模型允许从多维对数据建模和观察,一般由维和事实定义。维是保存记录的透视图或实体。每个维都有一个表与之关联,称为维度表,用于进一步描述维。通常,多维数据模型围绕中心主体组织。主体用事实表表示,事实是数值度量的。把它们看作数量是因为用户想根据它们分析维之间的关系[5]。

1.3 数据仓库模式的比较和选择

由于数据仓库下存储的数据为多维数据模型,所以实体-联系数据模型广泛应用于关系数据库设计,其中数据库模式由实体集和它们之间的联系组成。这种数据模式适用于联机事务处理。然而,数据仓库需要简明的、面向主题的模式便于联机分析数据。目前流行的数据仓库的数据模型是多维模型,常常以星形、雪花形和事实星座形存在。

星形模式通常包含大批数据且不含冗余事实表,外加一组维度为一的附表。这种模式下的维表类似星光一样围绕在中心事实表周围。雪花形模式是在星形模式下进一步变化,区别是某些维表可能是规范化的,这样可以把数据进一步分解到附加表中,构成类似雪花形的结构。这种表相对容易维护且节省存储空间。而本文所述系统属于事实星座形的结构。该结构的特点是需要多个事实表共享维表。因此,这种构成形式可以看作星形模式的汇集。它能对多个主题建模,使系统更加有效。系统维表的关系如图1所示。

2 数据管理系统的组成

该系统是基于TCP/IP协议,并采用C/S模式组成整个系统。其中,系统的S端(指sever服务器端)将飞行数据清理、集成、变换后按一定的格式和关系维度表导入数据仓库。系统的C端(指clinet客户端)可根据需求调用数据仓库中的数据。系统构架如图2所示。

3 数据管理系统的开发环境

3.1 数据管理系统开发工具

系统采用Lab Windows/CVI8.5+SQL Sever 2008为系统的开发工具。

Lab Windows/CVI8.5是一个完全的ANSI C的开发环境,用于仪器控制、自动检测、数据处理等应用软件。软件本身含有丰富的常用控件,利用交互式的开发平台、交互式的编程方法使功能强大、使用灵活的C语言与用于数据采集、分析和显示的测控专业工具有机的结合起来[2]。

SQL Sever 2008是当前最流行的数据库操作软件之一,基于标准化查询语言(SQL)。当前,数据信息存储爆炸式增长。在耗费相同系统资源的情况下,用户可存储更多的数据供用户使用。而且,用户可在大量的数据中更加快速地寻找到所需要的信息。

当用户在安装好Lab Windows/CVI8.5和SQL Sever 2008后,再安装SQL Toolkit数据库系统应用软件工具包。该工具包会提供相应的关于数据库操作的面板库函数。此时,用户再结合SQL语言,便可以实现系统对SQL Sever 2008中数据库连接、添加、修改和删除等一系列操作。

3.2 开发工具所解决的难题

通常情况下试验数据容量都比较大,用传统的文件指针方式对其进行读写,速度非常缓慢,甚至会出现死机或者内存溢出等错误。为解决这一难题,该数据管理系统利用批量导入数据的方法先将飞行数据导入数据仓库中,再利用SQL语句对数据仓库中的这些数据进行查询和读取,不仅很好地解决了死机、内存溢出等问题,还大大提高了系统读取数据的速度。

4 数据管理系统的主要功能

1)服务器端将试验数据清理、集成和变换后按照一定的关系和格式导入数据仓库中。

2)客户端提供友好的人机界面,用户可方便快速的查询数据仓库中所需要的数据。

3)用户可对查询出的数据进一步分析,包括生成函数图像;动态捕捉关键点数据;局部图像放大;数据图像预览、打印和保存等功能。

5 结论

本系统已在分析试验数据中得到了具体的应用。事实证明该系统操作简单、实用,处理数据的速度快,进一步分析数据的功能全,极大减轻了设计人员分析飞机系统性能时的工作负担,很好的提高了工作效率。

参考文献

[1]史君成,张淑伟,律淑珍.LabWindows虚拟仪器设计[M].北京:国防工业出版社,2007.

[2]王建新,杨世风,等.LabWindows/CVI测控技术及工程应用[M].北京:化学工业出版社,2006.

[3]谭浩强.C程序设计(第二版)[M].北京:清华大学出版社,1999.

[4]孙晓云.LabWindows/CVI的虚拟仪器设计与应用(第2版)[M].北京:电子工业出版社,2010.

[5]Jiawei Han,Micheline Kamber,范明,孟小峰,译.数据挖掘概念与技术[M].北京:机械工业出版社,2008.

[6]Stephen Prata著,云巅工作室译.C Primer Plus(第五版)中文版[M].北京:人民邮电出版社,2007.

数据仓库与森林资源数据动态更新 篇8

一、数据仓库的特点

(一) 仓库设计思路

第一步:首先建立森林资源调查数据的应该以二类调查数据为主, 其中所包含的所有资源信息。按照实施分布的细则, 将调查数据分成林种面积和森林林木面积等模块, 建立数据集合。

第二步:就是森林资源具有一定的空降概念, 主要表现是空间分布上的渐变特性。

第三步:一般情况下, 林业资源数据的时间粒度可以设定为1年的时间, 但是全国林业资源数据信息的变化情况时间粒度可以设置为5年。因为森林资源数据仓库的数据集合是按照一定的时间顺序和历史数据、现状数据组合而成的。

第四步:森林资源数据仓库的部分描述性能很难实现量化, 而且数据仓库的标准化程度不是很高。

第五步:森林资源数据仓库建立完毕之后, 其中包含了所有的林业资源数据, 由此就可以建立一个面向主题的分析性数据环境, 随时随地都可以观察到林业资源的环境问题。

(二) 仓库设计框架

数据仓库的建立是面向主题组织的, 也是整体应用的一种高度集中集成, 可以满足每个林业部门的不同分析要求。数据仓库的开发方式和OLTP系统不一样, 因为数据仓库的开发过程是一个数据驱动的过程, 下图就是一个标准的林业数据仓库示意图:

存储层:国家森林总局和各个地市的林业部门可以从这个存储层中掌握森林资源的现状和发展的动态, 对经营活动进行相关的分析和评价, 对资源数据进行获取和清查, 所需要的数据都会被存储在这个分层中。

分析层:主要要是借助于OLAP分析和数据挖掘的技术对森林资源数据进行统计, 信息的获取也可以在这个分层中实现。

表示层:对分析进行可视化的创立和表达, 主要是将可视化的结果数据传达给中高层的管理人员, 供管理人员进行决策和规划的一个科学依据。

二、森林资源数据动态更新

(一) 数据更新流程

第1步:实时更新。实时更新必须和每项生产活动结合在一起, 才可以实现数据更新的时效性。对检查验收之后的业务数据进行相应的更新, 其他的数据都是在年底的时候才进行统一的更新。两项或者两项以上的、连续生产经营活动的变化和更新, 都会被看作是多次变化, 需要分别进行更新。

第2步:自然更新。其中包括了自然增长的更新、自然消耗的更新和自然进界、退界的更新。增长更新就是对于区域性的不同林木类型, 符合二类小班标准的进行树高、年龄等一些自然增长数据的更新。消耗的更新就是符合砍伐条件和自然毁灭条件的都进行更新。进界和退界的更新就是根据树木的树高和直径初始表数据, 符合条件的对其进行进界更新。退界更新就是人工造林没有形成林地的或者是三年之内没有任何的经营活动的林地进行退界更新。

第3步:平差发布。平差就是更新前行政区域的国土总面积为主要依据, 然后更新之后的国土总面积必须和之前的总面积相同。最后数据发布是通过相关的服务接口向林业部门发布信息, 而且归档为年度版本数据, 整个过程由数据中心和资源处共同完成。

(二) 数据更新方法

1. 主键关联法

主键关联法就是要求被更新的数据库和更新数据库具有相同标识的小班唯一键值, 然后才可以进行一对一的关联, 最后才可以进行数据仓库数据的更新, 主要更新的手段是字段更新。

2. 地理位置关联法

这种更新方法需要一定的地理坐标。然后系统通过小班和标识点数据进行一对一的关联, 然后才可以更新。无论是什么方式的关联, 都必须保证的是一对一的关联, 要不然会产生错误的逻辑关系。

三、数据仓库与森林资源数据动态更新的主要问题

(一) 更新系统太落后

因为传统的更新系统过程太过复杂, 在森林资源更新的时候, 小班编号生成本来就可以在两步之内完成, 但是因为系统批量属性的修改限制太大, 所以在修改小班属性的时候太多麻烦。而且更新系统数据太多, 对于计算机配置的要求非常高, 因为较差的兼容性, 使得很多林业系统进行单机操作的时候, 档案管理系统和营造系统等出现排斥性。

(二) 技术人员缺乏

数据更新和管理要求工作人员具备非常高超的操作能力, 而且还需要有很强大的计算机操作能力。但是现在的林业部门很少再引进先进的技术性人才, 使得技术人员非常匮乏。

(三) 人为干扰因素大

受到不合理因素的影响和制约, 个别部门随意调整林业数据的现象时有发生, 严重破坏了林业资源系统数据的真实性。

四、解决方法与途径

(一) 完善更新系统

因为林木在生长的时候, 同龄阶段的树木会有一定的生长率, 不同年龄段的树木生长差异会很大。我们可以根据不同时期的林木群进行顶点的数据观察和检测, 建立一种反映生物变化的生长数据库, 而且在这个基础上建立起各种类型的树木收获周期和类型等, 借助模型的收获和生长实现森林资源的数据更新, 提高了数据更新的科学性和可靠性。

(二) 强化业务培训

森林资源数据管理和更新是一项技术要求非常高的工作, 所以各级的林业部门必须引进一批高专业素质人才的队伍, 进行有针对性的技术培训和计算机操作培训, 为做好林业资源数据的更新提供坚实的可靠性人才。

(三) 强化监督力度

因为森林资源是二类调查数据, 但是因为人力和财力等方面的限制, 二类调查10年才会进行以此, 所以在年度数据更新的时候, 必须强化对基层林业资源的监控力度, 配备专业的技术人才对管辖范围内的森林资源进行全程跟踪监控和及时上报, 这项措施也是提高数据更新质量的核心保障。

五、总结

通过上述材料的分析, 将数据仓库技术引入到森林资源的分析统计当中, 会给相对应的林业管理部门提供宏观的统计数据, 便于日常的森林资源的管理和调查。

由此我们预见, 数据仓库技术在林业资源方面的有效应用, 可以推动我国林业信息化的发展进程。

参考文献

[1]杨卫民, 谭骏珊, 汪斌.数据仓库和数据挖掘技术在DSS中的应用研究[J].计算机工程与设计, 2010.

[2]吴达胜, 范雪华, 姜真杰, 曾松伟.分布式数据挖掘在森林资源信息管理中的应用[J].福建林学院学报, 2012.

[3]宋连公.数据仓库技术在森林资源信息管理中的应用[J].内蒙古林业调查设计, 2011.

医院数据仓库系统探究 篇9

从20世纪80年代开始, 以实现数据高度共享、支持日常业务处理过程为目的的关系数据库得到快速发展, 以关系型数据库为基础, 建立了大量业务系统和信息系统, 累积了大量数据。在数据库应用到一定程度之后, 如何有效地将收集到的数据转化为信息为管理者进行决策服务, 是日益显现的问题。90年代以后, 以支持经营管理过程中的决策制定 (Decision Support System, 简称DSS) 为目的的数据仓库理论逐步发展起来。

1 数据仓库的概念

目前关于数据仓库的概念尚未统一, W.H.Inmon在《建立数据仓库》一书中, 对数据仓库的定义为:数据仓库就是一个面向主题的、集成的、相对稳定的、随时间不断变化的数据集合, 用于支持经营管理过程中的决策制定。

2 数据仓库的设计

2.1 粒度

粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库中保存数据的细化或综合程度的级别。细化程度越高, 粒度级就越小;相反, 细化程度越低, 粒度级就越大。在数据仓库环境中粒度之所以是主要的设计问题, 是因为它深深地影响存放在数据仓库中的数据量的大小, 同时影响数据仓库所能回答的查询类型。

2.2 数据分割

数据分割是设计数据仓库的另一个最重要方面。数据分割是指把数据分散到各自的物理单元中去, 它们能独立地处理。对当前细节数据进行分割的总体目的是把数据划分成小的物理单元。假如粒度处理不当并且分割也没有认真地设计与实现, 这将使其他方面的设计难以真正实现。

2.3 企业数据仓库建设的基本步骤

对企业自身来说, 数据仓库的建设是一个系统工程, 是一个不断建立、发展、完善的过程, 通常需要较长的时间。这就要求各企业对整个系统的建设提出一个全面、清晰的远景规划及技术实施蓝图, 将整个项目的实施分成若干个阶段, 以“总体规划、分步实施、步步见效”为原则, 不仅可迅速从当前投资中获得收益, 而且可以在已有的基础上, 结合其他已有的业务系统, 逐步构建起完整、健壮的数据仓库系统。

企业数据仓库的建设通常按照快速原型法予以实施, 主要包括:确定范围、环境评估、分析、设计、开发、测试和运行等几个阶段。同时企业数据仓库又是一个在原型的基础上进行不断迭代的过程。

2.4 企业数据仓库系统的总体结构

一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP服务器以及前端工具与应用4个部分。

3 数据仓库的管理

数据仓库的管理包括:安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理。

4 应用数据仓库理论建立医院数据仓库系统

HIS (医院管理信息系统) 是当前医疗部门信息管理的主要模式之一, 通过计算机网络实现门诊、住院、药品、设备等信息的全面网络化管理, 为提高医院的现代化经营管理水平发挥了重大作用。大多数三级甲等医院HIS业务系统已经运行多年, 多年的应用和发展为医院积累了宝贵的数据资源, 具备了建立数据仓库的条件。医院数据仓库的主要功能有:病人构成分析;病人就诊时间分析;病人费用构成分析;同期费用对比分析;单病种分析;成本效益分析和医院其他科学预测等。

4.1 主题确定

在HIS系统中, 数据仓库建立非常关键的一个方面是主题的确定, 若主题确定模糊或不准确会直接影响后期的查询决策的效率。经分析HIS所涉及的主题主要有病人信息 (基本信息, 诊疗信息, 费用信息等) 、医护人员信息、药品信息 (进、销、存) 等, 数据仓库的设计围绕以上的主题展开。“主题”在数据仓库中是由一系列表来实现的。数据表的定义可以是由于对数据的综合程度不同, 也可以是由于数据所属的时间段不同而进行的。一般采用星型模型组织数据表。

围绕病人的事实数据包括病人门诊费用、病人诊疗费用、病人药品费用等等。在事实数据的周围, 又从多个角度多个层次进行汇总, 形成维表。如病人就诊时间维、性别维、族别维、区域维、就诊科室维。它们一般变化不大, 数量也相对较少。汇总的层次就是粒度, 它是维划分的单位, 如病人就诊时间维 (年、季、月、甚至旬、日) 、性别维 (男、女) 、族别维 (汉、维、回等) 、区域维 (国家、地区、城市等) 、就诊科室维 (内科、外科等) 。

围绕医护人员的事实数据包括就诊人数、药费、诊疗费等等。在其周围, 可以从时间维、职称维、年龄维、科室维等进行分析。

围绕药品信息的事实数据包括进货单价、进货量、销售单价、销售量等等。在其周围, 可以从时间维、进货商维、药品名称维等进行分析。

作为事实数据的被存储在事实表中, 作为维度数据被存放在维度表中, 来作为建立多维数据立方体的数据表, 通过O-LAP工具、DM工具来访问这些数据。

4.2 查看数据

建立好的多维数据集, 经过处理, 就可以查看其中的数据。Microsoft Office 2000套件中的Access和Excel可以作为数据展现工具, 通过Microsoft Excel和Microsoft Access来查看多维数据集中的数据。并可以按照自己的需要, 定制查询。

5 结束语

本文介绍了数据仓库的一些基本知识, 并结合数据仓库理论, 初步探讨了如何逐步建立医院的数据仓库系统, 希望能对医疗信息数据仓库系统的设计与实现有些帮助。

参考文献

数据仓库构建技术探究 篇10

关键词:数据仓库,普通数据仓库,空间数据仓库,构建,模型

1 概述

随着不同的MIS系统在企业不同部门的大规模应用及企业对数据管理不断提出新的要求,不仅要求能实现传统的联机事务处理(on-line transaction processing,OLTP),而且越来越多的要求是各种应用系统能够在企业不断积累的以及从企业外部获取的丰富信息资源的基础上,把这些分散的、不一致的、凌乱的信息资源加以利用,即更多地参与数据分析和决策支持,由此出现了一种用于数据分析处理和决策支持的数据存储和组织技术,即数据仓库技术。现在根据笔者在读软件工程硕士相关课程讲授数据仓库技术的基础上,认真阅读大量技术论文、资料,结合自己的理解,对数据仓库的实现特别是大型数据仓库的构建进行归纳总结及初步探讨。

2 什么是数据仓库

美国著名信息工程学家“数据仓库”之父W.H.Inmon于1993年在其著作《构建数据仓库》中对数据仓库定义为:数据仓库是为决策支持服务的面向主题的、集成的并随时间变化而又相对稳定的数据集合。即数据仓库技术是将普通的操作型数据通过集成提取,进而提供分析型数据的一种信息技术;构建数据仓库的目的是企业为了充分利用丰富的内、外部数据资源,帮助用户更好地理解信息,从新的角度看待它们,以便获得更好的洞察力、发现模式和趋势,从中挖掘出信息和知识,更好地进行辅助决策。数据仓库的通用体系结构如图1所示。

如上图数据仓库的体系结构分数据源、数据转换、数据仓库、数据集市和用户几部分。数据源,包括企业内部的业务数据、遗留数据、其它业务系统数据及相关WEB数据等;数据转换是数据仓库构建的重要环节,主要是对各种复杂的数据源进行抽取、转换、装载及其他处理,同时要实现数据质量跟踪监控以及元数据抽取与创建等工作;数据仓库主要实现对各种数据的组织、存储及管理等;数据集市(data mart)是为不同业务而单独设计的数据仓库系统,即开发者为企业内部的不同用户群定制特殊的数据仓库子系统。用户部分,即具体面向使用者的应用部分,主要是指数据仓库存取与检索为用户提供了访问数据仓库或数据集市的功能,其中分析与报告为用户使用数据仓库提供了一组工具,用于帮助用户对数据仓库或数据集市进行联机分析或数据挖掘等。

3 数据仓库构建方法

3.1 普通数据仓库构建方法

对于普通数据仓库的构建,企业在对整个系统的建设综合各种因素的基础上,集众人之长共同研究制定全面的、长远的、清晰的远景规划及技术实施远景,接着按“目标具体、全面规划、分步实施、步步见效、构建技术软硬件环境及建立支撑平台”的原则和步骤,将整个项目的实施分阶段、分步骤实施,可以在每一阶段建设的基础上分阶段纳入不同的业务系统,逐步建立起一个综合的、专题较为完善的、适合部门、子单位使用的完整、健壮的数据仓库系统,从而才能使投资尽快获得收益。

数据仓库建设的典型架构主要有以下三种:1)DB-DW架构:对于此种架构数据仓库建设方法有两种基本类型:一种是自顶向下,即先建立全局级的、整体的数据仓库,然后从中抽取数据建立面向各个了部门、子单位的数据集市,此种方法的优点是所有数据在进入数据仓库前都要进行清洗和转换,能够保证数据的一致性,这种架构一般适用于相对独立集中或规模较小的企业;另一种是自底向上的建设方法,即先建立一个或几个数据集市(Data Mart),分布实施以解决企业面临的局部问题,然后再从数据集市中抽取数据构建统一的数据仓库。由此形成了两种数据仓库体系结构DW-DM和DM-DW。2)DB-ODS-DW架构:ODS(Operational Data Store)是指用于支持企业日常的全局应用的数据集合,ODS解决企业日常应用的问题,一般只存放临时(当前或近期)的数据,同操作型数据库类似,其数据可进行联机插入、删除、更新等修改,这与数据仓库有所不同,数据仓库中数据只是增加,没有修改,因此形成了数据仓库DB-ODS-DW的架构。3)分布式数据仓库架构:集中式的数据仓库虽然有为企业提供统一的数据视图,数据一致性可以得到很好保证的优势,但构建一个集中数据仓库,不仅耗时,而且费力,投入很大,产出效益很缓慢,并且集中式的数据仓库的存取瓶颈和安全性终究是不容忽视的问题;同时许多大型企业或集团公司大多采用总分的组织管理模式,即总集团公司下设立了分布各地的下属分公司;同时网络技术和并行处理技术的迅速发展也为数据仓库技术发展提供了较大空间,以上诸多原因促成了分布式数据仓库应用架构。分布式数据仓库应用架构是由总分数据仓库结构组成,分部数据仓库存储对局部决策有意义的数据,总部数据仓库存储对全局有意义的数据。它将从局部数据仓库和总部的操作环境中抽取数据。

在数据仓库的构建过程中,利用模糊数学可实现数据仓库内数据的语义表示,丰富数据加工的手段,提高分析处理的能力。数据仓库的构建,一般采取先构建数据集市,最后将各个数据集市整合在一起形成数据仓库的渐进模式;通过概念层、逻辑层、物理层建模,确定相关主题域的数据集市并对其进行OLAP分析。构建数据仓库模型一般采用以下三种:

1)星型模型:星型模型是最常用的数据仓库设计结构的实现模式。使数据仓库形成了一个集成系统,为用户提供分析服务对象。该模型的核心是事实表,围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。如图2所示。

2)星系模型(也称雪花模型):雪花模型对星型模型的维度表进一步标准化,对星型模型中的维度表进行了规范化处理。同时也是对星型模型的扩展,每一个维度都可以向外连接到多个详细类别表。在实际应用中,用户的需求多种多样,数据来源可能为多个事实表,故可采用多个事实表共存,之间通过公用的维表相关联的星系模型,也称为事实星座。如图3所示。

3)原子级数据模型和汇总级数据模型并存:坚持原子级数据模型和汇总级数据模型并存,而且要尽可能地细化原子级数据。

4)设立代理键:代理键是维表中一些没有业务含义的字段,只是一个由数据仓库加载程序时建立的数字。

3.2 空间数据仓库构建方法

随着GIS(地理信息系统)在各行业的广泛应用,最初面向事务处理为主的空间数据库信息系统已不能满足需要,信息系统开始从管理转向决策处理,空间数据仓库就是为满足这种新的需求而提出的空间信息集成系统。即构建空间数据仓库目的是要实现对分散的、互相独立的多种地理空间数据库信息系统进行统一集成和管理,形成用户获取测绘数字产品的普遍模式、界面和标准,然后按照相应的主题功能查询数据仓库得到多种测绘数字产品,再根据用户需求通过各种专业模型关联多种专题信息,从多维角度进行分析,满足用户空间辅助决策分析信息的需求。尤其是地理信息决策支持系统中,空间数据仓库系统显得尤为重要。

空间数据仓库具有普通数据仓库的普遍特征,但其本身有一些特殊性。并且空间数据仓也并不是空间数据库的简单集合。与空间数据库比,空间数据库除支持数据库外,还支持数据文件、文本文件、应用程序等众多数据源;另外空间数据仓库中的数据有时间数据、空间数据、属性数据及异构数据等多种数据;其次空间数据仓库中还包括了数据处理规则、算法等;再次空间数据仓库的数据是对原始数据进行加工、处理、集成等转换,是对数据的增值和统一;空间数据库还引入了时间纵的概念,它是以时间为基准来管理数据,可以截取不同时间尺度上的信息,从瞬态到区段时间直到全体,空间数据仓库是依赖于时间维的数据结构,它可以根据不同的需要划分不同的时间粒度等级,以便进行各种复杂的趋势分析,如GIS中对土地地质变化研究、地球气候的变化趋势研究等,以支持政府部门的宏观决策。当然,不言而喻,它还包含了空间维的方位数据。

正因为空间数据仓库与普通数据仓库的不同,并且它以空间数据仓库完全不是相同的概念,一般空间数据仓库以如下体系结构分为四大功能模块,分别是源数据、数据变换工具、空间数据仓库、客户端分析工具。源数据它不仅指那些常见的空间数据库,还包括文件、网页、知识库、遗留系统等各种数据源。数据变换工具与具有普通数据仓库数据变换相同的提取转换功能,但它还包括了特有的间变换等。空间数据仓库以立体、多维的方式来组织和显示数据。但最基本的空间维和时间维是其反映客观世界动态变化的基础,空间数据仓库技术最关键要点也就是时间维和空间维数据组织方式。其基本体系结构如图4。

目前空间数据仓库已成为国、内外GIS研究的热点并取得了较大进展,由于空间数据仓库管理的数据量庞大,决策支持的空间计算异常复杂,因此以下几方面研究是究的重点:1)构建空间数据结构,主要实现如何高效地存贮和检索异常庞大的空间数据,这在GIS尤其重,也成为研究的热点;2)对空间、时间、属性及各种异构数据的集成;3)空间数据的商业应用,即在大型数据库中如何引入新的空间数据;4)对决策支持模型方法的研究,即空间数据挖掘。

对于已使用数据仓库的企业,要把空间信息融合进企业现有的数据仓库中,在原有系统不作较大改动的前提下,一般采用三种模式构建企业空间数据仓库:1)把空间信息作为多维模型中的空间维引入;2)把空间信息作为研究主题引入;3)在维和度量中都包含空间信息因此,计算并存储所有空间度量是不现实的。一般使用空间索引树(如R—tree)在最细空间粒度上构建分组层次,作为空间维的分层,每个空间维需要建立一棵空间索引树。

总之,数据仓库构建是数据仓库技术的关键,数据仓库技术是一项基于数据管理和利用的综合性技术和解决方案,尤其是现在空间数据仓库在GIS中的广泛应用,它成为数据库市场的新一轮增长点,同时也成为下一代信息系统的重要组成部分。但数据仓库的实现特别是大型数据仓库的实现将面临许多技术问题,要真正发挥数据仓库的作用,开发一个灵活、高效的数据仓库,还有许多问题需要进一步研究和探讨。

参考文献

[1]徐立中,李臣明,王建颖.信息与系统集成技术及应用[M].北京:科学出版社,2006.

[2]陈慧萍,陈岚峰,王建东.大型数据仓库实现技术的研究[J].计算机工程与设计,2006,27(21):3956-3958,3961.

[3]肖创柏,冯维文,刘时光.基于语义表示的数据仓库构建方法[J].计算机工程,2007,33(10):73-75,78.

[4]Inmon W H.Building the Data Warehouse[M].3rd ed.Beijing:ChinaMachine Press,2002:20-23.

[5]邹逸江.空间数据仓库的概念框架和认知过程[J].计算机应用研究,2007,24(5):186-189.

[6]杨光,艾波,张雷.数据仓库实施策略[J].计算机应用,1999,19(9).

上一篇:中图法下一篇:岩溶裂隙发育带