数据仓库工具

2024-05-22

数据仓库工具(精选九篇)

数据仓库工具 篇1

自20世纪80年代W.H.Inmon创造了“数据仓库”这一概念以来,在经历了E时代的疯狂,见证了.com的历程,数据仓库早已不是一个纯粹的理论,而变成一个活生生的现实,如今它正以前所未有的生命力,在政府、公司、医院、学校里生根发芽,各种关于数据仓库的学术会议、文章、书籍也层出不穷。

不容质疑,让数据仓库从理念走向实践,从生涩走向成熟,几大技术厂商功不可没。当然,数据仓库也让这些厂商赢得了丰厚的利润,据IDC(国际数据公司,是全球著名的市场咨询和顾问机构)发布的《2005全球软件供应商数据仓库工具市场份额》报告,2005年全球数据仓库市场仍保持着10%以上的增长率,市场规模达到96亿美元。甲古文(Oracle)公司以18亿美元的收入占据市场第一的位置,IBM和SAS紧跟其后,但值得注意的是微软(Microsoft)和Informatica的增长率超过了20%,发展势头强劲。图1所示是全球数据仓库市场份额分布情况。

2 厂商简介与产品比较

2.1 Oracle(甲古文)

创立于1977年,是第一个跨整个产品线(数据库、业务应用软件和应用软件开发与决策支持工具)开发和部署100%基于互联网的企业软件的公司,是世界领先的信息管理软件供应商和世界第二大独立软件公司,强大的资金实力使其能够收购一些技术先进的小公司为其数据仓库产品服务。

Oracle 10g是数据仓库的核心,除此之外还有Oracle数据仓库构建器、Oracle分区、Oracle数据挖掘和Oracle OLAP,客户可根据需要购买相应的模块,灵活性、功能性与安全性都很强,当然价格不菲。

2.2 IBM(国际商业机器)

IBM创立于1914年,是全球最大的信息技术和业务解决方案公司。以世界一流的最新技术开发新产品,并以最快的生产速度进入市场,是IBM的产品发展战略。

与数据仓库相关的产品有DB2 Warehouse Manager(数据仓库管理器)、DB2 OLAP Server(联机处理服务器)、DB2 Intelligen Miner for Data(数据智能挖掘)、DB2 Intelligent Miner Modeling(模型智能挖掘)、DB2 Intelligent Miner Scoring(智能挖掘计分卡)和DB2 Intelligent Miner Visualization(智能挖掘可视化)。产品的覆盖面很广,集成能力较强,但没有完整的数据仓库方案,需要借助第三方工具,价格很高。

2.3 SAS(塞仕)

SAS创立于1976年,以“统计分析”和“数学建模”而在业界享有极高的声誉,其产品以统计分析见长。90年代加入到数据仓库竞争之中且表现出很大的优势,常与其他数据库产品配合使用,目前涉及的行业的有零售、制造和金融。

其数据仓库产品为SAS/Warehouse Administrator(数据仓库管理器),支持多维数据库和关系数据库及合并。

2.4 Microsoft(微软)

微软是创立于1975年的神化般的企业,其创使人比尔·盖茨也是世界上的知名人物,他的资产净值达到564亿美元。微软的商业运作能力十分出众,这使得微软多年来在全球个人电脑与商用软体、服务与网际网路技术上一直居于领导地位,

微软于1998年发布7.0版Microsoft誖SQL Server誖开始包含数据仓库模块,由于与Windows操作系统风格一致,操作方便,且相对其他产品便宜得多,所以很快便在数据仓库市场打开销路,其后几年这款软件不断升级完善,2005版又加入了BI功能,并且提供了完备的数据挖掘工具。

2.5 Business Objects(BO)

BO创立于1990年,它发明了独特的“语义层”技术,目前是BI界内的佼佼者,与SAP关系密切。其产品涉及通信、能源、金融、政府、医疗、制造、制药和零售多个行业。

2005年BO推出BusinessObjects?XI,其中包括报表、查询和分析、绩效管理、BI平台、数据集成和服务和支持几个部分,界面美观,支持多种平台和数据库,且支持网络查询分析,但由于是第三方工具,因此只能实现数据仓库中的一部分功能。

2.6 NCR

NCR致力于CRM(客户关系管理),主要产品有自动柜员机(ATM)、零售系统、Teradata数据仓库和IT服务为客户提供关系技术(Relationship Technology TM)解决方案。Teradata目前仍是数据仓库领域的领导者,为多个行业提供解决方案。

在长期的实践过程当中,NCR形成了一套独特的数据仓库方法论和实施框架———可扩展数据仓库(Scalable Data Warehouse,简称为SDW)。其最新版本的数据仓库产品为enterprise data warehousing 8.2(企业数据仓库),其中包括数据库软件、数据仓库工具与应用、高级分析、应用平台、NCR服务器&企业存储、专业服务、客户服务几个部分。总的来看NCR的产品性能很好,但是价格相对较高,中小企业难以接受。

2.7 Cognos(优信佳)、Hypersion(海波龙)与Informatica

Cognos创立于1969年,是Bi和记分系统领域的领先者之一,其以单一产品融合了所有BI功能。其产品Congos8包含了报表、分析、计分卡、仪表盘、企业事件管理和数据集成功能,既有前端展示功能,又有后端数据分析与挖掘功能,是一种比较集成化的方案。

Hypersion成立于1991年,其产品为Hyperion誖System誖9,包含三个部分:Hyperion System9 BI、Hyperion System 9 Applications和Hyperion System 9 Foundation Services。2007年,Oracle宣布以33亿美元收购海波龙。

Informatica创立于1993年,以ETL(Extract,Transformation and Loading,数据抽取和整合)起家,产品涉及多个行业,03-05连续三年在数据集成领域市场占有率第一。产品PowerCenter8提供了一个可视化的、拥有丰富转换库的设计工具。

表1所示为这九种数据仓库与商业智能工具/方案供应商介绍用产品比较。

3 结语

如今一些巨头公司非常看好我国市场的发展潜力,根据易观国际(www.analysys.com.cn)2006年第四季度的最新报告表明,我国数据仓库与商业智能市场2006年第四季度总体市场规模达到3.63亿人民币(图2所示是市场份额分布情况),其中数据仓库市场总体规模达到1.27亿元人民币,商业分析工具市场规模达到2.36亿人民币,保持着良好的增长势头。

随着市场竞争的加剧,我国有越来越多的企业开始建设自己的数据仓库系统,希望能对历史数据进行具体而又有针对性的分析与挖掘,以期从中发现新客户和客户新的需求。数据仓库的建设过程是复杂的,面对众多的工具与方案,企业不能盲目地跟潮流,而要根据自己行业和企业的业务特点,业务范围和业务数据来制定方案。

摘要:随着竞争的日益加剧,国内有越来越多的企业开始建设自己的数据仓库系统,希望能对历史数据进行具体而又有针对性的分析与挖掘,以期从中发现新客户和客户新的需求。数据仓库的建设过程是复杂的,面对众多的工具与方案,企业不能盲目地跟潮流,而要根据自己行业和企业的业务特点,业务范围和业务数据来制定方案。该文简单介绍了全球领先的9家数据仓库工具及解决方案供应商及其产品,并对它们的特点和优缺点进行比较评价。

关键词:数据仓库工具,商业智能,数据仓库

参考文献

[1]IDC.Worldwide Data Warehousing Tools 2005 Vendor Shares[EB/OL].(2006-09).www.idc.com.

[2]IDC.Worldwide Business Intelligence Tools 2005 Vendor Shares[EB/OL].(2006-09).www.idc.com.

[3]Kramer M,Green Hill Analysis,A Comparison of Data Warehousing Strategies and Product Offerings(Microsoft vs.Hyperion,IBM and Oracle)[M].white paper,Microsoft Corporation,2000.

[4]王峥嵘,王铮钧.数据仓库领域的排头兵[J].科技与经济,2006(16):99-100.

工具仓库管理制度(精) 篇2

1、制订目的:

为规范五金、备件仓库物资管理,本着节约成本的原则,加强五金工具的保管、领用、以旧换新、移交、报废程序,以避免工具的超标领用及调离无交接等现象。

2、适用范围:

涉及本公司各部门,在五金工具仓库,领用工具五金易耗物品、退库、交接、更换、报废等。

3、职责:

3.1 仓库主管部门负责五金工具的领用标准制定与调整。

3.2五金仓库负责工具按标准发放、建立个人工具财产卡、以旧换新和回收旧工具的保管等管理工作。

3.3各使用部门、人员负责工具的日常维护、保存。

3.4仓库主管负责本办法的起草、修订、解释工作。4.作业细则: 4.1工具的采购入库

4.1.1工具的采购计划由工具保管员根据库存定额提出采购申请,报部门经理审核,由经理批准后交采购员实施采购。当工具库房无所需工具时,由使用部门负责人提出采购申请后报使用部门总监审核,获批准后交设备部门采购员实施采购。

4.1.2采购申请必须填写清楚具体规格型号及数量,要求准确及时采购。4.1.3物资入库,库管员必须当面核对清点件数,数量或重量,无误后办理交接手续。对核对无误后应于收货当日开具入库单,再交给采购人员,特殊情况亦应于第二天办结。

4.1.4物资入库验收时,若发现实物与名称不符,规格型号不符,外观质量不好或数量(重量)短缺等情况时,应先妥善保管好物资,做好标记,及时通知采购人员,由其负责处理,并做好记录。待问题解决后方可办理入库手续。4.2工具卡的使用及管理

4.2.1五金仓库负责建立个人五金工具卡。

仓库在发放个人工具或公用工具时要严格按工具配备标准进行发放,发放工具时发料员严格按照按领料单发放,发料员必须在个人工具卡上记录发放工具明细,记录必须包含领用工具的名称、型号、数量等相关信息,而后使用者与发料员双方确认签字,工具卡需注明人员名字、工号和联系方式。

4.2.2工具领用人在领用时,领料人必须携由部门主管(总监)同意签准领料单到仓库,发料员根据领料单发放。

4.2.3工具的保管实行个人责任制。按岗位专设一卡,登记工具明细,并落实工具保管责任人,各责任人负责此工具的日常保管、正常损坏后换领等工作,对除工具质量原因外而造成的损坏、遗失等负责。4.2.4仓库应专设工具帐目记录,对各部门各岗位各人员的工具领用情况进行统计,确保和部门、岗位领用记录准确无误。

4.3工具的领用条件、更换程序

4.3.1工具领用条件: 在首次领用工具时,必须是在领用标准范围内;经确认不能使用的工具可以重新申报计划(部门总监审批),领取时必须以旧换新。领料时,领料人和发料人必须当面清点发放数量,并由领料人在领料单上签字确认。由于领料人当场不清点数量,事后发现数量少的,由领料人承担责任。物料领出库后,保管责任相应转移到领料人,出现丢失、人为损坏,责任人须照价赔偿。

4.3.2 工具领用程序

1)工具首次领用时,经部门主管同意,填写的领料单,注明用途和保管责任人,部门主管签准后,携带领料到仓库领取工具。仓库人员根据领料单发放工具,填写个人工具卡,领用人和发料员双方签名确认。

2)以旧换新领料时,使用部门应填写“领料单”,取“工具卡”及原旧工具到仓库换领。仓库人员在其工具卡上注销旧工具并签名确认,同时登记新工具并由领用人和发料员双方签字确认,方可发料。

3)原工具丢失,责任人需按工具使用时间做相应赔偿, 赔偿之后方可再重新领用。赔偿原则:一年内原件赔偿;一年至三年间赔偿原价的XX%;三年以上赔偿原价的XX%。

4.3.3电动工具、五金工具、计量等工具借用规定

1)电动工具、五金工具、计量工具等工具类物资必须办理借用登记手续方可出库,并按期退还。班组所需工具统一由班组长负责借用,安装队所需工具统一由队长负责借用,其他人员不允许借用工具。

2)借用时,借用人要检查工具的完好性,借用时工具已存在缺陷的,办理登记时要注明情况或停止使用。3)仓库保管员必须建立完善的工具借用台账。对非限时借用,由班组负责保管的工具,每季度需核查对账一次,对限时借用的工具,需及时核查退还情况,借用时间到期但借用人需继续借用的,要办理续借登记。4)工具借用期间出现故障需维修的,由借用人填写设备维修申请单报设备管理员维修。

4.3.4.工具因故障不能正常使用需退还仓库或者借用到期退还时保管员发现工具存在故障,借用人须填写《非正常状态工具退还单》,借用人对非正常状态表现和原因作简要说明,保管员对非正常状态原因和相关责任进行调查。经调查确认属人为损坏,造成损失的,按照公司工具赔偿规定执行。4.4工具交接或退还

4.4.1 公司内或部门间人员调动、离职都应报于人力资源部门。人力资源部门除办相应人事调动手续外,应发给调动人员“调/离人员移交表单”一份;调动人员持“调/离人员移交表单”和个人工具财产卡报于部门主管处,由部门主管确定移交、退库还是继续使用并签名。调动人员持表与工具卡到仓库办理相关手续,做如下处理并签名确认。

1)如移交,则在原保管人工具卡上注明转于XXX人,接交人应取其“工具卡”交于仓库,由仓库人员填写或添加交接人工具卡记录,接交人与仓库人员双方签字确认; 2)

如退库,工具需退库时,由工具保管人取“工具卡”,与工具一并送仓库退库。仓库保管在“工具卡”相应栏目中注明其退回日期,双方签名确认;

3)如继续使用,则“工具卡”上相应项目不做变动,但工具卡上改变部门或岗位名称,仓库统计表中,“部门“与”岗位“上做相应变动。

4.4.2 离职退还。人员离职到五金仓库签批“离职单”的同时需携带个人工具卡,离职人员的部门负责人确定其工具是移交还是退库,并签名确认。离职人员持“离职单”到仓库,由仓管员核对,并做如下处理。1)如移交,则在原保管人工具卡上注明转于XXX人,接交人应取其“工具卡”交于仓库,由仓库人员填写或添加交接人工具卡记录,接交人与仓库人员双方签字确认;

2)如退库,工具需退库时,由工具保管人取“工具卡”,与工具一并送仓库退库。

3)仓库保管在“工具卡”相应栏目中注明其退回日期,双方签名确认; 4)如工具遗失,责任人需按工具使用时间做相应赔偿, 赔偿之后方可再重新领用。

5)赔偿原则:一年内原价赔偿;一年至三年间赔偿原价的XX%;三年以上赔偿原价的XX%。仓库管理员提报赔偿金额并签名,人力资源部扣除相应工资作为赔偿金额。4.5回收工具的管理 4.5.1仓库人员收回旧工具时必须认真检查,如仍可用,请新领用人继续使用;如可修复,可联系相关专业人员修复;如仓库有旧品时,尽量请领用人领用可用的旧品;旧品领用只需以旧换旧,不需开领料单,但个人工具卡上必须备注更换信息。

4.5.2仓库人员有对回收可用的工具的保管的责任,仓库人员需要对回收的工具做简单的保养工作,防止锈蚀。

4.5.3以旧换新的工具(已报废)由仓管员统一整理并堆放于仓库废品回收站,定期申请废品处理。

4.6仓库保管员必须合理设置各类物资的明细账簿和台账,按时报送各类规定的报表。

4.6.1仓库保管员必须严格按数据库系统和有关管理规程进行日常操作,对当日发生的业务必须及时处理,做到日清日结,确保数据库系统中物料进出及结存数据正确无误。

4.6.2做好各类物资的日常核查工作,每个月盘点一次。库存物资清查盘点中发现问题和差错,应及时查明原因,并进行相应处理。如发现物料失少或质量上的问题(如超期、受潮、生锈、老化、变质或者损坏等)需报废处理的,必须填写专门报告经主管领导核查批准后才可仅需处理,否则一律不准自行调整。4.6.3仓库保管员必须定期进行各类存货的分类整理,对存放期限较长,逾期失效等不良存货,按季度编制报表,报送相关职能部门领导及财务人员,各职能部门对各类不良存货提出处理意见,责成相关部门及时加以处理。4.6.4仓库保管员必须按物资的不同类别、性能、特点和用途分类分区放,做到“二齐(摆放整齐、库容干净整齐)、三清(品种清、规格清、数量清)、四定位(定区、定架、定排、定位)”。

4.6.5仓库内严禁烟火,离岗时锁好门窗,做好防火防盗。非工作人员不得进入库内。

4.7 易耗品出库管理

4.7.1 五金标准件和低值易耗品等耗用类物资必须凭领料单方可办量出库,任何人不办理领料手续不得以任何名义从仓库拿走物资。

4.7.2 每个作业班组允许指定人员办理领料,指定领料人员名单需报仓库备案,其他人员不得领料。

4.7.3 领料单应填明材料名称、规格型号、领用数量、材料用途。仓库保管员对所有发料凭证进行妥善保管,不可丢失。

4.7.4 经审批作报废处理的工具,由财务部门作销账处理。

4.7.5 严禁未经办理审批手续,仓库管理员私自对工具作报废或者销账处理。4.7.6物资出库应坚持先进先出的原则。物资发放时,必须按物料领用管理规定办理,若手续不齐全,库管员有权拒绝发放。物资发放时,需经双方当场验明,由领料人在领料单上签字认可。特殊情况下,可先行发放,但需于第二天补齐相关手续。

4.7.7仓库管理工作,要树立防火、防盗、防事故的观念。仓库内严禁吸烟,无关人员不得随意进入。对库存物资要做到不霉变、不腐烂、不损坏、不受潮、不混乱。对易腐、易挥发的物资要经常检查、保养。对易燃、易爆物资要严格执行安全保管规程。

4.7.8物资在收发后应及时做好登记和帐、卡的填写和登录工作。严格按记帐要求做到日清、月结、季结和年总计。各类物资必须分名称、规格型号建立收发明细帐目,不允许混品种规格做帐。所有在库物资要做到定位摆放、卡物相符。

4.7.9保持仓库和物资的整洁卫生。做到货架内物资清洁无灰尘、仓库周围卫生区应做到沟渠畅通,无灰尘杂物。

4.7.10库存物资在不影响质量和使用的情况下,应坚持保整发零原则。凡能发零的物资必须按使用单位的请领数发给,不准随意发整不发零。4.7.11库管员应做好每月的库存物资盘点工作,做到收发准确、手续完备。库存报表要及时准确,月份报表要求在每月26日设备部。盈亏应书面说明原因,报主管部门审批,由主管部门报公司处理。因人为因素造成的损耗、差异,按情节轻重进行考核。

4.7.12随时掌握库存物资动态,做好物资的合理储备。如发现物资超储或缺料时,应及时书面报告公司领导及有关人员进行处理。

4.7.12各部门或个人领用五金、工具等一律要登记《五金、工具保管领用卡》,部门和仓库应有底联并且及时做好电子档分开储存。

4.7.14对一切五金工具物料(包括电器、备品备件)的发放,原则上以坏(旧)换好(新)。对于价值高的贵重物料发放,应由公司领导审批,并按计划到仓库领用,否则一律不能发放。对所换的坏(旧)件应集中存放,有计划地进行维修处理,尽量翻新再用。对收回的坏(旧)件应建立明细帐,维修后能用的亦要建立明细帐(所有台账需有电子和书面文件)。附:

1.工具修理报修流程 2.工具购买流程

大数据让数据仓库更具价值 篇3

谈到大数据,首先想到的是数据管理,在数据管理方面,人们想到的是Hadoop和MapReduce等新兴技术,但是这些新兴技术并不能解决所有的数据管理问题。数据仓库作为一种传统的数据技术在大数据时代依然焕发着自己的活力。

数据仓库:从技术角度看问题

说到数据仓库,就要从数据仓库的概念提出说起。数据仓库概念最早诞生于1983年,然后就出现了商务智能,直到20世纪90年代开始成熟,并出现了提取、转换和加载(ETL),ETL的出现大大促进了商务智能(BI)的发展。以后,数据仓库出现了各种扩展,出现了多维的联机分析处理(OLAP)、数据集市、探查型数据仓库和ODS。

有了ODS即便更新和业务处理遇到集成数据问题,系统还是能够进行处理。其后,星型模型和事实表等都有了容身之地。有了探索型数据仓库,统计学家有了一个数据基础,可以支撑从数据管理员到统计分析员等不同角色的数据挖掘分析需求。一直到后来,数据仓库变成了企业的信息工厂,进而数据仓库也被称为企业数据仓库(EDW)。

随着EDW环境复杂性的增加,企业越来越认为需要一种监控机制来管理数据仓库,而这种监控机制与事务处理的监控机制本质上存在着各种差异。与此同时,商务智能的发展也随着数据仓库技术的发展而不断演进,商务智能的发展要求其不仅仅为决策层提供支持,同时,也要给普通的业务人员提供支持。不仅要能从整个战略层面进行综合分析,还能够在具体的战术层面进行详细指导,这些是商务智能未来的发展趋势。随着信息量的快速增长,产生了如网页文本等信息数据分析的需求。进而衍生了对大数据的分析技术。

事实上,大数据和数据仓库是同一个问题的两个方面,大数据是业务视角,需要汇聚各类数据,建立客户全景视图,实现客户深度洞察,而数据仓库是技术视角,需要汇聚各类数据,全景实现数据全生命周期管理、元数据管理和数据监视管理。

数据仓库和大数据的结合就是通过技术手段来解决业务问题。随着大数据时代的发展,数据仓库对于企业决策的支持作用将会越来越大。由此,数据仓库也成为了各大数据解决方案厂商着力开展的业务领域。IBM、甲骨文,惠普、Teradata等厂商纷纷部署了自己的数据仓库技术和产品。绝大多数的数据仓库厂商能够利用网格或者云架构将他们的产品扩展到PB级别,而且他们能够完成数据库内分析,即在大规模并行数据仓库网格或者云环境中实现。他们还可以在企业数据仓库之内来支持数据转化和数据清洗功能。

数据仓库发展迎挑战

目前,大量的数据运行的企业中,新兴的数据类型层出不穷,数据量增加的速度越来越快,越来越多的业务提出实时的需求,所有这些都让数据仓库在企业运营和领导决策支持中显现出“疲态”。

数据仓库遇到的第一个挑战是对大量数据的存储和管理。现在的数据量已经大大超越了传统事物处理的数据量,而且随着时间的推移,数据量还将不断增加,数据类型还将更加多元化。

第二是数据仓库要解决并行处理的问题。在传统联机事务处理应用中,用户访问系统的特点是短小而密集。对于一个多处理机系统来说,能够将用户的请求进行均衡分担进行并行操作是非常关键的。在数据仓库系统中,用户访问的特点是庞大而稀疏,每一个查询和统计都很复杂,但是访问频率很低。

最后,对于企业级数据仓库而言,数据源的 ETL操作是另一个挑战,特别是实时的ETL操作。传统的数据工具不能解决高容量和低延迟的需求,而能够满足这些需求的技术正是企业需要的。要解决这项需求所面临的主要挑战是,是否可以在给定的时间内移动必要的数据量。传统的批量处理过程需要几个小时甚至几天的时间才能够完成这样的操作,这就不能满足业务实时决策的要求。其他相关的挑战在加载到数据仓库时要减少操作系统上的影响,因为在数据仓库中运行大的查询会降低操作系统对使用者和客户的服务。

另外,从各种各样用户设备上访问数据仓库中的业务信息,也影响到了数据仓库的工作量以及它所支持的信息。从工作量的角度来看,用户设备需要大量的小查询,就需要在很低的延迟下跨越地域进行回答。从信息的角度来看,用户使用移动设备希望实现随时随地的即时访问,用户需要的是最新的信息。而且需要很快地加载信息,以便用户可以和历史内容一起访问数据。

三把利剑破解数据难题

Forrester高级数据管理分析师James Kobielus曾表示,数据仓库可以通过三种方式帮助企业处理好数据问题:第一,在企业数据仓库中,给不同的数据一个比较稳定的主题划分,按照主题来组织企业数据,比如,数据仓库架构中的OLAP cube,客户数据是一个分区,财务数据是一个分区,人力资源数据是一个分区。不管是物理上的实现还是逻辑上划分,这些数据主题都会比较稳定。这样有利于根据数据的关联性来匹配下游的应用和用户。这是数据仓库管理的核心所在,也是通过数据仓库处理大数据的重要方式。

第二种方式是通过数据库内分析,也就是在数据仓库内部执行数据挖掘。利用数据仓库执行数据清洗、数据挖掘和回归分析。因为使用数据挖掘或者回归分析可以从根本上了解数据建模式,所以这种方式可以很好地处理数据。然后使用数据库内挖掘来填充下游的分析数据集市,数据挖掘和统计模型专业人士可以利用它将复杂的模式实现可视化。

第三种方式就是将数据仓库作为数据治理的核心,可以合理地在数据仓库中维护主数据。当数据仓库作为数据治理与数据清洗的核心时,它将有助于搞清楚所有的信息。在整个企业架构中,数据就像是洪水一般涌入数据仓库,数据仓库作为数据的枢纽,可以确保大数据在下游的应用。

有了这三种方式,然后结合Hadoop、MapReduce等大数据新兴技术,企业就可以处理好大数据难题。

总之,数据仓库是一项基于数据管理的综合性技术和解决方案,数据仓库是企业不可或缺的关键性组成部分,它将成为数据库市场的新一轮增长点。作为下一代应用系统的重要组成部分,数据仓库可以把企业方方面面产生的数据汇集起来,然后分门别类,并最终对这些繁复复杂的信息进行分析处理,让其成为了解企业运营、进行企业决策的宝贵资料。

数据仓库工具 篇4

近年来数据仓库技术迅猛发展, 使得企业从大量数据中提取有用信息为决策提供支持成为可能, Oracle、IBM、Sybase、Informix、NCR、SAS、CA和微软等有实力的公司相继推出了自己的数据仓库解决方案, 同时大量的数据仓库前端展现工具也是层出不穷。但是, 这些方案大都存在价格昂贵, 使用性能不稳定等缺点。但是, 微软公司的数据仓库解决方案A n a l y s i s Services凭借其性能稳定、操作简便、价格低廉, 占据了大部分的市场份额。

美中不足的是, 微软的数据仓库的前端工具一般, 开发与微软A n a l y s i s Services配套的前端展现工具是非常关键的。市面上已经有了一些专门针对微软数据仓库的前端展现工具, 如美国的ProClarity, 加拿大的Panorama, 重庆极光商智等工具都能提供较好的OLAP多维分析功能, 且实现了与微软多维数据集的无缝对接。但对一般中小企业来说, 这些工具价格昂贵, 功能不实用。微软Analysis Services提供了很好的开放环境, 企业可以自行开发前端展现工具。本文使用Delphi7, 结合ADO MD技术实现了微软数据仓库前端展现工具的开发。

2服务器端多维数据集的建立

2.1微软数据仓库解决方案

在后台建立数据仓库OLAP多维数据集, 将各种统计结果保存在数据集中;通过客户端应用程序展现分析结果, 不用将大量数据传输到客户端再进行计算, 从而节省资源, 提高效率。微软OLAP Services有自己的服务器和客户端组件[1], 在多层应用程序开发中, 其客户端也可以作为中间层来使用。

如图1右侧所示, 服务器端有强大的计算统计功能[2], OLAP Manager是内置管理OLAP服务器和客户端接口的部件;在客户端, 包括了一个透视表PivotTable Service组件, 该组件被用来连接OLAP客户端和服务器端, 所有服务器端的统计数据由此组件经过OLAP的OLE DB接口来实现。

微软OLAP多维数据集的建立及数据处理过程不是本文介绍的重点, 可参考微软SQL-Server的联机帮助。图中的客户端应用程序是本文介绍的重点, 主要是使用Delphi7, 将查询要求转换成MDX语句传送到OLAP服务器, 进行多维查询, 并将结果传回到客户端应用程序, 显示在表格中, 并实现切片、切块、旋转及钻取等多位分析动作。

2.2 ADO MD运行机制

到目前为止, 微软SQL Server和微软Office带的OLE DB Provider for OLAP Services是唯一可以获得的可操作多维数据的接口[3], 通过这个接口, 可以从S Q L Server多维数据库中读取被存储的数据。ADO MD对象模型包括两个分支, 第一个分支用来操作多维数据库的元数据;第二个分支用来获得由OLAP立方查询产生的被存储在数据库中的数据。

Catalog对象实际代表了一类特殊的多维数据存储, 它可以包括0、1或更多的立方体, 这些立方体构成了CubeDefs集合, 任何在这个集合中的元素都是一个CubeDef对象。CubeDef对象的Name属性就是立方体的名字。Dimension对象包括了H i e r a r c h i e s集合, 其中包括了全部的Hierarchy对象。维的分级结构可以包括一个或多个级别, 因此Hierarchy对象还包括对应于Level对象的Levels集合。每个Level对象还可以包括一个或多个M e m b e r s对象。

A D O M D对象模型的另一个分支Cel Set对象可以用来获得“立方”切片。要获得这些立方切片, 需要查询立方。因为多维数据库不是关系型的, 所以无法使用标准的SQL来查询它, 需要使用多维表达式M D X语句, 如下所示:

执行该语句, 将会生成一个数据透视表, 里面包括在2008年按季度统计各个国家消费额度。数据透视表是由CellSet对象的MDX查询产生的, CellSet对象提供了对Cell对象类似于数组的存取方式Cell对象表示数据透视表中一个单元格。此外, 它还包括了对应于A x i s对象的A x i s集合。Cell对象和Axis对象都有对应于Position对象的Positions集合。

3 Delphi客户端数据仓库多维分析系统的开发

程序总体结构设计如图1所示, 将Analysis Services自带的客户端作为中间层来使用, 使用Delphi7程序开发客户端软件, 具体过程详见以下几节。

3.1多维数据源的连接

如图1所示, 可以从SQL Server多维数据库中读取被存储的数据, 或者从微软Excel创建的*.cub文件中读取多维数据。

(1) 连接SQL-Server多维数据库。使用Delphi7可轻松连接微软服务器的OLAP多维数据集, 具体连接字符串如下:

其中“11”为服务器名, “JC”为多维数据集的名称。

(2) 连接*.cub文件。为了方便用户使用, 微软提供了将多维服务器中的数据导出到*.cub文件的操作 (也可使用Excel完成该操作) 。为了在脱离服务器时方便查询, 本文也介绍了访问*.cub文件的模式, 具体连接字符串如下:

3.2数据展现

数据仓库的主要优势是多维数据的展现及各种图形的综合运用, 并能在表格、图形中完成钻取等操作。

(1) 在表格中显示数据。Delphi中有一个ClientDataset组件, 用于在客户端接受来自服务器或中间层的数据。使用这个组件将多维分析的结果取出来放在ClientDataset中。再利用Delphi自带的数据源组件Datasource, 将这些数据展示在Dbgrid中。程序代码如下:

(2) 在图形中显示数据。为了把多维分析的结果显示在图形中, 可以使用Delphi提供的Chart组件实现各种图形的显示。如柱型图程序代码如下:

鉴于篇幅原因, 元数据的展现, 对象名称的展现, 维度展现, 时间及度量值的判断, 生MDX语句等内容, 本文不做详细论述。

4应用实例与分析

此处以某超市的销售数据为例, 使用微软Analysis Service建立该超市的销售数据的多维数据集, 并应用本文中开发的工具进行分析。该超市集团一共有三个店, 分别是柏林区石岗路的金柏林、新华区仓安路的仓安店以及中山区中山路的中山店, 三个店都已经实现了计算机联网。每天三个超市都会有大量的销售数据, 这些数据会定期传到总集团数据库。面对大量的销售数据, 企业的决策人员想从它们当中提取出有用的信息是非常困难的, 应用本软件, 可完成各种统计分析工作。此处建立三个维度, 即时间维, 商品维以及商店维, 度量值为销售额及销售数量。根据超市管理层的查询需求, 本文设计如下三个查询:

(1) 比较新华、中山、柏林三个区所有六类商品销售额, 程序运行结果如图3。

如图3所示, 新华区各类商品的销售都是最好的, 因此在进行商品配送时, 应首先满足新华区仓安路仓安店的需求, 另外两个区的超市应该分析其内在原因, 找出销售状况不佳的原因。

(2) 比较各个月份各类商品的销售数量, 程序运行结果如图4。

如图4, 9月份的各类商品销售的最好, 是销售的旺季, 因此超市的管理者应该制定相应的对策, 在来年的9月份以前做好准备, 迎接销售旺季的到来;从图中我们还能看出一般类食品在8、9月销售的较好。

5结论

A D O M D与D e l p h i技术的完美结合, 使得广大的Delphi程序员能够像VB一样轻松地实现对OLAP多维数据集的访问, 在Delphi中快速、清晰地展现多维分析的结果, 为决策者提供决策支持。我们的下一步工作重点是基于Delphi和SQL Server抽取并开发具有通用功能的多维分析组件, 以实现多维分析应用程序的组件式开发。

参考文献

[1]王珊.数据仓库技术与联机分析处理[M].北京:科学社会出版社.1999.

[2]沈兆阳.SQL SERVER2000OLAP解决方案[M].北京:清华大学出版社.2001.

[3]蔡勇, 贺广生.面向对象的数据仓库模型设计[J].计算机工程与应用.2003, 39 (6) :193-195.

[4]曹忠升, 黄宇殊, 冯剑琳.多维查询语言DM_MDX编辑器的设计与实现.计算机工程与应用[J].2004, 109-111.

浅谈数据挖掘与数据仓库 篇5

1.1 数据挖掘与传统数据分析的区别

数据挖掘与传统的数据分析, 如查询、报表、联机应用分析的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。即数据挖掘是要发现那些不能靠直觉发现的信息或知识, 甚至是违背直觉的信息或知识, 挖掘出的信息越出乎意料就可能越有价值。而传统的数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件。因此数据挖掘与传统分析方法有很大的不同。

1.2 数据挖掘的应用价值

(1) 分类:首先从数据中选出已经分好类的训练集, 在该训练集上运用数据挖掘分类的技术, 建立分类模型, 对于没有分类的数据进行分类。 (2) 估计:与分类类似, 不同之处在于, 分类描述的是离散型变量的输出, 而估值处理连续值的输出;分类是确定数目的, 估计是不确定的。 (3) 聚类:是对记录分组。聚类和分类的区别是聚集不依赖于预先定义好的类, 不需要训练集。中国移动采用先进的数据挖掘工具马克威分析系统, 对用户wap上网的行为进行聚类分析, 通过客户分群, 进行精确营销。 (4) 关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟, 比重有多大, 可以通过关联的支持度和可信度来描述。与关联不同, 序列是一种纵向的联系。例如:今天银行调整利率, 明天股市的变化。 (5) 预测:通过分类或估值得出模型, 该模型用于对未知变量的预言。 (6) 偏差的检测:对分析对象的少数的、极端的特例的描述, 揭示内在的原因。

除此之外, 在客户分析, 运筹和企业资源的优化, 异常检测, 企业分析模型的管理的方面都有广泛使用价值。

2 数据仓库

2.1 数据仓库的特征

(1) 面向主题 (Subject Oriented) 的数据集合。数据仓库围绕一些主题如顾客、供应商、产品和销售来组织。数据仓库关注决策者的数据建模与分析, 而不是组织机构的日常操作和事务处理。 (2) 集成 (Integrated) 的数据集合。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的, 必须消除源数据中的不一致性, 以保证数据仓库内的信息是关于整个企业的一致的全局信息。 (3) 时变 (Time Variant) 的数据集合。数据存储从历史的角度提供信息。数据仓库中的数据通常包含历史信息, 通过这些信息, 可以对企业的发展历程和未来趋势做出定量分析和预测。 (4) 非易失 (Nonvolatile) 的数据集合。数据仓库的数据主要供企业决策分析之用, 所涉及的数据操作主要是数据查询, 修改和删除操作很少, 通常只需要定期的加载、刷新。数据仓库里的数据通常只需要两种操作:初始化载入和数据访问, 因此其数据相对稳定, 极少或根本不更新。

2.2 数据仓库的类型

数据仓库的类型根据数据仓库所管理的数据类型和它们所解决的企业问题范围, 一般可将数据仓库分为下列3种类型:企业数据仓库 (EDW) 、操作型数据库 (ODS) 和数据集市 (Data Marts) 。 (1) 企业数据仓库为通用数据仓库, 它既含有大量详细的数据, 也含有大量累赘的或聚集的数据, 这些数据具有不易改变性和面向历史性。此种数据仓库被用来进行涵盖多种企业领域上的战略或战术上的决策。 (2) 操作型数据库既可以被用来针对工作数据做决策支持, 又可用做将数据加载到数据仓库时的过渡区域。与EDW相比, ODS是面向主题和面向综合的, 易变的, 仅含有目前的、详细的数据, 不含有累计的、历史性的数据。 (3) 数据集市是为了特定的应用目的或应用范围, 而从数据仓库中独立出来的一部分数据, 也可称为部门数据或主题数据。几组数据集市可以组成一个EDW。

2.3 数据仓库与传统数据库的比较

二者的联系既有联系又有区别。数据仓库的出现, 并不是要取代数据库。目前, 大部分数据仓库还是用关系数据库管理系统来管理的。可以说, 数据库、数据仓库相辅相成、各有千秋。二者的区别可以从以下几个方面进行比较:

(1) 出发点不同:数据库是面向事务的设计;数据仓库是面向主题设计的。 (2) 存储的数据不同:数据库一般存储在线交易数据;数据仓库存储的一般是历史数据。 (3) 设计规则不同:数据库设计是尽量避免冗余, 一般采用符合范式的规则来设计;数据仓库在设计是有意引入冗余, 采用反范式的方式来设计。 (4) 提供的功能不同:数据库是为捕获数据而设计, 数据仓库是为分析数据而设计。 (5) 基本元素不同:数据库的基本元素是事实表, 数据仓库的基本元素是维度表。 (6) 容量不同:数据库在基本容量上要比数据仓库小的多。 (7) 服务对象不同:数据库是为了高效的事务处理而设计的, 服务对象为企业业务处理方面的工作人员;数据仓库是为了分析数据进行决策而设计的, 服务对象为企业高层决策人员。

3 数据仓库与数据挖掘的关系

当然为了数据挖掘你也不必非得建立一个数据仓库, 数据仓库不是必需的。建立一个巨大的数据仓库, 把各个不同源的数据统一在一起, 解决所有的数据冲突问题, 然后把所有的数据导到一个数据仓库内, 是一项巨大的工程, 可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘, 你可以把一个或几个事务数据库导到一个只读的数据库中, 就把它当作数据集市, 然后在他上面进行数据挖掘。

摘要:数据挖掘与数据仓库是当今新的技术热点, 数据仓库是一种解决数据使用的高效技术, 数据挖掘为之提供了更好的决策支持和服务, 同时促进了数据仓库技术的发展。本文简单介绍了这两者的概念和应用。

探讨数据仓库元数据的集成与转换 篇6

元数据是描述数据的数据,或者说是与数据有关的信息,是数字信息组织和处理的基本工具,是理解数据含义和如何使用数据的关键。所以,每一个软件产品和工具能够在数据层进行有效集成的前提是,它在元数据层就必须被有效集成。所以对数据仓库元数据集成和转换的研究是非常有意义的。

1 元数据集成与转换的设计

1.1 元数据的信息供应链

本文所设计的元数据集成与转换功能,是基于数据仓库的,该功能用来提取数据仓库中各部分产生的元数据,并应用某种策略对其进行综合管理。通过这些元数据,相关人员可以清楚地了解数据仓库中的数据结构、业务规则等,从而对决策支持产生巨大的战略价值。换句话说,元数据集成与转换管理工具的起点就是数据仓库的构建过程和业务使用过程。而数据仓库中信息流动的和处理过程常常用信息供应链(ISC,Information Supply Chain)来描述。

从数据源开始,信息经过多次处理,最终用于辅助决策支持。在整个流动过程中,顺序产生了四种数据,即源系统中的业务数据、ODS数据、DDS数据,以及OLAP数据,这几种数据的在粒度、抽象级别以及面向的应用等方面均存在不同[1]。为保证ISC的顺畅流动,并使参与此过程的软件产品都能够有效工作并基于数据层进行交互操作,就必须对描述各软件产品的元数据有一致理解。这是因为元数据定义了它们的内部处理逻辑和存储结构,通过元数据可以制定处理数据的策略。综上所述,构成ISC的每一个仓储产品和工具能够在数据层上进行有效集成的前提是,它们能在元数据层面进行有效的集成。

1.2 集成和转换的体系结构

本文以联邦式管理模式为基础提出元数据集成和转换功能的架构,主要分为元数据源、局部元数据仓储、全局元数据仓储、适配器、元数据抽取、元数据转换、元数据汇集等部分,如图1所示。

在上述架构中,所有元数据均来源于组成ISC信息供应链的软件产品。对于存储业务数据、ODS数据、DDS数据、OLAP数据的仓储软件产品,可以经过元数据抽取操作从中获得诸如存储结构等信息的元数据,存入各自的局部元数据仓储中;对于诸如ETL工具、报表工具等软件产品,产品内部往往会配备记录该工具使用规则等方面信息的局部元数据仓储,除此之外,还需对这些信息进行格式的一致性转换以提供元数据共享的途径[2]。

局部元数据仓储中是以关系型数据库的形式存放元数据的,其中的元数据可以分为两类,一类是仅为软件产品自身服务的私有元数据,另一类是需要在企业全局范围内共享的元数据,称之为共享元数据。对于前者,只需要存放在局部元数据仓储中,而对于后者,就需要进一步将其送入关系型的全局元数据仓储中保存和共享。

2 元数据集成与转换的实现

2.1 数据结构分析

本文所涉及的集成及转换工具,内部实现总共分为四个步骤。其中第一步就是将局部元模型导入到工具设计的数据结构中,利用这个数据结构,我们可以存储局部元模型的表结构以及冲突差异分析后产生的标记。本主涉及如下四个数据结构表。

1)数据结构l:记录表来源的数据结构,如表1所示。

2)数据结构数据结构2:记录列来源的数据结构,如表2所示。

3)数据结构3:临时记录一一对应的列的数据结构,如表3所示。

4)数据结构4:临时记录一一对应的表的数据结构,如表4所示。

2.2 集成与转换的流程

假设模型集成工具的两个输入模型分别为Ml和M2,目标输出模型为M3,则需要按照如下步骤完成模型集成:

Step1,将M1和M2中表的相应结构填入初始的集成工具的数据结构中。

Step2,针对数据结构中的数据进行如下流程实现模型的冲突和差异分析。

1)检查M1和M2中所有表,将无同名的表的标记Tag值设为TD(Table Difference),同名表的标记Tag值设为TS,并将同名的表Id对加入到数据结构4中。进入步骤2)。

2)针对每一对标记为TS的表,检查该表中列个数是否相同、名称是否相同。如果列一一对应则进入3),且将对应的列Id值对记录在模型集成工具的数据结构3中;否则进入步骤4)。

3)查询并记录数据结构3对应的表项个数N,即对应的列的个数,分别检查每对列的属性,开始列对检查的循环,查看其数据类型是否冲突。

4)首先将模型中无同名列的Tag标识为CDl(Column Difference1),说明这是某个输入模型的表中多出来的列。然后记录同名的列对的个数N作为循环次数,进入步骤5)。

5)检查剩下的同名列的属性,如果相同,进入步骤6):如果不相同,进入步骤7)。

6)检查同名列的数据类型。如果相同,则在数据结构2中,将该对应列的记录中Tag值设为CE,表示这两列的完全相同;如果不同,则在数据结构2中将这对列的Tag值设为CC,表示冲突。然后返回到步骤4)进行下一次的循环。

7)检查属性不同的列对。如果其中一个列的属性是默认值,则进入步骤8);否则将数据结构2中的相应两个列对应的记录的Tag值设为CC,表示属性值冲突。

8)继续检查该列对的数据类型。判断是否所有的同名列都已检查完毕,如果没有,则返回步骤4)进行下一次的循环。

Step3,针对分析过程中得到的不同种类的冲突和差异加以解决,并输出目标模型M3。在分析的流程中,我们得到了不同标记的表和列,针对不同标记有不同的冲突和差异解决方案。

2.3 列冲突差异的实现

1)列冲突CC

思路:生成列冲突的原因是列属性设置或者数据类型不同。这种情况下,本文的集成工具默认认为其不存在模型合并的必要,只需将两个输入数掘模型的表结构完全拷备,添加到输出模型中即可。但是,如果将来需要用户选择解决冲突方式的需求,也可以在本文设计的集成工具的基础上增加这个功能。

算法:遍历查询数据结构2所在表每条Tag值为CC的记录,获得该记录的OwnedTableId,到数据结构l中查找符合条件的记录,使得该记录的TableID值等于0wnedTableId,这样,就找到了相应模型中的表结构,从而添加到新模型中。

2)列差异CD

思路:CD表示某一输入模型的表较另一输入模型的表多了一些列,这种情况下,我们要将含有多余列的表结构加入到新模型中。

算法:遍历查询数据结构2所在表中每条Tag值为CD的记录,获得该记录的OwnedTableId,到数据结构1中查找符合条件的记录,使该记录的TableID值等于OwnedTableId,这样,就找到了相应模型中的表结构,将其添加到新模型中即可。

3 结束语

总之,数据仓库及其元数据是企业知识管理的重要组成,数据仓库的元数据管理终归是一个非常繁琐复杂的过程,其范围涉及数据仓库的整个环节,一个完整、通用的元数据管理系统的构建注定充满了迭代和不断反复,因此,对它的研究也应该是长期的、不断探索的过程。

摘要:该文基于对数据仓库系统本身的架构和数据模型特征研究,并结合元数据仓储架构的理论设计提出一种数据仓库元数据集成与转换功能的架构,并进行了系统实现,涉及到数据结构的分析、集成与转换的流程以及列冲突差异的实现。

关键词:元数据,集成与转换,数据仓库

参考文献

[1]黎建辉,吴威,阎保平.一种基于XML的元数据映射与转换方法.[J].微电子学与计算机,2008,(1).

数据仓库与森林资源数据动态更新 篇7

一、数据仓库的特点

(一) 仓库设计思路

第一步:首先建立森林资源调查数据的应该以二类调查数据为主, 其中所包含的所有资源信息。按照实施分布的细则, 将调查数据分成林种面积和森林林木面积等模块, 建立数据集合。

第二步:就是森林资源具有一定的空降概念, 主要表现是空间分布上的渐变特性。

第三步:一般情况下, 林业资源数据的时间粒度可以设定为1年的时间, 但是全国林业资源数据信息的变化情况时间粒度可以设置为5年。因为森林资源数据仓库的数据集合是按照一定的时间顺序和历史数据、现状数据组合而成的。

第四步:森林资源数据仓库的部分描述性能很难实现量化, 而且数据仓库的标准化程度不是很高。

第五步:森林资源数据仓库建立完毕之后, 其中包含了所有的林业资源数据, 由此就可以建立一个面向主题的分析性数据环境, 随时随地都可以观察到林业资源的环境问题。

(二) 仓库设计框架

数据仓库的建立是面向主题组织的, 也是整体应用的一种高度集中集成, 可以满足每个林业部门的不同分析要求。数据仓库的开发方式和OLTP系统不一样, 因为数据仓库的开发过程是一个数据驱动的过程, 下图就是一个标准的林业数据仓库示意图:

存储层:国家森林总局和各个地市的林业部门可以从这个存储层中掌握森林资源的现状和发展的动态, 对经营活动进行相关的分析和评价, 对资源数据进行获取和清查, 所需要的数据都会被存储在这个分层中。

分析层:主要要是借助于OLAP分析和数据挖掘的技术对森林资源数据进行统计, 信息的获取也可以在这个分层中实现。

表示层:对分析进行可视化的创立和表达, 主要是将可视化的结果数据传达给中高层的管理人员, 供管理人员进行决策和规划的一个科学依据。

二、森林资源数据动态更新

(一) 数据更新流程

第1步:实时更新。实时更新必须和每项生产活动结合在一起, 才可以实现数据更新的时效性。对检查验收之后的业务数据进行相应的更新, 其他的数据都是在年底的时候才进行统一的更新。两项或者两项以上的、连续生产经营活动的变化和更新, 都会被看作是多次变化, 需要分别进行更新。

第2步:自然更新。其中包括了自然增长的更新、自然消耗的更新和自然进界、退界的更新。增长更新就是对于区域性的不同林木类型, 符合二类小班标准的进行树高、年龄等一些自然增长数据的更新。消耗的更新就是符合砍伐条件和自然毁灭条件的都进行更新。进界和退界的更新就是根据树木的树高和直径初始表数据, 符合条件的对其进行进界更新。退界更新就是人工造林没有形成林地的或者是三年之内没有任何的经营活动的林地进行退界更新。

第3步:平差发布。平差就是更新前行政区域的国土总面积为主要依据, 然后更新之后的国土总面积必须和之前的总面积相同。最后数据发布是通过相关的服务接口向林业部门发布信息, 而且归档为年度版本数据, 整个过程由数据中心和资源处共同完成。

(二) 数据更新方法

1. 主键关联法

主键关联法就是要求被更新的数据库和更新数据库具有相同标识的小班唯一键值, 然后才可以进行一对一的关联, 最后才可以进行数据仓库数据的更新, 主要更新的手段是字段更新。

2. 地理位置关联法

这种更新方法需要一定的地理坐标。然后系统通过小班和标识点数据进行一对一的关联, 然后才可以更新。无论是什么方式的关联, 都必须保证的是一对一的关联, 要不然会产生错误的逻辑关系。

三、数据仓库与森林资源数据动态更新的主要问题

(一) 更新系统太落后

因为传统的更新系统过程太过复杂, 在森林资源更新的时候, 小班编号生成本来就可以在两步之内完成, 但是因为系统批量属性的修改限制太大, 所以在修改小班属性的时候太多麻烦。而且更新系统数据太多, 对于计算机配置的要求非常高, 因为较差的兼容性, 使得很多林业系统进行单机操作的时候, 档案管理系统和营造系统等出现排斥性。

(二) 技术人员缺乏

数据更新和管理要求工作人员具备非常高超的操作能力, 而且还需要有很强大的计算机操作能力。但是现在的林业部门很少再引进先进的技术性人才, 使得技术人员非常匮乏。

(三) 人为干扰因素大

受到不合理因素的影响和制约, 个别部门随意调整林业数据的现象时有发生, 严重破坏了林业资源系统数据的真实性。

四、解决方法与途径

(一) 完善更新系统

因为林木在生长的时候, 同龄阶段的树木会有一定的生长率, 不同年龄段的树木生长差异会很大。我们可以根据不同时期的林木群进行顶点的数据观察和检测, 建立一种反映生物变化的生长数据库, 而且在这个基础上建立起各种类型的树木收获周期和类型等, 借助模型的收获和生长实现森林资源的数据更新, 提高了数据更新的科学性和可靠性。

(二) 强化业务培训

森林资源数据管理和更新是一项技术要求非常高的工作, 所以各级的林业部门必须引进一批高专业素质人才的队伍, 进行有针对性的技术培训和计算机操作培训, 为做好林业资源数据的更新提供坚实的可靠性人才。

(三) 强化监督力度

因为森林资源是二类调查数据, 但是因为人力和财力等方面的限制, 二类调查10年才会进行以此, 所以在年度数据更新的时候, 必须强化对基层林业资源的监控力度, 配备专业的技术人才对管辖范围内的森林资源进行全程跟踪监控和及时上报, 这项措施也是提高数据更新质量的核心保障。

五、总结

通过上述材料的分析, 将数据仓库技术引入到森林资源的分析统计当中, 会给相对应的林业管理部门提供宏观的统计数据, 便于日常的森林资源的管理和调查。

由此我们预见, 数据仓库技术在林业资源方面的有效应用, 可以推动我国林业信息化的发展进程。

参考文献

[1]杨卫民, 谭骏珊, 汪斌.数据仓库和数据挖掘技术在DSS中的应用研究[J].计算机工程与设计, 2010.

[2]吴达胜, 范雪华, 姜真杰, 曾松伟.分布式数据挖掘在森林资源信息管理中的应用[J].福建林学院学报, 2012.

[3]宋连公.数据仓库技术在森林资源信息管理中的应用[J].内蒙古林业调查设计, 2011.

数据仓库工具 篇8

1 概述

1.1 概念

DW (Data Warehouse, 数据仓库 ) 数据仓库的概念是W.H. Inmon在1991年的论著《Building the Data Warehouse》中提出, 数据仓库是一个面向主题的、集成的、非易失的和时变的数据集合, 用以支持管理决策。

1.2 主题

主题 (Subject) 是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念, 每一个主题基本对应一个宏观的分析领域。在逻辑意义上, 它是对应业务中某一宏观分析领域所涉及的分析对象。数据仓库的数据组织形式是按照用户使用数据仓库进行决策时所关心的重点方面, 即主题, 来进行数据组织规划。比如, 高校管理以教师、学生为主,以及它们参与的教学、科研活动, 还有与这些活动产生的相关财务和资产的内容。这些主题是用户使用数据仓库进行决策的所关心的重点, 一个主题通常与多个操作型信息系统相关。

1.3 ETL

ETL (Extraction-Transformation-Loading, ETL) 是构建数据仓库的重要一环, 用户从数据源抽取出所需的数据, 经过数据清洗, 最终按照预先定义好的数据仓库模型, 将数据加载到数据 仓库中去 。目前主 流的ETL工具有 : Informatica、Datastage、OWB等。

1.4 OLAP 和 DM

联机分析处理 (Online Analytical Processing, OLAP) 是数据仓库的分析和展示工具, 可以为提供用户统计、分析、报表处理及进行趋势预测; 通过联机分析, 为用户提供交互式的快速响应, 多维分析使用户能从多角度、多侧面、多层次的获取信息, 侧重对决策人员和高层管理人员的决策 支持。数据挖掘 (Data Mining, DM) 一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘使用数学分析来派生存在于数据中的模式和趋势。

2 业务调研与需求分析

业务调研是通过数据现状, 包括源系统数据表分类和数据结构描述、数据量、数据质量、数据标准、 数据规范等情况进行了分析, 可以清晰了解业务系统现状、特点和数据情况, 理清数据结构和了解数据业务含义, 可以确定数据仓库主题, 为创建逻辑数据模型、物理存储模型提供依据, 为ETL阶段工作提供数据加载关键信息, 为制定数据标准提供基础。

2.1 主题确定

高校也和企业一样, 管理对象不外乎是“人”、“财”、“物”, 分属多个业务部门来管理 , 相对应多个业务信息系统。对于“财”和 “物”都与“人”发生关联, 本文从学校业务现状及实际需要出发, 确定了人员、机构、教学、资源、 活动、项目、财物7个主题及相关的粒度、度量、维度等技术指标。为建设数据仓库的建逻辑数据模型和物理数据模型提供依据。

2.2 数据选取

选取人事系统中教师基本信息及教务、研究生系统里的学生基本信息作为人员主题的主数据表。人员的描述有姓名、证件类型、证件号、 人员类别等, 在设计的过程中增加了辅助描述字段系统来源、正在使用的人员ID、处理日期等字段。另外学工系统里学生的奖学金、困难补助以及教育经历也作为扩展信息也选取进来。

3 数据仓库实施

3.1 逻辑模型

数据仓库模型设计的核心问题是多维数据的表示与存储。采取星形模型架构、三范式建模的思想, 最大程度上减少冗余, 用一张表作为维度表与事实表关联, 具有足够的灵活性和扩展性, 充分利用数据标准的产出, 按照各主题分类方法,结合信息项的业务和技术定义进行设计、以最小粒度的明细数据为基础, 可以根据不同的统计分析口径汇总生成所需的各种结果, 具有聚合快、效率高的优点。

3.2 数据仓库架构

数据架构设计是数据仓库建设的关键内容, 一方面应考虑技术架构设计的合理性和规范性, 保证其高性能 、灵活、可扩展; 另一方面应考虑数据架构设计, 即如何进行数据的存放、组织、传输、分发, 如何形成统一集成的数 据来源。按照Inmon提出的CIF (Corporate Information Factory, 企业信息工厂) 及相关的数据仓库架构理论, 设计成ODS (Operational Data Store, 操作型存储 ) 、EDW (Enterprise Data Warehouse, 企业数据 仓库 ) 、DM ( Data Mart, 数据集市 ) 三层。ODS功能主要是完成各业务系统的数据抽取 , 进行初步的加工, 主要为EDW提供数据, 数据保存2周以上; EDW层是面向主题严格按照三范式建设, 整合的数据存储, 提供规范和共享, 强调的是整合和历史, 以支持较长时间周期的分析型应用, 为DM提供数据, 数据长期保存; DM以面向数据分析的业务而建模, 为报表分析与领导驾驶舱提供数据支持, 具有面向应用、形式各异、各自独立、满足特定业务的需求特点, 是各种业务应用的集市, 适合一些业务复杂的分析型应用, 数据保留策略根据需求而定。三层架构是一种容易建设、数据利用率高的数据仓库规划和设计方法, 能够满足各业务部门的不断增长的业务需要, 为学校管理层提供决策与支持。

3.3 ETL 实现

ETL数据抽取、转换 、装载可以把把分散在不同业务系统中的数据整合到数据仓库中, 它占整个数据仓库项目的70%左右的工作量, 关系着数据仓库的成败和使用。

3.3.1 数据抽取

根据事先制定的规范和数据标准, 把各系统的数制抽到数据仓库的ODS层, 主要基于日期和时间标记和通过文件的比较来抽取, 抽取策略有定时/实时、定量/全量方式。抽取的数据保证源系统的数据全貌, 加上时间戳标记以便使用比较。同时还要提供外部数据 (如手工数据、Excel) 数据的接口。

3.3.2 数据清洗

由于各业务系统提供的数据不完美, 存在着“脏数据”,影响数据仓库的使用, 必须采取各种有效的措施对 其处理 ,这个过程称之为数据清洗。包括标准化处理、空值处理以及不一致数据处理等。数据清洗工作主要在ODS层完成。如人员信息的数据清洗工作主要有: 将姓名中空格去掉, 将身份证15位转为18位, 身份证校验码转为大写等。

3.3.3 数据转换、加载

数据仓库是按主题进行分类设计, 所以各业务系统的数据输入到EDW层时需要按需要的格式进行合并、汇总、过滤、 转换。高校中存在着学生毕业后留校、老师回校重新学习的情况, 学号和工号都不适合作为人员ID主键。解决方案是对于同一个人, 根据姓名和证件号进行识别, 分配8位人员唯一编号, 如表1所示, 进行人员主题信息汇总, 能很好地处理高校这种师生角色转换、同时存在的情况, 实现跨业务部门、历史数据的整合。

数据加载负责经过清洗和转换过的数据按照目标数据库元数据定义的表结构装入数据仓库。数据仓库中的表基本都是按照事先设计好的模型创建的, 把新的数据更新到这些表中, 如事实表、维度表、汇总表等、更新这些表的过程需要传一些参数, 如日期来运行这些程序。

3.3.4 数据质量控制

建立数据仓库的目的是为了保证使用的数据具有准确性、一致性、完整性、有效性, 因此数据仓库中数据必须保证较高的数据质量。首先要制定数据标准, 来保证数据的一致性;其次数据质量、数据变更从源头治理, 保证同类数据源的单一性; 再次, 做好数据审查, 建立故障检测处理机制; 另外还要加强元数据的收集、管理、维护和使用。还要做好数据安全管理, 通过数据保护机制比如备份策略、数据恢复等预案使数据在意外事件中得到保护。

4 展现与应用

通过人员信息的信息整合, 利用数据仓库技术可以为师生提供集中数据展示、数据填报、数据下载等服务; 可以为校档案人员库、外联办校友库、退休教师库提供数据源服务;可以利用OLAP和数据挖掘工具做出与人员相关的主题展示与决策支持, 如: 人员基本信息展示与查询 (教职工、学生信息统计), 教师和学生科研及学术表现, 学生成绩及招生数据分析, 一卡通、图书馆借书相关数据综合服务分析, 学生奖惩助贷及宿舍数据统计分析等; 还可以为校领导和各职能部处定制符合自身需要的数据展示图表, 如高等教育研 究所、发展规划处、教学质量管理办公室等部门编撰年度的教学质量报告、 高等教育基层统计报表等提供数据材料。

5 结语

数据仓库构建技术探究 篇9

关键词:数据仓库,普通数据仓库,空间数据仓库,构建,模型

1 概述

随着不同的MIS系统在企业不同部门的大规模应用及企业对数据管理不断提出新的要求,不仅要求能实现传统的联机事务处理(on-line transaction processing,OLTP),而且越来越多的要求是各种应用系统能够在企业不断积累的以及从企业外部获取的丰富信息资源的基础上,把这些分散的、不一致的、凌乱的信息资源加以利用,即更多地参与数据分析和决策支持,由此出现了一种用于数据分析处理和决策支持的数据存储和组织技术,即数据仓库技术。现在根据笔者在读软件工程硕士相关课程讲授数据仓库技术的基础上,认真阅读大量技术论文、资料,结合自己的理解,对数据仓库的实现特别是大型数据仓库的构建进行归纳总结及初步探讨。

2 什么是数据仓库

美国著名信息工程学家“数据仓库”之父W.H.Inmon于1993年在其著作《构建数据仓库》中对数据仓库定义为:数据仓库是为决策支持服务的面向主题的、集成的并随时间变化而又相对稳定的数据集合。即数据仓库技术是将普通的操作型数据通过集成提取,进而提供分析型数据的一种信息技术;构建数据仓库的目的是企业为了充分利用丰富的内、外部数据资源,帮助用户更好地理解信息,从新的角度看待它们,以便获得更好的洞察力、发现模式和趋势,从中挖掘出信息和知识,更好地进行辅助决策。数据仓库的通用体系结构如图1所示。

如上图数据仓库的体系结构分数据源、数据转换、数据仓库、数据集市和用户几部分。数据源,包括企业内部的业务数据、遗留数据、其它业务系统数据及相关WEB数据等;数据转换是数据仓库构建的重要环节,主要是对各种复杂的数据源进行抽取、转换、装载及其他处理,同时要实现数据质量跟踪监控以及元数据抽取与创建等工作;数据仓库主要实现对各种数据的组织、存储及管理等;数据集市(data mart)是为不同业务而单独设计的数据仓库系统,即开发者为企业内部的不同用户群定制特殊的数据仓库子系统。用户部分,即具体面向使用者的应用部分,主要是指数据仓库存取与检索为用户提供了访问数据仓库或数据集市的功能,其中分析与报告为用户使用数据仓库提供了一组工具,用于帮助用户对数据仓库或数据集市进行联机分析或数据挖掘等。

3 数据仓库构建方法

3.1 普通数据仓库构建方法

对于普通数据仓库的构建,企业在对整个系统的建设综合各种因素的基础上,集众人之长共同研究制定全面的、长远的、清晰的远景规划及技术实施远景,接着按“目标具体、全面规划、分步实施、步步见效、构建技术软硬件环境及建立支撑平台”的原则和步骤,将整个项目的实施分阶段、分步骤实施,可以在每一阶段建设的基础上分阶段纳入不同的业务系统,逐步建立起一个综合的、专题较为完善的、适合部门、子单位使用的完整、健壮的数据仓库系统,从而才能使投资尽快获得收益。

数据仓库建设的典型架构主要有以下三种:1)DB-DW架构:对于此种架构数据仓库建设方法有两种基本类型:一种是自顶向下,即先建立全局级的、整体的数据仓库,然后从中抽取数据建立面向各个了部门、子单位的数据集市,此种方法的优点是所有数据在进入数据仓库前都要进行清洗和转换,能够保证数据的一致性,这种架构一般适用于相对独立集中或规模较小的企业;另一种是自底向上的建设方法,即先建立一个或几个数据集市(Data Mart),分布实施以解决企业面临的局部问题,然后再从数据集市中抽取数据构建统一的数据仓库。由此形成了两种数据仓库体系结构DW-DM和DM-DW。2)DB-ODS-DW架构:ODS(Operational Data Store)是指用于支持企业日常的全局应用的数据集合,ODS解决企业日常应用的问题,一般只存放临时(当前或近期)的数据,同操作型数据库类似,其数据可进行联机插入、删除、更新等修改,这与数据仓库有所不同,数据仓库中数据只是增加,没有修改,因此形成了数据仓库DB-ODS-DW的架构。3)分布式数据仓库架构:集中式的数据仓库虽然有为企业提供统一的数据视图,数据一致性可以得到很好保证的优势,但构建一个集中数据仓库,不仅耗时,而且费力,投入很大,产出效益很缓慢,并且集中式的数据仓库的存取瓶颈和安全性终究是不容忽视的问题;同时许多大型企业或集团公司大多采用总分的组织管理模式,即总集团公司下设立了分布各地的下属分公司;同时网络技术和并行处理技术的迅速发展也为数据仓库技术发展提供了较大空间,以上诸多原因促成了分布式数据仓库应用架构。分布式数据仓库应用架构是由总分数据仓库结构组成,分部数据仓库存储对局部决策有意义的数据,总部数据仓库存储对全局有意义的数据。它将从局部数据仓库和总部的操作环境中抽取数据。

在数据仓库的构建过程中,利用模糊数学可实现数据仓库内数据的语义表示,丰富数据加工的手段,提高分析处理的能力。数据仓库的构建,一般采取先构建数据集市,最后将各个数据集市整合在一起形成数据仓库的渐进模式;通过概念层、逻辑层、物理层建模,确定相关主题域的数据集市并对其进行OLAP分析。构建数据仓库模型一般采用以下三种:

1)星型模型:星型模型是最常用的数据仓库设计结构的实现模式。使数据仓库形成了一个集成系统,为用户提供分析服务对象。该模型的核心是事实表,围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。如图2所示。

2)星系模型(也称雪花模型):雪花模型对星型模型的维度表进一步标准化,对星型模型中的维度表进行了规范化处理。同时也是对星型模型的扩展,每一个维度都可以向外连接到多个详细类别表。在实际应用中,用户的需求多种多样,数据来源可能为多个事实表,故可采用多个事实表共存,之间通过公用的维表相关联的星系模型,也称为事实星座。如图3所示。

3)原子级数据模型和汇总级数据模型并存:坚持原子级数据模型和汇总级数据模型并存,而且要尽可能地细化原子级数据。

4)设立代理键:代理键是维表中一些没有业务含义的字段,只是一个由数据仓库加载程序时建立的数字。

3.2 空间数据仓库构建方法

随着GIS(地理信息系统)在各行业的广泛应用,最初面向事务处理为主的空间数据库信息系统已不能满足需要,信息系统开始从管理转向决策处理,空间数据仓库就是为满足这种新的需求而提出的空间信息集成系统。即构建空间数据仓库目的是要实现对分散的、互相独立的多种地理空间数据库信息系统进行统一集成和管理,形成用户获取测绘数字产品的普遍模式、界面和标准,然后按照相应的主题功能查询数据仓库得到多种测绘数字产品,再根据用户需求通过各种专业模型关联多种专题信息,从多维角度进行分析,满足用户空间辅助决策分析信息的需求。尤其是地理信息决策支持系统中,空间数据仓库系统显得尤为重要。

空间数据仓库具有普通数据仓库的普遍特征,但其本身有一些特殊性。并且空间数据仓也并不是空间数据库的简单集合。与空间数据库比,空间数据库除支持数据库外,还支持数据文件、文本文件、应用程序等众多数据源;另外空间数据仓库中的数据有时间数据、空间数据、属性数据及异构数据等多种数据;其次空间数据仓库中还包括了数据处理规则、算法等;再次空间数据仓库的数据是对原始数据进行加工、处理、集成等转换,是对数据的增值和统一;空间数据库还引入了时间纵的概念,它是以时间为基准来管理数据,可以截取不同时间尺度上的信息,从瞬态到区段时间直到全体,空间数据仓库是依赖于时间维的数据结构,它可以根据不同的需要划分不同的时间粒度等级,以便进行各种复杂的趋势分析,如GIS中对土地地质变化研究、地球气候的变化趋势研究等,以支持政府部门的宏观决策。当然,不言而喻,它还包含了空间维的方位数据。

正因为空间数据仓库与普通数据仓库的不同,并且它以空间数据仓库完全不是相同的概念,一般空间数据仓库以如下体系结构分为四大功能模块,分别是源数据、数据变换工具、空间数据仓库、客户端分析工具。源数据它不仅指那些常见的空间数据库,还包括文件、网页、知识库、遗留系统等各种数据源。数据变换工具与具有普通数据仓库数据变换相同的提取转换功能,但它还包括了特有的间变换等。空间数据仓库以立体、多维的方式来组织和显示数据。但最基本的空间维和时间维是其反映客观世界动态变化的基础,空间数据仓库技术最关键要点也就是时间维和空间维数据组织方式。其基本体系结构如图4。

目前空间数据仓库已成为国、内外GIS研究的热点并取得了较大进展,由于空间数据仓库管理的数据量庞大,决策支持的空间计算异常复杂,因此以下几方面研究是究的重点:1)构建空间数据结构,主要实现如何高效地存贮和检索异常庞大的空间数据,这在GIS尤其重,也成为研究的热点;2)对空间、时间、属性及各种异构数据的集成;3)空间数据的商业应用,即在大型数据库中如何引入新的空间数据;4)对决策支持模型方法的研究,即空间数据挖掘。

对于已使用数据仓库的企业,要把空间信息融合进企业现有的数据仓库中,在原有系统不作较大改动的前提下,一般采用三种模式构建企业空间数据仓库:1)把空间信息作为多维模型中的空间维引入;2)把空间信息作为研究主题引入;3)在维和度量中都包含空间信息因此,计算并存储所有空间度量是不现实的。一般使用空间索引树(如R—tree)在最细空间粒度上构建分组层次,作为空间维的分层,每个空间维需要建立一棵空间索引树。

总之,数据仓库构建是数据仓库技术的关键,数据仓库技术是一项基于数据管理和利用的综合性技术和解决方案,尤其是现在空间数据仓库在GIS中的广泛应用,它成为数据库市场的新一轮增长点,同时也成为下一代信息系统的重要组成部分。但数据仓库的实现特别是大型数据仓库的实现将面临许多技术问题,要真正发挥数据仓库的作用,开发一个灵活、高效的数据仓库,还有许多问题需要进一步研究和探讨。

参考文献

[1]徐立中,李臣明,王建颖.信息与系统集成技术及应用[M].北京:科学出版社,2006.

[2]陈慧萍,陈岚峰,王建东.大型数据仓库实现技术的研究[J].计算机工程与设计,2006,27(21):3956-3958,3961.

[3]肖创柏,冯维文,刘时光.基于语义表示的数据仓库构建方法[J].计算机工程,2007,33(10):73-75,78.

[4]Inmon W H.Building the Data Warehouse[M].3rd ed.Beijing:ChinaMachine Press,2002:20-23.

[5]邹逸江.空间数据仓库的概念框架和认知过程[J].计算机应用研究,2007,24(5):186-189.

[6]杨光,艾波,张雷.数据仓库实施策略[J].计算机应用,1999,19(9).

上一篇:电子技能项目下一篇:楹联文化