数据仓库及数据挖掘论文

2022-04-21

摘要:国内外各大高校院所都非常重视数据仓库与数据挖掘课程的开设,尤其是在大数据环境下,数据挖掘的重要性更加凸显。本文详细分析了数据挖掘课程产生的背景,确立数据挖掘课程在计算机及相关专业的定位,梳理数据挖掘课程的理论方法与内容体系,强调注重理论与实际应用项目的结合,对指导数据挖掘课程的教学改革与创新具有重要的指导和借鉴意义。下面小编整理了一些《数据仓库及数据挖掘论文(精选3篇)》,希望对大家有所帮助。

数据仓库及数据挖掘论文 篇1:

浅析数据仓库及数据挖掘技术在ERP中的应用

[摘要] 数据挖掘是指采用人工智能的方法对数据库和数据仓库中的数据进行分析、获取知识的过程。现代企业的发展离不开信息技术的融合运用,本文主要论述数据仓库和数据挖掘技术在ERP中的应用。

[关键词] 数据仓库; 数据挖掘; ERP

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 23. 031

数据挖掘是指采用人工智能的方法对数据库和数据仓库中的数据进行分析、获取知识的过程。本文探讨将数据仓库、数据挖掘技术运用于ERP系统。以数据仓库作为企业底层的数据源,再配合各种数据挖掘技术,结合ERP的管理思想,发挥数据仓库与数据挖拥技术在决策支持方面的长处。

1数据仓库技术概述

1.1数据仓库的特点

(1) 面向主题。主题是在较高层次上对数据的抽象,面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整、一致的描述,能完整统一地刻画各个分析对象所涉及的企业的数据项,以及数据之间的联系。

(2) 集成。对多个异种数据源需先统一,然后进行数据的综合和计算。

(3) 时变。数据仓库随时间变化不断增加新的、删除旧的数据内容。

(4) 非易失。数据仓库总是物理地分离存放数据,由操作环境下的应用数据转换而来。

1.2操作数据库与数据仓库

数据库系统作为数据管理手段,主要用于事务处理,在数据库中保存了大量的日常业务数据。

(1) 用户和系统的面向性不同:OLTP面向操作人员和低层管理人员;OLAP面向决策人员和高层管理人员。

(2) 数据内容不同:OLTP是管理当前的数据,对基本数据进行查询和增、删、改操作处理,是以数据库为基础;OLAP是管理历史的、导出的及综合提炼的数据,比OLTP要多一步数据多维化或预综合处理的操作。

(3) 数据库设计模型不同:OLTP采用E-R模型;OLAP采用星型或雪花模型。

1.3OLAP操作技术

OLAP的操作主要是对多维数据进行的,主要有上卷、下钻、切片、切块和转动。

(1) 上卷(也称上钻):通过维层次向上攀升或通过维化简,在数据上进行聚集。

(2) 下钻:是上卷的逆操作。如当前位置是区维,下钻则是街道维、门牌维。

(3) 切片:是在给定的一个数据方的一个维上进行选择,形成一个子方。

(4) 切块:对两个或多个维进行选择。

(5) 转动:数据没有发生改变,只是改变一个报告和页面显示维的方向。

2数据挖掘技术概述

2.1数据挖掘环境

数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、实用的信息,并使用这些信息做出决策或丰富知识。

在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据挖掘过程,也是检验最后结果和指引分析人员完成数据挖掘的依据和顾问。

2.2数据挖掘过程简介

(1) 确定业务对象。清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。

(2) 数据准备。数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。数据的预处理——提高研究数据的质量,为进一步的分析作准备,并确定将要进行的挖掘操作的类型。数据的转换——将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的。

3ERP概述

3.1ERP的由来

企业资源计划(ERP)这一概念是由Gartner公司于20世纪90年代初提出的。它的发展一般来说是经过:订货点法、MRP萌芽期、MRP、闭环MRP、MRPⅡ、MRPⅡ/JIT、ERP这样几个阶段而逐步完善形成的。

3.2ERP实质

ERP是一个融合了多种先进管理思想的信息系统,其核心管理思想就是实现对整个供应链的有效管理。ERP的基本思想是把企业的业务流程看作是一个紧密联系的供应链,并将企业内部划分成几个相互协同作业的支持子系统,可对企业内部供应链上的所有环节有效地进行管理,从管理的范围和深度方面为企业提供了更丰富的功能和工具。

4基于ERP的數据仓库

4.1数据仓库在ERP中的应用

建立基于ERP的数据仓库,首先是分析ERP的数据模型,在其基础上建立相应的数据仓库数据模型,这时对关键数据的识别、整理、清洗、转化和对主题域的确定非常重要,之后的数据抽取程序建立等工作也不容忽视。

建立基于ERP的数据仓库面临的问题总的来说集中在两个方面:一是如何将事务处理逻辑模型和数据仓库模型对应起来,并将ERP事务处理和外部数据导入数据仓库中;二是在数据仓库基础上如何构建企业的商业智能系统来支持企业的管理决策活动,即数据仓库的应用。

4.2实施ERP项目注意事项

数据挖掘应从以下两个方面加以考虑:一是为进行数据挖掘所做的数据准备;二是数据挖掘的各种分析算法。

数据准备包括两个方面:一是从多种数据源中综合数据挖掘所需要的数据,保证数据的综合性、易用性、数据的质量和数据的时效性;二是从现有数据中衍生出所需要的指标。

随着信息技术的不断发展,各行各业的人们掌握了大量的数据,将数据仓库、数据挖掘技术与ERP有效的结合能够最大限度地提高数据处理效率,并发现隐藏在数据之后的有用的知识和信息。这是未来企业信息技术应用发展的一个很重要的方向,有着广阔的发展前景和应用价值。

主要参考文献

[1] 刘进. 数据挖掘在学生信息管理系统中的应用[D]. 重庆:重庆大学,2008.

[2] [加]Jiawei Han,Micheline Kamber. 数据挖掘:概念与技术[M]. 北京:机械工业出版社,2007.

[3] 刘伟. 信息管理与数据库技术[M]. 北京:机械工业出版社,2005.

[4] 梅姝娥,陈伟达. 管理信息系统[M]. 北京:石油工业出版社,2003.

作者:蒋嘉瑞

数据仓库及数据挖掘论文 篇2:

数据挖掘课程教学方法探讨

摘要:国内外各大高校院所都非常重视数据仓库与数据挖掘课程的开设,尤其是在大数据环境下,数据挖掘的重要性更加凸显。本文详细分析了数据挖掘课程产生的背景,确立数据挖掘课程在计算机及相关专业的定位,梳理数据挖掘课程的理论方法与内容体系,强调注重理论与实际应用项目的结合,对指导数据挖掘课程的教学改革与创新具有重要的指导和借鉴意义。

关键词:数据挖掘;教学方法;大数据;课程体系

一、引言

1.数据挖掘课程产生的背景。20世纪90年代,以美国信息工程领域专家数据仓库的倡导者Willian Inmon在他对数据仓库的定义中涵盖了数据挖掘的概念。数据挖掘概念正式提出是在1995年的美国计算机年会(ACM)上。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的人们事先不知道但又是潜在有用的信息和知识的过程。目前国内外高校、研究部门均将数据挖掘作为重要的课程开设,KDD、ACM等信息科学领域的顶尖国际会议也将数据挖掘作为重要的内容展开研讨。

2.数据挖掘课程在计算机及相关专业的定位。数据挖掘课程属于多个学科的重要专业课程(如图1所示),主要包括数据库技术、计算机应用技术、统计学方法、机器学习、预测技术、软计算、信息科学、可视化、网络与电子商务等。

随着信息技术的发展与普及,如何从海量的数据中提取有用的和有价值的信息即知识,已成为信息技术研究的重要问题,数据挖掘已经成为国内外高层管理决策研究的重要领域。在各个业务领域都涌现出大量的数据挖掘应用案例,可以在大量的分散的业务数据中挖掘有价值的信息,并使信息得到增值,以提高业务管理过程的经济效益和社会效益。大数据也是在数据挖掘研究及应用普及的基础上发展起来的,学习数据挖掘课程对今后大数据方面的应用研究将积累重要的研究基础。

二、数据挖掘课程的理论方法与内容体系

1.数据挖掘课程的理论方法。数据挖掘课程的理论方法主要包括:数据与信息的存储理论,数据采集与整合方法,数据的泛化与标准化,多维数据组织与管理;数据库建立与管理决策;主题数据库与数据仓库、多维数据库建立;数据挖掘理论与方法、KDD(Knowledge Discovery in Database,数据库中的知识发现)、DSS(Decision Support System,決策支持系统)、预测与决策方法;结构化与非结构化数据挖掘;公共信息平台架构及应用环境;大数据理论技术及应用。

2.数据挖掘课程的内容体系。数据挖掘课程由理论课程体系、教材体系与实验体系三部分组成。(1)理论课程体系的主要内容包括:①数据预处理阶段。数据的采集技术,数据清洗,数据整合标准,多维数据的数据结构,数据集成技术,等等相关内容。②面向主题数据库的建立方法及多维数据库的建立方法。③数据的访问部分。数据挖掘模型系统(预测与决策支持系统),可视化、KDD、商务智能软件系统等。(2)教材体系主要包括如下内容:数据采集与存储、数据结构、数据库管理、数据仓库、数据挖掘、决策支持系统、智能商务决策等。(3)实验课程体系的主要内容包括:①数据预处理及相关工具的应用。以运输企业动态监控管理与决策分析为例,主要的实验内容是运用GPS、RFID传输运输途中所产生的数据进行采集、存储与处理。熟练掌握在数据挖掘过程中如何采集和处理数据的方法及全部过程。②数据整合理论与方法的实验。通过对车载设备的GPS、RFID及运输途中相关业务数据的整合,让学生们熟悉掌握来自不同系统的数据结构形式以及如何在计算机内部存储和处理。③数据的存储管理。EDI、RFID、GPS、传感器等相关数据及运输途中动态产生的数据,对整合与标准化后的数据进行存储与管理。④对运输车辆进行动态监控与科学管理。通过GPS显示在GIS上的经纬度、车辆速度等信息,检验车辆运行的安全状态,车辆的超速、异常状态报警等监管功能。⑤数据挖掘模型系统的建立。快速发现知识算法,K均值算法,SVM算法,EM算法(最大期望算法,Expectation Maximization Algorithm),C4.5算法;PageRank算法(网页排序),贝叶斯分类算法,K最近邻(k-Nearest Neighbor,KNN)分类算法,Adaboost算法即自适应增强算法,CART算法即分类回归树算法。⑥常用数据挖掘工具。SPSS、SAS、R语言(R支持一系列分析技术,包括统计检验、预测建模、数据可视化工具)、WEKA(集成了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联分析以及在新的交互式界面上的可视化)、Mahout(支持一些集群算法实现,都是使用MapReduce编写)、Matlab商业数学软件、Scala多范式编程语言、YALE开发工具、Python等。

三、数据挖掘课程教学方法探讨

1.数据挖掘理论教学的重点。(1)理解数据挖掘及相关概念,如:数据仓库与数据挖掘的主要特征,数据挖掘与KDD的区别,数据挖掘与商务智能的区别,数据挖掘与决策支持系统的区别。(2)数据采集、数据整合与集成、数据一致化标准化、多维数据存储理论与技术。(3)公共信息平台的架构建立方法与相关理论。(4)数据仓库的建立机制,面向主题数据库的建立方法。(5)数据挖掘理论、技术、模型与方法。(6)数据挖掘工具的应用。

2.数据挖掘工具的选择与应用。授课中应注重适合结构化与非结构化数据的数据挖掘应用开发工具。(1)结构化数据挖掘的常用工具包括Matlab、SPSS、SAS、SQL、Weka等。(2)非结构化数据挖掘的常用工具有Hadoop(MapReduce、HDFS)、Mahout、NoSql、Scala、R语言、YALE、python等。除此之外,还应该考虑当前选定工具的特点如何,需要从实际应用重点出发来选择适合的工具,比如R语言、python语言属于能够胜任结构化和非结构化数据的数据挖掘工具,如果某个应用需要图形界面友好且运算功能强大的工具,只需选择python语言;如果仅是一般的运算且对运行界面要求不高,则可选择R语言;如果仅需数值统计与一般的挖掘功能,则Matlab、SPSS、SAS均可胜任。

3.理顺数据挖掘与知识管理之间的关联(如图2)。

4.区分结构化与非结构化数据挖掘模型的建立机制。结构化数据挖掘模型主要包括预测模型系统(定性与定量预测模型及系统,如图3)、优化模型系统、决策模型系统、快速发现知识模型等内容。非结构化数据挖掘模型主要包括多媒体(图形、视频、声音等)挖掘模型系统、文本挖掘模型软件系统等。

5.注重理论与实际应用项目的结合。在讲授数据挖掘课程时,应明晰数据挖掘、数据仓库、公共信息平台之间的关联,学习建立数据仓库全过程的全部相关知识点。以科研项目作为示范应用,通过对一个实际研究项目的解析收到了良好的授课与学习效果。例如,将《东北亚航运中心公共平台建立》项目搭建的数据仓库架构体系作为讲课的重要内容,详细内容参见文献。该公共平台的业务主要包括六个组成部分:3G-MIS集成,异构数据集成,数据仓库系统,业务支撑体系,应用服务体系,应用工具系统。可以将一个大的复杂系统运用形式化定义与知识描述,使其各个子系统之间的内容层次分明而清晰。

四、小结

数据挖掘是一门重要的专业基础课程,必须具备多学科、多领域的理论知识,并结合实践应用提升学生的学习效果和专业水平。

参考文献:

[1]陈燕.数据挖掘技术与应用[M].第2版.北京:清华大学出版社,2016.

[2]许国根,贾瑛.实战大数据——MATLAB数据挖掘详解与实践[M].北京:清华大学出版社,2017.

[3]陈燕,张金松.大数据技术及其应用[M].大连海事大学出版社,2015.

作者:陈燕

数据仓库及数据挖掘论文 篇3:

数据仓库与数据挖掘技术在客户关系管理(CRM)系统中的应用

[摘 要] 利用数据仓库与数据挖掘技术实施企业CRM系统正逐渐成为企业管理中的热点。文章通过介绍数据仓库与数据挖掘技术的概念,对数据仓库与数据挖掘技术在企业CRM系统中应用的方式和技术进行了探讨。

[关键词]数据仓库;数据挖掘;客户关系管理(CRM);链路分析

1 引 言

随着数据库技术、网络技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大。然而,如何有效地使用这些数据却成为一个问题,因为往往是数据丰富而知识缺乏,人们目前所使用的数据库技术无法将隐藏在数据背后的重要信息挖掘出来利用,所以如何迅速、准确、有效且适量地提供用户所需的信息,发现信息之间潜在的联系,支持管理决策就是数据挖掘和数据仓库要解决的课题,同时也是CRM系统产生的必要条件和最终目的。

2 数据仓库与数据挖掘的概念

2. 1数据仓库

目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其著作《Building the Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次加以理解:首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。整个数据仓库系统是一个包含4个层次的体系结构,具体如下:

数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等。

数据的存储与管理:是整个数据仓库系统的核心,数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析,针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。

OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。

前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。

2. 2数据挖掘技术

数据挖掘是从海量的数据中提取或挖掘知识,是指从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解的模式的高级处理过程。数据挖掘可分为有向和无向两大类。有向数据挖掘的任务是用一个或几个数据项来解释、估计或预测某个特定的数据项,即目标数据项,这类似于从自变量来得到因变量。无向数据挖掘并不定义目标数据项,它只是试图在数据中找到有用的规律、关系或模式。通常做法是用无向数据挖掘来识别数据中的规律,然后用有向数据挖掘来解释这些规律。

3 数据仓库与数据挖掘技术在CRM系统中的应用

3. 1数据仓库——企业实施 CRM的基础

数据仓库是企业 CRM的中央存储系统。数据仓库体系结构属于基础设施的建设,只有稳固的数据仓库基础设施才能支撑灵活多样的数据仓库应用。

客户关系管理(Customer Relationship Management,CRM)是指企业用CRM软件提供的科学的分析工具和方法来分析企业销售市场与客户之间的关系。CRM软件是选择在企业销售市场中有价值客户及其关系的一种商业策略,分析这些客户的销售动态。CRM要求以“客户为中心”、“一切为客户着想”的商业哲学和企业文化来支持有效的市场营销与服务流程。如果企业拥有正确的领导、策略和企业文化,CRM应用将为企业实现有效的客户关系管理。

企业在长期的运营过程中,积累了大量的数据。但这些分散在各个业务系统中的数据是面向业务的,不是面向决策的。因此,首先必须对这些分散的数据进行抽取、清洁、转换和加载,形成企业数据仓库,并根据不同的主题,产生相应的数据集市,如一般客户分析数据集市,大客户分析数据集市等,这种多数据集市的建设有利于分析不同客户的行为特点。近年来,各企业客户需求逐渐趋向多元化,如果不对客户信息进行收集、整理、分析和归类,客户经理就无法知道谁是能为企业创造利润的高、中端优质客户,竞争的关键就在于怎样发现优质客户和如何避免优质客户的流失;其次,通过OLAP、数据挖掘方法对这些数据进行深入分析,并以企业管理人员容易理解的方式展示出来。

在CRM系统中,系统结构采用B/S框架结构,数据库集中,客户端采用浏览器访问,访问的浏览器采用IE6以上。通过CRM系统将数据仓库中客户每天的销售记录作为数据源,运用科学的分析方法可以对客户进行分析。单体分析:分析某一客户的相关信息,分析的内容为该客户的销售数量、金额、收益,并与企业的平均销售数量、金额、收益作比较。群体分析:客户某一群体的销售数量、金额、收益。市场分析:便于领导及时、直观、准确地了解市场的发展及变化情况,以便宏观调控。通过将客户记录作为数据仓库中的数据源,经营决策者利用CRM提供的模块功能,就能够分析市场,以及抓住客户销售心理,从而正确指导销售,提升企业市场竞争力,最终赢得客户和市场,“与客户共创成功”。

3. 2数据挖掘——企业 CRM系统的核心

随着市场体制改革的日益深入,各企业为了保持较高的客户获取和保持率,并维持可赢利性,需要经常扩展和现有客户的关系、降低行销费用。这就需要对基于数据仓库的CRM系统进行更深入的挖掘,这时数据挖掘技术的使用便成为企业 CRM系统制胜的关键。以下给出几种应用:

(1)客户获得

对大多数行业来说,企业的增长需要不断地获得新的客户。新的客户包括以前没有听说过企业产品的人、以前不需要产品的人和竞争对手的客户。数据挖掘能够辨别潜在客户群,并提高市场活动的响应率。

(2)交叉销售

现在企业和客户之间的关系是经常变动的,一旦一个人或者一个公司成为企业的客户,企业就要尽力保持这种客户关系。客户关系的最佳境界体现在3个方面:①最长时间地保持这种关系;②最多次数地和客户交易;③保证每次交易的利润最大化。因此,企业需要对已有的客户进行交叉销售(Cross-selling)。交叉销售是指企业向原有客户销售新的产品或服务的过程。交叉销售是建立在双赢的基础之上的,客户因得到更多符合其需求的服务而获益,企业也因销售增长而获益。在企业所掌握的客户信息,尤其是以前购买行为的信息中,可能正包含着这个客户决定下一次购买行为的关键因素。数据挖掘可以帮助企业寻找影响客户购买行为的因素。

(3)客户保持

现在各个行业的竞争都越来越激烈,企业获得新客户的成本正不断地上升,因此保持原有客户就显得越来越重要。

客户分为3类:第一类是无价值或低价值的客户;第二类是不会轻易走掉的有价值的客户;第三类是不断地寻找更优惠的价格和更好服务的有价值的客户。传统的市场活动是针对前两类客户的,而现代客户关系管理认为,特别需要用市场手段来维护的客户是第三类客户,这样做会降低企业运营成本。数据挖掘可以发现易流失的客户,企业就可以针对客户的需求,采取相应措施。

(4)一对一营销

一对一营销不只是每逢客户生日或纪念日时给他寄一张贺卡。在科技发展的今天,每个人都可以拥有一些自己独特的商品或服务,比如按照自己的尺寸做一套很合身的衣服,但实际上市场营销不是裁衣服,你可以知道什么样的衣服合适顾客,但你永远不会知道什么股票适合你的顾客。CRM系统可以把大量的客户分成不同的类,在每个类里的客户拥有相似的属性,而不同类里的客户的属性也不同。最简单的分类方法即把所有客户分成两类:男性和女性。企业可以做到给这两类客户提供完全不同的服务来提高客户的满意度。

4 结束语

“谁拥有客户信息,谁就拥有未来”。在企业管理客户生命周期的各个阶段都会用到数据挖掘技术。数据挖掘能够帮助企业确定客户的特点,从而可以为客户提供有针对性的服务。通过数据挖掘,可以发现购买某一商品的客户的特征,从而可以向那些也同样具有这些特征却没有购买的客户推销这个商品;若找到流失的客户的特征,就可以在那些具有相似特征的客户还未流失之前,采取针对性的措施。在企业CRM中有效利用数据仓库和数据挖掘技术,可以为企业高层决策者提供准确的客户分类、忠诚度、赢利能力及潜在用户等有用信息,指导他们制订最优的企业营销策略、降低银行运营成本、增加利润,加速企业的发展。

主要参考文献

[1] 余英泽,廖里,吴渝. 一种新型的数据分析技术——数据挖掘[J]. 计算机与现代化,2000,(1).

[2] 王实,高文. 数据挖掘中的聚类方法[J].计算机科学,2000,(4).

作者:高 琴 张卫纲

上一篇:ERP系统管理会计论文下一篇:精细化教育教学管理论文