数据挖掘技术及其应用

2022-10-17

随着信息社会的发展, 我们被各种各样的数据——教育数据、科学数据、医疗数据、金融数据、销售数据等——所淹没, 我们没有时间去查看所有的数据, 我们关注的是这些数据中对我们有价值的一部分, 可见信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没, 从中及时发现有用的知识, 提高信息利用率呢?大量的数据可能成为包袱, 甚至成为垃圾。因此, 我们必须找到有效的方法, 自动的分析处理数据, 为我们快速的找到有价值的信息。于是, 数据挖掘技术就应运而生, 并得以蓬勃发展, 越来越显示出其强大的生命力。该技术是解决“数据爆炸”、“知识贫乏”的最为有效的手段。它可以从大量的数据中抽取潜在的有用信息和模式, 来帮助我们进行科学的决策。

1 数据挖掘的概念

数据挖掘 (Data Mining, DM) 就是从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等, 还可以进行数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系, 是一个交叉学科领域, 集成了数据库、人工智能、数理统计、可视化、并行计算等技术。作为多学科综合产物的数据挖掘技术虽然历史较短, 但从20世纪90年代以来, 由于其面对海量数据处理的有效性使得它越来越引起人们的重视, 发展速度很快。

从某种意义上说, 数据挖掘 (DM) 是数据中的知识发现 (KDD) 的一个过程, 然而, 大部分学者认为KDD和DM是两个等价的概念, 研究人工智能的人习惯称KDD, 而研究数据库的人习惯称D M。我们对K D D和DM不进行区分, 统称为数据挖掘。

2 数据挖掘技术

2.1 数据挖掘的过程

虽然我们把各个步骤按顺序排列, 但要注意数据挖掘过程并不是线性的。要取得好的结果就要不断反复重复这些步骤。各步骤的内容如下。

(1) 确定业务对象:清晰地定义出业务问题, 认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的, 但要探索的问题应是有预见的, 为了数据挖掘而数据挖掘则带有盲目性, 是不会成功的。

(2) 数据准备: (1) 数据的选择:搜索所有与业务对象有关的内部和外部数据信息, 并从中选择出适用于数据挖掘应用的数据。 (2) 数据的预处理:研究数据的质量, 为进一步的分析做准备。并确定将要进行的挖掘操作的类型。 (3) 数据的转换:将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

(3) 数据挖掘:对所得到的经过转换的数据进行挖掘。除了选择合适的挖掘算法外, 其余一切工作都能自动地完成。

(4) 结果分析:解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定, 通常会用到可视化技术。

(5) 知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。

2.2 数据挖掘技术的任务

(1) 关联分析:关联分析是从数据库中发现知识的一类重要方法。若两个或多个数据项的取值之间重复出现且概率很高时, 就存在某种关联, 可以建立起这些数据项的关联规则。例如, 买面包的顾客有90%的人还买牛奶, 这是一条关联规则。若商店中将面包和牛奶放在一起销售, 将会提高它们的销量。

(2) 序列模式:通过时间序列搜索出重复发生概率较高的模式。序列模式分析非常适于寻找事物的发生趋势或重复性模式。例如, 在所有购买了激光打印机的人中, 半年后80%的人再购买新硒鼓, 20%的人用旧硒鼓装碳粉;在所有购买了彩色电视机的人中, 有60%的人再购买VCD产品。

(3) 聚类:数据库中的数据可以划分为一系列有意义的子集, 即类。在同一类别中, 个体之间的距离较小, 而不同类别的个体之间的距离偏大。聚类增强了人们对客观现实的认识, 即通过聚类建立宏观概念。例如鸡、鸭、鹅等都属于家禽。

(4) 分类:分类是数据挖掘中应用得最多的任务。分类是找出一个类别的概念描述, 它代表了这类数据的整体信息, 即该类的内涵描述。

(5) 偏差检侧:偏差检测是用来发现与正常情况不同的异常和变化, 并进一步分析这种变化是否是有意的诈骗行为, 还是正常的变化。如果是异常行为, 则提示预防措施;如果是正常的变化, 那么就需要更新数据库记录。

3 数据挖掘技术的应用

3.1 市场营销

数据挖掘技术在企业市场营销中得到了比较普遍的应用, 它是以市场营销学的市场细分原理为基础, 其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。由于管理信息系统和POS系统在商业尤其是零售业内的普遍使用, 特别是条形码技术的使用, 从而可以收集到大量关于用户购买情况的数据, 并且数据量在不断激增。对市场销售来说, 通过数据分析了解客户购物行为的一些特征, 对提高竞争力及促进销售是大有帮助的。信用卡公司A lllelicall Kx T, ress自采用数据挖掘技术后, 信用卡使用率增加了10%~15%。

3.2 欺诈侦测

银行或商业上经常发生诈骗行为, 如恶性透支等, 这些给银行和商业单位带来了巨大的损失。进行诈骗侦测主要是通过总结正常行为和诈骗行为之间的关系, 得到诈骗行为的一些特性, 向决策人员提出警告。如:AT&T公司凭借数据挖掘技术侦探国际电话欺诈行为, 可以尽快发现国际电话使用中的不正常现象。

3.3 卫生保健

医师分析病人历史和当前用药情况, 使用数据挖掘技术不仅诊断用药而且预测潜在的问题。例如:决策树在临床医学中应用范围较广, 除了可以对疾病分类以外, 还可以对疾病程度分级, 筛选危险因素、决定开药处方大小以及选择治疗方法等。

3.4 金融投资

由于金融投资的风险很大, 在进行投资决策时, 更需要通过对各种投资方向的有关数据进行分析, 以选择最佳的投资方向。数据挖掘可以通过对已有数据的处理, 找到数据对象之间的关系, 然后利用学习得到的模式进行合理的预测。

3.5 科学研究

计算科学工作者主要和数据打交道, 每天要分析大量的实验或观测数据。随着先进的科学数据收集工具的使用, 如观测卫星、DNA分子技术等, 数据量非常大, 必须有强大的智能型自动数据分析工具才行。数据挖掘技术在空间科学、基因工程等领域都有成功的案例。

4 数据挖掘技术的发展方向

数据挖掘面临着许多挑战性的研究问题, 这也是该技术未来发展的一个方向和趋势。

4.1 可伸缩的和交互的数据挖掘方法

与传统的数据分析方法相比, 数据挖掘必须能够有效的处理大量数据, 并尽可能是交互的。由于收集的数据量不断剧增, 因此对于单个和集成的数据挖掘功能, 可伸缩的算法显得十分重要。它致力于在增加用户交互的同时, 全面提高挖掘过程的总效率。

4.2 Web挖掘

由于Web上存在大量信息, 并且Web在当今社会扮演的角色越来越重要, Web内容挖掘、W e b日志挖掘和互联网上数据挖掘服务将成为数据挖掘中最重要和兴旺的领域之一。

4.3 分布式数据挖掘

传统的数据挖掘方法是集中式的, 在当今很多分布式计算环境不能很好的工作。因此, 分布式数据挖掘方法是未来一个重要的研究课题。

4.4 可视数据挖掘

可视数据挖掘是从海量数据中发现知识的一种有效途径。可视数据挖掘技术的系统研究与开发将有助于推动和使用数据挖掘作为数据分析的基本工具。

4.5 生物数据挖掘

尽管生物数据挖掘可以看做“应用探索”和“挖掘复杂数据类型”, 但是生物数据独特的复杂性、丰富性、规模和重要性需要数据挖掘的特殊关注。挖掘D N A和蛋白质序列、挖掘高维微阵列数据、生物路径和网络分析, 以及通过数据挖掘集成生物数据都是生物数据挖掘有趣课题。

摘要:数据挖掘是一个年轻而充满生机的领域, 面对海量的数据, 它可以对这些数据进行统计、分析、综合和推理, 找出我们感兴趣的有价值的信息, 以指导实际问题的求解, 发现事件间的相互关联, 甚至利用已有的数据对未来的活动进行预测。数据挖掘技术已经涉及市场分析、欺诈检测、科学研究、顾客保有等多个方面, 正在蓬勃发展。本文主要讨论数据挖掘技术的一些基本概念及其应用情况。

关键词:数据挖掘,应用,知识发现

参考文献

[1] 朱明.数据挖挖掘[M].合肥:中国科学技术大学出版社, 2003.

[2] 邵峰晶, 于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社, 2003.

[3] 华勇, 陈祖义.数据挖掘技术的应用初探[J].大众科技, 2006 (05) .

[4] David Hand, Heikki Mannilar Padhraic Smyth[美].数据挖掘原理[M].北京:机械工业出版社, 2003.

[5] 陈京民.数据仓库与数据挖掘技术[M].北京:电子工业出版社, 2007.

[6] 杨欣斌.数据挖掘综述[J].科技资讯, 2005 (23) :19~21.

上一篇:优化矿山测量作业下一篇:中小企业财务管理问题浅析