论数据挖掘技术的实现及应用

2023-02-08

随着计算机硬件技术的进步以及数据库技术的成熟和普及, 人类在各个领域积累的数据量正在以指数方式增长。当全球向信息化社会迈进之际, 人们将面临着新的技术挑战, 如何不被信息的海洋所淹没, 如何能够迅速地从海量信息中获取有用数据?这就需要人们去寻找一种去粗取精, 去伪存真的能从海量的数据中找到对人们有用的知识的技术, 而传统的数据处理方式越来越不能满足人们的需求。数据挖掘 (data m ing, DM) 由此孕育而生。

1 数据挖掘技术的界定

数据挖掘 (Data M ining, 简称DM) 自从上个世纪9 0年代以来, 发展速度非常之快, 其定义几经变动, 目前为大家广泛采用的是由Usamam.Fayyad等给出的:数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。这些知识隐含的、事先未知的、但却是潜在有用的。数据挖掘所挖掘的对象也是多种多样的, 它可以是结构化的, 比如我们所熟知的关系型数据库中的数据;也可以是半结构化的, 如文本、图形和图像等数据;甚至还可以是分布在网络上的异构型数据。

数据挖掘是指一个完整的过程, 该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息, 并使用这些信息做出决策或丰富知识。数据挖掘的基本过程和主要步骤如下:过程中各步骤的大体内容如下:第一, 确定业务对象, 清晰地定义出业务问题。认清数据挖掘的目的是数据挖掘的重要一步, 挖掘的最后结构不可预测, 但要探索的问题应该是有预见的, 为了数据挖掘而挖掘则带有盲目性, 是不会成功的。第二, 数据准备。 (1) 数据选择。搜索所有与业务对象有关的内部和外部数据信息, 并从中选择出适用于数据挖掘应用的数据。 (2) 数据预处理。研究数据的质量, 进行数据的集成、变换、归约、压缩等, 为进一步的分析做准备, 并确定将要进行的挖掘操作的类型。 (3) 数据转换。将数据转换成一个分析模型, 这个分析模型是针对挖掘算法建立的, 这是数据挖掘成功的关键。第三, 数据挖掘。对所得到的经过转换的数据进行挖掘。除了完善和选择合适的挖掘算法外, 其余一切工作都能自动地完成。第四, 结果分析。解释并评估结果。其使用的分析方法一般应视挖掘操作而定, 通常会用到可视化技术。第五, 知识同化。将分析所得到的知识集成到业务信息系统的组织结构中去。

数据挖掘可以按数据库的类型、挖掘对象、挖掘任务、挖掘方法与技术几个方面进行分类:第一, 按数据库类型分类:数据挖掘主要有关系数据库挖掘、面向对象数据挖掘、事务数据库的数据挖掘、多媒体数据库的数据挖掘、模糊数据挖掘、数据仓库的数据挖掘、空间数据挖掘等多种不同的数据挖掘类型。第二, 按数据挖掘对象分类:数据挖掘除了对数据库这个主要对象进行挖掘外, 还有文本数据挖掘、多媒体数据挖掘、W e b数据挖掘等。第三, 按数据挖掘任务分类:数据挖掘的任务有:关联分析、时序模式、聚类、分类、偏差监测、预测等。按任务分类可将数据挖掘分为:关联规则挖掘、序列模式挖掘、聚类数据挖掘、分类数据挖掘、偏差分析挖掘和预测挖掘等类型。第四, 按数据挖掘的方法和技术分类:数据挖掘的技术和方法较多。包括归纳学习类、聚类方法类、统计分析类、仿生物技术类、模糊数学类、可视化技术类等。

2 数据挖掘技术的实现及应用

数据挖掘最初就是面向应用的。数据挖掘网站KD nuggets 2002年6月到七月间对数据挖掘应用领域的分布情况作了投票调查, 结果显示:目前的数据挖掘应用以涉及各行各业, 尤其是在银行业、电子商务、电信、保险、交通、零售等行业的应用。Gartner的调查报告预计, 到2010年数据挖掘在相关市场的使用将增加到超过80%。因此数据挖掘技术应用前景比较光明。其应用领域主要有以下几个方面:

2.1 针对DNA数据分析的数据挖掘

目前数据挖掘己成为DNA分析中的强有力工具, 对D N A分析的贡献主要在以下方面:异构、分布基因数据库的语义集成;关联分析;同时出现的基因序列的识别;路径分析 (Pathanalysis) ;发现在疾病不同阶段的致因基因;可视化工具和遗传数据分析。数据挖掘技术在生物医学领域主要有两类典型应用:生理规律或现象的描述, 疾病发作前的预测或病症的诊断。今年来, 国内外学者采用数据挖掘技术在D N A分析、医学影像数据自动分析、糖尿病及心血管系统疾病患者多种生理参数监护数据分析等方面进行了成功应用。如Xdigitise就是一款用于杂交实验可视化的软件, 用于分析高密度D N A阵列。

2.2 针对金融数据分析的数据挖掘

在银行和金融机构中产生的金融数据往往相对比较完整, 可靠, 和高质量, 这就为系统化的数据分析和数据挖掘提供了切实的数据基础。主要应用有:多维数据分析、数据挖掘设计和构造数据仓库;对目标市场 (Targcted marketing) 客户的分类与聚类;贷款偿还预测和客户信用政策分析;洗黑钱和其它金融犯罪的侦破等。典型的金融分析领域有投资评估和股票交易市场预测, 分析方法一般采用模型预测法 (如神经网络或统计回归技术) 。由于金融投资的风险很大, 在进行投资决策时, 更需要通过对各种投资方向的有关数据进行分析, 以选择最佳的投资方向。无论是投资评估还是股票市场预测, 都是对事物发展的一种预测, 而且是建立在对数据的分析基础之上的。数据挖掘可以通过对已有数据的处理, 找到数据对象之间的关系, 然后利用学习得到的模式进行合理的预测。这方面的系统有Fidelity Stock Selector和LBS Capital Management。同时可以甄别欺诈。银行或商业上经常发生诈骗行为, 如恶性透支等, 这些给银行和商业单位带来了巨大的损失。对这类诈骗行为进行预测可以减少损失。进行诈骗甄别主要是通过总结正常行为和诈骗行为之间的关系, 得到诈骗行为的一些特性, 这样当某项业务符合这些特征时, 可以向决策人员提出警告。这方面应用非常成功的系统有:FALCON系统和F A I S系统。

2.3 零售业中的数据挖掘

零售业是数据挖掘的主要应用领域, 这是因为零售业积累了大量的销售数据如 (顾客购买历史记录, 货物进出, 消费与服务记录等等) 。其数据量在不断地迅速膨胀, 特别是在日益增长的叭陌b或电子商务上的商业方式的方便, 流行的今天。如今许多商店都有自己的叭陌b站点, 顾客可以方便地联机购买商品。零售数据为数据挖掘提供了丰富的资源。由于管理信息系统和POS系统在商业尤其是零售业内的普遍使用, 特别是条形码技术的使用, 从而可以收集到大量关于用户购买情况的数据, 并且数据量在不断激增。对市场营销来说, 通过数据分析了解客户购物行为的一些特征, 对提高竞争力及促进销售是大有帮助的。利用数据挖掘技术通过对用户数据的分析, 可以得到关于顾客购买取向和兴趣的信息, 从而为商业决策提供了可靠的依据。数据挖掘在营销业上的应用可分为两类:数据库营销 (database marketing) 和货篮分析 (basket analysis) 。数据库营销的任务是通过交互式查询、数据分割和模型预测等方法来选择潜在的顾客, 以便向它们推销产品。通过对已有的顾客数据的分析, 可以将用户分为不同级别, 级别越高, 其购买的可能性就越大。货篮分析是分析市场销售数据以识别顾客的购买行为模式, 例如:如果A商品被选购, 那么B商品被购买的可能性为95%, 从而帮助确定商店货架的布局排放以促销某些商品, 并且对进货的选择和搭配上也更有目的性。这方面的系统有:Opportunity Ex-plorer, 它可用于超市商品销售异常情况的因果分析等, 另外IBM公司也开发了识别顾客购买行为模式的一些工具 (Intelli-gentMiner和QUEST中的一部分) 。

2.4 电信业中的数据挖掘

电信业已经迅速地从单纯的提供地话和长话服务演变为提供综合电信服务 (如语音, 传真, 寻呼, 移动电话, 电子邮件, 图像, 计算机和W E B数据传输, 以及其它数据通讯服务) 。电信、计算机网络、因特网以及各种其它方式的通讯和计算机的融合是目前的大势所趋。而且随着许多国家对电信业的开放和新兴计算机与通讯技术的发展, 电信市场正在迅速扩张并越发竞争激烈。分析人员可以对呼叫源、呼叫目标、呼叫量和每天使用模式等信息进行分析, 还可以通过挖掘进行盗用模式分析和异常模式识别, 从而可尽早发现盗用, 为公司减少损失。因此, 利用数据挖掘技术来帮助理解商业行为、确定电信模式、捕捉盗用行为、更好地利用资源和提高服务质量是非常有必要的。

2.5 在军事领域中的应用

首先在情报信息获取中的应用。在信息现代化的今天, 信息渗透到军事领域的各个方面, 如何在情报信息的海洋中去粗取精, 去伪存真, 这就需要运用数据挖掘的相关方法提取精确的信息, 为己方所用。如可以根据获取的情报信息, 运用关联规则和神经网络方法等分析出敌人的政治、社会、基础设施和信息系统以及它们的相互关系, 对己方可以采取的各种潜在行动做出判断。其次, 战场态势评估中的应用。在军事领域, 正确的战场态势判断是定下正确的作战决心的首要前提。战场态势由一些态势要素组成, 如敌我双方的兵力部署, 作战企图, 主要作战方向, 目标火力分配等等。如可以利用数据挖掘提供的相关方法进行地形分析, 这样我们根据分析所获得的结果, 进行兵力的部署和作战武器的配备等;利用决策树方法、人工神经网络方法及可视化技术进行目标火力分配等。再次, 战场环境中的应用。战场环境中的数据挖掘, 我们可以考虑从地形、地貌、植被、居民地分布、水系网络、等多个方面入手。下面主要对战场环境中的地形进行分析, 地形分析包括目标性质分析 (点目标、线目标、面目标等) 、路径可达性分析、隐蔽性分析、透视性分析等, 可以利用关联规则方法、决策树理论方法等技术确定敌人的主攻方向。

摘要:数据挖掘是一门新兴的数据处理技术, 是当前热门的一个研究领域。本文简要介绍了数据挖掘的概念、过程等, 论述了数据挖掘的主要分类, 最后对数据挖掘在社会领域的应用作了介绍。

关键词:数据挖掘技术,实现,应用

参考文献

[1] 闫建红.数据库系统概论的教学改革与探索[J].山西广播电视大学学报, 2006 (15)

[2] 员巧云, 程刚.近年来我国数据挖掘研究综述[N].情报学报, 2005 (24) .

[3] 刘毅勇.情报分析智能辅助决策方法及其军事应用[M].北京:国防大学出版社, 2001.

上一篇:探讨自动化仪表安装调试技术要点下一篇:浅谈初中数学的课堂教学