电子商务数据挖掘论文

2022-04-21

摘要:当前,随着以电子商务为特征的新经济逐步走向成熟,企业的竞争优势不再是企业的信息搜集能力,更重要的是分析信息并发现有用知识的能力,如何鉴别有效的、新颖的、潜在有用的、并最终可以被理解的知识模式是当今企业最关心的问题。以数据挖掘技术为主要手段的商业智能技术在企业进行知识管理和决策中扮演越来越重要的作用。下面小编整理了一些《电子商务数据挖掘论文(精选3篇)》的文章,希望能够很好的帮助到大家,谢谢大家对小编的支持和鼓励。

电子商务数据挖掘论文 篇1:

基于PMML的电子商务数据挖掘研究

〔摘要〕随着互联网技术的发展,电子商务进入了海量数据时代,从这些海量数据里挖掘出有用的模式具有非常高的商业价值。常规的数据挖掘模型会依赖于特定的数据挖掘平台,而目前的数据挖掘平台并不能做到随时随地跨平台交换数据挖掘模型。文章提出基于PMML的电子商务数据挖掘方法,只要数据挖掘平台兼容了PMML规范就可以真正做到跨台平交换数据挖掘模型。文章重点研究了PMML语言是如何表示完整数据挖掘模型,并就某电商平台挖掘潜在客户的数据进行实验并分析实验结果,从而验证了方案的有效性。

〔关键词〕电子商务;数据挖掘模型;PMML;跨平台

DOI:10.3969/j.issn.1008-0821.2015.08.012

电子商务是互联网技术迅速发展的必然产物,伴随着电子商务的快速发展,随之而来的是电子商务、网络日志、社交网络以及互联网搜索引擎等每天都在各类平台上产生大量的数据信息。IDC最新的数字宇宙研究结果表明,预计到2020年,世界上的数据存储总额将达到35ZB(1ZB等于1万亿GB字节)。信息爆炸带来的是无限的商机,目前无论是国内企业(例如淘宝),还是国外公司(例如Amazon、Ebay等)均已通过分析客户购买行为并利用分析结果提高了企业的服务质量,通过对客户购买行为的数据进行挖掘和分析可以帮助我们更好地理解客户的行为模式,进而对客户进行分类,从而制定更为精准的营销策略以及提高利润率和网络购物的渗透率。在这样的大环境下数据挖掘技术得到了迅速的发展。

数据挖掘技术自20世纪90年代被提出以来一直在电子商务领域得到了重点研究,对于如何定义数据挖掘概念目前有很多版本,本文认为数据挖掘(又称KDD,即数据库知识发现)是针对数据的一种提取隐含在其中的信息的操作,目的是为了将数据库中大量的、不完全的、有噪声的、模糊的、随机的数据提取出来,使之变为可利用、有规律、能为决策提供支持的有价值的信息。目前国内外对数据挖掘的研究主要集中在数据挖掘领域的关键技术、关键算法研究,数据挖掘的实际应用以及有关数据挖掘理论方面研究,发掘方法与用户交互问题等。尽管数据挖掘技术在电子商务领域的应用由来已久,但它依然存在一些亟待解决的问题。主要表现在数据量巨大,数据变化速度快,数据挖掘模型中数据属性的选择十分关键;对数据变化的预测至今还没有非常成熟的技术;挖掘模型的可靠性与挖掘结果的准确性还没有统一的标准;在挖掘用户信息的前提下如何保护客户隐私的安全性也是一个亟待解决的问题[3]。本文主要针对海量电子商务数据的跨机构、跨平台数据挖掘进行研究。

传统的小规模数据集的数据挖掘很容易在独立平台实现,然而电子商务数据面临海量、异构、多样、动态等问题,特别是当前互联网发展迅速,服务器会异地部署,数据分散导致处理过程非常复杂,在这种情况下,跨机构、跨平台进行数据挖掘交互十分频繁也十分必要。与此同时,传统的数据挖掘算法面临海量数据时需要进行改进,实际建模过程中可能出现重复执行同一个数据处理操作,在带有参数的情况下,手工执行会比较麻烦,必须借助脚本实现;在常规数据挖掘模型执行过程中,默认数据流是顺序执行,倘若存在改变执行顺序的需求,则需要使用脚本实现;传统的数据挖掘平台是用户首先在人机界面上调试好执行顺序,可以通过脚本语言来实现模型节点的自动执行、自动更新和导出执行结果;实际实施过程中可能面临批量修改现有的数据,为提高构建模型效率,需要采用脚本语言[4]实现。

实际上,传统的数据挖掘平台都有各自的一套处理流程标准,要想实现同一数据挖掘模型的跨平台运行给数据挖掘研究带来了巨大的挑战。目前国内外关于数据挖掘在跨平台交换数据挖掘模型方面的研究还比较稀少,更没有形成统一的标准,即在一个平台上运行的数据挖掘模型还不能很轻易地迁移到另外一个平台。IBM公司的SPSS Modeler实现了用脚本语言定制一些数据挖掘过程的功能,但是定制的模型有限,而且模型仅仅适用与其系列数据挖掘工具。RapidMiner开发了适用其平台定制数据挖掘流程的脚本语言,但是这种脚本语言没有得到业界的认可[5],不利于推广。VMStudio实现了用S语言来实现数据过滤与统计的功能,但是该平台没有开放源码,不利于二次开发。跨平台的重要性不言而喻,例如在一个平台进行的数据挖掘结果可以迁移到另外一个平台进行效果评估。所以本文提出基于跨平台的PMML语言来定制数据挖掘模型,实现数据挖掘模型的真正跨平台运行。

11PMML概述

1999年DMG(Data Mining Group)在XML的基础上制定出了预测模型标记语言PMML(Predictive Model Markup Language)。PMML是一种与平台无关的统计和数据挖掘(Data Mining,DM)模型表示规范,它以XML为基准将数据挖掘任务规范化,可以把某平台所创建的数据挖掘模型迁移到其它任何满足PMML标准的系统或者产品中。通过定义统一的以及标准化的数据挖掘模型表达方式,PMML分离了模型的构造与应用。PMML使得数据挖掘模型的部署不再束缚于模型开发和产品整合,其框架结构图见图1,从而为将来的数据挖掘应用提供了一种创新的方法。PMML摆脱了模型开发和部署局限于某一个特定的数据挖掘平台,从而为电子商务系统、数据仓库和云计算中的数据挖掘应用提供了一种新的方法。目前已有许多公司或组织加入了PMML规范的制定,便于其推广。需要PMML语言的主要原因可以简要归纳[6]为以下3点。

111模型交换的需要

数据处理的任务非常复杂,有时候甚至需要不同的数据处理工具,这些不同的数据处理工具之间必须能交换处理的结果。

112模型部署的需要

PMML使得模型部署跨越Internet更加容易,软件提供商能更加容易的将数据处理结果导入到支持PMML标准的平台里。

113跨平台需要

PMML提供了一种不定义模型的执行方法,只定义模型的描述跨平台方案,使得数据挖掘更具有开放性。

12PMML结构与模型表示

怎样从海量数据挖掘到事先未知具有潜在价值的信息,然后依据商业目的进行预测和评估,是数据挖掘研究亟待解决的主要问题之一[7],PMML标准是描述数据挖掘过程的一个规范,它按照数据挖掘任务处理步骤,定义了数据挖掘各个阶段的处理描述信息[8],主要包括头部信息、数据词典、数据预处理、模型表示、模型输出和预测评价等部分。PMML是用XML来表示数据挖掘流程的,整个PMML文档都是用XML的DTD进行描述的,一个根元素为PMML类型的XML元素的文档可以包含多个模型部分,其中数据词典和模型表示是PMML文档的核心部分。PMML规范里的元素主要分为两类:描述元素和模型元素,结构见图2,描述元素主要用来描述一些流程基本信息,例如元素的一些属性定义等,模型元素主要用来描述数据处理流程算法相关信息的。

14基于PMML的可视化

可视化就是利用简单界面的方式来显示数据,把用户需要的数据进行可视化呈现,增加了用户对数据的掌握程度,进而可以透彻的分析与挖掘信息的关系。PMML包含数据字典、预处理、模型等部分,非常适合进行可视化展示[10]。目前42版本支持数据可视化、模型可视化和验证结果可视化功能。其中数据可视化部分是对数据集信息的可视化,PMML文件中元素MiningSchema的属性Importance表示数据变量的重要性,可以作为可视化的数据源。模型可视化是指利用PMML文件的信息将其结构可视化显示出来,方便挖掘模式进行显示。验证可视化是指对模型验证的结果以可视化的形式展示,例如,当预测分类数据时,混淆矩阵能够用来说明预测精确度,PMML规范提供了ConfusionMatrix元素来配置混淆矩阵可视化信息。

2实验分析

为了验证本文提出的基于PMML跨平台电子商务数据挖掘研究方法,采用某电商平台为了挖掘潜在用户的数据进行验证,实际选取了2 000个样本,其中每一位用户为一个样本点,非潜在用户为负样本,用0表示,潜在用户为正样本,用1表示,数据存储在数据库的表结构见图3。从数据集合里随机抽取1 500个充当训练样本,500个充当测试样本,实现对决策树算法、贝叶斯算法、支持向量机和其改进算法(LIBSVM)[11]进行验证,实验结果见表1。PMML规范里的Model Explanation元素提供了一系列的评价指标来评价模型的结果,主要有针对分类模型的Predictive Model Quality元素和针对聚类模型的Clustering Model Quality元素。本文引入可视化技术把模型评价的结果进行显示,主要的形式有ROC曲线和混淆矩阵。ROC曲线是把分类模型灵敏度和特异性按照可视化方式显示,分类模型的优劣可以通过曲线下方的面积来评价,好的分类模型应该最大可能的靠近图形的左上角,简单的随机猜测模型应位于主对角线附件。混淆矩阵主要用来比较实际值与分类结果,可以把分类精度显示在一个矩阵里,矩阵的每一行代表了分类信息,每一列代表了实际的测得信息。其中部分字段的ROC曲线见图4。

根据图4的实验效果可知,属性Co16、Co14具有很好的预测性能,属性Co13、Co11和Co15具有很好的随机预测性能,属性Co17和Co18并不适合用来预测。根据表1可知,贝叶斯和决策树算法随着样本数量的增加,训练时间也上升得很快,然而分类准确率并没有随着上升,LIBSVM单次训练时间线性度要好很多,显然SVM改进以后随着样本数据的递增,训练时间得到了很好的改善,而且分类准确率得到了很好的提升。

3总结

随着互联网技术的发展,电子商务进入了海量数据时代,现有的数据挖掘平台在跨机构、跨平台进行数据挖掘时存在很大困难,本文提出基于PMML的电子商务数据挖掘方法,分析了PMML如何描述数据挖掘流程与其跨平台优点,在研究的基础上利用某电商平台挖掘潜在客户数据设计了实验进行验证,并对结果进行了分析,从而证明了本文提出的基于PMML的电子商务数据挖掘方法具有很好的跨平台交换模型的功能,结合可视化技术可以把挖掘结果以更加直观的方式展现给用户。

参考文献

陈发鸿.电子商务发展与政府应对策略[J].管理科学研究,2011,12(5):3-4.

Turban E,King D.Electronic Commerce:A Managerial Perspective[J].Prentice Hall,2006,4(7):11-16.

[3]李桂华,姚唐.影响企业购买行为因素的概念化模型及其分析[J].现代财经,2007,11(27):110-129.

[4]赵文,胡文蕙,张世琨,等.工作流元模型的研究与应用[J].软件学报,2003,6(14):53-59.

[5]方骏,方云,肖杰.数据挖掘的工业标准的现状和展望[J].计算机应用研究,2004,12(6):8-10.

[6]Raspl S.PMML Version 30 Overview and Status[C].Seattle,WA,2004.

[7]Haym Hirsh.Data Mining Research:Current Status and Future Opportunities[J].Statistical Analysis and Data Mining,2008,2(1).

[8]汪加才,朱艺华.基于PMML的自组织神经网络元模型[J].计算机应用与软件,2006,23(11).

[9]Wang Chao,Zhou Nan,Qiu Li-juan.Based on the java support PMML code three layer data mining systems[J].Agriculture Information Network,2004,15(8).

[10]Donald Heam,等.计算机图形学[M].蔡士杰,等译.北京:电子工业出版社,2007.

[11]Lee Y C.Application of Support Vector Machines to Corporate Credit Rating Prediction[J].Expert Systems with Applications,2007,33(1):67-74.

(本文责任编辑:孙国雷)

作者:刘晓云 焦亚琴 张银叶

电子商务数据挖掘论文 篇2:

基于贝叶斯网络模型的电子商务数据挖掘应用研究概述

摘要:当前,随着以电子商务为特征的新经济逐步走向成熟,企业的竞争优势不再是企业的信息搜集能力,更重要的是分析信息并发现有用知识的能力,如何鉴别有效的、新颖的、潜在有用的、并最终可以被理解的知识模式是当今企业最关心的问题。以数据挖掘技术为主要手段的商业智能技术在企业进行知识管理和决策中扮演越来越重要的作用。

关键词:贝叶斯;电子商务;数据挖掘

数据挖掘是利用合适的方法和技术从大量数据中汲取模式和知识的过程,关于数据挖掘的研究已经取得了许多非常重要的成果,如关联规则挖掘、聚类分类,模式抽取等方法等。但是这些传统数据挖掘技术和方法主要面向目标数据内容的挖掘,即从数据内容、文档、属性中发现有用信息的过程。传统数据挖掘的目标是基于个体数据的抽取模式,致力于提取数据内容反映的有用知识。但是,基于内容的数据挖掘技术不能表现网络资源个体所组成的拓扑结构,缺乏从这些结构中提取有用知识的能力。例如,数据挖掘是通过分析某用户的历史购买行为来预测用户的需求,但是这种预测没有结合其他消费者对该用户的影响,而实际上一个人决定购买某种商品很大程度上受到其朋友、身边熟悉的人以及生意伙伴等等的影响。在这些有影响的人群当中,他们对该用户购买某种商品所起作用是不同的,有些可能较大,有些可能很小。

网络结构挖掘不同于传统的数据挖掘中基于个体目标数据模式抽取的方法,而是基于目标之间的关系进行模式挖掘,这种基于对象间的关系进行模式挖掘的目的是在目标网络中提取正确的、新颖的、有用的结构模式。结构模式指的是网络结构中的蕴涵的规律、内在机制、变化趋势等知识,例如:在商务系统中,谁是最有影响力的消费者,其购买决策可能影响着其他的消费者;在科学引文数据库中,哪些文献是在引文中经常被引用的经典文章;在互联网浏览过程中,如何帮助人们在互联网上查找和定位最有价值的网页等等。

在智能商务信息服务中,除了面向内容的数据挖掘外,也非常关注面向网络结构模式提取的网络结构挖掘。例如,在商务网络中如何查找网络中的关键资源,从而确定哪些企业、产品或者消费者在商务网络中起着关键的作用;通过对商务系统中用户群的分析和挖掘,研究和提取用户在消费中相互的影响和作用,发现消费习惯是如何在网络中传播的,研究网络结构的相互影响及其传播速度,以及随着时间的变化,网络结构的动态模式如何变化,网络结构如何进化,以及其进化机制如何,等等;通过对商务系统中商品群的分析和挖掘,研究商品之間的关系模式,提取重要商品结点或者利润最大化的商品结点,从而发现通过哪些商品或产品的增大生产或者推广能够为企业带来更多的效益。网络结构模式挖掘弥补了智能商务中传统数据挖掘的不足,开展商务网络结构挖掘的研究有助于更广范围的进行企业决策支持。

同其他数据挖掘领域相比,虽然网络结构知识挖掘的研究起步比较晚,但是这一问题已经得到许多研究人员和机构的重视,研究领域包括了社会学、数学、物理学、计算机科学、以及生物学等许多方面。在社会学研究方面,采用社会网络分析手段对社会成员之间的关系和交互方式进行分析和挖掘,以便发现潜在的社会结构。这种社会网络结构分析方法的最显著特征就是使用结构或相互信息来研究或测试社会学理论。不仅仅是考虑社会成员的属性,如他们的年龄、性别、社会经济状况、受教育情况,还要考虑社会成员之间的关系特性,如自然关系、强度、和关联频率等,这些都被认为是影响社会结构的重要因素。社会网络分析也被用来进行组织行为分析和组织交互关系分析等。在统计物理学中,文献采用网络拓扑统计分析方法来进行网络结构模式分析,该方法不同于静态的结构处理方法,而是将网络结构看成是某种进化的过程,通过某种统计机制进行描述和建模。在因特网的应用中,许多文献研究将网络结构模式挖掘用于查找网络中的关键资源问题。一个网络可以看成是资源的集合,在因特网网页中,网页文本的内容就可以看成是信息资源,计算机网络中的电缆电线也可以看成是资源,这些资源的损坏可能导致网络的故障。在网络中的起关键作用的人、文本、关系或通信通道通常是网络功能的重要部分。应用于关键资源查找的技术已经应用于多种应用系统,文献用于挖掘网页中的高质量页面,文献用于在计算机通信网络中查找网络上使得网络性能降低的电缆以及结点等故障。此外在其他领域也得到了广泛应用研究,如:科学文献的引用模式分析、在协同工作的网络上搜索特定问题的处理专家以及在犯罪和恐怖组织网络中确定领导者和跟随者等等。

虽然网络结构知识挖掘在许多领域进行了广泛的研究和应用,但面向商业智能领域来说还面临许多挑战:

第一,已有的研究中大多数以数据资源为研究对象,缺少一种完整的、面向商务环境的关于网络结构挖掘的知识资源表示框架。网络中的信息或数据资源是智能商务知识的基础,已有的研究中多数采用数据形式描述这些资源并据此构建数据关联模型。而知识服务要求对商务环境下的网络资源进行知识标引与表示,并通过知识之间的关联表示资源之间的关系和资源的动态维护。因此研究框架应该包括有关商务网络结构的大多数共性问题,并且需要包括网络资源和结构的统一观点和方法论,为将来的研究和应用提供指导。

第二,已有的研究中大多数是关于网络结构资源的静态结构进行研究,反映的是在某单一时间点上所观察到的网络资源结点和关系所处的状态和特征,发现的是在某时间观测到的结点和关系的特定配置结构和规则。由于商务网络应用大多数是网络在线进行的,个体的变化可能也会影响整个网络结构的改变,这种变化由于实时在线的原因可能频繁改变,因此研究和分析动态的网络模式是智能商务应用非常重要的问题。同时,网络结构模型的进化规律反映了模型从一种形态转化为另一种形态的过程和趋势,特定的结构模型进化过程导致了特定的网络结构,这些结构又进一步影响了网络的功能和执行,因此这种模型的进化问题也是特别重要的。目前,关于商务知识动态结构模型及其进化的研究还处于初级阶段。

第三,现有的基于内容的数据挖掘技术已经取得显著的研究成果,如何将这类数据挖掘技术与网络结构挖掘技术相结合,开展面向商务智能的综合性知识发现研究还有待进一步加强。传统的数据挖掘对单一的挖掘方法或技术的研究较多,对方法的适应性和综合应用的研究较少,对商务智能应用中经典问题的综合解决缺乏有效的方法,基于内容挖掘与基于网络结构挖掘技术相融合的研究不多。在商务智能中,研究现有数据挖掘方法与其它结构挖掘技术相结合,从而既能够从目标中提取有用的知识和模式,还可以发现目标个体与个体、个体与子群、个体与整体之间的关系模式,也是未来该领域研究的重点内容。

基于以上分析,我们提出基于贝叶斯网络的网络结构知识挖掘研究这一课题。拟从模型理论的角度,进一步研究基于数据挖掘平台的网络结构知识挖掘研究,探索将面向个体内容的数据挖掘提升为面向网络整体的结构挖掘的途径。

基金项目:2020年度浙江省高等教育学会高等教育研究课题科研资助项目“基于贝叶斯网络模型的电子商务数据挖掘应用研究”(KT2020214)。

作者:李浩波

电子商务数据挖掘论文 篇3:

基于模糊关联规则在电子商务数据挖掘中的研究

摘要:数据挖掘是一种新兴的信息处理技术,它通过对商业数据的分析处理,可以发现蕴藏在数据中的商业知识,挖掘数据内在的联系、规则和模式,辅助商业决策。在电子商务环境下的数据挖掘的研究,主要是进行客户访问信息的挖掘,文章在考虑了数据来源之后,简要介绍数据预处理过程,最后给出了模糊集与传统的关联规则挖掘结合的算法。

关键词:电子商务;数据源;数据挖掘;算法;模糊关联规则

Key words:EC; data resource; datamining; algorithm; fuzzy correlation rules

电子商务是采用数字化电子方式,在Internet上进行的商务数据交换和开展的商务业务活动。随着数据库技术的迅猛发展以及Internet的广泛应用,电子商务正显示越来越强大的生命力,电子商务网站每天都可能有上百万次的在线交易,服务器上积累了越来越多的业务数据,目前的数据库系统可以高效实现数据的录入、查询、统计等功能,但无法发现数据库中存在的关系的规则,无法根据现有的数据预测未来的发展趋势,利用数据挖掘技术可以有效地发现大量数据背后的规律性,提供数据里面隐藏的知识和手段,消除数据“爆炸但知识贫乏”的现象。

1电子商务中数据挖掘的数据源

数据挖掘是从大量数据中提取或“挖掘”知识,那么进行数据挖掘首先要考虑从什么样的数据中挖掘知识,也就是说进行数据挖掘的数据源。总体上说,电子商务中数据挖掘技术的数据来源包括以下几种。

1.1用户的背景信息

此类信息主要来自于用户的注册信息。注册信息是指用户在浏览器页面上填写的、需要提交给远端服务器的有关资料,比如用户的个人资料,用户要订购的商品资料,用户提出的一些问题和要求等。但许多用户不愿意透露自己真实的个人信息,因此将不会如实地填写注册表,这将造成数据挖掘的原始数据质量低下。在这种情况下,就不得不从浏览者的浏览信息中来推测用户的背景信息,进而再加以利用。

1.2浏览信息

浏览信息主要来自于浏览者的单击流(Click-stream),这部分数据主要用于考察用户的行为表现。Web上有海量的数据信息,人们在浏览网站时,包含了大量的潜在的信息,如个人姓名和住址,单击了哪一个连接,在哪里浏览时间最多等。通常来说,这些信息可以分为两类:浏览者自身信息和浏览内容信息。

在Internet电子商务中,客户访问服务器时就会在服务器上产生相应的服务器数据,这样可以通过网络包分析器和服务器的log文件来收集用户对网站的访问。

服务器的log文件:用户每访问一个页面,Web服务器的日志中就会增加一条记录,可通过记录Cookies和CGI的查询参数来描述各个不同用户的行为。例如,通过对购买某产品客户的域名分析,知道来自哪个国家或地区购买者的人数较多,相应的根据此信息调整电子商务中的在线市场策略,增加在哪些地区或国家的商务活动。不过考虑到Web环境中的各种Cach的影响和用POST方法传送的参数没有记录下来,此记录可能不准确。但Log文件是最简单和最方便的数据来源,很多时候只用log文件就能得到分析所用的足够数据。

最准确和灵活的Web流量收集方法是网络包分析器。包分析器在网络层监听网络上传输的所有数据包,分析其中所包含的内容,把用户对网站的所有请求(HTTP命令)和Web服务器对用户的应答都记录下来。包分析器能够记录比Web服务器的log更详细的内容,比如记录用户在下载网页的过程中是否单击了“停止”按钮和一张网页的下载时间。通过分析这些数据,企业能更好地了解用户的感受。

1.3Internet自身信息

这类信息来自于Web自身,包括web内容、Web结构等。

Web结构包括www上的组织结构和链接关系中知识的推导。由于超文本文档间的关联关系使得www不仅仅可以揭示文档中所包含的信息,同时也可以揭示文档间的关联关系所代表的信息。利用这些信息可以对页面进行排序、发现重要的页面。

Web内容主要包括文档内容和多媒体两类,其中文档内容为主,包括直接文档内容、从文档中抽取的关键信息及用简洁的形式对文档内容进行的摘要或解释。

电子商务中的数据挖掘,是将用户注册信息、服务器日志和其自身信息三种来源有效地结合起来进行分析,可以提高挖掘的精度和深度,得出更理想的结果。

2电子商务中数据挖掘预处理

从电子商务数据源中得到的原始记录,不仅数据量巨大,而且可能存在大量的噪声数据、冗余数据、稀疏数据或不完全数据等,直接在其上进行挖掘非常困难。而事实上数据挖掘最后成功与否,是否有经济效益,数据准备起到了至关重要作用,数据预处理主要包括数据清理、集成、选择和变换。

2.1数据清理

主要是针对电子商务多个数据源中数据的不规范性、二义性、重复和不完整等问题进行相应的清洗操作,过滤、剔除一些无关数据,平滑噪声数据,识别、删除孤立点,并添加数据中缺失的数据域。

2.2数据集成

数据挖掘需要对数据进行集成,也就是将多个数据源中的数据进行合并处理,解决语义模糊性并存放在统一的数据存储(如数据仓库、数据库等)中,电子商务的数据源包括页面、图像、图形、多媒体、URL路径及有关的日志文件等,涉及三个方面问题:实体识别的模式集成、删除数据冗余和检测与处理数据值的冲突。

2.3数据选择

数据选择是在对发现任务和数据本身内容理解的基础上,寻找依赖于发现目标的表达数据的有用特征,以缩减数据规模,从而在尽可能保持数据原貌的前提下最大限度地精简数据量,通过数据选择可以使数据的规律性和潜在特性更加明显。在缩减数据规模的同时,数据选择应完整,需要覆盖业务目标所涉及的相关数据。搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。

2.4数据变换

将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的,建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。主要包括:数据离散化、新建变量、转换变量、拆分数据及格式变换。

在数据实际挖掘过程中,数据清理、数据集成、数据选择和数据变换不一定都用到。此外,它们的使用没有先后顺序,某一种预处理可能先后要多次进行。

3模糊关联规则挖掘在电子商务中的算法

关联规则的目的就是为了挖掘出隐藏在数据间的相互关系,从而找到客户对网站上各种文件之间关联规则。实现关联分析的技术主要是统计学中的置信度和支持度分析。一般来说,只有置信度和支持度均较高的关联规则才可能是用户感兴趣的、有用的连接规则。

模糊集是表示和处理不确定性数据的重要方法,以隶属函数概念代表模糊集合,它不仅可以处理不完全数据、噪声或不精确数据,还可以用于开发数据的不确定性模型,能够提供比传统方法更灵巧、更平滑的性能。

把传统的关联规则挖掘与模糊集结合起来的一个关键方法是,首先将各属性模糊集中的元素作为数据库的属性对待,然后在关联规则挖掘的剪枝步骤中将具有相同属性的项集删除。

假设D是一个典型事务的集合,即数据库,记为D=t,t,t,…,t,其中t1≤i≤n为D中的第i个事务,数据库所包含的属性为集合R=r,r,r,…,r,其中r1≤j≤m即数据库中所有字段,d为数据项。

引入模糊集概念,将R=r,r,r,…,r中的属性r根据领域专家知识划分为若干模糊集,r=r,r,r,…,rh>0,相应的隶属度函数为fr={fr, fr,…, fr},事务数据库D转化为具有更细属性划分的数据库D。

在传统的布尔关联规则及量化关联规则的挖掘中,事务对属性的支持计数(vote)是以该事务在所有事务中出现的次数来计算的。

规则XY在事务数据库D中的支持度(support)S是事务集中包含X和Y的事务数与事务总数之比,记为S(XY),即

S(XY)=|{T:X∪YT,T∈D}|/|D|

规则XY在交易集中的可信度(confidence)C是指包含X和Y的事务数与包含X的事务数之比,记为C (XY),即C(XY)=|{T:X∪YT,T∈D}|/|{T:XT,T∈D}|。

在进行挖掘之前,和传统关联规则挖掘一样,必须定义最小支持度S和最小置信度C。

而在模糊关联规则的挖掘中,支持计数是通过具有模糊属性数据库D的数据项对各属性的隶属度来计算的,是一个介于0和1之间的实数。数据库D中数据项d对于其模糊属性r的隶属度为:

d= fd

属性r,其中j表示第j个模糊属性集,即第j列,p表示该属性集中的第p个属性。

对于任一属性,将全部事务对该属性的支持计数相加后除以总的事务数n,即得到全部事务对该列所对应属性的支持度:

vote. R=dn

如vote.r=(d+d+d+…+d)/n即为所有事务对属性r的支持度。在得到所有属性的支持度后,将支持度小于S的属性删除,就得到了频繁1-项集L。

下面的步骤和传统关联规则挖掘相似。对频繁j-项集Lj(j≥1)进行连接运算,得到候选(j+1)-项集C,计算C中的每个项集的支持度S:

假设<X,A>代表一个“项集-模糊集”对,X是属性x的集合x∈X,A是模糊集a的集合a∈A。每个事务的支持计数是由x的隶属度函数来计算的,用tx来表示第i个事务中x的值,Atx是t的隶属度,一个事务的支持计数大于0,即其满足<X,A>。在得到一个事务中所有x的隶属度之后,就可以得到该记录t对<X,A>的总支持计数:

Z=∏atx

将所有记录的支持计数相加,除以总的事务TotalD,就得到了支持度S。

S=

在得到所有项集的支持度后,对C剪枝。剪枝包括三个部分的内容:①删除C中支持度小于S的项集;②删除C中的含有非频繁集的项集;③删除C中含有属于同一模糊集属性的项集,这样的项集对于最后产生的关联规则没有实际意义,既可简化算法,同时也降低了计算量。重复以上步骤,直到L=Φ,得到包含最多属性的频繁j-项集L(满足j为最大值,且各项集的支持度大于S),由L产生频繁项集L,最后由L产生关联规则。

4结束语

数据挖掘在电子商务中的应用是一个将信息转化为商业知识的过程。首先,明确数据挖掘的对象,确定商业应用主题;其次,围绕商业主体收集数据源,并对数据进行清理、转换、集成等技术处理,并选取合适的数据挖掘算法,构建数据挖掘模型,从目标数据中提取有价值的商业知识,对结果进行分析和验证,调整数据挖掘模型,从而保证结果的可靠性和实用性。最后,将商业知识集成到电子商务中心,融合专家知识与领域规则,为商业活动提供决策支持。

随着电子商务发展的势头越来越强劲,面向电子商务的数据挖掘将是一个非常有前景的领域。

参考文献:

[1] 张云涛,龚玲. 数据挖掘原理与技术[M]. 北京:电子工业出版社,2004.

[2] 朱水林. 电子商务概念[M]. 北京:清华大学出版社,2004.

[3] David Hand, Heikki Mannila, Padhraic Smyth. 数据挖掘原理[M]. 张银奎,廖丽,宋俊,译. 北京:机械工业出版社,2003.

[4] 熊平,朱天清,黄天戍. 模糊关联规则挖掘算法及其在异常检测中的应用[J]. 武汉大学学报,2005,30(9):841-844.

[5] 黄解军,万幼川. 基于数据挖掘的电子商务策略[J]. 计算机应用与软件,2004,21(7):12-13.

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。

作者:刘永红 李惠君

上一篇:报纸印刷质量管理论文下一篇:视唱练耳音乐教学论文