Web数据研究与应用论文

2022-04-27

摘要:随着信息技术以及互联网技术的快速发展,数据种类和数量呈现出了膨胀性增长的态势,善于使用大规模的数据,并且能够充分挖掘数据单种的商业信息,能够帮助企业快速做出战略决策,促进企业改革创新,为企业提供全新的商业增长点。使得Web数据挖掘工作的研究成為热点。下面是小编为大家整理的《Web数据研究与应用论文(精选3篇)》的文章,希望能够很好的帮助到大家,谢谢大家对小编的支持和鼓励。

Web数据研究与应用论文 篇1:

电子商务中Web数据挖掘与应用研究

摘 要:21世纪是网络信息技术的时代,各种高端的新型的科技逐渐的充斥在人们的日常生活中,最常见的就是新型的网络技术,比如淘宝、天猫、京东等各种购物APP,还有携程、途牛等各种外出购票等APP。这些软件我们统称为电子商务。电子商务的出现不仅席卷了我国人民的日常生活,包括我国的国际贸易也受到了一定程度的影响。可以说电子商务已经成为了我国现代的商业模式了,而且其发展的速度也越来越快,因此,该文对这个很有前景的电子商务数据挖掘领域作了简单的分析。

关键词:电子商务 Web数据挖掘 应用

随着全球的经济化发展以及贸易自由化的发展等,电子商务,这个由信息技术、商务手段以及管理技术相结合的新的现代的商业化模式,正在以空前的生命力对部门经济、区域经济以及国民经济等的发展进行推动。电子商务作为全球的现代商业模式的同时,还是人们将商务活动变为网络化、数字化的一个途径之一。而且它的产生将我国企业传统的经营理念、管理方式以及支付手段等一一打破了,并且带来更新的更符合社会发展的经营理念、管理方式以及支付手段,为企业的发展带来了巨大的变革。但是电子商务的发展会使得公司内部的数据量迅速提升,企业想要将这些信息迅速的转化为有用的信息和知识也是比较困难的。所以,Web数据挖掘出现了,拥有强大功能的Web数据挖掘技术不仅能够帮助企业将这些大量的数据进行有效的分析,还能够为企业指导并且适当的调整营销策略,最终为客户提供动态的个性化的高效率的服务。

1 Web数据挖掘简述

1.1 概念

从字面上看,数据挖掘就是将有用的信息从各种大量的、不完整的数据中提取出来的过程,这些提取出来的信息的特点是隐含的、人们事先不知道的、潜在的、有用的。Web数据挖掘的技术将数据库、人工智能、机器学习等多个领域的理论和技术知识融合在了一起,而Web挖掘则是指在Web上的应用,是指所提取的数据、信息和知识的来源是Web相关的资源。

1.2 类别

1.2.1 内容挖掘(Web Content Mining)

这个部分可以分为页面内容和搜索结果两个方面。前者是用Web数据挖掘技术从各个页面中所含有的数据、信息以及知识等进行挖掘。而后者则是指用某一个搜索引擎进行某内容的搜索,从搜索的结果中进行数据挖掘。比如通过百度收索引擎,搜索WPS文字的使用方式,通过搜索出的结果,将WPS的各种使用方式进行挖掘统计。在这个Web的内容挖掘中,最常见的方式是WebOQL以及Ahoy两个。

1.2.2 结构挖掘(Web Steucture Mining)

这一个类别中又可以分为超链接挖掘、内容挖掘以及URL挖掘3部分。在整个Web的空间里,除了Web的页面内容外,其有用的知识、信息以及数据等还包含在页面的结构中。Web的结构挖掘就是将潜在的连接结构的模式进行挖掘,这是对页面的超链接关系、文档的内部结构以及URL中的目录途径结构等进行挖掘的。利用文档之间的连接信息来查早相关的Web页面的方式就是Page2Rank方法。

1.2.3 使用挖掘(Web Usage Mining)

这一个类别中可以分为访问模式挖掘和个性化服务模式挖掘两个板块。它是从电脑的访问记录中抽取出感兴趣的模式的。访问日记在每一个www的网页服务器中都有保存,并且记录了关于用户的访问和交互的信息。通过对这些数据的挖掘和分析,能够使用户的行为等被充分理解,进而改善和提高站点的结构等,或者说是为用户提供个性化的服务。

2 电子商务中Web数据挖掘的应用

2.1 过程

Web数据挖掘的过程由3个部分组成,分别是数据准备、挖掘操作和结果表达及解释。其操作的具体内容如下所述。

2.1.1 数据准备

这个阶段可以通过3个步骤来完成,数据集成、数据选择和数据预处理。通过这3个部分将Web数据挖掘的数据全面的准备好。数据集成是指将多个文件或者是多个数据库的运行环境中的数据进行合并处理,就像是将许多文件压缩成一个压缩包一样,将同样的内容剔除后,留下有用的信息即可,数据的集成阶段可以将语义模糊的数据问题进行解决,而且还能解决数据遗漏等问题。数据选择是指将集成的数据有目的的进行分类,从中分辨出需要分析的数据,将需要处理的范围缩小,从而提高数据挖掘的质量。预处理的意思就和信息预估是一样的,都是为了日后出现的问题进行以前防御的作用。

2.1.2数据挖掘

这个阶段是实际操作的阶段,主要从4个方面着手:(1)决定如何生产假设;(2)选择合适的工具等;(3)对知识进行发掘的操作;(4)将发现的知识进行证实。这个阶段是将数据准备中的所有数据,进行分析提炼和挖掘,将其有用的、所需要的知识、内容以及数据等进行发掘,最后再进行证实,挖掘出的知识是否属实等。

2.1.3 结果表述及解释

这个阶段主要是针对用户的,是根据最后对这部分知识有需求的用户的决策目的,对提取的信息进行分析,将信息进行区别划分出来,提取出最有价值的信息,并且还要通过决策的支持工具提交给决策者。因此,这个阶段并不是将数据挖掘的结果表现出来即可的阶段,它还要对信息进行过滤等处理,如果说提取的信息不能够满足决策者的要求,则需要重复上述的过程,直到满足决策者的需求为止。

2.2 方法

2.2.1 路径分析

这个方法可以使用在Web的结构挖掘中,因为这个方式是可以用于判定在一个Web的站点中最频繁访问的路径的。除此之外,还有其它的一些有关的路径信息也可以通过路径分析得到,而且通过路径分析,还能够改进网页以及网站结构的设计。

2.2.2 关联规则的发现

事物之间的意义的联系以及其规则的发现就是关联规则的目的。对Web的数据挖掘中,要将关联模型进行构建,才能够更好的将站点进行组织,并且将用户过滤信息的负担降低。不仅如此,还可以根据其挖掘到的关联的规则对电子商务的站点的结构进行改进,将有关联的商品放在一起,就比如淘宝中用户搜索钱包时,其相关联的物品有钥匙包、子母包等也会出现在页面中,供用户的选择。

2.2.3 序列模式的发现

分析数据之间的前因后果的关系以及他们在时间有序的事物的集中问题,就是序列模型分析的侧重点。而其模式就是将“一些项跟随另一些项”找到的内部事务模式。而且序列模式的发现不仅能够为客户提供个性化的服务,还能够帮助电子商务的组织者对客户的访问模式等进行预测,从而做到更好的个性化服务。

2.2.4 分类规则

数据分类是将具有某些属性的、类似的数据进行区别划分的。而且数据分类的方式有很多种,比如决策树的分类方法。这个方式是最典型的分类方式,它是根据实际的数据进行决策树的构造的,而且他还是一种具有指导作用的学习方法。在得到分类之后,就可以针对用户的某一个特点或者某一类客户的特点进行商务活动的开展了,就能够更有效的提供个性化的服务。

2.2.5 聚类分析

这一方法的目的是根据一定的规则,将记录集合进行合理地科学的划分,并且要采用不同的描述方式对不同的类别进行描述。而且电子商务可以通过聚类分析的方法将浏览过相似信息的客户进行统计,让管理者能够更好的了解到河湖,并且能够及时的提供合理的更具有个性化的服务。

2.3 应用

2.3.1企业资源计划

Web数据挖掘在企业资源计划中应用,可以帮助企业降低其运营的成本,还能够提高企业的竞争力。企业的根本目的就是为了更高的经济效益,而经济效益不仅能够通过更好的贸易等方式来获取,通过对成本的节约也能够有效的提高企业的经济效益。所以,企业可以通过Web数据挖掘技术将企业的资源信息实时的、全面的、准确的掌握起来,并且对历史的财务数据、库存数据等信息进行分析,还能够发现企业资源的消耗的主要部分,以及企业主要活动的投入产出比例等,从而为企业的资源进行优化配置时提供了决策的依据,能够更有效的帮助企业降低其成本。

2.3.2客户关系管理

上述中提到过,Web数据挖掘能够将用户经常浏览的网页以及查阅的信息和交互的信息等进行挖掘统计,所以,Web数据挖掘在客户关系管理中的应用可以帮助企业挽留老顾客,同时挖掘潜在的新客户。现在我国提倡的是“以人为本”的服务理念,所以,对企业而言分析客户的心理和需求,了解客户的信息等都已经成为了一个重要的研究课题。客户关系管理是指通过现代信息技术,将客户的信息充分的利用起来,挖掘出有用的商业知识,并将其用于企业的产品开发、市场营销等方面,从而提高企业的竞争力。而Web数据挖掘可以帮助企业更有效的从电子商务中获得客户的信息等。

2.3.3 产品数据管理

这个主要是用于分析产品的质量的影响因素的,通过对其参数、结构等信息的挖掘,建立起控制产品质量的模型,全面的提高产品生产和制造的质量。

2.3.4 商业信用评估

在当下的社会中,低劣的信用状况已经成为了影响商业秩序的最突出的原因之一了,并且已经引起了全球人民的广泛关注。各种网络诈骗、企业财务造假等现象日益严重,信用危机已经成为了电子商务发展的最大障碍。因此,利用Web数据挖掘技术对企业的经营进行跟踪等,实施网上全程的监控,保证其电子商务的安全。

3 结语

综上所述,电子商务虽然是我国的现代的商业模式,但是其存在的问题还是有许多的,通过Web数据挖掘的技术能够将其现存的问题良好的控制和解决掉,所以,如何能够使Web数据挖掘技术更好的应用在我国的电子商务中,还值得人们继续研究。

参考文献

[1] 黄玲.在电子商务中应用Web数据挖掘的研究[D].湖南大学,2014.

[2] 任新.Web数据挖掘及其在电子商务中的应用研究[D].贵州大学,2008.

[3] 王飞.面向电子商务的web数据挖掘的研究与设计[D].四川大学,2006.

作者:王曦

Web数据研究与应用论文 篇2:

基于Map/Reduce的改进选择算法在Web数据挖掘中的研究与应用

摘要:随着信息技术以及互联网技术的快速发展,数据种类和数量呈现出了膨胀性增长的态势,善于使用大规模的数据,并且能够充分挖掘数据单种的商业信息,能够帮助企业快速做出战略决策,促进企业改革创新,为企业提供全新的商业增长点。使得Web数据挖掘工作的研究成為热点。大数据涌现对于传统简单数据挖掘算法提出了更高的要求,基于Hadoop平台的Map/Reduce模型也在不断改进。作为当前最流向的分布式计算模型Map/Reduce从众多的模型当中脱颖而出,并高速发展。该文主要研究了结合Map/Reduce的模型基础上利用K-mean算法实现挖掘数据的快速高校、占用CPU更少。

关键词:数据挖掘;Map/Reduce;Hadoop云计算平台

尽管数据挖掘相关的理论研究工作逐渐成熟,可是随着数据规模不断增大的情况下,人们对于快速高效处理数据提出了全新的要求。这几年,互联网的普及率居高不下,互联网网页规模每年保持在78.6%的增长率,并达到了几百亿到上千亿的规模。此外,诸如Facebook[1-4]、微博等社交网络平台的用户数量也在不断攀升。而真实世界当中数据规模日益膨胀也带动了互联网数据的增长。GB、TB、PB级别的数据规模对于互联网数据而言已经是司空见惯的事情,单台机器明显无法出现这种数量级别的数据。从商业领域看,是否能够快速而高效的处理大规模数据已经成为决定企业能够实现信息化的决定因素。假如错过了这个机会,在当前信息技术快速发展的时代背景下,企业发展将无法跟上时代的步伐,最终会被淘汰。当前如何快速高效的处理大规模的数据,逐渐成为一个全新的挑战。

1 Map/Reduce计算过程

第一,存在多个Map任务,所有任务的输入其实都是分布式文件系统当中的某一个以及多个文件块。Map任务能够把文件块转变成为键值对序列。用户通过Map函数代码能够自行编写输入数据形成键值对的形式[5]。

第二,主控制器可以从Map任务当中获取键值对,并且按照大小顺序对他们进行排序。这部分键会被分配到Reduce任务当中,因此键值相同的键值对通常会被分配到相同的Reduce任务当中。

第三,Reduce任务每一次都会对某个键产生作用,并且通过某种方式将和该键存在一定关联性的值组合在一起。用户能够通过Reduce函数代码来自行决定组合的形式。

2 Hadoop云计算平台

Hadoop可以对大量的数据做分布式处理,是Map/Reduce的Java实现。用户不需要掌握分布式底层细节,就能够开发分布式程序。Hadoop云计算平台具有以下优点[6-7]。首先,Hadoop一般运行在通过普通商用计算机所构成的大型集群上,例如淘宝集群、百度云计算集群。其次,Hadoop有着比较高的健壮性。在架构设计的过程中,就已经架设了平台当中的研究会失去效果并且采取了一定的保护措施,所以,Hadoop对于节点实效的问题能够从容的应对。再次,能哦故利用Hadoop集群节点的个数有效提升计算能力以及存储能力。最后,用户能够轻易地编写出Hadoop平台上的分布式程序[8-12]。

3 基于Map/Reduce的改进选择算法在Web数据挖掘中的应用

3.1 Map/Reduce算法模式

公式当中的P(n)为临界函数,n=1,2,3…,函数作用主要是对次数进行统一调度,可能够保持服务点数目的有效连接。

因为文件信息数量较大,使用直接访问的形式会降低访问效率,导致服务器负荷严重,所以使用二进制序列的形式来进行运算处理,能够节省更多的内存空间。P(n)的获取方法如下所示。

dq指的是服务店q在第n次调用过程中存在一个长度是m的二进制序列,在这个序列当中最小值的位置是dq(a),并且初始值是0。

从上述模型当中能够看出,在每次转换以及调用数据的时候,都会刷新一次服务点,刷新以后的服务点包括了很多从服务点当中产生的比当前调用次数n要小的服务点信息。数据挖掘的时候,使用两步循环Map/Reduce模型算法进行描述。其步骤为:

然后的步骤就是把第二步利用Reduce函数整合挖掘数据信息,分类以后的数据信息,将这些数据信息交给Map函数对其进行最终的输入。服务器利用Reduce把整合以后的数据信息输出,获得结果。

3.2 实验过程以及结果分析

本实验环境主要表现为,在服务上安装有vSphere虚拟化软件,一共创建有10个虚拟机,硬件条件如下表所示。

其中一台虚拟机作为实验主服务器,专门用来存储网络日志、挖掘相关数据,对数据信息分布以及运行情况进行分析等。

4 基于Map/Reduce的改进选择算法

4.1 K-means算法

K-means算法主要是将K作为主要参数,将数据集内部的N个数据源形成K个子集,能够保证子集内部的数据元组合具备一定相似度,并且子集之间数据元组存在着较低的相似度。相似度是按照子集内部的对象平均值计算而来的。K-Means算法具体流程为:在全体数据集当中选择K个数据元祖当作是初始聚类中心,数据集内部剩下的数据元组,需要计算其和聚类中心之间的相似度,依次把他们划归到与之相似的聚类当中,然后重新计算每个归并以后所取得新数据元组的聚类中心,反复进行这个过程,一直到预先指派的测度函数能够收敛到阈值为止。

4.2 K-Means算法Map/Reduce化

本次研究的重点在于,在K-Means算法基础上,分析其Map/Reduce化以后K-Means算法的具体方案,并且研究云计算化后算法性能,具体执行步骤如下所示:

1) 选择k个初始聚类中心,比如cp[0]=D[0],cp[k-1]=D[k-1],此后将这些聚类中心当中的初始聚类数据全部复制到Original Cluster[]当中,并且把Original Cluster[]做分块处理,按照计算节点集群的结果,把Original Cluster[]分配到每个节点当中。

2) Map:对于D[0]……D[n]数据,需要计算出其cp[0]……cp[n-1]的距离,距离最近的标记为c[i],其总数能够用Ci进行表示,与此同时在Map/Reduce框架下,将键值对应i以及D[k]。

3) Reduce:因为i本身是Map/Reduce框架当中的键值所对的Key,这确保了同一个Key所有D[k]都能够分配到相同的Reduce进程当中,根据此Reduce进程就能够计算聚类中心,并且把该聚类中心放入Destination Cluster[]当中。

4) 对比Original Cluster[]以及Destination Cluster[]处理方式的不同,假如二者变化要比预先给定的值小,那么聚类完成,反之,需要将Destination Cluster[]放入到Original Cluster[],并继续上述操作。

能够发现,K-mean算法在Map/Reduce化改进过程相对简单,其原因在于Map/Reduce框架本身就是一致,开发人员所需要做的就是剥离出可供Map/Reduce的内容,并构造相应的键值对,其他的监控、调度、通讯任务则全部可以交给Map/Reduce框架来实现。

4.3 实验结果

本文数据集选取了QQ音乐当中的某个电台媒体库,数据集当中汇集了广告、歌曲、片花等110万数据记录,与此同时还包含了600万条听众点播,2000万条网络互动消息。

第一组实验当中使用了网络互动消息记录当中所获取的1000万条数据,内部配置DataNode上Reduce节点数属1,Map节点数为1,2,5,10,100.K-means算法最终耗时为612s、466s、307s、163s、199s。由此可见Map节点在10的时候,其具有最高的运行效率。

第二组实验当中采用了全部数据集,DataNode上面的Reduce节点数是1,Map节点数是10,分别是用了100万、500万、1000万、1500万、1800万、2000万数据量运算。K-Means算法耗费的时间分别是66s,169s,288s,352s,429s,475s。由此可见,在Map节点数保持不变的情况下,随着数据量不断增大,耗费的时间也随之增加,二者之间呈现出正比例的关系。

分别测试出数据集在1、3、5、7、9个节点集群当中K-means并行计算的时间和比率,可以计算出其加速比S1、S3、S5、S7、S9,最终的结果如图3所示。伴随着数据量的持续增加,节点数也会相应地增加,从图中能够发现,处理同一个数据集的加速比是慢慢增大的,换言之云数据挖掘过程中的K-means算法具备了更大的计算能力。

5 结束语

当前,企业逐渐开始关注互联网数据的挖掘工作,希望以此搜集到更多的商业价值。可是伴随着数据复杂程度不断加大,数据量持续增多,高纬度以及大规模的数据处理所消耗的时间与精力是很多企业难以承受的,并且开发出可以处理这些数据的框架难度逐渐提升,具备高可靠性以及高容错的云计算平台可以很好地解决这方面的问题。使用Map/Reduce算法对数据进行整合,可以有效地缩短Web数据挖掘时间,有效提升效率,从而最大显著提升扩展性、可用性以及协同性的特征。

参考文献:

[1] Shim K. MapReduce Algorithms for Big Data Analysis[C]// International Workshop on Databases in Networked Information Systems. Springer Berlin Heidelberg, 2013:44-48.

[2] Plimpton S J, Devine K D. MapReduce in MPI for Large-scale graph algorithms[J].Parallel Computing, 2011,37(9):610-632.

[3] 方少卿,周剑,张明新.基于Map/Reduce的改进选择算法在云计算的Web数据挖掘中的研究[J].计算机应用研究,2013,30(2):377-379.

[4] 范苗苗,符琳,杨罗,等.基于Map Reduce的云数据挖掘模型的设计与实现[J].信息通信,2017(3):141-142.

[5] 张家瑞. 基于MapReduce的数据挖掘平台设计与实现[J].网络安全技术与应用,2014(11):49.

[6] 王勃,徐靜.基于云计算的Web数据挖掘Map/Reduce算法的研究[J].计算机与数字工程, 2014(7):1157-1159.

[7] 李悦,高晶,雷鸣.基于云计算技术的Web数据挖掘的算法研究[J].科技资讯,2014,12(18):17.

[8] 李彬,刘莉莉.基于MapReduce的Web日志挖掘[J].计算机工程与应用,2012, 48(22):95-98.

[9] ZHU Xiang, 朱湘, JIN Song-chang,等.一种基于Hadoop平台的海量Web数据挖掘系统研究与实现[C]//.中国通信学会学术年会,2012.

[10] 盛昀瑶,陈爱民.基于MapReduce的Web日志挖掘算法研究[J].现代计算机,2017(16):14-18.

[11] 程苗.基于云计算的Web数据挖掘[J].计算机科学, 2011, 38(b10):146-149.

[12] 刘骞,陈明.基于改进的Map/Reduce及模式空间划分的数据挖掘[J].微电子学与计算机,2011, 28(8):140-142.

【通联编辑:梁书】

作者:王月梅 何雄伟

Web数据研究与应用论文 篇3:

时空聚类分析在Web数据挖掘中的研究与应用

摘 要:时空聚类分析是时空数据挖掘领域近年来研究的热点问题,对于揭示时空要素的发展变化趋势、规律以及本质特征具有重要意义。目前,时空聚类分析的研究仍在初步,缺乏具有普适性的时空聚类分析方法。为此,本文针对国内水性漆行业的行业数据提出了一种时空一体化的时空聚类方法。该方法很好地顾及了时空数据的时空耦合、时空相关与时空异质特征,避免了过多人为主观因素的干扰,时空聚类结果具有较好的可靠性。

关键字:数据挖掘;Web数据挖掘;聚类分析;聚类算法

一、引言

随着计算机技术、数据库技术、网络技术的飞速发展,各种信息知识可以在网络上获得。网络在给人们带来便利的同时也带来了不少弊端,造成了知识的"污染",面临信息的海洋,呼唤一种从数据海洋中去粗取精、去伪存真的技术来准确、快速地获取有用的、隐含的信息,在这种形势下,Web数据挖掘技术应运而生。

近年来,时空数据挖掘已受到国际学术界和工业界的广泛关注,时空信息的认知和数据模型的研究进展是时空数据挖掘研究的基础,时空数据挖掘的理论研究主要受到空间数据挖掘和时态数据挖掘研究的影响,并以经典的数据挖掘理论为基础,挖掘时空知识或规则。

时空聚类分析作为时空数据挖掘的一个主要研究内容,是计算机科学与地球信息科学领域交叉研究中的一个最前沿、最具挑战的研究课题。时空聚类分析旨在从时空数据库中发现具有相似特征的时空实体结合(即时空簇),亦是传统的聚类分析从空间域到时空域的进一步扩展。时空聚类在全球气候变化、公共卫生安全、地震检测分析以及犯罪热点分析等领域具有重要应用价值,有助于更好地发现和分析地理现象发展变化的趋势、规律与本质特征。

本文把时空聚类分析应用在Web数据挖掘中,具有很强的现实意义与理论价值。一方面,通过聚类挖掘可以找空间实体即水性漆生产商的地理分布规律,帮助决策者更快地找到所需的信息;另一方面,对行业数据重新组织,让相邻、相近的数据尽量编排在一块,可以提高访问速度,对于预测整个水性漆行业的发展动态有积极的意义。

二、国内外研究现状及分析

国内外学者已经针对时空聚类分析开展了初步的研究,现有的时空聚类方法主要包括时空扫描统计方法、基于密度的方法以及基于时空距离的方法。最近, Kisilevich[1] 等对时空聚类分析方法进行了较为系统的阐述。时空聚类分析研究虽然已经取得一定成果,但依然面临两方面难点: (1) 时空数据具有时空耦合的特点。 时空数据是空间维与时间维的有机组合, 空间数据与时序数据的一些性质并不能直接推广到时空域。 例如, 空间数据不存在过去、现在、将来的区别, 而时空数据却具有这种特性;(2) 时空数据具有时空相关性与时空异质性两个重要性质。 时空数据的分布在时间和空间上具有关联性, 也会随着时间和空间的变化而产生差异。 此外, 当前的时空聚类分析研究仍没有形成一套具有普适性的理论方法框架。

现有的时空聚类方法主要包括时空扫描统计方法、基于密度的方法以及基于时空距离的方法。 最近, Kisilevich 等对时空聚类分析方法进行了较为系统的阐述,其主要思想是采用一个预设的时空扫描窗口, 即由空间距离定义半径、时间间隔定义高度的圆柱体, 以每个时空实体为中心进行扫描, 借助统计检验的方法确定疾病爆发的聚集区域。 该方法一方面需要预先假定数据的概率分布模型, 且结果受扫描窗口的影响较大, 另一方面不能详细描述时空簇的位置和形状信息。最近, Pei 等发展了一种基于窗口邻近的时空聚类方法, 其主要思想是定义一个圆柱形的时空邻近域, 在每个时空邻域内区分聚集部分和噪声部分, 并采用 DBSCAN 密度相连的策略将聚集部分连接成时空簇。 该方法只能针对仅存在两种 Poisson 分布(簇与噪声) 的时空数据进行时空聚类操作, 且无法顾及时空实体的非空间属性。 基于时空距离的方法可以区分为两类, 一类是从时间、空间两个角度分别定义时空邻近实体; 另一类是综合定义时空耦合距离, 这类方法主要用于地震序列的时空聚集性发现, 在实际中时空属性的融合比较困难。

综上分析, 可以发现目前尚缺乏一种能够同时顾及时空实体的非空间属性和时空实体时空耦合特性的时空聚类方法。 为此, 下面将发展一种时空聚类分析的新策略。

三、时空聚类分析在Web数据挖掘中的研究与应用

1.研究目标:本课题通过在研究空间数据挖掘、XML 数据挖掘、时空数据挖掘基础上,对时空聚类的关键技术进行分析,设计出适合Web数据挖掘的时空聚类挖掘的算法并构建原型系统,实现对行业网站数据时空聚类挖掘。

2.研究内容:(1) 数据的聚集趋势估计,即判断数据能否进行聚类分析; (2) 聚类方法设计; (3) 聚类结果有效性评价。在地理空间中,时间和空间上的相关性是时空实体的基本特征,也是进行时空聚类分析的前提。若实体间没有相关性,则不会产生明显的聚集现象。时空聚类旨在将时空相关性较强的时空实体聚在同一簇,时空聚类过程中必须充分考虑实体间的相关性。因此,时空聚类分析可以归纳为 3 个步骤。

首先,需要对时空数据进行探索性分析,掌握时空数据的特性。其主要包括: (1) 时空相关性分析,判断时空数据是否可以进行时空聚类分析;(2) 时空平稳性分析,分析时空数据的时空异质特征。

其次,根据时空数据的具体特点发展专门性的时空聚类方法。

最后,需要对时空聚类分析的结果进行分析和评价。

拟解决的关键问题:从时空数据的基本特征出发,建立一套时空聚类分析的理论方法框架,并提出一种时空一体化的时空聚类方法,应用于中国水性漆网的Web数据库,确认其有效性。

3.项目研究方案:

第一步:时空聚类分析:包括时空数据探索性分析、时空邻近域构建和时空聚类方法。

第二步:中国水性漆网站数据时空聚类分析,包括数据描述与预处理:选取中国水性漆网站数据库进行实例分析;时空数据探索性分析:首先对数据的空间相关性进行检验,这里借助变差函数来分析空间相关性。进而,采用普通 Kriging方法进行插值;一种基于 LINQ 查询与 K-Means 结合的时空聚类算法:在分析、比较经典聚类算法的基础上,结合水性漆网站时空数据的特点,提出了一种将扩展的 XML 文档查询语言LINQ与经典的K-Means聚类算法相结合的算法,通过实验验证该算法的有效性及优越性。

时空聚类原型体系结构及设计实现:为验证算法的实用性,基于 ArcEngine采用 C#语言开发了水性漆网站数据时空聚类原型系统。

四、结束语

本文提出了时空聚类分析的理论方法框架, 该框架易于推广用于其他类型的时空数据, 具有很强的普适性;很好地顾及了时空数据的时空耦合、时空相关与时空异质特征, 避免了过多人为主观因素的干扰, 时空聚类结果具有较好的可靠性。

参考文献:

[1] 陆玉昌。数据挖掘与知识发现[M]。成都:西南交通大学出版社,2005

[2] 金艳云。Web数据挖掘综述[J]。现代计算机,2012(11)

[3] 庄怡雯。基于聚类算法的Web日志挖掘应用研究[D]。东华大学,2010

[4] 刘小利,刘小辉。数据聚类算法在Web数据挖掘中的应用[J]。科技创新导报,2012(31)

[5] Kisilevich S, Mansmann F, Nanni M, et al。 Spatio-Temporal Clustering, Data Mining and Knowledge Discovery Handbook。 2nd ed。 New York: Springer Press, 2010。 855-874

[6] 邓敏; 刘启亮; 王佳; 石岩 时空聚类分析的普适性方法 中国科学:信息科学,2012

作者:王志娟 魏一搏 魏宏昌

上一篇:物权法对征收制度完善论文下一篇:新农村建设中群众文化论文