网络购物数据挖掘论文

2022-04-21

摘要:随着互联网和电子商务平台的发展,网络购物已成为人们社会生活中的日常行为。僵尸网络是一种新兴的互联网威胁,其数量、规模和危害级别正在迅速增长,并已使全球网络进入新的警戒状态。尤其是在网络购物方面,僵尸网络常被不法分子利用而对网络购物平台发起网络攻击。下面是小编为大家整理的《网络购物数据挖掘论文(精选3篇)》,仅供参考,大家一起来看看吧。

网络购物数据挖掘论文 篇1:

网络购物及其对传统零售企业的冲击

摘 要:2013年网络购物市场继续快速向前发展,网络购物也为新常态中国经济贡献了自己的力量。面对网络购物的巨大冲击,传统零售企业应借力电商平台,拓展销售渠道,实现网店和实体店相结合,向电子商务转型。

关键词:网络购物;新常态;中国经济;传统零售企业

亲,今天购了吗?这是淘宝体语言,所谓淘宝体,就是淘宝买家和卖家交易时的一种对话方式,后因其亲切、可爱的方式逐渐在网上走红。在网络购物日益增长的今天,这个“亲”字逐渐被大家所接受,经常出现在网络购物、QQ聊天、短信和微信对话甚至日常对话中。

自2009年淘宝推出光棍节节日促销活动以来,在各路电商企业及传统商家连年极力促销推动下,“11月11日”这个被称为“光棍节”的日子,已变成名副其实的“网购狂欢节”。2013年“双11”网购狂欢节淘宝加天猫交易额突破350.19亿,这相当于中国日均社会零售总额的五成。习近平总书记最近提出“新常态中国经济”的重大战略判断,深刻揭示了中国经济发展阶段的新变化。新常态中国经济中服务业比重明显上升,服务业占比超过工业成为经济增长主要动力;需求结构中的消费率明显上升,消费成为需求增长的主体。网络购物也为新常态中国经济贡献了自己的一份力量。

一、网络购物及发展现状

网络购物是指通过网络通信手段缔结的商品和服务交易,主要指发生在企业与个人(B2C)和个人与个人(C2C)之间的交易。用户通过互联网检索商品信息,并通过电子订购单发出购物请求,然后通过在线直接支付或者货到付款方式进行支付。购物网站主要有淘宝、天猫、1号店、当当网、京东、亚马逊等。

1. 2013年网络购物市场继续快速发展

2013年网络购物市场继续快速向前发展,交易金额达到1.85万亿元,较2012年增长40.9%(见图1)。2013年网络购物市场交易总额占社会消费品零售总额的7.9%。从上页图1看到,网购金额由2006年的258亿元增加到2013年的18 477亿元,短短七年时间增加了71.6倍,速度何等惊人!2013年服装鞋帽是网络购物市场最热门的销售品类,其购买人群占75.6%。其次是日用百货和电脑、通讯数码产品及配件,所占比例分别为45.1%和43.3%。网络购物用户中,购买化妆品和美容产品的占30.6%,购买书籍音像制品的占25.7%。此外,网络购物用户购买较多的产品还有充值卡、游戏点卡、手提包、箱包、家用电器、食品、保健品、文体用品等。

截至2013年12月,中国网络购物用户规模达到3.02亿,就是说在全国每4人中就有1人使用过网络进行购物。网络购物用户较上年增加5 987万,增长率为24.7%,使用率从42.9%提升至48.9%。网购用户由2006年的3 357万人增加到2013年的30 189万人,7年时间增加了9倍。网购用户规模的快速扩张为网购市场的发展奠定良好的用户基础,释放着巨大的市场潜力。

2.网络购物用户分析

在网购市场中男性用户占54.5%,女性用户占45.5%,男性用户高出女性用户9个百分点。男性用户购物多为需求驱动型,对价格不太敏感,偏爱的商品种类有电脑、通讯数码产品及配件和家用电器等。从年龄来看,20~29岁用户人群是网络购物市场的主力军,所占比例高达56.4%;其次是30~39岁的用户人群,所占比例为22.5%。教育程度方面,网购用户受教育水平多为大学本科,所占比例为35.9%。其次是大专学历和高中/中专/技校学历,所占比例分别为25.7%和23.7%。数据显示网购用户正逐渐向低学历人群渗透。网购用户中企业/公司职员所占比例较高,为36.0%。其次是个体户/自由职业者和在校学生,所占比例分别为16.8%和14.0%。网购用户的收入水平主要分布在1 001元~3 000元之间,所占比例为34.5%。其次是3 001元~5 000元收入水平,占比27.7%。整个网购市场半年度人均花费为3 240元。其中,东部地区半年度人均花费最高,为3 537元,西部地区半年度人均花费最低,为3 017元,这是因为东部地区人均收入高于西部地区。不同年龄代际横向比较来看,在购买不熟悉的产品时,“60后”决策时更看重购物网站的品牌。“70后”追求品牌的性价比,看重购物网站的品牌和产品价格的高低。“80后”更看重用户评价与网站的知名度和口碑。“90后”则更看重于用户评价。这与不同年龄代际的生活态度和购物习惯相关。数据显示,“70后”的月均网站浏览次数最高,为137次;订单转化率也最高,为44.0%。“90后”的月均浏览次数不高,为39次,但是订单转化率较高,为42.2%。“60后”和“80后”的订单转化率均不高,分别为23.9%和25.0%。因此“90后”作为网络购物的生力军具有较好的网购购物习惯,应该重点培养,加大“90后”用户流量[1]。

3.手机网购成为网络购物市场重要补充方式

目前,绝大多数用户群体通过PC端进行网络购物,手机购物逐渐培养出了一些忠诚用户,覆盖了从“60后”到“90后”的群体跨度,年纪越轻对手机购物的接受程度越高。手机购物在移动端商务市场发展迅速,用户规模达到1.44亿,使用率从13.2%提升到28.9%。手机网购已成为网络购物市场重要补充方式。作为PC端网络购物的补充和替代者,手机网购在分流PC端网购时间的同时,也占用用户的碎片化时间达成网购交易,成为网购市场中不容忽视的力量。数据显示,2013年半年度手机网购用户人均花费为1 271元,普通网购人均花费为3 240元,手机网购花费占普通网购花费的39.2%。

二、网络购物对传统零售企业的冲击

1.网络购物对传统零售企业的冲击

网络购物对传统零售企业有如下几方面的冲击:

交易选择冲击。对消费者来说,网络购物相较传统购物更为方便快捷,在商家转换和产品比对上都有了更多的选择。产品挑选、下单订购、交易支付均通过网络进行,消费者足不出户便可完成多种商品的“一站式”购物,大大节省了时间、物力和人力。

不受时间、空间限制。网络购物塑造了一个真正意义上的全球市场,打破了传统市场在时间、空间和流通上存在的各种障碍。比如,笔者帮儿子买参考书,广州断货的话,可以通过淘宝网在北京、上海等地买到。对于消费者来说,传统零售企业由于营业时间的限制,无法无间断为顾客提供服务,但网络购物却突破了这一限制,可以做到24小时营业无间断。

价格冲击。相对于传统零售业由生产商—批发商(多级)—零售商—消费者的营销渠道,网络购物由生产商(网络销售商)—消费者的营销渠道,减少了分销中间环节并节约了分销时间,商品购入成本更低。同时网店租金、人员工资方面的付出远低于传统实体店,运营成本显著降低。商品购入成本与运营成本的降低令网络销售商在与传统零售商竞争时拥有更大的竞争余地和价格竞争空间[2]。2013年电商企业从单纯的价格战转向服务竞争,通过网站商品展示页面的优化,售后服务水平的提升,尤其是物流快递的“极速送达”承诺等,提升消费者的网络购物意愿。

丰富的数据挖掘。大型电商平台对电商涉及的各种信息不断进行聚集,形成了一个包含用户身份、购物行为、商家营销行为、行业整体情况等多种数据的丰富数据库。平台通过信息搜索导航服务,为消费者提供不同电商平台的商品信息抓取比较,根据消费习惯进行个性化商品推荐服务。另一方面,通过消费者群体信息挖掘服务,为商家提供丰富的用户行为和交易数据,便于商家了解用户的消费行为、态度和习惯,更好地支撑精准化营销和大规模个性化定制。例如,阿里巴巴针对电商企业推出“云市场”的云计算服务,从淘宝用户搜索喜糖的周期可以看到,中国人的结婚高峰出现在10月前后,相关的商家可以根据多年连续数据分析情况提前做好生产和促销准备[3]。

此外,网络的普及、网民数量的急剧增加,为中国网络购物的发展提供了巨大的增长空间,传统零售企业的客户出现不可逆转的大量流失。相较于传统零售企业的扩张,网络购物的扩张成本低、扩张时间短,因此,网络购物交易规模的扩张速度令传统零售企业望尘莫及。

2.传统零售企业如何向电子商务转型

面对网络购物的巨大冲击,如何向电子商务转型是传统企业必须解决的一道难题。传统零售企业向电子商务转型有两个思路,即“电商渠道化”和“电商工具化”[1]。“电商渠道化”是指借力发力,入驻大型综合电商平台,拓展销售渠道。淘宝、天猫、京东等电商平台已经过十多年的发展历程,传统零售企业因缺少互联网基因,搭建自己的电商平台实属不易,即使建立起自己的电子商务网站也很难与互联网电商企业正面竞争,不如借力发力,入驻电商平台,将网店视为实体店销售的补充渠道。“电商工具化”是指传统零售企业向电子商务企业学习,借助移动互联网利用移动智能终端收集进入实体店的消费者购物行为数据,补齐短板。另外,无论互联网提供何种低价产品和便捷服务,总有一部分人群不认可互联网的品质和服务,也总有一部分人群不习惯使用也不愿意学着使用互联网。这部分人群构成商场和实体店的忠诚用户。传统零售企业可以收集这部分用户的消费行为数据,通过优质服务来满足用户的需求,留住用户。传统零售企业有良好的信誉、耐心的导购、成熟的售后服务、可试穿、注重购物体验等,弥补了网络购物的一些缺陷。

参考文献:

[1]  中国互联网络信息中心.2013年中国网络购物市场研究报告[Z].2014-04.

[2]  胡朝举,谢汉池.网络销售冲击下传统零售业发展策略研究[J].商业时代,2013,(33).

[3]  张媛媛.2012 年中国电子商务发展现状、趋势与社会贡献[J].现代电信科技,2013,(7).

[责任编辑   陈丽敏]

作者:刘冬平

网络购物数据挖掘论文 篇2:

基于僵尸网络追踪的网络购物安全技术研究

摘 要:随着互联网和电子商务平台的发展,网络购物已成为人们社会生活中的日常行为。僵尸网络是一种新兴的互联网威胁,其数量、规模和危害级别正在迅速增长,并已使全球网络进入新的警戒状态。尤其是在网络购物方面,僵尸网络常被不法分子利用而对网络购物平台发起网络攻击。众多真实的案例表明,利用僵尸网络追踪技术保障网络购物安全已成为从事網络安全的研究人员所重点关注的领域。文章以当前僵尸网络的研究技术为基础,进而对僵尸网络的检测与追踪技术进行归纳与总结,为学该领域的研究提供借鉴,并为网络购物平台日后在研制、开发和部署位于路由节点的僵尸网络检测与追踪实时监控系统奠定基础。

关键词:僵尸网络;网络安全;检测技术;追踪技术;网络购物安全

0    引言

僵尸网络 Botnet 是指采用一种或多种传播手段,将大量主机感染bot程序(僵尸程序)病毒,从而在控制者和被感染主机之间所形成的一个可一对多控制的网络。攻击者通过各种途径传播僵尸程序感染互联网上的大量主机,而被感染的主机将通过一个控制信道接收攻击者的指令,组成一个僵尸网络。僵尸网络具有隐匿、灵活的特点,并且可以高效地执行一对多命令与控制机制,这些特点使得被攻击者广泛接受并使用于实现窃取敏感信息、发送分布式拒绝服务攻击和发送垃圾邮件等攻击目的[1]。从1999年被发现以来,僵尸网络正在步入快速发展期,并已对网络购物安全造成了严重威胁,其特点如下。

(1)当下的网络购物平台拥有数量庞大的用户规模,并且用户具有高度分散等特点,这也为僵尸网络提供了非常便利的条件将自己产生的非法流量隐藏在用户产生的合法海量流量中。

(2)在当前的电子商务中,商家会根据用户的浏览兴趣、习惯与关系进行归类分组,这也使得社交僵尸网络窃取用户的个人信息与传播过程变得更加方便。

(3)当下的网络购物平台普遍具有开放性,这使得网络上的恶意用户可以利用平台的开放性进行欺骗,或诱惑性地使普通用户安装下载攻击性程序。

(4)此外,因为网络购物平台具有不会关闭的特点,使得僵尸网络可以长期生存在平台上,并且不易被查杀,随着时间的累积,僵尸网络的规模将逐渐扩大。

本文以当前僵尸网络的研究技术为基础,对僵尸网络国内外的检测与追踪技术进行了归纳与总结,分析了以协议、内容、流量为三大特征的分析检测技术,深入探讨了利用数据仓库、数据挖掘以及大规模拓跋可视化为技术出发点的追踪技术,并在总结僵尸网络演变规律的基础上提出了一个基于路由节点的僵尸网络检测与追踪解决方案。对僵尸网络进行检测与追踪的相关技术研究如图1所示。

1    相关研究

1.1  僵尸网络检测技术研究

1.1.1  僵尸网络检测技术

要想在路由节点上实现对网络购物中僵尸网络快速、准确的检测,首先就必须研究在路由节点对僵尸网络进行基于协议特征的检测、基于内容特征的检测和基于流量特征的检测。

(1)基于协议特征的检测。目前,僵尸网络主要利用IRC,HTTP和P2P3种协议进行命令的传输和攻击控制,研究这3种不同的协议在命令传输和攻击过程中的不同特征,尤其要研究在路由节点上呈现出的协议特征来检测僵尸网络的爆发。

(2)基于内容特征的检测。基于路由节点,对僵尸网络数据内容的特征进行研究。通过监控路由节点中的数据内容,分析并总结僵尸网络在传播、加入、控制3个阶段产生的数据内容的规律和特性,达到透彻了解僵尸网络在路由节点的数据内容特征的目的。

(3)基于流量特征的检测。基于路由节点,对僵尸网络流量变化的特征进行研究。通过监控路由节点中的流量数据,分析并总结僵尸网络中僵尸主机与僵尸服务器的特性所产生的流量数据的规律和特性,达到透彻了解僵尸网络在路由节点的流量特征的目的。

在此基础上,需要进行如下技术研究:

(1)不同的僵尸网络在协议特征、内容特征和流量特征上也具有很大的差异,所以需要研究这3种检测方法对不同的僵尸网络检测的速度和准确性。

(2)研究这3种检测方法对路由节点的性能和网络速度造成的影响。这3种检测方法都是基于路由节点的,可能会架设在主干网络的关键节点上,需要研究网络流量较大时对检测效率和网络延时的影响。

(3)研究如何在检测效率和对网络的影响之间找到平衡点,实现在对网络速度影响尽可能小的情况下,达到对僵尸网络快速、准确检测的目的。

1.1.2  国内外的具体研究成果

王志等[2]在对bot程序执行轨迹进行分析的基础上,提出了一种发掘僵尸网络控制命令集合的方法,对bot程序覆盖率特征进行分析,获得其执行轨迹,进而实现僵尸网络控制命令空间的发掘;臧天宁等[3]对已知僵尸网络内部通信行为进行特征提取,并利用这些特征定义云模型,进而分析判断已知bot主机群的隶属关系;在协同检测方面,王海龙等[4]提出的协同检测模型可以在信息、特性和决策3个层次进行协同,臧天宁等[3]提出的协同检测模型可以分析各种安全事件之间隐藏的关联关系,即使它们发送的地理位置不同、时间段不同。

1.2  僵尸网络追踪技术研究

僵尸网络的追踪技术是为了了解僵尸网络内部的活动过程,以便对僵尸网络的对抗环节变得有目的而为。本文分析总结了国内外近几年较为流行的追踪技术,在对比分析的基础上推演僵尸网络的演变规律,最终提出一套安全、稳定、高效的研究方案。

1.2.1  数据仓库技术

数据(仓)库系统一般都是大型应用系统的核心系统之一,其运行效率直接影响整个应用系统的效率。在整个应用系统的软件结构中,数据(仓)库好比整个系统的“咽喉”,它负责从底层分布的数据源提取整个网络中所有的关键业务数据并向上层应用界面提供实时、可靠与全面的数据支持。在基于路由节点的拓扑中,在路由节点上要捕获大量的数据,对于一个大型网络来说,会存在成千上万个节点,这些节点之间的连接关系要保存在数据库中,将会有巨大的数据量,所以必须使用数据仓库技术合理、有效地保存这些数据。

要构建一个数据仓库存储拓扑数据,就必须合理设计数据仓库中的各种表,选择是基于维度模型还是基于雪花模型。通过研究数据仓库技术,能够更好地组织在关键路由节点所收集到的数据,为下一步数据挖掘提供有力的数据支撑。

1.2.2  数据挖掘技术

数据挖掘技术(Data Mining)是一個近几年快速成长的领域,又称从数据中发现知识(KDD)。它的功能就是从海量数据中分析获取那些有效的、新颖的、具有潜在价值的过程,并且把这种知识发现的过程转化为最终可理解模式的非平凡过程。根据数据挖掘的应用领域不同,可以将数据挖掘模型分为分类模型、关联模型、顺序模型、聚簇模型、孤立点分析和演变分析等。在实现过程中,数据挖掘包括数据清理、数据集成、数据选择、数据变换、数据挖掘、模型评估、知识展示等几个步骤。

随着数据处理能力和数据挖掘技术水平的不断提升,人们现在可以快速地从海量数据中挖掘分析出对自己有用的信息与知识。在大规模网络的拓扑中,路由节点在网络中采集到了大量的路由信息,而这其中就夹杂着很多错误、重复的路由信息。通过对采集到的各种路由数据进行分析,找出其特征并结合目前世界上数据挖掘的主流技术,参照现存的各种数据挖掘算法,设计出一种合适的算法,能够根据数据仓库提供的各种拓扑数据,准确、高效地从原始数据中提取出网络拓扑结构,为上层模块功能的实现提供保障。

1.2.3  大规模网络拓扑可视化技术

平面可视化就是结合平面的全面性和可视化的可视性反映网络的整体拓扑结构。全面性是指能够在平面上看到拓扑图的所有点和边,要求点和边布局在平面上时不允许出现覆盖。可视性是指要使点和边的布局能够使拓扑图的显示具有清晰美观的效果。对于规模很大的网络,点和边的个数可能达到数十万个,其连接关系非常复杂。为此,基于分治法分解问题,解决子问题,把子问题解组合为原问题的解的模式,首先把大规模的网络拓扑结构分割成一些规模小的网络,然后将其逐一平面可视化,再通过对子图的布局把子图组合成一张完整的图,实现大规模网络拓扑的平面可视化。

通过研究平面可视化算法和图形显现技术,达到显示大规模网络拓扑的目的。显示的大规模网络拓扑要清晰、美观,能够准确地反映出大规模网络的拓扑结构。

1.2.4  国内外的具体研究成果

以C&C协议的全面性、高效性和全面性为基础,方滨兴等[5]提出了两种追踪手段。(1)以僵尸网络为主体,以渗透的方式加入僵尸网络以求掌握僵尸网络内部的活动情况; (2)结合C&C协议,在可控环境中运行Sandbo,通过对其通信的内容进行审计,从而获知僵尸网络的活动。针对IRC僵尸网络,Rajab[6]和Freiling等[7]通过Infiltrator渗入僵尸网络记录其内部活动。Cho等[8]在自动获取MegaD C&C协议的基础上,通过Infiltrator对MegaD进行长达4个月的追踪。通过追踪,不仅及时掌握了发送垃圾邮件相关指令和邮件模板,还结合Google Hacking获得了MegaD完整的、演进中拓扑结构。更进一步,通过分析不同控制服务器的垃圾邮件策略,可以发现MegaD是被两组不同控制者管理的。

2    僵尸网络检测与追踪解决方案

2.1  僵尸网络检测子系统

如图2所示,整个僵尸网络检测技术系统方案由3个子系统组成:分别为协议特征分析子系统、内容和流量特征分析子系统及决策算法子系统。这3个部分相互协作、有机协调,共同完成对僵尸网络的检测。

2.1.1  协议特征分析子系统

协议分析子系统主要功能是协议分析引擎在协议特征数据库的辅助下,通过对路由节点数据的采集与分析,从中分析出僵尸网络特用的协议,并把协议相关数据通过采集与预处理模块做规范化处理后提交给决策算法子系统[9]。若在提供聊天服务的IRC协议中植入了Botnet,可以通过检测路由节点那些不占用应用资源但是消耗流量资源巨大的服务,符合这种性质的大多数为非法的“僵尸”服务。

2.1.2  内容和流量特征分析子系统

内容和流量分析子系统的主要功能是内容和流量分析引擎在僵尸网络数据样本库的辅助下,对网络数据包进行内容和流量分析,然后将分析得到的可疑数据提交给训练与自我学习模块,进而进行数据挖掘处理,将数据挖掘与分析得到的结果提交给决策算法子系统。其中的僵尸网络数据样本库主要是用来存储已经采集到的僵尸网络通信内容和流量特征,该样本库的内容在检测系统检测过程中不断得到更新与丰富,使该内容和流量分析子系统能够不断适应新的情况,检测与发现新的僵尸网络。

2.1.3  决策算法子系统

决策算法子系统的主要功能是接收来自协议特征分析子系统和内容、流量特征分析子系统的数据,通过决策算法模块,采用神经网络与模糊数学技术,对两个子系统提交的数据进行检测,这样既可以在不依赖外部系统的前提下检测加密以后的僵尸网络,又能跨越僵尸网络的恶意行为,在僵尸主机停滞状态下检测出僵尸网络。特征提取会将非正常流量的数据特征存储到僵尸网络捕获数据库中,被僵尸网络样本库使用[10]。

2.2  僵尸网络拓扑发现子系统

如图3所示,僵尸网络拓扑发现子系统由3个子系统组成,数据采集和探测子系统、中间层处理子系统和拓扑前端显示子系统。

2.2.1  数据采集和探测子系统

数据采集和探测子系统的数据来源主要是由图3中的多个僵尸网络捕获数据库中的节点连接数据,经过预处理和规范化模块去噪后存入拓扑连接总表。由很多个路由节点捕获到数据,聚集在一起组成一个大的数据仓库,我们利用现有的数据挖掘技术,采用人工智能处理方式,提取出对拓扑显示有用的数据,大大提高了查询的效率。

2.2.2  中间层处理子系统研究

中间层处理子系统根据路径总表及IP地理信息等辅助信息表生成相应的拓扑连接关系表存放在拓扑信息库中[11]。

2.2.3  拓跋图前段显示子系统研究

拓扑信息库中存放着所有捕获到的僵尸网络中的傀儡主机和服务器,傀儡主机和傀儡主机之间,以及服务器和服务器之间的关系。拓扑显示模块从拓扑信息库中提取拓扑连接信息,以中国地图为背景,显示这些点与线之间的网络拓扑结构图。同时可以显示出僵尸网络的层次结构图,这样可以根据每个节点的度把所有节点分成傀儡主机、中心服务器和总控制机3种类型[12],更有利于对僵尸网络的反制和防御。

3    结语

僵尸网络以其灵活、高效和复杂的网络攻击特性,已经对网络购物的各个领域造成了巨大损失,这也是僵尸网络在近几年迅速成为网络安全研究热点的原因。本文首先深入剖析了僵尸网络的产生及危害,进而分析了以协议、内容、流量为三大特征的分析检测技术,深入探讨了利用数据仓库、数据挖掘以及大规模拓跋可视化为技术出发点的追踪技术,总结了国内外僵尸网络的追踪技术,并在总结僵尸网络的演变规律的基础上提出了一个基于路由节点的僵尸网络检测与追踪解决方案,结合最新的僵尸网络的研究,力图提炼出僵尸网络的未来研究方向,发现僵尸网络演化趋势下的新技术。

[参考文献]

[1]张蕾.僵尸网络特性与发展研究分析[J].河西学院学报,2010(5):76-80.

[2]王志,蔡亚运,刘露,等.基于覆盖率分析的僵尸网络控制命令发掘方法[J].通信学报,2014(1):156-166.

[3]臧天宁,云晓春,张永铮,等.僵尸网络关系云模型分析算法[J].武汉大学报(信息科学版),2012(2):247-251.

[4]王海龙,胡宁,龚正虎.Bot_CODA:僵尸网络关系云模型分析算法[J].武汉大学学报(信息科学版),2012(2):247-251.

[5]方滨兴,崔翔,王威.僵尸网络综述[J].计算机研究与发展,2011(8):1315-1331.

[6]RAJAB M,ZARFOSS J,MONROSE F,et al.A multifaceted approach to understanding the botnet phenomenon[C]//New York: Proc of the 6th ACM SIGCOMM Conf on Internet Measurement.ACM,2006.

[7]FREILING F,HOLZ T,WICHERSKI G.Botnet tracking: Wxploring a root-cause methodology to prevent denial of service attacks[C]//Berlin:proc of the 10th European Symp on Research in Computer Security,2005.

[8]CHO C Y,CABALLERO J,GRIER C,et al.Insights from the inside,A view of botnet management from infiltration[C]// Berkeley:Proc of the 3rd USENIX Conf on Large-Scale Exploits and Emergent Threats: Botnets,Spyware,Worms and More,2010.

[9]江健,諸葛建伟,段海新,等.僵尸网络机理与防御技术[J].软件学报,2012(1):82-96.

[10]李跃,翟立东,王宏霞,等.一种基于社交网络的移动僵尸网络研究[J].计算机研究与发展,2012(5):1-8.

[11]蒋鸿玲,邵秀丽.基于神经网络的僵尸网络检测[J].智能系统学报,2013(2):113-118.

[12]李光正,史定华.小世界网络上随机SIS模型分析[J].计算机工程,2009(12):281-288.

(编辑 王雪芬)

Research on online shopping security technology based on Botnet tracking

Hu Bowen

(School of Computer Technology, Qingdao University, Qingdao 266071, China)

Key words:Botnet; network security; detection technology; tracking technology; online shopping security

作者:胡博文

网络购物数据挖掘论文 篇3:

基于数据挖掘理论的网购顾客关联产品购买意向分析

随着互联网的全国性普及,物流业的蓬勃发展,网络购物以其更加低廉的价格、更多的商品选择等优势渐渐代替了实体购物。作为网络店铺主体,揣测消费者对关联产品的购买意向,在很大程度上能帮助网络商家进行更好的网络营销。本文基于大数据背景,充分结合数据挖掘理论中的相关技术,利用对以往顾客进行网络购物时的关联产品购买数据,进行数据信息挖掘,拟判断顾客的相关产品购买意向。本文仅仅以示例的形式从数据挖掘角度进行顾客购买意向的预判,并未进行大量实体验证,因此,文章所列内容只作为供参考的理论基础。

数据挖掘/关联产品/购买意向

一、前言

随着信息技术的普及、互联网的迅速发展、网络覆盖度的大幅提升,中国已经进入了网络时代。同时,中国实体营销也向网络营销迈出了长远的一步,网上宣传、网上策划以及网上促销等等一些列商家活动,都获得了很大的成功。网络支付方便快捷,网上产品丰富多彩,网上价格更加优惠,这些因素也成功吸引了购物者的眼球,使更多的人参与到网购行列中来。网上店铺的风靡与大批量现存及潜在的网购顾客成功开辟了市场营销的第二条路径,并且发展迅猛。

但是,网络商家间的竞争却也日益激烈,除了以更好的品质、低廉的价格、优质的服务来赢得更多的忠诚顾客外,还应对顾客的购买意向进行较为深入的感知与挖掘。在本文中,核心针对网络商品的关联产品网购意向进行举例式数学模拟分析(即以手机配件、屏幕保护膜及耳机等作为手机的关联商品,进行分析),并由此对一般性网络商品的关联产品的营销提出相关策略。

二、相关理论基础

(一)数据挖掘

数据挖掘(Data mining)是数据库知识发现中的一个步骤,是一个逐渐演变的过程,通过这个过程,可以把商业经验以及生活中的知识与海量数据进行对应结合,使得人们将抽象复杂的问题通用简单数字信息表现出来。利用数据挖掘技术,可以使人们更准确的认识问题,更深入的发现市场机遇,也可以做出更明智的决策。

商业活动中的数据挖掘可以这样理解:数据挖掘作为一种商业信息的处理方法,通过数据挖掘中诸多方法中的可适用方法,来进行商业信息数据的深层次剖析,从而进行抽取、转换、分析以及运用其他一些模型化处理方法,目的是获取能辅助进行商业决策的重要关键数据和关键的依托关系等重要隐含信息。

(二)关联规则

数据挖掘中的关联规则,也通常可以称作关联模式,它是单向的,是指某类项目或特征与另一类项目或特征间所存在的单向影响关系[1]。关联规则挖掘技术用于发现数据库中的属性之间的隐含联系,这和传统的生产方式规则不同,关联规则可以有一个或多个输出属性,同时,一个规则的输出属性可以同时是另一个规则的输入属性[2]。由关联分析方法的性质可以看出,该方法非常适合类似于购物篮类问题的分析解决。

以关联的角度来进行分析,能挖掘大量数据信息中隐藏起来的联系,这种被挖掘出来的联系就可以用关联规则来表示。即通过对以往数据信息进行汇总,将其作为数据挖掘的数据仓库,并利用数据挖掘类软件进行操作,便可得出相应的关联规则,再将挖掘出来的关联规则经过解释和评估,验证其可靠性,最后得出结果并应用。

三、关联产品的数据挖掘处理流程

鉴于网络市场的独有性质,对于客户的访问、消费、回馈等信息都能够很好的进行统计和存储,因此,网购顾客数据进行挖掘更加方便,应用更加高效。

当网购顾客访问某一个购物网站的时候,网络商家通过相应合理的数据统计工具对顾客的可统计信息进行数据类汇总,形成一个大型的顾客信息数据库。其中,针对本文所研究涉及的领域与内容,进行初步的数据筛选,获得具有针对性的初级数据源,为接下来的数据挖掘做好准备。

由于数据挖掘需要标准的数据来进行操作,因此,还需要对已经进行过初次筛选的数据整理,统一标准后才可以形成能进行数据挖掘操作的数据仓库。然后,对数据仓库运用数据挖掘技术进行深层次挖掘,获得更为重要的信息或关联规则。接下来对这些挖掘结果进行合理的解释评估,得到数据挖掘结果。数据挖掘结果不能直接作为数据挖掘模型终端,在进行结果应用的同时,要进行应用效果反馈,以持续调整数据挖掘算法,争取获得更为优化的数据挖掘算法,使挖掘成效最大化。鉴于以上描述,可以构建一个具体的据挖掘处理模型(如图1),通过模型中的步骤逐步进行数据分析与处理,最后预判网购顾客对关联产品的购买意向。

图1 关联产品购买意向的数据挖掘处理模型

四、关联产品购买意向的具体应用案例

关联规则作为本文中的一项重要规则,与传统的分类规则不同,关联规则中的各个属性可以重复出现在下一轮规则联系中。因此,在网购顾客购买任意产品或产品组合时,可以利用这一规则推断其关联产品的购买可能性和意愿强度。

经调研某专卖移动设备的网络商家发现,其产品主要可以分为手机和手机配件系列两大模块。其中,手机可以分为高端手机和普通手机,手机配件系列在本文中仅以手机护具和耳机作为主要案例资料。手机护具主要分为手机膜和手机防护外壳。以该商家的某月购物顾客访问后具体购买数据为例,获得其初步筛选后的数据表如下:

购买产品 成交次数 购买产品 成交次数

高端手机 150 高端手机、手机膜、

手机防护外壳 150

普通手机 200 普通手机、手机膜、

手机防护外壳 50

手机膜 300 高端手机、耳机 280

手机防护外壳 80 普通手机、耳机 200

耳机 120 高端手机、手机膜、

耳机 100

高端手机、手机膜 250 普通手机、手机膜、

耳机 60

普通手机、手机膜 150 高端手机、手机防护外壳、耳机 50

高端手机、手机防护外壳 100 普通手机、手机防护外壳、耳机 40

普通手机、手机防护外壳 120 高端手机、手机膜、手机防护外壳、耳机 10

合计总交易次数:2410

备注:为便于计算,以十位为最小单位,四舍五入保存数值

从上表中的数据及信息看起来比较混乱,因此,整理成较为直观同时更容易理解的二维交叉表形式,见下表:

Y

X 手机Y1 单独购买 合计

高端手机Y11 普通手机Y12

手机

配件

系列 耳机X1 440 300 120 860

手机护具系列X2 手机膜X21 510 260 300 1070

手机防护外壳X22 310 210 80 600

单独购买 150 200 总交易数:2410

合计 1410 970

根据交叉表中的数据,可以挖掘出很多关联规则,例如:手机膜和高端手机之间的关系(X21——Y11)。关联规则有着两个重要的属性:支持度和置信度。

(1)支持度(support):某项目集的支持度就是指在所有事物集数据库中,包含该项目集的所有事物占整体所有事物的比例。因此,手机膜与高端手机关联规则的支持度可以按如下计算:

Sup(X21——Y11)=X21、Y11同时出现次数/事件总数=P(X21Y11)=21.16%。

(2)置信度(confidence)是指在事物数据库中,购买了一类商品,同时又购买了另一类商品的交易概率,可以按照概率统计中的条件概率进行计算:

Conf(X21——Y11)=P(Y11/X21)=P(X21Y11)/ P(X21)=X21、Y11出现次数/X21出现次数=47.66%。

根据以上关联规则的计算方法,可以通过SAS Enterprise Miner等软件获得大量的关联规则。以本例中高端手机对各类手机配件关联规则的支持度和置信度数据表格,如下表:

组合 关联规则 支持度% 置信度%

高端手机—耳机 Y11—X1 18.25 51.16

高端手机—手机膜 Y11—X21 21.16 36.17

高端手机—手机防护外壳 Y11—X22 12.86 21.98

根据表格中计算的数据,可以明显看出,高端手机与手机膜关联规则的支持度最高,说明消费者在该网络店家上进行选择产品的时候,选择高端手机和手机膜进行搭配购物的人最多。同时,高端手机与耳机关联规则的置信度最高,为51.16%,说明与表中三个组合相比,到该网络商家购物的顾客购买耳机或者高端手机中任意一种,都有更高的可能性购买另一种产品,这种具有刚相关联的对应产品可以进行匹配型推销。

五、基于数据挖掘技术的关联产品网络营销策略

基于关联规则的数据挖掘方法,可以对网购顾客的关联产品购买意向进行深层次的剖析,因此,可以将这一理论应用在具体的网络营销中,提出相应实用的网络营销策略。

(一)以支持度为核心的网络营销策略

通过关联规则数据挖掘可知,一个购物组合支持度的高低,表明在所有购物搭配中,该组合被选中出现的概率高低。因此,通过进行大量的数据挖掘,可以在网络店铺所有购物数据中,将各种组合的支持度按照从高到低的次序排列。借助这个可以获知的排序,来安排产品搭配促销策略,一捆绑销售的模式提高产品的销售量。这样做还可以大大缩减购物者单独购买而产生的额外附加费用,如二次物流费、人工费、包装费用等等。对于购买者而言,还可以享受独有的购物组合优惠。总之,以支持度为核心的网络营销策略可以实现网络店铺与购物者之间的双赢。

(二)以置信度为核心的网络营销策略

在网络店铺中,置信度表示的是购买店铺内任意产品后,购买另一产品的交易概率,也可以理解成为购物者对置信度高的关联产品购买意向更加强烈。因为网络店铺往往都是一些相关产品或者是替代产品的集群,产品之间存在着或多或少的互补或搭配的关系,所以对于置信度较高的关联产品组合来说,更容易受到消费者的青睐。

经过数据挖掘分析,某关联产品组合的置信度高,即当购物者购买某一种产品时,立即自动推送与其相关联的高置信度产品。在对店铺内的所有产品销售数据进行数据挖掘后,关联规则中的置信度排序也呈现出来,那么消费者购买任意产品,都可以按照置信度从高到低排序,推送产品。这种信息推送方式就彻底颠覆了原有了同类替代产品信息推送模式,因为原有的替代品推送模式仅仅能在选择的时候提供多一种选择,究其根本对销售量没有提高,而以置信度为核心的网络营销策略却能大大提高销售量。

(三)综合支持度和置信度营销策略

在没有进行关联产品销售数据挖掘的网络店铺,对于店铺内的产品的融合度并不十分了解。对于某一产品,假如与任何产品关联组合的支持度和置信度都较低(不同店铺内高低水平不同,需具体参照),且该产品独自销售的概率或者利润偏低,那么该产品可以被视为该店铺内的不融合产品,在进行产品更新的时候,可以首选作为淘汰对象。

这种更新店铺重塑销售产品的方法也可以作为一种营销策略,作用不在于扩大销售,而在于提高店铺整体的销售效率和质量,是一种战略型营销策略。

以上三种营销策略是基于数据挖掘理论对网购顾客关联产品购买意向进行分析后,所得出的具有针对性的主要营销策略。这些策略充分利用了网络店铺信息数据获取易、产品信息推送方便、产品更新便捷等优势,同时结合数据挖掘关联规则的可应用性。但对于这些策略的具体成效还待检验,暂时仅仅为可执行的参考性营销策略。

六、结束语

在本文中,利用数据挖掘技术在网络销售方面的应用空间,重点将关联规则应用于网络关联产品是否购买的预判,进而有效帮助网络商家采取针对性的销售策略和产品推荐。

鉴于本文篇幅有限,虽然以一个具体案例进行验证说明,但并没有专门针对大型网络店铺数据库进行数据挖掘,因此需要实践者,应用所构建的关联产品数据处理模型中的调整数据挖掘算法的循环步骤,不断优化数据挖掘算法以及逐步剔除数据库中的杂质数据,使得数据挖掘结果更加可靠。同时,也希望更多学者对本文理论及思想进行不断的拓展和补充,获得更多的研究价值。

参考文献:

[1]安建华.数据挖掘技术在零售业中的应用研究[D].东北财经大学,2005年12月.

[2]Richard J.Roiger,Michael W.Geatz著.翁敬农译.Data Mining A Tutorial-Based Primer[M].北京:清华大学出版社,2003年11月.

[3]廖芹,郝志峰,陈志宏.数据挖掘与数学建模[M].北京:国防工业出版社,2012年2月.

[4]Xindong Wu,Vipin Kumar著.李文波,吴素研译.数据挖掘十大算法[M].北京:清华大学出版社,2013年5月.

[5]欧阳圣,数据挖掘在消费行为分析中的应用[D],湖南大学,2011年4月.

作者简介:李东辉,男,1989年5月,贵州师范大学经济与管理学院,管理科学与工程,研究方向:信息系统与电子商务。

舒煜,贵州师范大学经济与管理学院,管理科学与工程,研究方向:信息系统与工程。

作者:李东辉 舒煜

上一篇:高职学生班级管理论文下一篇:房地产营销策略的论文