搜索引擎与网络营销

2024-05-22

搜索引擎与网络营销(精选十篇)

搜索引擎与网络营销 篇1

搜索引擎营销作为网络营销的主要手段之一,以其巨大的用户访问量成为仅次于电子邮件的互联网的第二大应用,不仅使消费者在获取有价信息方面变得轻松自如,而且使企业能及时、正确地向目标客户群体传递各种产品与服务信息,挖掘更多的潜在客户,帮助企业实现更高的转化率。

2 搜索引擎的原理分析

2.1 搜索引擎的基本结构分析

搜索引擎是一个专用的WWW服务器,各搜索引擎的具体实现不太相同,但一般都包含Robot、分析器、索引器、检索器和用户接口五个部分,基本结构如右图所示。Robot一般采用广度优先或深度优先的策略,对Web进行遍历并下载文档;然后分析器对Robot下载的文档进行分词、过滤和转换等分析,提供给索引器使用;索引器将文档显示为一种便于检索的形式存储于索引数据库中,用户通过用户界面发出检索请求,检索器就从索引数据库中找出与用户查询请求相关的文档;用户接口为用户提供可视化的查询输入和结果输出界面。

2.2 搜索引擎的工作原理

究其本质而言,搜索引擎的工作原理属于技术层面的问题,企业营销人员只有熟悉并掌握了其工作原理后,才能根据企业实际营销环境制定出合理的搜索引擎营销策略。搜索引擎有自然搜索、目录索引、付费放置三大基本技术原理。

(1)自然搜索。

自然搜索指的是搜索引擎找到与搜索请求最相匹配网页的方法。首先,搜索引擎需要建立一个搜索索引数据库,以便用来存储网页上找到的词以及这些词所属的网页清单,它汇集了所有已在搜索引擎上登记的所有网页。搜索索引数据库的建立有赖于一个特别蜘蛛程序来实现其自动信息搜集功能。其次,搜索索引数据库建立完成以后,搜索引擎便开始分析搜索用户请求。再次,搜索引擎将检索结果进行排序。不同的搜索引擎有不同的相关性排序算法,但是所有的搜索引擎都有一定的共性标准技术,如关键词密度、关键词突出度以及链接流行度就是最重要的三个算法要素。最后,用户根据对检索结果的判断选择有兴趣的信息并点击URL进入信息源所在网页。

(2)目录索引。

目录列出了与它的主题类别列表中各主题最相关的网站列表。而目录列表曾是最早的搜索付费载体,一般都使用在目录网站上,它是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。分类目录的整个工作过程分为收集信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。营销人员可将企业网站提交给目录网站,以使网站显示在适当的主题类别之下。

(3)付费放置。

相比自然搜索用户点击率低、获得好的排名时间较长、维护工作量大的情况,付费放置比较容易控制、见效快、维护工作量较小。付费放置不是在搜索索引库中去寻找与客户搜索请求相匹配的网页,而是在一个广告主提交的存储所有关键词列表的网页的数据库中去寻找。这就是付费放置与自然搜索最大的差别所在,自然搜索按照相关性规则进行排序,而付费放置则依据“竞价排名”,即“谁出钱最多,就将谁排在付费放置结果的最前面”。

3 搜索引擎营销的模式分析

目前比较吸引企业的搜索引擎营销模式主要有搜索引擎优化、关键词广告、竞价排名、付费搜索引擎广告等几种。由于各种搜索引擎营销模式都有各自的特点和适用情况,企业应根据实际情况选择合适的搜索引擎营销模式。

3.1 搜索引擎优化模式分析

搜索引擎优化的主要工作内容是通过了解各类搜索引擎如何实现网页的抓取、索引以及如何针对某一特定关键词确定搜索结果的排名规则,来对网页内容进行相关的优化,使其符合用户的浏览习惯,并以快速、完整的方式将这些搜索结果呈现给用户,同时在不损害用户体验的情况下提高搜索引擎排名。搜索引擎优化的策略大致有以下几种。

(1)关键词策略。

一是突出关键词策略。首先是网站关键词的确定。关键词的选取一般在5个左右,而且关键词必须和网站内容高度相关,语句间的排列一定要符合搜索引擎的内在要求,把握好关键词的热门度。除词频外,关键词在文件中的位置也对自动索引器选词和计算词的权值产生影响。二是关键词密度策略。所谓关键词密度是指关键字数与该页面字数的比例。搜索引擎利用自身的算法来统计网页中每个字的重要程度,当然那些重复出现的词或短语的关键词密度要大些,所以,关键词密度越大,网页排名一般就会更靠前。

(2)充实的网站内容。

搜索引擎的优化应该是基于网站内容的优化,不断充实的网站实际内容,这是因为搜索引擎的蜘蛛程序只能通过网页内容来判断网站的质量,而不能从图片、flash动画上来判断。增加网站内容不仅满足了用户获取更多的有效信息和服务,而且由于搜索引擎收录的信息量是以网页数为单位的,这样无形中也增加了搜索引擎的收录。

(3)网站结构优化策略。

一是保持网站有合理的栏目结构。二是尽量少使用frame和iframe框架结构。因为框架是搜索引擎的盲点,他们一般很少顺着框架去抓取网站内容。三是尽可能使用静态网页。因为采用动态网页的网站在进行搜索引擎推广时,需要做一定的技术处理才能适应搜索引擎的要求。

(4)不要过于注重外部链接策略。

搜索引擎一般会认为外部链接较多的网站其重要性也相对较高。当然不是所有的链接都是公平的,要想获得较高的网站排名外部链接需具备一定的条件,一是链接文字必须含有自身优化的关键字;二是同类网站的优化水平要有保证。

(5)避免多个域名指向同一网站。

如果有两个或更多域名同时指向一个网站时,搜索引擎可能将其中一个URL收录,而把其他的URL列为复制站点,认为有网页复制与作弊行为,对排名极为不利。

3.2 关键词广告销售

关键词广告是在搜索结果页面显示广告内容,实现高级定位投放,用户可以根据需要更换关键词,相当于在不同页面轮换投放广告。目前关键词广告销售模式主要有固定排名和竞价排名两种形式。

(1)固定排名。

固定排名是指企业与搜索引擎供应商以一定价格将企业网站放置在固定位置的一种方式。这些具体的位置是由各个企业通过竞价购买来决定,并且在合同期内会一直保持不变,付费越高者在检索结果中排名越靠前。固定排名合同是根据事先定义好的几个关键词来签订的,但这种操作方式却有自身的缺陷。

(2)竞价排名。

竞价排名是搜索引擎关键词广告的一种形式,按照付费最高者排名靠前的原则,对购买了同一关键词的网站进行排名的一种方式,主要有传统竞价排名和效果付费两种模式。传统竞价排名是指同类企业按出价高低决定排名顺序。但随着搜索引擎技术的发展,出现了“混合竞价排名”方式,除了考虑价格以外,还以网站点击率为收费依据,即按效果付费,这样有效避免了企业打高价格战的恶性循环。

3.3 搜索技术出售

搜索技术出售是传统的一种收入模式,也是大多数搜索引擎公司所一直采用的方式。搜索技术出售模式向门户网站提供搜索技术,对于这些门户传过来的每次搜索请求都会收取一定的费用。如google、百度等技术领先的搜索引擎一直都承担门户网站的搜索外包业务。

参考文献

[1]陆昌辉,张光剑,陈佐,张丽(译).点击流数据仓库[M].北京:电子工业出版社,2004.

[2]方英.搜索引擎营销模式及其商业价值分析[J].商业时代,2009(3):65-67.

搜索引擎与网络营销 篇2

迄今为止,搜索引擎营销无疑是互联网络上最理想的目标访问量来源。据权威统计,全球有超过80%的互联网用户通过搜索引擎来寻找所需信息或产品。因而争夺网站在搜索引擎的搜索结果的出现位置,就成为这场日益升温的大战的焦点。

搜索引擎营销目前主要有两大流派:一种是竞价排名广告模式,也叫点击付费广告(PPC),另一种就是SEO,也就是搜索引擎优化推广模式。

PPC搜索引擎广告是按实际发生的广告点击数来向搜索引擎支付广告费用。客户的广告排名主要由竞标价格决定。它们一般以“赞助链接”的形式出现在搜索结果的左侧或顶端,有时也会出现在自然搜索结果中。

搜索引擎优化则指针对特定搜索引擎对网站从结构合理性,内容相关性及外部链接数量和质量等因素着手进行优化。经过全面优化的网站可出现在搜索引擎的自然结果的显著位置上。

PPC广告和搜索引擎优化,哪一种模式更好? 在回答这个问题之前,让我们先来对它们各自的优势和不足进行一个整体的评估。

PPC广告的优势

1) PPC广告的访问量,广告排名和广告效果比搜索引擎优化更具稳定性和预知性。

2) PPC形式虽然出现的比SEO要晚一些,但现在已俨然成为互联网络上最流行的一种广告传媒形式,因而较之于其它营销模式,PPC广告更易为客户接受。

3) 排名上具有独特优势。客户只须调整竞标价格就可以轻松控制广告排名,省去了搜索引擎优化寻找链接,交换链接等等繁复的工作。只要肯花钱,名列前茅简直轻而易举。

4) 通过PPC广告可对广告的客户转化率进行跟踪,进而调整关键词,使其达到最大绩效。

5) 搜索引擎对PPC广告的评审通过一般最多只需几天而已,因而能够起到立竿见影的效果。

PPC广告的不足

1) 这种广告方式的盛行决定了它在竞争上的激烈性。供不应求的市场局面亦使广告点击价格水涨船高。热门关键词的每点击价格往往高达五六美元,这是非有一定实力的公司所承受不起的。

2) 从长期效果考虑,其投资收益回报不及搜索引擎优化,

搜索引擎优化推广的优点

1) 自然搜索结果在受关注度上要比搜索广告更占上风。这是由于与和搜索结果同时出现的PPC广告相比,大多数用户更青睐于那些自然的搜索结果。

2) 建立外部链接,让更多站点指向自己的网站,是搜索引擎优化的一个关键因素。而这些链接本身在为网站带来排名提升,从而带来访问量的同时,还可以显著提升网站的访问量,并将这一优势保持相当长时间。

3) 能够为客户带来更高的投资收益回报

4) 网站内容的良好优化可改善网站对产品的销售力或宣传力度。

5) 完全免费的访问量,永远是每个网站的最爱!

搜索引擎优化的不足

1) 搜索引擎对自然结果的排名算法并非一成不变,而一旦发生变化,往往会使一些网站不可避免受到影响。因而SEO存在着效果上不够稳定,而且无法预知排名和访问量的缺点。

2) 由于不但要寻找相关的外部链接,同时还要对网站从结构乃至内容上精调细琢(有时须做较大改动)来改善网站对关键词的相关性及设计结构的合理性。而且无法立见成效,要想享受到优化带来的收益,往往可能需要等上几个月的时间。

3) 搜索引擎优化最初以低成本优势吸引人们眼球,但随着搜索引擎对其排名系统的不断改进,优化成本亦愈来愈高,这一点在热门关键词上表现最为明显。象“life insurance”(人寿保险)或“debt consolidation”(债务重整)这样的热门关键词,每年至少需要一到五万美元的优化成本预算。

孰优孰劣,这很难说。一般来说,如果公司的经济状况能够负担PPC的广告开销,那么PPC广告可以其见效奇快而被列为首选。对于广告预算比较受限的公司,则可把搜索引擎优化作为搜索引擎营销的首选。

两种推广方式的有机结合

PPC广告具有见效快,效果稳定的优势,但如果只用PPC广告进行推广,则会减少利润空间。搜索引擎优化虽不如PPC广告见效快,但从长远来看,它却具有投资回报高的优势。两者的有机结合可取长补短,有效降低广告成本。

案例一:可对竞标价格在承受范围内的关键词采用PPC广告形式,而对价格较贵的关键词采用搜索引擎优化进行推广。

案例二:可先对网站实施搜索引擎优化,并在优化见效前的一段时间先通过PPC广告方式达到快速收效的目的。

搜索云与社交网络 篇3

近一段时间,业界经常谈到很多云。其实数据是战略资源,每个云都是数据集合,也相当于战略资源的集合。一旦整个人类社会的某一部分数据慢慢动起来之后,就会形成很大的价值。比如说现在Web的发展就是个有趣的例子,数据集中在几个大的公司手中,各有某一类数据集,社交、娱乐、商品、生产力等等,那么接下来,这些数据是否可以被更有效的分享?

搜索的困境和方向

搜索是人们比较早就熟知和应用的一项技术。最早开始的时候,搜索这种技术有点像图书馆的“倒排表检索”,把所有互联网上的信息组织起来。直到现在,其实也还没有超出这种思路。但现在我们所看到的互联网上面,大概有上万亿个网页,其中约有250亿的页面可以被检索而有可能出现在用户搜索结果里,大概只是1%~5%,也就是说,目前互联网上的所有网页中,最多只有5%的页面,用户有机会看到。

这个问题其实一直都存在,只不过,因为现在信息大爆炸,面对数量庞大的网页,用户可能只有精力关注前100个搜索结果。如果再过10年,5%这个比例可能会迅速降到百分之零点几了。

既然大部分的计算给用户带来的价值越来越少,那么,我们能不能直接关注用户的需求?能不能像完成用户交给搜索引擎的一个任务那样,帮助用户作出决策并采取行动,而不是给用户10个链接让他们逐个打开,自己判断其中是否包含有用的信息?另外,由于绝大部分的网页用户根本看不到,那能不能将这部分搜索资源应用到更多的像应用软件在线商店这样的细分领域?

将来在互联网上会出现越来越多的微搜索,其范畴是比垂直搜索更细微、更细分化的应用或服务,帮助用户完成一些具体任务,搜索的对象会从内容向服务转变。与此同时,云计算的出现能够让现有的格局发生颠覆性变化,Web上现在已经出现了越来越多的应用和服务,这些应用和服务都可以被寄存在“云”里,有很多开发者对此都有强烈兴趣。以后的互联网将从目前的内容出版为主导,发展成为应用软件供应为主,而这些应用软件可以帮助用户完成任务。

具体说来,我们对搜索的战略性思考有5个大方向。第一是从组织所有的网页信息,到直接关注用户的搜索目的。搜索引擎一开始的目标是希望组织所有的页面,这个概念非常强大,但有弱点,而且现在的效率已经越来越低。因此要通过做需求理解(Intent Understanding)来关注用户的需求是什么,而不再是关键字搜索;第二是建立知识库,利用各式各样的挖掘技术,把结构性的Web中的对象(entity)关系抽出来之后,以知识的方法来表示;第三是语义的检索与任务完成,也就是帮助用户完成任务的搜索;第四是从搜索内容走向搜索应用和服务;第五是云平台和建立生态系统,在这样的生态系统中,会有更多的开发人员创建自己的微应用和微服务。

这些方向需要一步一步实现。互联网搜索现在面临的一大挑战就是,其最小的单元是网页,所以大家通行的模式都是以网页为单元进行排序。但是用户的很多搜索,是立足于找某一个人、某一家公司、某一个事件等等,这在英文里叫做entity或是对象。目前的搜索结果还是网页,但是用户要的是总结出来的对象,把相关的内容进行知识抽取、整合并总结,呈现出一个框架性的网页,快速得到有价值信息。

社交和云的机会

如果换个角度看待云,你会发现在目前的Web上存在这样几类云:第一种是信息云(Information Cloud),目前的几家主要的搜索引擎供应商是该领域的领导者;第二种是社交媒体云,比如Facebook之类的网站中,包含了相当多的用户数据;第三种就是娱乐云,比如XBOX Live的平台上也存在着大量数据和信息。

其中从搜索应用的切入角度看,最有希望和机会的是社交媒体搜索。搜索会与社交网络发生更多的融合,比如通过Facebook找人与人的关系,微软亚洲研究院开发的“人立方”关系搜索引擎,纯粹是机器自动抽取数据和信息,而这些信息全是Facebook上的用户手工产生的,这无疑将会得到非常全面的关系图谱。

接下来的一段时间内,我们将看到越来越多的搜索会很令人吃惊地整合起来,在任何地方都能应用。比如现在与地理位置相关的应用和数据,就已经开始慢慢成熟起来。诸如此类的融合应用会变得更加丰富,相应的,不同应用中的搜索也会有越来越多的需求。

搜索是考验一家公司将来在互联网计算方面的最高技术水平。把搜索做好,无论是整个基础架构、大规模的数据处理能力、建数据中心的能力,还是算法和文本分析等能力,也就都顺利成章地解决了。这个时候,搜索也就变成了一个表象。

搜索其实就是一个超级计算机,敲进一个关键字,为什么这么大量的信息同时返回来?因为全世界的几千台服务器同时“作战”,这样超级的计算能力自然只要几毫秒。PC已发展了30年,直到今天还有很多数据是以“孤岛”的形态存在你的手机里、即时通信软件里、在图片库里等等。“云+端”可以连接所有的数据、设备、应用和服务,最终连接所有的人和事件。数据是核心,“云+端”平台的整合,就是要把人类社会历史上的最后一公里走完。

这也是我们所正在面临的一个历史机遇。其下一步就是所谓的自然用户界面,比如“云+端”的界面,这会让任何人都更加便捷地像使用搜索引擎那样拥有超级的计算能力。有人经常问我说,你要这个能力干吗?在1975年的时候,比尔·盖茨曾有这样的梦想,他希望每个人桌上都能放一台桌面电脑。当年有很多人嘲笑过他,因为只有像美国国防部那样的机构才需要电脑,普通老百姓要电脑能做什么?但是,30年之后,现在每个人的生活都已经离不开电脑。

个人电脑的发展走过了这个过程,那么“云+端”平台的整合,将把一台超级电脑摆到每位用户面前,将来的潜力有多大?这个时间点就像在1975年,看你有没有想象力和足够的创造力,把这样庞大的、人类历史上从未有过的计算能力发挥到极致。任何关于未来的预测都是很困难的,不过有一点非常明确,那就是,整个转变的进程已然开启,并且无法逆转。这意味着,无论是硬件还是软件,无论是互联网还是移动通信领域,都正在面临同样的历史机遇。

一个网络搜索引擎的设计与实现 篇4

网络搜索引擎 (Web Search Engine) , 是伴随着互联网的发展而出现的人们上网必不可少的简单方便而又实用的入门工具, 没有搜索引擎就像冲浪的时候没有冲浪板, 面对滔天海水, 只能望洋兴叹, 没有搜索引擎面对浩如烟海的网上信息我们将无从下手, 找不到我们希望得到的信息。网络搜索引擎是对网络上网页的一种检索系统, 有的提供分类和关键词检索途径, 有的仅提供关键词检索途径。它根据检索规则和从其它信息服务器上得到数据并对数据进行加工处理, 自动建立索引, 通过用户界面为用户提供查询检索服务, 能够对互联网上的资源进行分类提供人们感兴趣的话题以供查询, 并返回能够让用户满意的结果。

在此我们将通过java语言和htmlparser开源工具包及微软的SQL Server数据库来构建一个简单的搜索引擎。这只是对搜索引擎的工作原理和概念的一种简单的实现和验证。本文将介绍如何构造出一个网络搜索引擎的关键部分———网络爬虫。

2 网络搜索引擎的组织结构

网络搜索引擎主要由网络爬虫、索引器、检索器和用户接口四大主要部分组成。

网络爬虫:又被称为网络蜘蛛, 网络机器人, 是一种按照一定的规则, 自动的抓取万维网信息的程序或者脚本。从一个或若干初始网页的URL开始, 获得初始网页上的URL, 在抓取网页的过程中, 不断从当前页面上抽取新的URL放入队列, 直到满足系统的一定停止条件为止。

索引器:功能是理解网络爬虫所搜索到的信息, 从中抽取出索引项, 用于表示文档以及生成文档库的索引表。对数据库中的网页内容进行分析, 提取网页信息, 依据一定的相关度算法进行大量复杂计算, 得到每一个网页及超链中每一个关键词的相关度, 然后用这些相关信息建立网页索引数据库。

检索器:根据用户输入的查询请求, 在索引数据库中快速检索文档, 进行相关度评价, 对将要输出的结果排序, 并按用户的查询需求合理返回让用户满意的信息。

用户接口:提供图形用户接口, 接纳用户查询、显示查询结果、提供个性化查询项, 使用户的查询请求可以直观、栩栩如生地表现出来。

搜索引擎的实现需要完成三个部分的功能, 抓取网页、处理网页、提供查询服务。

抓取网页:完整意义上的网络搜索引擎都具有自己独立的网络爬虫程序。网络爬虫沿着网页中的超链接不停地抓取网页。从抓取的网页中解析出指向其他网页的超链接, 网站基本上都是建立在超链接的基础之上的。所以从理论上来说, 从一个经常用到的网站主页出发, 就可以抓取到网络上所有的网页, 被抓取的网页被称之为网页快照。

处理网页:搜索引擎抓到网页后, 需要对网页进行大量的处理工作, 然后把处理好的网页送往数据库中, 以便检索器在数据库中进行检索。其中包括提取关键词, 建立索引文件数据库、对重复网页网页的处理、中文分词的处理、判断网页类型、解析得出超链接、计算网页的页面排名等。

提供查询服务:用户使用关键词进行检索时, 提供图形化易于理解和操作的用户接口, 以便用户进行检索, 检索器从索引数据库中进行检索, 得出和用户的查询请求相匹配的查询结果, 并返回网页的一个页面快照, 方便用户进行网页和查询结果的挑选。

搜索引擎是对不对互联网进行直接搜索, 通过对已抓取的网页数据库建立的索引库进行搜索, 使得返回的结果快速而又高效高质量, 索引和页面排名在搜索引擎中中扮演了最为重要的角色, 页面排名和索引算法的效率直接影响搜索引擎的效率, 是评测搜索引擎准确性和性能的重要因素。

搜索引擎的收集HTML、XML、Newsgroup文章、FTP文件、word文档、图片、MP3和视频等。为了提高信息发现和更新的速度, 搜索器的实现常常采用分布式、并行计算技术, 同时搜索引擎的数据库每隔一段时间进行更新。

3 系统设计

系统主要包括分四个部分:

(1) 网络爬虫:搜索引擎的基础, 负责抓取索引数据源。

(2) 索引数据库:对网络爬虫抓取到的网页建立索引, 生成索引数据库, 供查询用。

(3) 全文索引:利用SQL Server 2008方便地实现全文索引。

(4) 搜索模块:用户的查询字符串传递给服务器, 服务器通过在索引数据库中进行搜索, 然后将得到结果集返回给用户

网络爬虫生成了一个URL待处理表, 并把这个链表交给控制器进行处理。处理过程中, 首先是页面的解析, 从而筛选出需要的内容。对筛选出的内容分词、过滤之后, 再由索引器对其建立索引数据库, 从而形成了一个索引库。

4 系统实现

接下来从总体和细节两个方面对网络搜索引擎进行描述, 并对其中的一些重要部分进行了详细的说明, 主要包括对实现网络爬虫的流程、索引数据库、全文索引的方面。

4.1 网络爬虫的实现

网络爬虫的工作流程如图2所示。

(1) 初始化URL等待表

默认情况下用http://www.baidu.com这个URL初始化URL队列, 当点击开始抓取网页时会把这URL个放入URL等待处理表中。调用函数urlisok () 对输入的字符串进行处理, 若是可以连接的URL, 则返回这个URL的名称。判断输入的URL是否有效。若是不为空, 则有效, 为空则不能访问的URL。函数insert_1 () 访问数据库zhy_data, 把URL放入表URL等待表中。提醒重新输入一个URL。上面的这些函数和过程通过函数process_url () 调用实现初始化URL等待表。实现这个过程的流程如图3所示。

(2) 判断是否满足结束条件

查询表urlpool。若结果集的首行为空, 或取得指定数量的网页, 则结束程序。查询表的时侯, 得到一个URL, 同时在urlpool表中删除此URL对应的行。在解析此URL指向的网页中的新URL的同时, 同时把此URL指向的网页进行处理, 放入供查询用的数据表中。利用一个while () 循环执行此过程, 直到满足结束循环的条件为止, judge () 函数用于判断表urlpool是否为空, 若为空返回false, 否则返回true。max为已得到的用于建立索引的网页的数量。表头URL出表, rs.next () 使游标能够在访问表urlpool得到的结果集中移动, rs_1.get String (1) 获得URL。

delete_1 (str_url) 函数删除在urlwaiting中的str_url指代的URL。实现是否满足结束条件的处理过程如图4所示。

(3) 下载URL指向的网页

调用htmlparser包中的类Parser实例化一个对象parser, parser.set URL (str_url) 用于设置parser访问的URL, parser.get Encoding () 用于获取str_url代表的URL指向的网页所用的编码。

(4) 抽取网页中的URL

建立一个锚过滤filter用于过滤网页的节点。Parser类的方法extract All Nodes That Match () 。用于解析过滤得出上一步中parser对象中的网页中的URL。过滤后得到得到想要的节点。得到网页中的猫节点, 并转换成字符串表示。Found_url.urlisok (link.get Link () ) 判断得到的URL是不是一个可用的URL, 若URL可用, 则把代表此URL的字符串返回给字符串string, 若此URL不可用, 则返回null。

(5) 新URL插入URL队列

函数waiting () 用于判断表urlwaiting中是否有string代表的URL, 有返回true, 无则返回false。如果flag_2为真, 则调用函数update_2 () 用于更新表urlwaiting中string代表的URL。Insert_2用于把string代表的URL插入URL等待表中, newfirst代表此URL的优先级, newpoint代表指向此URL的链接数。流程如图5所示。

4.2 索引数据库的实现

索引数据库的实现流程如图6所示。

sta_1.execute Query (query_1) 用于从表urlwaiting中取出url进行处理。利用for循环实现对网页数量的控制, i表示要取的网页数不超过100个, re_1.next () 表示表urlwaiting中是否还有URL可用, 下面几段所涉及的函数和表达式都包含在这个for循环里面。rs_1.get Int (2) 用于获得优先级, rs_1.get String (1) 用于获得URL函数delete_1 () 用于删除表urlwaiting中包含指定URL的行。update_1 () 用来更新urlprocessed表中str_url所代表的URL, 函数insert_3 () 用于向表urlpool中插入数据, got_title () 用于获得网页的标题, text () 用于获得网页的内容, insert_1 () 实现把URL及网页内容插入表urlprocessed, processing () 用来判断urlprocessed表中是已有str_url所代表的URL, 有返回true, 没有返回false SQL Server 2008提供了全文索引的功能, 在数据库中建立全文索引的过程比较简单, 只需要按照相应的提示即可完成操作。全文索引也可以直接利用java代码实现, 在数据表urlprocessed中全文目录catalog_1上建立全文索引。

4.3 搜索的实现

搜索的功能是基于JSP的技术和tomcat服务器的技术上实现的, 用户通过index.jsp页面提交form表单, Indexservlet类获得用户的查询请求, 然后开始处理用户的查询请求。根据查询合不合法, 找没找到查询结果返回用户不同的页面。其处理过程如图7所示。

查询的处理用到了两个比较重要的类:

(1) Indexservlet类

Indexservlet用于处理用户的查询请求, 根据判断用户的查询请求是否合法, 由此返回给用户不同的处理界面。Indexservlet中包含对用户查询的各种处理, 包括滤掉那些对查询没有帮助的字符, 对于较长的查询请求进行截断。

(2) Test1类

调取result.jsp, 实际上result.jsp调用了类Test1的一个实例。如果这个索引数据库中查找到匹配的结果, 那么就对结果进行排序, 处理后返回给用户正常的查询结果界面。如果没有找到任何结果, 那么就返回给用户notfind.jsp。

get_result () 函数用于在索引数据库中进行全文索引, 搜索包含str代表的字符串的URL, 搜索的同时对结果进行排名。

5 结语

本系统的实现使用了htmlparser和数据库结合使用的方式,

本系统还存在着在对搜索引擎的数据结构和数据库进行优化处理, 从而让数据库中可以准确而高效的存储网页文档和检索用户索引的信息、采用更合理的数据库更新机制等方面可以进行进一步研究和探讨。

摘要:网络搜索引擎是指自动地从网络搜集信息, 经过处理后提供给用户查询的系统。设计了一个网络自动搜索引擎, 给出了系统的设计框架和各组成模块之间的关系, 从系统代码实现的角度详细说明了实现思路和方案, 并基于htmlparser开源工具包和SQL Server 2008数据库实现了该网络搜索系统。

关键词:网络搜索引擎,网络爬虫,全文索引,htmlparser

参考文献

[1]张艳琼.基于Web Service的工业控制系统研究[J].微计算机信息, 2008, 08 (3) :58-63.

[2]陈会果.数据挖掘技术浅析[J].科技创业月刊, 2010, 23 (11) :167-168.

[3]熊筱晶.R语言在PubMed数据库文献检索方面的应用[J].医学信息:上旬刊, 2009, 22 (1) :42-45.

[4]欧荣.PubMed, ISI-Medline, Google Scholar检索性能对比测评[J].医学信息学杂志, 2009, 30 (12) :37-40.

[5]何蛟, 崔雷, 侯跃芳.面向主题词/副主题词的PubMed数据挖掘软件[J].中华医学图书情报杂志, 2005, 14 (1) :49-51.

[6]许丹, 朱斐.从PubMed数据库中挖掘生物医学中的十大热点话题[J].计算机与现代化, 2013, 1 (209) :192-195

[7]车敦仁.周立柱.王令赤.面向对象数据库系统的体系结构[J], 软件学报, 1995年10期, 599-606

[8]潘定;沈钧毅.数据仓库中实时元数据管理的研究[J], 计算机工程, 2000年05期, 29-31

搜索、广告与长尾网络广告 篇5

那么互联网之所以伟大,之所以重要,我想第一个最重要的就是它是最大的计算平台,有史以来最大的。大家都听说过网格,可以说从来没有出现过比互联网更大的网格。互联网也是最大的数据库,一些资料是非常宝贵的,把这些信息串联起来,肯定是最大的分布式的资料库。

互联网以前常常被人家忽略,现在大家也比较理解,因为它形成了最大的社区网络。每台机器前面都有一个人,互联网把人与人串联了起来,肯定是有史以来最大的人际网络,而且这个网络打破了所有的国界,打破了所有的种族等地理与文化上的区别。所以,我们可以很轻易的和一个远在非洲的,从来没有见过的人交谈,这是互联网可以做到的事情,同时在商业上也提供了最有活力的市场。

下面我们来谈一谈互联网经济,这就不得不提到长尾效应。传统上我们认为主流是重要的,举个例子,假如我今天卖书,我就卖最畅销的10本书,这听起来很合理,我有一个书店,我只要卖最畅销的书,就能卖出较多的书。但是在互联网上就不一样了,原因是这样的,你知道最畅销的10本书,我也知道最畅销的10本书,你卖我也卖,最后都降价,杀得血本无归,都赔钱,这也就是长尾理论中的红海效应,就是大家杀的最后血流成河,最后大家都死了。那么大家也肯定听过蓝海效应,那才是真正的战场,真正的机会其实在尾巴上。虽然今天我也看畅销书,但我保证每一个人有喜好。听音乐是这样,看书也一样,有一些书不一定大家喜欢,有一些音乐虽然你喜欢,但不一定大家都喜欢,所以我常常讲的理论就是每一个人都有自己的爱好,

那么今天的互联网一定要照顾到大多数人的爱好。如果说有一个店号称它所卖的书从畅销书到任何一方面都有卖,那么这个店一定是每个人的首选。因为我们大家都不希望今天买这个书要到这里买,买其他的书又要到另外一个店去买。以前如果期望一个店能卖全世界所有的书,这是不可能的,因为你的物理空间不允许你卖所有的书,这可能导致有的书有可能一年只卖掉一本,你放在那里最后肯定是亏了。但是为什么互联网可以做到长尾呢,因为它营造了一个虚的空间,你不需要依赖于库藏。倘若你今天说要哪本书,我收了你的钱后才找到出版商,出版商了解情况后甚至都不马上去印,只要有足够的人买才会印,在没有互联网的时代这些以前是绝对做不到的,所以长尾效应很重要,我们要打破以前的规矩。主流的东西是很容易做的,但是难就难在照顾每个人的爱好。所以所有会成功的东西都会照顾这个长尾,搜索也是一样的,如果大家觉得这个搜索引擎非常好,那么它一定会照顾很多人的爱好。

那么从互联网的长尾经济事实上就得到了这样一个事实,我可以说我完全能买到全世界所有的书、所有的音乐了。但是这空说无凭,你必须要让人家知道你真的有那本书,比如说把书名在检索框中输入之后,在线搜索结果说明你真的在卖这本书,才说明你才可能拥有它。所以搜索很重要,它和长尾效应是相互呼应的。

那么广告为什么重要呢,原因也很简单,跟长尾效应结合起来更加的重要。我们说最好的商业架构就是说今天买方和卖方直接碰头了,不用透过大盘,中盘,小盘,还有经销商。按照传统的经济模式,假如我是在浙江卖鞋,我要把鞋卖到意大利去,我先要把鞋运到港口,再从港口运到意大利,意大利通过大盘,中盘,小盘,最后卖到消费者手里,那么经过很多道转手和盘剥之后,我实际能够赚到的很少。如果我可以直接找到意大利的买主的话,就可以减少中间倒手的工序赚更多的钱,也可以卖比较便宜的价钱。今天广告就提供这个信息服务,尤其对于长尾效应来讲的话,现今互联网有一大堆小店,大家都可以自己开一个网上商店,那么怎么样让别人知道你在卖鞋,事实上做的就是广告。假如搜索提供商能够帮你找到更多买家的话,我想你是绝对愿意付给搜索提供商一点一点钱的。所以说为什么搜索和广告这么重要,而搜索和广告的结合和长尾效应都非常的相关。

搜索引擎与网络营销 篇6

中国网络广告市场集中度较高搜索引擎与门户网站仍占据市场主体地位

2009年,两大搜索引擎运营商百度、谷歌分列中国网络广告核心媒体市场份额排名前两位,其份额分别达21.5%和10.8%;

五家综合门户网站分别位居第三、五、六、七、八位,市场份额分别为7.4%、5.8%、4.8%、1.8%和1.5%。

百度、谷歌两大搜索引擎运营商共同占到中国网络广告市场32.4%的份额;而新浪、搜狐、腾讯、网易和MSN中国五家综合门户网站市场份额共计21.3%;七家媒体合计份额达53.7%。

淘宝位列中国网络广告核心媒体市场份额排名第四位,其份额为7.2%;优酷网的市场份额分别为1.2%,分列第九位。

九大核心媒体市场份额总计达62.0%,中国网络广告市场集中度处于较高水平。

优秀垂直类网站的媒体价值得到广泛认可中国网络广告市场初现多元发展趋势

2009年中国网络广告市场核心媒体网络广告营收排名前几名中,共有两家搜索引擎运营商和五家综合门户网站。与此同时,有两家垂直类媒体进入前九位,分别是电子商务类的淘宝网和视频分享类的优酷网。艾瑞咨询认为,优秀垂直类网站的媒体价值已经得到广泛认可,广告主在网络广告投放策略上有了更多选择,中国网络广告市场初现多元发展趋势。

2009年百度网络广告收入最高,达44.5亿元,同比增长39.1%,远远领先其他媒体;谷歌紧随其后排名第二位,网络广告营收为22.5亿元,同比增速高达64.2%。艾瑞咨询认为,品牌广告主对于性价比更高的搜索引擎广告的认可以及中小企业广告主09年二季度以来营销预算的回升,是09年百度、谷歌两大搜索引擎运营商网络广告营收规模继续快速发展的最主要原因。

2009年中国网络广告市场核心媒体网络广告营收排名中,共有5家综合门户网站:新浪、搜狐、腾讯、网易和MSN中国,其网络广告收入分别为15.4亿元、12.1亿元、9.9亿元、3.8亿元和3.1亿元。

2009年淘宝网网络广告收入达15.0亿元,排名第四位,淘宝网上的网络广告形式主要包括淘宝直通车广告、品牌广告、钻石展位广告等几类。艾瑞咨询认为,电子商务市场近年来的高速增长在推动中国网络经济发展的同时,也使以淘宝网为代表的电子商务网站的媒体价值得以提升,并越来越受广告主青睐。

搜索引擎与网络营销 篇7

当今社会随着信息化的快速发展, 信息的获取已成为人们生产生活最频繁最重要的活动之一, Internet的发展改变了传统的信息传输渠道, 大量的信息甚至可在短短的几秒内就从地球的这端传到那端。

新闻信息的发布已历经从传统的纸质媒体到电子媒体的变革, 各新闻门户网站也如雨后春笋般涌现, 科技的变革往往带来生活方式的变革, 人们获取新闻信息的方式也从传统的被动接受方式转变成主动搜索方式, 甚至将来的交互式问答方式。在其中发挥核心作用的就是信息检索技术。目前, 尽管Google等搜索引擎公司推出了新闻搜索系统, 但其技术未予公布, 用户也无法对其改进以使系统更加个性化, 而且, 各类信息提供商也经常需要提供搜索引擎来方便用户对信息的获取。因此, 研究专业信息领域的搜索引擎技术有着重大的意义和巨大的市场价值。本文研究中文新闻搜索引擎的构建技术, 并基于开源的Lucene[1]java软件包实现了一个原型系统。

二、系统概述

1. 设计目标

本系统考虑新闻检索的特点, 如时效性、权威性等特点, 基于Lucence, 引入网页解析技术提取网页中的新闻, 利用中文分词技术对新闻内容分词, 同时引入Page Rank技术对评分系统进行修改, 使其能够很好地满足用户需求。

2. 系统框架

Web搜索引擎的建立, 包含从网页文档抓取, 解析, 再到建立索引, 发布搜索, 是一项复杂的工作。在本研究中, 新闻网页数据集选自新浪, 搜狐, 雅虎, 中国新闻网等权威门户网站, 系统不仅能实现一般的Web搜索引擎提供的关键字搜索, 同时它又有别于一般的Web搜索引擎, 可以满足用户对新闻搜索的特殊需求。系统先利用Web Zip工具从不同的新闻网站定时抓取网页, 将网页保存于本地磁盘, 然后利用Htmlparser解析网页以提取其中的新闻内容, 发布时间, 网址链接, 本地路径。对网址链接用Page Rank技术计算其重要性;利用中文分词技术对新闻内容进行分词, 再由Lucene分析器进行分析, 结果提交给索引器建立索引。将索引结果和Page Rank值提供给搜索器, 在用户对搜索器发出请求后, 返回相应的查询结果。

三、系统模块和设计

1. 抓取网页

我们使用软件Webzip作为抓取网页的工具, 由于待抓取的是新闻网页, 我们选择了几个权威的网站 (搜狐, 雅虎, 中国新闻网) 作为我们实验数据的来源, 具体步骤如下:

首先, 创建一个工程, 并在工程的地址栏中输入待抓网页的网站根目录如www.news.sina.com。

其次, 在工程的属性中进行一系列的选择:filetype选择HTML, 在linklever中选择all level表示可以抓取任意层次的网页, 在pagelocation中选择within current site表示只抓取该网站的网页。

我们用Webzip总共抓取了700多兆的数据量用于实验。

2. HTML解析与中文分词

由于Lucence只支持txt等纯文本格式的索引, 对于HTML这类包含标签的数据我们需要进行解析过滤后才能进行索引, 我们利用开源的HTMLParser[3]对网页进行解析, 提取网页中的新闻标题, 发布时间, 新闻内容和链接地址, 滤掉标签等不必要的信息。我们将解析器解析出来的文本利用中文分词工具ICTCLAS[4]进行分词后传递给Lucence的索引器建立索引。

3. 建立索引

先利用Lucene的分析器去掉常用词, 统一大小写, 替换同义词等。然后就可以对四个域进行索引, 分别是”p a t h s”, ”contents”, ”time”, ”title”。这样搜索就可以建立在这四个域上, 根据不同的搜索需求对不同的域进行搜索。比如需要查某个时间的文档, 就只需要搜索”time”域。

4. 建立搜索函数

在索引建好的基础上我们需要建立搜索API, Lucence的搜索机制是根据用户输入的关键词, 用其分析器 (这里我们先用ICTCLAS进行中文分词) 分析关键词, 再将分析结果传给搜索函数进行搜索, 返回命中文档的集合。在本系统中我们提供了两个搜索函数:一个是Lucence搜索函数的改进版, 它结合Lucence的评分规则和Page Rank;另一个根据时间排序。

在搜索引擎的研究中, 一个核心问题就是评分规则的确定, 如何确保用户感兴趣的网页或重要的富含信息的网页得分较高, 这是一个较难的工作, 也是一个研究热点。较成熟的方法包括向量模型, 贝叶斯网络等。Lucence采用的是向量模型, 基本思想是将文档依据关键词映射到一个向量空间, 根据词频和逆词频来计算文档的权重, 然后计算查询向量q和文档dj的相似度, 此相似度便作为查询文档的得分。由于Lucence只考虑了文档自身的内容, 没有考虑文档间的关系, 而文档间的引用关系往往能反应文档的重要程度;就比如经常被引用的论文往往是好论文, 尽管可能它的文档内容得分不高, 但因为它足够权威, 我们还是要提高其得分。Page Rank便基于类似的思路利用网页间的链接关系来计算网页的重要性, 该技术已经应用在Google上。于是我们引入Pagerank对Lucence的评分机制进行修改, 在计算向量模型时加入Pagerank的值, 再进行规范化处理。

5. 重要新闻的提取

之前我们所做的工作主要是给用户提供关于新闻的搜索功能。除了搜索服务, 我们在网页上还要提供给用户一个新闻浏览的平台, 让用户知道现在什么新闻最重要, 甚至可以在将来开发个性化推荐系统。因此提取重要的新闻是一项很关键的工作。在我们的研究中, 该问题的解决方法如下:

A.首先提取每条新闻的标题, 利用Lucene分析器对标题去除停用词并进行分词。

B.对每个标题, 我们根据向量模型比较它与其他标题的相似度, 得到其分数titlescore。

C.对于新闻出自的网站按其网站的重要性对每个网站赋予不同的权值weight。

D.对于新闻的出现位置, 我们认为它对评分也有影响, 采用如下的公式:timescore=1-i/ (2*legnth) 。其中i表示该新闻在网页上所处的位置, length表示当天总的新闻数。

E.最后我们综合所有的评分因子得到如下的公式:

score=titlescore*timescore*weight* (1+0.2*title.length () ) ;

按照score从大到小输出当天的部分重要新闻。

实验表明, 重特大新闻和一些关注较多的新闻都排在了前列。

6. Pagerank的计算

Pagerank是Google使用的根据网页之间的链接关系, 给出网页权重的一种算法。其基本思想为:当网页A有n个链接指向其他网页时, 将网页A的rank值分为n份, 分别赋予这n个网页。对网页集合中的所用网页使用迭代计算的方法反复计算, 直到收敛到一个不动点为止。我们采用中的算法。

四、结束语

系统采用Tomcat作为Web Server, 使用Jsp/Servlet架构, 界面提供按内容相似性和时间两种排序方式, 实现了中文分词, Pagerank等技术;并根据新闻搜索的特点提出了相应的算法;取得了较好的搜索效果。在将来, 对于用户推荐, 热点新闻识别等, 亦有很多研究工作有待开展。

参考文献

[1]MICHAEL B, DORON C.lucene.http://lucene.apache.org/java/docs/, 2007-6-14/2007-7-20

[2]SPIDERSOFT.WebZIPO verview.http://www.spidersoft.com/webzip/default.asp

[3]DERRICK O.HTMLParser.http://htmlparser.sourceforge.net/

[4]张华平.计算所汉语词法分析系统ICTCLAS3.0白皮书.http://www.i3s.ac.cn/Manual/

搜索引擎与网络营销 篇8

1. 搜索引擎优化的原理介绍

搜索引擎优化的主要工作就是通过对各类搜索引擎如何获得互联网页面进行了解, 如何进行索引和确定其对某一特定关键词的搜索结果排名等技术, 从而对网络的内容进行相关的优化, 尽可能的与用户的浏览习惯相吻合, 这样就可以有效的提高网站的访问量。从它的运作流程来看, 主要分为三个步骤, 即抓取网页、建立索引数据以及对索引的排序。

2. 从搜索引擎优化下的课程内容优化设计策略分析

从国从搜索引擎优化下的课堂内容教学来看, 可以对其设计的部分包括关键词、网站的结构、课程的页面以及网页的链接等方面。

2.1 对于关键词的优化策略分析

它是构成搜索引擎算法进行数学运算的重要因素, 它的作用就是用来确定网页和特定搜索之间的相关性, 很多的搜索引擎算法所认定的与某个关键词搜索较为相关的页面会被根据既定的顺序进行依次排列, 因此, 对于关键词的优化是搜索引擎优化的一个核心所在。

第一, 关键词的选择上。搜索引擎优化策略的本质所在就是课程的内容, 因此, 对于关键词的核心确定就要根据课程的具体内容来定, 然后, 在此基础上, 以关键词为中心进行排列组合产生相关的关键词组, 一般是5——10个关键词, 但是在一个页面中最多不能超过3个, 这样就可以使核心关键词的中心地位更好的凸显。

第二, 关键词密度。它是关键词字数所占的该页面中排除HTML代码后所余下字数的百分比, 它也是决定网页先后顺序的重要因素, 如果网页和关键词之间的相关程度越高, 那么网页在搜索结果中的排列位置就会更靠前。

第三, 关键词的分布。首先它的分布原则是在恰当的位置来进行关键词的设置, 根据它的密度来对需要的关键词进行详细的统计, 然后再考虑再网页的正确显眼位置进行设置, 包括常见的顶部、左侧、标题等在内。

2.2 具体的结构优化策略分析

它的结构优化主要涉及到网站的栏目和导航, 同时这也是网络课程的基本构成框架, 决定了学生能否在网站的作用下方便的获得信息, 因此, 也是优化要素的要素之一。

第一, 目录层次方面。通常情况下, 网页层次的不断增加, 网页在搜索结果中的级别也会不断的降低, 因此, 在这一方面上的目录层次上就需要把网站首页文件放在根目录的下一级栏目当中, 并且链接网页的URL也不能大于3层, 而且内容的页面也不宜大于4层。

第二, 导航结构。它的内容主要包括课程的栏目、菜单、在线帮助等部分, 它的主要功能是对学生学习的方便进行引导, 它的系统布局是较为清晰的, 可以给学生提供清晰明了的学习模式, 例如, 常见的顺序页——章——节。

第三, 网站的地图。它是导航系统的主要配合手段之一, 一个良好的网站地图设计一般会采用网站拓扑结构图来对复杂的目录关系进行表述, 在具体的链接上是采用文本链接方式。

第四, 框架的结构。它是课程内容中较为经常使用的一种结构, 它的深层页面域名一般不会在URL中体现, 也就造成了很多的搜索引擎不能正确的对框架进行辨别, 具体的框架内容也就无法得到。

3. 对于页面和链接的优化策略分析

两者的具体优化策略选择需要对其内部结构的构成部分进行综合详细的分析, 对于页面来说, 就要对其布局、内容构成、顶部标签以及动态页面的静态化处理等部分, 要对学生有全面的引导和教授;对于链接的优化就是要对其链接的导入和导出以及内部链接三个部分进行合理的、有针对性的优化, 保证网页的结构链接是合理的, 可以给学生提供一个较为便捷快速的学习方式, 但是, 不论是何种链接方式, 都要保证链接方式的灵活方便, 不能只是单单的机械式链接, 要根据实际的状况进行设置。

总结

在科学技术不断发展并广泛应用的态势下, 搜索引擎优化营销对课程内容的教学优化具有重要的现实意义, 从就业导向的理念下来说, 就需要教学管理者积极的采取合理措施对课程教学内容进行合理的优化, 促进学生的综合发展, 更好的进入社会进入职场。

摘要:新形势下, 搜索引擎是营销是一种新的营销方式, 搜索引擎优化是近些年发展的技术之一, 它是构成网站优化的重要组成部分, 在它的利用下, 可以有效的对课堂教学内容进行创新优化, 从而构建具有实用性和技术性的综合型人才培养体系。从就业指导的理念下来讲, 它可以帮助学生更好的完善自身素质水平, 适应社会的发展需要, 基于此, 本文主要分析了就业导向下搜索引擎营销的内容以及它对课堂内容的优化。

关键词:就业导向,搜索引擎营销,课堂内容

参考文献

[1]梁宏倩.Web搜索引擎及优化的研究与应用[D].西安电子科技大学, 2010.

[2]张杰.搜索引擎营销应用研究[D].大连海事大学, 2010.

[3]张云青.就业导向下的我国高等职业教育运行机制研究[D].吉林大学, 2010.

网络商品信息元搜索技术研究与应用 篇9

网络商品信息的提取技术[1 - 3]是随着网络的普及以及网络购物的发展而发展起来的。在整个2011 年度我国网购规模达到8090 亿元, 占到了全国社会商品零售总额的4. 4% , 网购人数达到2. 12 亿, 网上购物在网民中的渗透率提高到41. 3% 。网络购物人们生活中占据了重要地位。随之而来的, 网络商品信息提取技术越来越受到人们的重视。

网络商品信息的提取可以细分成两个方面, 即网页搜索以及信息抽取: 网页搜索技术主要包括目录搜索、全文搜索和元搜索[4]三种; 信息抽取又分为人工抽取规则、通过标记样本抽取规则、自动抽取规则如RoadRunner、MDR、Find DR等。

本文基于网络商品信息特点的基础上, 对元搜索技术的网页搜索和信息提取两方面进行研究, 设计一种新的网络商品引擎。使用两个元搜索引擎, 实现购物网站信息的自动采集, 并在Find DR算法的基础上设计了一种改进算法提高信息抽取的效率。

1 网络商品引擎

1. 1 网络商品信息特点

网络商品信息与一般的网页信息相比有如下特点: 其一, 商品信息结构性很强, 尤其是同一个网站上的商品信息; 其二, 网络上的商品信息高度集中, 主要在各大购物网站中, 尤其是淘宝等知名网站; 最后, 网络商品信息提取对信息的安全可靠性要求极高。

基于此可以使用元搜索技术进行网页抓取, 使用Find DR改进算法信息抽取, 实现对网络商品信息的搜索。

1. 2 系统总体设计

系统可分为如下三大模块:

1) 元搜索模块[5], 该模块的功能主要是根据抓取范围限定模块采集到的购物网站信息将用户提交的搜索请求封装并转发给子搜索引擎, 即各大购物网站的站内引擎, 根据抽取规则库抽取搜索结果中的商品信息, 最后将商品信息集进行汇总、排序并显示给用户。

2) 搜索范围限定模块, 该模块的目的是实现元搜索子引擎的自动维护, 元搜索引擎是通过子引擎进行网页搜索的, 对于子引擎的网址、传递参数名等信息往往需要进行人工维护, 增加了系统使用成本。设计一种“双层元搜索引擎”, 通过百度对购物网站信息进行采集实现了对子引擎的自动维护。

3) 网页分析模块, 功能是对网页进行信息提取, 它通过对元搜索模块搜索到的网页样本的分析, 自动地生成抽取规则。网络商品引擎的核心流程如图1 所示。

系统的查询范围库初始为空, 可以人为地设定初始查询范围或运行搜索范围限定模块自动添加或更新查询范围。该模块通过预设定的搜索词在百度搜索购物网站, 提取其中的购物网站信息添加到查询范围库中。

当收到用户的请求时, 系统的元搜索模块根据查询范围库中信息抓取网页, 并由网页分析模块抽取页面中的商品信息, 排序返回给用户。

2 系统设计

2. 1 元搜索模块

1) 模块功能分析

元搜索模块最终目标是实现网页抓取, 与全文搜索中的网络爬虫相似, 它的主要工作如下:

1 接收用户的搜索请求。

2 将用户的搜索请求封装并转发给元搜索引擎的子引擎, 即各大购物网站的站内引擎。

3 抓取购物网站的搜索结果, 提交给网页分析模块进行后期的信息抽取。

4 对网页分析模块抽取的商品进行汇总、排序并显示给用户。

2) 元搜索原理和优势

元搜索的原理是将用户的查询请求转换成搜索引擎能够理解的底层数据格式然后同时向多个搜索引擎递交请求, 在将返回的结果进行重复排除、重新排序等处理后, 作为自己的结果反馈给用户[6]。

最早的元搜索引擎名为Metacrawler , 1995 年由Washington大学硕士生Eric Selberg和Oren Etzioni所发明, 元搜索引擎是为了弥补全文搜索引擎不足而发明与全文搜索引擎相比具有搜索效率高、成本低、搜索信息全面、信息的更新速度快等优点[7,8]。表1 是对全文搜索和元搜索的性能比较。

3) 元搜索模块设计

根据元搜索技术的核心思想设计元搜索算法的如下:

1 用户输入搜索词W并选择搜索条件集T = { T1, T2, …, Tn} , 转向2。

2 使用封装器对搜索词W和搜索条件Ti ( Ti∈ T, 且i的初值为1) 进行封装, 转发给对应的购物网站, 并得到搜索结果Pi, 转向3。

3 将搜索结果Pi提交给网页分析模块, 返回商品信息集I= { I1, I2, …, Im} , 并转向4。

4 对商品信息进行排序, 若搜索条件集T中的所以网站搜索完毕即i = n转向5。否则i自增1 并转向2。

5 将4中的排序结果显示给用户。

算法中涉及到封装器的使用, 对封装器描述如下: 封装器的目的是将用户的搜索请求封装底层数据格式同时向多个搜索引擎递交请求。系统接收到用户的请求和将用户请求封装到URL中。令URL为某购物网站站内引擎地址, NAME为传递参数名, W为搜索词, 封装后结果为URL? NAME = W。以淘宝为例, 搜索“大衣”URL为: http: / /s. taobao. com/search? q = % B4%F3% D2% C2。

2. 2 抓取范围限定模块

1) 模块功能分析

元搜索引擎是通过子引擎进行网页搜索的, 根据之前分析元搜索模块对用户请求的封装使用了URL和NAME两个参数, 但不同的购物网站URL和NAME是不同的, 这就涉及到元搜索子引擎自动维护的问题。抓取范围限定模块就是为了解决这一问题而设计的。

该模块的思想是使用元搜索技术将事先准备的一些搜索词封装并提交给百度搜索引擎, 然后对百度的搜索结果页面集中包含的购物网站搜索引擎地址进行抽取, 这相当于使用一个简单易于维护的元搜索引擎对系统的元搜索引擎进行维护。

2) 抓取范围限定模块设计

抓取范围限定模块需要解决三个问题: 一是, 使用元搜索技术获得百度搜索的结果页面集, 目的是实现对百度搜索的结果页面集进行自动抓取。二是, 百度搜索的结果页面集中网址的提取, 该问题的关键是如何从搜索的结果页面中正确地提取网址。三是, 对抽取出的网址的筛选和提取目标信息, 无论网址提取中采取的算法多么严谨都不可避免地将一些无用网页提取出来, 而且, 系统的最终目的是提取购物网站的搜索引擎网址和传值参数的参数名, 因此需要判定之前抽取的网址是否符合要求, 并提取最终目标。

算法如下:

网址集T = { url1, url2, …, urln} 是对搜索结果页面集提取到的网址集合, 对候选网址集T的每一个网址进行如下操作:

1 打开网页urli ( i的初始值为1, 1 ≤ i ≤ n ) ;

2 判断网页的编码方式, 将网页转换为字符串, 并使用htmlparser创建网页的DOM树;

3 提取网页源代码中的form表单, 若存在转到5, 否则转到4;

4 判断网页中是否含有text属性的input标签, 将网址保存到本地的txt文档中, 由手工提取, 否则转到8;

5 判断form表单是否符合要求, 有且仅有一个submit属性的input标签和一个text属性的input标签, 若是进行下一步, 否则, 转到8;

6 判断form的传旨方式, 如果为post方式, 将网址保存到本地的txt文档中, 转到8。否则转到7;

7 提取form表单中的action属性和text属性的input标签中的name属性, 并将其保存到查询范围库, 转到8;

8 i + +, 若i > n程序结束, 否则转到1。

抓取范围限定模块的输出结果是查询范围库, 它包括购物网站的URL和NAME等信息, 它要尽量保证购物网站信息是正确可靠的, 但抓取范围限定模块并不能完全地保证提取的每一条信息都是正确的。

2. 3 网页分析模块

1) 模块功能分析

网页分析模块的目标是对元搜索模块的搜索结果进行分析, 提取网页中商品信息按照指定格式输出给用户。

2) Web信息抽取算法分析

网页分析模块是通过Web信息抽取实现信息抽取[9,10], 根据规则获取方式分为三类:

1 人工制定规则: 早期的信息抽取都是通过手工抽取规则的方式进行信息抽取的, 这种方法是指提前制定好抽取规则, 系统按规则直接抽取, 比如对网页中标题进行抽取, 可以直接设定规则对每一个抓取到的网页抽取title标签中信息。这种方法的优点是简单、准确率高。但是规则的制定往往需要一定的相关知识水平人工消耗大, 而且无法满足对快速变化的网页结构进行抽取。每当网页结构发生变化, 就需要人工的重新制定规则。

2 利用标注好的样本抽取规则: 这种方法是指对已经标记好的样本进行分析, 通过一定规则自动生成对这类样本的抽取规则。这种方法的优点是实现了一定的自动化, 但由于需要对样本进行人工标记需要消耗一定的时间, 适用于大量相似结构网页信息的提取。

3 完成自动的提取规则: 这种方法通过对网页信息之间隐含结构的研究制定一套方案, 完全自动地提取网页信息。该方法的优点是适应能力强, 无需人工干预, 但抽取效率相对较差, 而且只能对特定的信息进行抽取。代表的算法有RoadRunner、IEPAD、MDR、Find DR等。

3) 购物网站页面结构分析

对网页中信息进行抽取首先对购物网站页面结构分析, 图2 ( 搜索结果页面) 和图3 ( 商品展示页面) 是购物网站中的两类包含商品信息的网页, 比较两者可以发现, 搜索结果页面包括了商品展示页面中的主要内容, 而且更利于元搜索的提取。因此对搜索结果页面进行分析, 发现其具有如下特点:

1 一个搜索结果页面显示多件商品, 一般为十件以上甚至更多, 以淘宝为例, 淘宝的搜索结果页面包含44 件商品。

2 搜索结果页面对每件商品的描述格式大体相同。

3 搜索结果页面对每件商品信息可以分为商品名、商品价格、其它信息三部分。其中其它信息由多条信息组成是对商品的具体描述。

4) Find DR改进算法

首先定义两个概念数据区域和重复度。

定义1数据区域

由两个或两个以上满足以下所有条件的结点的集合: 1 集合中相邻结点相似度大于某个阈值。2 对于集合中任意结点Ti至少存在一个结点Tj与该结点相邻。3 所有结点存在一个相同的父节点。

定义2 重复度

某数据区域的重复度为N, 表示该数据区域N个结点。

Find DR改进算法描述如下:

算法中Snode.Flag表示包含搜索词W的结点集, Snode.DataRegion Set保存目标数据区域。下面对算法中包含的三个函数进行描述。

Contains (Snode, W) :该函数的目的是求以Snode为根结点的树中包含搜索词W的结点集, 函数首先从根节点开始遍历DOM树, 将遇到的每一个包含搜索词W的结点添加到Snode.Flag中。

Identity DR (Flag, P, N) :该函数求符合如下条件的数据区域, 1该数据区域中包含结点Flag或结点Flag的祖先结点;2该数据区域的重复度大于N。函数首先求结点的父节点是否含有符合要求的数据区域, 若存在则结束, 否则, 求父节点的父节点是否含有符合要求的数据区域, 以此类推。为减少重复运算, 对结点的所有求解过的数据区域的祖先结点加标记。结点的相似度阈值由简单树匹配算法获得。如下所示:

5) 简单树匹配算法

定义3树匹配

假设A、B为两棵树, , 对于, 满足如下条件, 则M为A到B的一个匹配。

1 若Ai= Bi, 则Aj= Bj。

2若Ai为Aj的祖先, 则Bi为Bj的祖先。

3若Ai在Aj的左边, 则Bi在Bj的左边。

4 存在 ( parent ( Ai) , parent ( Bi) ) 和 ( parent ( Aj) , parent ( Bj) ) ∈M。

简单树匹配算法就是寻找树A和B的最大匹配数目, 记作Max Match ( A, B) 。设A = { Root A, A1, A2, …, Am} , B = { Root B, B1, B2, …, Bn} 为两棵树, 其中Root A和Root B为A和B根结点, 其余为根结点的子树, m和n为A和B的孩子数。A和B树的最大匹配为Max Match ( A, B) = M ( A, B) + 1, 其中M ( A, B) 为< A1, A2, …, Am> 和< B1, B2, …, Bn> 的最大匹配。M ( A, B) 可通过动态划分的方法计算:

1 若Max Match ( Am, Bn) > Max Match ( Am, Bi) , i = 1, 2, …, n - 1 。M ( A, B) = Max Match ( < A1, A2, …, Am - 1> , < B1, B2, …, Bn-1>) +Max Match (Am, Bn) 。

2 否则, M ( A, B) = Max ( Max Match ( < A1, A2, …, Am> , ) , Max Match (, ) ) 。

由1和2可得M ( A, B) = Max ( Max Match ( < A1, A2, …, Am>, ) , Max Match (, ) , Max Match (, ) +Max Match (Am, Bn) ) 。

算法实现如下:

3 实验结果

由于元搜索模块的搜索结果取决于抓取范围限定模块提取的网站信息准确率, 所以只对抓取范围限定模块和网页分析模块进行实验分析。

1) 抓取范围限定模块

抓取范围限定模块对使用get方法的购物网站进行信息采集, 只有采用合理的正则表达式, 抽取结果的召唤率为100% , 也就是说不考虑网页传输错误等情况下, 可以将百度搜索结果中包含的get方法的购物网站全部抽取出来, 但是并不是所有的抽取结果都是购物网站, 表2 是抓取范围限定模块抽取结果。

表2 中搜准率表示, 抽取结果中正确结果所占比例, 指标F为调和均值[11], 召唤率R为100% 。

实验结果表明:

1 抓取范围限定模块具有很好的召唤率和搜准率, 但不可避免地被非购物网站搜索出来, 如购物论坛等。

2 不同的搜索词对抽取结果有一定的影响, 因此要尽量选取更准确的搜索词。并可以对多个结果进行汇总, 不过在得到更多抽取结果的同时也会降低搜准率。

2) 网页分析模块

使用Find DR改进算法对购物网站进行信息抽取实验, 表3为部分网站的信息抽取结果, 表中的六个网站都可以抽取出其中的商品信息, 但是淘宝、亚马逊、凡客三个网站信息抽取结果不全, 淘宝和亚马逊对部分结果单独显示, 这两个网站将搜索结果中的前几件商品与其它商品放在不同的区域中。凡客则是由于页面的数据区域不明显。

4 结语

为解决自动地对网络上商品信息的搜索、提取, 本文结合了现有网络商品信息搜索的相关技术基础上, 设计了一种商品信息提取模型。该模型采用元搜索技术和统计与模板的网页分析方法实现了对网络商品信息的高效抽取。

摘要:在分析网络商品信息特点的基础上, 改进现有的Web信息提取技术, 设计一种基于元搜索技术的网络商品信息提取模型, 实现对搜索范围的自动确定、网页搜索、以及商品信息的自动抽取。通过大量商品信息的搜索测试, 在抓取范围的自动确定和商品信息的自动抽取上取得了很好的效果。

关键词:Web信息抽取,元搜索,提取模型

参考文献

[1]Jorge R, Gómez A.A Fuzzy Logic intelligent agent for Information Extraction:Introducing a new Fuzzy Logic-based term weighting scheme[J].Expert Systems with Applications, 2012, 39 (4) :4567-4581.

[2]Doug D, Etzionib O.Analysis of a probabilistic model of redundancy in unsupervised information extraction[J].Artificial Intelligence, 2010, 174 (11) :726-748.

[3]TakLam W, Lamb W.An unsupervised method for joint information extraction and feature mining across different Web site[J].Data&Knowledge Engineering, 2009, 68 (1) :107-125.

[4]曹林, 韩立新, 吴胜利.元搜索引擎排序技术综述[J].计算机应用研究, 2009 (2) :411-414.

[5]朝乐门, 张勇, 邢春晓.面向跨领域海量信息资源的元搜索引擎研究[J].中国图书馆学报, 2011 (2) :19-29.

[6]王新, 刘晓霞.基于关联规则挖掘的垂直元搜索引擎研究[J].计算机工程, 2011 (4) :76-77, 80.

[7]韩宇彬, 薛贺.元搜索引擎结果集成算法[J].微处理机, 2008 (5) :104-107.

[8]孟星, 丁振国.个性化元搜索引擎模型研究[J].计算机工程与应用, 2008 (36) :150-152.

[9]顾韵华, 田伟.基于DOM模型扩展的Web信息提取[J].计算机科学, 2009 (11) :235-237.

[10]张树壮, 罗浩, 方滨兴.面向网络安全的正则表达式匹配技术[J].软件学报, 2011 (8) :1838-1854.

搜索引擎与网络营销 篇10

近年来, P2P网络发展迅速, 在很多领域得到广泛应用, 成为业界研究与关注的一个焦点。对等网络是实现下一代互联网的重要组成部分, P2P搜索技术是P2P研究中的一个重要领域。随着网络规模不断扩大, 如何高效、快速、准确搜索到资源, 是当前P2P网络研究中所面临的难题。

由于非结构化P2P网络有其自身的特点, 要把智能搜索算法应用到P2P网络搜索中, 需要选择一个合适的搜索模型。基于P2P网络的智能搜索模型的主要设计思想是在非结构化P2P网络模式下引入智能搜索技术。

1 I-BFS算法框架设计与实现

1.1 I-BFS算法描述

I-BFS算法的主要改进点是针对控制节点路由消息的扩散范围, 不将查询消息发送到所有的邻居, 而是将智能搜索过程中加入站点优先级, 对等体需要先给查询消息的邻居分级, 然后减少发送的查询消息数, 同时也减少查询访问的对等体数。

I-BFS搜索过程中, 当查询结果返回到请求节点时, 查询结果返回路径上的对等体会记录该结果和提供该结果的对等体。为了决定将请求消息发给那些邻居对等体, 对等体需要根据查询消息根据智能搜索技术中的站点优先级将邻居分级。每个对等体需要维护一个邻居描述, 这个邻居描述记录了最近收到的结果, 以及收到该结果的邻居。

1.1.1 节点相似度的计算

为了计算邻居的级别, 查询接收节点将当前的查询和以前的查询进行比较, 找出和以前查询的相似性, 然后把查询继续发送到最可能的节点。该搜索方法的关键是基于相似性的邻居选择方法, 下面是一种相似计算方法:

请求q与对等体pi的相似性, 其中pi是Pk的邻居, 求和部分中qj是pi回答的结果是qj和pi的相似性。I-BFS选者相似性最大邻居来发送请求消息。这种机制要保留以前获得的结果 (qj, pi) , 当存储结果的空间满载时, 可以使用最近最少使用LRU方法更换结果。

1.1.2 节点优先级的计算

其中Pi是历史记录中的某个站点;q是当前的搜索请求;qj (j=1, 2, …, k) 是k个与q相似的搜索请求中的一个;sim (qj, q) 表示qj与q的相似度;Rij用来表示站点Pi是否能对相似搜索qj做出响应。做出响应则Rij=1, 否则Rij=0。当Rij=l时, Rij*sim (qj, q) 表示仅考虑相似搜索qj的情况下, Pi能够对当前搜索q做出响应的可能性;当Rij=0时, Rij*sim (qj, q) 表示仅考虑相似搜索qj的情况下, Pi对当前搜索q做出响应的可能性为0;Ci是站点Pi能够对ql, q2, …, qk做出响应的个数, 即Rij=1 (j=l, 2, …, k) 的数量。

I-BFS搜索机制相对于Gnutella会产生更少的查询消息, 更快找到目标, 查询消息的TTL可以比Gnutella稍大一些。I-BFS算法不将查询发送到所有的邻居, 利用智能搜索技术中的历史记录、相似度、站点优先级对每个节点存储了其邻居的统计信息, 如查询历史记录等, 来进行统计计算, 更有效地选择最好的邻居节点。I-BFS仅将查询发送到最有可能得到返回结果的邻居, 防止查询消息无止境的在P2P网络上传播。

1.2 I-BFS搜索过程

搜索的具体流程如下: (1) 输入搜索模块执行搜索; (2) 调用P2P网络模块, 执行P2P网络路由流程, 通过计算两个不同搜索的相似度、站点优先级, 来获得与当前搜索最相似的K个搜索, 然后把查询发送到最可能的K节点; (3) 通过子节点的路由表判断文件是否存储在虚节点内部, 如果存在, 通过底层传输模块向目标节点发送路由消息; (4) 通过底层传输模块接受路由回复消息, 发送给P2P网络模块; (5) 2P网络模块将搜索的结果返回给用户。

1.3 I-BFS算法实现步骤

I-BFS根据以往的查询提供的信息, 选择最有可能包含查询结果的节点发送查询, 避免了查询的广播发送, 提高了搜索的效率, I-BFS搜索算法实现步骤如下:

Step1:首先列出可以发送到的网络节点标示ID。

Step2:列出它的一些邻居节点不需要它们再发送的节点, 确定这些节点分别属于哪些邻居。

Step3:对要发送的各个节点根据历史记录计算相似度, 并计算邻居节点的优先级别。将请求信息分别发给最有可能节点, 同时发送参数TTL=3和Rdw=12。

Step4:邻居节点收到请求搜索消息时, 它首先检查消息ID看是否是接收过这个请求消息, 若没接到过, 标记这个请求信息ID, 并检查自己是否有所需的文件。如果有, 回应请求节点, 结束请求信息的发送, 并将查找结果的信息记入索引列表。如果没有, 转到步骤5。若以前接到过这个消息ID转到Step6。

Step5:检查传来的参数ttl是否为0。若ttl=0, 转到步骤6。若ttl不为0, 将ttl的标记减1。先对该节点检查自己是否有所需文件, 若没有, 将对该节点的邻居节点发送请求信息, 转到Step3;若有相应信息, 转到Step6。

Step 6:查看参数Rdw是否为0, 如果是0, 停止发送请求信息;如果不为0, 将Rdw减1。在可选邻居中选择度数最高的节点 (若有两个邻居节点度数一样高, 按照先进先出的规则) , 将这个选择过的节点标记为不可选节点。向所选的邻居节点发送请求消息, 如果已经没有可选节点, 停止发送请求信息。

I-BFS根据以往的查询提供的信息, 选择最有可能包含查询结果的节点发送查询, 避免了查询的广播发送, 提高了搜索的效率。其中每一个结点需要维护3个列表:一个是邻居列表, 用于构建整个逻辑覆盖网络;另一个是缓存列表, 用于存储自己最近访问过的文件;最后一个是索引列表, 记录最近所转发查询的查询源和文件标识。

2 I-BFS算法测试

2.1 建立仿真环境

为评估改进的智能I-BFS算法的性能, 进行仿真实验。先假定一个纯P2P模型, 纯P2P网络 (如Gnutella) 中不存在中心服务器, 各个节点的地位一样, 可以动态地加入和退出网络, 节点上数据的放置由用户自己决定, 网络拓扑结构是任意的, 所有接点都会等同地发出请求和forward请求。

为了模拟动态网络中的行为, 采取动态的插入"online"节点, 并随着频率变化再移除其中那些起作用的"online"节点, 但整个网络会保留80%的网络节点来起作用, 节点一旦加入就开始工作, 当模型文件插入和删除时, 目标会被再分布, 而目标的再定位往往会依据初始化分配的参数来进行。

I-BFS被修正后, 能够认同或识别目标ID请求, 通过每个邻居节点, 在所有的Peers处, 索引值为每个目标给出一系列的回复, 在查询请求时, 节点会简单选择5个最高等级的邻居节点去forward。对Modified-BFS的盲目搜索阶段中节点会随机选择一半的邻居节点, 将一个查询请求去forward给它们。

2.2 仿真结果

对给出的Random Walks、Modified-BFS、I-BFS给出了仿真结果, 其中Random Walks、Modified-BFS属于盲目搜索, I-BFS属于已知搜索。在3个不同的环境下仿真这些算法, 在静态情况下没有动态操作。在低动态设置时, 每一次RUN, 拓扑结构平均变化240次, 目标重定位120次。在高动态设置时, 每一次run, 拓扑结构平均变化1200次, 目标重定位500次。搜索成功率, 在三种情况下, Modified-BFS和I-BFS显示了极高的准确率, 返回了很多Hits, 其搜索成功率远远超过了Random Walks。对搜索的方法在特定的环境下有更好的表现主要看hi的数量, 在三种状态下, 和我们期望的相同, I-BFS算法都表现了返回更多的Hits数量。Random Walks显示的准确率不高, 平均每次query都不能产生一个发现, 其性能几乎不受动态变化的影响。

3 结束语

针对目前非结构化的P2P网络中的广度优先搜索技术 (BFS) 以及其各种改进算法的测试和对比, 相比ModifiedBFS和Random Walks而言, I-BFS虽然付出了很大的代价, 但却表现出了非常高的性能, 适应不同程度的工作量和不同的环境, 改进的I-BFS搜索效率和搜索结果都达到了较好的效果。

参考文献

[1]屈兰, 张德民, 景运输.基于非结构化P2P网络中通用搜索算法的比较[J].电信快报, 2006 (2) .

[2]沈杰, 胡金初.P2P搜索技术:智能搜索技术[J].微机发展, 2005 (11) .

[3]何盈捷, 冯月利, 王珊.Peer-to-Pee:环境下基于内容的智能搜索[J].计算机研究与发展, 2004 (10) .

上一篇:绘画视角素描教学下一篇:陈列展览设计