搜索引擎的研究现状

2024-05-02

搜索引擎的研究现状(精选十篇)

搜索引擎的研究现状 篇1

当用户通过Archie检索文件时, 所要进行的全部工作就是对该数据库进行检索。尽管Archie还不是真正的搜索引擎, 但工作原理与现在的搜索引擎己经很接近, 它依靠脚本程序自动搜索网上的文件, 然后对有关信息进行索引, 供使用者查询。1994年初, Internet上出现了包括Lycos在内的第一批Web搜索引擎。第二代搜索引擎以1998年出的Google和Directhit为代表。它们是“根据以往用户实际访问一个网站并在该网站上所花费的时间来确定一个网站的重要性, 或者根据一个网站被其他网站链接的数量来确定网站的重要性”, “这种根据用户忠诚度的评判方法更具备客观性, 因而, 用户所获得的信息也就更准确”。如Directhit以被大多数用户访问的情况认定一个网站的重要性;Google以被其他网站链接的情况认定一个网站的重要程度。在发展过程中更强调了人的因素, 主要表现在以下三个方面:

(1) 能利用自然语言查找信息。第二代搜索引擎可以将自然语言自动翻译成系统能理解的专业术语, 进行精确查找。

(2) 有判断地收集信息, 根据众多网络用户行为特征来取舍信息。

(3) 人工分类。引入大量的人工对信息进行分类。强调人工分类的重要性。

此外, 第二代的搜索引擎还有一个特点, 他们只做后台技术, 将技术提供给Yahoo等门户网站。其中Google (www.google.com) 是表现最为突出的。Google于1998年9月发布测试版, 是目前人们使用最广泛的搜索引擎。Google现为全球80多家门户和终级网站提供支持。Google的优势是易用性和返回结果的高相关性。Google提供一系列革命性的新技术, 包括完善的文本对应技术和先进的Page Rank排序技术, 后者可以保证重要的搜索结果排列在结果列表的前面。Google还提供一项很有用的服务:“网页快照”功能。

目前, 新一代的搜索引擎也己经进入了研制阶段, 其最大特点就是大量智能化信息处理的引入, 网络信息检索将步入知识检索和知识服务的领域。它的一个特征是能够解决文件格式问题, 这就要求搜索引擎不仅能识别TXT文件, 也要能够识别PPT, Word, PDF, 电子邮件等文件;另一个特征是把P2P技术应用到网页的检索中, 这样通过共享所有硬盘上的文件, 目录乃至整个硬盘, 用户搜索时无需通过Web服务器, 不受信息文档格式的限制, 即可达到把散落在互联网上的不相关的人们关心的知识搜集起来, 经过筛选, 组织和分析返回给用户所需的信息。

国内目前已有很多关于搜索引擎的研究。百度搜索引擎[6]收录中文网页接近2亿, 是全球最大的中文数据库。Baidu搜索引擎的其它特色包括:网页快照, 网页预览/预览全部网页, 相关搜索词, 错别字纠正提示, 新闻搜索, Flash搜索和信息快递搜索等。北大天网搜索引擎是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果, 由北大计算机系网络与分布式系统研究室开发, 有强大的搜索功能。除了WWW主页检索外, 天网还提供FTP站点搜索 (“天网文件”) , 为高级用户查找特定文件提供方便。同时, 天网将FTP文件分为电影和动画片, MP3音乐, 程序下载, 文档资源共四大类, 用户可以像目录导航式搜索引擎那样层层点击, 查找自己需要的FTP文件。天网提供的服务还包括“天网目录”和“天网主题”。搜狐分类目录设有独立的目录索引, 并采用百度搜索引擎技术, 提供网站, 网页, 类目, 新闻黄页, 中文网址, 软件等多项搜索选择。搜狐搜索范围以中文网站为主, 支持中文域名。慧聪搜索引擎拥有超过2亿网页的中文信息库, 提供网页, 网站, 新闻, 地域, 行业, MP3, Flash等多种检索方式, 具有互联网实时新闻搜索, 高精度检索, 分类查询, 网站导航, 企业与产品查询等功能。

目前的搜索引擎, 每天使用爬虫在互联网上获取大量网页, 这花去了大量的时间, 对于面向大量用户的商业搜索引擎是非常合理的, 但是对于只面向某一类型的网络, 如校园网的搜索引擎, 这无疑需要大量的计算资源和存储空间, 这往往是得不偿失的。因此, 对于校园网内搜索引擎, 需要设计一种对资源要求低, 灵活机动的方法。

摘要:文章分析了搜索引擎的发展历史及国内外搜索引擎的发展现状, 采用了对比的方法对特色搜索引擎的进行了阐述, 并详尽的指出了各种搜索引擎的现状、特点及发展趋势。

关键词:搜索引擎,爬虫,网页快照

参考文献

[1]刘建国:《搜索引擎概述》, 北京大学计算机与科学技术, 1999年。

“人肉搜索”现状分析 篇2

摘 要 “人肉搜索”成为网络上的热点话题,本文首先分析了“人肉搜索”的现状,然后从引出言论自由与隐私权的冲突,最后再说明言论自由与隐私权都是要保护的对象,二者要达到一定的平衡。

关键词 人肉搜索 言论自由 隐私权

一、人肉搜索的现状

“人肉搜索”一词最早出自猫扑论坛,其基本的含义是一种人工参与的信息搜索机制。“人肉搜索”是一种新型的搜索方式,指更多的利用人工参与来提纯搜索引擎提供的信息的一种机制,其往往表现为利用现代信息科技,变传统的网络信息搜索(机器搜索)为人找人、人问人、人碰人、人挤人、人挨人的关系型网络社区活动①。它是传统的人工调查与网络搜索引擎相结合的产物。人肉搜索是一把双刃剑②。追寻真相与正义,是人肉搜索最原始的动力。但是,网络技术迅猛发展带来了信息量的增大和信息流的加快,同时也不可避免地增加了人们受到网上不法言行侵害的概率和机会,也使得网上网下个人和群体的信息随时有被采集、分析和使用的危险,从而也使个人和群体的名誉权和隐私权极易受到侵害。人肉搜索依仗道德制高点,淹没私人空间和个体权利,甚至具有了私刑的表征。异化了的“人肉搜索”就是在道德正义的名义下实施的群体性非正义行为。运用侵犯别人隐私、触犯社会道德底线的方式来捍卫道德正义,“人肉搜索”就会偏离方向走上网络暴力之路。在其背后则是法律意识的淡薄和社会道德的扭曲。这就需要道德与法律的双重规范。

二、言论自由与“隐私权”的冲突

不可否认,正是网络言论的迅捷性、隐蔽性和广泛性的特点,使得人们的言论自由能力得以迅速提升,在一定程度上也有利于人们通过互联网更好地形式表达自由的权利。但是,在网络里的非议中人也享有法律规定的公民隐私权、名誉权等基本权利。在强大的“人肉搜索”下,人人都自居为“道德的审判官”,人人都为“正义”而大声自由地呼喊。然而,那些被搜的对象,却正承受着自身隐私权、名誉权甚至人身权的侵害,承受那些本不该承受的责难。

网络言论的网络言论的迅捷性、隐蔽性和广泛性的特点决定了网络言论导致侵权发生的可能性增大、发生率增高,尤其是名誉权和隐私权更容易遭受威胁。网络的开放性不仅为大量包括私人信息在内的信息汇聚提供了条件,而且也为大量搜集、存储、传播个人信息和以个人信息为对象的数据库开发、利用提供了方便。人肉搜索引擎正是这样搜集和公开个人信息的网络系统,其是以网络为平台,以网民为资源,逐渐获取某个人或某些人的信息,然后整理分析这些信息,最后找出这个人并确认某个人信息的过程。所谓隐私权,是指公民享有的私人生活安宁与私人信息依法受到保护,不被他人非法侵扰、知悉、搜集、利用和公开等的一种人格权③。由此定义来看,法律所保护的隐私权显然包括了私人信息保密不受他人非法搜集、刺探和公开的内容。而“人肉搜索”中,未经授权公开他人的私人信息,显然是对隐私权赤裸裸的侵犯。

三、言论自由与“隐私权”的平衡

为保护网络言论自由而弃他人的权利而不顾,为维护公民其他权利不受侵犯而压制言论自由,这些都不是一个民主法治国家可取的做法。所谓言论自由并非想说什么就可以说什么,想怎么说就能怎样说。言论自由是与法律的保障与限制不可分割的,即法律对言论自由予以规定和保障,同时给予限制和约束。言论自由不可能超越法律。言论自由本身就是有限的,言论自由永远伴随着责任。从言论自由的内涵和原则来看,它实际上包括了三方面的要素:首先,公民有通过语言及相关方式表达其思想和见解的权利;其次,公民有在公开或者特定场合保持沉默亦即“不言论”的自由;第三,公民有对其言论承担责任的能力和义务④。言论自由作为公民的基本权利具有不受侵犯的特点,但在肯定公民基本权利不受侵犯的同时也应当承认基本权利的受制约性。

隐私权是公民的重要权利,理应得到法律的严格保护,但隐私权不是一种绝对权利。除了隐私权外,公民同样还享有基于信息共享的网络自由权。当这两者发生矛盾和冲突时,如何协调二者呢? 应当遵循权利协调原则、权利克减原则和知情同意原则⑤。权利协调原则是指一种权利在某个保护范围内或某种程度上做出让步,而使另一种权利得到基本满足。当网站服务商在处理两种不同性质的权利之间发生矛盾时,必须采取谨慎的态度,不能一味地强调某个权利。权利协调原则之所以具有合理性,在于隐私权和自由知悉权都是可克减的权利而不是绝对的权利。就隐私权而言,尊重他人隐私权的义务是一个自明的义务,但这不是不允许有例外的绝对义务。为了公共利益或国家安全等正当事由,需要隐私权做出必要的让步,同样的理由,自由知悉权也要做出某种让步,这便是权利克减原则。知情同意原则是指隐私权主体在充分知晓自己个人信息被利用的范围、方式和后果之后,自主做出如何处理个人信息的决定。它分为明示的知情同意原则和暗含的知情同意原则,明示的知情同意原则要求收集和使用他人个人信息必须征得当事人的同意,当事人能够对这些个人信息可能的用途和被使用的方式等情况有充分的了解,然后明确做出授权的同意表示或否定表示。暗含的知情同意原则是指媒体应通知有关他们个人信息的所有用途,如果当事人拒绝同意使用,媒体就不得使用其信息;如果没有收到当事人的回音,则推定当事人默认同意,直到当事人做出否定同意时,媒体就不能使用其信息。

四、公民隐私权的保护与“人肉搜索”行为的规制

(一)确认隐私权在我国法律体系中的地位

在我国,关于隐私权的保护已经有了法律规定。有学者认为,法官无法直接找出保护公民隐私权的条款,这体现出我国民事立法之不足。其实,对于隐私权的保护,我国法律经历了一个从通过名誉权间接保护隐私权到直接承认隐私权的过程⑥。1993 年《最高人民法院关于审理名誉权案件若干问题的解答》第7 条和1998 年《最高人民法院关于审理名誉权案件若干问题的解释》第8 条规定了隐私利益的名誉权保护防护方式,但是,我国《妇女权益保接护法》和《最高人民法院关于确定民事侵权精神损害赔偿责任若干问题的解释》已经明确将隐私从名誉当中脱离出来,实现了对隐私权的直接保护。对于网络隐私,《中华人民共和国计算机信息网络联网管理暂行规定实施办法》第18条也对侵害他人隐私的行为做出了规定。

(二)健全和完善网络行为的规范立法

“人肉搜索”行为属于网络行为的一种,虽然隐私权保护法律制度的健全与完善能够在一定程度上避免“人肉搜索”侵权的发生,但是规制“人肉搜索”最基本的还是需要加强对网络行为的法律规范。目前,网络行为实际上是拥有一些原则性或指导性的行为规范的,如宪法规定的公民的基本权利和义务、民法通则已有规定的人格权和现有的网络规制法体系中的“九不准”等。但从“人肉搜索”在实践中时常出现侵犯公民合法权利的现实来看,网络行为规范问题的解决至少还需要在以下两个方面进行努力。一方面就是内容清晰具体且可操作的网民行为规范体系化立法,另一方面就是责任明确、内容细化的网络服务提供者的行为规范立法,即网络服务提供者应当对网民的网络行为承担较为严格审查义务、承担采取适当技术措施的义务,等等。

五、结语

搜索引擎的研究现状 篇3

一、市场结构分析

市场结构是指构成产业市场的企业之间的交易关系的地位和特征, 决定市场结构的主要要素是市场集中度、产品差别和进入障碍, 市场结构是决定产业组织竞争和垄断程度的基本因素。

1. 集中度。

市场集中度是指某一特定行业市场份额控制在少数大企业手中的程度, 是市场势力的重要量化指标。绝对市场集中度指标是众多衡量市场集中度的最基本指标之一。从以2007年搜索引擎首选份额为衡量的绝对集中度的数据中可以看出, C R 4为9 2.2%。根据最早使用绝对市场集中度指标的贝恩教授对美国产业垄断和竞争类型的划分, 中国搜索引擎行业属于高度集中寡占型。另外, 从艾瑞咨询近几年发出的搜索引擎运营商在中国收入市场份额的数据上看, 百度占领着绝对的市场领先地位。

2. 产品差异化。

在产品功能上, 各大搜索引擎的搜索业务并无特别差异, 只由于使用搜索技术不同而导致的搜索效果不同;在产品细分市场上, 各搜索引擎运营商有较大不同, 百度和雅虎占领MP3搜索, Google胜于地图搜索和学术搜索, 其他行业搜索细分市场则由其他运营商占据;在搜索业务的多元化开发上, 差异性较明显。如百度推出知道、贴吧、传情等业务, Google则提出桌面搜索等。可以看出, 当今搜索引擎行业差异化竞争越来越明显。

3. 进入壁垒。

一般来说, 技术密集型的搜索引擎行业进入壁垒比较高。首先, 先进的技术是运作的基础。其次, 技术的高速更新使得企业需要投入大量资金进行不断的技术创新。很多中小企业尽管一开始克服了进入的技术壁垒, 但后期也就是因为资金问题而无法运作下去。最后, 搜索引擎方面的专业人才相对匮乏, 中小搜索引擎厂家想要进入可能会遭遇“人才瓶颈”。总的来说, 国内的中小搜索引擎厂商想要进入市场, 难度较大。

二、市场行为分析

在价格行为上, 百度的价格机制成为其他企业参照的基准。在兼并与合作行为上, 国外的大公司为尽快占领中国市场, 加速了兼并与合作。如雅虎收购Overture从而拥有了广告和搜索结果匹配技术, 进一步增强了雅虎的竞争力。同时, 雅虎也与阿里巴巴合作, 合作后推出电子商务的搜索, 又如G o o g l e曾占有百度4%的股份, 这也是一种合作的方式。在产品的创新上, 各大运营商也是层出不穷。3721推出地址栏搜索, 搜狐推出固定排名, 紧接着百度推出竞价排名, Google大举进军中国等等。百度知道、Google地图、网易社区等等新的产品概念纷纷推出, 可见搜索引擎产业的服务创新速度非常快, 相信随着竞争的进一步加剧, 各大厂商会不断推出新服务, 以巩固和争夺市场份额。

三、市场绩效分析

在市场规模方面, 我国的搜索引擎市场有着较快发展势头。2001年至2007年使用搜索引擎的用户几乎翻了近3倍, 且保持稳定增长态势。

由上图可知, 从2001年到2007年, 每年的增长率都超过了50%。艾瑞咨询预计, 中国2011年的搜索引擎运营商收入将达到1 3 3.3亿元。可见中国的搜索引擎市场具有巨大的发展潜力。在利润水平上, 随收入规模的增长其利润额也随之增高。据Google2005年财务报表显示, 其营运利润率达35.2%, 而2006年百度盈利能力超过Google, 营运利润率达37.5%。根据梅特卡夫法则, 网络产生的效益将随着网络用户的增加而呈指数形式增长, 故其在寡占阶段可以产生更多利润。

四、总结

通过以上SCP分析, 我们可以看出我国引擎搜索行业是个典型的高度寡占型的高科技网络行业。因其技术的独特性、高更新速度而面临更大的替代风险;也因其产品较为单一、盈利模式单一而不同于其他传统的高科技制造业。搜索引擎身在网络经济的最前沿, 固定成本巨大, 边际成本几乎为零等特点决定了它须在短时间内形成自己巨大的市场份额并持续维持。同时, 搜索引擎运营商须通过不断进行技术创新获得、维持和巩固其垄断地位, 并通过各种方式如市场营销、兼并、合作等, 扩大市场份额以攫取垄断后的高额垄断利润及网络经济下边际收益递增带来的收入。

参考文献

[1]杨公仆等:产业经济学教程.上海财经大学出版社

[2]《2007年中国搜索引擎市场份额报告》www.iresearchgroup.com.cn

搜索引擎的研究现状 篇4

关键词:Cranfield评价体系;查询样例集合构建;查询信息需求

中图分类号:G354文献标识码:A文章编号:1007-9599 (2011) 15-0000-01

Chinese Search Engine Performance Comparative Studyon Cranfield System

Li Yujun, Bao Yonghan

(Qinghai University,Xining810016,China)

Abstract:Cranfield system through the application-to build a collection of sample query,the query classification of information needs,crawling of search engine results,provided labeling guidelines,the basic computing performance evaluation process,the most commonly used Chinese search engine,Baidu,Google,Sogou,search,people search performance from a quantitative point of view,a more comprehensive evaluation.The result for the user in the selection,use these search engines for reference.

Keywords:Cranfield evaluation system;Query sample collection building;Query information needs

一、Cranfield評价体系

(一)体系的建立。二十世纪五十年代,Cleverdon等人在Cranfield University工作时提出了这样一套评价系统:由查询样例集、正确答案集、评测指标构成的完整评测方案,并从此确立了“评价”在信息检索研究中的核心地位,其核心思想沿用至今。

(二)Cranfield评价体系由三个环节组成。(1)抽取具有代表性的查询词,组成一个规模适当的查询样例集合。(2)针对查询样例集合,从检索系统的语料库中寻找对应的结果,进行标注。(3)将查询词和带有标注信息的语料库输入检索系统,对系统反馈的检索结果,使用预定义好的评价计算公式,用数值化的方法来评价检索系统结果和标注的理想结果的接近程度。

二、查询信息需求的分类

(一)导航类查询。查找某个已知存在的页面/资源,针对特定站点主页的查找。

(二)信息类查询。查找与某个主题相关的权威内容的页面,获取相关权威信息,没有明确查询目标,往往需要不止一个结果。

(三)事务类查询。查找与某个特定需求相关的资源,以进一步交互,没有明确查询目标,但往往一个好的结果就能完成需求。

三、查询样例集合的构建

根据其构建的查询样例集合,抓取常用的五个中文搜索引擎(百度、谷歌、搜狗、搜搜、人民搜索)对这部分查询词的查询结果,每个搜索引擎抓取查询结果的前十位结果,并利用这些结果构建Pooling。

四、搜索引擎性能指标评价的计算

(一)需要计算的性能指标及其公式。

1.首位相关结果倒数(Reciprocal Rank)

2.前N位准确率(Precision@N)。N=10,20:第一页结果中的准确程度。

3.前N位成功率(Success@N)。N=10,20:第一页中是否有满足需求的结果。

4.平均准确率(Average Precision)。N为标准答案的数目;Precision(i)为系统找到第i个答案时的Precision。

(二)计算性能指标值如下表所示:

表1导航类查询的MRR、MAP值

导航谷歌搜狗百度搜搜人民搜索

MAP0.8380560.7976330.7253330.6061780.111111

MRR0.9555560.9044440.7955560.8072220.16

表2信息类查询的MRR、MAP值

事务百度谷歌搜狗人民搜索搜搜

MAP0.6118750.61150.597750.4923750.436375

S@100.8250.90.8750.5250.9

S@50.8250.90.8750.5250.775

表3事物类查询的MRR、MAP值

信息谷歌搜搜百度搜狗人民搜索

MAP0.4609550.4250.4131820.3200910.090909

P@100.5505450.4720910.4477270.5099090.181818

P@50.6411110.5477780.5255560.2955560.111111

五、分析

(一)导航类信息查询结果的分析。分析导航类信息查询结果,可以得出:五个常用中文搜索引擎,平均首现正确答案排序倒数(MRR)值都要比平均准确率(AMP)高,但是这几个搜索引擎在平均准确率(AP)、首先正确答案倒排序(RR)方面还是有差距,其中谷歌、搜狗在导航类信息查询方面准确率要比百度、搜搜高。

(二)信息类信息查询结果的分析。分析信息类信息查询结果,可以得出:谷歌、搜搜、百度的MAP值高于搜狗。谷歌、搜搜、百度的前5选精度都要高于前10选精度,而搜狗和人民搜索恰恰相反。以上数据说明:谷歌、搜搜、百度、搜狗对信息类信息查询的综合性能、搜索引擎算法优化度较高,进一步也说明了,用户对这四个搜索引擎的满意度也较高。

(三)事务类信息查询结果的分析。分析事务类信息查询结果,可以得出:谷歌、搜搜和百度的MAP值也在0.4-0.5之间,但是基本持平。进一步说明:谷歌、搜搜、百度、搜狗对事务类查询的精度较其它搜索引擎要高,能够满足大部分用户的事务类信息需求。

三、密钥管理

密钥管理是加密方案中最重要的部分。公钥密码系统(Public Key Infrastructure)在key分发、完整性和不可抵赖性方面都有很好的表现,本文的密钥管理讨论就是基于PKI实现的。

使用PKI后,每个节点都有一对密钥:一个公钥和一个私钥。公钥可以公开发布,私钥只能由通信节点自身保管,使用公钥加密的信息只能用相应的私钥解密。证书发放机构(CA)管理公钥的整个生命周期,负责发放证书和用数字签名绑定公钥。在使用PKI的Ad hoc网络中,CA是整个网络安全的关键,也是网络中最容易受到攻击的节点。为了解决这一问题,我们可以使用一个受信任的节点集来进行密钥管理。

(一)系统模型

我们假设密钥管理服务主要用在同步Ad hoc网中,即所有节点使用一个公共的全局时钟,而且网络层提供了可靠连接。

图1.密钥管理服务模型图

密钥管理服务由n台服务器构成,服务作为一个整体有一对密钥:公钥K和私钥k,公钥K向所有节点开放,私钥k均分为n份,每台服务器一份。所有的服务器 都有一对密钥:公钥 和私钥 ,并且知道所有节点的公钥。其他的节点作为客户端可以发送请求得到各自的公钥或更新自己的公钥。而服务器之间互相知道各自的公钥,就可以建立安全连接。假设n台服务器中在一定时间间隔内最多同时有t(n≥3t+1)台被破坏,这样系统的健壮性和可靠性就有了保障。

(二)门限密码

密钥的分发基于门限密码学,根据Zhou和Hass提出的部分分布式认证方案,客户端密钥的分发由n台服务器共同完成。一旦其中有t台服务器被破坏,最多有t份错误信息生成。通过公钥服务可以检测到这些错误,然后从另外的t+1台服务器的子集中收集密钥信息,一直重复以上过程直到得到正确的密钥。这样的话,尽管提供CA服务的部分服务器被破坏,也不会影响其作为整体提供服务的可靠性。

(三)动態安全

除了门限密码之外,为了应对拓扑变化和移动攻击者,我们还考虑在密钥管理服务中使用份额更新(Share Refreshing)的方法。移动攻击者(Mobile Adversaries)由Yung和Ostrovsky提出,用于描述短期内攻击者破坏一个节点,然后把攻击转向另一个节点。在此模型下,攻击者可能在足够长的时间内破坏所有节点。即使被破坏的服务器会被检测和排除,但是如果有足够长的时间,还是会有超过t台服务器被破坏,产生无效和错误key是不可避免的。

动态方案(Proactive Scheme)是针对移动攻击者提出的解决方案。动态方案允许服务器定期更新其拥有的密钥份额,而服务对应的密钥保持不变。这样移动攻击者就需要在一个更新时间间隔内破坏t台服务器,才能得到密钥。

图2.份额更新模型图

如图2所示:密钥k被分成n份,每台服务器一份。为了计算出服务器新的密钥份额S ,服务器i要计算新的子份额 , … 。计算出所有的子份额后,把子份额 通过安全通信方式发送到服务器j,服务器j就可计算出新的密钥S 。

四、结语

本文分析了Ad hoc网络面临的安全威胁,提出了针对Ad hoc网络安全需求的一种解决方案,但是还有很多工作等待进一步的探讨,包括方案在实际应用中的表现和对网络性能的影响等。但Ad hoc网络的特点决定了其在军事和特定民用领域具有广阔的发展前景。

参考文献:

[1]Y.Desmedt.Threshold cryptography.European Transactions on Telecommunications,5(4):449–457,July-August 1994.

[2]Z.J.Haas and B.Liang.Ad hoc mobility management using quorum systems.IEEE/ACM Transactions on Networking,1999.

[3]C.E.Perkins and E.M.Royer.Ad hoc on-demand distance vector routing.In IEEE WMCSA’99,New Orleans,LA,February 1999.

[4]L.Zhou and Z.J.Haas.Secure ad hoc networking.IEEE Network,13:24-30,Nov.1999.

[5]Ostrovsky R,Yung M.How to withstand mobile virus attacks[C]//Proc of the 10th ACM Symposium on the Principles in Distributed Computing.New York:ACM Press.1991,51-61

移动搜索现状及发展策略 篇5

一、移动搜索概述

移动搜索就是搜索技术在移动平台上的延伸, 是以移动设备为终端, 进行对互联网的搜索, 从而实现高速、准确的获取信息资源。用户可以通过3G/4G、WAP、SMS、IVR (互动话音识别) 等多种接入方式进行搜索, 可以实时获得互联网Web、WAP站点信息、本地服务信息以及按需定制相关移动增值服务。

移动搜索不是互联网搜索在移动端简单的复制, 它与互联网搜索在许多方面有着本质的区别。移动搜索的特点:a、使用便捷, 不受时间、区域的限制;b、搜索效率更高, 相对于桌面搜索引擎, 广告、垃圾链接少, 用户搜索目标更精准, 效率更高;c、为用户提供个性化服务, 可以根据用户的性格、地理位置、行为方式、兴趣爱好提供分类信息搜索服务;d、搜索服务目标人群更广泛, 据CNNIC的调查, 截至2013年12月, 我国互联网网民数量达到6.18亿, 其中手机网民规模达5亿, 这为移动搜索提供了巨大的发展空间。

按照搜索内容分类, 可以分为综合搜索和垂直搜索。按照搜索技术分类, 可以分为Web搜索、WAP搜索、短信搜索、IVR搜索。按照搜索范围分类, 可以分为站内搜索、站外搜索和本地搜索。

二、移动搜索现状分析

(一) 移动搜索的业务应用

1、位置搜索。

通过GPS定位手机位置, 为用户提供所在位置的相关服务, 如腾讯的QQ软件, 手机登陆后, 注册网友可以通过查看附近的人找到好友;人人网客户端可以看到周围的团购信息。位置搜索还包括本地搜索, 本地搜索集成了当地信息搜索、黄页咨询、电子地图、空间位置查询、公交和驾车路线查询等服务。

2、比价搜索。

比价搜索是搜索引擎的一种细分, 即在网上购物领域的专业搜索引擎, 是从比较购物网站发展起来的一种垂直搜索引擎。比价搜索已成为网上购物者必备工具, 结合移动终端更发挥了其便捷的功能。在移动终端上可以通过发送短信或扫描商品条形码, 获取商品信息在各商家的售价, 目前国内很多比价购物搜索软件, 如购物比价, 我查查条码比价等。

3、多媒体实时搜索。

多媒体信息实时搜索有音乐/图铃搜索、曲名搜索、图像搜索等。曲名搜索是使用移动设备接受声音, 发送到搜索引擎, 搜索引擎系统收到录音后首先除去噪音, 并在几十毫秒内从保存了上百万首乐曲的数据库中搜索出匹配的乐曲。如软件音乐雷达, 只需要播放一段十秒的音乐, 软件就会查找并给出相关歌曲信息。

4、Web/WAP搜索。

Web/WAP搜索是对广泛的WAP站点以及互联网资源的搜索查询, 是传统互联网搜索服务在移动平台上的延伸。互联网和WAP是一个巨大的知识库, 移动搜索需要对互联网中检索到的原始信息进行整理、去粗取精, 由于移动设备屏幕较小, 还要去除一些广告、垃圾信息, 为用户带来精准的信息。

(二) 移动搜索用户行为特征

1、移动搜索用户品牌忠诚度高。

虽然多数移动搜索用户使用时间不长, 但是使用频率非常高, 调查显示, 2013年, 每天使用超过1次的用户达到54.4%, 比2012年提升了5.1个百分点, 一旦使用, 取消服务的可能性很小。对于品牌普遍具有相当的忠诚度, 如传统互联网上的百度在手机搜索引擎市场占有88.7%的份额, 这为新生的移动搜索服务商带来了很大的压力, 如宜搜科技, 专注于互联网搜索引擎服务的企业, 移动搜索市场份额仅占1.7%。

2、个人影响因素大。

移动搜索, 尤其是手机搜索, 与传统互联网搜索相比个性化特点更明显。从心理上来说, 手机更像个人的私人空间, 对手机的使用时间、搜索的态度、认知程度等完全由个人控制。影响移动搜索的个人因素包括习惯、体验、情感、个人知识等具体因素。

3、手机上网时间碎片化。

移动搜索打破了时间和地域的限制, 利用碎片化时间即可实现, 最常发生在饭后休息时以及睡觉前这两个时间段, 使用比例在60.7%, 其次在坐车途中, 使用比例在56.6%, 学习工作、排队等候时比例也达到49.6%、45.9%。

4、休闲娱乐类信息兴趣明显。

根据CNNIC调查显示, 2013年网民移动搜索, 搜索内容新闻占据第一位, 比例为58.3%, 其次为饮食娱乐47.7%, 第三为音乐和视频47.5%, 文学作品和位置信息分别为41.9%和41.7%。由于网民使用移动终端上网时间碎片化, 所以搜索内容大多以休闲娱乐为主。

三、移动搜索发展面临的问题

(一) 移动搜索盈利模式不明确。

一方面移动搜索不能像传统互联网搜索那样竞价排名或网页上广告, 所以目前中国移动搜索市场收费情况, 仅是运营商靠流量或短信收费, 收费模式单一, 商业模式明显不成熟。但是, 不盈利的服务模式又不能持续地给用户提供更好的服务与业务;另一方面移动搜索用户也不能接受为搜索引擎付费的模式。这都是移动搜索盈利上的困境。

(二) 移动搜索产业链不完善。

传统互联网上搜索引擎的成功不能简单复制到移动搜索, 目前我国移动搜索尚处于市场导入期, 业务定位不精准、盈利模式不明确、用户体验不足, 主要原因在于移动搜索产业链不完善。移动搜索的产业链包括移动运营商、手持设备制造商、移动搜索服务商、移动搜索内容提供商、搜索技术提供商、移动搜索渠道商、移动搜索应用机构以及移动搜索用户。

(三) 移动搜索用户群的培养。

从搜索用户的角度来看, 大多数用户已经习惯传统互联网只支付上网费, 搜索信息免费的模式, 因此他们在支付流量费还不能完全接受的情况下, 更难接受为信息内容付费。在用户实时获取信息的需求与通过其他方式得到满足而移动终端上网的成本比较高的情况下, 如何培养移动搜索用户群是移动搜索服务商的一个挑战。

(四) 移动搜索技术上的难题。

一方面移动搜搜像互联网搜索一样, 受到信息量、网络质量、自费、盈利模式、硬件等众多因素的制约;另一方面移动搜索又受到用户个性化服务的制约, 移动搜索最大的特点在于满足用户生活中的个性化需求, 需要给用户带来良好的体验。然而, 移动搜索受终端的限制, 如屏幕小、翻页不方便。据统计, 人们查看手机时翻页4页以上的仅占29.3%。

四、移动搜索发展策略

(一) 移动搜索业务准确定位。

一方面移动搜索可以从娱乐领域向本地生活服务领域拓展。移动设备 (尤其是手机) 可以更好地定位了用户的位置和行为偏好, 在用户进行搜索时, 搜索内容会精准地最先呈现移动设备所在地的搜索内容, 本地化搜索特征明显, 应好好利用此特征, 移动搜索注重本地化;另一方面将移动搜索和电子商务有效结合, 中国移动通信集团公司的李井乐指出, 移动搜索应该=搜索+信息+电子商务。

(二) 培育移动搜索用户群, 注重个性化定制。

移动搜索将充分表现移动终端的优势, 注重用户体验式是成功之本。首先, 进行移动搜索信息构建, 移动终端屏幕有限, 不能像传统互联网那样展示大量无关信息;其次, 推行多媒体搜索手段, 为用户带来超PC上的搜索体验。如利用手机拍照、视频、语音, 满足用户各种类型搜索需求;最后, 满足用户个性化定制, 通过移动终端用户所在位置等信息, 为用户提供有效的信息推送。

(三) 以移动运营商为核心构建产业链。

移动运营商掌握着大量的重要信息, 如移动用户的基本信息、终端信息、位置信息等, 可以说, 移动运营商控制着移动终端和客户之间的“接触点”, 所以要以移动运营商为核心构建产业链。移动运营商首先要培养用户规模, 然后在产业链上进行盈利的分配, 以促进整个产业链的发展。

(四) 搜索技术创新, 大力发展垂直搜索。

开发独具移动特色的搜索, 如基于SMS、MMS、IVR与传统WAP相结合的搜索, 传统互联网信息数据库为移动搜索引擎提供支持, 信息服务商提供更多的API, 满足移动搜索产业链上各角色进行搜索技术开发, 从而为移动搜索技术创新创造必要条件。相比通用搜索引擎来说, 垂直搜索引擎有以下几个主要特点:垂直搜索包含信息量大, 解决用户困难的能力强, 对用户硬件要求低, 信息响应速度快。这些特点正好迎合了移动搜索的需求, 如地图搜索、旅游搜索、股票搜索、天气搜索、比较搜索等, 所以应注重垂直搜索在移动搜索中的应用开发。

移动搜索是刚刚发展起来的朝阳产业, 还正处在市场导入期, 在业务模式、盈利模式、技术开发、用户培育方面存在很多不足, 随着技术的进步以及用户需求的驱动, 相信在移动搜索产业链各方的共同努力下, 移动搜索一定会有一个更美好的明天。

参考文献

[1]CNNIC.2013年中国搜索引擎市场研究报告[DB/OL].http://www.cnnic.cn/hlwfzyj/hlwxzbg/ssbg/201401/P020140127366465515288.pdf, 2014.3.

[2]CNNIC.第33次中国互联网络发展状况统计报告[DB/OL].http://www.cnnic.cn/hlwfz yj/hlwxzbg/hlwtjbg/201403/t20140305_46240.htm, 2014.3.1.

[3]杜杏兰, 杨彦格.移动搜索业务研究[J].信息通信技术, 2009.2.

[4]百度百科.音乐雷达[EB/OL].http://baike.baidu.com/view/2070344.htm, 2014.3.18.

[5]于常瑶.移动搜索用户消费行为发展趋势分析[J].科技信息, 2011.35.

商业主题搜索引擎的研究 篇6

互联网对商业发展产生了巨大的推动作用, 我国商业信息网站已经发展到成千上万家, 在传播商业政策和信息方面发挥了显著作用。随着网络信息数量的迅猛增长, “信息过载”、“信息超载”现象引起了人们的重视。如何高效、准确的获得包含用户所需的信息的网页, 日益成为需要迫切解决的问题。

垂直搜索引擎是解决这一问题的一个有效方法。面向商业的中文专题垂直搜索引擎有针对性的搜索网上商业专题信息, 从而使商务人员高效检索所需的信息。而随着万维网上的信息数量呈指数增长, 大量信息垃圾也混杂其中。如何向商业用户提供质量好且数量适当的检索结果成为垂直搜索引擎关注的方向之一。

二、国内外现状与发展趋势

垂直搜索引擎大都处于研究和试验阶段, 利用其搜索的结果再加上专业人士的加工而形成的面向某一学科、领域的垂直门户网站也已经出现。目前在国外, 对有关主题搜索引擎的研究已经成为一大热点, 我国主题搜索引擎的研究则刚刚起步。

目前面向主题的网络搜索主要有两种技术:

一是基于内容的搜索, 这种搜索方式是传统的信息检索技术的延伸。它的主要方式就是在搜索引擎内部建立一个针对主题的词表, 搜索引擎的爬行器根据其内设的词表对网上的信息进行索引。各个不同的系统词表建设的复杂度也大不相同。

二是基于链接分析的搜索。网页之间的链接指引关系与传统的引文索引非常相似, 通过对链接进行分析, 可以找出各个网页之间的引用关系。由于引用网页与被引用网页之间内容上一般都比较相关, 所以就可以很容易地按照引用关系对大量网页分类。

三、技术关键

基于面向商业的垂直搜索引擎服务具有其自身的特性, 下面列举出实现商业信息垂直搜索引擎的四大关键技术。

1. 针对性、实时性和易于管理的网页采集技术:

面向商业的垂直搜索带有专业性或行业性的需求和目标, 所以只对局部来源的网页进行采集, 采集的网页数量适中, 但其要求采集的网页全面, 必须达到更深的层级, 采集动态网页的优先级也相对较高。在实际应用中, 垂直搜索的网页采集技术应能够按需控制采集目标和范围、按需支持深度采集及按需支持复杂的动态网页采集, 即采集技术要能达到更加针对性、实时性和易于管理, 并且网页信息更新周期也更短, 获取信息更及时。

2. 结构化数据的网页解析技术:

由于面向商业的垂直搜索引擎服务的特殊性, 往往要求按需提供时间、来源、作者及其他元数据解析, 包括对网页中特定内容的提取。在商业垂直搜索服务中, 要求对于作者、主题、地区、机构名称、产品名称以及特定行业用语进行提取, 才能进一步提供更有价值的搜索服务。

3. 全文索引和联合检索技术:

面向商业的垂直搜索由于在信息的专业性和使用价值方面有更高的要求, 因此能够支持全文检索和精确检索, 并按需提供多种结果排序方式。另外, 还要求按需支持结构化和非结构化数据联合检索, 比如结合作者、内容、分类进行组合检索等。

4. 智能化的文本挖掘技术:

面向商业的垂直搜索是以结构化数据为最小单位。基于结构化数据和全文数据的结合, 垂直搜索才能为用户提供更加到位、更有价值的服务。整个结构化信息提取贯穿从网页解析到网页加工处理的过程。同时面对上述要求, 垂直搜索还能够按需提供智能化处理功能, 比如自动分类、自动聚类、自动标引、自动重排, 文本挖掘等等。这部分是垂直搜索乃至信息处理的前沿技术。

四、设计方案

1. 技术路线。采用如下的研究开发路线:

(1) 针对商业信息的分布特点以及用户的实际需求, 在充分调研的基础上, 详细了解和比较其他研究人员在类似领域取得的一些重要而有一定创新性的成果, 在此基础上初步提出平台的整体架构。

(2) 结合面向对象设计技术, 对上一步设计出的平台进一步细化, 从而明确对该项目所采用的具体设计模式。

(3) 根据设计模式所面临的具体问题 (例如, 如何提高爬行速度问题、系统资源限制问题、网页分类器问题、HTML文档解析问题等) 给出有效的解决方案。

(4) 将以上的方案付诸实施, 形成一个面向商业的信息查询与共享平台;同时对系统的各种参数进行进一步测试, 不断地完善和优化, 最终形成一个界面友好、响应速度/查全率/查准率均符合用户要求的面向商业的垂直搜索引擎。

2. 创新点。为达到商业信息搜索引擎预期的响应速度、查全率和查准率, 在系统的开发中有如下创新点:

(1) 系统总体为模块化结构, 各个模块之间高内聚, 低耦合。

(2) 系统使用面向对象语言开发, 能够有效地重用系统部分代码。

(3) 在设计过程中, 使用面向对象的思想做指导, 建立系统类图, 便于开发人员之间的交流。在编码过程中, 不断重构代码, 使得代码具有很高的运行效率, 大大提高其重用性。

(4) 系统集成时, 使用XML文档作为模块间传递信息的工具。

(5) 大量采用散列表来提高数据的查找速度, 优化系统性能。

搜索引擎技术的研究与展望 篇7

搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。作为一门综合性的计算机技术,搜索引擎涉及高性能网络存储计算、信息检索、自然语言处理、数据挖掘、信息抽取和人机界面等诸多计算机研究领域。搜索引擎的功能可以简单地描述为,根据用户输入的查询串,从所收录的网页中找到一组与该查询串最相关得网页,并把这些网页的链接地址返回给该用户,供其点击浏览[1]。

搜索引擎的基本原理表现为信息集合和需求集合的匹配。搜索引擎定期自动搜寻某些Web站点,采集关于这些站点上的各类信息,自动对这些资源进行理解、提取、组织和处理,然后将这些数据整合到数据库,并为用户提供以Web技术为基础的包括布尔检索、短语或词组检索和各种限制检索在内的自然语言检索,之后按相关度输出检索结果。

搜索引擎的工作流程大致可以分为:第一,搜集信息。搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛(spider)的自动搜索机器人程序来连上每一个网页上的超链接。从少数几个网页开始,连到数据库上所有到其他网页的链接,就像日常生活中所说的“一传十,十传百”一样。理论上,若网页上有适当的超链接,机器人便可以遍历绝大部分网页。第二,整理信息。搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要使用户不用重新翻查所有保存的信息而迅速找到所要的资料。第三,接受查询。用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎主要是以网页链接的形式提供的,通过这些链接,用户便能到达含有自己所需资料的网页。通常,搜索引擎还会在这些链接下提供一小段信息,这些信息是所搜网页的摘要信息,以帮助用户判断此网页是否含有自己需要的内容。

1 目前所存在的问题

1)信息覆盖面不广各搜索引擎之间缺少协作和联合。每个搜索引擎都有自己的一套分类体系、标引方法、索引方法、数据库结构和检索界面,缺乏分工和协作,因此,各搜索引擎之间数据资源的兼容性和互操作性差,缺乏资源共享的基础。同时造成各搜索引擎的数据资源交叉重复现象严重;很多有实力的大型搜索引擎仍然在盲目追求数据库规模,提供的信息服务太大众化,缺乏深度;忽视对非Web信息资源的收集。

2)查全率偏低,查准率不高据权威机构统计,因特网上约有100多亿网页,而世界上目前搜索量最大的Google也只能搜索33亿网页,就是说任何搜索引擎都不可能涵盖整个网络。目前的各种搜索引擎是按既定的相关度对检索结果进行排序的,而不同的搜索引擎对相关度参数的选择、计量和算法均有所不同,这就难免会与用户的检索目标相冲突,因而会人为的影响到查全率与查准率;由于现今搜索引擎对自然语言的理解能力差,再加上网站或网页的标引类型、标引深度、索引方法等的不规范,因而直接影响检索词的选择、匹配和检索结果的输出格式,从而影响了查准率[2]。

3)输出结果不尽人意各搜索引擎的相关度排序方式单一,不能根据用户需要来选择信息输出的排序方式;主题分类检索输出的往往只是网站,而不能快速准确地提供网页信息,用户登录到相关网站后又往往找不到所需要的信息;不论是关键词检索,还是主题分类检索,信息输出的结果显示格式简单,不能向用户提供相关的更好的途径和信息;数据更新速度慢,更新周期长,对于网上已不存在的网页不能及时删除,经常会出现无法打开的死链,浪费用户的宝贵时间;网站、网页都处于动态的变化之中,新旧交替十分频繁,而维护不及时,索引库中就会存留着许多无用信息,导致没有经过筛选与排序的记录被输出。

4)网页作弊问题随着搜索引擎在人们网络生活中所处的位置越来越重要,个别网站为了在返回结果排序中获得更靠前的位置,以此增加用户关注度和点击率,他们便采用各种手段在搜索引擎网页排名中作弊。早期最常见的作弊方法是重复关键词,他们在网页中重复某些和网页内容并不相关的关键字,以此增加被其他著名站点选中的几率,这样既没有增加用户所需的有用信息又增加了用户查看信息的负担。在有了网页排名以后,“超链分析”排序技术成了作弊者利用的工具。他们创建成百上千个没有实质内容的网站,目的就是增加某个网页的链接数量,而网页被其他网页链接得越多,排名越靠前,但信息内容并不一定越有价值,不相关信息排在前面,甚至暴露给用户有害信息,这就极大地降低了查准率,而且误检、漏检率相当高[3]。

2 面临的研究课题

搜索引擎既是一门技术,又是一项服务,因此搜索引擎的发展应该包括搜索引擎产品技术的研发及其服务方式的改进与发展。但是,不管搜索引擎技术如何发展,服务方式如何改进,都不应偏离用户快速、准确、方便查找信息的主导方向。虽然搜索引擎的发展从20世纪90年代诞生,至今已经经历了很长时间的发展,但是通过以上对目前搜索引擎所存在的问题分析,可知今后搜索引擎的研究面临以下课题:

1)智能化搜索:智能化搜索考验的是自然语言理解技术的发展。自然语言理解技术可以允许用户采用自然语言进行信息的检索,这种搜索引擎将具有信息服务的人性化特征,为用户提供更方便、更确切的搜索服务。自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出像人那样理解、分析并回答自然语言。由于它将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力,所以将针对不同知识背景、不同兴趣的用户提供不同搜索结果的。以自然语言理解技术为基础的新一代搜索引擎可以称之为智能搜索引擎。

2)模糊搜索:目前的搜索引擎大都已经具备模糊搜索的功能,但是都只限于对搜索关键字的模糊性处理,未来的模糊搜索是指对模糊概念或模糊事物进行直接搜索。打个比方来说,用户的脑海中突然出现一段旋律,自然地哼唱出后却想不起歌词与歌名,这时用户只需将旋律哼出并录入电脑,就可以用搜索引擎直接搜索完整的歌曲。简单言之,就是用“哼歌”的方式寻找想要的歌曲。或者是,只知道图片所包含的大概内容,但是不知道图片的名字,也可以通过输入模糊图像的方法,来查找出内容相关的图像来;或者是用户通过语音,乃至手势来告诉搜索引擎自己想要查找内容的关键词。

3)群体搜索:物以类聚,人以群分。相同背景和生活环境下的人通常会具有相同的思维方式,对于同一事物也通常会有相近或相同的认知与反应。目前的搜索引擎却不具有对用户区分对待的功能,不同群体的人搜索同一内容得到的结果是相同的,这样就给人们的使用造成不便,浪费了用户是时间与精力。今后的搜索引擎技术将针对这一点进行改善,通过注册账号和与用户进行前期交互等形式建立用户的个人信息库,了解不同用户的知识背景、个人喜好等,并结合相同群体内的搜索历史和关注度对网页进行排序,以此返回质量最高的信息。

4)对象级别的垂直搜索:现在主流的搜索引擎都把网页作为信息表示和检索的基本单元,在这样一搜索模式下,关键词查询用于表达用户的信息需求,而查询结果是包含关键词并按相关性排序的网页列表。用户需要浏览列表中的网页以找到自己需要的信息。这一模式对于查找主页和下载软件等查询时有效的。但是,对于某一特定领域内的复杂信息需求就不是很有效了。例如用户需要购买一台数码照相机,他希望搜索引擎直接提供一个在指定价格范围内的数码照相机列表,而不是网页列表。

对象级别垂直搜索技术的出现,正是为了解决这一问题。所谓“垂直”,是指这一搜索技术是指定某一特殊领域的,例如学术、购物、求职等。用户将在自己感兴趣的领域内进行搜索。而“对象”的概念是指搜索引擎在反馈搜索结果时,不再表现为一个个独立的页面,而是将各个页面中的关于真实世界中对象的结构化信息按照用户的需求集合成一个个完整的信息单元。例如,当用户搜索某个商品时,对象级垂直搜索技术将把这个商品的图片、参数、价格、商家位置、用户评价等等相关信息集合在一个页面上,让用户可以在第一时间的到最需要的内容。从这个意义上来说,垂直搜索技术与现有的页面搜索技术最大的不同之处就在于,它返回的是一个“不存在”的网页,是搜索引擎根据用户的需求而将各类相关信息集合到一起所生成的一个新页面[4]。

5)多语言支持:在很多情况下,互联网中确实存在着用户需求的答案,只是这种答案是以另外一种语言写成的。虽然有部分搜索引擎提供了机器翻译服务,但是还很难做到将互联网中的答案根据网民语种的不同翻译成不同的结果。理想的搜索引擎就是,当用户输入关键词之后,搜索引擎找到互联网中相应的搜索结果,并将结果翻译成用户所使用的本地语言。

综上所述,完美状态的搜索引擎应该是所有网民最好的朋友,它可以立刻为你找到这个世界的所有信息。它储存了用户所看过和知道的所有知识。搜索引擎应充分懂得用户的查询需求,既有学识和最需要的信息,然后为不同用户量身定制最为准确的答案。并且还可以为用户呈现丰富的媒介形式和不同模式的搜索结果[5]。

3 结论

综上所述,搜索引擎已经成为每一网络用户不可或缺的查询工具,它在为用户提供便利的同时,也显现出一些亟待解决的问题。但是随着研究的不断进展,搜索引擎的功能一定会越来越强大,为用户所提供的服务质量也会越来越高。

参考文献

[1]门凤超,苗军民.试论搜索引擎的现状与发展[J].现代情报,2008(2):21-22.

[2]何毅.搜索引擎检索技术及其优化策略[J].现代情报,2008(5):171-173.

[3]方志坚,张瑞林,童小素.搜索引擎综合分析[J].计算机工程与设计,2007,28(16):4039.

[4]钟辉新.基于垂直搜索引擎的个性化信息服务探索[J].情报杂志,2008(1):118-120.

网络信息搜索引擎的发展研究 篇8

关键词:信息检索,搜索引擎,网络,趋势

1 搜索引擎的原理

搜索引擎是对www站点资源和其他网络资源进行组织和检索的一类检索机制。其机制一般包括数据采集和标引机制、数据组织机制、用户检索机制。其中, 数据采集机制按照一定规律和方式对网络上www站点进行搜索。并将搜索到的www页面信息存入搜索引擎的临时数据库;搜索引擎的数据组织机制对www页面信息进行整理以形成规范的页面所以, 并建立相应的索引数据库, 搜索引擎的用户检索机制帮助用户以一定方式检索引擎的索引数据库, 以获得符合用户需要的www站点或页面。

2 根据搜索引擎提取数据的方法, 可将搜索引擎系统可以分为三大类

2.1 目录式搜索引擎:

是一种网站级搜索引擎。目录式搜索引擎由分类专家将网络信息按照主题分成若干个大类, 每个大类再分为若干个小类, 依次细分, 一般的搜索引擎分类体系有五六层, 有的甚至十几层。先由程序自动搜集信息, 然后由编辑员查看信息, 人工形成信息摘要, 提供目录浏览服务和直接检索服务。由于目录式搜索引擎的信息分类和信息搜集有人的参与, 因此其搜索的准确度是相当高的, 缺点是需要人工介入、维护量大、信息量少、信息更新不够及时。Yahoo就是这类搜索引擎的代表。

2.2 机器人搜索引擎:

由一个称为蜘蛛 (Spider) 的机器人程序以某种策略自动地在互联网中搜集和发现信息, 由索引器为搜集到的信息建立索引, 由检索器根据用户的查询输入检索索引库, 并将查询结果返回给用户。服务方式是面向网页的全文检索服务。但是该类引擎返回信息过多, 有很多无关信息, 用户必须从结果中进行筛选

2.3 元搜索引擎:

这类搜索引擎没有自己的数据, 而是将用户的查询请求同时向多个预先选定的独立搜索引擎递交, 将返回的结果进行重复排除、重新排序等处理后, 作为自己的结果返回给用户。元搜索引擎的搜索效果始终不理想, 所以没有哪个元搜索引擎有过强势地位。

3 搜索引擎的局限

因特网搜索引擎的结构及工作方式的缺陷, 没有一个搜索引擎包含的WWW页超过了全球总WWW页面的16%, 而对因特网资源的覆盖面还明显下降, 也受限于数据库更新的速度, 可能导致搜索引擎有价值的信息。

搜索引擎自动巡视软件在搜集因特网信息时, 通常要将网页内容全部或部分下载到本地, 然后才能进行索引处理, 下载的页面中有许多无用或暂时的信息, 影响索引速度, 也浪费系统通信资源。各种搜索引擎使用的检索符号和对检索式的要求不一样, 给用户检索带来了困难。搜索引擎的局限性还主要表现在信息丢失、返回过多无用信息及信息无关等方面。造成现状的原因在于传统搜索引擎队要检索的信息仅采用机械的关键词匹配, 缺乏知识处理能力和理解能力, 即使搜索引擎无法处理用户看来非常普通的常识性知识, 更不能处理个性化知识, 因地区不同的区域性知识, 因领域不同的专业性知识。

还有原因在于整个检索过程中, 客户端的计算机知识起着一个终端的作用, 强大的运算能力和存储空间无法发挥作用, 就造成以下的问题:搜索结果很难精确匹配;无法对检索结果进行提炼;无法对不同的搜索引擎的结果进行综合比较与提炼;搜索引擎使用方法不同造成用户理解和使用困难;搜索结果手工下载效率低下;增加用户的网络通信费;搜索结果中的匹配文档不可能快捷地下载。

4 搜索引擎发展趋势

智能搜索引擎:智能搜索引擎是结合了人工智能技术的新一代搜索引擎, 它使因特网信息检索从基于关键词提高到基于知识或概念, 并对知识有一定的理解和处理能力, 能够实现分词技术、同义词技术、概念搜索、短语识别及机器翻译技术等。比如在表单中输入的问题, 返回的答案, 这样就要把所有的问题全部添加到数据库中, 每当用户提问的时候, 数据库将会在数据库中检测查询结果, 百度知道就是把用户的问题和正确答案添加到数据库中了, 当你在知道中查询答案, 那么将会检测到相关的词汇。智能搜索引擎实现数据挖掘、知识发现、智能代理等。智能搜索在研究机器翻译 (MT) 的领域中, 使用户可以用母语搜索非母语的网页, 并以母语浏览搜索结果。检索机制:垂直化专业领域搜索、关联式的综合搜索、检索结果自动聚类。垂直搜索是针对某一个行业的专业搜索引擎, 是搜索引擎的细分和延伸, 是对网页库中的某类专门的信息进行一次整合, 定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取, 也就是将网页的非结构化数据抽取成特定的结构化信息数据, 好比网页搜索是以网页为最小单位, 基于视觉的网页块分析是以网页块为最小单位, 而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库, 进行进一步的加工处理, 如:去重、分类等, 最后分词、索引再以搜索的方式满足用户的需求。整个过程中, 数据由非结构化数据抽取成结构化数据, 经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。垂直搜索引擎的应用方向很多, 比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索……几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎关联式的综合搜索。关联式综合搜索, 就是这样一种一站式的搜索服务, 它使得网民在搜索时只需输入一次查询目标, 即可在同一界面得到各种有关联的查询结果。这项服务的关键在于有一架构在XML基础上的整合资讯平台自动聚类可对检索结果进行自动聚类并构建树状结构, 以构建企业知识地图、检索者快速定位所需信息。应用中可实现对新闻稿件或大数据量文档的自动聚类, 实现辅助专题制作等。类似方正智思知识管理平台软件那样特色搜索引擎: (包括可视化检索和多媒体信息检索的综合运用) 检索结构可视化方法实现检索结果可视化。搜索结果的呈现方式, 结果可视化, 可以先看到每个网页长什么摸样, 再决定是否访问它。多途径的多媒体检索、多种媒体信息库的结合、多特征的综合检索、采用相关反馈和自动标注技术、高维索引技术、用户查询接口实现多媒体信息综合检索在网络信息多样化和网络用户多样化的呼唤下, 人们希望在网络上找到更丰富更实用的资源, 不再漫无目的地查找, 特色搜索引擎便应运而生了。

(1) 图像搜索引擎。图像搜索引擎虽然还没有成熟的产品, 但是这项研究工作却紧锣密鼓的进行着。据称, 美国Purdue大学的研究人员已经开发出了一种新的搜索引擎, 这种搜索引擎不再使用关键词文本进行搜索, 而是使用图像或者草图进行搜索。不就的将来, 用户自己画一幅草图, 搜索引擎就可以对数据库进行搜索, 并找到所有与草图类似的图像。不过, 这要求图像搜索引擎能够快速处理超大容量数据库。这种技术不仅为网民提供了方便, 在生物、化学、医学等领域都可能发挥极大的作用。

(2) 多媒体搜索引擎。FAST是国外著名的多媒体搜索引擎, 很多同类搜索引擎都会引用此引擎的内容。在FAST搜索多媒体文件, 可以同时搜索图像、音频、视频等多种格式的多媒体文件, 图像支持JPEG、GIF、BMP三种格式, 音频支持MP3、Wave、AIFF、RealAudio、MIDI五种格式, 视频支持AVI、DivX、QuickTime、MPEG四种。FAST为每一个搜索结果提供预览和说明, 同时还有下载的直接链接, 以及该文件所在网站的地址。

(3) 搜索在线摄像头监视画面:众所周知, 如果要与对方通过摄像头进行连接的话, 必须对方同意才可以。但是利用Google却可以突破这个限制, 因为它可以搜索网络上未经加密的网络摄像头 (机) 监视到的画面。

(4) 房产地图搜索引擎。房产地图搜索引擎是结合地理信息系统 (GIS) 、数据库系统 (DBMS) 和动态Web软件技术开发研制, 可以通过智能化地理信息分析查找特定范围内的特定目标。例如用户可以选择购房愿望:价格、面积、户型、房屋布局、地理位置、周边商业、交通、自然环境、小区状况等, 在互联网上进行查询。引擎立即会将所有满足条件的房源显示出来, 并可以任意放大、缩小、移动房源地图。

总之, 随着计算机技术和网络技术的不断发展, 网络检索将逐步朝着简单化、人性化方向发展, 检索界面会越来越简洁友好。用户可以很容易地进行网上自动标引、自动文摘、自动跟踪、自动漫游、机器翻译、多媒体检索、动态连接、数据挖掘等操作, 方便、及时、准确地获得所需信息。

参考文献

[1].徐谦.网络信息检索的智能化趋势[J]图书馆理论与实践2006, 2:63-65

[2]柳群英.网络信息检索技术现状及发展趋势[J]情报探索2005, 4:66-68

搜索引擎的研究现状 篇9

[关键词]元数据标签;搜索引擎;HTML;搜索结果;信息组织

[中图分类号]G354 [文献标识码]A [文章编号]1008-0821(2010)05-0163-04

Study on the Effect of Metadata on Improving the Searching EfficiencyXing Bo

(Department of Information Management,Beking University,Beijing 100871,China)

[Abstract]The aim of this paper was to determine the effect of metadata on improving the searching efficiency.First,the worth of metadata was discussed,and then,the effect of metadata on how to improve the searching efficiency was studied by the empirical study.The searching result was used to investigate the real status of the usage of metadata in HTML.The Generalized Linear Model(GLM)was used to describe the relation between the metadata and searching result.The result showed that the effect of metadata on improving the searching efficiency still existed.It was necessary to pay attention to the importance of metadata in HTML.

[Keywords]metadata label;search engine;HTML;search result;information organization

现今,搜索引擎已成为用户获得网络信息资源的最主要途径。网页资源在搜索引擎中的排名将直接影响到网页资源的内容被用户接收和利用的效率。而检索结果的排序由网页内容与特定检索主题的相关度所决定。网页资源的内容与特定检索主题的相关度越高,在用户搜索该检索词时,网页资源在检索结果中的排序也就越高。另一方面,资源描述是揭示信息资源,说明信息资源主题内容的重要手段。更为有效合理的资源描述,可以更为准确的揭示出信息资源与特定主题之间的相关程度。据此,元数据标签作为网络信息资源描述的重要手段,理应成为影响搜索结果排名的重要因素,在排序算法中具有较高权重。但随着搜索引擎作弊行为的日益泛滥,使许多网页中的元数据描述缺乏规范、甚至与实际主题毫不相关,影响了搜索结果的准确性。因此,搜索引擎降低了元数据描述在排序算法中的权重,元数据描述对结果排序的影响越来越小。针对这一问题,本文将通过分析元数据描述及优化方法,并对实际搜索结果进行调查分析,借此考察元数据标签对搜索引擎排序结果的真实影响,并讨论元数据标签是否对于优化搜索结果排序仍具有实际意义。

1 元数据描述及其在检索中的应用

11 HTML语言中的元数据描述

HTML(HyperText Mark-up Language)即超文本标记语言,由W3C(World Wide Web Consortium)负责控制和管理。现今,HTML语言是网络上应用最为广泛的语言,也是构成网页文档、进行网页编程的主要语言基础。HTML文档一般由头信息(Head)和主体(body)两部分组成。HTML头信息就是指HTML文件中被标识符所作用的区域。这部分为可选内容,主要包含一些说明性的内容和预定义。对于网页编目来说,网页的元数据描述标签就主要集中在这一部分当中。其中,title、Meta-Description、Meta-keywords是头信息区中对网页资源内容进行描述所用到3种最主要的元数据标签。合理使用这些标签,可以使网络信息资源得到更合理的揭示,从而在检索结果中提高其相关度排名。

111 标签</p><p><title>标签也称为标题标签,标题标签内容是对网页主题的概括,相当于一篇文章的题目,一般显示于浏览器的标题栏内。同时,标题标签内的内容还将作为搜索引擎返回结果的锚文本显示于结果列表中。其具体的使用方式如:</p><p><title>手机-中国最好的手机网站

112 元数据标签Meta-Description和Meta-keywords

元数据标签Meta项是HTML头部的主要组成部分,主要用于表示一个文档的页面信息,例如说明字符编码、鉴别作者、设定页面格式、标注内容提要以及网页关键字等等,还可以用来向服务器提供信息,例如截止日期和页面刷新间隔等。而其中与资源的内容描述最为相关的标签有2个:描述标签和关键词标签。描述标签,即Description标签,其内容是对页面内容的概括,相当于页面的简介。关键词标签即keywords标签,是通过若干关键词对页面内容进行概括描述。其具体的使用方式如下:

12 元数据描述对搜索引擎排序结果的优化作用

大多数搜索引擎都是提取网页标题中的全部或部分内容作为搜索结果中摘要信息的标题向用户展示,其在搜索引擎排序算法中的权重也是最高的。此外,类似于Google等搜索引擎会参考描述标签和关键词标签的内容作为检索结果中摘要信息生成的主要依据。因此,尽管由于搜索引擎作弊行为,通过堆砌关键词、过分滥用元数据标签,使搜索引擎排序算法给予这部分的权重越来越低,但不可否认元数据内容的优化,对提高页面相关性,吸引用户的点击还是具有较为重要的意义。

在元数据标签的优化过程中,内容的描述应做到主题突出、内容简洁。具体讲包括标签内容的长度控制、关键词分布及关键词词频等。

121 内容长度控制

为了提高页面的用户体验,搜索引擎会根据实际情况从页面和<description>标签中取出全部或部分重要内容作为链接标题的锚文本和摘要信息向用户展示,从而过长的文字内容将导致超出范围的部分被省略。因此,标题和描述的内容的长度不应过长,或应将重要内容的位置提前。</p><p>122 关键词分布</p><p>相较于传统检索系统,搜索引擎更为注重信息的位置对内容相关度的影响。搜索引擎一般认为一段文字中越靠前的词越重要越能反映文字的内容,关键词赋予的权值也越高。因此,在文字的最前面出现页面的主关键词,可以有效突出页面的主题,提高页面相关性。如:</p><p><title>手机-中国最好的手机网站

123 关键词词频密度

关键词词频较高可以突出网页内容中重要的信息,但是关键词词频并非越高越好。相反,过高的关键词词频可能是人为堆砌关键词所致,影响用户的理解,甚至会触发搜索引擎的作弊惩罚。一般主关键词词频不超过3次,辅助关键词词频不超过1次。

2010年5月第30卷第5期元数据描述对搜索引擎排序结果影响研究May,2010Vol30 No52 调查的目的及方法

以下调查将对目前国内主要搜索引擎的检索结果进行调查研究,对元数据描述在实际中的应用情况以及其与检索结果相关度排序影响的真实情况进行分析。

根据网络调查机构艾瑞咨询集团(iResearch)的《2009年第三季度中国搜索引擎市场季度监测报告》最新数据显示,2009年第三季度中国搜索引擎市场的两大巨头百度、Google市场占有率达到了969%,因此选择这两个搜索引擎作为主要的研究对象。并且选取了Google热榜2009年度榜单中国内事件、国际事件、经济事件、社会事件和热点人物5个方面排名靠前的话题事件或人物各2个,共10个热点检索词:2009日全食、甲型H1N1流感、家电下乡、邓玉娇事件、小沈阳、新疆暴力事件、法航空难、创业板开市、躲猫猫事件、迈克尔•杰克逊。在调查检索词的选择方面,多选取的是事实型事件话题,以尽量避免具有过重商业色彩的搜索引擎优化手段对检索结果的影响。

分别取每个检索词在两大搜索引擎的检索结果的前五页检索结果,剔除其中的死链及非HTML文档,通过编程获得各网页结果的title、meta-description、meta-keywords标签内的元数据信息。统计元数据标签的使用率及使用效果,并分析其与实际检索结果排序之间的相关度。调查中共采集网页899个(不包含死链接及非HTML文档)。

3 调查结果分析

31 元数据使用情况分析

从表1的统计可知,在调查中有6307%的网页包含有Keywords标签的内容,6407%的网页包含有Description标签的内容,全部网页包含有title标签的内容。可以看出,title标签作为网页的标题,是对网页主题内容的概括,具有重要的意义,因此在网页制作和设计中得到了重视和应用,但Keywords和Description两个标签的使用仍不够普及。不过对比杨志于2008年的研究(Keywords:3980%,Description:3300%),这两个元数据标签的使用率已明显提高。表1 元数据使用情况统计表

项 目Google百度KDTAKDTA2009日全食2427434325274343甲型H1H1流感2321494926264444家电下乡2321454532294444邓玉娇事件2730464620264545小沈阳3432444429294444新疆暴力事件3735484833314747法航空难2729444431334747创业板开市3033454533304545躲猫猫事件2427434333324646迈克尔•杰克逊3032454526264242合 计279287452452288289447447

值得注意的是,部分网站已经有意识地使用这些标签,但由于网页编写上的不规范或者错误,导致机器无法将其识别为有效的元数据字段,使标签的使用没能起到应有的作用。因此,在今后网页编写的规范问题值得更加注意。

32 元数据描述对搜索引擎排序结果的影响分析

本次调查的有效网页共899个,为10个话题在两个搜索引擎结果中排名前五页的结果,因此排名分布在1~54位,其中由于部分排位的网页中存在死链接或非HTML文档,因此,每个排位的网页观测数量不完全相等,此外,由于排名在47之后的网页观测数量较少,不计入分析。故最终用于模型建立和相关度分析的网页观测共851个,检索结果排名分布于1~47位,每个位置的观测一般为16~20个,均值为1811个。以下,本文将从元数据的使用与优化两个方面分析其对搜索引擎排序结果的影响。

321 元数据标签的使用对搜索结果排序的影响分析

本部分主要分析元数据标签的使用对搜索结果排序的影响。由于被调查的所有网页都包含有title标签,因此在对元数据标签的使用与搜索结果排序的相关度分析过程中,不考虑title标签。将网页是否具有Keywords和Description标签作为模型建立的两个自变量,取值为0或1(0为不包含该标签,1为包含该标签),将网页的排名作为模型的因变量,建立数据集。并为数据集建立广义线性模型,可计算是否包含Keywords或Description标签对结果排序的影响。通过SAS编程,得到模型的回归系数,如下表(注:这里舍去了β参数部分):表2 元数据使用情况数据集分析结果

参数估计值标准

误差95%置信区间下限上限卡方

统计量p值VAR20291001783-005840640426601026VAR3-0435501799-07881-0082920701502

可见,两个自变量其p值都大于005,说明两自变量与因变量都不显著相关,是否包含Keywords或Description标签对结果排序的影响并不显著。产生这样的结果的原因,可能是由于搜索引擎作弊现象日益严重,搜索引擎的排序算法中,赋予Keywords和Description标签的权重越来越小。在这种情况下,元数据描述很难发挥其应有的效力,导致了Keywords和Description标签对结果排序的影响不显著。

322 元数据标签的优化对搜索结果排序的影响分析

本部分主要分析元数据标签的优化对搜索结果排序的影响。由于在前一部分中已经得出Keywords和Description标签的使用率不高,且其对结果排序的影响不显著,因此,在考虑元数据标签的优化对搜索结果排序的影响时,不再分析这两类标签。本部分的重点将分析title标签的优化对搜索结果排序的影响。

在前文中已经介绍了标签优化的三点注意事项,即:标签内容长度控制、关键词分布及关键词密度。基于以上分析,将对title标签优化的评估分为四方面的指标,即:title标签中是否含有检索词;title标签的内容长度是否能够在搜索结果中完整显示;title标签中检索词是否位于内容头部;title标签中检索词的词频。具体各指标的评分等级如下:表3 指标说明1

有否检索词:title标签中是否含有检索词指标得分含有检索词的完整词形(包括在内容中不连续出现)1含有检索词的不完整词形或近义词05不含有任何与检索词相关的关键词0

表4 指标说明2

标签长度:title标签的内容长度是否能够在

搜索结果中完整显示指标得分是1否0

表5 指标说明3

关键词分布:title标签中检索词是否位于内容头部指标得分是1否0表6 指标说明4

关键词词频:title标签中检索词的词频(次)指标得分001052~31405>40

分别评估各网页的指标得分,将各网页在以上4个方面的表现作为模型的自变量,将搜索引擎的排序结果作为因变量,建立数据集。为数据集建立广义线性模型,可计算标签优化的4个方面对结果排序的影响。通过SAS编程,得到模型的回归系数,如表7(注:这里舍去了β参数部分):表7 元数据使用情况数据集分析结果

参数估计值标准

误差95%置信区间下限上限卡方

统计量p值VAR2-0475805728-159850646906904062VAR308892026300373814046114300007VAR405948017560250509390114700007VAR5-0627105496-170420450013002539

可见,自变量VAR2和VAR5的p值都大于005,说明这两个自变量与因变量相关性不显著,即title标签中是否出现关键词以及关键词的词频对结果排序的影响并不显著。但同时,自变量VAR3和VAR4的p值则均小于005,这两个自变量与因变量具有较强的相关性,title标签长度符合规范的网页相对排名靠前(数值较小),title标签中检索词居头部位置的网页相对排名靠前(数值较小)。

预测这样的结果,同样与搜索引擎作弊、关键词堆砌现象严重,致使搜索引擎对title标签中检索词的出现和词频重视程度降低,title标签中检索词是否出现和词频是否较高,对搜索结果的排序影响不大。但另一方面,title标签内容的长度和检索词出现位置却与检索结果显著相关,说明对网页资源的元数据描述进行优化将对检索结果的排名具有积极影响,资源描述的规范化和最优化将有助于搜索引擎和最终用户识别和利用网页资源的内容。

4 结 语

本文通过对网页资源HTML元数据使用和优化情况的调查,分析了元数据描述的使用现状及其对搜索结果排序的影响。目前,Keywords、Description等元数据标签的使用仍未达到普及。由于搜索引擎作弊现象严重,也使搜索引擎排序算法中赋予元数据描述的权重越来越低,元数据中,关键词是否出现及其词频对排序结果的影响越来越小。但元数据的描述仍十分必要,规范化和优化网络资源的元数据描述,将有助于网页资源在检索结果中提高排名,有助于搜索引擎和最终用户识别和利用网页资源的内容。介于此,网页编写者应在今后的工作中注意以下几个方面的问题:

41 注意元数据标签的使用

在网页编写过程中,进一步提高元数据标签的使用率,使网页资源得到更好的揭示,帮助搜索引擎和最终用户识别和理解网页资源的核心内容。提高网页资源与特定需求的相关性。

42 提高网页编写的规范化水平

在网页编写过程中,注意HTML语言的特定格式和书写规范,减少网页内容中错误和乱码,增加网页内容的可读性,帮助搜索引擎准确定位网页内容的关键信息。

43 注意网页资源元数据描述的优化

采取合理方法,优化网页资源元数据描述,使网页资源的核心内容更加突出,更具有可读性和吸引力,从而使网页资源与特定主题相关度更好,提高在搜索引擎结果中的排名。

44 严禁各种形式的搜索引擎作弊行为

严禁利用关键词堆砌、大量使用不相关热门关键词等行为进行搜索引擎作弊,影响搜索结果的公正准确。元数据描述作为网页资源揭示的重要手段,其意义和权重不应被忽视。网页资源的描述和优化者应规范自身行为,净化元数据描述,使排序结果能够真实反映网页资源与特定主题的相关度。从而使搜索引擎和用户可以信赖元数据描述的内容,提高排序算法对元数据标签的支持,使元数据描述发挥其应用的效力。

参考文献

[1]吴泽欣.SEO教程:搜索引擎优化入门与进阶[M].北京:人民邮电出版社,2008.12.

[2](美)维尼.登上Google之巅——SEO技巧与技术[M].北京:机械工业出版社,2009.1.

[3]杨志.元数据标签Keywords在搜索引擎的应用现状研究[J].现代情报,2007,(9):134-137.

[4]杨志.元数据在中文搜索引擎的应用研究[J].科技信息,2008,(9):55-56.

[5]许四洋,柳晓春.元数据标签的使用情况调查(上)[J].图书馆杂志,2001,20(9):22-25.

[6]许四洋,柳晓春.元数据标签的使用情况调查(下)[J].图书馆杂志,2001,20(10):29-30.

[7]林华.解析HTML头信息[J].零陵学院学报,2004,(3):96-97.

[8]游,赵荣.我国元数据研究现状与发展[J].图书情报工作,2008,(Z1):202-205.

[9]粟慧.元数据、HTML和都柏林核心集——关于WEB网页的编目[J].情报科学,2001,(12):1272-1279.

[10]赵悦.数字图书馆元数据应用研究[D].武汉:武汉大学,2005.

基于Nutch的搜索引擎的研究 篇10

1 Nutch简介

Nutch是一个开源的、java实现的搜索引擎。虽然市场上已经有比较成熟的几款searcher engine, 但并不妨碍我们对Nutch的研究, 对Nutch的学习主要是因为:

1.1 透明度

Nutch是一款开源软件, 因此任何开发者都可以看到它内部的排序算法。因此Nutch比较适合对结果的公平性相对较高信息的查询。

1.2 可以加深对搜索引擎的深入了解

Nutch的研究可以让我们更好的了解到一个大型分布式的搜索引擎是如何工作的很有意义。

2 Nutch的系统结构和工作流程

Nutch的基本组成主要包括爬虫, 索引, 搜索三部分。其体系结构如图1 所示。

Nutch由Web-DB、Link DB、Segements和Index的数据结构提供数据支持, Nutch整个的工作流程可以分为如下几步:

(1) 建立种子URL;

(2) 将种子URL加入到crawl DB数据库, 整个网页抓取过程将会从URL开始抓取, 一直到指定的抓取层数;

(3) 创建抓取列表;

(4) 执行抓取, 得到网页内容信息;

(5) 更新数据库;

(6) 重复进行3~5 的步骤, 直到预先设定的抓取深度。

(7) 对于每一个Segement生成一个索引;

(8) 从这些索引中删除冗余的网页和URL;

(9) 将小索引合并成大的索引;

(10) 用户通过用户端口进行查询操作;

(11) 将用户查询转化为Lucene查询;

(12) 返回结果。

3 Nutch的技术分析

Nutch主要由Crawler及Searcher组成。Crawler是从互联网上抓取到网页, 并且给每个网页建立一个特定的索引。Searcher则是利用crawler建立的索引根据用户查找的关键词来查找出结果。Crawler与Searcher的接口是索引。

3.1 Crawler的研究

Crawler的重点是其运行过程和包含的data file的格式和含义。data file主要包括三类, web database, Segement以及index。Crawler详细工作流程是:在创建一个Web DB之后, “产生/ 抓取/ 更新”循环根据一些种子URLs开始启动。当这个循环彻底结束, Crawler根据抓取中生成的Segement创建索引。在进行URLs清除之前, 每个Segement的索引都是独立的。最终, 各个独立的Segement索引被合并为一个最终的索引index。

3.2 Nutch的网页去噪

网页去噪主要是去除掉广告标签等无用的信息, 尽量获取到网页的实质性内容, 对于一个网页, 去噪过程包括以下步骤:

(1) 在<h1> 标签中抽取正文题目, 根据标志字“by”, “last modified”等来抽取作者, 修改日期等信息。

(2) 利用Html Parse去除掉各种脚本、图片等信息, 得到只有链接和文本的字符串。

(3) 利用网页的一般性特征去除掉导航栏文字, 去除所有以“<”和“>”标识的链接文字。

(4) 去除版权声明信息。

经过上述四种方法, 基本上能够去除掉广告、导航信息、客户端代码等相对没有value的信息, 对于获得比较好的网页内容具有极大的帮助。

4 Nutch的对比分析

通过搜索, 我们将Nutch与时下比较好的开源搜索引擎进行对比测评, 分别有Heritris、WCT、 以及Web-Harvest。Nutch提供网页的抓取, 分析了解网页、建立连接数据库、对网页进行评分、建立Lucene索引和提供检索界面登陆等。Heritrix提供了丰富的抓取设置选项, 完善的、精确的站点内容深度复制。WCT能获得目标站点的深度采集授权、采集调度、资源描述等信息。Web-Harvest能以用户所指定的网页为抓取起始页, 通过规则表达语法进行多层抓取, 形成XML文档。

从图2 可以看出, Nutch具有很强的对比优势。Nutch在抓取过程中, 对于需要存储空间较大, 但又value不高的信息就有较高的优势。

5 Nutch待改进的方面

经过团队的不断研究与测试, 发现Nutch主要存在以下问题, 影响了其性能的进一步提高:

5.1 等待时间僵化

Nutch抓取网页上的内容主要是利用protocol-http实现的。N每下载一个页面等待时间都是Nutch-default.xml配置文件预设的固定值:http.max.delays和fetcher.server.delay, 这在不同的网络情况下会造成时间的巨大浪费。

5.2 抓取失败的链接网站管理不够

Nutch对于抓取失败的网页链接没有详细的监管。可能某个网站关闭了, 或者更换域名, 但依然在其他的站点存在链接, 如果被Nutch发现而且还一个一个去实验, 将会浪费大量的时间和网络资源。

6 结束语

上一篇:系统接入下一篇:轮状病毒感染性腹泻