垂直搜索引擎技术

2024-05-02

垂直搜索引擎技术(精选十篇)

垂直搜索引擎技术 篇1

关键词:信息,垂直搜索,搜索

背景:要了解垂直搜索引擎, 就要同大家熟知的横向搜索引擎即通用搜索引擎来做对比。目前互联网领域主要的搜索引擎服务商如yahoo、百度、google等, 为用户提供的都是横向的海量信息搜索。他们可以满足大量信息的横向搜索、提供, 但很难兼顾搜索的准确度与相关度的质量。通用搜索引擎的价值在于在做大量的信息导航, 对于信息需求相对集中、分类更加详细的行业客户缺乏导向。垂直搜索引擎的产生正是有效的解决了以上通用搜索引擎无法满足的市场需求。

垂直搜索指搜索引擎为用户提供的并不是上百甚至上千万相关网页, 而是范围极为缩小、极具针对性的具体信息。换言之, 搜索引擎收集的是市场空间中某一"市场利基"的数据, 如工作、旅游、高端房地产等。这样的信息不但更加易于为用户所消化, 而且也更有深度。

利基是Niche这一英文名词的译称, 利基市场指市场中通常为大企业忽略的某些细分市场;而利基市场战略则指企业通过专业化经营来占领这些市场, 从而最大限度的获取收益所采取的策略。实施利基战略的重要意义在于:进行市场利基的公司事实上已经充分了解了目标顾客群, 因而能够比其他公司更好、更完善地满足消费者的需求。并且, 市场利基者可以依据其所提供的附加价值收取更多的利润额。总之, 市场利基者获得的是"高边际收益", 而密集市场营销者获得的只是"高总量收益"。

Google、雅虎、MSN这几大搜索引擎巨头主宰着互联网搜索市场, 全球大多数网民都是通过这几大搜索引擎查找自己所需的信息的。但在查找一些具体信息时, 这几大搜索引擎的表现却并不尽如人意。有时候用户得到的是往往是和他们的查询本意风马牛不相及的结果。对拉近用户及其所需信息之间的距离的需求催生并促进了搜索行业的利基发展。垂直搜索引擎瞄准的正是搜索市场中的不同利基市场。

概述:垂直搜索是针对某一个行业的专业搜索引擎, 是搜索引擎的细分和延伸, 是对网页库中的某类专门的信息进行一次整合, 定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式, 通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是"专、精、深", 且具有行业色彩, 相比较通用搜索引擎的海量信息无序化, 垂直搜索引擎则显得更加专注、具体和深入。

垂直搜索的本质是对垂直门户信息提供方式的一次简化性的整合。搜索领域有句明言:就是用户无法描述道他要找什么, 除非让他看到想找的东西, 这个过程有点像找对象, 碰运气是用户搜索行为的最大的特征。而垂直搜索引擎就是提高为用户提供更好的运气。垂直搜索是服务于某项功能的, 比如:用户搜索租房, 买房信息就是一种垂直搜索。对信息的再加工处理是非常关键的, 不管是结构化的数据, 还是非结构化的数据。

技术特点:垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取, 也就是将网页的非结构化数据抽取成特定的结构化信息数据, 好比网页搜索是以网页为最小单位, 基于视觉的网页块分析是以网页块为最小单位, 而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库, 进行进一步的加工处理, 如:去重、分类等, 最后分词、索引再以搜索的方式满足用户的需求。整个过程中, 数据由非结构化数据抽取成结构化数据, 经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。

垂直搜索引擎大体上需要以下技术:搜索引擎爬虫:抓取互联网上的相关网页;网页结构化信息抽取技术或元数据采集技术:从网页中抽取出结构化的数据;分词、索引:存储并索引数据;数据展现:由于存储的数据并非简单的网页数据, 需要考虑根据行业需求进行展示;其他信息处理技术。

垂直搜索技术主要分为两个层次:模板级和网页库级。模板级是针对网页进行模板设定或者自动生成模板的方式抽取数据, 对网页的采集也是针对性的采集, 适合规模比较小、信息源少且稳定的需求, 优点是快速实施、成本低、灵活性强, 缺点是后期维护成本高, 信息源和信息量小。网页库级就是在信息源数量上、数据容量上检索容量上、稳定性可靠性上都是网页库搜索引擎级别的要求, 和模板方式最大的区别是对具体网页不依赖, 可针对任意正常的网页进信息采集信息抽取。这就导致这种方式数据容量上和模板方式有质的区别, 但是其灵活性差、成本高。当然模板方式和网页库级的方式不是对立的, 这两者对于垂直搜索引擎来说是相互补充的, 因为技术只是手段, 目的是满足用户之需求。

技术分析:垂直搜索有搜索引擎的共性, 即需要抓取大量的网页, 分析其中的数据, 特性是通用搜索更着重于正文内容的分离, 关键字索引, 链接关联权重分析, 是一种非结构化分析, 而垂直搜索更着重于正文内容模式分离, 数据调整, 相关链接分析, 是一种结构化分析过程。垂直搜索的模块主要有以下几部分:网站分析--你需要设定自己需要的网站资料, 并设定行业统一模板;站点初始化--不同于通用搜索, 很多垂直搜索需要登录到站点内部才能拿到有效信息或完整信息, 所以你需要一个模拟登录的过程, 很多时候你甚至需要一个模拟的注册过程;页面爬虫--抓取页面数据;图片爬虫--鉴于负载分摊原则, 这是一个独立模块, 并衍生出MP3爬虫, Flash爬虫, 视频爬虫等等模块;数据分析--模式分离正文内容, 分析有用链接, 为爬虫产生新的数据URI;迁移完整--数据拷贝集中, 修改部分数据格式, 使之适应行业统一模板, 并做一些数据挖掘和深加工工作, 垂直搜索还没有形成大的气候, 不要奢望有行业站点主动去做垂直搜索引擎优化, 我们能做的只能是优化垂直搜索引擎;数据发布--发布到你的外网服务器, 对关键数据进行分词, 建立合适的索引;外网查询--最快的检索速度, 一个更好的UI, 更多的应用, 可行的盈利模式。垂直搜索技术存在着部分技术难点是:代理内核--在2000年到2003年间, 曾经用各种现成组件、类来抓取网页, 最终逐步放弃直至想到用代理的方式来获得数据, 其间遇到种种情况, 最后才确认代理模式是能捕获所有网页的唯一方式;线程管理--多线程是提高效率的很好方法, 但线程管理却是噩梦, 直到去年, 还经常为线程死锁、溢出, 服务器当机而频发噩梦;汉语分词--这是一个积累的过程, 通用的词库很容易在网上可以Down到, 但一些行业专用的词语, 如地理位置、公司名、商品型号等, 需要自己慢慢在采集的过程中用统计的方法积累。万能模板--垂直搜索比较有争议的部分是所谓的万能模板和定制模板的区别, 个人认为其实可以综合万能模板的效率和定制模板的质量, 概念上的东西, 没必要争议太多, 好用有效才是当前唯一原则, 当然, 更智能化的万能模板则是将来研究的方向。图片识别--这是一个比较有意思的分支, 有时候你需要在模拟登录的时候突破验证码, 有时候你也需要识别图片化的联系方式来为下一步数据挖掘做准备, 解决方案是你可以用现成的文字识别组件, 也可以自己研究算法, 写一个识别类, 仔细研究下去, 其实也没有想象中的那么难, 而且终于有机会在编程中用上初中以后的数学知识;海量数据查询--相对通用搜索, 垂直搜索在这个方面弱了很多, 大部分行业数据时效性都很强, 所以数据条目过亿的查询很少, 但对初学者, 也需要去好好学习一下更有效的数据索引;分布式架构设计--这或者是一个垂直搜索引擎所处级别最重要的特征, 一个好的设计应该是一个可以无限扩展的设计, 原则只有一个:数据级别上升, 访问量上升, 只需要增加服务器数量即可应对, 一个合理的树形结构应该是一个良好的选择。

总结:说了这么多技术, 只是想为垂直搜索技术正名, 垂直搜索并不是一个很简单的工程, 有一定的技术难度, 要想做好的门槛也并不很低, 整理财务数据, 才发现这些年花在技术研发上的钱居然快有小一百万了, 自己都大吃一惊, 虽然走了不少弯路, 但是, 谁又能保证自己不走弯路呢。

参考文献

[1].《垂直搜索引擎的前途慢道》范广辉

[2].《垂直网站与垂直搜索引擎》赵荣志

[3].《垂直搜索引擎研究》肖冬梅

垂直搜索引擎技术 篇2

垂直搜索引擎简介

垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。

垂直搜索引擎优点

方便

1.功能强大。提供强大的搜索功能, 多款引擎随时切换, 让用户操作变得更加轻松便捷。

2.搜索发现。用户进入搜索首页,浏览器会提示用户发现了新的搜索引擎, 并可将其设为默认。

3.内容全面。聚合常用搜索及垂直搜索, 聚合各大热门搜索引擎, 多项搜索多重性能。

4.完美兼容。界面设计 符合标准, 在不同内核的浏览器上均可正常使用。

5、安全第一。收录大量网上银行、证券、股票、咨询、新闻等网址, 不再担心进入钓鱼网站.所有直达关键词网站,均严格经过叮铃铃各项指标的检验,有力的排斥了虚假广告、假冒产品、不良信息的商家网站。

快速

1.中文直达。直达各大知名网站、论坛、联盟站点,数据实时更新,中文直达服务让用户搜索一步到位。

2.关键词直达网站。商家可以提交自己的关键词,让客户输入关键词直达您的网站,增加无限商机。

3.站内直达。直达网站内各频道、栏目,站内直达满足用户在网站的全方位服务。

共享

结合网站,按您的需要生成不同样式、不同功能的搜索框代码, 轻松将搜索服务与网站结合。

精准

垂直搜索引擎一般都提供了比较精准或者细化的搜索服务,因此使用垂直搜索引擎有时候能取得更精准的搜索结果。附:垂直搜索引擎索引,发布国内外高质量的垂直搜索引擎。

垂直搜索引擎准则

1、选择一个好的垂直搜索方向。俗话说男怕选错行,这一点对于搜索引擎来说也是一样的,除了选择的这个行业有垂直搜索的大量需求外,这个行业的数据属性最好不要和通用搜索的的抓取方向重叠。热门的垂直搜索行业有:购物,旅游,汽车,工作,房产,交友等行业。搜索引擎对动态url数据不敏感也是众所周知的,这些可以作为垂直搜索引擎的切入点。

2、评价所选垂直搜索行业的网站、垂直搜索内容、行业构成等情况:我们都知道垂直搜索引擎并不提供内容来源,它的数据依赖爬虫搜集,并做了深度加工而来的。因此考虑垂直搜索引擎的所处的大环境和定位至关重要。

3、深入分析垂直搜索引擎的索引数据特点:垂直搜索引擎的索引数据过于结构化,那么进入的门槛比较低,行业竞争会形成一窝蜂的局面;如果搜索数据特点是非结构化的,抓取,分析这样的数据很困难,进入壁垒太高,很可能出师未捷身先死。

4、垂直搜索引擎的索引数据倾向于结构化数据和元数据,这个特点是区别于通用搜索引擎的,这是垂直搜索引擎的立足点。而垂直搜索引擎是根植于某一个行业,因此行业知识,行业专家这些也是通用搜索引擎不具备的。也就是说进入垂直搜索是有门槛的。

5、垂直搜索引擎的搜索结果要覆盖整个行业,搜索相关性要高于通用搜索引擎,贴近用户搜索意图,搜索结果要及时。

6、垂直搜索引擎的搜索数据由于带有结构化的天性,相对于通用搜索引擎的全文索引而言,更显的少而精。因此,设计的时候要提供收集用户数据的接口,同时提供tag,积分等机制,使搜索结果更加“垂直”。

7、垂直搜索引擎的目标是帮助用户解决问题,而不只是像通用搜索引擎一样发现信息:这一点是垂直搜索引擎的终极目标。在做垂直搜索引擎的时候你需要考虑:什么问题是这个行业内的特殊性问题,什么问题是一般性问题。keso多次提到google的目标是让用户尽快离开google,而垂直搜索引擎应该粘住用户。一般来说,使用垂直搜索引擎的用户都是和用户的利益需求密切相关的。所谓利益需求是我自己独创的,大意是和用户工作密切相关,生活中必不可少的需求,而求有持续性。比如:学生找论文,业主找装修信息等等这样的需求。因此粘住用户,让用户有反馈的途径是一个关键部分。

8、垂直搜索引擎的社区化特征:这一条和第7条是相关的。俗话说物以类聚,人以群分,垂直搜索引擎定位于一个行业,服务于一群特定需求的人群,这个特点决定了垂直搜索的社区化行为。人们利用垂直搜索引擎解决问题,分享回馈。做网站都讲求社区化,所以垂直搜索引擎本质上还是:对垂直门户信息提供方式的一次简化性的整合。

金融信息垂直搜索引擎的技术探讨 篇3

关键词:金融信息;垂直搜索引擎;本体;语义检索

中图分类号:TP311.13文献标识码:A文章编号:1000-8136(2009)17-0133-03

随着经济的高速发展和网络全球化的趋势引导,人们对网络金融信息的需求日趋强烈。虽然网上金融信息资源丰富,但是其他网络资源更是海量。要全面准确地搜索网络金融信息是不切实际的,但是可以通过技术研究建立金融信息的垂直搜索引擎,以从海量的网络资源中筛选出专题信息,能够帮助用户更直接、方便地查找自己所需要的金融信息。本文研究的目的就是从技术角度出发,去研究如何优化金融信息的垂直搜索引擎。

1 垂直搜索引擎的主要技术分析

垂直搜索引擎,即专业或专用搜索引擎,就是专为查询某一学科或主题的信息而产生的查询工具,专门收录一方面、某一行业或某一主题的信息,对解决实际查询问题要比搜索引擎门户有效得多。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。垂直搜索引擎的主要技术包括:信息采集技术(spider)、网页信息抽取技术、信息处理技术、数据挖掘、索引技术和结果排序技术。其实现过程见图1。

2 金融信息垂直搜索引擎的关键技术优化

金融信息是资金融通过程中不同金融现象和特征的反映,是对金融活动及其属性的一种客观描述,是金融经济领域中动态反映的集中表现。由于金融活动在当今经济活动中的重要性以及金融信息领域的特殊性,各种网络资源或多或少包含了一些金融信息,如何从海量的网络信息中准备地查找到用户所需要的金融信息是摆在当今用户和研究人员面前的一大难题。通过目前网络金融信息资源的分析和调查研究发现,主要问题表现在信息分布不均衡(证券类信息占最主要)且比较分散,不易获取;内容交叉重复;栏目设置混乱,分类标准不统一;各个网站和数据库之间比较孤立,缺少联系。如国内大型的金融信息服务网站和讯网,它拥有财经报道、和讯投资、和讯论坛、个股资讯、和讯搜索等诸多王牌栏目,并开通有网上证券交易、我的和讯、和讯商城、网上租赁等多种专项服务,但其偏重于证券股票和投资理财,而对于金融案例、政策法规类的信息很少,与其他的金融信息网站和数据库链接很少。而大型的综合性网站如谷歌、雅虎、搜狐、新浪等,都提供了金融信息服务窗口,既有对网络金融信息的搜索功能,又有专门的金融信息栏目,还提供了其他有名的金融网站的链接,但都是针对关键词的搜索,对用户的信息检索要求比较高,而且需要有明确的信息需求内容,同时查准率也偏低。

针对上述问题,用户对优化金融信息垂直搜索引擎的需求也日益强烈。而近几年在信息检索领域的一项研究热门即本体与语义网技术可以解决这些问题,下面从几个关键技术方面探讨一下基于金融信息本体的语义检索,从而优化金融信息垂直搜索引擎。

2.1 金融本体库的构建

本体最早是一个哲学上的概念,从哲学的范畴来说,本体是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。在人工智能界,最早给出本体定义的Neches等人,他们将本体定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。1993 年,Gruber给出了本体的一个最为流行的定义,即“本体是概念模型的明确的规范说明”。本体是描述概念及概念之间关系的概念模型,通过概念之间的关系来描述概念的语义,一种有效表现概念层次结构和语义的模型。本体通过对概念的严格定义和概念与概念之间的关系来确定概念精确含义,表示共同认可的、可共享的知识,是解决语义层次上WEB信息共享和交换的基础。

在实践中探索了不同的方法路径,比如:Uschold与King 方法,Gruninger与Fox方法、METH本体方法等,这些方法都体现了本体的4层含义,即概念模型,抽象出客观世界中的相关概念而得到的模型;明确,所使用的概念及使用这些概念的约束都有明确的定义;形式化,本体是计算机可读的;共享,本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集。创建金融信息本体可概括为以下几个步骤:确定金融信息本体覆盖的领域和范围,包括银行、证券、股票、保险、投资以及综合性的金融信息;考虑使用现存的本体资源,综合目前研究金融信息本体的专家和技术人员,整合并扩充金融信息本体库;列出本体中的重要词汇,如银行、证券、股票、保险、投资等;确定类和类的层次关系,如银行与银行,银行与证券、股票、保险、投资之间的关系等;确定类的属性,严格定义各类的概念以及各个概念之间的关系;确定对属性值的描述,由金融信息领域专家共同研究确定;创建本体库实例,本体技术专家综合金融信息领域专家所提供的信息和资源以及现有的金融信息本体库,创建一个实例;检查一致性,对金融信息本体库的元数据进行检查、修改和更新。

2.2 基于本体的信息标引技术

本体有5个要素:元语、类、关系、函数、公理和实例。实现语义Web构想的关键是利用本体词汇来标注Web资源,如Web页、服务等,基于本体的信息标引原型就是用于支持内容创建者在Web页中添加语义元数据,使其内容被人和机器所理解。基于本体的信息标引,又称为语义标注。在本体的建模阶段,大部分的建模工作都集中在领域知识的抽象表示上,即发现领域内的概念、概念的继承层次、潜在的关系和公理等。对于领域中的实例,在建模时一般不需要考虑它们,除非建模时就能确定该本体所涉及的所有实例。实际上,通常的本体都具有一定的通用性,表示特定领域内的知识,但由于领域内可能的实例数目无穷无尽且动态变化,因此,只有在本体和一个具体的应用结合时考虑实例才有意义。将现实应用中涉及的实例和抽象的本体概念相联系,这正是语义标注(Semantic Annotation)所要做的工作。和数据库类比,语义标注就如同为建立好的数据库表添加具体的记录。从语义Web的角度来看,在传统Web上添加语义信息,将Web的状态从机器可读提高到机器可理解,这是整个语义Web实现的基础。通常,这种语义信息的添加是基于本体进行的,而这个就是语义标注。

对金融信息本体进行语义标注,就是根据金融信息本体为网络上各种金融信息资源标注本体类、本体属性和其他元数据的过程,通过扩展HTML1和XML+RDF2等标记语言标记有关定义,并用这些定义中的概念或属性名作为标记符(Tags)标注具体资源文件,从而保障计算机在任何情况下能明确地理解哪个概念集的什么概念按照哪些属性描述什么资源中哪部分。

目前,基于金融信息本体的语义标注由于收到多方面因素影响,进展还比较缓慢,可以通过用户和权威金融机构共同完成,既要保证标注的本体具有一定的通用性,又要保证它能满足用户的要求。

2.3 基于本体的信息检索技术

2.3.1 基于本体的语义检索的基本思想

基于本体的语义检索的基本思想可概述如下:①在领域专家的帮助下,建立相关领域的本体;②收集信息源中的数据,并参照已建立的本体把收集来的数据按规定格式存储在元数据库RDB,KDB等;③对用户检索界面获取的查询请求,查询转换器按照本体把查询请求转换成规定的格式,在本体的帮助下从元数据库中匹配出符合条件的数据集合;④检索的结果经过定制处理返回给用户。

其中,对查询的处理是基于本体的语义检索最重要的部分。查询处理可描述成以下的IR模型:本体模型;基于本体的标识WEB资源的模型;基于本体的查询模型;将查询的关键词匹配成本体描述的匹配算法。在这些模型中,WEB资源R与查询Q是相关的当且仅当根据基于本体O建立的R和Q中,R满足Q,这描述了R资源和本体O在逻辑上共同隐含了Q查询O^R→Q。

根据本体、关系、本体图的语义相关性,提出了能计算语义相关性的本体图匹配的框架。在执行语义匹配时,先从在线的网站上下载网页,然后分析网页。网页中对每个物体的描述能手工或自动地抽取出来。然后每个描述被转化系统转化成一个CG。转化后的CGs被存到CG资源库中,而检索语义相关性的关键是将查询和资源库中的比较。相关性有表面相关性、结构相关性、语义相关性。因为CG包含本体和关系,于是就基于本体与本体之间和关系与关系之间定义了CGs之间的相关性。而在此方法中,本体之间的相关性是由两者之间的距离(表示成dc(c1,c2))来计算的。给定本体c1,c2,这两个本体之间的本体相关性simc(c1,c2)定义成simc(c1,c2)=1-dc(c1,c2)。两本体之间的距离是由本体层中它们相对位置计算出来的。在此方法中,本体层中的每个节点都有个值(称为“milestone”)。同样的,关系之间的相关性定义成simc(r1,r2)=1-dr(r1,r2),两关系之间的距离也是由它们在关系层次中的相关位置来计算的。

2.3.2 基于本体的语义检索过程

(1)提取文档的元数据,描述文档数据的数据为元数据,智能信息检索系统中的文档元数据是按照金融信息领域本体的结构进行组织安排的,不仅反映了该文档的内部信息,而且还反映了该文档和其他文档之间的关系。如描述金融信息领域的上下位关系、相似关系等。因此,可以说智能信息检索系统中的元数据不仅囊括了传统信息检索系统的索引数据库所能描述的文档内容信息,而且还体现了文档与金融信息领域的语义关系,为语义推理、信息检索等后续操作奠定了基础。

(2)对文档的元数据进行语义编码,使用W3C所发布的资源描述框架(RDF)作为元数据编码的参考模型。对从XML文档中提取出来的文档特征短语编码成RDF/XML格式,以便于计算机高效地处理这些元数据。RDF旨在描述事物与事物之间的联系,RDF的核心是三元组,即任何复杂的事物描述均可以描述成一系列的三元组。这与哲学上“联系是永恒存在的”的思想相吻合。

(3)元数据的语义处理,它是根据金融信息领域本体和推理规则来完成对有关元数据的推理处理,得出隐含的信息。语义推理的过程就是让计算机识别和理解金融信息领域本体的结构和元数据信息,并根据相关的逻辑规则对现有信息的闭包。以经过语义编码的元数据为推理的起点,根据规则进行扩充以求得其所蕴涵的更为丰富的信息。

(4)根据所建立的领域本体对用户提出的查询条件进行规范化处理,即查询条件预处理,此外还要对查询条件进行编码,编码的过程和语义编码的过程类似,即在领域本体组织框架的指导下,按照资源描述框架模型将经过预处理的查询条件序列转化为RDF/XML的查询表达式。这样,信息语义检索的过程在以上过程的配合下,仅仅只需要将经过处理后的查询条件和元数据库中的信息进行匹配,将满足条件的元数据选出,并将检索的结果经整合、格式定制后返回给用户。

基于目前语义检索的现状,以下方面的研究将得到更多的关注:

(1)目前,信息检索本体的构建一般都是通过人工提取的,这使得本体在信息检索中的应用不能大规模展开,因此,需要开发出自动或半自动的本体学习工具。

(2)异构本体领域如何抽取,如何构造覆盖所有的潜在的应用,进而构建面向通用本体的应用体系。

(3)目前大多数基于本体的语义检索集成系统只考虑了单个本体,如何利用多个本体是一个值得研究的课题。

4 结束语

本文从技术角度探讨了优化金融信息垂直搜索引擎的可行性,尤其是应用基于本体的语义检索技术,可以极大地提高用户信息检索的查准率,使用户更加方便地使用垂直搜索引擎来获取所需的金融信息。从目前本体和语义网技术的实际应用来看,语义检索技术确实能够提高用户查准率,准确地表达用户的信息需求。但金融信息领域本体的建立,应该是由金融领域专家参与、完成,并建立一个准确、全面的金融领域应用本体,且基于金融信息本体的语义标注正在研究发展之中。

Discussion about the Technologies of Vertical Search

Engines in Financial Information

Du Jianliang

Abstract:Through the analysis of the classification, distribution and distinguishing feature of the financial information resources,and the distinguishing feature of the user, this paper mainly introduces the Mainly related technology of vertical search engines.It discusses the possibility of Optimization of vertical search engines in financial information and a detailed analysis of the key technologies,which include constructing the ontology of the financial information, the information indexing and information retrieval. To expound the status of the current vertical search engines in the financial information and the main problems,it puts forward to the technologies and critical thinking of solving the problem in theory.

垂直搜索引擎的主题爬虫策略 篇4

垂直搜索引擎是针对某一个行业的专业搜索引擎.是搜索引擎的细分和延伸。它对信息精细分类,过滤筛选,对网页库中的某类专门的信息进行一次整合使信息定位更精准,使搜索服务更好的服务于用户,更为用户所欢迎。

垂直搜索引擎主要由主题爬虫模块.索引模块,检索模块,用户接口等四个部分组成。

网络爬虫(Crawler,robots,bots,wanderer或Spider)是一个自动下载Web网页的程序,是搜索引擎的基础与核心。网络爬虫在采集web信息时通常从一个“种子集”(如用户查询、种子链接或种子页面)出发,通过HTTP协议请求并下载Web页面,分析页面并提取链接,然后再以循环迭代的方式访问Web。网络爬虫在搜索时往往采用一定的搜索策略。网络爬虫的搜索策略与搜索引擎的性质和任务密切相关。

1 主题爬虫搜索策略

第一代网络爬虫所用的搜索策略主要是基于传统的图算法,如宽度优先或深度优先算法来索引整个Web。一个核心的URL集被用来作为一个种子集合,这种算法递归的跟踪超链接到其它页面,而通常不管页面的内容,因为最终的目标是这种跟踪能覆盖整个Web。宽度和深度优先搜索策略通常用在通用搜索引擎中,因为通用搜索引擎获得的网页越多越好,没有特定的要求。

主题爬虫的爬行策略只挑出某一个特定主题的页面。它依据“最好优先原则”进行访问,能够快速、有效地获得更多的与主题相关的页面。图1把两类搜索引擎网络爬虫搜索顺序做了比较。

按评价链接价值采用的方法,把主题爬虫搜索策略分为以下四类。

1.1 基于内容评价的搜索策略

基于内容评价的搜索策略都是根据主题(如关键词、主题相关文档)与链接页面内容的相似度来评价链接价值的高低。此种搜索策略早期是利用文本相似度的计算方法评价页面文本与主题集之间的相似程度。这类搜索策略比较有代表性的主要有Fish—Search算法和Fish—Search改进算法Best-First算法。

最近的研究表明,这类网络爬虫在距离相关页面集较近的地方搜索时表现出良好的性能。但由于页面中的文本信息缺乏“全局性”,很难反映Web的整体情况,使得这类网络爬虫普遍存在“近视”的缺点。

1.2 基于链接结构评价的搜索策略

基于链接结构评价的搜索策略,是通过对Web页面之间相互引用关系的分析来确定链接的重要性,进而决定链接访问顺序的方法。通常认为有较多入链或出链的页面具有较高的价值。这类搜索策略最大的问题是容易发生“主题漂移”。下面分别介绍此类搜索策略的代表Page Rank算法和HITS算法。

1.2.1 Page Rank算法

Page Rank算法是基于用户随机的向前浏览网页的直觉知识。它的基本思想是:如果一个页面被许多其他页面引用,则这个页面很可能是重要页面;一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面;一个页面的重要性被均分并传递到它所引用的页面。

基于链接评价的搜索引擎的优秀代表是Google(http://www.Google.com),Page Rank算法最初用于Google搜索引擎信息检索中对查询结果的排序过程,近年来被应用于网络爬虫对链接重要性的评价。

1.2.2 HITS算法

HITS算法是由康奈尔大学(Cornell University)的Jon Kleinberg博士于1998年首先提出的,HITS的英文全称为Hypertext—Induced Topic Search。

HITS算法定义了两个重要概念:Authority和Hub。它考虑了Authoritive网页和Hub网页间的加强关系。Authority表示一个页面被其它页面引用的数量,即该页面的入度值。网页被引用的数量越大,则该网页的Authority值越大。Hub表示一个Web页面指向其它页面的数量,即该页面的出度值。网页的出度值越大,其Hub值越高。由于Hub值高的页面通常都提供了指向权威页面的链接,因而起到了隐含说明某主题页面权威性的作用。

1.3 基于未来回报价值评价的搜索策略

近年来对Web信息资源分布的研究表明很多类型相同的网站在构建方式上,主题相同的网页在组织方式上都存在着一定的相似性,有的学者就考虑将巩固学习引入网络爬虫的训练过程中,从这些相似性获取一些“经验”,而这些经验信息在搜索距相关页面集较远的地方往往能获得较好的回报,而之前讨论的两种策略在这种情况下容易迷失方向.

在巩固学习模型中,把网络爬虫经过若干无关页面的访问之后才能获得的主题相关页面称为未来回报,对未来回报的预测值称为未来回报价值,用Q价值表示。这种方法的核心就是学习如何计算链接的Q价值,根据未来回报价值确定正确的搜索方向.目前这类搜索策略不足之处在于学习效率低的问题,而且在训练过程中增加了用户的负担。

1.4 基于综合价值评价的搜索策略

考虑到采用单一的评价方法并不能有效预测链接的真实价值,近年来学者们提出了基于“综合价值”评价的搜索策略。为避免“主题漂移”问题,有学者对HITS算法进行了改进,将页面的文本信息与链接的结构信息相结合利用查询主题与页面的相关性计算每个页面P的主题权重,结合主题权重计算Authority权重。还有学者采用页面文本、URL标记和相邻页面的链接关系等信息计算链接的“综合价值”。实验表明此类搜索可以有效提高搜索效率。

2 未来网络爬虫研究趋势

通过以上分析,各类搜索策略各有优缺点,网络爬虫搜索策略的研究对搜索引擎的应用与发展有着重要意义。网络爬虫搜索策略问题的研究还处于发展阶段,无论是模型、搜索算法,还是实验方法都还有许多有待解决的问题。如何在合理的时间限度内,以较少的网络资源、存储资源和计算资源的消耗获得更多的主题相关页面是网络爬虫追求的最终目标。因而未来网络爬虫所使用的策略主要研究应该在提高链接价值预测的准确性、降低计算的时空复杂度,以及增加网络爬虫的自适应性等方面有所发展,有所突破。

摘要:随着互联网络的迅猛发展,更专业化更高准确率的垂直搜索引擎已成为人们获取所需的知识必不可少的工具。以何种策略有效地访问网络资源是搜索引擎中网络爬虫研究的主要问题。该文对垂直搜索引擎中网络爬虫的搜索策略进行简要分析,比较各种搜索算法的优缺点,使人们对网络爬虫的搜索算法有个大概了解。最后对搜索引擎未来网络爬虫研究趋势做了说明。

关键词:垂直搜索引擎,主题爬虫,搜索策略

参考文献

[1]刘汉兴,刘财兴.主题爬虫的搜索策略研究[J].计算机工程与设计,2008,29(12):3160-3166.

[2]欧阳柳波,李学勇,,李国徽,等.专业搜索引擎搜索策略综述[J].计算机工程,2004,30(13):32-33.

[3]林海霞,原福永,陈金森,等.一种改进的主题网络蜘蛛搜索算法[J].计算机工程与应用,2007,43(10):174-176.

[4]郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报(自然科学版),2005,45(9):1896-1902.

[5]叶允明,于水,马范援,等.分布式Web Crawler的研究:结构、算法和策略[J].电子学报,2002,30(12A).

[6]欧阳柳波,李学勇,李国徽,等.网络蜘蛛搜索策略进展研究[J].小型微型计算机系统,2005,26(4):703-706.

垂直搜索引擎技术 篇5

部门:百度垂直搜索产品市场部 工作地点:北京市 岗位类型:实习生

工作职责: 整理运营月报周报 辅助数据需求分析;

职位要求: - 每周实习5天,持续三个月以上,

 

北京职位百度垂直搜索产品市场部招聘数据方面实习生

- 热爱互联网,对数据敏感,有数据分析想法思路的优先,逻辑思维能力强 - 熟悉Excel的图表及基础函数运算

垂直搜索:助推企业精准营销 篇6

目前,通用搜索引擎所提供的大而全的搜索结果,只是解决了信息来源而没有对信息进行分类、筛选。随着用户需求日益个性化,人们对各类搜索引擎的精确度、速度和支持数据容量度等要求也越来越高。传统的数据库式站内搜索引擎,由于技术发展的局限性,很难解决这些基本的需求,更多细分化的需求开始通过垂直搜索引擎满足,所以,专门针对某一特定领域人群的垂直搜索——旅游搜索、购物搜索、地图搜索等相继涌现,可谓群雄逐鹿,有先入为主的一淘、搜库等,也不乏准备进军垂直搜素的后起之秀,还有来自搜狗、腾讯、奇虎360等互联网大佬的蓄势待发。

此外,还有房产搜索、招聘搜索、餐饮搜索等各类垂直搜索,而垂直搜索已经成为越来越受用户认可的搜索形式,各种垂直搜索形式在用户使用率占比上超过30%。在可以预见的未来,互联网内容会更加丰富,势必推动垂直搜索成为通用搜索引擎越来越有力的挑战者。可见,2012年的搜索市场争夺战将会异常激烈。

垂直搜索为何盛行?

数据显示,2011年第三季度中国搜索引擎市场规模达到55.1亿元,环比上升24.7%,同比上升77.8%。面对这块肥肉,越来越多的互联网大佬看到了搜索引擎的前途和机会。而用户搜索需求的平均化和多元化已成客观趋势,这也使得搜索精分成为搜索用户客观需求。而这种需求也有力的推动了垂直搜索引擎在2012年的蓬勃发展。

垂直搜索使网络用户可以非常准确、便捷地进入某一特定领域搜索相关主题的内容信息。相比传统的通用类搜索,垂直搜索的优势在于能够对互联网应用和网民兴趣的多元化作出及时的反应。而谁能够发挥垂直搜索的这种灵活、精准的特征,谁就能在众多垂直搜索应用中脱颖而出,赢得独立的细分市场。面对海量的网络用户,如何人为控制访问群体,做到网络中的市场细分,是企业在进行网络营销时首要解决的问题之一,也是网络营销成败的突破口。

而垂直搜索引擎的出现恰到好处地解决了这一问题,对企业而言,由于掌握了目标群体的特点,企业网站的针对性更强,营销策略也会更有效,同时节省了通用搜索引擎营销中带来的单纯点击花费,节省了营销成本。垂直搜索引擎使营销更有针对性,也使营销体现出前所未有的个性元素,向着一对一的趋势发展。

这种精准性恰恰满足了企业的需求。数据显示,由于外部资源环境及市场竞争的激烈加剧了中小企业生存环境的挑战,中小企业走“拼资源、拼价格、拼环境”的老路已难以为继,必须转变运营方式,只有在巨大的压力之下成功转型的中小企业,才可能在未来的竞争中生存下来。而中小企业生存环境的变化,又一定程度上激发了垂直搜索营销需求的扩大,逐渐成为中小企业转型利器。

垂直搜索引擎的出现,使网络一头的企业不再对网络另一头的用户类型感到模糊不清、无从下手。网络用户这个神秘的群体也由幕后走到幕前,其行为特征借助第三方力量清晰地表达出来。“我不向你直接推销产品,但我却能向你提供最专业的意见,能够满足你的个性化需求,以此来吸引你的注意力,从而影响你的思想最终间接达到影响你的决策行为的目的。”这就是企业进行垂直搜索营销的最佳效果,也是最基本的思维和最原始的目的。

垂直搜索营销在精准度和效果可评估性方面的优势使其更易获得企业主青睐,企业应该如何进行实际运用?

提高收录几率,增加有效点击

企业通过对以往现实中用户行为数据及水平搜索引擎所收录的用户搜索行为数据的分析,在网站建设及配套服务设置方面进行改进,从而提高被垂直搜索引擎收录的几率,把握查询关键词,增加有效点击的几率。

1.用户行为分析。主要分析用户的搜索行为,找出用户搜索特征,尤其是对同一事物的关键词描述。其次,通过通用搜索引擎营销的经验,判断搜索用户对最终显示结果的点击选择标准。再者,追踪用户的有效点击,收集费用的产生节点及利润的发生节点。

2.企业网站建设。主要是使企业网站能够被垂直搜索引擎及时收录,并实时更新信息。本质是网站建设时对关键词的设置。在配合其他营销手段后,更可能提高网站的搜索排名,吸引搜索用户的注意力。首先是网站的建设工作。包括网站的结构设置、链接交流及内容更新等,都要在最大程度上满足搜索用户的使用习惯,并起到引导用户及时作出决策的作用。比如个性化购物,借鉴淘宝的运作模式,使用户可以在线购买所查询线路上的实物产品。旅游产品组合,用户可以自行组合景点、制定游览线路(典型的“垂直搜索+路线DIY”模式),网站在线产生该方案的费用、时间等方面的预算,并做简单评析,同时给出建议和推荐路线。在线答疑,配备专职人员与用户进行在线交流,加深用户对网站服务的印象,培养长期客户,深入挖掘潜在顾客等。

其次,结合目前主流垂直搜索引擎技术特点进行改良。比如,目前的垂直搜索引擎对静态网页的搜索显示效果良好,而对于asp等动态网页收录几率相对小的状况,网站在建设时,应尽量使用btml格式。再者,各企业通过协商、互惠互利等方法,获得相关网站的推荐或是友好链接等,也可增加被垂直搜索引擎收录的机会。

3.配套服务设置。主要是网站宣传服务的落地及网站的后期维护。这是利润产生的关键,对于取得用户的信任也极其重要。尤其是企业前期进行了规模庞大的网络营销活动,吸引了相当一部分消费者之后,急需将宣传的理念落地。

利用垂直搜索做好推广是本质

企业基于垂直搜索营销的实施方法体系,这是企业垂直搜索营销模式的核心部分,它的运用是否恰当,直接决定营销策划的成败。它的本质是企业如何利用垂直搜索引擎作好推广。

首先,垂直搜索引擎优化。通过对网站栏目结构和网站内容等基本要素的优化设计,提高网站对垂直搜索引擎的友好性,使得网站中尽可能多的网页被垂直搜索引擎收录,并且在搜索结果中获得好的排名结果,从而通过搜索引擎的自然检索获得尽可能多的潜在用户。网站结构发生变动或信息更新时,一般不主张采用企业自身重新登录垂直搜索引擎的方法,而是通过其他已经被垂直搜索引擎登录网站的链接让垂直搜索引擎自动发现该网站或是更新的内容。垂直搜索引擎优化,本质上是企业网站针对垂直搜索引擎的特点对自身逻辑结构的一种优化,涉及网站逻辑架构、网站内容策略、网站内外部链接等方面。

其次,针对垂直搜索引擎的收录原则和搜索技术等硬性指标,有目的、有针对性地对网站关键词进行处理,以增加网站自身对垂直搜索引擎的友好性。关键词是指以网络用户(即潜在消费者)在线搜索用词为参考,结合网站网页的宣传内容,尽可能满足垂直搜索引擎自动检索收录时使用的录入用词。与网络营销结合后,由此推广出各种以关键词为核心的营销形式。

“搜索”是实现消费者购买行为的关键中心点,而且是线上线下媒介传播的中心。为什么有些企业即便意识到这点,并投入了一系列垂直搜索引擎广告及垂直搜索引擎优化,却未能达到所期望的效果?这可能是因为关键词的选择和消费者的实际使用有些出入,或是企业的目标消费者没有如企业所期待的去“搜索”。如果企业主动提醒消费者去“搜索”,甚至引导消费者运用某种关键词去“搜索”,效果就会大不一样。这种提醒与引导不应仅局限在网络平台,企业在开展垂直搜索引擎营销时,不能忽视线下媒体的作用。如在平面广告、电视广告、户外广告,甚至是书籍扉页、封面上植入“搜索框”,进行关键词指引。比如,中国平安在“平安一账通”这一产品的电视广告和平面广告上都植入了“百度一下”的搜索框。在这一广告引导作用下,与“平安一账通”相关的搜索量有了大幅度的增长,客户量也大大提高。

nlc202309040117

再次,付费关键词广告。与通用搜索引擎营销一样,关键词广告也是垂直搜索引擎营销的主要方法之一。只是,不同的垂直搜索引擎有不同的关键词广告显示方式,有的将付费关键词检索结果出现在搜索结果列表最前面,也有的出现在搜索结果页面的专用位置。企业应根据自身的经营范围并结合目标群体,了解相关搜索引擎服务商的广告投放方式、价格、效果管理方法等方面的情况后,选择适合自身发展的垂直搜索引擎广告平台,制定关键词组合。比如:关键词“张家界+周末两日游”的检索结果明显要比“张家界+旅游线路”的检索结果精确,也能直达核心网页。企业在制作网站时,需要分析用户获取某一信息可能检索的关键词及其组合,将有关关键词合理地分布在网站各个栏目内容中。这样才能构建有效的信息源并获得尽可能多的垂直搜索结果领先优势。此方法还可以增加企业网站对于垂直搜索引擎的可见度,对企业品牌的推广、产品推广和提高用户转化率都起到了不可忽视的作用。

考评效果,不断优化

任何一种模式或是一种方法,最终都需要使用者或第三方对其进行考量与评价,从而发现其优点与缺点,反过来再指导企业更好地运用。

垂直搜索引擎的一大特点是善于搜集用户个性化需求的数据,而作为企业就应该最大限度地利用这些数据制作属于自身用户群体的个性化信息,以增加网络营销的有效几率,创造更多的线下利润。所以,对于采用垂直搜索营销的企业而言,进行用户行为研究显得尤为重要。如根据垂直搜索引擎提供的统计数据,再结合网站内用户的点击特征,详细记录分析用户的访问数据,从而了解不同搜索引擎的用户特征,了解用户获取信息的行为特点,以及浏览和点击广告的行为特征,为改进垂直搜索引擎营销策略和网站改良提供支持。

同时,通过效果分析,量化垂直搜索营销的效果。通常包括网站流量分析、广告效果分析、关键词广告分析、广告或关键词有效转化率分析等,为下一步的网站优化、关键词优化及广告优化等提供原始数据,为进一步提升转化率提供支持。最终,根据营销效果的评价结果,企业有针对性的完善相关服务。

企业需要通过不断的主动整合“长尾”、改善自身、抓住目标群体的个性化需求,以期永续发展。而任何版本的垂直搜索引擎对于潜在的垂直搜索用户来说只能是永远的测试版本。企业需要加强收集数据、挖掘数据的能力。企业只有通过从现有的数据中寻找再次发展的机会,才能从极其分散、零碎的市场数据中获取信息。企业需要认识到,基于垂直搜索营销仍然是企业网络营销的一部分,它必须纳入到企业网络营销的系统中进行有机融合,它需要企业网络营销的其他手段的配合,更需要企业网络营销相关部门的协同。

(编辑:杨春旺 ycw125@sina.cn)

垂直搜索的优势在于能够对互联网应用和网民兴趣的多元化做出及时的反应,使网络用户可以非常准确、便捷地进入某一特定领域搜索相关主题的内容信息,同时使营销体现出前所未有的个性元素,向着一对一的趋势发展。

企业应根据自身的经营范围并结合目标群体,了解相关搜索引擎服务商的广告投放方式、价格、效果管理方法等方面的情况后,选择适合自身发展的垂直搜索引擎广告平台,制定关键词组合。

垂直搜索引擎系统的架构研究 篇7

对于搜索引擎的定义有很多, WordNet上这么说:这是一种用来在计算机网络特别是在万维网上检索各种文件的计算机程序。其实, 我们可以将搜索引擎的结果看作一种动态网页, 这种动态网页通过用户提交的检索关键词聚合了各种重要的、有意义的、有价值的相关网页。所以搜索引擎可以说是一个信息聚合系统。通过用户输入的查询关键词, 搜索引擎来定位用户的查询意图, 然后迅速地返回查询结果。

随着世界的日益信息化、数字化、网络化, 搜索引擎这一技术的重要性更加深入人心, 有人甚至将它与操作系统并列为当今最复杂的两个系统软件。而且, 随着搜索技术的越来越成熟, 当前的搜索技术已经不再局限于搜索引擎本身, 它基于互联网级别的海量数据的架构和理念已经扩展到整个信息技术领域的方方面面, 我们有理由相信它的深远影响还会继续显现。我有信能赶上这次科技浪潮, 通过本文谈谈对搜索引擎中垂直搜索引擎系统的理解和各个模块子系统的架构。

1、搜索引擎的分类

搜索引擎系统根据不同的分类方式可以分成不同的类别, 按照它的工作机制进行分类可以分为以下几种:

(1) 目录式搜索引擎:依靠人工发现信息, 依靠编辑人员的知识进行甄别, 并在此基础上进行分类, 用户可以在这个分类结构中浏览。由于加入了人的智能, 所以信息准确并且质量高, 缺点是数据量有限, 更新不及时, 并且成本较高。

(2) 全文搜索引擎:针对万维网所有网页进行信息检索的搜索引擎, 由下载系统以某种策略自动地在万维网上搜集和发现信息, 由索引系统为抓取到的信息建立索引, 由查询系统根据用户的查询返回查询结果。优点是信息量大, 更新及时, 并且无须人工干预, 缺点是返回的结果中包含过多无关信息, 需要用户自己筛选。

(3) 垂直搜索引擎:是相对于通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式, 通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。特点是“专、精、深”, 本文介绍的架构就是针对与垂直搜索引擎而言的。

(4) 元搜索引擎:把用户的查询同时向多个搜索引擎递交, 然后将返回的结果进行重复排除和重新排序处理后作为自己的结果返回给用户。优点是返回信息量大、更全, 缺点是用户需要进行更多的筛选, 原搜索引擎的功能无法充分使用。

(5) 个性化智能信息检索:智能化的程序, 能够学习用户的需求, 具有智能性、主动性、协作性的优点, 缺点规模有限, 更新不及时。

2、垂直搜索引擎的工作原理

本文架构的垂直搜索引擎结构清晰, 分工明确。按照各自的功能划分, 可以分为下载系统、分析系统、索引系统、查询系统这4个系统, 本文又加入了日志系统, 是为了更好地完善搜索引擎而提出的, 这5个系统相互协作, 共同实现搜索引擎的快速、全面、准确、稳定、智能这些需求。从全局看, 下载系统、分析系统和索引系统组成了搜索引擎的数据准备部分, 是“离线”的部分, 查询系统是数据服务部分, 是“在线”的部分, 日志系统是为了完善整个系统的数据, 也是属于“离线”部分, 但是它的作用在数据准备和数据服务部分都有体现。其中“在线”部分的系统需要毫秒级的服务速度, 而“离线”部分的系统没有时间上的严格限制。整个搜索引擎系统从开始到最后呈现给用户的都是网页, 但是在搜索引擎内部会有不同的组织形式, 搜索引擎的数据都来自网页, 所以网页处理能力是搜索引擎技术的主要挑战。下面对搜索引擎的5个系统一一进行分析。

2.1 下载系统

下载系统负责从几个种子网站出发下载网页, 并且保持对种子网站的同步。由于web信息容量大, 分布广, 更新快的特点, 维护数据的全面和新颖是下载系统最主要关注的方面。为提高下载系统自动搜集万维网上信息的效率, 我们需要关注以下要点:

(1) 在搜索策略中, 宽度优先与深度优先相结合的爬取策略, 不重复抓取策略, 网页重访策略, 重要性网页优先策略, 抓取提速策略。

(2) 礼貌性问题, 遵守Robots协议, 以及尽可能合理地规划抓取强度。

(3) 用哈希日志的存储方式存储网页, 保证网页库的可伸缩性以及大规模更新的要求, 并能满足, 随机与顺序两种访问模式。

2.2 分析系统

分析系统负责抽取下载系统取得的网页数据, 并进行分词, 过滤, 结构化, 将半结构化的网页信息转换成结构化的网页对象。分析系统在搜索引擎的架构中承担了网页结构化、网页消重、文本分词及PageRank计算等4项基本任务。它的分析过程如下:

(1) 建立标签树从网页中抽取有价值的信息, 完成网页结构化。

(2) 网页消重模块去除冗余、相似相同的网页, 仅保留一个传给分词模块。

(3) 分词模块将正文切分成以词为单位的集合。

2.3 索引系统

索引系统负责将分析系统处理后的网页对象建立倒排索引, 倒排索引是以词来标记文档的一种数据结构, 在建立索引的过程中, 在索引系统中索引会出现三种不同的表现形式, 分别是倒排表、临时倒排文件、最终倒排文件。其中倒排表是存放在内存中能够追加倒排记录, 规模很小, 临时倒排文件是以文件形式存储在磁盘中的中等规模的倒排索引, 最终倒排索引是将临时倒排索引合并后的大规模的倒排索引。

2.4 查询系统

查询系统负责分析用户提交的查询请求, 然后从索引库中检索出相关网页, 排序后返回给用户。查询系统是最接近用户的系统, 它直接面对用户, 接收用户的查询请求后, 再通过检索、排序和摘要提取等工作, 将返回结果显示给用户。查询系统采用布尔模型和向量空间模型结合的方式, 布尔模型效率高且易实现, 向量空间模型能够提高检索的相似度, 大大改善查询结果。查询系统的工作过程如下:

(1) 接收用户请求, 对查询词分词, 得到一个逻辑表达式。

(2) 采用布尔模型的方法得到结果文档列表。并将检索出的文档列表求交集。

(3) 将 (2) 得到的文档列表中的全部文档和查询词分别向量化, 并求向量间相似度

(4) 按照相似度排序输出查询结果。

全部过程包括分词、文档列表求交集、向量化并求向量夹角相似度及排序这4种计算我们还需要关注如何进行结果页的缓存设计和自动文本摘要的功能。

2.5 日志系统

日志系统负责记录搜索引擎运行过程中的软硬件状态信息及用户的搜索记录。日志是人机交互的记录, 总体来说, 其中包含的信息可以分成两类:一类是查询日志, 包含查询的来源站点、来源IP地址、查询时间、查询词等;另一类是点击日志, 包括用户点击结果的顺序、点击的结果展示选项等。此外还有各次用户行为的来源IP, 用户使用的浏览器, 以及用户开始搜索行为的入口等。

对搜索引擎的日志进行分析, 能帮助理解用户的查询意图、理解搜索结果的内容、评判搜索结果质量、改进搜索系统等一系列有益于完善搜索引擎技术的事情

3、对搜索引擎发展的展望

虽然目前为止搜索技术应该相当完善成熟, 尤其是在全文搜索引擎和垂直搜索引擎的领域, 但仍有很多值得我们去探索的工作, 譬如, 深度挖掘问题、定向抓取、推测用户查询意图、相似结果的聚类、垃圾网页的甄别等等, 我们还能通过用户行为、机器学习等方面的研究让现有的搜索引擎更加智能, 我们还能继续在CPU、内存、磁盘、网络等方面优化搜索引擎系统。我们已经在这些方面取得了一定的成果, 但还是显得有点薄弱, 还需更加深入的研究。

4、结束语

虽然我国的搜索引擎技术已经过了起步阶段, 但我觉得在之后的很长一段时间, 搜索技术都会有很多难题等着我们去攻克, 而且, 在搜索引擎技术的带动下, 我国云计算、云存储方面的研究也兴盛起来了, 我将继续研究搜索引擎相关的技术, 为我国日益兴盛的科技力量献出我的一份力。

摘要:本文首先通过对搜索引擎工作机制的描述来对现有的搜索引擎做了分类、然后通过各模块工作原理和技术的研究 (包括下载系统、分析系统、索引系统、查询系统、日志系统) 系统性的描述了垂直搜索引擎的关键技术和运作流程, 并在最后展望了搜索引擎的未来发展的前进方向。

关键词:垂直搜索,系统架构,倒排索引,网页查重,向量空间模型

参考文献

[1]印鉴, 陈忆群, 张钢.搜索引擎技术研究与发展[J].计算机工程, 2005, (07) .

[2]刘芳, 何守才.搜索引擎的优化处理方法[J].计算机工程, 2003, (09) .

[3]符绍宏, 黄崑.搜索引擎技术服务的研究及其启示[J].情报学报, 2000, (12) .

垂直搜索引擎之主题网络爬虫 篇8

在21世纪的今天, 信息技术的发展越来越快。随之而来的就是网络上的信息量呈现爆炸式增长。而如何从中提取中自己所需的信息成为一大难题。传统的通用搜索引擎已经不足以满足用户的需要。相应的, 针对某一特定领域提供相关信息的垂直搜索引擎应运而生。

传统网络爬虫的目标是尽可能多的采集互联网上的信息页面而不考虑其中的准确性。而主题网络爬虫则是通过实现规定好的相应条件来对互联网上的信息进行相应的提取, 不仅节省了很多网络资源, 并且信息采集效率也得到了大大的提高。

2 主题网络爬虫工作原理

网络爬虫的作用主要是获取互联网上的信息从而为搜索引擎提供数据基础, 通常通过其中的一个页面 (一般为特定的首页) 读取包含在其中的URL将之存入队列, 然后进行深度或者广度的遍历以达到获取整个互联网上信息的目的。

而主题网络爬虫[1]则是在普通网络爬虫获取信息的基础上根据一定的网络分析算法以及自己预先定义好的筛选条件来筛选出其中满足特定主题的URL再进行相应的抓取。从数据源上首先保证了垂直搜索引擎中数据来源的正确性。以下是普通网络爬虫和主题网络爬虫的对比图:

3 主题网络爬虫的搜索策略

主题网络爬虫目的在于抓取与某一特定主题相关的网页, 所以主题网络爬虫无需像普通网络爬虫那样追求最大覆盖率, 而只要保证抓取的页面与主题相关即可。为了更好的抓取出与主题相关的页面, 在进行页面抓取之前主题网络爬虫通常会根据一些搜索策略对将要进行抓取的URL进行相应的筛选。现在通常有如下几种搜索策略:

3.1 基于内容的搜索策略

基于内容的搜索策略[2]主要是利用网页文本中的内容、锚文字等文字内容信息来判断该网页内容与所需要的主题的相似度。其中很多都借用了文本分类技术, 以向量空间模型为基础。

在向量空间模型[3]中, 对文本内容的处理简化为向量空间中的向量运算, 并且它以空间上的相似度来表示语义的相似度, 方便易懂且直观。其中, 每篇文档P都表示为特征空间中一个等长的n维向量 (a1, a2…, an) , n为训练文档的个数。ai表示第i个词在该文档中所占权重的大小。这样该文档就被映射为空间上的某一点了。主题T用 (t1, t2, …, tn) 表示, 这样只要计算出文档P与主题T夹角的余弦值就可以算出主题与文档的相似度。这样的好处是余弦计算的值为0-1之间, 如果结果为0则表示正交主题与文档的相关度最差, 如果为1则表示主题与文档的相似度最好。计算公式为:

另外, Junghoo Cho等人提出了Best First算法, 该方法依据网页与主题的相关度从而动态的更改URL的优先级队列。1994年由提出了Fish Search算法, 只搜索与主题相关的页面。后来, Michael Hersovici等人又提出了Shark Search[4]算法, 该方法为对Fish Search算法的改进, 不仅判断页面是否与主题相关, 并且可以计算出其中的相关性大小。

主题网络爬虫在爬行与主题相似度较近的网页时可以表现出较好的性能, 但是却忽略了web网页之间相互形成的一定的链接结构, 预测链接价值的能力较差。由于是根据主题相似度来筛选, 所以覆盖率会较低。并且, 因为要事先比较文本内容和主题的相似度而会带来爬虫效率的相应降低, 所以有另一种基于链接的搜索策略。

3.2 基于链接分析的搜索策略

基于链接分析的搜索策略是通过页面间相互引用的关系来确定该链接的重要性从而来决定链接访问顺序的方法。通常认为被引用次数较多的页面有较高的价值, 但这种方法容易事页面的主题与用户需要的主题像违背而发生“主题偏移”的现象。此类算法中的典型代表则是Google的PageRank算法和HITS (Hyperlink-Induced Topic Search) 算法。

3.2.1 PageRank算法

PageRank算法[2,5]基于用户随机浏览网页的直觉只是使那些更具有“等级/重要性”的网页在搜索结果中另网站排名获得提升, 从而提高搜索结果的相关性和质量。PageRank根据页面的外部链接和内部链接的数量以及质量来该页面的价值。中心思想即为:一个页面被其他页面引用的次数越多, 则这个页面是重要页面, 排名获得提升。一个页面即使没有被很多页面引用, 但他被一个重要页面引用, 那么它也是重要页面。一般性, PageRank算法的PR值计算方法如下:

其中u是被研究的网页, vi是链接指向u的网页, ci是网页向外指出的链接数, d是规范因子, 通过实验得出的最佳值为0.85。

PageRank搜索策略可以使得爬虫抓取到重要的网页, 但却忽略了网页本身与主题的相关度。这样会降低查找的准确率。而且基于链接的搜索策略成本比基于内容的成本高, 且效率低。

3.2.2 HITS算法

HITS算法[2,6]是康奈尔大学的JonKieinberg博士在1998年提出的, HITS算法是Web挖掘中最有权威性和使用最广泛的算法, 他的基本思想是利用页面间的引用来挖掘包含在其中的有用信息。它主要根据一个网页的入度和出度来衡量网页的主要性, 最直观的解释就是如果一个网页的重要性高, 则他所指向的网页的重要性也高。一个重要的网页被另一个网页所指, 则表明指向它的网页重要性也会高。其中HITS算法设计两个重要的概念:

Authority:表示一个权威网页的加权入度值。若某网页被引用的数量越大, 则该网页的加权入度值越大, 则Authority越大。

Hub:表示该Web页面的加权出度值, 它提供了指向权威页面的链接集合。若某网页的加权出度值越大, 则该网页的Hub值越大。

同样HITS算法也有它本身的缺点, 因为它大多是纯粹的基于链接分析的算法, 并没有考虑到文本的内容, 没有区分出不同链接的重要性以及和主题的相关性。

3.3 基于分类器的搜索策略

为了克服基于内容的搜索策略以及基于链接的搜索策略的不足之处, 有人提出了基于分类器的主题网络爬虫, 从而可以使用分类模型来描述用户需要的主题和计算出网页与主题的相关度。通过分类器模型可以更深层次的来描述用户感兴趣的主题信息, 并可以更加准确的来计算网页的主题相关性, 而不仅仅停留在基于关键字的匹配上面。目前比著名的分类器搜索策略是S.Chakrabarti等人第一次提出的基于贝叶斯分类器模型引导主题Web爬虫。

3.3.1 基于贝叶斯分类器的搜索策略

贝叶斯分类器[7]的分类原理是通过某对象的先验概率, 利用贝叶斯公式计算出其后验概率, 即该对象属于某一类的概率, 选择具有最大后验概率的类作为该对象所属的类。它假定在给定类别的情况下, 数据x服从一定的概率, 则x出现的概率为p (x|class=+1) 。后验概率Pr (class=+1|x) 可以用如下公式计算:

其中Pr (class=+1) 是相关类别的先验概率。

通常, 应用贝叶斯分类器进行分类主要分成两阶段。第一阶段是网络分类的学习, 即从样本数据中构造分类器;第二阶段则是贝叶斯分类器的推理, 它可以来计算结点的条件概率, 对分类数据进行分类。

3.4 其他搜索策略

现在大部分网站上面对于主题相同的网页在组织上都存在着一定的相似之处, 所以有的人考虑让网络爬虫进行自我学习[8], 在这些相似性的主题中获取一些“经验”, 这样就可以提高爬虫的搜索的效率以及准确性不容易迷失方向, 但因为现在的技术有限, 自学习效率太低, 会增加用户的负担。

另外, 还有学者提出来“综合价值[8]”评价的搜索策略。他们对HITS算法进行了改进, 将页面的文本信息与连接信息相结合, 利用查询的主题与页面相关性来计算出每个页面的主题所占的权重来计算Authority权重。实验表明这样可以提高搜索效率。

3.5 搜索策略的研究趋势

通过上述的这些策略可以发现, 基于内容的搜索策略虽然可以保证比较好的准确性, 但是覆盖率不够, 而且要分析文本内容更会降低爬虫的性能。而现在越来越多的策略都是围绕链接分析来展开的, 而这也是未来主题爬虫的研究趋势。但因为链接分析会造成主题偏移, 所以未来的研究方向将会围绕如何提高链接预测的准确性, 降低时空复杂度以及让网络爬虫能够自我学习这几方面发展。另一方面基于分类器的主题相关度预测也值得进一步的研究。如何将众多方法相结合来完成一个真正的“综合性”搜索策略仍是我们需要努力的方向。

4 结束语

随着互联网信息的不断增长以及用户各种信息需求质量的提高, 垂直搜索引擎必将成为搜索引擎发展的主要部分之一。而作为为垂直搜索引擎提供数据的主题爬虫则也是我们不得不研究的重点, 只有从数据源上将信息的质量提升了, 才能让用户得到对他们有用的信息。本文分析了当今比较主流的极大主题爬虫的抓取策略并指出了相应的不足之处。最后也对主题爬虫未来发展的方向提出了一个猜测。我们有理由相信, 随着用户需求的不断增加, 主题爬虫必将越来越完善。

摘要:21世纪的今天, 网络信息量呈几何倍数的增长。传统的通用搜索引擎已经不能很好的满足我们对特定信息的需求。所以, 针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务的垂直搜索引擎应运而生。而主题网络爬虫则是为垂直搜索引擎提供数据的自动化程序。本文主要研究了主题爬虫的各种搜索策略, 指出了其中的劣以及最后对将来的发展做出了一个展望。

关键词:垂直搜索,主题爬虫,搜索策略

参考文献

[1]戚欣.基于本体的主题网络爬虫设计[J].武汉理工大学学报, 2009.03:138-144

[2]刘金红, 陆余良.主题网络爬虫研究综述[J].计算机应用研究, 2007 (10) :26-29.

[3]黄萱菁, 夏迎炬, 吴立德.基于向量空间模型的文本过滤系统[J].软件学报, 2003:435-438

[4]HERSOVICI M, JACOVI M, MAAREK Y S, et al.Theshark-search algorithm:an application:tailoredWeb site mapping[C]//Proc of the 7th International World Wide Web Conference.Brisbane[:s.n.], 1998:65-74.

[5]王德广, 周志刚, 梁旭.PageRank算法的分析及其改进[J].计算机工程, 2010:291-292

[6]李玥, 刘发升.基于链接分析的HITS算法研究[J].软件导刊, 2008 (7) :70-71

[7]邹永斌, 陈兴蜀, 王文贤.基于贝叶斯分类器的主题爬虫研究[J].计算机应用研究, 2009 (9) :3418-3419

开源网络爬虫在垂直搜索引擎应用 篇9

在信息化时代,针对通用搜索引擎信息量大、查询准度和深度兼差等缺点,垂直搜索引擎已进入了用户认可和使用周期。垂直搜索是针对某一个行业的专业搜索引擎,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户[1]。相比通用搜索引擎则显得更加专注、具体和深入。目前,垂直搜索引擎多用于行业信息获取和特色语料库建设等方面,且已卓见现实深远成效。

网络爬虫是一个自动提取和自动下载网页的程序,可为搜索引擎从互联网上下载网页,并根据既定的抓取目标,有选择地访问互联网上的网页与相关的链接,获取所需要的信息。按照功能用途,网络爬虫分为通用爬虫和聚焦爬虫,这是搜索引擎一个核心组成部分。

1聚焦爬虫的工作原理及关键技术分析

1.1聚焦爬虫的工作原理

聚焦爬虫是专门为查询某一主题而设计的网页采集工具,并不追求大范围覆盖,而是将目标预定为抓取与某一特定主题内容相关的网页,如此即为面向主题的用户查询准备数据资源。垂直搜索引擎可利用其实现对网页主题信息的挖掘以及发现,聚焦爬虫的工作原理是:

( 1) 爬虫从一个或若干起始网页URL链接开始工作;

( 2) 通过特定的主题相关性算法判断并过滤掉与主题无关的链接;

( 3) 将有用链接加入待抓取的URL队列;

( 4) 根据一定的搜索策略从待抓取URL队列中选择下一步要抓取的网页URL。

重复以上步骤,直至满足退出条件时停止[2]。

1.2聚焦爬虫的几个关键技术

根据聚焦爬虫的工作原理,在设计聚焦爬虫时,需要考虑问题可做如下论述。

1.2.1待抓取网站目标的定义与描述的问题

开发聚焦爬虫时,应考虑对于抓取目标的定义与描述, 究竟是带有目标网页特征的网页级信息,还是针对目标网页上的结构化数据。前者因其具有结构化的数据信息特征,在爬虫抓取信息后,还需从结构化的网页中抽取相关信息; 而对于后者,爬虫则直接解析Web页面,提取并加工相关的结构化数据信息,该类爬虫便于定制自适应于特定网页模板的结果网站。

1.2.2爬虫的URL搜索策略问题

开发聚焦爬虫时,常见的URL搜索策略主要包括深度优先搜索策略、广度优先搜索策略、最佳优先搜索策略等[3]。 在此给出对应策略的规则分析如下。

( 1) 深度优先搜索策略

该搜索策略采用了后进先出的队列方式,从起始URL出发,不停搜索网页的下一级页面直至最后无URL链接的网页页面结束; 爬虫再回到起始URL地址,继续探寻URL的其它URL链接,直到不再有URL可搜索为止,当所有页面都结束时,URL列表即按照倒叙的方式将搜索的URL队列送入爬虫待抓取队列。

( 2) 广度优先搜索策略

该搜索策略采用了先进先出的队列方式,从起始URL出发,在搜索了初始Web的所有URL链接后,再继续搜索下一层URL链接,直至所有URL搜索完毕。URL列表将按照其进入队列的顺序送入爬虫待抓取队列。

( 3) 最佳优先搜索策略

该搜索策略采用了一种局部优先搜索算法,从起始URL出发,按照一定的分析算法,对页面候选的URL进行预测, 预测目标网页的相似度或主题相关性,当相关性达到一定的阈值后,URL列表则按照相关数值高低顺序送入爬虫待抓取队列。

1.2.3爬虫对网页页面的分析和主题相关性判断算法

聚焦爬虫在对网页Web的URL进行扩展时,还需要对网页内容进行分析和信息的提取,用以确定该获取URL页面是否与采集的主题相关。目前常用的网页的分析算法包括: 基于网络拓扑、基于网页内容和基于领域概念的分析算法[4]。下面给出这三类算法的原理实现。

( 1) 基于网络拓扑关系的分析算法

基于网络拓扑关系的分析算法就是可以通过已知的网页页面或数据,对与其有直接或间接链接关系的对象作出评价的实现过程。该算法又分为网页粒度、网站粒度和网页块粒度三种。著名的PageRank和HITS算法就是基于网络拓扑关系的典型代表。

( 2) 基于网页内容的分析算法

基于网页内容的分析算法指的是利用网页内容( 文本、 数据等资源) 特征进行的网页评价。该方法已从最初的文本检索方法,向网页数据抽取、数据挖掘和自然语言等多领域方向发展。

( 3) 基于领域概念的分析算法

基于领域概念的分析算法则是将领域本体分解为由不同的概念、实体及其之间的关系,包括与之对应的词汇项组成。网页中的关键词在通过与领域本体对应的词典分别转换之后,将进行计数和加权,由此得出与所选领域的相关度。

2三种开源网络爬虫性能比较

目前,互联网上推出有许多的开源网络爬虫,易于开发和扩展的主要包括Nutch、Larbin、Heritrix等,下面即针对这三类爬虫进行实用性内容介绍[5]:

( 1) Heritrix是Java开发的开源Web爬虫系统,是Internet Archive的一个爬虫项目。这是开源、可扩展、Web范围内并带有存档性质的网络爬虫。该系统允许用户选择扩展各个组件,进而实现自定的抓取逻辑。Heritrix默认提供的组件能够完成通用爬虫的功能,用户既可根据实际需求定制相应模块,也可实现聚焦爬虫的功能。

( 2) Larbin是一种由C + + 开发的开源网络爬虫,larbin能够跟踪页面的URL进行扩展的抓取,从而为搜索引擎提供广泛的数据来源。该程序由法国人Sébastien Ailleret独立开发,只是2003年后,Labin已退出了更新。

( 3) Nutch是Apache的子项目之一,且是Lucene下的子项目,重点是其中提供了搜索引擎所需的全部工具,当然, Nutch只获取并保存可索引的内容,却无法保持抓取网页原貌。

在此,研究可得三种开源网络爬虫的功能特点和使用范围比较,具体如表1所示。

通过如上内容分析,可以得出以下结论:

( 1) 从功能方面来说,Heritrix与Larbin的功能类似,都是一个纯粹的网络爬虫,提供网站的镜像下载。Nutch则是一个网络搜索引擎框架,爬取网页只是其功能的一部分。

( 2) 从分布式处理来说,Nutch支持分布式处理,而其它两个尚不支持。

( 3) 从爬取的网页存储方式来说,Heritrix和Larbin都是将爬取所获内容保存为原始类型的内容,而Nutch是将内容保存到其特定格式中去。

( 4) 对于爬取所获内容的处理来说,Heritrix和Larbin都是将爬取后的结果内容不经处理直接保存为原始内容。而Nutch却将对文本进行包括链接分析、正文提取、建立索引等深层处理。

( 5) 从爬取的效率来说,Larbin效率较高,因为其实现语言是c + + 并且功能相对单一,但是该程序缺乏必要的更新服务。

在进行了有关软件的扩展性、镜像保存方式及软件更新等方面因素的综合分析比对后,本文将择取并利用Heritrix开源软件来实现聚焦爬虫的设计。

3基于Heritrix软件聚焦爬虫的设计

在利用开源Heritrix软件进行聚焦爬虫设计时,以中国西藏网http: / /tb. tibet. cn/为例,针对有目标网页特征的网页级信息配置正则表达式,采用深度优先搜索策略进行URL扩展,利用网页内容关于“主题相关度”[6]的分析算法进行主题判断,实现聚焦爬虫的网站采集功能。

3.1开源Heritrix软件工作原理

Heritrix开源软件采集网页的方法是采取深度优先搜索策略,遍历网站的每一个URI,分析并生成本地文件及相应的日志信息等,Heritrix软件抓取的是与原网页一致的、完整的深度复制,包括图像以及其他非文本内容,抓取后并存储相关的内容。在网页采集过程中,Heritrix软件不对页面上内容进行修改,爬行相同的URL不进行替换。Heritrix软件通过Web用户界面启动、监控、调整、允许弹性地定义要获取的URL。Heritrix软件包含核心模块和插件模块。核心模块能够配置但不能覆盖,插入模块配置是否加载,也可以由第三方模块取代。

3.2开源Heritrix软件关键模块的改进

3.2.1修改Extractor解析器

修改Heritrix的Extractor解析器时,可采用正则表达式的方式扩展待抓取的网页。例如,在抓取中国西藏网的新闻时,在Extractor解析器配置正则表达式: http: / /tb. tibet. cn/ [0 - 9a - z]* /[a - z/]* /[0 - 9]* /[0 - 9a - z -]* . htm ( | l) |S ,这样就把服务器域名下的网页所有信息全部抓取下来。但是,考虑垂直搜索引擎的使用范围和聚焦爬虫对网页主题的过滤功能,需要设计与实际主题搜索应用相匹配的专用解析器,专用解析器extract( Crawl URL) 要实现以下功能:

( 1) 对所有不含有要抓取的结构化信息页面的URL、又不含有可以集中提取前者URL的种子型URL,都不作处理。

( 2) 从可以集中提取含结构化信息页面URL的种子型URL( 如地方新闻目录URL) ,提取全部的含结构化信息页面的URL( 如地方信息列表URL) 。

( 3) 从含结构化信息页面的URL提取所需的结构化信息,并加以记录。

3.2.2扩展Frontierscheduler模块

Frontier Scheduler是一个Post Processor,其作用是将Extractor所分析得出的链接加入到Frontier中,以待继续处理, 聚焦爬虫实现关键词对主题的判断算法就在该模块中构建并执行。主题相关度判断的关键代码如下:

3.3Heritrix聚焦爬虫接口的设计

Heritrix网络爬虫是一个通用的网页采集工具,需要对Heritrix抓取和分析网页的行为进行一定的控制,修改Extractor和Frontierscheduler模块后,需要对其各个功能接口进行操作调试,由此保证聚焦爬虫功能的全面实现。下面即对重要功能接口进行必要介绍。

( 1) 应用接口

在设计聚焦爬虫时,应定制一个应用接口模块以供用户使用,具体将负责与Heritrix软件关联,并提供启、停爬虫、获取网址、采集关键词等功能实现。

( 2) 数据库查询和修改接口

在设计聚焦爬虫时,应设计相应的数据库接口,负责下载并发现与主题相关的网页信息、再保存到数据库的表中。 存储的字段包括: 网页URL、本地存储相对路径、下载时间、 HTTP头中抽取的网页编码,关键词id等。

( 3) 去重接口

因为Heritrix对相同的URL不进行替换,爬虫工作时会下载大量重复的网页,为了节省空间、并获取准确的采集结果,就必须按照设定规则对重复下载的网页进行删除。

4结束语

通过以上对开源Heritrix软件的改进,聚焦爬虫已能根据预设的关键词进行网站抓取,并按照算法判断,当网页的主题相关度阈值大于0. 6时,聚焦爬虫即下载网页,至此爬虫实现了指定网站的主题搜索。综上可见,可以改进开源网络爬虫并使其在垂直搜索引擎中获得成功理想使用。

摘要:分析了聚焦爬虫的工作原理和关键技术,对几种开源网络爬虫的功能特点和使用范围进行比较,而后通过改造Heritrix软件的关键模块和功能接口,以抓取中国西藏网新闻为例,实现了开源爬虫软件在垂直搜索的应用。

垂直搜索引擎技术 篇10

我国西北干旱地区受恶劣气候和落后科技等因素制约,农业发展较落后。若要改善这种局面,就必须大力推广农业科技。然而,随着农业信息化技术的逐步发展,互联网络已经成为推广农业科技的有效途径。目前,涉农网站数量较多,信息分布混乱,极大地制约了人们获取农业信息的效率。传统的搜索引擎由于其通用性无法满足农业用户在信息检索时对查准率的要求[1],因而检索农业信息时会查出很多与目标信息无关的网页[2]。为了快速、准确地检索到西北旱区农业信息,迫切需要一种专门针对西北旱区的农业搜索引擎,实现农业网络信息的精确搜索。

国外农业搜索引擎发展已有一段时间,并取得了一定规模。目前主要的农业搜索引擎有4个,即美国农业网络信息中心、WEB Search、Agrisearch Search,Agrisurf Search。虽然这些检索系统的实现机制、排序算法及结果显示方式各有区别,但都在农业信息分类、农业信息检索等领域中得到了广泛的应用[3]。我国的农业搜索引擎出现时间较晚,但近几年发展速度快。目前主要的中文农业搜索引擎有农搜网与搜农网等,但由于它们都处于发展前期阶段,尚存在不完善的地方,至今还未形成像百度和谷歌那样在综合搜索引擎中具有领先地位的主导农业搜索引擎。

1 系统结构框架

本文在对一系列语义检索系统研究的基础上,借鉴Swoogle[4]和OntoSeek[5]的构建思路,在旱区农业垂直搜索引擎的设计上引入本体论思想,在实现上运用本体技术。从逻辑上分析,旱区农业垂直搜索引擎的构建过程可以划分为农业领域本体的构建、信息采集过滤和信息检索3个阶段,如图1所示。

首先,使用Web抽取技术和面向文本的知识发现技术构建农业领域本体;其次,对抓取下来的网页进行处理,利用本体判定网页相关性,过滤无关信息;再次,应用本体概念间的关联对用户的查询输入执行查询扩展;最后,根据网页与关键词的相关度、扩展关键词与初始关键词的相关度对检索结果排序后再返回给用户,并利用本体概念上下位关系以及概念间的相关度向用户推荐查询相关词。

2 系统设计与关键技术

2.1 旱区农业领域本体构建

领域本体为搜索引擎提供知识组织,是基于本体的旱区农业垂直搜索引擎的核心模块。建立针对西北旱区的农业领域本体,可以提高搜索引擎的专业性和查准率。农业领域本体库的建立分为创建领域术语集、创建领域本体和本体存储等模块。

本文使用基于包装器的信息抽取技术[6],从相关网站抽取与西北旱区农业相关的论文题目、摘要和关键词作为领域语料,经过分词和筛选得到领域术语,利用参考文献[7]中提出的面向文本的知识发现技术来构建领域本体的方法并对其加以改进,设计了领域本体创建方法。步骤如下:

Step1从网络中抽取相关论文,通过分词和筛选得到领域术语集合。

Step2运用TF-IDF(Term Frequency Inverted Document Frequency)[8]方法对领域术语集进行领域相关度判断,筛选出相关度较高的术语,从而得到领域概念集合。

Step3对所得到的领域概念进行基于共现的关联分析[9]。

Step3.1基于共现分析理论来计算两两领域概念的共现频次,得到共现矩阵。

Step3.2利用Jaccard系数来计算领域概念间的相关度,得到领域概念的相关矩阵。

Step3.3根据领域概念的相关矩阵,利用Cosine相似度求出每两个领域概念的相似度,从而得到相似度矩阵。

Step4结合传统凝聚层次聚类算法和K-means算法,使用基于K-means的层次聚类算法发现领域概念间关系。

Step5构建农业领域本体并存储在关系数据库MySQL中。

2.2 信息采集和过滤

旱区农业垂直搜索引擎的应用是面向西北旱区农业,需要采集旱区农业相关信息,过滤掉无关信息。领域相关信息过滤是保证搜索准确度的关键因素[10]。为了保证采集的网页信息和西北旱区农业紧密相关,本文采用主题蜘蛛和本体结合的方法按照链接过滤、信息获取、页面分析和主题相关性,判定4个部分从网络中采集并过滤西北旱区农业信息,处理流程如图2所示。首先,获取URL地址并过滤掉一些无效和重复的链接;其次,下载有效URL对应的网页,对网页内容进行解析,采用分析DOM树的信息抽取方法,清理无关Html标记,获取网页正文和新的URL;再次,对网页正文进行特征词提取;最后,进行基于本体的网页主题相关度判定,若网页与西北旱区农业主题相关,则对该网页构建索引,否则抛弃。对于新的URL,则跳转到URL链接过滤步骤,循环进行信息采集和过滤。由于主题相关性判定部分是决定网页信息采集质量的关键因素,因此本部分着重介绍主题相关性判定算法。

目前,页面与主题相关性判定主要有5类方法,即根据元数据的判定、根据扩展元数据的判定、根据链接分析的判定、根据页面内容语义判定和基于特征词的向量空间模型算法[11]。本文采用基于特征词的向量空间模型算法,但是这种方法已被证实精确度不够高[12],因而结合旱区农业领域本体对该算法进行改进,提高采集网页信息的正确率。利用领域本体概念及概念间结构关系对特征词进行语义丰富,判定网页与主题的相关性,从而在一定程度上实现了网页与主题在语义层面上的相关性判定。算法描述如下:

Step1 信息采集之前,对西北旱区农业相关的网页正文提取关键词,通过学习获取西北旱区农业主题的特征词集合α{α1,α2…,αn}(i=1,2…,n)和特征向量R=(ω1,ω2,…ωn)。其中,ωi表示特征词αi在主题特征向量中的权值。

Step2 运用本体概念间的关系获取特征词集合中每个特征词αi上位词、同位词和下位词,并存储在数组Ti中。

Step3 对采集到网页P进行分词,对每个名词s进行判断。若s在数组Ti 中,则将s替换为αi;然后,统计αi对应的“信息项频率”tf和“文档频率”df来表示每个信息项的分布权重,并运用TF*IDF算法[13]获取对应的权值ωi,从而得到所有特征词在页面P中权值。

Step4 在得到网页P的特征向量P=(ω1,ω2,…,ωn)后,按照式(1)计算网页P主题相似度,并根据阈值判断网页P是否满足相关性要求。

undefined

综上所述,实现了页面P语义上相关度计算,并且不会增大α的维数,也不会影响信息采集的运作效率。

2.3 信息检索

用户检索接口是旱区农业垂直搜索引擎与用户交互的关键,用户的查询请求往往难以通过几个关键词表达。因而,本文采用查询扩展技术来提高查全率,依据相关度的高低对结果进行排序,并根据本体的上下位关系向用户推荐相关词。

2.3.1 查询扩展

一般的检索方法是通过关键字进行语法上的匹配,从而丢失了关键字的语义信息。因此需要对关键词进行扩展查询。本研究利用农业领域本体良好的概念层次结构进行逻辑推理,对用户的检索进行上位、平行和下位3种模式的查询扩展。具体查询扩展步骤如下:

Step1 对用户输入的查询词进行分词处理,得到有意义的查询关键词。

Step2 基于农业领域本体的关键词扩展。

Step 2.1使用关键词在本体库中进行匹配查询,通过匹配查询得到一个概念集合,若没有得到匹配结果,进入Step3。

Step 2.2 使用概念集合中的每一个概念对本体库中的三元组进行遍历,得到对应的上位、下位和平行领域概念,把得到的概念放入关键词集合。

Step3 所有的关键词进入索引库进行搜索查找,得到查询结果。

2.3.2 结果排序

查询结果需要按照相关程度形成由高到低的有序队列,提高查询的准确性和效率。传统的网页排序算法是计算网页和关键词的匹配程度,由于本文对用户关键词进行扩展查询,因此初始关键词和扩展关键词之间的相关度对结果排序也会造成影响。网页与关键词的匹配程度可以利用网页和关键词的相关度(参照2.2节)进行综合运算;初始关键词和扩展关键词的相关程度就是不同领域概念间的关联程度,可以通过领域概念的相似度来进行计算。本文将上述两个因素各赋予50%的权重进行计算,实现了查询结果的排序。

2.3.3 相关词推荐

由于自然语言和计算机系统在解析语义上有着巨大差异,虽然进行了查询扩展,用户仍有可能对查询结果不满意。为了提高用户二次检索结果的质量,本文向用户推荐搜索相关词,通用的搜索引擎相关词推荐往往是利用信息聚类、同义词的识别和挖掘技术向用户推荐相似度较高的词语。本文结合本体的上下位关系分别向用户推荐上位词、同位词、下位词和相关词等4种不同模式的相关搜索。

3 系统试验与分析

3.1 系统试验

基于以上研究,本文构建了基于本体的旱区农业垂直搜索引擎平台,从万方数据知识服务平台获取2007-2011年5年内2 036篇旱区农业相关论文的关键词和摘要作为领域语料,进行农业术语的分词和清洗,通过共现分析和聚类得到农业领域本体;运用垂直搜索引擎的原理进行改造,将本体作为网页采集过滤、查询扩展、结果排序和相关词推荐的标准。通过采集和过滤,对7 823个农业网页构建了索引和基于本体的旱区农业垂直搜索引擎。如图3所示为基于本体的旱区农业垂直搜索引擎的某个搜索界面。该平台集成了农业领域本体的构建、Web网络信息的获取过滤和基于本体的农业信息搜索等功能。

3.2 系统分析

查准率和查全率是评价传统的搜索引擎的两个重要参数:查准率是检索出的相关记录数与检索出的网页总数的比率;查全率是指检索出的记录数和网页集中所有的相关网页数目的比率[13]。由于查全率通常不成问题且难以比较,因此在对本文构建的基于本体的旱区农业垂直搜索引擎进行性能测试时,选用查准率作为评价参数,分别使用“小麦”、“苹果价格”和“农田灌溉技术”作为关键词进行检索,查准率如图4所示。

本文综合比较百度、农搜和基于本体的旱区农业垂直搜索引擎查询“苹果价格”结果的查准率、死链率和重复率,结果如表1所示。

从图3和表1可以发现,通用搜索引擎百度查准率最低,主要原因是由于很多商家用"苹果"注册了非农业商品的商标;农搜的查准率也相对逊色一些,因为除了西北干旱地区,其他地区也种植苹果;基于本体的旱区农业垂直搜索引擎的搜索农业农业信息查准率最高。

4 结语

1)本文在分析研究通用搜索引擎工作原理和本体论相关技术的基础上,设计并实现了基于本体的旱区农业垂直搜索引擎模型。将本体的相关技术应用到网络信息的采集及过滤、查询扩展、结果排序和相关词推荐等功能中,提高了农业信息检索的查准率,优化了检索结果,方便了西北旱区用户检索农业信息,推广了农业科技。

上一篇:新闻阅读模拟题下一篇:监管和信息公开