搜索引擎优化方法总结

2023-02-28

总结是一种事后记录方式,针对于工作结束情况、项目完成情况等,将整个过程中的经验、问题进行记录,并在切实与认真分析后,整理成一份详细的报告。如何采用正确的总结格式,写出客观的总结呢?以下是小编整理的关于《搜索引擎优化方法总结》,供大家参考借鉴,希望可以帮助到有需要的朋友。

第一篇:搜索引擎优化方法总结

搜索引擎优化思路与方法总结

上海开成网络营销策划公司熊俞强:

搜索引擎优化思路与方法总结 1

搜索引擎优化如何去优化,我们首先得从思想上开始,正确认识搜索引擎营销是第一步,接着才是探讨搜索引擎营销有哪些方法。

搜索引擎营销思路一般从以下四个面去认识:

第一、搜索引擎优化是一个循序渐进的过程

不要指望今天做下优化,明天就排名靠前。搜索引擎优化是一项慢工出细活的工作,是一个循序渐进的过程。切忌心浮气躁,做优化的人要有良好的心理素质,遇事急躁是不行的。其见效周期一般是2个周到3个月左右,对于新站来讲,优化效果是会很慢的,一方面是由于网站内容的限制。另一方面也是爬行蜘蛛的造访频率的影响。刚建立起来的网站,哪个方面都不强,所以只能在时间上慢慢等待,要做的就是每天做优化,静待效果出现的那一天。

第二、搜索引擎优化需要坚持不懈的努力

做优化切不可三天打渔,两天晒网,要做到每天更新内容,每天为网页提供一些必要的技术处理,包含增加外链,访问率等。优化的方式可简可繁,一般来说,新站优化需逐步加强,老站可适当增加强度。我们要做的,就是每天坚持做一些事情,经过一段时间后,只要网站没用一些作弊手段,效果肯定也是会很明显的。

第三、搜索引擎优化同时需要相互帮助

搜索引擎优化切不可独立存在,所有的优化,不是一个网站自己关起门就可以做好的。准确来讲,SEO有两个方面的内容:一是站内优化,另一个就是站外优化。站内优化容易理解,无非就是为网站设置好关键字,对标题等进行恰当的处理,网站描述也要详情反应出网页的真实内容。但站外优化,不是可以靠自己就能够解决的,这需要联合网络上的朋友,大家相互帮助和照顾,其中主要是为网站增加外链和加强宣传。中国有句俗话:朋友多了路好走。

第四、搜索引擎优化需要不断创新的思想

技术要不断提高,思想要不断创新。SEO虽然只有那么多的方法,但是各种方法是否能够结合完好,运用娴熟,则是需要一些失败的经验做参考的。从而也需要大家不断汲取教训,多阅读他人的成功经验,做些适合自己网站的合理性优化,要不断的突破固定思维,利用一些必要的营销手段进行相关推广宣传。

有了做搜索引擎优化的正确思想认识,接着就是探讨搜索引擎优化的方法了。搜索引擎优化可以从站内优化与站外优化两个方面去考虑。下面详细介绍一下从网站源代码入手该如何优化和其他一些优化方法总结。

上海开成网络营销策划公司熊俞强

上海开成网络营销策划公司熊俞强:

从网站源代码做优化主要从以下八个方面去考虑。

1、尽可能少地使用javascript来做与内容相关的事情。

尽可能少地使用javascript来做与内容相关的事情。例如用document.write去显示正文。这样会影响搜索引擎对页面内容的搜索。

2、千万不要去javascript来实现你网站的导航。

Javascript脚本导航,方便了你但很可能会将搜索引擎拒之门外。那样会让搜索引擎迷失方向。

3、每个页面的关键字尽可能出现在页面的标题,也就是头部的Title标签中。

当然,要合理应用,不要太长,更别用大量与页面内容无关的网络热门关键字。因为那就不是优化而是在作弊。

4、将css与javascript全部用下边的方法分离到外部文件中去。

让html代码最大可能的只是用来显示实际内容。

5、采用xhtml代码编写页面,抛弃传统Table布局模式,去掉页面中的例如font/bgcolor等格式化控制标签。

用符合web标准的代码来制作页面。这样能够让xhtml代码结构化、语义化。提高页面代码的可读性。

6、让页面代码体积变得更小。

采用了上边的方法你会发现你的html代码会变得非常小,当然如果可以的话。让它变得更小。

太大的页面会影响搜索引擎的处理速度。一般通过xhtml+css设计的网页,html代码应该可以控制在50K以内。大家可以去看一下用web标准重构得比较好的网站。

7、用好图片的alt标签,合理的使用页面关键字去描述图片,这样能增加页面的关键字密度。

搜索引擎毕竟不是人脑,它不能读懂图片内容然后生成概要。因此alt属性的加入非常重要。使得合理的页面关键字来描述图片,会使得你的页面对搜索引擎更友好。

8、合理使用恰当标签,体现文档结构。

尽量在每个页面代码中合理使用标签并让你的关键字出现在标签中,让页面的文档结构更清晰。 这里只是将在页面制作的过程中涉及到的一些细节问题拿出来和大家探讨一下。由此也可以说明为什么基于web标准设计的网站会更有利于SEO了。 如果您不打算花钱去请专业的SEOer来为您的网站做优化,那么可以让页面制作人员在制作上注意一些细节。相信这样免费的一些细节也能达到一个比较好的效果。

其他一些SEO优化的技巧主要体现在以下十个方面:

1、 使用位置导航图: 一个让浏览者进入后不知东西的页面很难留住人,浏览者可能马上离开,提供一项位置导航图不仅可以让用户体验更好,同时可以让搜索引擎的支柱程序更正确更快速的载入并记录网站相关内容,这样有助于提升网页PR值。

2、 了解搜索引擎到底要什么: 搜索引擎对于收录页面并如何判定页面的PR值有一套规则,应该阅读它们,使优化向着搜索引擎的知道原则方向去做使使网站被收录的最快最有效的方法。

3、 使用关键字语句: 关键字没必要只限于一个单词或字符,事实上,并不是这样的. 使用关键字语句可以让你更好的将内容集中面向目标客户群体。

4、 使用合适的关键字: 使用最能概括您网站内容的关键词,而这个关键词一般也应该是普通的浏览者平常在搜索某一类产品像您的网站所列的一类产品所习惯使用的. 直接使用不同的索引擎来试验一下,看下您所设置的关键词在搜索引擎下得到的结果,并改善。

5、 将关键字置于最前面。当构建页面内容时,确保您所使用的引导浏览者登录到您网站的关键词出现在第一个句子当中,而这点正是搜索引擎在搜索结果中显示出来的。

6、 雇佣专业人士. 并非所有的人都有非常专业的文字表达能力. 雇佣专业人士进行网站内容的编排可以有助于使网站页面看上去条例清晰,简洁,内容集中,这样的网站用户感觉更舒服,更愿意回头再浏览。

7、 使用容易记的网址. 对于一个容易吸引人,容易记的网址是无可替代的. 务必使网址简短,好记.,这就是为何谷歌搜索这个字眼引擎进入我们的日常语言的重要原因。

8、 在整个网页中都使用关键词: 一旦发现关键字的数量降下来了,一定要毫不吝惜的在页面内容中多加入些关键词. 关键词是页面内容当中非常吸引浏览者的一个方面,努力确保关键词所指向的内容为受众所认可.9、 更新内容: 一旦完成了相应的优化内容并获得了较好的PR值后,还必须做到网站内容的及时更新,一定要记住竞争者随时都在想一些更能吸引您现在顾客的方法,您的顾客可能会被挖走. 如果网站内容很旧而且又很久都没有更新的网站很难带来回头浏览客,更别谈留住浏览者,即便是您的网站在搜索引擎的搜索结果中非常靠前。

10、 链接到其它的网站: 使网站链接到其它相关联的网站对于提升PR值是至关重要的.

不要使用垃圾信息的方式(通过博客链接或者链接到一些根本就没有内容的“链接工厂”),而是使一些内容关联的,高质量的网站链接到您的网站。一系列的互惠的链接对于对于突出网页并提升PR值是非常重要的一个环节。

如果你想做搜索引擎优化,可以联系QQ:1020488267,联系人:熊先生邮箱:xiongyuqiang00789@163.com

第二篇:别将搜索引擎优化做成搜索引擎欺骗

如果你想通过alexa排名或者某个关键字的排名来达到某些特有目的,比如说公司的融资,比如说说服厂商来你的网站做广告,比如说为了在商业来往上更有底气,这是“可以的”,否则,请三思而后行。我前面之所以要在可以的加上一个引号,是因为我觉得,不管怎么样,以诚为本这是做人做事的基本准则,如果你采取一些非法的手段来获取排名,然后通过这些排名去获得某些利益,我觉得总是不太好的。

在这里,我需要再一次重申seo的目的,seo只不过是为了搜索引擎更好的发现你的网站,因为搜索引擎的蜘蛛本身是一个逻辑程序,所以它有它的特殊点,如果你不符合它的味口,很可能你网站有好的东西搜索不到,也可能你比竞争对手的产品好,但用户却无法在搜索引擎中找到你,甚至于你的产品差点,想通过改善seo来获得较好的排名,这都是可以的。

seo就是英文Search Engine Optimization翻译过来的,但很多人不是在做 SEO,而是在做SEC,什么是SEC,sec是Search Engine Cheat,搜索引擎欺骗。seo搜索引擎是欢迎的,因为你在帮助他发现更好的东西,不管是百度还是google,他们都有像站长指南这样的优化指南,充分说明了他们对seo的欢迎。很多朋友说百度对seo深恶痛绝,我不这么看,百度是对sec极度反感,因为你在通过人工的方式影响了他的客观性,当然,这里我们不谈百度本身的客观性(比如说竞价排名)。

一.搜索引擎欺骗的主要手段

关键字堆砌:比如把关键字用xx关键字这种方式,因为用户看不到这个关键字,但搜索引擎是可以看到这种关键字的,所以可以把一些无关的关键字堆砌到一起欺骗搜索引擎,而对用户感受又是友好的。

黑链:什么是黑链呢,就是通过一些黑客手段,在一些pr值高的,或者比较知名的网站,加入一些搜索引擎可以看见而人看不见的链接,以提高外链的数量。

购买一些弹窗或链接:以提高Alexa排名。

隐藏文本:利用文本与背景色的相同来达到隐藏关键字的目的。这样,用户是看不到这样字,不影响用户的正常阅读,但是搜索引擎却一目了然。这是一种最常用的搜索引擎垃圾技术。

无关关键字:从不在他们的网站中使用一些热门的关键字,而是使用一些与他们网站无关的关键字。这样,有些人用这些冷门的关键字进行搜索时就会找到他的网站。但是这样做是完全没有用的,当访问者发现这个网站不是他们想要的内容的时候,他们就会立即离开。这样做既欺骗了搜索引擎也欺骗了访问者。

相同或相似页面:不要复制页面,或者给这些相同页面按上不同的名字然后又提交到搜索引擎中。这是搜索引擎跟分类目录都明显反对的。

页面交换技术:这是对搜索引擎访问时采用一个页面以提高在搜索引擎上的排名,而面对访问者的时候却采用另外一个页面。这样做也会在一时半刻得到不错的网站排名,但是后果是:一旦搜索引擎发现了,你的网站将会在他的数据库中永远除名。

链接搜索引擎垃圾技术:搜索引擎会认为那些通过自助链接系统建立的链接为搜索引擎垃圾技术。

无内容:网站没有专一的内容对于搜索者来说是垃圾网站。不合法的内容、复制的内容和那些全都是友情链接的网页,对于搜索引擎来说也是搜索引擎垃圾技术。

过度提交:每个搜索引擎都会限定一个网站提交网页的数量与提交的频率。在一个月之内不要向同一个搜索引擎提交多于一次(即只能提交一次),也不能向同一搜索引擎在一天之内提交多个页面。切记不要向他们提交门户页面。一定要根据搜索引擎的指导方针行事。

这里要提醒每一位SEOER,每一位站长,客户与搜索引擎都不是傻子,若想人不知,除非己莫为,如果你不想受到良心的谴责,不想被K站,或者还有良知,就不要做那些见不得光的事!不作恶,说起来容易,但在实践中能够顶住各方诱惑与压力,坚持到底并不是一件很容易的事。说完错误的方法,再说说优化过程中容易被忽略的问题吧。

二.搜索引擎优化过程中容易被忽略的问题

内容:一个网站一定要有内容,也就是你能给用户提供什么样的服务。

速度,网站的响应速度也很关键,对于半天打不开的网站,搜索引擎是不喜欢的,因为爬虫也是一个程序,它在下载你的网页的时候,会设置一个超时的时间,如果超时它就不等了。或者说,会把慢的网站权重降低,因为慢的网页对用户体验是不好的。

善用技术:如果你希望某些内容被搜索引擎引用到,不要试图采用ajax技术,也不要采用javascript动态生成内容,搜索引擎只索引原生的html,它只是将html当做一段格式化的文本进行分析,而不是去解析html。

程序的复杂度:这个其实也蛮关键的,我前面说了,蜘蛛本身是一个程序,我是做技术的,所以我知道程序对复杂的网页分析会比较困难,所以你的网页应该尽可能的简洁,源代码最好在500左右(除去文章内容,但所有内容加起来也不应该超过2000行)。

善用flash与图片:在网页中应当尽量少的使用flash与大图片,在使用flash时应配合swfobject脚本,并写好描述性信息,在使用大型图片时,应对图片进行分割与优化,并写全相应的html语义属性,或直接使用以图换字技术。

链接的建设:不要过分注重外链,而忽略了内部链接的建设,不要将你的网站搞得非常纵深,你不是在做防空洞,而且过深的网页对用户也不好,用户很难记住这个网址,如果你的网址超过五层,请考虑使用子域名的方式。也不要试图使用一大堆带参数的url,当然,以html或者aspx/jsp/php结尾并不重要,重要的是你有没有带一些?后的参数。

一个网站和传统商业一样,好比你开一个餐馆,首先要解决的问题是人家怎么来,然后你要解决人家来了干什么。怎么来就是你要怎么推广,让别人知道你的餐馆,来了你要干什么就是你要做好服务,你说你的餐馆做得很破,然后想了一大堆的烂招,搞这个协会那个协会的证书,又是什么名小吃又是什么五星级的,可是人家来了发现你的东西实在是不招人待见,那么你不仅会永远失去这个客户,还会失去一大批客户。现实世界人家来了可能还会试一下,你可以做一次一锤子买卖,可是在网络世界里,离开只需要一秒种,只不过是动动鼠标而已。

第三篇:网站在搜索引擎的优化

对于网站在搜索引擎的优化无非就是提高网站在各大搜索引擎的排名。。。。让更多的客户和潜在的客户主动找到你,

下面介绍一些网站在搜索引擎优化的方法,希望对各位站长有所帮助,例:本人负责优化的国际人才网>就在各大搜索引擎的排名得到飞速上升。以此带来的最明显的利益就是:全球最大在线招聘集团SaonGroup于2006年11月14日对国际人才网进行注资。

网站的搜索引擎优化

一、搜索引擎优化的概念

根据《网络营销基础与实践》(第2版)第4章“搜索引擎营销基础”中的相关内容,所谓搜索引擎优化(Search Engine Optimization)简称SEO,也就是针对各种搜索引擎的检索特点(包括:标签、外链、结构、html代码、内容、更新强度、关键字词密度等),让网站建设和网页设计的基本要素适合搜索引擎的检索原则(即搜索引擎友好),从而获得搜索引擎收录并在检索结果中排名靠前。如对于基于META标签检索的搜索引擎,在META标签中设置有效的关键词和网站描述,对于以网页内容相关性为主的蜘蛛型搜索引擎,则通过在网页中增加关键词的密度,或者专门为搜索引擎设计一个便于检索的页面(如sitemap.htm、roberts.txt)。从而提高网站排名、提高网站访问量、最终提升网站的销售能力或宣传能力的技术。

二、目前主要的搜索引擎

现在中国市场主流的搜索引擎包括:Google、Baidu和Yahoo。不同的搜索引擎对页面的抓取和索引、排序的规则都不一样。但是如果只刻意的去追求单一或几个主要的搜索引擎的搜索引擎中排名良好却牺牲了其他搜索引擎的排名,这一做法绝对是错误的。

每个搜索引擎都有自己独特的算法和索引方式:比如Google的googlebot(网页检索漫游器),Baidu的baiduspider(百度蜘蛛)以及Yahoo的Slurp(雅虎爬虫),但他们的共同点只有一个:搜集到信息。过程都是发现文件资料和文件然后出现在其搜索结果中,而蜘蛛(机器人、爬虫)也经常会由某一个网页,然后深入挖掘其他内部文件,发现变化,从而索引到更多的信息,这就是我们常说的搜索引擎的更新。

主流搜索引擎排名的可能的主要因素以特征方式体现,如下:

Google:标签、外链、结构、html代码、内容、更新强度、关键字词密度、网页url地址、原来在google中该网站的历史文件的对比。

Baidu:标签、外链、结构、html代码、内容、更新强度、关键字词密度、网页url地址。

Yahoo:标签、结构、html代码、内容、更新强度、原来在google中该网站的历史文件的对比、其它网页对比。

三、三大英文主流搜索引擎的网页排名算法分析 搜索引擎算法是搜索引擎的核心技术机密,也是每个搜索引擎优化人员所希望了解的问题,但是这样的核心机密自然不可能完全被揭密,于是对搜索引擎排名算法的推测成为搜索引擎优化人员关注的话题之一。三大英文主流搜索引擎google、yahoo和MSN的网页排名算法中,对于一个网站被其他网站链接的质量和数量等,都被认为是网站在搜索结果排名的重要因素,不过各个搜索引擎的网页排名算法对于网站外部链接的质量以及其他因素的权重可能有一定的差异。

美国搜索引擎营销公司Fortune Interactive最近发布一项研究报告,对三大主流搜索引擎Google, Yahoo 和MSN的网页排名算法进行了分析。以下是新竞争力网络营销管理顾问选择编译的Fortune Interactive对网页排名算法中有关外部链接因素重要程度的研究发现。

三大主流搜索引擎对网页排名算法外部链接因素重要性评估 重视程度排名 Google Yahoo MSN 1 外部链接网站的质量 外部链接网站的质量 外部链接网站的质量 2 网站内容主题相关性 网站内容主题相关性 链接文本

3 外部链接网站title关键词 链接文本 网站内容主题相关性

4 链接文本 外部链接网站title关键词 外部链接网站title关键词 5 外部链接数量 外部链接数量 外部链接数量

研究结果表明,主流搜索引擎对于网站外部链接在网页排名算法中的基本要素是类似的,尽管不同搜索引擎对各项要素的权重有一定的差异,三者最大的共同点在于,在评估外部链接的重要程度时,均最重视外部链接网站本身的质量,同时最不重视外部链接的数量。

四、搜索引擎用户市场份额情况

根据《2006年中国搜索引擎市场调研报告》对北京、上海和广州三地人口首选搜索引擎市场份额调查数据显示:百度占62.1%,谷歌占(Google)25.3%,雅虎搜索占4.8%,搜狐搜狗占3.2%,新浪爱问占1.2%。和2005年8月CNNIC调查结果相比,百度市场份额增加了14.2个百分点,谷歌(Google)市场份额有所下滑,比去年的33.3%减少了8个百分点。其他搜索引擎市场份额变化不大。从分城市情况来看,仍旧是北京人更爱Baidu,上海人更爱Google。

北京、上海和广州搜索引擎用户的首选搜索引擎所占百分比如下图:

参考资料:《2006年中国搜索引擎市场调研报告》

五、网站搜索引擎优化的目的

1、使网站的各个网页能容易快速地被搜索引擎的“侦探器"(英文叫robot,bot或者spider)来侦察并且记录到搜索引擎的数据系统里面。被侦察到的页数越多,搜索储存你网站的信息也越多。将来当搜索者凭搜索词语在搜索引擎进行信息查询时候,搜索引擎就有机会将你的信息反馈给搜索者。

2、根据搜索引擎的原理进行优化的网页, 能够和其他大量的同种性质的网页进行竞争, 力图在搜索引擎给搜索者反馈的一系列符合相关内容的网站排列中争取前列的位置,以最大程度吸引搜索者的注意力,赢得搜索者的到访机会。 所以,从这两个完整意义上说,搜索引擎优化是依照搜索引擎的原理和规律而对网站内容、网站结构、网站页面、网站标签、网站的关键词和关键字密度、网站连接、网站的访问量所进行的最优化设计和改良,从而提高网站的曝光率和竞争力。

3、如今主要的搜索引擎,收录的数据库十分庞大,使得向这些搜索引擎登记并希冀获得好的排名变得越来越困难。低的排名还不仅仅是站点访问量的流失,更为严重的是与在竞争对方的竞争中处于下风,丧失更多潜在的客户。搜索引擎优化最直接也是最终的目标就是为了获得搜索引擎收录并在检索结果中排名靠前,这样不仅能带来高的访问量,还能带来更多潜在的客户,随之相应的网站站点的PR值也会升高,网站的广泛度也会比较高。这样搜索引擎的排名会随着点击率的稳定持续的升高而提升,反之亦然。

AOL搜索引擎于几个月前公布了其用户3-5月的用户统计数据。在获取其公布的原始日志后,对搜索排名1-18的点击情况进行统计,结果如下: AOL-user-ct 基本信息

(1)总日志条数:36,389,567条 (约3639万条) (2)有点击搜索条数:19,442,628 (约1944万条) 排名点击率分布小结

(1)1-18名占据九成三占击1-18名占据总点击数比率:93.42%;

(2)前10名占据点击率9成89.65%的点击来自于第1页。第2页及以后所占有的点击率约10%;

(3)大致的情况。第1名与第2,3名点击率有关明显的差异。(相对分布:3.5)第2,3名间差异在50%以内。(相对分布:1.4)第4名起至第18名(除非第10名与11名外),前/后两名间的差异在20%以内。(相对分布:1.0-1.2)。

AOL搜索排名点击率详细分布数据(为方便统计,仅公布1-18名) (1)AOL-user-ct 搜索排名点击分布图

(2)AOL搜索排名(1-18名)点击率分布表

AOL搜索排名(1-18名)点击率分布表[乔东 slowke.com 慢客]

点击数 排名 占总比 累计占比 相对第10名权重 相对变化 8220278 1 42.28% 42.28% 14.2 3.5 2316738 2 11.92% 54.20% 4.0 1.4 1640751 3 8.44% 62.63% 2.8 1.4 1171642 4 6.03% 68.66% 2.0 1.2 943667 5 4.85% 73.51% 1.6 1.2 774718 6 3.98% 77.50% 1.3 1.2 655914 7 3.37% 80.87% 1.1 1.1 579206 8 2.98% 83.85% 1.0 1.1 549196 9 2.82% 86.68% 1.0 1.0 577325 10 2.97% 89.65% 1.0 4.5 127688 11 0.66% 90.30% 0.2 1.2 108555 12 0.56% 90.86% 0.2 1.1 101802 13 0.52% 91.38% 0.2 1.1 94221 14 0.48% 91.87% 0.2 1.0 91020 15 0.47% 92.34% 0.2 1.2 75006 16 0.39% 92.72% 0.1 1.1 70054 17 0.36% 93.08% 0.1 1.1 65832 18 0.34% 93.42% 0.1 1.1

附:a、累计占比:累计第1名到当前排名的总占比;

b、相对第10名权重:将现在排名所占比率除以第10名所占比率。(第10名占比2.97%); c、相对变化:当前排名相对于上一排名的点击变化。

参考地址:搜索排名与点击率分析(含明细) AOL-user-ct报告(1)

六、搜索引擎优化包括以下几项内容:

1、网站内容的优化

网站的实际内容是你网站优化策略的一个重要的因素。如果你想你的网站能在搜索结果中排得靠前,在你的网站中必须有实际的内容。搜索引擎的蜘蛛基本上是一个瞎子。他们只能对你网页内容进行判断你网站的质量,而不能从图片、flash动画上判断。在所有的页面中有充足的内容给搜索引擎进行索引是一个成功搜索引擎优化策略的基本需要。很容易明白,为什么一个没什么内容的网站很难排上去。人们在查找信息的时候,总是希望找到一个包括很多重要信息的网站。很自然,网页内容丰富的网站要比那些网页内容不那么丰富的网站排名要好得多。每个为他们的网站进行优化的站主牢记。不要忘记更新你的网站。无论是搜索引擎还是访问者都希望看到比较新的信息。这是什么意思呢?这就要求你要收集大量的信息,专注于这领域的变化。

(1)对于网站来说带给访问用户最重要的信息就是网站的相关内容,每位访问用户都意味着是一位潜在客户;用户进入你的网站就是为了寻找信息,而只有找到他所需的信息才会停留在你的站点上。网页内容丰富的的网站肯定要比那些网页内容不那么丰富的网站要更有吸引力,所以,对网站内容的优化也就是要经常更新丰富网站相关内容,让访问用户感觉这是一个很有“生气”的网站。

(2)加强网站内容的可读性。可读性差的网站很容易失去访问用户的兴趣,当然就会大大降低用户在网站上的浏览时间。可读性差同时是由于字体较小、颜色搭配单

一、句子冗繁、背景图片重复及不恰当的标题所致。所以,网站要尽力避免使用静态的重复的图片作为背景图片;合理使用恰当的网页标题,合理安排链接;保持网页内容融会贯通,并保证要点清晰突出

(3)确保网站及相关内容保持良好的下载速度。保证站内所有链接可以在短时内完全下载完毕。网站访问用户一般在几秒钟内就会做出决定,他不会花费更多的时间点击后退按钮和输入其他网址进入其他相关网页。所以,一定要确保网站及相关内容的下载快捷迅速。

2、网站结构优化

(1)使用像Lynx这样的文本浏览器来检查你的网站,因为绝大多数的搜索爬虫察看你的网站的方式与之非常相似。如果像Javascript,cookies,session IDs,frames,DHTML或者flash这样的特性使你的网站在Lynx文本浏览器中显示不正常的话,那么搜索爬虫在抓取你的网站时也会碰到相同的困难。 (2)登陆Google提交网站的SiteMap文件

Google SiteMap Protocol是Google自己推出的一种站点地图协议,此协议文件基于是期的robots.txt文件协议,并有所升级。在Google官方指南中指出加入了Google SiteMap文件的网站将更有利于Google网页爬行机器人的爬行索引,这样将提高索引网站内容的效率和准确度。文件协议应用了简单的XML格式,一共用到6个标签,其中关键标签包括连接地址、更新时间、更新频率和索引优先权。

打开http:///webmasters/sitemaps/连接,如果还没有注册或者登陆google,就先用自己的帐号登陆google,登陆后转到Your Sitemaps状态页面,可以点击那个Add a Sitemap+跳转到提交页面进行SiteMap文件的提交。建议文件放在你的站点根目录上。给Google提交你的Sitemap URL后可以看见在列表里已存在,不过这时候还没有生效,必须过几个小时后Status栏变成OK表示正式生效,如果不是OK,可以查看Google给出的状态标示解释看看是什么原因。

(3)网站文件名优化

网站文件名,千万别用中文,最好用英文.并且可以包含英文关键词,这样有利搜索引擎“侦察器”抓取相关搜索的页面。

3、网站页面优化

(1)首页优化

首页对一个网站很重要, 目前大多企业网站的首页都是用纯图片或者FLASH动画。它对搜索引擎极为不利。如果网站很在意自己的形象,那么优化的时候可以将这些保留。不过尽量下面有进入内页文字连接。

(2)尽量使用静态HTML页面

众所周知,ASP、PHP、JSP等程序实现了网页信息的动态交互,运行起来的确非常方便,因为它们的数据交互性好,能很方便地存取、更改数据库的内容,使网站“动”起来,如:论坛、留言板等。但是这类程序必须先由服务器执行处理后,生成HTML页面,然后再“送”往客户端浏览,这就不得不耗费一定的服务器资源。如果在虚拟主机上过多地使用这类程序,网页显示速度肯定会慢,所以没有必要,请尽量使用静态的HTML页面。

(3)图片优化

目前,大多搜索引擎都有了图片搜索功能,所以对待图片的优化,你千万也不要放过.图片优化很简单。在网页制作的时候,对图片加入文字注释就行了,记着,文字注释中千万别放过关键词。麦秸工艺画 网站中的图片经过优化后,很快在许多搜索引擎的图片搜索中就可以搜到了, 比如:在百度的图片搜索中键入关键词”工艺画” 出来的图片中,许多都是麦秸工艺画网站的图片,当然都是有连接的. 另外键入麦秸画, 那就更不用说了

(4)给网页减肥 给网页减肥可以让网页缩小20% -- 50% 可以提高网页下载速度以及其他方面的好处。目前网上有许多免费的这类软件。这里给你推荐一款---网页减肥茶。非常好用。

4、网站标签的优化

对于网页标签的优化,主要有以下一些地方:首先是每张页面都要设置好title,并尽量使每个页面的title各不相同,在title中准确表达该页面的主要内容,如首页title可以为“某某网站”,产品展示页title为“某某网站-某某产品展示”;其次是页面的meta标签尽量描述清楚关键字、词和网站描述,不要随意堆放不相关的关键词;第三为每一个链接标签link尽量加上注释,注释词可为链接的文字本身或相关关键词。

(1)Title标题内容将以连接标题的形式显示于搜索结果页面,标题一般是网站名称+简短描述含核心关键词,如:

,就好过单纯的

(2)Meta中的关键词(keywords)和描述(description):

确定几个核心关键词组合,关键词以3-7个宜,最好不要超过15个,以避免堆砌之嫌,描述是网站的简短说明,含有关键词。如果每个主要页面的内容相差很大,则应根据网页内容不同而改变Title和Meta标签,不要全部网页都采用首页的标题和标签。网页文本内容需出现该页关键词,关键词密度在3%-7%之间。太多有堆砌之嫌。搜索结果页面在链接标题之后显示的描述文字一般是搜索引擎在本页正文中最先抓取到的含有关键词的那段文本。据说通常在网页左上角方向出现这段文字最有利。可以参照国际人才网

5、酷讯职位搜索PR值为4 Alexa排名是16

10、兼职招聘网PR值班为5 Alexa综合排名80347。目前我们国际人才网的PR值为3 现Alexa综合排名是21358下期综合排名是20568,网站PR值和Alexa的综合排名都不是很高,可能这就是不被“hao123”收录的主要原因,所以我们今后的工作还要继续努力提高各个站点的PR值以及网站的排名。

(3)留言板留言: 类似网址站登陆, 但写法一定要科学, 否则就没有意义了, 一般是这样写的:网站名http://.... 申请和贵站友情连接

(4)Blog博客

现在博客也在中国兴起了, 完全可以充分利用一下, 可以注册一个帐号,来宣传自己的网站, 也可以在别人Blog博客直接发表评论再加上自己的网站名和网址, 评论内容基本和留言板的格式一样。

(5)论坛宣传

注意:不要让人一看就知道是广告就行了。

同时也还应该注重网站的内部连接, 对于网站的各个页面之间的连接,千万别只去靠导航栏的那几个联系, 而是要尽量在页面内容中出现连接,也就是诱导着浏览者一步一步看一下;所有页面都包含主页和其他重要页面的连接, 和本页相关的页面也加上连接, 最终让你所有的页面都能够互连。总之, 这种连贯要从一个浏览者的角度去出发.要保证超链接结构的连贯性。

7、提高网站的访问量

各大搜索引擎都把网站的访问量作为搜索排名的一个重要因素,特别是Google非常重视网站的访问量,网站访问量的高低直接反映在搜索结果排名上。所以,网站搜索引擎的优化很重要的一个方面也就是要提高网站的访问量。提高网站访问量的方法有很多,但基本方法有二:吸引新用户访问你的站点;让已访问过的 用户浏览更多的网页。

下面介绍几种提高网站访问量最直接的方法:

(1)主动宣传

通过EMAIL,聊天室,BBS等一些手段来宣传。在通过EMAIL方式进行宣传时应选用几个不同服务器地址进行电子邮件营销,这种方式是目前最直接也是最快捷的一种方式,但需要注意的是应多选用几个不同服务器地址,以避免邮件服务商进行邮件惩罚,同时还需要提高邮件模板的吸引力,尽量满足不同邮件用户的“口味”以达到吸引邮件用户跟着邮件一步一步往下浏览。

(2)注册到搜索引擎

搜索引擎能给网站带来很高的浏览量。关于注册到搜索引擎上这一点已在网站连接的优化上有详细的介绍,在这里将不作介绍。

(3)友情连接

(4)广告的交换

最好是找同一类的网站进行广告的互换,达到互惠互利的效果。

(5)加入品网和网站排名

如今网上越来越多的品网和排名网站,你可以见一个加入一个,这样对你的访问量是大有帮助的,如果你的网站做的够出色,自然就能获得很高的回报;另外就是一些零零总总的排行榜,赶快去加入吧,尽管可能你排在最后一位,但它却同样能给你带来众多访问量。

(6)收藏夹

毫无疑问,网站

第四篇:SEO五大搜索引擎优化错误

低级的搜寻引擎优化计划,是比拟复杂的。而初级的技巧,触及到seo关于搜寻引擎算法以及行业经历等都有比拟高的请求。思亿欧依据平常在为一些不懂seo的客户诊断客户网站时,所见到的罕见景象。总结为搜寻引擎优化十大过失。比拟复杂和低级,十分合适刚接触seo的客户阅读。

1. 定位过失的字键关

比拟罕见的过失是,很多的客户关于本人网站的关键词挑选,很茫然。大局部的客户挑选都是大而全的关键词,很多的关键词假如挑选太泛,会招致呈现很多题目。挑选准确的关键词,可以左右搜寻引擎优化项手段成败。在剖析字键关的时分,我们需求怎么做。思亿欧有几篇相关的文章例如这三篇:seo计划之关键词优化计划、seo之挑选关键词的要点与方法,搜寻引擎优化的关键词战略。大概你还可以借用来自于google的字键关工具大概是bd的指数。

2.忽视标题标签

不要忽视title,它是让seo胜利的第一步。有时分,大概只需求你把标题写下去,你的天然搜寻引擎排名也就下去了。最好是每一个网页都独占一个title,不要让它留空大概显现一些有关紧要、乌七八糟的标题。糜费是光荣的。详细详细的网页标题的seo方式

3.flash与搜寻

这个可读性是针对搜寻引擎来说的。虽然,搜寻引擎的蜘蛛大概机器人,曾经很聪慧了。它可以很好的辨认你的seospam ,但是它也不是全能型的。也有很多东西是它不晓得的,例如说flash。flash是很酷的一门技术,但是勤奋的蜘蛛就是对这些东西不感爱好。你也拿它没有方法。所以,假如你在想用flash设想一个酷的站时,你别忘了。得为它,预备食品。

4.javascript与搜寻

运用javascript中止导航不坏,只需你清楚,搜寻引擎不会读取javascript和您树立相应的网页。因而,假如您有javascript的菜单你不能这样做没有,你该当思索树立一个网站(或把链接noscript标志) ,以使一切的链接将检索。相关的文章,你还可以阅读这里的:

5.seo需求不时优化

开端优化到项目所定的目的都完成。这并不代表网站可以中止优化了,由于搜寻引擎排名是不时变化的,即便你明天google排名第

一、bd排名第一。但是,可以明天搜寻引擎排名动摇,你的网站排名可以就呈现变化了。所以,seo是不时需求依据变化中止调整的一个任务。事先,不时优化也需求避免一个题目。就是seo过度。

参考资料

第五篇:搜索引擎优化技术及发展趋势

一、引言

“搜索引擎”作为互联网上提供信息服务的一种工具,现在几乎已经是一个妇孺皆知的事物。按照中国互联网络信息中心在2006年7月19日发布的报告[1],中国网民中有66。3%经常使用搜索引擎,比半年前又提高了近1个百分点。

互联网上的第一代搜索引擎出现于1994年前后,以AltaVista、Yahoo和Infoseek为代表,搜索结果的好坏通常用反馈结果的数量来衡量,或者说是“求全”。然而研究表明,当时的搜索引擎性能并没有想象中那么优秀,根据SteveLawrence和C。LeeGiles在1999年2月的实验[2],全球11个主要的搜索引擎中,每个搜索引擎仅能搜索到互联网上全部页面的16%,甚至更低(图1)。造成这种情况的原因,主要是这些搜索引擎的处理能力和网络带宽等方面的限制。

1998年,以Google为代表的第二代搜索引擎出现在互联网上,其主要特点是提高了查准率,或者说“求精”。当时传统的搜索引擎如Lycos等主要使用网页中的关键词进行搜索,而Google则使用了一种综合页面排名算法:它不仅考虑搜索关键词,还考虑页面间的链接关系,然后对整个网络的链接结构进行分析和迭代计算,从而对页面进行区分[3]。

第二代搜索引擎在技术和商业上都获得了巨大成功,然而商业竞争和信息环境的变化仍在推动着它们不断创新和发展。当前所谓的第三代搜索引擎主要增加了互动性和个性化等技术,为用户使用搜索引擎获取信息提供更好的体验。至于互动性的评价标准是什么,以及第三代搜索引擎到底比第二代增加了多少价值,目前并没有非常令人信服的研究结论。在以下的论述中,我们不对产品概念进行太多讨论,而是就搜索引擎目前所面临的挑战,以及它们的应对方略和发展趋势进行梳理和阐述。

二、搜索引擎面临的挑战

面对瞬息万变的环境,搜索引擎如果在技术上不创新进取,从信息服务质量的角度讲,现在看来不错的技术,将来很可能会落伍。不进则退,在搜索引擎领域体现得很明显。关于搜索引擎的基础技术,读者可参见文献[23],那么目前有些什么变化在影响着搜索引擎呢?

(一)Web的发展

1。信息大量增加

Web自产生以来,其信息量一直以几何级数的形式递增,近两年来尤其如此。这主要有两方面原因:首先是Web2。0[16]的用户和以前有所不同,他们正在由单纯的信息消费者向生产者与消费者双重身份转变;其次是DeepWeb[4]的发展。

如果说Web1。0是单纯的网页浏览模式,那么Web2。0则是通过了真正的个性化、去中心化和信息自主权,向着内容更丰富、联系性更强、工具性更强而努力。尽管一切都还在探索中,但毋庸置疑,Web2。0已经成为互联网新的发展趋势。这种转变,从模式上可以概括为是从单纯的“读”向“写”和“共同建设”发展。这也更体现了互联网的第一规则,“用户需要表达”。只要有机会和便利,网民就不会满足于只是被动的信息接受者,他们需要表达,希望驾驭自己的传媒,而不是受其掣肘。在Web2。0实际应用中,除了原先的IM(InstantMessenger,即时通讯)、P2P(PeertoPeer,对等网络)等得到新的发展,更是涌现出了很多社会化的新事物,比如Blog(Weblog,网络日记)、RSS(RDFSiteSummary,站点摘要)、WIKI(网络百科)、WB(WebBookmarks,Web文摘)、SNS(SocialNetworkSoftware,社交网络)等。

这些新事物发展得非常快。以RSS为例,美国提供RSS内容的网站数目从2001年9月的1000余家激增至2004年9月的195000余家,短短的3年中增长了近150倍,市场的飞速发展令人瞩目。而Blog站点的大量涌现,更是为每一位用户都提供了畅所欲言的场所——据计世资讯(CCWResearch)的统计,2006年第二季度,中国注册博客的总数量达到6800万,比第一季度增长51。1%;中国博客用户则达到2100万人,比第一季度增加40。0%。这些无疑都在刺激着Web信息生产和消费的繁荣。

根据AlexandrosNtoulas等人的研究结果[5-6],每星期Web上新产生的页面数大约为8%。而这个数字是非常保守的:他们的实验是针对154个“popular”网站进行的,而实际上,那些大量涌现的新网站,如Blog网站,它们的成长速度远远超过这些所谓的流行网站。

关于DeepWeb的研究最近几年也受到越来越多的关注,DeepWeb又被称为InvisibleWeb或者HiddenWeb。JillEllsworth于1994年首次提出的InvisibleWeb概念,是指那些常规搜索引擎难以发现的内容。美国互联网专家ChrisSherman和GaryPrice在他们著作《TheInvisibleWeb》中将InvisibleWeb定义为:“在互联网上可获得的,但传统的搜索引擎由于技术限制不能或者经过慎重考虑后不愿意作索引的那些文本网页、文件或其他高质量、权威的信息。”InvisibleWeb分为四种类型:不透明网络(theOpaqueWeb)、私人网络(thePrivateWeb)、专有网络(theProprietaryWeb)和真正的隐形网络(theTrulyInvisibleWeb)。我们认为使用“deep”更为合适,因为这些内容不是真的Invisible,只是藏在Web中较深的位置。

根据BrightPlanet公司的调查[4],2001年的DeepWeb大概是SurfaceWeb的500倍左右,而且还在快速发展。ChrisSherman和GaryPrice的估算则保守些,他们认为InvisibleWeb只有SurfaceWeb的2~50倍。但不论如何,DeepWeb在数量上都不容小觑。更为重要的是,DeepWeb通常都组织良好、信息权威、质量很高,而且时新性强。正因为这样,国内外许多研究者都在克服重重困难,探索如何有效地发现这些有价值的信息,提供给更多用户使用。各大搜索引擎要想巩固和强化在搜索市场的地位,就必须重视DeepWeb,发展搜索技术,提高竞争力。对于垂直搜索而言,DeepWeb的作用更为突出。

Web信息的大量增加,使得搜索引擎面临严峻的挑战。任何技术都有它的适用范围,超出这个范围,其性能将严重下滑。以搜索引擎的检索页面集为例,粗略地说,当页面总数没有超过某个阈值时,搜索引擎工作良好,一旦页面总数超过这个阈值,搜索引擎的查询结果质量将急剧下降,用户往往在查询返回结果的前10位、前20位甚至前50位都找不到一个自己想要的结果。这一点在目前的几大搜索引擎上都已经初现端倪,相信他们已经为此绞尽脑汁。

2。信息更新加快

Web上不但新信息涌现速度很快,信息变化速度也非常快。以网页中的链接为例,根据AlexandrosNtoulas等人的研究结果[5],每星期将有25%的新链接产生,1年之后,将只有24%的原有链接仍然存在。Google等搜索引擎的成功在于正确地分析了页面间的链接关系,为了保持这种成功,搜索引擎必须不断地跟踪链接结构的变化,或者说不断地刷新自己所保存的相关信息。就以每周25%的新链接为例,这样的链接更新速度要求搜索引擎至少每周重新计算一次所有页面的Ranking值,否则便不能及时地、恰如其分地反映RealWeb上的当前状况,失去搜索引擎所必需的时效性(timeliness)和时新性(freshness)。

3。信息表现形式多种多样

随着网络速度的提高,Web上的多媒体信息也急剧增加,因此人们对多媒体信息的检索需求也就随之而来。传统的信息检索主要集中于文本的检索,在多媒体方面的研究并不是很多。需求的发展使得目前各大搜索引擎都不断推出自己的多媒体素材搜索产品,让用户可以在庞大的素材库中进行检索,如AltaVista可以让用户在5。5亿个素材(包括5。4亿个图片、1100万个视频/音频文件)中进行检索,Google的素材库也达到了4。4亿的量级。然而,目前对这些多媒体素材库的使用,大多还是标注、分类等方法,缺乏对图像、音视频内容的直接检索。搜索引擎如何自动分析音视频的内容,允许用户按内容进行检索,甚至在抓取音视频素材时就按内容进行,这些问题将在今后较长一段时间内构成挑战,成为搜索引擎所要迫切解决的问题。

4。SEO正在蓬勃发展

自古有矛便有盾,有盾便有矛。SEO目前已经成为一个新兴的互联网行业。SEO是SearchEngineOptimization的缩写,即搜索引擎优化。从事这方面工作的就是SearchEngineOptimizer——搜索引擎优化师。他们利用工具或其他手段使目标网站符合搜索引擎的搜索规则从而获得较好的网站排名。无止境地追求更高排名是搜索引擎优化师们的目标,因为他们知道,如果想让用户在烟波浩渺的Web中发现自己,获得一个很高的排名无疑是非常有效的一种方法。

客观地说,SEO的这种追求是很自然的,因为经济利益的诱惑实在是太大了。根据USCensusBureau的调查,2004年美国的电子商务销售额就达到692亿美元,并以7。8%的年增长率在发展,远远超过美国的GDP增长。而根据ForresterResearch的预测,美国B2C的销售额将于2010年达到3290亿美元,占全部零售额的13%。如果不能让用户认识自己,何谈电子商务呢?“搜索引擎优化”正是让大量用户认识自己的一种有效手段。

搜索引擎优化师们并不等于垃圾页面制造者,但他们中的一部分的确为Web和搜索引擎制造着麻烦,为搜索引擎用户制造着垃圾。虽然有良好素养和道德观念的搜索引擎优化师们仍然通过网站结构的优化、页面质量的提高等方法进行他们的工作,但那些不道德的搜索引擎优化师们发现有一些“捷径”更加有效,如在页面上堆砌大量关键词、使用重定位手段欺骗WebCrawler程序、构造LinkFarm来提高目标页面的排名,等等[7,8]。他们运用这些手段欺骗搜索引擎,浪费了搜索引擎大量带宽和时间,污染了搜索引擎的页面集合,歪曲了排名结果,浪费了用户的时间和精力,最后带给用户的只是大量垃圾。

这些垃圾制造者通常被称为WebSpammer。他们所运用的手段有Boosting技术和Hiding技术两大类:Boosting技术是指使用不道德的页面排名提升技术,而Hiding技术是指对使用的Boosting技术进行隐藏,尽量不让用户和WebCrawler发现。

Boosting技术包括TermSpamming和LinkSpamming。TermSpamming是较早出现的技术,是指Spammer操纵Web页面的正文,使其内容和众多的用户查询尽可能地相关,方法是在Body、Title和AnchorText等处插入大量毫无关联但用户经常使用的关键词。由于技术简单,只需要把别人已有的内容进行重复、编织和黏合,所以至今很多Spammer还在采用这些TermSpamming技术,而且已经发展到自动化和智能化的程度。LinkSpamming则更具隐蔽性,WebSpammer通常使用HoneyPot或构造强有力的LinkFarm来提高目标页面的排名。一个典型的LinkFarm可能包括几千个支持页面,而LinkFarm之间还可以构成威力更大的联盟[7]。由于隐蔽性很强,对于LinkSpamming的探测非常具有挑战性。

Hiding技术主要包括ContentHiding、Cloaking和Redirection。ContentHiding是指正文和页面背景使用相同的颜色,从而掩盖大量的无关正文,使得WebCrawler能够发现而对用户进行屏蔽。Cloaking是指对WebCrawler返回一个不同的页面,从而欺骗搜索引擎。Redirection本质上和Cloaking一样,但它是对浏览器而非Crawler返回不同的页面。Hiding技术也是Spammer所常用的,有时利益如此诱人,以至于一些著名大公司也跃跃欲试,如2006年初的时候,宝马德国公司网站(bmw。com。de)就曾因为使用了该欺骗技术而遭到Google的惩罚。

(二)用户需求的发展

1。更准、更全、更新、更快

经过十几年的技术发展和市场成熟,搜索引擎正日益渗透到人们日常生活的方方面面,人们对信息的获取越来越依赖搜索引擎。在全世界网民中,搜索引擎的使用率仅次于电子邮件而位居第二。随着对搜索引擎的使用不断走向深入,网民的要求也在提高。从产品层面来看,准、全、新、快仍然是用户对搜索引擎最基本的四个要求,而且用户希望搜索引擎在这些方面能做得更好。

目前而言,围绕这几个问题,各大搜索引擎服务商都在做许多细致的工作,以力求趋向完美解决。比如“准”,需要更准确地理解用户需求,不断更新Ranking算法,同时又要严格控制垃圾网页的干扰;“全”指的是全面,尽可能地把互联网中“有价值”的网页都索引下来,满足最大用户群的需要;“新”要求搜索引擎的抓取非常高效,能够把最新的东西及时提取出来,同时还要不断更新已抓取信息;第四点是“快”,不仅要让用户感觉速度很快,还要保持最大的系统稳定性。“搜得准、搜得全、搜得新、搜得快”,这是一个综合的服务过程,任何一个环节出了问题,都有可能导致用户满意度的下降。

2。使用更加方便和容易

随着技术的发展,人们希望搜索引擎无处不在,在任何时间任何地点,要寻找信息时都可以使用搜索引擎。而随着搜索引擎的逐步普及,越来越多的使用者(他们中很大一部分对计算机和网络了解不多)希望搜索引擎的工具性进一步加强,最好在不觉察的情况下使用搜索引擎服务。人们甚至期望搜索引擎的使用如微波炉和洗衣机一样方便和容易。

3。搜索个性化

搜索引擎的一个经验就是,用户很多时候并不确切地知道自己想要什么样的结果,除非你把结果放在他的面前。所以用户在使用搜索引擎时,很多时候相同表象的内容却意味着不同的需要。比如对于同一个查询词,不同的用户所需要的查询结果可能是不同的。即使是同一个用户输入同一个查询词,他在不同的时间、不同的地点和不同的查询背景下,希望得到的查询结果也可能是不一样的。

搜索引擎必须理解用户的意图和需求,才能非常到位地提供相关、准确的信息。要理解用户的意图,首先要理解用户的行为和习惯,对不同人的查询做不同的处理,反馈给用户个性化的内容;其次要理解用户查询时的上下文背景,包括时间、地点、语义等。个性化的搜索,意味着向更加精确搜索结果的方向又迈进了一步。

(三)网络的发展

1。网络终端形式更加丰富

目前各种客户端搜索工具的发展,使得用户可以不到搜索引擎的网站,而是直接在工具终端搜索所要查询的信息。手机、PDA等终端设备的不断发展,将最终帮助人们摆脱电脑的制约,而各种嵌入式智能装备的推广普及,正在印证着这一趋势。随着网络终端形式越来越丰富,很多应用找到了自己的位置,如手机电影;也有一些应用随着网络终端形式的发展而不断拓展,如Gmail的手机版。那么作为网络第二大应用的搜索引擎,也应该与时俱进,不断拓宽应用之路。

实际上很多搜索引擎已经这么做了。如Nokia和Yahoo在2006年9月7日发布了面向Nokia便携式终端的应用软件“NokiaMobileSearch”。该软件面向NokiaNseriesS60终端,用Yahoo的网页、图像搜索功能可向用户提供10种语言的搜索结果。但问题的关键是,只在新的网络终端上发布搜索产品还远远不够,应该挖掘各种网络终端的最佳应用模式,更好更方便地、个性化地服务用户,用户才可能喜爱这些新生事物。例如使用手机进行搜索时,完全可以根据时间和地点进行个性化服务。可以想象,如果快吃饭的时候使用手机查询饭店,那么把手机持有者附近的知名饭店作为查询结果返回,将会是一个很好的选择。

2。网络速度的提高

随着基础建设的发展和技术水平的提高,网络速度一直在不断提高。网速的提高对于搜索引擎的影响主要在两个方面:首先极大地促进了页面搜集的速度,能够使搜集的页面集合更全,覆盖率更高,同时使页面集合的更新更快,信息时效性更强;另一方面是在搜索结果的使用上,可以使用户更快地打开页面,下载自己需要的信息,包括pdf文件、图像文件、音视频文件等,给用户更好的应用体验。

网络速度的提高提供了以上的可能性,而搜索引擎必须把这种可能变为现实。另外,搜索引擎还要抓住机会,比如随着IPv6的发展,大力推进多媒体信息的搜索和使用。

3。无线网络的发展

互联网有从有线网络向无线网络发展的趋势,随着无线通讯技术的发展,无线传输速率、覆盖面和稳定性得到很大提高,3G的应用将进一步扩大这个趋势。摩根斯坦利(MorganStanley)2006年4月初发布了一份106页的名为“全球互联网趋势(GlobalInternetTrends)”的调查报告[9],这个报告包含了互联网的调查和市场数据,从金融市场的角度分析了互联网市场的风险和机遇。摩根斯坦利在这份报告中,试图说明互联网的发展趋势已经从PC互联网转向移动互联网;而规模远超过PC用户群,并且没有经过深度发掘的手机和消费电子设备,已经成为了主导互联网发展的主角。摩根斯坦利认为移动互联网将带来新的商机,在未来的数年内,移动互联网很可能会出现类似于Google那样的大服务商。

(四)来自非技术方面的挑战

1。知识产权问题

Web上的知识产权保护是一个很复杂的问题——不仅搜索引擎公司觉得麻烦,用户也很矛盾:一方面认为合法的知识产权理所当然应该受到保护,另一方面也希望自己能够更方便地获得更多权威的、有价值的信息。

事实上,Google公司不止一次地受到侵权起诉,Google使出浑然解数,也不过与原告们打个平手而已。国内的百度公司也因为提供MP3下载而屡屡为人诟病。知识产权的问题虽然最终要靠通过相应的法律解决,但某种程度上的技术处理,可以减轻侵权的压力。

2。所在国法律

搜索引擎庞大的搜罗万象的能力并非总是它的优势,有时正是因为在这一点上违反了所在国的相关规定而遭到封锁。比如“网页快照”是Google非常好的一项功能,但在中国内地因为与相关法规抵触而被封锁,而该项功能的封锁,使得它的不少用户不得不转向其竞争对手的产品。类似这种问题,是搜索引擎本地化时首要考虑的问题。

3。网络诚信问题

网络诚信不只是搜索引擎发展中所遇到的难题,而且也是整个互联网发展中的一个非技术瓶颈。这里以“点击欺诈”为例来说明问题的严重性。

“点击计费”是目前主流搜索引擎商普遍采用的广告收费模式,他们通过广告点击率向广告主收取费用,其广告收费=有效点击次数×广告投放价格,其中有效点击次数是指排除点击欺诈后的次数。点击欺诈自互联网诞生之际就出现了,成为全球搜索引擎商们的一大心病。虽然几乎每个搜索引擎商都有自己的反欺诈系统,但判断某个点击是“有效”还是“恶意”其实是非常困难的一件事。点击欺诈在中国更是泛滥到无法收拾的地步:靠点击广告挣钱甚至已经成为一个行业!点击欺诈的泛滥告诉我们,网络诚信远远没有我们预期的那么好。

2006年3月,网络搜索巨头Google宣布,公司同意支付最高9000万美元费用与点击欺诈案的原告达成和解。虽然Google这位行业老大终于愿意率先和广告主们握手言和了,但我们担心,Google能够独自承担整个行业的重责吗?恐怕这由非技术因素引起的挑战,最终还要靠技术手段把它们控制在搜索引擎公司能够承受的范围内。

三、搜索引擎应对方略

针对以上各种挑战,搜索引擎如何应对呢?我们对搜索引擎所采用的方略和相关的成型研究进行梳理,归纳为以下几点予以介绍。这几点和上面介绍的挑战并没有一一对应的关系。

(一)多元化

针对形形色色的用户,针对用户各种各样的需求,搜索引擎已经到了细分市场的时候,多元化是搜索引擎的必然之路。一方面,针对大量的普通用户,搜索引擎仍然致力于最广泛、最全面的信息检索;另一方面,针对检索目的明确、查询要求精准的用户,搜索引擎在特定领域和行业中发展,推出更有针对性的垂直搜索系统,为这些专业人士更好地服务。

1。通用系统:其定位是一个好的推荐系统

在通用系统层面,搜索引擎的定位更加清晰:它只是一个好的推荐系统,对于它的返回结果,用户必须经过自己的过滤和选择,而不是把排在前一二位的结果直接拿来使用。

作为一个好的推荐系统,搜索引擎着力做好这样几件事情:①信息尽量全而有价值;②信息具有良好的时效性和时新性;③信息查询尽量准确,或者说通过尽可能少的交互,引导用户找到其所需要的结果;④用户界面友好;⑤查询速度快。后面几个小节中,我们会有针对性地讨论这些方面。

2。专业系统:要求非常精准,有专业特色

专业搜索系统又称垂直搜索(verticalsearching)系统,它是搜索引擎的细化和延伸,在最近几年发展得如火如荼。垂直搜索引擎和通用搜索引擎的最大区别,是对网页信息进行了一定程度的结构化提取,然后将提取的数据进行深度加工处理,为用户提供针对性更强、精确性更高的服务。

垂直搜索引擎的应用方向很多,比如地图搜索、音乐搜索、图片搜索、文献搜索、企业信息搜索、求职信息搜索、购物搜索、房产搜索、天气搜索……几乎各行各业各类信息都可以细化成相应的垂直搜索对象。垂直搜索引擎一般在规模上比通用搜索引擎要小,因为它只涉及某个特定的领域。垂直搜索引擎在技术上也需要信息搜集程序(但只在一些特定站点活动,并且不是对所有的链接都感兴趣)、中间处理(分词、信息提取和索引等)程序以及为用户提供查询服务。在信息搜集方面,Crawler除了使用各种技术在限定领域内面向主题抓取尽可能全的信息外,从领域内的各种系统和数据库中获得信息更为重要,因为这些信息更为权威、也更有价值。在中间处理上,最大的挑战是如何利用模版、规则或Ontology技术,整理所抓取的纷繁芜杂的数据,从中提取结构化信息,然后使用关系模型或XML等半结构化模型进行组织。只有经过有效组织,才能提供有针对性的、更为精准的查询服务。

CiteSeer、GoogleEarth、YahooShopping、Shopping。com等都是代表性的垂直搜索引擎。计算机论文搜索引擎CiteSeer(http://citeseer。ist。psu。edu/cs)是NEC研究院建立的一个学术论文数字图书馆,它提供了一种通过引文链接检索文献的方式。GoogleEarth使用了公共领域的图片、受许可的航空照相图片、KeyHole间谍卫星的图片和很多其他卫星所拍摄的城镇照片,并将它们和GIS布置在一个地球的三维模型上,使人足不出户就可以在名川大山间翱翔,在摩天楼群中俯瞰。YahooShopping和Shopping。com是美国最大的购物搜索引擎,其中Shopping。com创建于1999年,每月可输送2000万个有效销售给商家,2005年8月被eBay以6。2亿美元收购。

至于国内,垂直搜索市场更是群雄纷争,令人眼花缭乱。然而问题是,大家在纷纷寻找好的赢利模式的时候,往往忽略了应该有一个好的技术作为支持。这是一个很可悲的现象。

(二)搜索质量提高

1。过滤垃圾页面

Web垃圾信息泛滥,不仅浪费了搜索引擎的带宽和时间等宝贵资源,更重要的是,它们的存在大大降低了搜索引擎的查询质量和查询效率,极大地影响了用户对Web信息的有效使用。搜索引擎主要在两个步骤上进行反击:①在Crawler抓取阶段即进行过滤,滤去那些质量极低、毫无内容可言的“高纯度垃圾”,这样可以节省网络带宽、费用、抓取时间、存储空间等,并且大大减轻了下一步在信息分类、信息组织和查询匹配时的负担;②在信息分类和组织阶段,计算网页信息的可信度,在用户查询信息时,把可信度作为一个重要因子对查询结果集进行排序,从而提高查询结果的信息质量,满足用户的实际需要。

搜索引擎公司传统上的做法是,聘请专业人员,不断地搜查探测那些恶意欺骗者。当确认了一个Web垃圾网站后,搜索引擎停止对它的搜索和索引。然而这个探测过程非常昂贵而且缓慢,鉴于此,搜索引擎公司、国内外知名大学和研究机构近几年开始从不同的角度研究和寻找更好的方法,其中有代表性的研究成果如下:

(1)Google在2002年就注意到Web垃圾信息日渐泛滥的问题,提出要在自己的排名算法中,加大页面质量的权重[10]。

(2)Microsoft对近6亿个页面进行了研究,从URL属性、HostName的解析、链接关系、内容特点等几方面分析了Web垃圾页面的特点,并试图按照这些统计属性来确认Web垃圾页面[8]。

(3)Stanford的Gyongyi等人受Haveliwala的“Topic-SensitivePageRank”思想的启发,认为好的页面所指向的链接页面通常也是好的,于是他们提出了TrustRank的概念,依靠一个人工选取的好种子页面集,计算他们的传播结果,从而对Web站点按可信度排序,进而把所有站点分为“好”和“坏”两种[11]。他们还对Webspam进行了分类研究[12],并对Linkspam联盟技术做了分析[13]。Gyongyi等人提出TrustRank的概念后,受到了广泛关注,陆续有很多研究者进行类似的研究,如匈牙利科学院的AndrásA。Benczúr等人,以及美国LehighUniversity的BaoningWu和BrianD。Davison等。

虽然很难见到Google、Yahoo等搜索引擎关于如何去除垃圾页面的技术报告,但他们一直在做着这样的工作,并且已经有所应用。这一点从相关产品的使用体验中可间接地验证。

2。提高查询准确度

对于一个查询,搜索引擎动辄返回几十万、几百万篇文档。面对大量的返回结果,用户只能在其中浏览筛选。实际上,用户大多数时间都没有足够的耐心去浏览多屏结果。根据Silverstein等人的研究结果,有85%的查询只需要给出前10个结果[14]。

如何使用户想要的查询结果出现在返回集合的前列(最好是第一屏),这个本来就具有挑战性的问题随着搜索引擎检索页面集的增大而越来越急迫。目前解决这个问题的主要几种方法是:

(1)通过各种方法获得用户没有在查询语句中表达出来的真正用途,包括:①相关度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关的程度),哪些不相关,通过多次交互逐步求精;②智能代理跟踪用户检索行为,分析用户模型;③用户注册使用,以便更好地分析用户的使用特点和喜好。

(2)使用正文分类技术将查询结果分类,使用可视化技术显示分类结构,用户可以有选择性地浏览自己感兴趣的类别(GoogleNews就采用了这种方法)。

(3)使用链接结构分析进行站点聚类或页面聚类,然后将信息推荐给用户(Vivisimo公司就是采用对搜索结果自动聚类的办法来满足不同类型用户的需要)。

我们认为最有力的方法是改进排名算法。Google的排名规则一直在变化中,2001年基于HillTop算法进行的优化是比较明显的变化(HillTop认为来自相同主题的相关文档链接对权重计算的贡献更大),现在又到了迫切需要算法更新的时候了。据说Google正在研究“多倍索引信息获取系统(MIBIRS)”,可以使搜索引擎的网页索引数量达到惊人的1000亿幅甚至更多,我们翘首以盼。

(三)搜索能力加强

1。对多媒体搜索的支持

随着多媒体信息在网络上的大量涌现和人们对多媒体信息需求的高涨,知名搜索引擎如Google、Yahoo、AltaVista、Lycos、AllTheWeb等对于多媒体搜索的能力也在不断加强。它们或在一个统一的用户界面上提供资料类型选择,或直接提供独立的多媒体搜索引擎。另外,各种图像搜索引擎和各种娱乐搜索引擎也不断涌现。这些系统可以说在很大程度上满足了用户的需要,然而它们对多媒体搜索的支持都还在初级阶段,基本上是基于文本关键词和自动标注进行多媒体信息检索,缺乏基于图像和音视频内容进行比对检索的功能。

一般的说,多媒体信息的内容表示可分为物理层(如信号样本、像素等)、特征层(如图像的颜色和纹理、语音频谱)、语义层内容(如语音的脚本、音乐的音符、图像中的物体形状和人脸)等三个层次。基于内容的检索一般针对后两个层次。基于特征层次的内容检索主要应用于以媒体实例为输入的查询方式。检索时,首先对输入的实例提取特征模板,再与检索源中的数据相匹配。相关研究主要围绕着检索的快速性和准确性问题展开,具体涉及特征选取、匹配策略、算法优化等。

关于图像处理和检索的专利较多,根据美国专利网的检索结果,与图像检索相关的专利达186项,但是很少见它们应用于实际系统,而用于网络多媒体搜索引擎的专利,则更是罕有。2004年Lowe提出了SIFT(Scale-InvariantFeatureTransform)[15]特征,该特征具有旋转、缩放不变性,并且对光照、仿射变换以及视角变化等都具有相当程度的鲁棒性。除此之外,每一个SIFT特征都具有很强的描述和区分能力,因此非常适用于图像实例检索。但在对海量数据的检索中,如何降低其复杂度需要进一步的深入研究。

在音频检索方面,常用的特征包括:短时能量、频谱、过零率、美标度倒谱等。针对大数据量检索问题,很多工作集中在特征匹配的策略优化上。基于内容的视频检索可以看做图像和音频检索的扩展,所用特征除图像和音频中的常用特征以外,还包括一些专有特征:如物体运动、镜头切换等。关于音视频检索的专利也不少,根据美国专利网的检索结果,与音频和视频检索相关的分别为28项和80项,但是应用于网络多媒体搜索引擎的专利却很少。

语义层次上的内容检索研究相对更为困难一些,下面几个方面是最近几年进展较快的:场景分类技术、语音数据识别、语音说话人分割、视频数据中精彩片段提取等。然而这些技术距离大规模检索应用还有相当的距离。

在这里值得一提的是,面对咄咄逼人的Google和Yahoo,法国总统雅克·希拉克在2006年新年讲话时宣布,法国决定联手德国,抓住多媒体搜索这个机会,开发“真正的多媒体搜索引擎Quaero,以应对Google和Yahoo带来的全球挑战”。

Quaero的拉丁语意是“我搜”,该项目的目标是,搜索时无须借助文字描述就能“读懂”音频、图像和视频的内容。目前,这样的图片识别程序已经存在。法国中型软件公司、Quaero项目成员LTUTechnologies向美国联邦调查局(FBI)提供电脑取证分析工具,用于分析被扣押的硬盘中的图片,并将其与已知的恋童癖罪犯的照片相比对。另外他们还有一些可将语音转化为文字的音频解析程序。Quaero项目组面临的挑战是,如何改进这些工具以提高搜索准确度,同时提高速度,适应大数据量的检索。

目前参与Quaero研发的主要公司和机构包括法国电信、汤姆逊公司、法国视听研究所、德国电信、贝塔斯曼集团和西门子公司等。Quaero项目预计在未来5年内需要投入10亿~20亿欧元,所需资金将由法、德两国政府以及两国企业共同承担,其中法国政府已计划5年内投资2。5亿欧元。这个项目究竟走势如何,我们将拭目以待。

2。对DeepWeb的搜索

DeepWeb已经拥有不少研究者,如Stanford和UIUC的学者们,他们分别搭建了HiWE[16]和MetaQuerier[17]两个很好的原型系统。也有一些搜索引擎能够搜索DeepWeb信息,如、w。com、www。vivisimo。com等。然而它们或者太小,或者搜索Invisible信息的能力太弱,所以使用起来很多时候不能得心应手。

几大主流搜索引擎尚未提供DeepWeb搜索功能,主要原因是技术上还不够成熟。然而“需求是创新之母”,我们期待在不久的将来能使用Google、Yahoo等查询DeepWeb信息,或者是基于DeepWeb查询的搜索引擎迅速发展起来,为我们提供更好的服务。

3。ArchiveSearch

搜索引擎通常能够提供的信息通常只是最近在网上有的信息,而很多情况下我们需要了解网上曾有的历史信息,甚至需要将不同时间的信息进行归纳、比较和综合。另外,对于搜索引擎来说,把自己辛辛苦苦搜集来的信息轻易抛弃也是很可惜的事。

这方面的研究国内国外都曾开展过,如InternetArchive、UCLA的WebArchive[18]和北京大学的WebInfoMall(http://www。infomall。cn)。由于搜索和处理能力的限制,直到今年主流搜索引擎如Google才开始提供GoogleNewsArchiveSearch功能。实际上,简单提供对于历史信息的搜索意义是有限的,我们希望Google这个业界领袖能够提供更方便的ArchiveSearch功能,如历史信息的自动排序、自动比较与合成等。

4。搜索引擎速度的提高

MorganStanley全球互联网分析师MaryMeeker在2002年12月就把整个互联网现象总结为SFO,就是搜索(search)、发现(find)和获得(obtain)。利用搜索引擎查找相关信息并不是终极目的,“搜索”和“发现”都只是手段和过程,用户的最终目的是“获得”。

鉴于此,用户在使用搜索引擎时,对速度的要求非常高,甚至超过搜索准确度。用户也许还能够容忍查询结果不尽如人意,搜索范围不够广泛,但如果一个系统每次查询要等上几分钟,或者想要获得查询的结果(如pdf、mp3文件等)需要半个小时,那么可以想象,除非必须,否则用户很难有如此耐心。

搜索引擎的速度有三方面的意义:其一是信息搜集速度;其二是信息处理速度;其三是提供服务的速度。搜索引擎系统的处理能力总体来说一直在随着硬件设备和网络建设的发展不断提高,比如几大主流搜索引擎一直在扩大服务器集群,租用更高带宽的线路,在世界各地建立更多服务器组,等等,但这种提高还只是渐变,没有发生过质变。我们期望IPv6的建设能够对未来的搜索引擎有大的促进,甚至能引起飞跃。

(四)其他

1。搜索个性化

搜索引擎服务商们目前在进行一些诸如搜索历史记录服务尝试,并且通过如Toolbar,Deskbar等客户端工具所收集的数据的理解,来提供更多满足用户趣味及习惯的服务,以提高用户对搜索服务本身更深层次的需求满足感。因此在未来,用户将越来越多地参与并体会到搜索的个性化。另外,搜索引擎为注册用户提供个性化配置服务,允许注册用户登陆个性化主页,查看自己关注的内容,同时还可以向用户推荐一些高质量的新内容。

几大主流搜索引擎不但都提供了这样的功能,而且还让自己的产品系列走向深入。Y!Q[19]是Yahoo公司推出的一个个性化检索系统,它使用语义网络(semanticnetwork)来分析上下文、处理歧义问题并生成用户信息的摘要。GooglePersonalizedSearch[20]是Google公司推出的个性化检索系统,该系统通过记录用户的历史查询以及历史点击来获得用户的个性化信息,并利用这些历史信息辅助检索。

2。桌面搜索

桌面搜索越来越受到关注的原因在于,“未来的文档管理的核心就在于搜索”。目前几大搜索引擎都推出了自己的桌面搜索系统。如“GoogleDesktop”允许使用者下载对象到计算机桌面,协助使用者在不用开启浏览器的情况下,直接获得例如天气预报报告等资料。目前此项桌面功能已提供包括多种语言版本,提供全球各地使用者将搜寻结果个人化,获得不同地区性信息。相信未来几年以桌面搜索为核心的新式办公软件,将和传统的MicrosoftOffice等软件之间出现一场大战。

3。移动搜索

移动搜索的最大优点在于它的“随时随地性”(ubiquitous),知名搜索引擎公司对这块市场是不会放过的,它们不但适时推出了相应产品,而且还为深度应用进行着技术储备。Google虽然目前处理的搜索请求仅有不足1%来自于手机用户,但却未雨绸缪,已经购买了相关的公司进行技术储备。而Microsoft则于今年初收购了移动搜索技术的全球领导厂商MotionBridge。Yahoo也在本地搜索服务上不断开拓。

除了知名搜索引擎公司之外,许多专注于移动搜索的企业也纷纷涌现。移动搜索并不是基于PC的互联网搜索的简单扩展,它在搜索方式、搜索需求、搜索渠道、搜索内容等方面都与传统网络搜索有本质区别。这种差异为在资金、品牌方面不具备与通用搜索巨头相抗衡的移动搜索厂商提供了生存的空间。我们认为,使用不断发展的多媒体和智能检索技术,与无线增值相结合,以及与本地化搜索相结合,应该是移动搜索目前最具发展潜力的模式。

四、相关研究组

(一)国际

搜索引擎技术和计算机其他技术类似,除了在一些大学和研究机构总是有相关研究活动开展外,有远见的公司往往也在研发上有很大的投入,显现出很强的创新能力和精神。近两年来,面对Google和Yahoo的咄咄逼人,一些国家政府层面也纷纷出来表态,把搜索引擎的研究上升到国家行为。除了前面提到的法、德两国联合开发Quaero项目,日本政府也在2005年年底宣布将建立一个由20个研究单位(公司和大学)组成的搜索引擎研究小组,计划从2007财年开始投入数十亿日元,在3~5年内开发出自己的搜索引擎。目前小组成员包括松下电器公司、日本电信电话公司、东京大学、富士通公司和日本电气公司等。

一般来讲,公司虽然在不断进行着研究,但出于商业考虑,它们很少发布自己的研究成果。很多时候它们的产品已经被广泛使用了,但其技术原理我们仍然不清楚。而大学的研究则相反:它们的研究成果是公开的,但不知道什么时候能被用在主流商业系统中。这里主要列举我们比较熟悉的三家美国公司和三个大学中相关群体的研究内容和方向,它们各有特色,其工作总体上可以说代表了搜索引擎技术研究的国际前沿水平。

(1)Google(http://www。google。com/)作为搜索引擎的领袖公司,一直在进行着前沿研究,并不断推出新的产品。就在不久前,Google专门为中小企业推出了集成了Gmail、Gtalk、GoogleCalendar和GooglePageCreator等免费服务的GoogleAppsforYourDomain项目。接着Google又跟LitCam和UNESCO(教科文组织)合作,推出了一个专为教育和文化事业而设置的集成服务——Google知识工程。Google还推出了新搜索服务——SearchMash。com作为Google的子搜索网站,SearchMash采用了图文结合的方式显示搜索结果,左边为文字搜索结果,右边为符合度最高的图像搜索结果。另外,Google正在研究“多倍索引信息获取系统(MIBIRS)”,据说通过该项技术,可以使Google搜索引擎的网页索引数量达到惊人的1000亿幅或更多。Google对于语义搜索的研究也在进行中。

(2)Microsoft(http://research。microsoft。com/)对于搜索引擎这个庞大的市场当然不肯放过。微软亚洲研究院(http://research。microsoft。com/asia/)早在2001年底,便开始了有关互联网信息检索技术的研究,几年来发表了很多高水平的论文,并不断把这些研究成果转化为技术。他们的代表性成果包括对网页细分的“数据模块化的Web检索方法”、搜索动态网页数据的“深层网络数据发掘技术”,等等。对于分散于互联网上的图像资源,他们开发出的智能化图片搜索技术,已可自动识别与分类搜索结果。在2006年微软创新日上,微软亚洲研究院集中展示的38项技术中,搜索类技术就多达11种,包括对文字、图像、新闻事件等进行搜索,应用涵盖了手机移动、IPTV等多个方面。微软亚洲研究院院长沈向洋博士于2006年9月在北京宣布,微软亚洲研究院将在原有四大研究方向:新一代多媒体、新一代用户界面、无线及网络技术和数字娱乐的基础上,增加互联网搜索和挖掘为该机构的第五大研究方向。

(3)Yahoo!(http://www。yahoo。cn/)在2003年斥资近20亿美金收购Inktomi、Overture、AltaVista和Fast四家国际知名搜索服务商后,经过数百名工程师一年的开发打磨,于2004年3月正式推出自己的搜索引擎YST(YahooSearchTechnology)。接着Yahoo宣布中断与Google的合作,在全球范围内转而采用YST,并迅速成长为全球第二大搜索引擎。目前YST涵盖全球120多亿网页,拥有数十项技术专利,支持38种语言。Yahoo的研究重点目前是分类目录和社会检索。

(4)斯坦福大学(StandfordInfoLab,http://infolab。stanford。edu/)作为Google的故乡,近年来一直保持搜索技术研究的强劲势头,通过“WebBase”、“DigitalLibraries”等项目的实施作为载体,形成一个基础设施,系统研究从搜集、存储、索引以及查询诸方面的问题,并且有将重点从传统的信息检索转向深入的内容分析(分类、聚类、挖掘)的趋势。斯坦福的毕业生如JunghooCho和KevinChang等人,各自在自己任教的学校(UCLA和UIUC)进行着特色研究。

(5)卡耐基梅隆大学(CMULTI,http://www。lti。cs。cmu。edu/)主要体现在其语言技术研究所(LTI)的工作中。传统上,该研究所在机器翻译领域成绩卓著,因此近年来在搜索引擎方面的工作也体现出较强的计算语言学和自然语言处理技术的风格。其代表作品早期有Lycos(一个完整的搜索引擎),近年有Lemur(一个包含各种搜索引擎和信息获取算法的工具箱)。

(6)麻省大学(MassachusettsCIIR,http://ciir。cs。umass。edu/)主要工作集中在智能信息获取中心(CIIR),有比较长期的积累。从特色看,该中心的工作有比较典型的“IR”风格,关心信息获取(IR)、信息过滤(IF)、信息提取(IE)、信息中主题的发现、文档综述、跨语言检索等技术。近年也开始重视多媒体信息的检索,但还没有明显成果。

(二)国内

如果说从“九五”初期CERNET项目安排部分经费支持北大、清华、华南理工开展搜索引擎的研发算起,搜索引擎的相关工作在中国已经开展了整整10年。目前在中国研究搜索引擎技术的人员大致来源于三个方面的工作背景:网络系统、自然语言处理、数据库,这其实是很有道理的。搜索引擎是一个综合性很强的系统,其所涉及的几个主要传统领域是网络与分布式系统技术、数据库技术以及自然语言处理技术。除此以外,对Web的状态及其上信息结构的理解,超出了传统计算机技术领域范畴,但对做好搜索引擎至关重要。在这个意义上,搜索引擎算得上是一个“交叉领域”了。

目前,全国开展搜索引擎相关技术研究的群体不少,清华就有三个(恰好分别源于上述网络、人工智能和数据库背景),北京大学有两个(一个在网络实验室,一个在计算语言所)。另外,哈工大信息检索组(http://ir。hit。edu。cn/)、复旦大学信息检索和自然语言处理组(http://www。cs。fudan。edu。cn/mcwil/irnlp/)、中科院大规模内容计算组(http://159。226。40。18/)以及华南理工信息检索组都在本领域有长期的积累[21]。

从工作的取向看,尽管上述群体通常都会在一个较宽的面上工作,但大致还能分出面向技术或是面向系统的风格。在面向技术的研究方面,一个突出的特点是以国际著名的TREC评测为目标(1),清华大学、中科院计算所等近年都取得了很好的成绩。在面向系统的研究方面,北大天网(http://e。pku。edu。cn)、华南木棉(http://www。scn。cn/)、清华网络指南针(http://210。25。191。143/)当属典型的代表。它们均源自CERNET项目在“九五”期间的支持,目前正在进一步酝酿在CERNET2的支持下开展IPv6环境下的搜索引擎系统研究。

值得一提的是,作为国内搜索引擎与信息检索领域研究活动学术交流的平台,近年来出现了两个全国性的学术会议,一是2003年开办的“全国搜索引擎和网上信息挖掘学术研讨会”(由中国计算机学会发起),另一个是2004年开办的“全国信息检索与内容安全学术会议”(由中国中文信息学会发起)。我们十分欣喜地注意到这种会议的一个特点:参加会议的人数大大多于论文录取的篇数。2007年3月将召开第五届“全国搜索引擎和网上信息挖掘学术研讨会”,目前已经收到投稿531篇,其响应之热烈程度在相对专业的国内学术会议是很少见的。这既说明了搜索引擎这么一种比较新兴的技术在我国学者中被关注的普遍程度,也说明一个研究领域社区的形成。

“全国搜索引擎和网上信息挖掘学术研讨会”的特色之一是每次都组织一次搜索和网页分类技术的评测。北京大学为此开发并维护着一个基本的网页数据集,2004年发布了CWT100g,包含从1万多个网站抽取的近500万网页;2006年发布了CWT200g,包含从近3万网站抽取的3000多万网页。这些数据集被整理成规范的格式,供有兴趣的研究群体共享利用。

同时,在一些大学也开始提供相应的课程,例如北大从2002年和2003年开始开出了研究生课程“Web信息处理”和“网络信息体系结构”,华南理工2005年开出了本科生信息检索技术课程。随着这些教育活动的开展,我们渴望有更多的年轻人投入到这个令人兴奋的领域中来,作出创造性的贡献。

五、搜索引擎之展望

(一)搜索理念

从2005年开始,Yahoo逐步确立了社区化搜索(SocialSearch)的策略,使用其庞大的全球注册用户群来积累大批高质量内容和元数据,从而改善用户的搜索体验。Yahoo希望让用户驱动搜索创新,普通用户可以决定什么是最重要的。鉴于此,Yahoo收购了著名的照片共享网站Flickr和社会化书签网站del。icio。us。

Microsoft则钟情于智能型互动搜索技术。Microsoft认为搜索引擎的用户界面将有重大变化,用户会提供更多信息,让搜索引擎更清楚地领会用户的意图,以便返回更准确的结果。因此微软可能在未来的MSN中使用自己在语音识别和多媒体等领域的技术积累。

Google认为“技术无止境”,技术的进步意味着用户无需再提供更多的信息。LarryPage曾经说过:“最终的搜索引擎应该能理解世界上的所有事情,并总是告诉你正确的答案。”在Google看来,目前的搜索引擎还在初级阶段,离完美还很遥远。

(二)发展趋势

随着互联网技术的不断发展以及网民对互联网使用的不断熟练,未来几年中,搜索引擎技术将在以下几个方面重点发展:

(1)搜索尽可能多的信息。尽管信息爆炸,尽管“99%的信息对99%的人没有用处”,但从整体来看,用户对信息的追求是无止境的,他们永远希望能占有全部的信息。

(2)搜索引擎专业化。面向某一行业、某一主题和某一地区的信息而建立的垂直搜索引擎是未来的发展方向,为有专业需要的人提供专业化的解决方案永远是正确的。

(3)搜索功能智能化。搜索引擎的智能化体现在两方面,一是对搜索请求的理解,二是对网页内容的分析。其中通过对用户的查询计划、意图、兴趣方向进行推理、预测,并为用户提供有效的答案,是这种系统的支柱技术。自然语言搜索能力作为智能化的一个体现,是目前相对易于开发的技术。

(4)搜索服务个性化。搜索引擎个性化的核心是通过跟踪分析用户的搜索行为,充分地利用这些信息来提高用户的搜索效率。通过搜索行为分析技术提高搜索效率的途径主要有两种:“群体行为分析”和“个性化搜索”。

(5)支持多媒体搜索。随着宽带技术的发展,未来的互联网是多媒体数据的时代。开发出可查寻图像、声音、图片和视频的多媒体搜索引擎是一个新的方向。

(三)随下一代互联网而变

作为互联网上的最主要应用之一,搜索引擎极大地受制于互联网的发展,同时又反过来影响着互联网。可以说,它们休戚与共。互联网是一个庞大的信息载体和信息处理平台,它给人们的生活带来巨大方便。互联网的发展使越来越多的人认识到:“互联网将使我们赢得一个崭新的世界。在这里,人人生而享有平等的信息获取、学习机会和交流手段。”然而互联网必须与各行各业密切结合,相互渗透、共同发展,才有更强的生命力。

搜索引擎将随互联网的发展而渗透到人们生活的方方面面。搜索引擎改变着人们的生活,而人们的需求又促使搜索引擎不断发展。至于哪些技术能让搜索引擎获得成功,却是一件很难回答的事情。正如SergeyBrin曾经表示的那样:“我们尝试很多事情。因为无法确认什么是下一阶段最受欢迎的产品,所以我们尝试各种帮用户解决问题的方式。”

六、结语

我们为什么要关心搜索引擎技术?这取决于“我们”指的是谁。普通百姓、计算机专业学生、科研人员、IT企业、一般企业……特别是政府科技发展政策研究与咨询部门,应该有不同的原因。普通百姓了解搜索引擎能更有效地从网上获取信息,计算机专业的学生则可能是为了未来一份满意的工作……政府科技发展政策研究与咨询部门,所想的大概应该是当一种事物看起来如火如荼发展的时候,从国家层面是否应该有某种举措。

国家曾经发过文件,大力推动集成电路和软件的发展,也曾经有过重大安排,推动下一代互联网的建设。在这种意义下,我们应该如何看待“搜索技术”?它是个产业吗,它能是一个支柱产业吗,或者它是否是我们必争的某种战略制高点?如果是,我们该采取一条什么样的路线?

这里,我们不特别讨论搜索引擎作为一个产业的特殊存在形式(商业模式既不同于汽车、钢铁等传统产业,也不同于计算机软件、移动通信等IT产业,甚至也不同于B2B、B2C等新兴互联网产业之类),但我们已经看到它不仅有了极大的市场价值(例如Google目前的市值和Intel差不多了;任何大的门户网站,如果不提供搜索,则会在竞争中被淘汰),而且也具有社会文化发展和国家安全的意义。想象一个充分数字化、网络化的社会任何信息,理论上都应该是能搜索到的,无论是公开的、真伪不辨的信息,还是受控的、权威性高的信息;无论是当前产生的信息,还是以前出现过的信息;无论是网页信息,还是数据库中的信息;无论是文本信息,还是多媒体信息。这些都将更加突出地彰显搜索技术在社会经济、政治与日常生活中不可或缺的作用。搜索将无处不在。

根据上述,我们似乎有理由说国家应该重视搜索技术了。那么,应该怎么重视呢?发布一些课题,攻克一些前沿技术难点,在适当的时候扶持几个新的具有一流竞争力的民族搜索企业,在国内搜索市场中占有较大份额,甚至跨出国门?这些都有意义。我们欣喜地看到最近发布的“863”计划项目对搜索及其相关课题的重视,但我们还可以考虑另外一个层面。

我们认为,在信息化社会,信息资源是一个国家的基本资源。对各种各样的需求,能够迅速精准地获得有关的信息,也是国家竞争力的一个体现。搜索技术的核心,是对信息建立起便于查找的索引。在前述广义信息的情形下,任何商业搜索引擎都只能索引其中很少的一部分。因此,一个有重要意义的举措就是发挥我国的制度优势,同时利用市场机制,逐步建立一个国家信息搜索基础设施,从各种数据(信息)表示的标准化,到就地存储与维护,到分布索引与管理,到联合响应搜索请求的协议规程,到贡献的评估与回报,形成一整套既有广度也有纵深的运行机制。特别地,那时的搜索将不限于关键词匹配,以种类丰富、质量可控的数据(信息)为基础,还要有“深度搜索”,满足综合的、复杂的信息需求。

如果说,在微处理器上我们没有站在潮头,在软件上我们也没有形成优势……而搜索,由于涉及内容和国家及社会生活密切相关,来自本土的努力是完全有可能领先的。Google在中文搜索上不及百度,在日文搜索上不及Goo(http://www。goo。ne。jp),普通韩国人更愿意用NAVER(http://www。naver。com)……就是例子。前面提到的法国和德国联手开发Quaero搜索引擎的计划也能给我们启示。在上述包罗万象数据(信息)的大搜索的概念下,本土努力将更有天然的优势,而一定的国家行为可以使这种优势发挥出最好的效益来。

本文 A5首发,转载请保留。

上一篇:赏识你的学生读书心得下一篇:设施蔬菜与自然辩证法