网站Robots.txt协议你懂多少？

2024-05-02

网站Robots.txt协议你懂多少？（共2篇）

篇1：网站Robots.txt协议你懂多少？

网站Robots.txt文件，是网站与搜索引擎交流的通用协议，通过Robots协议的设置告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取：一方面可以做网站安全的防护，更重要的是用来做优化，减少无效页面的收录，提升站点的排名效果，

但是在实际的操作中，绝大多数的网站，在其撰写上都存在或多或少的欠缺，甚至由于技术性的错误撰写，还会导致网站降权、不收录、被K等一系列问题的出现。对于这一点，我在对客户的SEO诊断过程中，会经常遇到，可以算是很多站点的通病。今天写出这篇文章，就是来做一个分享：关于robots.txt协议，你写对了吗?

一：设置成Allow全站点抓取

百度收录的越多，网站的排名越高?这是绝大多数站长的认为，事实上也是如此。但是也并非绝对成立：低质量的页面收录，会降低网站的排名效果，这一点你考虑到了吗?

如果你的网站结构不是非常的清晰，以及不存在多余的“功能”页面，不建议对网站开全站点的抓取，事实上，在SEO诊断中，只遇到极少数的一部分网站，可以真正的做到全站点都允许抓取，而不做屏蔽。随着功能的丰富，要做到允许全站点抓取，也不太可能。

二：什么样的页面不建议抓取

对于网站功能上有用的目录，有用的页面，在用户体验上可以得到更好的提升。但是搜索引擎方面来讲，就会造成：服务器负担，比如：大量的翻页评论，对优化上则没有任何的价值。

除此外还包含如：网站做了伪静态处理后，那么就要将动态链接屏蔽掉，避免搜索引擎抓取。用户登录目录、注册目录、无用的软件下载目录，如果是静态类型的站点，还要屏蔽掉动态类型的链接Disallow: /*?* 为什么呢?我们举个例子来看：

上面是某客户网站发现的问题，被百度收录的原因是：有人恶意提交此类型的链接，但是网站本身又没有做好防护，

三：撰写上的细节注意事项

方法上来讲，绝大多数的站长都明白，这里就不做多说了，不明白的站长，可以上百度百科看一下。今天这里说一些不常见的，可能是不少站长的疑问。

1、举例：Disallow; /a 与Disallow: /a/的区别，很多站长都见过这样的问题，为什么有的协议后加斜杠，有的不加斜杠呢?笔者今天要说的是：如果不加斜杠，屏蔽的是以a字母开头的所有目录和页面，而后者代表的是屏蔽当前目录的所有页面和子目录的抓取。

通常来讲，我们往往选择后者更多一些，因为定义范围越大，容易造成“误杀”。

2、JS文件、CSS需要屏蔽吗?不少网站都做了这个屏蔽，但是笔者要说的是：google站长工具明确的说明：封禁css与js调用，可能会影响页面质量的判断，从而影响排名。而对此，我们做了一些了解，百度方面同样会有一定影响。

3、已经删除的目录屏蔽，很多站长往往删除一些目录后，怕出现404问题，而进行了屏蔽，禁止搜索引擎再抓取这样的链接。事实上，这样做真的好吗?即使你屏蔽掉了，如果之前的目录存在问题，那么没有被蜘蛛从库中剔除，同样会影响到网站。

建议最佳的方式是：将对应的主要错误页面整理出来，做死链接提交，以及自定义404页面的处理，彻底的解决问题，而不是逃避问题。

以上由A5营销黄忠(微信：3870284)编辑我们每一个人在成长的过程中，都会遇到一些坎，找对了方向，就解决了问题，如果找不对方向，做的也是适得其反。

篇2：网站Robots.txt协议你懂多少？

Robots.txt 是存放在站点根目录下的一个纯文本文件.虽然它的设置很简单,但是作用却很强大.它可以指定搜索引擎蜘蛛只抓取指定的内容,或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容.

下面我们就来详细介绍一下它的使用方法:

Robots.txt 文件应该放在网站根目录下,并且该文件是可以通过互联网进行访问的.

例如:

如果您的网站地址是 www.chinaz.com

那么,该文件必须能够通过 www.chinaz.com/robots.txt 打开并看到里面的内容.

格式:

User-agent:

用于描述搜索引擎蜘蛛的名字,在“ Robots.txt ”文件中,如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制,对该文件来说,至少要有一条User-agent记录.如果该项的值设为*,则该协议对任何搜索引擎蜘蛛均有效,在“ Robots.txt ”文件中,“User-agent:*”这样的记录只能有一条.

Disallow:

用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被Robot访问到.

举例:

例一:“Disallow:/help”

是指/help.html 和/help/都不允许搜索引擎蜘蛛抓取.

例二:“Disallow:/help/”

是指允许搜索引擎蜘蛛抓取/help.html,而不能抓取/help/.

例三:Disallow记录为空

说明该网站的所有页面都允许被搜索引擎抓取,在“/robots.txt”文件中,至少要有一条Disallow记录.如果“/robots.txt”是一个空文件,则对于所有的搜索引擎蜘蛛,该网站都是开放的可以被抓取的.

Robots.txt 协议中的注释符.

举例:

例一:通过“/robots.txt”禁止所有搜索引擎蜘蛛抓取“/bin/cgi/”目录,以及 “/tmp/”目录和 /foo.html 文件,设置方法如下: