百度spider对常用返回码的处理逻辑_SEO

您所在的位置：程序员俱乐部 > 互联网 > SEO > 百度spider对常用返回码的处理逻辑

百度spider对常用返回码的处理逻辑

2011/9/1 8:11:03 程序员俱乐部我要评论(0)

摘要：百度爬虫在进行抓取和处理时，是根据http协议规范来设置相应的逻辑的，因此，如果网站/页面发生一些特别状况或者网站某类页面集存在特殊性的时候，我们必须知道如何处理才能更符合百度爬虫，以避免错误的举措给网站SEO带来不必要的风险。百度站长俱乐部管理员Lee的在http状态码使用方面做了说明，主要涉及到常见的301、404、403、503状态码的处理建议，非常实用，结合这些知识以及以往遇到的实际情况我会做一点补充应用说明。百度spider对常用的http返回码的处理逻辑：1
标签：常用 ide 百度

　　百度爬虫在进行抓取和处理时，是根据http协议规范来设置相应的逻辑的，因此，如果网站/页面发生一些特别状况或者网站某类页面集存在特殊性的时候，我们必须知道如何处理才能更符合百度爬虫，以避免错误的举措给网站SEO带来不必要的风险。百度站长俱乐部管理员Lee的在http状态码使用方面做了说明，主要涉及到常见的301、404、403、503状态码的处理建议，非常实用，结合这些知识以及以往遇到的实际情况我会做一点补充应用说明。

　　百度spider对常用的http返回码的处理逻辑：

　　1、404

　　404返回码的含义是“NOT FOUND”，百度会认为网页已经失效，那么通常会从搜索结果中删除，并且短期内spider再次发现这条url也不会抓取。

　　2、503

　　503返回码的含义是“Service Unavailable”，百度会认为该网页临时不可访问，通常网站临时关闭，带宽有限等会产生这种情况。对于网页返回503，百度spider不会把这条url直接删除，短期内会再访问。届时如果网页已恢复，则正常抓取;如果继续返回503，短期内还会反复访问几次。但是如果网页长期返回503，那么这个url仍会被百度认为是失效链接，从搜索结果中删除。

　　3、403

　　403返回码的含义是“Forbidden”，百度会认为网页当前禁止访问。对于这种情况，如果是新发现的url，百度spider暂不会抓取，短期内会再次检查;如果是百度已收录url，当前也不会直接删除，短期内同样会再访问。届时如果网页允许访问，则正常抓取;如果仍不允许访问，短期内还会反复访问几次。但是如果网页长期返回403，百度也会认为是失效链接，从搜索结果中删除。

　　4、301

　　301返回码的含义是“Moved Permanently”，百度会认为网页当前跳转至新url。当遇到站点迁移，域名更换、站点改版的情况时，推荐使用301返回码，尽量减少改版带来的流量损失。虽然百度spider现在对301跳转的响应周期较长，但我们还是推荐大家这么做。

　　百度对于某些常见情况的使用建议：

　　1、如果站点临时关闭，当网页不能打开时，不要立即返回404，建议使用503状态。503可以告知百度spider该页面临时不可访问，请过段时间再重试。

　　2、如果百度spider对您的站点抓取压力过大，请尽量不要使用404，同样建议返回503。这样百度spider会过段时间再来尝试抓取这个链接，如果那个时间站点空闲，那它就会被成功抓取了。

　　3、有一些网站希望百度只收录部分内容，例如审核后的内容，累积一段时间的新用户页等等。在这种情况，建议新发内容暂时返回403，等审核或做好处理之后，再返回正常状态的返回码。

　　4、站点迁移，或域名更换时，请使用301返回码。

　　案例：

　　我曾经为一家电子商务网站提供SEO顾问服务，网站每日新增商品由商家发布，商品发布后便成为一个有效的商品，并会出现到网站平台的商品检索结果以及商品列表中，同时，平台运营方需要对商品进行审核，对于没有审核通过的商品则进行caozuo.html" target="_blank">删除操作;于是，会出现一些情况：新增商品页面被百度爬虫抓取，但随之该页面被删除。

　　由于网站在百度的权重比较高，几乎每日新增商品页都会很快收录，因此，在这批新收录的商品页面中有一定比例的页面很快不存在了，即：一批刚被收录的页面又向百度Spider返回了404状态码，简单以蔽之，“让百度收了再让百度删”，我觉得百度可能会“很生气，后果很严重”。

　　为解决这个问题，我之前采取了如下方法：

　　既然将商家发布的商品包含两种状态：已审核和未审核，那么就为商品页面设计2种URL规则，如果商品未审核，则使用第1套URL规则，同时，利用robots协议限制百度Spider爬虫抓取这些页面;如果商品已审核，那么就与已有商品一样，使用第2套URL规则。这样就可以确保百度Spider抓取到的商品页面都是有效页面，不会由于商品审核不通过而单日内出现大量404页面。

　　是否可以利用403状态码来解决该问题?思路如下：

　　判断商品是否通过平台运营方审核，是的话，页面就返回200，否的话，就返回403;对于正常的商品页面，可以确保百度Spider正常抓取;对于新增商品，百度新发现的URL是返回403的，当再次回访这些页面时，由于商品已经审核通过，返回的状态码由403变成了200，则百度仍可抓取到;方法仍然有待实验，毕竟之间存在一个时间差以及百度对于返回403的页面是否存在收录效果不佳的风险。

　　对于301状态码，在以往的SEO交流中，大家一致认为百度对301并不感冒，而且反应速度超级慢，Lee在帖子中也证实了这一点，但无论怎样，301仍然是其推崇的一种规范的处理方式，宗旨，做网站优化，良好的规范是必要的

上一篇：武汉SEO混小子：网站关键词排名该如何稳定下一篇：黄祖敏：百度竞价推广如何优化