Baiduspider不支持noindex

以前一直不太关心我这个博客在百度的搜录情况,今天去查看了一下,发现百度的搜录量比Google多出不少,研究是怎么来的。结果发现原来Baiduspider只支持部分meta robots协议,比如<meta name=”robots” content=”noindex” />,百度就不支持。居然到现在才发现,实在是失误。刚到百度搜索帮助中心去看了一下,居然还赫赫的写着:

baiduspider遵守互联网meta robots协议。您可以利用网页meta的设置,使百度显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。和robots的更新一样,因为搜索引擎索引数据库的更新需要时间,所以虽然您已经在网页中通过meta禁止了百度在搜索结果中显示该网页的快照,但百度搜索引擎数据库中如果已经建立了网页索引信息,可能需要二至四周才会在线上生效。

从上面这段话来看,百度所谓的遵守互联网meta robots协议,似乎仅支持noarchive标签。

在百度上site:ilihai.com 2006或者2007、2008,可以发现一打结果,都是博客的按月存档,这部分页面我都定义了meta robots:

  • <meta name=”robots” content=”noindex,follow” />

noindex的意思是让搜索引擎不要对当前页面创建索引。我一直在使用meta robots + robots.txt的方式来控制搜索引擎对我这个博客的索引,如果没有记错的话,我早在2007年5月份就开始在按月存档页面上使用noindex了,所以Google和Yahoo那边一直没有这些按月存档,我也就没有关心这个问题,直到今天才发现……按月份存档在wordpress博客上是一定要屏蔽掉的,否则容易被搜索引擎认为是复制网页,会带来啥后果就不好说了。所以我只好给Baiduspider开小灶了,在robots.txt中加入:

  • User-agent: Baiduspider
    Disallow: /200*

Baiduspider,你就不能国际化一点?

相关文章:
  1. robots meta OR robots.txt
  2. Google在帮我写Tag
  3. Seo Wordpress header.php
  4. Wordpress SEO - 自定义页面内容
  1. Shawn

    请教一下。不知道你有没有注意过,在 Google 搜索,”Baiduspider不支持noindex”,搜索结果里面有个日期,2008年10月11日。然而这个日期在实际页面里是不存在的,那么这是什么?

  2. Shawn

    查到了,Fresh Crawl

  3. Ryan

    @shawn
    是Google自己加的,已经好几个月了,我新发的post很多都有,但又不是全有。部分2007年的老老post也被google加上了。

  4. Ryan

    晕,我还在打字你就查到了…
    不得不说的是,技术上google比百度好很多。

  5. Shawn

    我也是偶然发现的,以前从来没注意过。。。还瓜兮兮得去看源码,以为哪个插件自作主张在给我加东西。

  6. c。d。。

    ╔═╤═╤═╤═╤═╤═╤═╤═╤═╤═╤═╤═╤═╤═╤═╗
    ║ │ │ │ │ │ │ │ │ │ │ │ │究│人│基║
    ║ │ │ │ │ │ │ │ │ │ │ │ │的│工│本║
    ║ │ │ │ │ │ │ │ │ │ │ │ │价│操│上║
    ║ │ │ │ │ │ │ │ │ │ │ │ │值│作│不║
    ║ │ │ │ │ │ │ │ │ │ │ │ │。│的│研║
    ║ │ │ │ │ │ │ │ │ │ │ │ │ │东│究║
    ║ │ │ │ │ │ │ │ │ │ │ │ │ │西│百║
    ║ │ │ │ │ │ │ │ │ │ │ │ │ │没│度║
    ║ │ │ │ │ │ │ │ │ │ │ │ │ │有│了║
    ║ │ │ │ │ │ │ │ │ │ │ │ │ │研│,║
    ╚═╧═╧═╧═╧═╧═╧═╧═╧═╧═╧═╧═╧═╧═╧═╝

say