robots meta OR robots.txt

robots.txt怎么写我就不说了,前面写过一篇《为wordpress写robots.txt》。观察了很多Wordpress站点的Google搜录情况,还偷看了一些站点的robots.txt…对Google补充材料没有什么忌讳的,除了传统的补充材料*/feed/,*/trackback/外,还有不少的/page/,/category/和/date/*/*/。通过robots.txt进行了一些限制的,基本没有什么补充材料,一般的是:

  • Disallow: /date/*/*/ (或者是 /category/ )
  • Disallow: /page/
  • Disallow: /feed/
  • Disallow: /trackback/

对/category/的限制我认为不太科学,相反的应该限制一下/date/*/。因为分类里面的内容有相关性,被搜索到的几率比月份存档高,另外就是当月date存档会和你的wordpress主页完全一样,肯定不好。

另外:上面的robots.txt写法实际上是有错误的(我以前也是这样写的 -_-! ),存在误杀!如果你单个分类文章很多,那么必然存在这样的链接结构:/category/*/page/*/,即使你没有把category写进robots.txt,但由于/page/的存在,该链接同样不会被搜索引擎访问到。你需要在Disallow: /page/下面加上这么一行:

  • Allow: /category/*/page/

具体的你可以到Google 网站管理员工具里面试验。

用robots.txt真的好吗?仔细想了一下,我的回答是:“不好!”答案就是我下面要说的 robots meta .

/date/*/*/很容易成为补充材料,/date/*/page/*/根本就是补充材料,我们在robots.txt中做了限制以后,Google永远也不会访问这样的页面。如果我们取消robots.txt中的限制,在该页面 header.php 中改用 robots meta 标签:

  • <meta name="robots" content="noindex,follow" />

noindex是告诉搜索引擎不要索引该页,不索引也就没有补充材料;follow是告诉搜索引擎关注该页面上的链接,并顺着这些链接搜索下去,俗语—-顺藤摸瓜,说穿了就是增加你的文章被搜索引擎访问的概率。这样做或许并不能提升你的关键词搜索排名,但是作为一名站长,看到googlebot、Yahoo! Slurp在站点上多爬几下也是一件愉快的事情。前几天我去掉了robots.txt中的date和page限制,并在header.php中加入 robots meta 标签,现在已经可以看到一点效果:

66.249.66.227 - - [02/May/2007:22:01:53 -0500] “GET /date/2006/10/page/2/ HTTP/1.1″ 200 10217 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
66.249.66.227 - - [02/May/2007:22:28:09 -0500] “GET /date/2006/08/page/2/ HTTP/1.1″ 200 28389 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
66.249.66.227 - - [02/May/2007:22:41:14 -0500] “GET /category/web/seo/page/2/ HTTP/1.1″ 200 17039 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
66.249.66.227 - - [02/May/2007:22:54:14 -0500] “GET /category/web/page/2/ HTTP/1.1″ 200 44589 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
66.249.66.227 - - [02/May/2007:23:07:19 -0500] “GET /date/2006/11/page/2/ HTTP/1.1″ 200 18181 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
66.249.66.227 - - [02/May/2007:23:33:10 -0500] “GET /category/other/page/2/ HTTP/1.1″ 200 24695 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
66.249.66.227 - - [02/May/2007:23:45:43 -0500] “GET /date/2007/02/page/2/ HTTP/1.1″ 200 14752 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
66.249.66.227 - - [02/May/2007:23:58:22 -0500] “GET /date/2007/01/page/2/ HTTP/1.1″ 200 25711 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

有意思的是都只翻到了第二页,看来搜索引擎和用户一样,都不喜欢翻页,要等它们往后翻还需要个一、两天,呵呵。

以前我有一篇文章《SEO几近完美的Wordpress header.php》,就是那个header.php中关于 robots meta 的写法给了我现在的想法,不幸的是那篇文章中 header.php 的 wordpress seo 思想是好的,但是在实现上出现了问题。可能作者没有严格的测试:在 wordpress 中,is_archive() 包含 is_category(),is_home() 包含 is_paged() (更多的条件类型和关系),类型判断成功以后要及时的跳出判断循环。如果使用那篇文章中的header.php,在访问 wordpress 分类的时候,就会出想两个title,两个robots meta,两个meta description …

我虽然不懂php编程,简单的if … else if …还是会写的,下面的代码就是我目前 header.php 中关于 robots meta 部分的写法,注意顺序,is_home() 不能在 is_paged() 的上面。判断来判断去,有点影响效率,对我这种流量不大的地方也蛮合适的。

<?php if ( is_single() || is_category() || is_page() ) { ?><meta name="robots" content="index,follow" /><?php }
else if ( is_archive() || is_paged() ) { ?><meta name="robots" content="noindex,follow" /><?php }
else if ( is_home() ) { ?><meta name="robots" content="index,follow" /><?php }
else { ?> <meta name="robots" content="none" /><?php }
?>

在 robots.txt 和 robots meta 的比较中,我选择了后者,robots.txt中仅保留下*/feed/和*/trackback/。写了这么多,是否真的必要?我不知道!google自己也说补充材料不影响搜索排名,只是我不高兴看到补充材料罢了。

我的 wordpress seo 工程快告一段落了,目前还有一篇写了一个多月的文章没有写完…是关于 meta description 的,实验中,不出结果不好写… SEO 这个东西得自己去试, 得有想法。一家之言,欢迎板砖。

相关文章:
  1. 爱上robots.txt的Yahoo Slurp
  2. Wordpress robots.txt
  3. Baiduspider不支持noindex
  4. Wordpress SEO - 自定义页面内容
  1. SEO的盘子

    额滴神,我刚刚抄了你的robots.txt,你就又改了……,我的站昨天google能找到77个内容没一个是补充材料,今天就只有20多个了,一半都是补充材料,为啥呢?

  2. xiazhi

    你们怎么查看自己被GOOGLE收录了多少?

    Ryan Lee
    搜索框里面输入site:ilihai.com

  3. Ryan Lee

    你是新站,可有听说过“沙盘效应”,你搜索一下就知道了。英文名字是sandbox.搜录量<100的新站很难出这个沙盘。

    你现在就是保持原创内容和更新率就可以了,一个月以后就会有效果。原来是你是北京东城区的…

  4. xiazhi

    ixiazhi.cn 上约有 1,080 项符合的查询结果,以下是第 1 - 10 项

    好像还不错哦!

  5. Ryan Lee

    我真佩服你诶……
    1080项……至少有8、900是补充材料……
    要做到没有补充材料……难……
    要多到你这种地步……也不容易……

  6. xiazhi

    = =!补充资料是什么意思?你看你能不上下QQ OR MSN!

  7. SEO的盘子

    除了2篇刚建站时候随手贴的文章外,目前都是原创,每天保持2-3篇的更新。
    我是在北京东城,你有认识人?

say