爱上robots.txt的Yahoo Slurp

Yahoo Slurprobots.txt这个文件的喜爱实在是让人啼笑皆非,不管是英文雅虎Yahoo! Slurp;还是中文雅虎Yahoo! Slurp China;。随便截取昨天的4个小时访问记录如下:


74.6.75.28 - - [23/Apr/2007:19:29:18 -0500] “GET /robots.txt HTTP/1.0″ 200 619 “-” “Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
72.30.226.171 - - [23/Apr/2007:19:31:19 -0500] “GET /robots.txt HTTP/1.0″ 200 619 “-” “Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
74.6.75.36 - - [23/Apr/2007:20:01:20 -0500] “GET /robots.txt HTTP/1.0″ 200 619 “-” “Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
72.30.226.172 - - [23/Apr/2007:20:18:22 -0500] “GET /robots.txt HTTP/1.0″ 200 619 “-” “Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”


202.160.178.101 - - [23/Apr/2007:20:25:17 -0500] “GET /robots.txt HTTP/1.0″ 200 619 “-” “Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)”
202.160.178.209 - - [23/Apr/2007:20:25:52 -0500] “GET /robots.txt HTTP/1.0″ 200 619 “-” “Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)”
74.6.75.28 - - [23/Apr/2007:20:29:05 -0500] “GET /robots.txt HTTP/1.0″ 200 619 “-” “Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
74.6.75.36 - - [23/Apr/2007:20:29:06 -0500] “GET /robots.txt HTTP/1.0″ 200 619 “-” “Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
74.6.75.28 - - [23/Apr/2007:21:32:31 -0500] “GET /robots.txt HTTP/1.0″ 200 619 “-” “Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
74.6.75.36 - - [23/Apr/2007:21:49:56 -0500] “GET /robots.txt HTTP/1.0″ 200 619 “-” “Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
74.6.87.30 - - [23/Apr/2007:22:00:21 -0500] “GET /robots.txt HTTP/1.0″ 200 619 “-” “Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
74.6.87.124 - - [23/Apr/2007:22:14:36 -0500] “GET /robots.txt HTTP/1.0″ 200 619 “-” “Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
74.6.75.28 - - [23/Apr/2007:22:58:12 -0500] “GET /robots.txt HTTP/1.0″ 200 619 “-” “Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
74.6.75.36 - - [23/Apr/2007:22:58:14 -0500] “GET /robots.txt HTTP/1.0″ 200 619 “-” “Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”

我大概的计算了一下,Yahoo Slrup昨天一共访问我的robots.txt 46次,我的Wordpress文章总数都还没有过100。这个访问次数确实多了一点,你倒是多去爬爬页面啊。有人推测是因为Yahoo Slrup不会记录robots.txt,所以每次来的时候都要先去看看robots.txt有什么东西我不能访问。不的不说这样有一点影响效率,按照Yahoo的技术,记忆robots.txt 24个小时不会是一个问题的。还好,至少Yahoo Slrup是遵守robots.txt的,和天杀的Baiduspider有本质上的区别。Baiduspider不顾限制访问全站,然后再按照robots.txt中的限制进行删除,难怪会有人说Baidu和我国 G O V 有关系,在审查互联网,搜索出不该有的关键词就上报,然后站点就被 G F W,我感觉这种可能性比较高……在robots.txt支持上,Googlebot胜出,谷虎度。

Spider: 以遵守robots.txt协议为荣 以匿名盗抓为耻》这篇文章写的也蛮有意思的,有空可以看看。当一个robot,要厚道。

越写越跑题了,总之是Wings of Mind,想到什么写什么,不一定要有条理,那就再说说在robots.txt中加入sitemap的方法,在robots.txt中加入一行:

  • Sitemap: http://ilihai.com/sitemap.xml

我是前天添加进去的,昨天Yahoo Slurp就首次访问了sitemap.xml:

  • 202.160.180.133 - - [23/Apr/2007:22:00:39 -0500] “GET /sitemap.xml HTTP/1.0″ 200 26172 “-” “Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)”

目前支持通过robots.txt获得sitemap.xml位置的搜索引擎有Google,Yahoo,MSN和Ask。嘿嘿,怎么百度不支持呢?坏事做尽,好事不来,一点都不厚道的百度。

相关文章:
  1. robots meta OR robots.txt
  2. Wordpress SEO - 链接结构
  3. 我的博客被百度封杀
  4. Baiduspider不支持noindex
  1. qianblogger

    really interesting spriders…

  2. billy

    今天 22 号, 在 21 天的时间里, Yahoo Slurp 使用了我 1.1G 的带宽, 是第二名 Google 10 倍还多, 搞不懂 Yahoo Slurp 在做什么?

say