MSR-ISRCCrawler

5月7号侦测到一个没有见过的新蜘蛛访问我的地盘,它的User Agent很简单“MSR-ISRCCrawler”,每次来都先访问robots.txt,在接下来的3~8分钟访问20~40个页面,然后要隔1~3天来回访。我对robots的控制是比较严的,像InetURL、Indy Library、larbin等都被我写进了.htaccess屏蔽掉。MSR-ISRCCrawler也引起了我的警觉。

MSR-ISRCCrawler来自两个IP:131.107.65.41和131.107.151.93。让我惊奇的是这两个IP都属于微软公司,那MSR就是微软研究院(Microsoft Research)的缩写,ISRC是什么意思有点挠头。Google一下:国际标准录音录影资料代码(International Standard Recording Code)?不会吧…看到这个蜘蛛在有些地方的UA是“MSR-ISRCCrawler/Study of Soft 404 Responses”,那我就猜ISRC stand for ‘Internet Status Response Code’。

微软要出新搜索了?应该不会,那边和Yahoo还谈着呢,虽然谈的有点僵…看了webmasterworld的一些说法,MSR-ISRCCrawler应该是微软live search的一个辅助,用来判断页面是搜索引擎需要的或者是Soft 404状态。wiki对Soft 404解释如下:

Some websites report a “not found” error by returning a standard web page with a “200 OK” response code; this is called a soft 404. Soft 404s are problematic for automated methods of discovering whether a link is broken.

看来并不需要把MSR-ISRCCrawler写进.htaccess.

相关文章:
  1. Wordpress SEO主题篇之headings
  2. SuSE Linux编译安装aMule CVS
  3. QQ与Dell的USB键盘不兼容
  4. Wordpress SEO - 自定义页面内容
say