正规搜索引擎蜘蛛都会遵循互联网抓取规则,也就是国际互联网界通行的道德规范——Robots协议。(http://www.yixiin.com/news/)
蜘蛛在抓取网站内容之前,需要先解读根目录的Robots协议,以确定自己是否有权限抓取站内资源,否则很容易为自己惹上侵权纠纷,因为Robots是互联网公认遵守的规则,以保护用户隐私及网络安全,规则一旦被打破,将会为互联网带来不可估量灾难风险,所以蜘蛛访问网站的第一个文件是Robots.txt,其他流氓蜘蛛除外,如之前的360搜索引擎蜘蛛,详细资料可阅读“Robots协议”。