目前我们的网站后台基本都提供一个默认的robots.txt文件,直接在服务器上的网站根目录中查看robots.txt文件,里面写了一些最基本的对搜索引擎的限制。
之前淘宝有这样一段禁止百度爬行的代码,后来取消了
User-agent: Baiduspider;Disallow: /;User-agent: baiduspider;Disallow: /
可以在我们服务器上直接查找到这个robots.txt文件,目的是保护服务器上的信息不被其他公司窃取,至少不让对方知道我们是用织梦后台还是CMS后台。
下面是VeryCMS里的robots.txt文件:
User-agent: * ;Disallow: /admin/ 后台管理文件 ;Disallow: /require/ 程序文件 ;Disallow: /attachment/ 附件 ;Disallow: /images/ 图片 ;Disallow: /data/ 数据库文件 ;Disallow: /template/ 模板文件 ;Disallow: /css/ 样式表文件 ;Disallow: /lang/ 编码文件 ;Disallow: /script/ 脚本文件
http://www.yixiin.com/news/list-6928.html
http://www.yixiin.com/quote/list/3471/
http://www.yixiin.com/news/list-1831.html
http://www.yixiin.com/quote/list/3480/
http://www.yixiin.com/news/list-1839.html