体积虽小,作用巨大。运用好robots.txt文件,利用相关指令,引导搜索引擎爬虫,是很有必要的。所以,我们有必要将robots.txt文件作为一个专题来学习,以下是百度搜索中心对于robots.txt文件的相关说明和使用方法,如果你是新手,那不妨快速浏览一遍,再认真温顾一遍,再踏踏实实的实践一遍。http://www.yixiin.com/news/
禁止搜索引擎收录的方法
1. 什么是robots.txt文件?
搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明 该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
2. robots.txt文件放在哪里?
robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站时,首先会检查该网站中是否存在这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。
http://www.yixiin.com/news/kuaixun/201808/yxw2079775.html
http://www.yixiin.com/news/jinriredian/201808/yxw2079772.html
http://www.yixiin.com/news/remen/201808/yxw2079771.html
http://www.yixiin.com/news/shehui/201808/yxw2079764.html
http://www.yixiin.com/news/wangluoredian/201808/yxw2079754.html