1. Flash动画 有的朋侪会问,为什么Flash是蜘蛛陷阱的一种,实在这个标题很简单,就是由于蜘蛛辨认不了Flash,很多网站喜好在首页做一个Flash动画然后再跳向HTML页面,用户可以访问网站看完片头后被转向得真正的HTML网页。但搜刮引擎蜘蛛呢?蜘蛛是不能通过这个Flash跟踪到HTML版本页面的。http://www.yixiin.com/这就是一个陷阱,拦截了蜘蛛继承抓取网站。假如Flash结果是必须的,木木搜刮引擎优化发起在首页Flash文件之外加上一个通往HTML版本的链接,如许蜘蛛可以跟踪这个链接抓取反面得HTML页面。 2. JS链接 Javascript可以创造出很多吸引人得视觉结果,有些网站喜好利用Javascript脚本天生导航体系。这也是比力严峻得蜘蛛陷阱之一。蜘蛛敷衍js也是辨认不了的,敷衍js殊效可以到场网站,也可以将不必要被抓取的链接放入js,但是必要举行爬行抓取的链接肯定不能放入JS,这会造成蜘蛛不能继承爬行,同时js也不要太多,可以专门建一个js文件。 3. 动态URL 我们说如今蜘蛛是可以抓取部门URL链接的,但是动态URL是数据库直接天生的,有的带了问号、等号等多个参数。这类网址不但倒霉于搜刮引擎蜘蛛爬行,而且还大概造成蜘蛛的死循环,这是一个致命的蜘蛛陷阱。以是大多数情况都是发起各人网址静态化。 4. Session ID 有些网站为了跟踪用户访问利用Session ID,每个用户访问网站时都市天生奇特唯一得Session ID,也即ID。这个ID都是加在URL中,搜刮引擎蜘蛛的每一次访问也会被当成一个新得用户在URL中会加上一个差别的ID,如许蜘蛛每次来访问时所得到的同一个页面会是一个不一样的URL。结果就很显着,如许一来会产生复制内容页面,造成了高度重复的内容页。 5. frame框架 框架结构对蜘蛛来说和Flash、js一样都是一道墙,框架结构也会拦阻搜刮引擎蜘蛛的爬行和抓取,让蜘蛛掉进陷阱。 6. 要求登录 这个是很常见的,有些网站内容放在必要用户登录之后才气看到得到,设置有的整个网站只能登岸进入后才气看,这敷衍用户固然没什么,而敷衍蜘蛛就造成陷阱,为什么?由于蜘蛛不能填写用户名、暗码、也不会注册,自然而然,蜘蛛不能进来抓取你的内容,以是除非是VIP内容大概是不必要蜘蛛抓取的内容,别的的应该对蜘蛛公然,如许才气抓取。 7. 欺压利用cookies 有些网站为了实现某种成果、如记取用户登录信息、跟踪用户访问路径等、欺压用户利用cookies、用户欣赏器假如没有启用cookies、页面体现不正常。搜刮引擎蜘蛛就相称于一个禁用cookies得欣赏器、欺压利用cookies只能造成搜刮引擎蜘蛛无法正常访问