第一、FLASH
有的网站整个首页就是一个很大的flash,这就构成了蜘蛛陷阱。搜索引擎住宅区的html代码只有一个链向flash文件的链接,没有其他文字内容。
还有网站在首页的banner就使用一个flash,并且添加活动链接,虽然对用户来说能够直观的看到活动内容,但是对于蜘蛛来说,就无法识别,而且抓取不到flash的链向地址。
第二、Session ID
有些网站使用sission ID(会话ID)跟踪用户访问,每个用户访问都会生成一个独特唯一的session ID,加在URL中。搜索引擎蜘蛛的每一次访问也会被当成一个新的用户,URL中会加上一个不同的session ID,这样搜索引擎每次来访问时所得到的同一个页面的URL将不一样,后面带着一个不一样的session ID。这也是最常见的蜘蛛陷阱之一。
第三、各种跳转
除了301跳转以外,搜索引擎蜘蛛对其他形式的跳转都比较敏感,如302跳转,javascript跳转、meta refresh 跳转。
如果必须转向,301转向是搜索引擎推荐的、用于网站更改的转向,可以吧页面权重从旧网址转移到新网址。其他的转向方式都对蜘蛛爬行不利。所以除非万不得已,尽量不要使用301转向以外的跳转。
第四、框架结构
使用框架结构设计页面,在网站诞生初期曾经听流行,但是现在网站已经很少使用框架了,不利于搜索引擎抓取是框架越来越不流行的重要原因之一,对于搜索引擎来说,访问一个使用框架的网址所抓取的html只包含调用其他html文件的代码,并不包含任何文字信息。搜索引擎无法判断这个网址的内容是什么。
总之,如果你的网站还在使用框架,或者你的老板要使用框架结构,唯一要记住的是,忘记使用框架这回事。和Flash一样,别浪费时间研究怎么让搜索引擎收录框架结构网站。
第五、动态URL
动态URL值的是数据库驱动的网站所生成的、带有问号、等号及参数的网址。一般来说动态URL不利于搜索引擎蜘蛛爬行,应该尽量避免。虽然百度现在已经能够识别动态URL了,但是也不能保证百分百能识别。
第六、javaScript链接
由于javaScript可以创再出很多吸引人的视觉效果,有些网站喜欢使用javascript脚本生成导航系统。这也是比较严重的蜘蛛陷阱之一,虽然搜索引擎都在尝试解析JS脚本,不过我们不能寄希望与搜索引擎自己去客服困难,而要让搜索引擎跟踪爬行链接的工作尽量简单容易。
jacascritp链接在SEo中也有特殊用途,那就是站长不希望被收录的页面,比希望被百度抓起的链接,可以使用javascript脚本阻止搜索引擎蜘蛛爬行
第七、要求登录
有些网站的内容需要用户登录后才能看到的页面,这部分内容搜索引擎是无法看到的。这个要注意确定是否是需要登录以后才能看到。
第八、强制使用cookies
很多网站为了实现某种功能,强制使用cookies,用户浏览器如果没有启用cookies,页面显示不正常。搜索引擎蜘蛛就相当于一个禁止了cookies的浏览器,强制使用cookies只能造成搜索引擎蜘蛛无法正常访问。
虽然现在搜索引擎在不断完善他的抓取功能,但是我们也要尽量避免不友好的页面,不然会给我们的网站带来不必要的麻烦。