多站长都有查看网站日志的习惯,这么做的主要目的就是为了分析蜘蛛爬行网站的情况,当然其中多数站长也只是简单的了解一下当天蜘蛛爬行的次数,这一 点就足够发现问题了。有时候,我们会觉得自己的网站已经相当完美了,而正常优化过程中,蜘蛛却对此不感冒,让人很是着急。是什么原因导致搜索引擎不收录我们辛辛苦苦更新的内容呢?
了解原理就很容易理解,搜索引擎借助蜘蛛在互联网这张大网中 搜寻“猎物”,它唯一所能依据的线索就是链接了,找到新的链接后,根据复杂的算法最终对网站进行排名,储存在数据库中。很多网站可能会因为网站结构混乱失 去蜘蛛到访的机会,然而蜘蛛不访问网站的因素有很多,个人以为以下一些因素对搜索引擎索引收录网站内容具有比较大的影响:
图片、flash等内容过多
不得不说,搜索引擎发展到现在,已经比较的智能化了,去年google就推出了图片搜索功能,能够分析图片的色彩、像素比例而找到图片的出处。然而这项 技术对于搜索引擎完全的识别图片中的信息还有不小的差距,而很多站长或是不懂得搜索引擎优化,或是考虑网站美观和内容丰富,往往会在页面中嵌入大量高清图 片、flash,即使你的网站内容再好,蜘蛛也无法知道,只能绕道而行了。现在网络上有许多模拟蜘蛛抓取的工具,有类似情况的网站站长可以查询一下自己网 站的信息,看看蜘蛛能够发现的信息和人眼看到的有多大差距。
网站死链接过多
我们可以想象,蜘 蛛兴高采烈的来到你的网站,开始逐个链接的搜寻,以为发现了一堆好的内容,然而却是一堆打不开的链接等着她,一次、两次、三次,每次来都是这种情况,所以 她生气了,就再也不会访问你的页面了。大部分的网站都存在死链接,只要我们能够及时的发现并清除掉就没有问题了,也可以查看你 的网站日志,发现返回404状态码的一律清除。