很多SEO新人朋友刚刚建立的网站说多长多长时间了就是不收录。实际网站收录是有一定的条件的。先来看一个朋友的网站案例:
这个网站3月份上线,每天不停更新文章,不停发布外链,但是始终不能被百度收录。http://www.yixiin.com/news/list-6953.html
百度收录原理:
首先搜索搜索引擎排出大量爬虫对网站内容进行抓取,顺着链接一边下载,一边提取链接,然后在进行过滤、去重、索引、建立结果等一系列算法,新手可以参考百度官方的《搜索引擎基础知识》,了解了这个过程才明确了百度收录的顺序。
所以,想要收录文章,除了组织好内容外,还要让爬虫进行抓取。
朋友的网站刚上线,下载了他的网站日志,通过日志分析工具分析出来最近几天的抓取情况如下:
每天蜘蛛访问次数都在增加,访问页面也在增加,但是抓取的页面都不是正规页面,全是一些无用页面,比如评论页面等,最大化的抓取都在首页,而且首页抓取完,全是抓取无用页面,想要收录还真的够难,未来顶多收录首页。尽在多努力,也还是不会被收录,打开网站一看,页面重要位置全是无用页面,网站程序也是影响收录的一个重要因素。
之前通过各种测试,了解了一个搜索引擎收录爬虫最起码的顺序大致如下:
1、访问robots.txt
2、访问首页
3、栏目页归档页站点地图
4、cssjs
5、内容页
基本抓取过这些页面以后才会更好的去根据算法决定是否收录,当然这个仅仅是蜘蛛抓取的顺序,其中的2、3、4顺序可能有不同的颠倒,但是一般一次收录至少要经历这几个过程,另外为什么要访问这几个顺序我就不在这里做过多解释了,在利为汇SEOVIP培训里面我会讲出来。另外,文章的页面价值也是影响收录不收录的一个关键因素,不在这个抓取顺序范围内。
所以,朋友的网站不被收录最重要原因在于,蜘蛛抓取深度不够深,而且没有完成有效的抓取,解决方法:修改程序,把一些没用的页面屏蔽掉,或者直接换一个比较利于抓取的模板更好,很多新手SEO人员,经常会遇到这个问题,所以最快的方法就是下载网站的日志用日志分析软件分析下每天有多少蜘蛛抓取你的网站这样子才能更有效果的做SEO。日志分析工具推荐:光年日志分析工具
问题1:现在换模板可以吗?
答:可以,因为蜘蛛基本没有访问过你的内页,就相当于之前写的文章对于搜索引擎来说还没遇到过,换模板不受影响。
问题2:蜘蛛抓取这个顺序怎么的来的? http://www.yixiin.com/news/
答:经过之前很多次百度;秒收;经验,通过研究蜘蛛抓取总结得来的,至于准不准确,自己可以测试看下。
http://www.vision411.net
http://www.haotounao.net