搜索引擎对网页收录的原理解析
在互联网中,URL是每个页面的入口地址,蜘蛛程序就是通过URL来抓取页面的,可以得知URL是页面入口,而域名是网站入口,搜索引擎就是通过域名进入网站,挖URL资源,换而言之,搜索引擎在互联网中抓取页面的首要任务就是要有很多域名列表,再通过域名进入网站抓取网站中的页面。http://www.yixiin.com/brand/
对于SEO而言,想被搜索引擎收录,首要条件就是加入搜索引擎的域名列表,常见方法有1。利用搜索引擎提供的网站登录入口,提交自己的域名,这种方法比较被动,时间比较长。2.通过与有质量的外链,使搜索引擎在抓取别人的网站页时发现我们的网站,这种方法主动权在我们手上,只要有足够多的外链且收当速度比较快。
当我们了解我们的网页想被收录,我们应当怎么做的时候,我们再来了解页面收录的原理?页面收录原理能够把握放慢网站被收录的办法,从而改善搜索引擎收录的数目,假设把一个网站页页组成的页面看作一个有向图,沿着页面中的链接,依照某种特定的方法对网站中的页面停止遍历,不停地从URL列表中移出曾经访问的URL,同时提取原始页面中的URL信息,再将URL分为域名和外链URL二大类。
搜索引擎收录页面的方式主要有“广度优先”“深度优先”“用户提交”三种。1.首先蜘蛛从网站首页出发,抓取首页上所有的
链接指向的页面,形成页面集合A,并分析出A中所有页面中的链接,再跟踪这些链接抓取下一层的页面,形成而面集合B,就这样一层一层解析链接,再延伸到深层页面,直到满足某个设定的条件才停止抓取进程。
2.与广度优先相反,深度优先首页会抓取风站的首页,并提取首页中的链接,再沿着其中的一个链接抓取到页页A-1,同时获取A
-1中的链接并抓取页面B-1,获取B-1中的链接并抓取页面C-1如此不断地重复,再从A-2开始抓取。http://www.yixiin.com/news/