第一,搜索引擎基本原理介绍。简单的说包含三个方面,抓取,索引,排序。搜索引擎派出一个能够在网上发现新网页并抓取文件的程序,也就是我们通常所说的spider。搜索引擎从已知的数据库出发,就像正常用户的浏览器一样访问这些网页并抓取文件,这些新的网址会被存入数据库等待索引,那么,索引是什么?spider对于抓取到的页面文件分解、分析,并且提取出有效的网页信息,比如,网页标题内容,关键词出现的位置等,将这些信息存放在自己的索引数据库中,这个过程即是索引。从索引数据库中找出所有包含搜索词的网页,并且根据排名算法计算出哪些网页应该排在前面,当然这个过程是非常复杂的,经过复杂的计算,然后将排序结果返回给用户,那么,就是我们看到的,通过百度搜索返回的网页排名了。对于站长而言,我们如何从这三方面去分析自己的网站呢?
第二,首先要尽可能的让百度抓取到网页内容。通过上面的分析我们看到,抓取是排名获得的第一步,作为站长我们应该尽可能的让自己的站点更多的链接被搜索引擎抓取到,那么,抓取的要点表现在那些方面呢,就站内而言,笔者认为主要是网站的链接结构,链接结构体现这蜘蛛的访问路径,链接尽可能的清晰明了、简短有利于蜘蛛的爬行,举例说明,笔者自己的网站为例子,笔者将内页放在一个栏目文件夹内,栏目的命名以自己的核心词蓝田玉的拼音(lantianyu)为栏目名称,如图。
路径优化体现在两点,首先,路径非常清晰明了,其次,路径名称必须包含一定的意义,最好和主站关键词吻合。而一些不利于抓取的路径,笔者举例说明,一些大段的动态网页参数文件,多层嵌套表格等。为了布局而额外增加的代码等。所以,抓取的要点我们清楚之后,继续第二点索引。
第三,索引优化的要点分析。索引是蜘蛛建立url信息库的关键,那么,索引主要取决于那些要点呢?首先,抓取url并提取有效信息。通过路径得到链接的内容信息这个是第一步,其次,搜索引擎的切词分词技术,包括正向切词,反向切词,关键字最少化切词等,最终得到一组有效的关键词词库和关键词出现的位置。最后,将得到的目标关键字的词库与所在的位置建立一个对应关系的文件,最终将这些对应关系的文件存放在数据库中,通过以上分析,那么,索引优化的要点在意那里,必须为每一个可识别的url填写一些有价值的信息,常见的有锚文本链接的关键词、alt图片的标签、三大标签的书写等,主要原则就是为每一个路径做好详细的链接标题和对应的内页,有了这些信息,无疑对应搜索引擎高效建立索引地址库是非常有裨益的。
第四,搜索引擎的排序算法分析。最后一个步骤就是排序分析了,表现最为明显的一点就是相关性算法,搜索引擎会依据第三步索引的流程找出搜索关键词与页面最为匹配的网页进行优先排序,那么,具体有那些参数呢?首先,网站关键词与文章相关程度。也就是我们通常所说的内容页优化的细节是否完整。其次,依据链接的权重高低对比分析。同样的页面url链接权重的高低对于排序算法也是非常有影响的,也就是大家经常操作的外部链接建设,投票原理的作用。最后,网站整体用户体验度。百度依据网页的用户停留时间、网页粘度等综合分析,最后给出一个比较理想的结果排名。
以上就是笔者今天为各位分享的内容,旨在抛砖引玉,搜索引擎基本原理笔者认为比上述介绍要更加复杂,尤其是索引和排序算法更是搜索引擎的核心机密,作为站长我们只能通过一些浅显的蛛丝马迹去分析搜索引擎对于网页考核的侧重点,搜索引擎不断提升算法,我们也要在不同的时期对于优化节奏不断的去调整