搜索引擎收录新网站资源有两种途径:一是通过蜘蛛索引 ,二是通过站长提交; http://www.yixiin.com/news/
网页收录流程:
优质资源被百度收录之后进入资源管理阶段。管理系统根据市场运营策略与资源特点等相关机制对资源进行统一管理。资源管理包括关闭显示、位置排序、时效性、图片时效性、资源监控、信任评估、生效时间段、确定性和框icon是否展现等。
我们详细讨论一下关闭显示与监控周期属性。资源内容不符合用户体验预期时,系统则会自动将该资源关闭,以达到线上不展现的效果;资源内容正确时,则重新打开资源,重新在线上展现。资源监控是指当资源出现访问异常、更新延迟或xml检验失败时,系统会进行报警,通知相关监控人员信息异常,如果是数据源的问题,则会通知由站长或应用开发者审核、评估与修复。
以上两点是资源的收录与管理的基本过程,相信大家对这些过程有了一定的了解。这些过程均是服务于用户需求检索的前期准备工作。接下来,有必要阐述用户query的需求识别与特殊结果展现相关的技术。
网页搜索呈现:
当用户在“框”中输入query后,搜索引擎将query发送至需求匹配管理模块,其请求数据分析词典进行解析,判断此query是否有特殊库需求,并将分析结果返回需求匹配管理模块。若有特殊库需求,则会将query发送至大搜索与特殊库检索,然后检索的结果进行封装返回至需求匹配管理模块,并且大搜索的结果也会返回至需求匹配管理模块。需求匹配管理模块对两种途径返回的结果进行归并处理,然后返回给界面管理模块。界面管理模块对来自需求匹配管理模块和其他各个产品线模块的结果进行最大匹配飘红和样式排列等处理,将生成的结果页面返回至搜索请求服务器,用户即可看到搜索结果。
搜索引擎工作原理
第一步:爬行
搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。
第二步:抓取存储
搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。
第三步:预处理
搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。http://www.yixiin.com/news/list-1837.html
⒈提取文字⒉中文分词⒊去停词⒋消除噪音⒌去重⒍正向索引⒎倒排索引⒏链接关系计算⒐特殊文件处理
第四步:排名
用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。