1、网页蜘蛛(Spider)
网页蜘蛛(又被称为网络爬虫,网络机器人,搜索引擎蜘蛛),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。
2、蜘蛛陷阱(Spider trap)
“蜘蛛陷阱”是阻止蜘蛛程序爬行网站的障碍物,通常是那些显示网页的技术方法,目前很多浏览器在设计的时候考虑过这些因素,所以可能网页界面看起来非常正常,但这些蜘蛛陷阱会对蜘蛛程序造成障碍,如果消除这些蜘蛛陷阱,可以使蜘蛛程序收录更多的网页。
3、抓取频次
抓取频次是搜索引擎在单位时间内(天级)对网站服务器抓取的总次数,如果搜索引擎对站点的抓取频次过高,很有可能造成服务器不稳定,Baiduspider 会根据网站内容更新频率和服务器压力等因素自动调整抓取频次。
4、索引(Index)
俗称“预处理”。蜘蛛抓取的页面文件分解、分析,并以巨大表格的形式存入数据库,这个过程即是索引。在索引数据库中,网页文字内容,关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录。
5、站点索引量
站点中有多少页面可以作为搜索候选结果,就是一个网站的索引量。站点内容页面需要经过搜索引擎的抓取和层层筛选后,方可在搜索结果中展现给用户。
6、网页快照
搜索引擎在收录网页时,对网页进行备份,存在自己的服务器缓存里,当用户在搜索引擎中点击“网页快照”链接时,搜索引擎将 Spider 系统当时所抓取并保存的网页内容展现出来,称为“网页快照”。
7、网站权重(Page Strength)
网站权重是指搜索引擎给网站(包括网页)赋予一定的权威值,对网站(含网页)权威的评估评价。一个网站权重越高,在搜索引擎所占的份量越大,在搜索引擎排名就越好。其中有几点需要注意:
A、权重不等于排名
B、权重对排名有着非常大的影响
C、整站权重的提高有利于内页的排名。
8、网站降权(Rightdown)
利用搜索引擎策略缺陷,以恶意手段获取与网页质量不符排名,而引发搜索结果和用户体验下降的行为都会被搜索引擎视为作弊行为,处罚原则:对用户体验及搜索结果质量影响不大的,去除作弊部分所获权值,对用户体验及搜索结果质量影响严重的,去除作弊部分所获权值并降低网站权重,直至彻底清理出搜索结果。
9、K 站
所谓百度 K 站便是封杀了你的网站,你的收录会是 0,从百度搜刮引擎上基础就找不到你的网站痕迹。K 站可以说是给百度冻结了,通常需要很长时间才能恢复。
10、Alexa 排名
它是指网站的世界排名,主要分为综合排名和分类排名,Alexa 提供了包括综合排名、到访量排名、页面访问量排名等多个评价指标信息,大多数人把它当作当前较为权威的网站访问量评价指标。
11、Robots 协议(也称为爬虫协议、机器人协议等)
全称是“网络爬虫排除标准”(RobotsExclusion Protocol),网站通过 Robots 协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
12、网站地图(sitemap)
网站地图,又称站点地图。一般有两种常用的格式,一种是 xml 格式的,一种是 html 格式。其中 html 多为静态页面,用于给用户展示,帮助用户更好地在网站搜索需要的内容。而 xml 格式多用于提交给搜索引擎,供搜索引擎抓取网页页面。
13、沙盒效应(Sandbox)
由最主要的搜索引擎 Google 所决定的搜索引擎结果页面(搜索结果)中,新发布的网站排名越来越低。这一现象被称为“沙盒效应”。它们会对那些链接流行度迅速攀升的网站进行冷处理以防止SEOer过度优化。
http://www.yixiin.com/news/list-6928.html
http://www.yixiin.com/quote/list/3471/
http://www.yixiin.com/news/list-1831.html
http://www.yixiin.com/quote/list/3480/
http://www.yixiin.com/news/list-1839.html