难点一:链接数量多与内容数据量大 http://www.yixiin.com/news/list-6934.html
蜘蛛爬虫在每个网页上爬行,收集文本和链接,至少有3,700,000,000,000个互联网网页链接。
链接分析:对蜘蛛找到的所有页面之间的联系进行评析。
每个页面平均有72.4个链接,14%外部链接,2.2%nofollow链接。
语义分析:根据蜘蛛在页面上找到的单词,对每个页面进行归类。
数字世界的总量约为1.8 Zettabytes
1 Terabyte = 1024 Ggabytes
1 Petabyte = 1024 Terabytes
1 Exabyte = 1024 Petabytes
1 Zettabyte = 1024 Exabytes
用宽带也要91,324年才能下载完
难点二:搜索引擎响应速度要快
2012年5月,埃里克.恩吉(Eric Enge):搜索引擎索是被设计用来将最佳答案的快速检索传送给任意的搜索查询。
每秒钟大约有61,000次互联网搜索,搜索查询的响应时间平均 0.4秒。
难点三:搜索引擎需要处理的请求多
全球网民数量约为2,267,233,742,地球人口约为7,009,000,000,全世界人口中有32.3%使用互联网。
全世界主要的互联网人口分布情况:亚洲、非洲、欧洲、拉丁美洲/加勒比海、北美、中东、大洋洲/澳大利亚
亚洲人口基数最大,将近4,000, 000,000,网名数量大约占比总人口的25%,非洲人口将近1000, 000,000,网名占比较低;欧洲人口将近800,000,000,网名数量约60%,拉丁美洲70,000,000,网名占比约35%;北美总数约 350,000,000,网民占比80%;中东人口基数约150,000,000,网名占比30%;大洋洲人口不到30,000,000,网盟占比约 75%。
难点四:搜索引擎需要理解很多网站与系统
如果只有一个人访问一家网站非常容易理解!事实上……理解起来真的很难!http://www.yixiin.com/spread/
搜索引擎算法开发人员在不断开发分析网站的软件,网站开发团队利用成千上万的开发工具,目前已经有276个开源CMS平台。这两个团队要进行一个协调,就好比互联网有个TCP/IP协议,双方需要共同努力让搜索引擎系统理解。
难点五:互联网流量越来越大
到 2016年,互联网总流量将超过100,000Petabytes/月,全球互联网流量增长2000~2005年基本持平,且数据量不大。 2005~2016年数据将几乎呈现30°斜直线发展,2012年互联网流量不到50,000Petabytes/月,而到了2016年,数据流量直接翻倍。这就是长尾效应。