搜索引擎想判断原创性,至少具备以下
对于各大搜索引擎,谷歌毫无疑问是最大最先进的,http://www.258sww.com/news/但是但现在还没从谷歌看到一种有效的方式来判定原创,抄袭文章还是很多,尤其是伪原创。
一篇文章发表出来,如果发在低权重的网站,且文章短时间被被人发布到高权重网站,搜索引擎会先收录权重高的,在收录低权重的,这样会认为是是权重高的那个抄袭权重低的那个,显然,这样不公平。还可以通过文章发布的Timestamp做参考,但是搜索引擎也不知道原创发布的那个时间是不是假的。一般情况下,都是几个网站同时抄的,这样情况更复杂。
假设搜索引擎可以判断原创性,它是怎么启动的,难道是实时都开启判定程序去抓取网页?然后放在服务器里一个个分析?也不知道相似度达到多少才算抄袭。我们写论文也有引用的时候,更何况只是经验文章。
所以,搜索引擎想判断原创性,至少具备以下:
① 对所有网站(无论权重高低),能在文章发布第一时间抓取网站更新;
② 有足够多且稳定的服务器做分析对比;
③ 有自己一套精确算法
就算具备以上条件,也无法准确判定原创,搜索引擎本质是服务用户搜索信息的,用户看到好的文章就转载,而对于是否原创则不太关心。打个比方,去菜市场买几个鸡蛋,我们只买好的,谁会去研究这个蛋是哪个母鸡生的呢。http://www.258sww.com/