首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;
其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;
最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。http://www.yixiin.com/sitemap/index-htm-mid-5.html
百度如何判断内容相似,是根据上下文意思,根据所表达的中心思想,还是文字的相似。
如果是根据表达的主题,那很多内容,不同的人所写,内容不同,但是主题相同,是不是也被当成相似呢;
如果是文字的相似,那传说中,将原先内容,通过自己的话,再写一次,是不是就成了原创呢;
如果是上下文,那对文章重新组合,再替换关键词,例如许多伪原创工具,是不是也很独特呢?
当然,任何一种算法,都会考虑,N种可能,Q猪的观点,任何一种原创,http://www.yixiin.com/company/news-htm-more-1.html都必须要有自己独特的观点在里面,要有自己独特的视角,一篇文章中,属于本人的原创观点,要占最重要的位置。