网址规范化问题包括主域名的规范化和页面URL地址规范化两个方面,主域名的规范化需要规范化。另外是内页URL的规范化,通常为了让搜索引擎能够更好的抓取网站内容,我们会将URL进行伪静态处理,而一般的网站伪静态之后,原始的动态URL依然存在并能够访问,这样就造成了多个URL访问相同网址。http://www.yixiin.com/news/
2,网站结构
很多网站在结构设计之初并没考虑SEO方面的因素,结果是导致造成各种页面版本,比如产品按价格,评论,时间排序等,特别是一些电子商务网站,这种页面重复现象尤为严重。
3,内容的其他版本
很多网站除了提供正常的版本之外还提供一些其它的浏览版本,比如打印版本或者简版,却并没有禁止搜索引擎去抓取这些页面,而这些页面也因此变成了重复内容页面。
4,URL任意加字符还是返回200状态码。
一些网站是因为网站程序和技术的原因,用户在URL参数后面随意加上一些字符都能够正常访问,并且页面是和没加之前的完全重复。
检查页面是否有重复版本有一个比较简单的方法,就是将内容随机选择一句话加双引号后进行搜索,从结果中就可以看到有多少个重复的页面。因为通常来说随机选一句话进行搜索完全生命的机率是比较小的。
重复内容的危害
很多做SEO的存在一个误区,那就是认为如果网站上有重复内容就会被搜索引擎惩罚,其实倒没有这么严重,搜索引擎会在所有的重复页面中选择一个认为最佳的版本去参与排名,其它相似的内容不会同时拥有排名。
那么问题也就来了,第一,搜索引擎如何去判断哪个页面是最正版的,是否和网站管理员想推荐的页面一致,如果搜索引擎判断失误,把原创的页面当成了复制内容,复制页面当成了原创页面,而你在进行推广的过程中却是原版,那就是做了无用功。另外同一个网站内的页面存在多个复制内容会分散页面权重,既然页面在网站上出现了,就必然会有链接链向这个页面,而如果链接是统一的,那以全部的权重都可以进行集中,同时相同页面的收录在一定程度上也占用了搜索引擎蜘蛛的抓取精力,减少了原本真正需要进行抓取页面的收录机率。http://www.yixiin.com/photo/