网站被模仿采集产生相同内容的网页 网站SEO优化 安仔SEO优化网
轻松走上SEO巅峰,从这里开始
为SEOer免费提供最有效的SEO优化知识,期待将来的SEO界是精英的对决!
当前位置:安仔SEO优化网 > SEO优化 > 网站SEO优化 > 浏览优化
网站SEO优化

网站被模仿采集产生相同内容的网页

Tags:网站,模仿,采集,产生,生相,相同,内容Time:2014-12-24Contents:网站SEO优化Browse:81Type:转载

相同内容的网页:意思就是两个网站的内容超过80%以上是一样的。互联网充斥着大量重复的网页,这些网页内容高度相似。随着搜索引擎越来越智能化,现在复制内容有了变化,两篇或者多篇网页内容意思一致,也被定位复制内容(两篇或者多篇文章,表达的一个意思,但是字面表达不一样,也可能被搜索引擎判断为重复内容)。现如今好多网站都被模仿采集相同内容的网页越来越多,真叫人揪心。

一、相同内容的网页是怎么产生的呢?

1、技术原因

网站网址URL不规范,未作标准化的问题会让一个网站内部产生大量复制内容,几乎每篇内容都会存在两篇以上的重复。多个域名指向一个网站被搜索引擎认为是重复内容。

2、网页正文太少

网页都有很多公共代码,比如网页的导航、网页的底部等这些是公共代码,,比如广告、版权声明、说明文字、如果网页正文太少,可能造成被搜索引擎认为是重复页面。

3、网站结构

是的,在大量的产品网站中根据产品的价格、上传时间、区间、评论等等因素进行排序的页面,相同产品都有不同的URL,造成至少三四个页面的重复。在博客中表现得很明显的是时间及分类存档,这些网站结构造成了各种页面版本,形成大量站内重复内容。

4、一个企业建设多个网站

比如好多企业站都会在一些b2b商业平台上建设公司信息网站,每个网站内容重复,比如公司介绍,公司的产品信息等重复。

5、新闻类网站

我朋友以前做一个新闻网站,直接用RSS生成他需要的内容,这让他觉得自豪,因为不用多大功夫就能获得完整时效的新闻。然而这些新闻内容已经在原文和其他网站上早出现上百次了,最后网站基本上没收录,宣布夭折。

6、一个网页提供多个版本

百度SEO优化
百度SEO优化

比如手机版本、提供word阅读版本等,相同的内容不同的版本,造成内容重复。

7、其他网站的RSSfeed来生成网站内容,有很多是重复网页。

8、人工恶意转载

互联网无时无刻不在恶意转载,转载别人的网页,而且去掉原始链接,我们去各类论坛,发现恶意转载充斥这论坛,可以说论坛上99%以上的内容都是转载的,造成大量复制内容。这应该是SEO行业内造成当前海量复制内容的最主要原因。各种转载,各种剽窃,还有镜像网站,采集等等。对于这一点没说明好说的,只是希望行业内的人士都应该具有版权意识。

9、各种采集软件

互联网上还充斥着各种采集软件,进行疯狂的采集,无时无刻都在制造大量垃圾页面。给大家找个例子:某一次民间SEO高手再用百度站长工具查询网站外联的时候发现好几条陌生的链接,因为我发外链的平台就那几个,网址都认识的。然后就点进去看了,就发现这个有意思的网站,上面的内容完全采集于A5。他正好采集了我在A5留言板给人的留言,上面有链接地址所以被收录了。

10、善意的转载

转载带上原创的来源,包括作者自己的转载。好比当前我发现一篇写的很棒的文章时候,就会转载到自己的博客去,那我的朋友看到了这篇文章,觉得也很棒,那也就有可能转到自己的博客或者空间,就这样产生了重复的内容。从动机来说都是无意的,不是邪恶的。

11、http状态码问题

我举例说明,一个用phpwind论坛程序做的论坛,一个具体帖子URL是http://www.seoyhw.com/index.asp?tid=137,如果不做技术处理,tid后面的数字换成任意的上千上万比如100000,服务器依然返回200状态码,与原来的tid=137内容一样,这点会造成恐怖的站内重复内容。菜鸟一定要注意。

二、模仿采集相同内容的危害:

用户喜欢看不同的内容,来扩展阅读,如果点击多次都是采集内容,严重伤害用户体验,搜索引擎为了提高用户体验,限制模仿采集网页的排名。搜索引擎在判定是否拥有原创主权的时候更加偏向于高权重的网站,所以如果小站的原创文章被采集到高权重的站发表,若是让搜索引擎判断,肯定是你抄袭人家的,而不是高权重的站抄袭你的。目前搜索引擎在判断原创的时候失误率也算比较高的,很多站长对此感到无奈,辛辛苦苦做的原创被别人剽窃发到其他网站,转瞬之间被收录,而自己网站上的原创页面看起来就像是受到惩罚了,因为搜索引擎判断原创失败,没有给予我们应有的分数。不过一般高权重的站管理比较严格,若是又发现网站内容被侵权可以联系管理员删除内容。

三、搜索引擎对相同内容的态度:

关键词排名
关键词排名

网站适当的模仿采集,搜索引擎不会处罚该网站,如果网站整站采集或者网站采集比例太高,造成网站是低质网站,可能被搜索引擎处罚。搜索引擎为了鼓励原创,对于原创内容一般给予好的排名和收录,对于采集网页,可能降低排名或者不予收录。由于判断网页是否原创的技术比较复制,因此搜索引擎很容易误判,把原创的内容当成采集内容,把复制的内容当成原创内容,比如高权重的网站转载一个低权重的网站,搜索引擎很可能误判把高权重的内容当为原创内容。这种情况是经常发生的,比如一个门户网站转载了企业网站的信息,造成企业网站该网页搜索引擎不收录,但是门户网站收录和排名都非常好,这就是搜索引擎误判造成的。

四、搜索引擎判断原创的一些方法

1、收录先后时间,搜索引擎一般把第一个收录的网页,当成原创网页。

2、通过网页上的锚链接或者网址,判断该网页的原创。

3、网页的出身,网站整体权重越高搜索引擎判断为原创的几率越高。

五、如何消除重复内容

网站要解决复制内容其实是非常麻烦的,因为你可以控制自己的网站,但你无法控制互联网上的其他网站,对于SEO来说,我们只能做到下面两点:

1、在自己的原创内容之中加入版权声明,要求转载保留指向原始页面的链接,原创版本的外部链接应该会比转载的多,对目前的搜索引擎技术来说,这是最重要的判断信息了!

2、坚持原创,网站坚持原创,好处巨大,只要能够坚持一定的时间,网站的权重必定增加,加上网站良好的独特内容给搜索引擎留下的深刻印象,网站之中的内容被判断为原创的机会大大增加。

3、网站每有内容更新,应该立马向百度提交新页面,做好外链指向,这样很有可能让搜索引擎尽快的抓取到你的新页面。但若是新站的话只是这样去做还是大大的不够的。

如果经过以上办法,SEO和站长依然无法解决采集的问题,甚至发现有网站大量抄袭你的内容,造成原创内容全部失效,你也可以主动的去和对方接洽,通过各种手段,比如交际=投诉到空间商、甚至向搜索引擎投诉,在比较不重视版权的中文互联网环境之中,这的确是非常棘手的问题。无论如何,真心希望我们的行业越来越走向规范化。

SEO优化网提示:本文转自【阿峰SEO】

转载《网站被模仿采集产生相同内容的网页》请注明出处:安仔SEO优化网!