做网站的王道就是内容和外链,而相比起外链的构建,网站内容的添加有时更让站长们头痛。原创内容大家都知道是好东西,就是不容易弄到,自己写的话会耗费大量的时间,也不一定写得好。而一味采集和重复别人的内容的话,就会变成搜索引擎所讨厌的垃圾站。伪原创就是介乎于两者之间应运而生的。所谓的伪原创,简单来说就是欺骗搜索引擎,让它以为你转载的内容就是原创内容。
伪原创的方法一般是在原作者的文章上修改标题,替换同义词,增加或删减一些语句,重写首段和尾段,修改段落的次序等来达到区分原来文章的目的。很多人认为,只要经过以上这些步骤的修改,文章就成为独一无二了,搜索引擎也认不出那是别人的文章,伪原创也就能成功过渡成原创。但我不禁要问了,这是不是我们的一厢情愿啊?搜索引擎真的认不出吗?它又是怎样判断文章是转载还是原创呢?
其实我们可以用一个简单的模型来解析搜索引擎如何判断内容是否转载。搜索引擎会把收录在数据库两个相近内容A和B各分成N块独立的区域,并对其一一比较,当这些区域相同部分的数目超过了搜索引擎所设定的阀值M时,搜索引擎就会认为A和B是互为转载的内容。这里把内容分成N块区域,就是指搜索引擎的分词技术,而判断重复区域是否超过阀值M,就是指搜索引擎的索引技术。当然,N和M的值是搜索引擎自己的算法设定的,不同的搜索引擎也不同,我们更是无法知道,不过我们可以从上面的模型窥探出很多有用的东西。
首先,N值和M值决定了搜索引擎判断转载内容的能力。当N值越大,M值越小时,搜索引擎辨别转载内容的能力就越高;反之,就越低。而这两个值是由算法间的协调,算法所消耗的资源等多方面决定的,所以搜索引擎不会一味追求高的辨别能力。
其次,从模型中可以看出上面所提到的伪原创办法对搜索引擎并奏效。搜索引擎是通过分区来判断内容的重复性,跟内容的次序没有关系,所以修改段落次序的方法是肯定行不通。而其他的几种伪原创方法,包括增减、替换和重写内容等,它们有效性一定程度上由N值和M值大小决定。考虑到搜索引擎发展至今,算法已经相当成熟,判断内容重复的能力也相当有效,所以简单的增加删除内容或替换部分内容并不能让搜索引擎当做原创。
简单的来说,要让搜索引擎认为我们的内容是原创内容,我们的内容就要有明显的区别,就是大部分都得改。