目前围绕如何SEO的话题已经很多了,众多的中小网站希望通过SEO技巧来迅速提升流量,而做SEO的专家们也会宣传通过SEO之后,网站流量如何如何变化。

但是关于反SEO的话题似乎还不是很多,可能因为搜索引擎比较少吧,被少数几家公司垄断了关键技术,自然也就很少人关心。所谓反SEO问题就是如何识别网站的各种SEO技巧,从而将重复的内容排除出去,比如迅速识别采集站。这些网站通过关键词替换和标题修改,前后段落修改等功能,自动将采集来的信息以伪原创的方式发布出来,从而欺骗搜索引擎,提高其在搜索引擎里的排名和权重。

而作为搜索引擎,如何甄别采集到的内容,这是一个很迫切的需求,比如识别出重复内容,从而提高搜索结果的用户体验。

在中文信息处理过程中,可以通过相似度计算的方法来进行内容相似度判别,不过这种算法的复杂度一般比较大,不太适合实时搜索的场合。

[W3C标准与SEO的关系] [对Z-Blog进行SEO优化] [网站提交地址seo]