搜索引擎如何对网页去重



  我们都知道搜索引擎对于原创内容都是比较喜欢的,如果网站的内容都是炒过来的话,就会让网络上出现大量相关的信息,用户没有一个好的体验,这是我们不希望看到的,所以搜索引擎需要对重复内容会不予抓取。


QQ截图20171023152040.jpg


  目前, 网页去重代表性方法有3种。

  1)基于聚类的方法。该方法是基于网页文本内容以6763个汉字作为向量的基, 文本中某组或某个汉字所出现的频率就构成了代表网页的向量, 通过计算向量的夹角确定是否是相同的网页。

  2)排除相同URL方法。各种元搜索引擎去重主要采用此方法。它分析来自不同搜索引擎的网页URL, URL 相同, 即被认为是相同的网页, 可将其去除。

  3)基于特征码的方法。这种方法利用标点符号多数出现在网页文本的特点, 以句号两边各5 个汉字作为特征码来唯一地表示网页。

  三种方法中,第一种和第三种大多数还是基于内容来判定,所以很多时SEO人员会通过伪原创工具来修改文章内容,但是很多时候伪原创工具会将原文改的不通顺,这样也不利于排名与收录。

  也有网站利用搜索引擎的漏洞,比如权重高的网站进行恶劣采集,因为权重高的网站蜘蛛会优先抓取,所以这种做法会不利于一些权重低的网站。

  以上内容由星若传媒为您提供!更多有关网站建设、网站制作、网络营销推广、全网营销外包等互联网应用服务都可以联系我们!

深圳市星若文化传媒有限公司

公司网址:http://www.xingruocm.com

地址:深圳市福田区深南路与彩田路交汇处嘉麟豪庭B座2601

邮编:518000

官方微信:xingruocm

建议及投诉电话:0755-82842769

全国免费热线

0755-82842769

手机号码:15817491573