永定网络爬虫过程中5种网页去重方法简要介绍和指纹算法-创一网

永定网络爬虫过程中5种网页去重方法简要介绍和指纹算法

浏览量（77250）时间：2020-09-07

想做好网站收录，一定要了解去重算法和指纹算法，只有这样才能更好地做好原创网页，帮助网站促进收录，提升排名。对一个新的网页，爬虫程序通过网页去重算法，最终决定是否对其索引。

网页布局格式

一、近似重复网页类型，根据文章内容和网页布局格式的组合分为4种形式：

1、两篇文档在内容和布局格式上毫无区别，则这种重复称为完全重复页面。

2、两篇文档内容相同，但布局格式不同，则这种重复称为内容重复页面。

3、两篇文档有部分重要的内容相同，并且布局格式相同，则这种重复称为布局重复页面。

4、两篇文档有部分重要内容相同，但布局格式不同，则这种重复称为部分重复页面。

二、重复网页对搜索引擎的不利影响：

正常情况下，非常相似的网页内容不能或只能给用户提供少量的新信息，但在对爬虫进行抓取、索引和用户搜索会消耗大量的永定服务器资源。

三、重复网页对搜索引擎的好处：

如果某个网页重复性很高，往往是其内容比较比较受欢迎的一种体现，也预示着该网页相对比较重要。应予以优先收录。当用户搜索时，在输出结果排序时，也应给与较高的权重。

四、重复文档的处理方式：

1、删除

2、将重复文档分组

五、 SimHash文档指纹计算方法：

1、从文档中提取具有权值的特征集合来表示文档。如：假设特征都是由词组成的，词的权值由词频TF来确定。

2、对每一个词，通过哈希算法生成N位（通常情况是64位或更多）的二进制数值,如上图，以生成8位的二进制值为例。每个词都对应各自不同的二进制值。

3、在N维（上图为8维）的向量V中，分别对每维向量进行计算。如果词相应的比特位的二进制数值为1，则对其特征权值进行加法运算；如果比特位数值为0，则进行减法运算，通过这种方式对向量进行更新。

4、当所有的词都按照上述处理完毕后，如果向量V中第i维是正数，则将N位的指纹中第i位设置为1，否则为0。

一般的，我们想抓取一个网站所有的URL，首先通过起始URL，之后通过网络爬虫提取出该网页中所有的URL链接，之后再对提取出来的每个URL进行爬取，提取出各个网页中的新一轮URL，以此类推。整体的感觉就是自上而下进行抓取网页中的链接，理论上来看，可以抓取整站所有的链接。但是问题来了，一个网站中网页的链接是有环路的。

首先介绍一个简单的思路，也是经常用的一个通用思路。我们将已经爬取过的网页放到一个列表中去，以首页为例，当首页被抓取之后，将首页放到列表中，之后我们抓取子网页的时候，如果再次碰到了首页，而首页已经被抓取过了，此时就可以跳过首页，继续往下抓取其他的网页，而避开了将首页重复抓取的情况，这样下来，爬取整站就不会出现一个环路。

第一种以这个思路为出发点，将访问过的URL保存到数据库中，当获取下一个URL的时候，就去数据库中去查询这个URL是否已经被访问过了。虽然数据库有缓存，但是当每个URL都去数据库中查询的话，会导致效率下降的很快，所以这种策略用的并不多，但不失为最简单的一种方式。

第二种方式是将访问过的URL保存到set中去，通过这样方式获取URL的速度很快，基本上不用做查询。但是这种方法有一个缺点，将URL保存到set中，实际上是保存到内存中，当URL数据量很大的时候（如1亿条），会导致内存的压力越来越大。对于小型的爬虫来说，这个方法十分可取，但是对于大型的网络爬虫，这种方法就难以企及了。

第三种方式是将字符进行md5编码，md5编码可以将字符缩减到固定的长度。一般来说，md5编码的长度约为128bit，约等于16byte。在未缩减之前，假设一个URL占用的内存大小为50个字节，一个字节等于2byte，相当于100byte。由此可见，进行md5编码之后，节约了大量的内存空间。通过md5的方式可以将任意长度的URL压缩到同样长度的md5字符串，而且不会出现重复的情况，达到去重的效果。通过这种方式很大程度上节约了内存，scrapy框架采取的方式同md5方式有些类似，所以说scrapy在正常情况下，即使URL的数量级达到了上亿级别，其占用的内存比起set方式也要少得多。

第四种方式是使用bitmap方法将字符进一步压缩。这种方式的意思是在计算机中申请8个bit，即8个位，每个位由0或者1表示，这是计算机中最小的单元。8个位组成1个byte，一个位代表一个URL的话，为什么一个位可以确定一个URL呢？因为我们可以将一个URL进行一个哈希函数，然后将其映射到位上面去。举个栗子，假设我们有8个URL，分别对应8个位，然后通过位上面的0和1的状态，便可以表明这个URL是否存在，通过这种方法便可以进一步的压缩内存。但是bitmap方法有一个非常大的缺点，就是它的冲突会非常高，因为同用一个哈希函数，极有可能将两个不同的URL或者多个不同的URL映射到一个位置上来。实际上这种哈希的方法，它也是set方式的一种实现原理，它将URL进行一种函数计算，然后映射到bit的位置中去，所以这种方式对内存的压缩是非常大的。简单的来计算一下，还是以一亿条URL来进行计算，相当于一亿个bit，通过计算得到其相当于12500000byte，除以1024之后约为12207KB，大概是12MB的空间。在实际过程中内存的占用可能会比12MB大一些，但是即便是如此，相比于前面三种方法，这种方式以及大大的减少了内存占用的空间了。但是与此同时，该方法产生冲突的可能性是非常大的，所以这种方法也不是太适用的。那么有没有方法将bitmap这种对内存浓重压缩的方法做进一步优化，让冲突的可能性降下来呢？答案是有的，就是第五种方式。

第五种方式是bloomfilter，该方法对bitmap进行改进，它可以通过多个哈希函数减少冲突的可能性。通过这种方式，一方面它既可以达到bitmap方法减少内存的作用，另一方面它又同时起到减少冲突的作用。关于bloomfilter原理及其实现，后期肯定会给大家呈上，今天先让大家有个简单的认识。Bloomfilter适用于大型的网络爬虫，尤其是数量级超级大的时候，采用bloomfilter方法可以起到事半功倍的效果，其也经常和分布式爬虫共同配合，以达到爬取的目的。

以上文章来源于网络，如有侵权请联系创一网的客服处理。谢谢！

上一篇：永定各大主流编程语言常用爬虫框架以及优劣分析
下一篇：永定一起来解读友情链接的四大作用

按类型查看

置顶热文

群站模式的优点和缺点，群站与站...

由于站群是由程序自动采集产生，其内容往往粗制滥造，用户体验低下，...

网络攻击者利用管理不当权限的4...

如果在过去的几年中我们对网络犯罪组织一无所知，那么我们肯定会知...

阿里云紧急安全事件发现后门文件...

阿里云云盾安全中心可以为云服务器提供免费检测，护云盾（huyun...

怎么样把多域名重定向到一个网站...

解析设置：第1种实现方式：记录类型为A记录，记录值为IP地址主...

网站关键词的排名如何维持

　网站的内容要定时去更新，这样做的目的是为了增加搜索引擎的抓取频...

挑选云主机需要要考虑哪些因素？

云主机在其性能、稳定、安全等方面上的明显优势，早已成为当前公司I...

做好一个网站真有那么容易吗？

趁势而动，智者之为，为之不可，其法有伪。互联网浪潮之下，忽略了建...

什么是域名呢？网址和域名到底有...

域名（英文名字叫做domain name），也叫做网域，实际上就...

首页

我们的服务

代运营服务

TikTok代运营

外贸代运营

全网营销服务

跨境平台服务

永定亚马逊服务

永定Shopee服务

永定Lazada服务

永定速卖通服务

网站建设服务

永定网站建设

永定外贸独立站

永定WordPress网站建设

Shopify建站

外贸服务器租用

永定服务器租用

永定站群服务器

永定专线服务器

永定云主机租用

海外SNS推广代运营

业务场景

永定TikTok广告

永定SNS广告运营

永定Google广告

永定谷歌SEO优化

行业解决方案

商学院

运营教程

永定TikTok推广营销教程

永定亚马逊运营教程

永定外贸独立站运营

永定SEO优化

新闻中心

案例分享

关于我们

联系我们