目录

网络爬虫之配置缓存的理由（持续更新）

Luckly 收录于杂烩

2017-09-19 约 416 字预计阅读 1 分钟次阅读

目录

理由一：网页更新

我们知道，一般网页中的信息是不断翻新的，所以我们就要定期的去抓取站点上的新信息，但是这个“定期”该怎么理解，也就是多长时间需要抓一次该页面，其实这个定期也就是页面缓存时间，在页面的缓存时间内我们再次抓取该网页是没有必要的，反而给人家服务器造成压力。
所以我们的爬虫就需要做一个请求数据的缓存来缓解这一尴尬了。

理由二：减少不必要的带宽资源的消耗

一般来说，我们的带宽都不是很高，特别对于部署爬虫的服务器来说，其带宽资源是非常珍贵的。
假设我们抓取100万个页面，但是有50万个是刚抓取不久的，页面还没有更新的，那么我们的带宽使用率粗略的计算也就只有百分之五十。
如果我们缓存己下载的网页，配置一个过期时间，这样做不仅可以节省时间，并能最小化重新爬取网站所耗费的带宽。

缓存的主要缺点：

占用磁盘空间：不过我们可以使用压缩的方式减少空间占用。此外，推荐在类似MongoDB等现有数据库的基础之上创建缓存，可以避免文件系统的各种限制。