目录

网络爬虫之配置缓存的理由(持续更新)

理由一: 网页更新

  • 我们知道,一般网页中的信息是不断翻新的,所以我们就要定期的去抓取站点上的新信息,但是这个“定期”该怎么理解,也就是多长时间需要抓一次该页面,其实这个定期也就是页面缓存时间,在页面的缓存时间内我们再次抓取该网页是没有必要的,反而给人家服务器造成压力。
  • 所以我们的爬虫就需要做一个请求数据的缓存来缓解这一尴尬了。

理由二:减少不必要的带宽资源的消耗

  • 一般来说,我们的带宽都不是很高,特别对于部署爬虫的服务器来说,其带宽资源是非常珍贵的。
  • 假设我们抓取100万个页面,但是有50万个是刚抓取不久的,页面还没有更新的,那么我们的带宽使用率粗略的计算也就只有百分之五十。
  • 如果我们缓存己下载的网页,配置一个过期时间,这样做不仅可以节省时间,并能最小化重新爬取网站所耗费的带宽 。

缓存的主要缺点:

  • 占用磁盘空间:不过我们可以使用压缩的方式减少空间占用。此外,推荐在类似MongoDB等现有数据库的基础之上创建缓存,可以避免文件系统的各种限制。