爬虫的一些技巧


Author: yifei / Created: May 29, 2017, 10:39 p.m. / Modified: May 29, 2017, 10:44 p.m. / Edit

gzip 支持,会大规模的减少数据的吞吐

爬虫无非三步:

  1. 下载源码
  2. 抽取数据
  3. 存储数据

所以,你需要考虑的是:

爬取间隔自适应

就是已经限制了你这个IP的抓取,就不要傻傻重复试,怎么滴也得休息一会。网易云音乐操作起来比较简单,sleep一下就好了。其实sleep的间隔应该按情况累加,比如第一次sleep 10秒,发现还是被约束。那么久sleep 20秒... 这个间隔的设置已经自适应的最终效果是经验值。

如何获得大量的 IP

http://www.cnblogs.com/jexus/p/5471665.html

  1. Use your user's agent as a node
  2. Use free resources online that has a web interface as a node
  3. For metadata, consult google or other competitive websites
  4. reverse engineering the site template

网页的页面类型

  1. 静态页面
  2. 动态页面,页面在 js 数组中
  3. 动态页面,页面在 js 模板中
  4. 动态页面,数据通过 jsonp 加载
  5. 动态页面,数据通过 json 加载
  6. 动态页面,数据通过 ws 加载

评论区