为爬虫搭建代理集群

爬虫如果只用固定的同一个或者同一组 IP 的话,很容易被封禁,轻者弹验证码,重者直接无法访问。

这里主要探讨如何构架一个代理 IP 池,从而能够频繁更换代理 IP。

按照代理 IP 的来源,主要有几个方法:

1. 去免费代理的网站上爬
2. 利用 ADSL 重拨会更换 IP 的原理,使用 ADSL 机器搭建集群
3. 利用云提供商的 API,自动更换 IP

# 搭建一个自己的 adsl 集群

## 找代理商

首先找到一个靠谱的网站就实属不易,这些 adsl 提供商的技术水平普遍不高,往往只能提供 centos 镜像,有 centos 7.1就算不错的了,其中有一家竟然提供了 ubuntu 14.04,结果还是各种问题,坑了我大概半天的时间。

About 逸飞

后端工程师

发表评论

电子邮件地址不会被公开。 必填项已用*标注