一、工具准备
动态拨号vps服务器: 我用的是91VPS的动态vps,2H0.5G内存,11G硬盘,20G宽带(一型机器),动态vps主要是运行代理服务,比较耗宽带,通过拨号来更换IP,实现动态代理的效果
固定IP服务器:用的阿里云服务器,1核1G内存,40G云盘,该服务器主要是实时获取动态vps的IP,并对外提供接口,这些服务不怎么耗资源,该服务器还可以用来跑爬虫或者搭网站
二、环境搭建
拨号VPS
-
功能:搭建代理服务,并通过在vps上拨号切换IP,将切换后的IP传到固定IP的服务器上
-
工具:代理服务-tinyproxy, 发送IP-python的requests库
-
系统:91VPS的可以预装系统,我选的是CentOS7.6系统,在管理后台进行操作
-
连接服务器:ssh user@ip -p port
-
拨号操作:断开网络:adsl-stop, 拨号:adsl-start
-
查看公网IP:curl icanhazip.com
-
加代理查看IP:curl -x ‘ip:port’ -v icanhazip.com
-
判断IP是否变化:先查看公网IP,然后断开连接,重新拨号,再看下公网IP,如果发现没有变化,可以多试几次,有几率重播后公网IP依旧没变
1、代理服务搭建:tinyproxy
安装命令:
-
# 添加EPEL仓库,然后更新yum源:
-
sudo yum install epel-release
-
sudo yum update
-
# 安装
-
sudo yum install -y tinyproxy
修改配置:
-
vim /etc/tinyproxy/tinyproxy.conf
-
修改 Port 端口,默认为 8888
-
Port 8888
-
注释掉 Allow 127.0.0.1,表示允许所有人访问代理
启动服务:service tinyproxy start
日志:/var/log/tinyproxy/tinyproxy.log
本地测试:curl -x ‘ip:port’ -v icanhazip.com
配置以上过程中,注意事项:
-
一定要确认拨号vps服务器是有公网ip(外网ip),很多服务商提供的机器部分地区是内网IP(如果是在机器内部,可以正常使用,但搭建代理以后,无法访问外部的网站),所以,一定要确认清楚。
-
yum安装时,报错:yum doesn’t have enough cached data to continue, 解决办法:
-
将/etc/yum.repos.d/epel.repo中的mirrorlist改为baseurl
-
/etc/resolv.conf文件中增加 nameserver 144.144.144.144
-
在断开重播时,有时adsl-start会执行失败,报错:“/usr/sbin/adsl-start: line 217: 5749 Terminated C O N N E C T " CONNECT " CONNECT"@" > /dev/null 2>&1”,最后发现可能是断开连接的不干净,多执行几次adsl-stop,在执行adsl-start就会成功了
-
在代理服务tinyproxy运行期间,报过这个错:Waiting servers (0) is less than MinSpareServers (5). Creating new child.,原因是达到最大连接数,无法创建新的连接处理请求,代理服务也就挂了,重启代理服务即可,解决办法
-
vim /etc/tinyproxy/tinyproxy.conf
-
MaxClients 100 -> 500 # 最大连接数
-
Timeout 600 -> 20 # 超时时间
2、搭建Python环境
(1) 安装Python Python依赖
-
sudo yum install yum-utils
-
sudo yum-builddep python
Python源码连接:https://www.python.org/ftp/python/
-
curl -O https://www.python.org/ftp/python/3.5.0/Python-3.5.0.tgz
我在用curl时无法下载,可以到官网下载指定版本的Python,然后传到服务器上
-
tar xf Python-3.5.0.tgz
-
cd Python-3.5.0
-
./configure
-
make
-
sudo make install
安装完成后通过python3 -V来查看当前版本
(2) 安装虚拟环境
-
cd ~
-
mkdir venv
-
cd venv
-
python3 -m venv python3-forcrawl
-
source ~/venv/python3-forcrawl/bin/activate
(3) 安装相应的python库
-
pip install requests
-
# 安装其他环境导出的库
-
pip install -r requirements.txt
阿里云服务器:
-
功能:接受动态VPS发送的IP,并提供接口,返回动态VPS实时的IP&端口
-
工具:web服务-tornado
-
连接:ssh root@ip -p 22, 如果忘记服务器密码,可以重置实例登陆密码和远程连接密码:更多->密码、密钥
-
搭建Python环境同上,安装tornado
-
pip install tornado
-
sudo yum install -y redis
-
# 启动服务
-
redis-server >> /dev/null 2>&1 &
-
# 连接redis
-
redis-cli
-
mongo数据库(可以不进行安装,实现基本的代理功能不需要该库)
-
# yum中没有mongo的下载源,需要手动添加
-
vi /etc/yum.repos.d/mongodb-org-3.4.repo
-
# 写入以下信息,针对centos7
-
[mongodb-org-3.4]
-
name=MongoDB Repository
-
baseurl=https://repo.mongodb.org/yum/redhat/7/mongodb-org/3.4/x86_64/
-
gpgcheck=1
-
enabled=1
-
gpgkey=https://www.mongodb.org/static/pgp/server-3.4.asc
-
# 安装
-
sudo yum install -y mongodb-org
-
启动:
-
systemctl start mongod.service
注意事项:
-
ssh链接时,报错Permission denied (publickey,gssapi-keyex,gssapi-with-mic),解决办法:
-
通过阿里云web终端登录到服务器,修改ssh配置文件
-
vim /etc/ssh/sshd_config
-
更改:PasswordAuthentication no(默认yes)
-
或打开注释:PermitRootLogin yes
代码实现逻辑
1、客户端:拨号VPS
-
通过Python执行断开连接&拨号的操作,成功后匹配获取公网IP,通过requests库将IP发送至服务端
-
为了避免恶意干扰,可以加上一个传输秘钥,服务器验证传输秘钥,验证失败的不进行IP更新
-
设置定时任务来实现IP的更换
-
传送的数据中,包含IP、秘钥、name(区分vps服务器)
2、服务端:固定IP服务器
使用tornado启动服务,提供两个接口
-
post接口:接收客户端发送的IP,验证秘钥成功后,以name为key,ip&port为val,存入redis
-
get接口:从redis中取出ip&port并返回
代理检测程序:可用于检测IP的可用性,剔除失效IP
最后总结:
1,自主搭建的http代理ip池,相比直接购买的代理ip,价格便宜,最主要的点是IP速度,并发等不受任何限制。
2,不适用于对IP切换速度要求很快的服务,拨号太频繁了,一个是IP有时不变,另一个容易拨号失败
3,拨号vps在每次拨号的过程中,会出现一个宽带连接等待的时长(无网状态),那么,此时会导致代理不可用,所以,在线上正式的环境中,我们建议多部署一些机器,做到一定的冗余,就能完美的解决这个问题。