代理IP与爬虫框架集成：Scrapy|Selenium配置教程

实战：Scrapy框架如何接入代理IP服务

很多人在用Scrapy采集数据时，经常遇到IP被封的情况。这里教大家一个实用方法：在middlewares.py文件中新建代理中间件。具体操作时，重点注意代理格式拼接，神龙海外代理IP提供两种接入方式：

HTTP协议：http://用户名:密码@网关地址:端口
SOCKS5协议：socks5://用户名:密码@网关地址:端口

建议在配置文件中单独设置代理账户信息，避免硬编码。实测发现，使用神龙海外代理IP的动态IP池时，建议设置每20个请求自动切换IP，这样既能保证采集效率，又能有效避免触发反爬机制。

Selenium浏览器如何自动切换代理IP

针对需要模拟浏览器操作的情况，推荐使用ChromeOptions配置代理。这里有个关键技巧：在启动浏览器实例前，必须完成代理设置。具体代码示例：

options = webdriver.ChromeOptions()
options.add_argument("--proxy-server=http://user:pass@gateway.shenlongip.com:9020")
driver = webdriver.Chrome(options=options)

如果使用神龙海外代理IP的socks5协议，要注意本地环境是否支持socks代理。建议配合代理检测页面验证IP是否生效，可以在代码中加入自动检测逻辑，当发现代理失效时自动重连。

双框架通用避坑指南

根据我们实测经验，整理了几个常见问题解决方案：

问题现象	排查方向	神龙方案优势
连接超时	检查代理协议与代码是否匹配	提供双协议自动适配
请求被拦截	检测IP纯净度	专业IP质检系统
速度不稳定	调整并发请求量	独享带宽资源池