2024年网络抓取的主要挑战之一是抓取器拦截,最常见的解决方法是使用 IP 代理。 在网络抓取中,代理服务可用于伪装网络抓取程序的来源,以避免基于 IP 的阻止或访问仅在特定国家/地区可用的网站。 在本文中,我们将从网络抓取工具的角度概述和比较几个流行的代理提供商。我们还将介绍如何为您的网络抓取工具选择合适的提供商,以及一些常见的挑战和问题。
快速代理类型概述
在我们开始评估流行的代理服务之前,让我们快速概述一下网络抓取中使用的代理类型:
数据中心代理
最简单的代理形式,通常托管在大数据中心服务器上。不幸的是,这也意味着很容易判断客户端是爬虫还是真实用户,因为真实的人很少从数据中心浏览网络。
旋转(IP轮换)住宅代理
这些 IP 地址提供给真实的家庭,通常是通过从真实的人那里租用的。与数据中心代理相比,使用住宅轮换代理要容易得多,尽管为长时间的网络抓取会话维护相同的 IP 地址更难。
ISP 代理(又名静态住宅代理)
这些代理结合了数据中心稳定性和住宅代理质量。ISP 代理是指将住宅 IP 地址分配给小型数据中心。
移动代理(又名旋转移动代理)
这些地址被发给移动基站和每个连接的 3G/4G/5G 电话。就像住宅代理一样,它们非常适合避免阻塞,但更不稳定。
什么是 Web 抓取的良好代理?
为了确定最好的抓取代理服务,让我们建立我们的评估方法。 并非所有用于抓取的代理都是平等的。即使是具有相同规格(如代理类型(无论是数据中心、住宅还是移动))的代理在现实生活中的网络抓取中的表现也可能大不相同。 在评估网络抓取的代理质量时,除了原始测试之外,还有一些关键点值得关注——让我们简要概述一下。
- 代理用户池共享。 与共享代理池相比,私有代理会产生更好的结果,共享代理池通常有多个用户为相同的目标使用相同的 IP。如果你认为你的目标是一个流行的网络抓取目标,那么应该避免使用共享池。
- 代理的地理位置。 在网络抓取工具拦截方面,美国代理往往具有最好的质量评级。因此,虽然某些服务可以声称其池中有数千个地址,但其中大多数可能来自成功率低的低质量地区。
- 真实规范 对于点对点旋转住宅和移动代理,一个常见问题是接收到的代理并不总是住宅/移动代理。根据我们的经验,这可能在 1-40% 之间变化,因此在您的网络抓取工具中使用它以获得最佳结果之前,确认 IP 类型(例如,查看ipleak.com结果中的“连接类型”)非常重要。
- 并发限制(又名线程限制) 在网络抓取中,此限制经常是稳定性问题的常见来源。快速的网络抓取工具可以很快达到这个限制,因为它通常比广告上说的要低,而且很难衡量。这是值得保留和关注的东西。
最后,由于代理提供商通常通过单个反向连接代理(将代理分发给客户端的服务器)提供代理,因此质量、速度和稳定性会因每个实现而有很大差异。这也会使网络抓取工具开发人员更难以实现自定义的、更智能的代理轮换逻辑,从而进一步降低成功连接的机会。
定价评估
代理服务提供截然不同的定价选项——有些按代理数量收费,有些按带宽使用收费,有些则两者结合收费。 对于网络抓取,带宽代理可以非常快速地增加账单,应该尽可能避免。让我们看一下一些使用场景以及带宽代理如何扩展:
目标 | 平均文档页面大小 | 每 1GB 页数 | 平均浏览器页面大小 | 每 1GB 页数 |
---|---|---|---|---|
Walmart.com | 16kb | 1k – 60k | 1 – 4 MB | 200 – 2,000 |
Indeed.com | 20kb | 1k – 50k | 0.5 – 1 兆字节 | 1,000 – 2,000 |
LinkedIn.com | 35kb | 300 – 30k | 1 – 2 MB | 500 – 1,000 |
Airbnb.com | 35kb | 30k | 0.5 – 4 MB | 250 – 2,000 |
Target.com | 50kb | 20k | 0.5 – 1 兆字节 | 1,000 – 2,000 |
Crunchbase.com | 50kb | 20k | 0.5 – 1 兆字节 | 1,000 – 2,000 |
G2.com | 100kb | 10k | 1 – 2 MB | 500 – 2,000 |
Amazon.com | 200kb | 5k | 2 – 4 MB | 250 – 500 |
在上表中,我们看到了几个流行的网络抓取目标的示例带宽使用估计。 请注意,网络抓取工具使用的带宽根据抓取的目标和网络抓取技术而有很大差异。 例如,与使用 Puppeteer、Selenium 或 Playwright 等自动化浏览器解决方案相比,逆向工程网站行为和仅获取数据文档详细信息将使用更少的带宽。因此,对于基于浏览器的抓取,基于带宽的定价可能非常昂贵。 最后,所有的估计都应该至少加倍,以考虑重试逻辑和其他使用开销(比如会话预热和请求标头)。
例如,假设我们有一个 400 美元/月的计划,可以提供 20GB 的数据。如果我们使用没有特殊缓存或优化技术的 Web 浏览器,那最多只能为我们净取约 50k 亚马逊产品刮擦,而只有几百个。
相反,带宽代理可以很好地与利用 AJAX/XHR 请求的网络抓取工具一起工作。 例如,如果我们可以对 walmart 的网页行为进行逆向工程,那么同样的 400 美元/月的 20GB 数据计划将为我们带来 ~600k walmart.com 产品刮擦,这是一个更合理的提议!
基于带宽的代理通常可以访问大型代理池,但网络抓取工具很少需要每个项目超过 100-1000 个代理。例如,如果我们以 30req/分钟的速度使用 1 个代理来以 5000req/分钟的速度抓取网站,我们只需要 167 个旋转代理! 基于代理计数的定价通常是一种更安全、更容易使用的定价模型。购买私人代理的启动池(仅供单个客户或极少数客户访问)是网络抓取项目更容易和更安全的承诺。
用于网页爬取的最佳代理服务器
Bright Data
Bright Data 是代理世界中的零头军,除了提供全面的代理服务,它还提供爬取工具:
- 住宅代理
- 移动代理
- 数据中心代理
- ISP代理
- 网页抓取IDE
Bright Data的代理网络覆盖全球,能够帮助用户匿名地访问网页和收集数据。此外,Bright Data还提供了一个网页抓取IDE,这是一个工具,能够让用户通过图形界面来创建、测试和部署网页抓取任务,无需编写代码,大大简化了网页数据采集的过程。
特征 | Bright Data |
---|---|
数据中心代理 | ✅ |
住宅代理 (5M) | ✅ |
移动代理 | ✅ |
地理定位 | 覆盖全球 |
反僵尸绕过 | ✅ |
Javascript 渲染 | ✅ |
日志监控 | ✅ |
每千次展示费 | $2.70 |
50GB 项目 预计成本 | 500+ 美元 |
Soax
Soax.com 是代理世界中的另一个大牌。Soax 提供非常精简的各种服务:
- 住宅代理
- 移动代理
- ISP代理(新)
Soax 主要以其具有竞争力的价格而闻名。它的住宅代理非常便宜,起价为每 GB 12 美元/月。这使我们的 50GB 项目有$500/Mo
5GB 的空闲空间。 Soax 的移动代理符合行业平均水平,起价为每 GB 30 美元/月。
特征 | Soax |
---|---|
数据中心代理 | ❌ |
住宅代理 (5M) | ✅ |
移动代理 | ✅ |
地理定位 | 100多个国家 |
反僵尸绕过 | ❌ |
Javascript 渲染 | ❌ |
日志监控 | ❌ |
每 GB 的价格 | $12 – 30 |
50GB 项目 预计成本 | 500 美元 |
Shifter
主要提供高质量的用于数据驱动营销的反向住宅代理,以及数据中心代理。凭借其庞大的IP池,拥有3100万个IP地址,Shifter是世界上前三大代理提供商之一
- 轮换住宅代理
- 静态住宅代理
- 运动鞋代理
- 网页爬取API
他们提供住宅代理,根据用户的需求,这些代理可以是轮换式的或静态的。由于使用了分布式云基础设施,他们的代理服务器具有超快的速度和99.99%的在线时间。Shifter网页抓取代理还支持通过各种协议连接,包括HTTP/S和Socks 4/5。
特征 | Shifter |
---|---|
数据中心代理 | ❌ |
住宅代理 (5M) | ✅ |
移动代理 | ❌ |
地理定位 | 100多个国家 |
反僵尸绕过 | ✅ |
Javascript 渲染 | ✅ |
日志监控 | ✅ |
10万API积分价格 | $44.99 |
5个轮换住宅代理 预计成本 | $99.98 |
Smartproxy
Smartproxy拥有超过4000万个IP地址的资源池,覆盖全球195个国家和地区,提供高速、稳定和高度匿名的住宅代理服务。
- 轮换住宅代理
- 静态住宅代理
- 移动代理
- 数据中心代理
Smartproxy的代理能够在不被机器人检测到的情况下抓取网页。此外,Smartproxy拥有庞大的IP池和广泛的国家覆盖范围,这意味着用户可以从全球各地抓取数据,同时保持高速和稳定的连接。使用Smartproxy代理,用户可以在保护隐私的同时,轻松获取网络上的大量信息。
特征 | Smartproxy |
---|---|
数据中心代理 | ✅ |
住宅代理 (5M) | ✅ |
移动代理 | ✅ |
地理定位 | 195个国家 |
反僵尸绕过 | ❌ |
Javascript 渲染 | ❌ |
日志监控 | ❌ |
每 GB 的价格 | $12.5 |
50GB 项目 预计成本 | $400 |