网络爬取是否合法？

如何合法进行网络爬取？

2018年5月，随着《通用数据保护条例》（GDPR）的实施，处理欧盟居民个人数据的公司开始担心自己将不再被允许进行网络爬虫。他们的担忧是有道理的，因为除了伦理和技术问题外，GDPR确实对数据爬取设置了一些法律限制。

与此同时，数据爬取比你想象中更常见——根据某些估计，超过50%的网站访问都是出于数据爬取目的。因此，如果数据爬取对您的业务至关重要，则需要了解与网络爬虫相关的法律问题，并遵守相关规定以便在不违反法律情况下继续收集有用信息。

什么是网络爬虫？

网络爬虫是一种专门在网上进行的数据抓取形式，它包括从在线来源中收集公开可用的数据。通过爬取软件自动收集的数据可用于识别趋势、帮助招聘、评估信贷风险、确定客户情感、销售等方面。但如何确保您合法地进行网络爬虫呢？

1. 网络爬虫的目的必须是合法的

提取和使用数据的合法和道德计划需要满足以下标准：

数据只能为公司目的而收集，不得公开
数据不得给其所有者带来财务或声誉损失

当您仅为个人使用和分析提取数据时，网络爬虫是合法且道德的。但如果您想重新发布所收集到的数据，则需要在抓取之前请求相关主体许可并检查网站政策 – 否则可能会面临侵犯个人数据保护法规。网络爬虫无权将获得的数据用于无限制商业用途，并且无论如何获取这些信息，其版权都是可执行的。

2. 您想要获取的数据必须是公开可用的信息

即使数据在网站上公开发布供所有人访问，复制它可能也不合法。在这种情况下，解决方案是检查网站政策，以确保您访问和获取的所有数据都经过授权进行爬取。

一般来说，您可以收集不包含个人数据并且不违反网站服务条款的信息。服务条款或ToS部分通常位于页面底部，并说明了哪些数据可以收集以及哪些数据可能会因未经所有者许可而被罚款进行网络爬取。还有一些受到保护的信息，例如用户名、密码和访问代码等，您也不能收集。关于数据爬取的规定通常限制了从需要认证才能进入的网站中获得数据的自由。

3. 检查版权

网站用来控制网络爬虫的另一个工具是版权规则，用户也需要尊重这些规则。换句话说，在复制任何类型的内容（如文本、图像、商标和数据库）之前，您需要确保要抓取的信息没有被版权保护。未经版权持有人同意，您不能重新发布已经抓取的数据。然而，在只有其格式受到版权保护时，仍然可能使用创作作品中的事实，只要您修改了这些元素并以原创方式呈现它们即可。

4. 注意网络爬虫速率

网络爬虫是由强大的软件执行的，这可能会对网站服务器造成沉重负担。您应该确保实现最佳的网络爬取速率，以便不影响Web服务器的带宽和性能。robots.txt文件通常提到了您需要遵守的抓取延迟设置，如果没有，则应坚持每10-15秒进行一次请求的平均刮擦速率。否则，Web服务器可能会自动阻止您的IP，并防止您再次访问页面。

5. 使用类似搜索引擎的路径进行网络爬虫

为了避免破坏网站编码并干扰其正常运行，最好的网络爬虫方法是使用蜘蛛程序，以访问者身份访问网站数据，并按照搜索引擎相同的路径进行操作。这种方法的另一个优点是它允许您在不注册用户或接受任何使用条款的情况下进行抓取，并因此可以访问任何普通用户可用的公共信息。

6. 让网站知道你正在进行爬取

您可以使用合法的用户代理字符串来识别您的网络爬虫。这种方法允许您创建一个页面，向网站所有者介绍您的活动、目的以及代表哪个组织进行爬取。通过在用户代理字符串中添加链接返回到该页面，不仅显示了对网站所有者的尊重，还能为自己创造一个链接。

为了享受这种有用且经济实惠的数据收集方法带来的好处，您需要以负责任和尊重他人的方式进行网络爬取，避免问题并保护自己合法权益。

你是否可以合法地从LinkedIn上爬取数据？

最著名的网络爬虫争议之一是LinkedIn和来自硅谷的数据爬取公司hiQ之间的争端，其利益在于裁决LinkedIn是否可以阻止其他企业访问其社交网络上公开可用的数据，或者即使这些企业是竞争对手也应该允许它们进行访问。

LinkedIn的第一步是向开始从其服务器中抓取数据的初创公司发送停止通知书。它主要的论点是抓取违反了CFAA和数字千年版权法。

但由于另一家公司起诉了LinkedIn并获得了法院禁令，强制要求LinkedIn在案件解决前提供对其服务器的访问权限，因此 LinkedIn未能阻止hiQ从他们平台上抓取数据。最终法院裁定这个知名专业人士网络站点有选择性地禁止潜在竞争对手使用公开可用的数据可能被视为不正当竞争。 LinkedIn最新计划将此案升级到最高法院。

网络爬虫的有用术语：

尽管网络爬虫不一定非法，但您使用此数据收集方法的目的可能会使其合法或非法。请查看以下条款以进行澄清：

GDPR

GDPR或通用数据保护条例从2018年开始在欧盟得到加强，以使居民能够控制自己的数据。该条例防止企业随意处理个人身份识别信息，例如姓名、地址、电话号码和电子邮件。因此，数据抓取本身并不违法，但对个人信息的使用受到限制。例如，只有在消费者明确同意的情况下，企业才可以抓取数据并将其用于各种目的。 GDPR不允许的做法之一是从网站上抓取名称和电子邮件以生成潜在客户名单而没有这些客户的同意。

服务条款

除了GDPR外，您还需要考虑网站所施加要求。当您接受某些服务条款时，则表示您与该网站之间已经达成协议，并且不能违反该网站禁止你做什么。

Robots.txt

关于被网站接受的刮擦实践方面, 您可以轻松地从robots.txt文件中找出它们所需求. 你可以从这个文件中找到的方面是你的刮擦工具可以访问的内容，您在网站上允许使用的时间以及您可以进行信息请求的数量。忽略网站上robots.txt文件和其规定并不违法，但非常不道德，并且这样做可能会导致您在该特定服务器上被封锁。

网络爬取是否合法？

如何合法进行网络爬取？

什么是网络爬虫？

1. 网络爬虫的目的必须是合法的

2. 您想要获取的数据必须是公开可用的信息

3. 检查版权

4. 注意网络爬虫速率

5. 使用类似搜索引擎的路径进行网络爬虫

6. 让网站知道你正在进行爬取

你是否可以合法地从LinkedIn上爬取数据？

网络爬虫的有用术语：

GDPR

服务条款

Robots.txt

相关

如何使用 cURL 发送 POST 请求

Python爬虫入门教程：一学就会！

如何在Node.js中使用Fetch API发送HTTP请求

如何在Python中轮换代理IP？

如何使用 Python 和 Dateparser 解析日期字符串

如何爬取网站地图以发现爬取目标

Written by 河小马

如何测试代理IP—五种方法！

如何使用 cURL 发送 POST 请求

Python爬虫入门教程：一学就会！

如何在Node.js中使用Fetch API发送HTTP请求

分析竞争对手网站谷歌广告的5种方法

如何隐藏你的 IP 地址？

如何测试代理IP—五种方法！

如何使用 cURL 发送 POST 请求

Python爬虫入门教程：一学就会！

如何在Node.js中使用Fetch API发送HTTP请求

分析竞争对手网站谷歌广告的5种方法

如何隐藏你的 IP 地址？

如何在Python中轮换代理IP？

什么是IP地址轮换?

SSL 代理的定义及其优势

什么是财务数据？