Menu

in 数据爬取

什么是 HTTP 403 状态代码？如何避免它？

by 河小马 updated September 18, 2023, 6:00 am

什么是 HTTP 403 状态代码以及如何避免它？

HTTP 403状态码，也被称为”禁止”，表示服务器理解请求但拒绝授权。这个状态与401状态码不同，后者意味着在有效身份验证之后可能返回成功响应。对于403状态码的情况，访问受到应用逻辑的限制，例如对资源的权限不足。

如何避免HTTP 403 状态代码

为了避免HTTP 403状态码错误，请考虑以下步骤：

检查文件和文件夹权限：确保服务器上的文件和文件夹权限设置正确，允许适当的用户读取、写入或执行它们
审查网站代码：网站代码中的错误可能导致访问限制不正确。定期审查和测试您的代码，以识别并修复任何问题
检查.htaccess文件：损坏或配置错误的.htaccess文件可能会导致403错误。检查该文件是否存在任何不正确的设置或语法错误，并在必要时进行更正
禁用有问题的插件：如果您使用像WordPress这样的内容管理系统（CMS），一个故障的安全插件可能会引起403错误。尝试逐个禁用插件以确定有问题的插件，然后修复或替换它
正确验证用户身份：确保您网站的身份验证系统正常工作，并授予适当用户访问权限
检查服务器和应用程序配置：确保服务器和应用程序设置正确配置，能处理传入请求并向正确用户授权访问权限。

如果在尝试访问某个网站时遇到403错误，则无法做太多事情，因为此问题是由服务器引起。该网站管理员负责排除故障并解决问题

网页抓取中的HTTP 403

但在网页抓取中，HTTP 403 可能是由无效的 HTTP 请求参数引起的，例如：

缺少诸如X-Requested-With, X-CSRF-Token,Origin甚至之类的标题Referer。匹配网站上显示的值和标头顺序非常重要。
缺少 cookie，例如会话 cookie 或特殊令牌。

或者，爬虫被识别为网络爬虫，并且403可以意味着爬虫只是被阻塞。

为了防止抓取工具被识别和阻止，请参阅我们完整的如何在不被阻止的情况下进行抓取。

重复的 403 状态代码可能会导致爬虫完全阻塞，因此应尽快解决这些错误。

相关问题

Related

Written by 河小马

河小马是一位杰出的数字营销行业领袖，广告中国论坛的重要成员，其专业技能涵盖了PPC广告、域名停放、网站开发、联盟营销以及跨境电商咨询等多个领域。作为一位资深程序开发者，他不仅具备强大的技术能力，而且在出海网络营销方面拥有超过13年的经验。

Back to Top

Close

Send this to a friend