使用 Nginx 过滤网络爬虫

现在有许多初学者学习网络爬虫,但他们不懂得控制速度,导致服务器资源浪费。通过 Nginx 的简单配置,能过滤一小部分这类爬虫。

方法一:通过 User-Agent 过滤

Nginx 参考配置如下:

这里只列出了部分爬虫的 User-Agent,需要更多请参考:GitHub – JayBizzle/Crawler-Detect

注意:User-Agent 很容易修改

方法二:block IP

通过禁止某个 IP 或者某个 IP 段访问,也能起到一定效果。 Nginx 示例配置如下:

方法三:rate limit

通过限制某个 IP 的访问频率,避免一部分 CC (Challenge Collapsar)攻击。

Nginx 示例配置如下:

当然,攻击者也可以使用代理IP来破除频率限制。建议在网站前面加一层 CDN。

原文出处:horocn -> https://proxy.horocn.com/news-5a61503ea7dcf0

 收藏 (0) 打赏

您可以选择一种方式赞助本站

支付宝赞助

微信钱包赞助

版权所有丨本站资源仅限于学习研究,严禁从事商业或者非法活动!:ABC资源站 » 使用 Nginx 过滤网络爬虫

热门文章

  • 切换注册

    登录

    忘记密码 ?

    切换登录

    注册

    我们将发送一封验证邮件至你的邮箱, 请正确填写以完成账号注册和激活