宝塔面板根据访问协议头屏蔽字节跳动爬虫

简介最近,字节跳动搜索引擎的爬虫疯狂爬取全网资源,导致一些小网站服务器不堪重负,严重的直接使网站宕机。我们有很多方法可屏蔽掉爬虫,比如robot.txt,但是貌似字节跳动旗下的今日头条爬虫比较流氓,他不遵守这个!还有一个通过屏蔽IP的方式,但是一般爬虫的IP地址比较多,这个也挺麻烦。这里站长图库介绍一种方法,有一定的效果,如下:nginx在站点的设置,配置文件中server{}中添加#禁止爬虫工具的抓

  

最近,字节跳动搜索引擎的爬虫疯狂爬取全网资源,导致一些小网站服务器不堪重负,严重的直接使网站宕机。

我们有很多方法可屏蔽掉爬虫,比如 robot.txt ,但是貌似字节跳动旗下的今日头条爬虫比较流氓,他不遵守这个!还有一个通过屏蔽IP的方式,但是一般爬虫的IP地址比较多,这个也挺麻烦。

这里站长图库介绍一种方法,有一定的效果,如下:

nginx在站点的设置,配置文件中 server{ } 中添加

#禁止爬虫工具的抓取if($http_user_agent~*"Bytespider|YisouSpider"){return403;}

注:Bytespider 为字节跳动爬虫的协议头

Apache:

在伪静态里设置 这里以thinkphp为例!

<IfModulemod_rewrite.c>RewriteEngineonRewriteCond%{REQUEST_FILENAME}!-dRewriteCond%{REQUEST_FILENAME}!-fRewriteRule^(.*)$index.php[L,E=PATH_INFO:$1]#禁止爬虫工具的抓取RewriteCond%{HTTP_USER_AGENT}"^.*Bytespider.*|.*YisouSpider.*$"[NC]RewriteRule^(.*)$-[R=404,L]</IfModule>

以上,就是根据访问协议头屏蔽字节跳动爬虫的方法,希望能对大家有所帮助!

下载链接:网站源码/小程序源码/网站模板下载

版权声明

   站内部分内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供网络资源分享服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请 联系我们 一经核实,立即删除。并对发布账号进行永久封禁处理。在为用户提供最好的产品同时,保证优秀的服务质量。


本站仅提供信息存储空间,不拥有所有权,不承担相关法律责任。

给TA打赏
共{{data.count}}人
人已打赏
网站技巧

苹果CMS批量替换字段内容

2024-9-19 19:44:27

网站技巧

PHP常用函数之根据生日计算年龄功能示例

2024-9-19 19:44:29

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索