欢迎您光临自学哈网,只为分享网络知识教程,供大家学习参考!

「自学哈网」如何屏蔽国内最疯狂的蜘蛛爬虫yisouspider?

作者 : 自学哈 本文共3164个字,预计阅读时间需要8分钟 2022-10-4 共198人阅读
也想出现在这里? 联系我们

YisouSpider是什么蜘蛛爬虫?

国内最疯狂的蜘蛛(没有之一)能让你的网站挂掉,尤其是VPS、小内存虚拟机就别说了。

为什么要屏蔽YisouSpider蜘蛛爬虫?

一个网站使用的是阿里的云主机,最近后台监测到网站流量很大,内存占用高,对这个站而言,1个G的内存完全绰绰有余,排查原因,造成这种高流量的因素还比较多,比如阿里云主机本身的逻辑原因、老域名总有黑KE来DDOS和CC、网站程序本身的安全性没做好等等,这些所有因素中,如果可以用百分比来表示,估计YisouSpider这只蜘蛛对此站的贡献程度在50%-70%。它的爬行频率不顾时间,晚上爬白天还爬,爬行频率和次数超过所有其他蜘蛛的总和。

为什么专门写这么一篇屏蔽YisouSpider的文章?

因为YisouSpider太流氓了!自己网上搜吧

 

———————————–重点分割线:如何屏蔽国内最疯狂的蜘蛛爬虫yisouspider?——————————

目录

1 限定Yisouspider访问权限的robots协议写法(已经尝试,无用)

2 Nginx屏蔽爬虫yisouspider访问站点方法(没有尝试过,是apache的)

3 Apache屏蔽爬虫yisouspider访问站点方法(网上的方法,试用过,会造成访问不正常)

4 直接屏蔽封锁yisouspider的IP吧,但是它的IP有点多哦!!

5 Apache屏蔽蜘蛛IP的方法(nginx….)

6 yisouspider蜘蛛爬虫的IP清单(1086个IP)

限定Yisouspider访问权限的robots协议写法(已经尝试,无用)
robots.txt 必须放在网站根目录下,且文件名要小写。

具体写法:

1) 完全禁止 yisouspider 抓取:

User-agent: yisouspiderDisallow: /
2) 禁止 yisouspider 抓取指定目录

User-agent: yisouspiderDisallow: /updateDisallow: /history
禁止抓取 update、history 目录下网页

Nginx屏蔽爬虫yisouspider访问站点方法(没有尝试过,我是apache的)
进入到 nginx 安装目录下的 conf 目录,将如下代码保存为 agent_deny.conf

#禁止 Scrapy 等工具的抓取if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { return 403;}#禁止指定 UA 及 UA 为空的访问if ($http_user_agent ~ “yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$” ) { return 403;}#禁止非 GET|HEAD|POST 方式的抓取if ($request_method !~ ^(GET|HEAD|POST)$) { return 403;}
然后,在网站相关配置中的

location / {try_files $uri $uri/ /index.php?$args;
下方插入如下代码:

include agent_deny.conf;
保存后,执行如下命令,平滑重启 nginx 即可:

/usr/local/nginx/sbin/nginx -s reload
Apache屏蔽爬虫yisouspider访问站点方法(网上的方法,试用过,会造成访问不正常)
1、通过修改 .htaccess 文件

修改网站目录下的.htaccess,添加如下代码即可(2 种代码任选):

可用代码 (1):

RewriteEngine OnRewriteCond %{HTTP_USER_AGENT} (^$|yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) [NC]RewriteRule ^(.*)$ – [F]
可用代码 (2):

SetEnvIfNoCase ^User-Agent$ .*(yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) BADBOTOrder Allow,DenyAllow from allDeny from env=BADBOT
2、通过修改 httpd.conf 配置文件

找到如下类似位置,根据以下代码 新增 / 修改,然后重启 Apache 即可:

DocumentRoot /home/wwwroot/xxx<Directory “/home/wwwroot/xxx”>SetEnvIfNoCase User-Agent “.*(yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms)” BADBOTOrder allow,denyAllow from alldeny from env=BADBOT</Directory>
直接屏蔽封锁yisouspider的IP吧,但是它的IP有点多哦!!
Apache屏蔽蜘蛛IP的方法(nginx我不知道….)
修改htacess文件如下

order allow,denyallow from all#需要屏蔽的IP地址deny from 106.11.152.100deny from 106.11.152.102
yisouspider蜘蛛爬虫的IP清单(1086个IP)
以下YisouSpider的IP是我通过网站日志统计的,并不是全部的YisouSpider的IP,后续会更新这个IP清单。

总共1086个IP!!!!!!! 全部是阿里云的IP,YisouSpider全部使用的是阿里云的服务器….

本站声明:
本站所有资源来源于网络,分享目的仅供大家学习和交流!如若本站内容侵犯了原著者的合法权益,可联系邮箱976157886@qq.com进行删除。
自学哈专注于免费提供最新的分享知识、网络教程、网络技术的资源分享平台,好资源不私藏,大家一起分享!

自学哈网 » 「自学哈网」如何屏蔽国内最疯狂的蜘蛛爬虫yisouspider?
也想出现在这里? 联系我们
© 2022 Theme by - 自学哈网 & WordPress Theme. All rights reserved 浙ICP备2022016594号