「自学哈网」如何屏蔽国内最疯狂的蜘蛛爬虫yisouspider?

YisouSpider是什么蜘蛛爬虫?
国内最疯狂的蜘蛛(没有之一)能让你的网站挂掉,尤其是VPS、小内存虚拟机就别说了。
为什么要屏蔽YisouSpider蜘蛛爬虫?
一个网站使用的是阿里的云主机,最近后台监测到网站流量很大,内存占用高,对这个站而言,1个G的内存完全绰绰有余,排查原因,造成这种高流量的因素还比较多,比如阿里云主机本身的逻辑原因、老域名总有黑KE来DDOS和CC、网站程序本身的安全性没做好等等,这些所有因素中,如果可以用百分比来表示,估计YisouSpider这只蜘蛛对此站的贡献程度在50%-70%。它的爬行频率不顾时间,晚上爬白天还爬,爬行频率和次数超过所有其他蜘蛛的总和。
为什么专门写这么一篇屏蔽YisouSpider的文章?
因为YisouSpider太流氓了!自己网上搜吧
———————————–重点分割线:如何屏蔽国内最疯狂的蜘蛛爬虫yisouspider?——————————
目录
1 限定Yisouspider访问权限的robots协议写法(已经尝试,无用)
2 Nginx屏蔽爬虫yisouspider访问站点方法(没有尝试过,是apache的)
3 Apache屏蔽爬虫yisouspider访问站点方法(网上的方法,试用过,会造成访问不正常)
4 直接屏蔽封锁yisouspider的IP吧,但是它的IP有点多哦!!
5 Apache屏蔽蜘蛛IP的方法(nginx….)
6 yisouspider蜘蛛爬虫的IP清单(1086个IP)
限定Yisouspider访问权限的robots协议写法(已经尝试,无用)
robots.txt 必须放在网站根目录下,且文件名要小写。
具体写法:
1) 完全禁止 yisouspider 抓取:
User-agent: yisouspiderDisallow: /
2) 禁止 yisouspider 抓取指定目录
User-agent: yisouspiderDisallow: /updateDisallow: /history
禁止抓取 update、history 目录下网页
Nginx屏蔽爬虫yisouspider访问站点方法(没有尝试过,我是apache的)
进入到 nginx 安装目录下的 conf 目录,将如下代码保存为 agent_deny.conf
#禁止 Scrapy 等工具的抓取if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { return 403;}#禁止指定 UA 及 UA 为空的访问if ($http_user_agent ~ “yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$” ) { return 403;}#禁止非 GET|HEAD|POST 方式的抓取if ($request_method !~ ^(GET|HEAD|POST)$) { return 403;}
然后,在网站相关配置中的
location / {try_files $uri $uri/ /index.php?$args;
下方插入如下代码:
include agent_deny.conf;
保存后,执行如下命令,平滑重启 nginx 即可:
/usr/local/nginx/sbin/nginx -s reload
Apache屏蔽爬虫yisouspider访问站点方法(网上的方法,试用过,会造成访问不正常)
1、通过修改 .htaccess 文件
修改网站目录下的.htaccess,添加如下代码即可(2 种代码任选):
可用代码 (1):
RewriteEngine OnRewriteCond %{HTTP_USER_AGENT} (^$|yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) [NC]RewriteRule ^(.*)$ – [F]
可用代码 (2):
SetEnvIfNoCase ^User-Agent$ .*(yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) BADBOTOrder Allow,DenyAllow from allDeny from env=BADBOT
2、通过修改 httpd.conf 配置文件
找到如下类似位置,根据以下代码 新增 / 修改,然后重启 Apache 即可:
DocumentRoot /home/wwwroot/xxx<Directory “/home/wwwroot/xxx”>SetEnvIfNoCase User-Agent “.*(yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms)” BADBOTOrder allow,denyAllow from alldeny from env=BADBOT</Directory>
直接屏蔽封锁yisouspider的IP吧,但是它的IP有点多哦!!
Apache屏蔽蜘蛛IP的方法(nginx我不知道….)
修改htacess文件如下
order allow,denyallow from all#需要屏蔽的IP地址deny from 106.11.152.100deny from 106.11.152.102
yisouspider蜘蛛爬虫的IP清单(1086个IP)
以下YisouSpider的IP是我通过网站日志统计的,并不是全部的YisouSpider的IP,后续会更新这个IP清单。
总共1086个IP!!!!!!! 全部是阿里云的IP,YisouSpider全部使用的是阿里云的服务器….
本站所有资源来源于网络,分享目的仅供大家学习和交流!如若本站内容侵犯了原著者的合法权益,可联系邮箱976157886@qq.com进行删除。
自学哈专注于免费提供最新的分享知识、网络教程、网络技术的资源分享平台,好资源不私藏,大家一起分享!
自学哈网 » 「自学哈网」如何屏蔽国内最疯狂的蜘蛛爬虫yisouspider?
