「自学哈网」 Nginx 服务器环境利用user_agent屏蔽蜘蛛和客户端访问-自学哈网

最近网站总是时常打不开，分析了一下网站访问日志，发现有国外的网站网虫在大量爬取，本来昨天已经在robots.txt文件中声明不允许它们访问了，没想到还在爬取，有必要强制禁止让它们访问。

网站服务器使用的是 Nginx + PHP 环境，通过用user_agent来屏蔽某些蜘蛛的访问，顺便再分享一下怎样屏蔽工具和客户端的访问的方法。

将下面代码添加到网站配置文件中即可。

1. 禁止空agent的浏览器访问

if ($http_user_agent ~ ^$) {
return 403;
}

2. 禁止Scrapy等工具的抓取

if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
return 403;
}

3. 禁止指定UA的访问

if ($http_user_agent ~ "ApacheBench|WebBench|HttpClient|Java|python|Go-http-client|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Feedly|UniversalFeedParser|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|MJ12bot|heritrix|EasouSpider|LinkpadBot|Ezooms" )
{
return 403;
}

这个运用比较广泛，比如分享到QQ和微信的网页禁止直接在QQ和微信中打开，以免挂红。

4. 禁止爬虫抓取

if ($http_user_agent ~* "qihoobot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot") 
{ 
    return 403; 
}

5. 禁止非GET|HEAD|POST方式的抓取

if ($request_method !~ ^(GET|HEAD|POST)$) {
return 403;
}

6. 禁止特殊的user_agent的访问

if ($http_user_agent ~ "Mozilla/4.0\ \(compatible;\ MSIE\ 6.0;\ Windows\ NT\ 5.1;\ SV1;\ .NET\ CLR\ 1.1.4322;\ .NET\ CLR\ 2.0.50727\)") {
return 404;
}

怎样快速分析出哪些是频繁访问的user_agent呢？通过分析nginx的日志可以得出。

tail -n 1000 /usr/local/nginx/logs/access.log | awk -F\" '{A[$(NF-1)]++}END{for(k in A)print A[k],k}' | sort -n | tail 分析访问次数

通过执行以上命令可以得出访问最多的user_agent，再通过人为判断是否正常访问来屏蔽。

自学哈网站正式上线，海量资源教程免费获取！好资源不私藏，大家一起分享！

自学哈 会员

自学哈会员