欢迎您光临自学哈网,只为分享网络知识教程,供大家学习参考!

「自学哈网」用Robots协议引导蜘蛛对页面进行抓取

作者 : 自学哈 本文共916个字,预计阅读时间需要3分钟 2022-11-26 共95人阅读
也想出现在这里? 联系我们

Robots协议是放在根目录下的一个协议,也是蜘蛛爬行网站的时候需要访问的第一个文件,通过解读Robots文件的策略,蜘蛛可以知道哪些页面可以爬行,哪些不可以爬行。一般来说,网站都是可以开发给蜘蛛来抓取的,某些不允许抓取的页面或者频道,只需要在Robots里面设定Disallow
(禁止抓取的命令)就可以。但是在实际运营中,可能面临更复杂的情况,比如整站已经在HTTPS下,但是部分页面需要蜘蛛爬行,怎么办?有以下几个解决办法。【网站优化

(1)复制一份到HTTP下。

(2)使用user-agent判断来访者,将蜘蛛引导到HTTP页面。

关于Robots文件,详细说明如下。

(1)特定页面已经不需要蜘蛛抓取,可以进行Disallow。

(2)某类集中的页面具有共同的URL参数,可以实现批量禁止抓取功能。在操作批量禁止的时候,需要避免误伤,即具有同样URL特征的功能可能并不在禁止的目的之内,无意中被禁止了。

关于同类特征的URL的一个特殊应用就是批量禁止动态URL的抓取。比如一个动态发布内容的网站,初始页面都是动态页面,从SEO角度考虑,这些动态页面全部批量生成了对应的静态页面,如下。

http://www.abc.com/?id=1

http://www.abc.com/?id=2

……

(已经批量生成了如下)

http://www.abc.com/ 1.html

http://www.abc.com/2.html

……

如果同时被蜘蛛抓取了动态页面和对应的静态页面,那么网站就存在大量的重复页面,对SEO是不好的。可以通过Robots功能,统一禁止动态URL的抓取,比如在Robots文件里写如下内容。

Disallow : /*?*

在抓取方面,蜘蛛会依据实际情况调整对网站的抓取频次,即分配抓取定额,每天定量抓取网站内容,“定量”这个词意味着是有限的,-一个大门]户网站如果一次性提交10万条URL,并不意味着蜘蛛会很快把10万条数据抓取回去,因此,必须有耐心跟踪搜索蜘蛛在网站每天的爬行和收录情况。

以上就是《用Robots协议引导蜘蛛对页面进行抓取》的全部内容,仅供站长朋友们互动交流学习,SEO优化是一个需要坚持的过程,希望大家一起共同进步。

本站声明:
本站所有资源来源于网络,分享目的仅供大家学习和交流!如若本站内容侵犯了原著者的合法权益,可联系邮箱976157886@qq.com进行删除。
自学哈专注于免费提供最新的分享知识、网络教程、网络技术的资源分享平台,好资源不私藏,大家一起分享!

自学哈网 » 「自学哈网」用Robots协议引导蜘蛛对页面进行抓取
也想出现在这里? 联系我们
© 2022 Theme by - 自学哈网 & WordPress Theme. All rights reserved 浙ICP备2022016594号