SemrushBot是什么蜘蛛,这个爬虫怎么屏蔽
发布时间:2023-06-28 15:30:42
作者:超级管理员
来源:web
浏览量(378)
点赞(137)
摘要:SemrushBot是SEMrush的服务器搜索蜘蛛,SEMrush 是一个强大的、全面的在线营销竞争情报平台,其中包括 SEO、PPC、社交媒体和视频广告研究。机器人抓取你的网页来解析你的网站内容,所以相关的信息在你的网站很容易索引和更容易获得用户搜索内容。可以看得出来,对我们中文网站来说一样没什么用,属于营销类的蜘蛛,可以选择屏蔽掉。常规屏蔽方式就是写一下robots规则来屏蔽它的爬取User-agent:SemrushBotDisallow:/User-agent:SemrushBot-SADisallow:/User-agent:SemrushBot-BADisallow:/User-agent:SemrushBot-SIDisallow:/User-agent:SemrushBot-SWADisallow:/User-agent:SemrushBot-CTDisallow:/User-agent:SemrushBot-BMDisallow:/User-agent:SemrushBot-SEOABDisallow:/这个这么长是我在网上找到的,我昨天只添加了第一条
SemrushBot是SEMrush的服务器搜索蜘蛛,SEMrush 是一个强大的、全面的在线营销竞争情报平台,其中包括 SEO、PPC、社交媒体和视频广告研究。机器人抓取你的网页来解析你的网站内容,所以相关的信息在你的网站很容易索引和更容易获得用户搜索内容。
可以看得出来,对我们中文网站来说一样没什么用,属于营销类的蜘蛛,可以选择屏蔽掉。
常规屏蔽方式就是写一下robots规则来屏蔽它的爬取
User-agent: SemrushBot Disallow: / User-agent: SemrushBot-SA Disallow: / User-agent: SemrushBot-BA Disallow: / User-agent: SemrushBot-SI Disallow: / User-agent: SemrushBot-SWA Disallow: / User-agent: SemrushBot-CT Disallow: / User-agent: SemrushBot-BM Disallow: / User-agent: SemrushBot-SEOAB Disallow: /
这个这么长是我在网上找到的,我昨天只添加了第一条,今天他还在继续爬,所以不知道是我自己写的不够全面,还是它压根把robots协议当厕纸就不知道了。
为了防止他不讲武德,直接服务器规则搞起,这次我们改进一下,毕竟这些蜘蛛是真的多,比如我们换个思路,只保留我们需要的蜘蛛,其他全部屏蔽:
if ($http_user_agent !~* "Baidu|Yisou|Sogou|360|Bytes|bing|Google") { return 403; }
就是除了百度,神马、搜狗、360、头条、bing、谷歌以外的蜘蛛,全部返回403状态(没有权限访问本站),代码来自网络,据发代码的说是这样简写也可以,不放心的话,可以把简写全部换成蜘蛛全名。
扫一扫,关注我们
137