如何应对营销蜘蛛的困扰?中小个人网站博主必看

1,806次阅读
6 条评论

共计 3419 个字符,预计需要花费 9 分钟才能阅读完成。

如果你是一个中小个人网站的博主,你可能经常会发现你的网站被一些蜘蛛爬虫频繁访问,而这些蜘蛛并不是来自于正规的搜索引擎,而是一些营销蜘蛛、无效蜘蛛或垃圾蜘蛛。这些蜘蛛除了增加你的服务器压力之外,没有任何好处,甚至可能会对你的网站造成负面影响。那么,为什么会有这么多的蜘蛛爬虫出现?它们分别是什么样的蜘蛛?它们会给你的网站带来什么影响?你又该如何应对呢?本文将为你解答这些问题。

蜘蛛爬虫泛滥的原因和背景

蜘蛛爬虫,也叫网络爬虫,是一种自动化的程序,它可以按照一定的规则和逻辑,从互联网上抓取和分析各种信息。蜘蛛爬虫的存在本身并不是坏事,它们是互联网信息检索和分析的重要工具,比如,我们常用的搜索引擎就是通过蜘蛛爬虫来收录和更新网页内容的。正规的搜索引擎蜘蛛,通常会遵守网站的 robots.txt 文件,这是一个用来告诉蜘蛛爬虫哪些页面可以抓取,哪些不可以的文件。如果网站不希望被某些蜘蛛爬虫访问,可以在这个文件中设置相应的规则。

【裴先生笔记 – 裴先生的技术博客空间,探索前沿技术,解决实际问题,提升自我价值】

然而,并不是所有的蜘蛛爬虫都是正规的,有些蜘蛛爬虫是为了一些不良的目的而存在的,比如,为了获取网站的内容、数据、用户信息、链接等,从而进行营销推广、竞争分析、黑客攻击等。这些蜘蛛爬虫,通常不会遵守网站的 robots.txt 文件,而是无视或绕过它,对网站进行大量的访问和抓取,造成网站的资源浪费和性能下降。这些蜘蛛爬虫,就是我们所说的营销蜘蛛无效蜘蛛垃圾蜘蛛

那么,为什么会有这么多的营销蜘蛛、无效蜘蛛或垃圾蜘蛛出现呢?这主要有以下几个原因:

  • 互联网信息的爆炸性增长,使得蜘蛛爬虫的需求和价值不断提升,各种机构和个人都想利用蜘蛛爬虫来获取和分析互联网上的信息,从而实现各自的目的。
  • 蜘蛛爬虫的技术门槛不高,有很多现成的框架和工具可以使用,甚至有些网站提供了在线的蜘蛛爬虫服务,只要输入网址和参数,就可以轻松地抓取网站的内容。
  • 蜘蛛爬虫的法律监管不足,目前,国内外对于蜘蛛爬虫的合法性和规范性还没有明确的法律规定,很多蜘蛛爬虫的行为属于灰色地带,难以追究责任和赔偿损失。

营销蜘蛛、无效蜘蛛、垃圾蜘蛛的区别和举例

根据蜘蛛爬虫的目的和行为,我们可以将它们分为以下几类:

  • 营销蜘蛛:这类蜘蛛爬虫的目的是为了获取网站的内容、数据、用户信息、链接等,从而进行营销推广、竞争分析、SEO优化等。这类蜘蛛爬虫通常会伪装成正规的搜索引擎蜘蛛,或者使用一些不知名的蜘蛛名称,以逃避网站的检测和屏蔽。比如,SemrushBot、AhrefsBot、MJ12bot、DotBot等。
  • 无效蜘蛛:这类蜘蛛爬虫的目的是为了检测网站的可用性、速度、安全性等,或者为了收集网站的基本信息,如标题、关键词、描述等。这类蜘蛛爬虫通常不会对网站的内容和数据感兴趣,也不会对网站造成太大的影响,但是它们也会占用网站的资源和带宽,而且有些无效蜘蛛可能会被黑客利用,进行一些恶意的操作,如注入、篡改、DDoS攻击等。比如,PingdomBot、GTmetrix、Baiduspider-image、YandexBot等。
  • 垃圾蜘蛛:这类蜘蛛爬虫的目的是为了获取网站的内容和数据,从而进行抄袭、盗用、转载等,或者为了在网站上留下一些垃圾信息,如广告、链接、评论等。这类蜘蛛爬虫通常会对网站的内容和数据进行大量的复制和下载,造成网站的流量损失和内容质量下降,而且有些垃圾蜘蛛可能会对网站的排名和信誉造成损害,如降权、封杀、投诉等。比如,EasouSpider、BLEXBot、MixrankBot、ISSCyberRiskCrawler等。

【裴先生笔记 – 裴先生的技术博客空间,探索前沿技术,解决实际问题,提升自我价值】

营销蜘蛛、无效蜘蛛、垃圾蜘蛛对中小个人网站的影响

对于中小个人网站来说,营销蜘蛛、无效蜘蛛、垃圾蜘蛛的存在,会给网站带来以下几方面的影响:

  • 资源浪费:这些蜘蛛爬虫会占用网站的服务器资源和带宽资源,导致网站的性能下降,加载速度变慢,甚至出现崩溃、宕机等情况。对于中小个人网站来说,这些资源是非常宝贵的,如果被这些蜘蛛爬虫浪费掉,就会影响网站的正常运行和用户体验。
  • 内容损失:这些蜘蛛爬虫会获取网站的内容和数据,从而进行抄袭、盗用、转载等,或者在网站上留下一些垃圾信息,如广告、链接、评论等。这会导致网站的内容质量下降,流量损失,甚至被搜索引擎认为是重复内容或垃圾内容,从而降低网站的排名和信誉。
  • 安全风险:这些蜘蛛爬虫可能会被黑客利用,进行一些恶意的操作,如注入、篡改、DDoS攻击等。这会导致网站的数据泄露、内容被修改、网站被破坏等,给网站的安全带来严重的威胁。

中小个人网站博主如何正确识别与应对

裴先生的个人博客是基于WordPress搭建的,目前在使用插件在识别各种类型蜘蛛,可选择性很多,各位可以参考一下:

如何应对营销蜘蛛的困扰?中小个人网站博主必看

蜘蛛识别清单:

如何应对营销蜘蛛的困扰?中小个人网站博主必看

接下来,面对这些蜘蛛爬虫的困扰,中小个人网站博主不必惊慌,也不必无所作为,裴先生当下是采取以下一些措施来应对:

  • 设置 robots.txt 文件:这个文件可以说是所有蜘蛛爬虫的纲领性文件(合法正规的蜘蛛爬虫会严格遵循),可以在网站的根目录下创建和编辑。通过设置 robots.txt 文件,可以有效地阻止一些营销、无效、垃圾蜘蛛。比如,可以设置以下内容:
# 屏蔽一些营销、无效、垃圾蜘蛛
User-agent: AhrefsBot
Disallow: /
User-agent: NE Crawler
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: DataForSeoBot
Disallow: /
# 对剩下的爬虫蜘蛛限制访问范围
User-agent: *
Disallow: /feed/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /wp-includes/

这表示,对于屏蔽一些营销、无效、垃圾蜘蛛爬虫之后,其余爬虫不允许抓取网站的 /feed/、/trackback/、/wp-admin/ 等目录。

【裴先生笔记 – 裴先生的技术博客空间,探索前沿技术,解决实际问题,提升自我价值】

  • 设置 .htaccess 文件:这是一个用来控制网站的访问权限和重定向的文件,可以在网站的根目录下创建和编辑。通过设置 .htaccess 文件,可以有效地屏蔽一些不遵守规则的蜘蛛爬虫。比如,可以设置以下内容:
# 屏蔽无效爬虫
<IfModule mod_rewrite.c>
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*DataForSeoBot.* [NC]
RewriteRule .* - [F]

RewriteCond %{HTTP_USER_AGENT} ^.*MJ12bot.* [NC]
RewriteRule .* - [F]

RewriteCond %{HTTP_USER_AGENT} ^.*AhrefsBot.* [NC]
RewriteRule .* - [F]

RewriteCond %{HTTP_USER_AGENT} ^.*SemrushBot.* [NC]
RewriteRule .* - [F]

RewriteCond %{HTTP_USER_AGENT} ^.*NE\ Crawler.* [NC]
RewriteRule .* - [F]
 
RewriteCond %{HTTP_USER_AGENT} ^.*DotBot.* [NC]
RewriteRule .* - [F]
</IfModule>

这表示,对于 SemrushBot、AhrefsBot、MJ12bot 等蜘蛛爬虫,拒绝访问本网站。

  • 使用第三方工具或服务:除了自己设置文件,还可以使用一些第三方的工具或服务来帮助识别和屏蔽蜘蛛爬虫,比如,可以使用 Cloudflare阿里云或者腾讯云等提供的 CDNWAFDDoS 防护等服务,来增强网站的安全性和稳定性,或者使用 BotDefenderSpiderBlockerSpiderTrap 等专门针对蜘蛛爬虫的工具,来检测和拦截蜘蛛爬虫的访问。

总之,营销蜘蛛、无效蜘蛛、垃圾蜘蛛是中小个人网站博主不可避免的问题,但也不是无法解决的问题,只要采取合理的措施,就可以有效地应对这些蜘蛛爬虫的困扰,保护自己的网站和内容。

正文完
 3
裴先生
版权声明:本站原创文章,由 裴先生 2024-03-05发表,共计3419字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(6 条评论)
恐咖兵糖 评论达人 LV.1
2024-03-05 17:45:59 回复

我这用的静态博客生成器的主题自带一些可以参考 [这里](https://github.com/HEIGE-PCloud/DoIt/blob/main/layouts/robots.txt)
以及 [Gotsocial](https://github.com/superseriousbusiness/gotosocial/blob/main/internal/web/robots.go) 禁止了一些 AI 比如 GPT 爬虫,可以参考。

 Android  Chrome  中国黑龙江省哈尔滨市联通
优惠券推广平台 评论达人 LV.1
2024-03-07 20:27:04 回复

写的很详细具体,学习到了,多谢博主的分享!⌇●﹏●⌇

 Windows  Chrome  中国安徽省马鞍山市移动
ekihyYWwuAfvb 评论达人 LV.1
2024-03-09 05:00:15 回复

营销蜘蛛,百弊无利

 Windows  Chrome  伊拉克EarthLink
KK 评论达人 LV.1
2024-03-10 10:28:08 回复

我刚特地看了一下,我这个站的蜘蛛属 sm 最多,但是我印象中sm没给过我流量

 Windows  Chrome  亚太地区亚太地区
    裴先生 博主
    2024-03-10 14:30:26 回复

    @KK 这个蜘蛛会增加你文章的访问量的

     iPhone  Chrome
本站勉强运行: