设为首页
收藏本站
开启辅助访问
切换到窄版
登录
立即注册
导航
视频
门户
Portal
论坛
BBS
问答
招聘
供求
悬赏
搜索
搜索
本版
文章
帖子
用户
人人买卖通
»
论坛
›
猎奇资讯
›
探秘猎奇
›
屏蔽国外垃圾无用蜘蛛,防止大量抓取导致网站崩溃浪费带 ...
返回列表
发新帖
屏蔽国外垃圾无用蜘蛛,防止大量抓取导致网站崩溃浪费带宽
[复制链接]
93
|
3
|
2023-11-1 11:47:47
|
显示全部楼层
|
阅读模式
浏览本帖时间满 5 秒,可领取 5 铜钱
恭喜您
浏览本帖获得 5 铜钱
点击领取
最近发现一些国外垃圾蜘蛛频繁抓我网站页面,白浪费消耗服务器性能。所以要屏蔽他们这些垃圾蜘蛛抓取,这里介绍两种方法一同操作进行屏蔽:
第一种方法:直接在根目录下robos.txt文件里面屏蔽掉相关垃圾蜘蛛:
付费内容
游客,您好!如果您要查看本帖隐藏内容请向楼主支付
10
铜钱
立即购买
复制代码
第二种方法,宝塔面板网站设置——配置文件,将需要屏蔽的蜘蛛写进配置文件代码里:
#屏蔽垃圾蜘蛛
付费内容
游客,您好!如果您要查看本帖隐藏内容请向楼主支付
10
铜钱
立即购买
复制代码
第三种方法防火墙里加过滤规则
狗日的再来抓就送你吃403!
常见的搜索引擎爬虫
1、Googlebot(屏蔽!没毛用)
Googlebot是谷歌的网络爬虫,其UA标识为“(compatible;Googlebot/2.1;”。对大部分网站,Googlebot应该是爬取最勤快的爬虫,能给优质博客带来大量流量。
除了爬取网页的Googlebot,常见的还有图片爬虫Googlebot-Image、移动广告爬虫Mediapartners-Google等。
2、Baiduspider
Baiduspider是百度的网页爬虫,中文站很常见。其UA标识为“(compatible;Baiduspider/2.0;+)”。
除了网页爬虫,手机百度爬虫Baiduboxapp、渲染抓取Baiduspider-render等。
3、bingbot
bingbot是微软bing搜索的爬虫,其UA标识为“(compatible;bingbot/2.0;+)”。
自微软推广bing搜索品牌后,微软原来的爬虫MSNBot越来越少见到了。
4、360Spider
360Spider是360搜索的爬虫,其UA标识为“Mozilla/5.0(Windows NT 10.0;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/71.0.3578.98 Safari/5 37.36;360Spider”。
目前360搜索份额较少,这个爬虫不是很常见。
5、Sogou web spider
Sogou web spider是搜狗搜索的网页爬虫,其UA标识为“Sogou web spider/4.0”。背靠腾讯,搜狗目前市场份额在上升,因此其网络爬虫比较勤快,经常能看到。
访问日志搜索Sogou,除了Sogou web spider,还常见SogouMSE、SogouMobileBrowser。这是搜狗手机浏览器的UA标识,不是爬虫。
6、YisouSpider
YisouSpider是神马搜索的爬虫,UA标识是“Mozilla/5.0(Windows NT 6.1;Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36”。
神马成立初期太疯狂抓取网页导致一些小网站崩溃而惹的天怒人怨。随着市场份额提升和数据完善,目前YisouSpider还算克制,不再疯狂抓取。
从名字上看,神马搜索的发音类似于宜搜,但和专注小说搜索的“宜搜”不是同一家公司。神马搜索是UC合并到阿里后推出的移动搜索引擎,而宜搜在2G wap时代就已经名声在外。
7、YandexBot(屏蔽!没毛用)
YandexBot是俄罗斯最大搜索引擎和互联网巨头Yandex的网页爬虫,其UA标识是“(compatible;YandexBot/3.0;)”。
Yandex提供中文界面和中文搜索,也是少数目前能直接打开的国外搜索引擎。随着越来越多中国人知道Yandex,YandexBot在中文网站日志里越来越常见。
8、DuckDuckGo
DuckDuckGo是DuckDuckGo的网页爬虫,其UA标识是“Mozilla/5.0(Linux;Android 10)AppleWebK it/537.36(KHTML,like Gecko)Version/4.0 Chrome/81.0.4044.138 Mobile Safari/537.36 DuckDuckGo/5”。
DuckDuckGo主打隐私、安全、不监控用户记录,界面简洁,也提供中文搜索界面。
除了上述搜索引擎爬虫,WordPress等提供feed订阅的网站还常见newblur和feedly的访问记录。这两个不是爬虫,而是订阅软件,也能给网站带来流量。
常见的网络恶意垃圾爬虫蜘蛛
上面说的搜索引擎爬虫能给网站带来流量,也有许多爬虫除了增加服务器负担,对网站没任何好处,应该屏蔽掉。
1、MJ12Bot
MJ12Bot是英国著名SEO公司Majestic的网络爬虫,其抓取网页给需要做SEO的人用,不会给网站带来流量。
2、AhrefsBot
AhrefsBot是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给SEO专业人士用,不会给网站带来流量。
3、SEMrushBot
SEMrushBot也是SEO、营销公司的网络爬虫。
4、DotBot
DotBot是Moz.com的网页爬虫,抓取数据用来支持Moz tools等工具。
5、MauiBot
MauiBot不同于其他爬虫,这个爬虫连网站都没有,UA只显示一个邮箱:”MauiBot(crawler.feedback+wc gm ail.com)“。神奇的是这个看起来是个人爬虫,竟然遵循robots协议,算得上垃圾爬虫的一股清流。
6、MegaIndex.ru
这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。
7、BLEXBot
这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议。
SemrushBot,这是semrush下面的一个蜘蛛,是一家做搜索引擎优化的公司,因此它抓取网页的目的就很明显了。这种蜘蛛对网站没有任何用处,好在它还遵循robots协议,因此可以直接在robots屏蔽。
DotBot,这是moz旗下的,作用是提供seo服务的蜘蛛,但是对我们并没有什么用处。好在遵循robots协议,可以使用robots屏蔽
AhrefsBot,这是ahrefs旗下的蜘蛛,作用是提供seo服务,对我们没有任何用处,遵循robots协议。
MJ12bot,这是英国的一个搜索引擎蜘蛛,但是对中文站站点就没有用处了,遵循robots协议。
MauiBot,这个不太清楚是什么,但是有时候很疯狂,好在遵循robots协议。
MegaIndex.ru,这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。
BLEXBot,这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议
等等……………
主要是将从网站日志中发现的一些异常抓取的蜘蛛屏蔽掉,我上面列举的是一些常见的对我们网站没啥用处的蜘蛛,将这些蜘蛛屏蔽掉就好了。
第二种方法屏蔽的效果:
谷歌一个ip来不了,没毛用!一天来抓几千次,浪费宽带。
屏蔽
,
蜘蛛
,
垃圾
,
网站崩溃
,
浪费带宽
相关帖子
•
网站如何屏蔽谷歌蜘蛛搜索爬虫?
•
【SEO优化】网站SEO诊断之robots.txt文件配置误区及详细写法
•
BT宝塔屏蔽垃圾搜索引擎蜘蛛以及采集扫描工具教程
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
选择
|
2023-11-1 11:52:12
|
显示全部楼层
1. 使用robots.txt文件进行屏蔽
在网站根目录下创建一个名为"robots.txt"的文件,并在文件中添加以下内容:
User-agent: *
Disallow: /
这样配置后,所有的搜索引擎蜘蛛都会被禁止抓取你的网站,包括国内和国外的蜘蛛。但需要注意的是,这种方法只是告诉蜘蛛不要抓取你的网站内容,但并不能完全阻止蜘蛛的访问。
2. 使用服务器配置进行屏蔽
如果你使用的是Apache服务器,可以通过修改.htaccess文件来进行屏蔽。在.htaccess文件中添加以下代码:
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*Googlebot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Bingbot.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Yahoo! Slurp.*$ [NC]
RewriteRule ^.*$ - [F,L]
上述代码会将来自Googlebot、Bingbot和Yahoo! Slurp的请求直接拒绝访问,从而实现对这些蜘蛛的屏蔽。你也可以根据需要修改代码中的蜘蛛名称和条件。
以上两种方法结合使用可以有效地屏蔽大部分国外垃圾蜘蛛的抓取,减少服务器负载和带宽消耗。但需要注意的是,新的蜘蛛可能会出现或者已有的蜘蛛可能会更改User-Agent,所以需要定期检查和更新屏蔽规则。
回复
使用道具
举报
照妖镜
沙龙
|
2023-11-1 12:23:40
|
显示全部楼层
方法一:使用robots.txt文件屏蔽
1. 在网站的根目录下创建一个名为"robots.txt"的文本文件。
2. 打开该文本文件,并在其中添加以下内容:
User-agent: *
Disallow: /
3. 保存并上传该文件到网站的根目录。这样,任何蜘蛛访问你的网站时,都会首先查找robots.txt文件,并按照其中的指示来访问网站。由于我们在该文件中设置了"Disallow: /",所以所有的蜘蛛都被要求不允许访问网站上的任何内容。
方法二:使用IP地址屏蔽
1. 查找垃圾蜘蛛的IP地址。可以通过查看服务器日志或者使用工具(如Google Analytics)来获取这些信息。
2. 登录你的服务器控制面板,找到"IP防火墙"或者类似的选项。
3. 将垃圾蜘蛛的IP地址添加到防火墙黑名单中,设置禁止访问你的网站。
注意:屏蔽蜘蛛的IP地址可能会影响到其他用户的访问,所以在操作之前请确定这些IP地址确实属于垃圾蜘蛛。
回复
使用道具
举报
照妖镜
喑夜
|
2023-11-2 16:19:03
|
显示全部楼层
方法一:使用robots.txt文件屏蔽
1. 在网站根目录下新建一个名为"robots.txt"的文本文件。
2. 打开"robots.txt"文件,并添加以下内容:
User-agent: *
Disallow: /
这段代码的意思是禁止任何网络爬虫访问网站的全部页面。将User-agent字段设置为" *"表示适用于所有爬虫,将Disallow字段设置为"/"表示禁止对所有页面的访问。
3. 保存"robots.txt"文件,并上传到网站的根目录中。
请注意,使用robots.txt文件进行屏蔽只能阻止遵守网络规范的爬虫访问,而不能有效阻止恶意爬虫或垃圾蜘蛛的抓取。因此,还需要采取其他方法来进一步屏蔽。
方法二:使用防火墙或安全插件屏蔽
1. 根据你所使用的服务器环境或网站管理系统,选择一个适合的防火墙或安全插件来进行屏蔽设置。常用的防火墙或安全插件有:ModSecurity、Wordfence、Cloudflare等。
2. 安装和配置选择的防火墙或安全插件。具体的安装和配置方法请参考相应插件的文档或官方指南。
3. 在防火墙或安全插件的设置中,找到"IP屏蔽"或"黑名单"等相关选项。将频繁抓取的国外垃圾蜘蛛的IP地址添加到屏蔽列表中。
请注意,在使用防火墙或安全插件进行屏蔽时,需要谨慎操作,避免屏蔽误伤正常访问者或合法爬虫的IP地址。建议根据具体情况进行调整和测试,以达到屏蔽垃圾蜘蛛的目的同时不影响正常访问。
回复
使用道具
举报
照妖镜
返回列表
发新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
浏览过的版块
资源下载
人才招聘
有问必答
网站公告
猎奇感悟
sanqiren
17
主题
4
回帖
152
积分
VIP会员
VIP会员, 积分 152, 距离下一级还需 48 积分
VIP会员, 积分 152, 距离下一级还需 48 积分
积分
152
加好友
发消息
回复楼主
返回列表
猎奇感悟
猎奇头条
探秘猎奇
新奇趣事
图文推荐
灯笼袖衬衫搭配阔腿裤,性感又撩人
2024-04-22
热门排行
1
有哪些常见的公开演讲挑战,我该如何克服?
2
如何了解这个世界(社会)运行的本质?
3
现在老实人有那些特征?
4
服装批发拿货精准时间表(广东)
5
有哪些常见的技术挑战,我该如何应对?
6
猎奇艺网站优化新方案
7
我如何利用创造力和创新来推动业务增长并在我的工作和个人生活中取得更好的成果?
8
你知道哪些中国的老规矩?
9
火药的制作成分是什么?如何提纯火药?
10
现在女性怎么喜欢穿宽松西装外套?