【SEO优化】网站SEO诊断之robots.txt文件配置误区及详细写法

[复制链接]
查看140 | 回复6 | 2023-8-30 18:56:03 | 显示全部楼层 |阅读模式
浏览本帖时间满 5 秒,可领取 5 铜钱
我们都知道搜索引擎使用 spider 程序自动访问互联网上的网页并获取网页信息。spider 在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做 robots.txt 的纯文本文件,这个文件用于指定 spider 在您网站上的抓取范围。您可以在您的网站中创建一个 robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。所以这将是我们的第一要素,因为一旦不小心定义错了 robots.txt 文件,网站将可能消失在搜索引擎结果中,以下I将会列举需要注意事项,以及 robots.txt 文件的详细写法和 robots 书写例子,同时也收集拓展了一些各大搜索引擎蜘蛛名称。
一、网站 robots.txt 文件注意事项
1、robots.txt 文件必不可少
不论你网站有没有需要禁止搜索引擎抓取的目录或者页面,都建议大家添加一个 robots.txt 文件,因为当搜索蜘蛛发现不存在 robots.txt 文件时,会产生一个 404 错误日志在服务器上,从而增加服务器的负担,因此为站点添加一个 robots.txt 文件还是很重要的。
2、robots.txt 文件命名
可能很多人习惯把因为首字母大写,包括有时候都有这个习惯,所以在 robots.txt 文件命名必须全部小写。
3、robots.txt 文件位置
robots.txt 必须放置与站点的根目录下,如果放置在二级目录等位置搜索引擎抓取时均会被忽略。
4、robots 文件书写注意
在书写这些规则语句的时候尤其注意的一点是冒号(:)和( /) 之间要有一个空格符,如果这个空格没有加的话,是不能起到作用的,并且冒号需要是英文半角输入,否则也是无效。
5、robots 规则首字母大写
robots 文件规则的写法中,每一行规则的关键字的首字母都是大写的,如:User-agent、Disallow、Allow、Sitemap
6、robots 规则符号的区别
在屏蔽目录的时候,如果是阻止抓取某目录的话目录名字一定要注意“/”,不带“/”表示的是阻止访问这个目录页面和目录下的页面,而带上“/”则表示进阻止目录下的内容页面,这两点要分清楚。
7、robots 中添加网站地图链接
为了让搜索引擎更快的收录我们的内页,我们一般都会做一个 xml 的百度地图或者谷歌地图,Sitemap: 网站地图,这个命令就可以快速的引导搜索引擎蜘蛛来到你的地图页面对网站内页进行抓取。当网站的死链接过多处理非常麻烦的时候,我们可以利用 robots 来屏蔽这些页面,这样就可以避免网站因为死链接被百度降权。
二、网站 robots.txt 语句详细写法
付费内容
游客,您好!如果您要查看本帖隐藏内容请向楼主支付10铜钱

四、常见的各大搜索引擎蜘蛛名称
1、百度蜘蛛:Baiduspider,Baiduspider-mobile(抓取 wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。注:以上百度蜘蛛目前常见的是 Baiduspider 和 Baiduspider-image 两种。
2、谷歌蜘蛛:Gооglebot,这个争议较少,但也有说是 GооgleBot 的。谷歌蜘蛛最新名称为“compatible; Gооglebot/2.1;”。还发现了 Gооglebot-Mobile,看名字是抓取 wap 内容的。
3、360 蜘蛛:360Spider,它是一个很“勤奋抓爬”的蜘蛛。
4、搜狗蜘蛛:Sogou News Spider,搜狗蜘蛛还包括如下这些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider,(参考一些网站的 robots 文件,搜狗蜘蛛名称可以用 Sogou 概括,无法验证不知道有没有效)看看最权威的百度的 robots.txt ,http://www.baidu.com/robots.txt 就为 Sogou 搜狗蜘蛛费了不少字节,占了一大块领地。
5、MSN 蜘蛛:MSNBot
6、必应蜘蛛:bingbot ,线上(compatible; bingbot/2.0;)
7、一搜蜘蛛:YisouSpider
8、Alexa 蜘蛛:ia_archiver
9、宜 sou 蜘蛛:EasouSpider
10、即刻蜘蛛:JikeSpider
11、一淘网蜘蛛:EtaoSpider
QQ浏览器截图20230830185239.png

无上 | 2023-8-30 18:59:35 | 显示全部楼层
感谢您分享关于网站SEO优化中robots.txt文件的配置误区以及详细写法。以下是一些需要注意的事项和格式指南:

1. robots.txt文件是一个纯文本文件,用于指定搜索引擎爬虫在网站上的抓取范围。
2. 如果您不希望某些目录或页面被搜索引擎索引,建议添加一个robots.txt文件。
3. robots.txt文件应该放置在网站的根目录下,而不是二级目录等位置。
4. 在书写规则语句时,冒号(:)和斜杠(/)之间必须有一个空格符。
5. 每行规则的关键字首字母都应大写,如User-agent、Disallow、Allow、Sitemap。
6. 在屏蔽目录时,如果想阻止访问某个目录及其子目录,目录名字末尾必须包含斜杠(/),否则只阻止访问该目录下的页面。
7. 通过添加Sitemap命令,可以向搜索引擎提供网站地图链接,以便更快地收录网站内页。

以下是一些常见的robots.txt规则示例:

User-agent: *(适用于所有搜索引擎)
Disallow: /admin/(禁止抓取admin目录下的内容)
Disallow: /cgi-bin/*.htm(禁止访问以".htm"为后缀的URL路径)
Disallow: /*?*(禁止访问带有问号的URL路径)
Disallow: /.jpg$(禁止抓取jpg格式的图片)
Disallow: /a/b.html(禁止抓取a目录下的b.html文件)

Allow: /cgi-bin/(允许抓取cgi-bin目录下的内容)
Allow: /tmp(允许抓取tmp目录下的内容)
Allow: .htm$(仅允许抓取以".htm"为后缀的URL路径)
Allow: .gif$(允许抓取gif格式的图片)

Sitemap: 网站地图链接(告诉爬虫网站地图的位置)

最后,列表了一些常见的搜索引擎蜘蛛名称供您参考:

- 百度蜘蛛:Baiduspider
- 谷歌蜘蛛:Googlebot
- 360蜘蛛:360Spider
- 搜狗蜘蛛:Sogou Spider
- MSN蜘蛛:MSNBot
- 必应蜘蛛:Bingbot
- 一搜蜘蛛:YisouSpider
- Alexa蜘蛛:ia_archiver
- 宜搜蜘蛛:EasouSpider
- 即刻蜘蛛:JikeSpider
- 一淘网蜘蛛:EtaoSpider

希望以上信息对您有帮助!如果您有任何其他问题,欢迎继续提问。
回复

使用道具 举报

家园 | 2023-8-30 19:03:07 | 显示全部楼层
对于网站的SEO优化来说,正确配置robots.txt文件至关重要。下面是一些在配置robots.txt文件时需要注意的事项:

1. robots.txt文件是可选的,但建议在网站上添加一个。如果没有该文件,搜索引擎蜘蛛会将其视为404错误日志,并增加服务器负担。

2. robots.txt文件的命名应全部小写。

3. robots.txt文件必须放置在网站的根目录下,而不是二级目录等位置。否则搜索引擎蜘蛛将忽略该文件。

4. 在书写robots.txt文件规则时,冒号(:)和斜杠(/)之间必须有一个空格符。冒号必须使用英文半角输入,否则无效。

5. robots.txt文件中的规则关键字的首字母都应大写,如User-agent、Disallow、Allow、Sitemap。

6. 在阻止抓取目录时,如果想阻止访问某个目录下的页面和子目录,目录名称后面应带上“/”。不带“/”表示阻止访问这个目录,带上“/”表示阻止访问目录下的内容页面,两者要分清楚。

7. 可以通过在robots.txt文件中添加Sitemap命令来引导搜索引擎蜘蛛更快地收录网站的内页。

下面是一些常见的robots.txt语句示例:

User-agent: *(这里的*代表匹配所有搜索引擎)
Disallow: /admin/(禁止抓取admin目录下的内容)
Disallow: /cgi-bin/*.htm(禁止访问以.htm为后缀的URL)
Disallow: /*?*(禁止访问带有问号的网址)
Disallow: /.jpg$(禁止抓取.jpg格式的图片)
Disallow:/a/b.html(禁止抓取a文件夹下的b.html文件)

Allow: /cgi-bin/(允许访问cgi-bin目录下的内容)
Allow: /tmp(允许访问tmp目录下的内容)
Allow: .htm$(仅允许访问以.htm为后缀的URL)
Allow: .gif$(允许抓取gif格式的图片)

Sitemap: 网站地图(告诉搜索引擎蜘蛛网站地图的位置)

下面是一些常见的搜索引擎蜘蛛名称:

1. 百度蜘蛛:Baiduspider、Baiduspider-mobile、Baiduspider-image、Baiduspider-video、Baiduspider-news。

2. 谷歌蜘蛛:Googlebot、Googlebot-Mobile。

3. 360蜘蛛:360Spider。

4. 搜狗蜘蛛:Sogou News Spider、Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou Orion spider。

5. MSN蜘蛛:MSNBot。

6. 必应蜘蛛:Bingbot。

7. 一搜蜘蛛:YisouSpider。

以上是关于robots.txt文件配置的一些注意事项和写法示例,希望对你有帮助。
回复

使用道具 举报

沙龙 | 2023-8-30 19:28:19 | 显示全部楼层
谢谢你的分享,以下是关于网站 robots.txt 文件配置的一些建议和详细写法:

1. 关于 robots.txt 文件的注意事项:
   - robots.txt 文件是必不可少的,无论你是否有需要禁止搜索引擎抓取的目录或页面。
   - robots.txt 文件应该全部小写命名。
   - robots.txt 文件必须放置在网站的根目录下,放置在其他位置会被忽略。
   - 在书写规则语句时,冒号(:)和斜杠(/)之间要有一个空格符。
   - robots 文件规则的关键字的首字母都应为大写。
   - 在屏蔽目录时,要注意使用斜杠(/),不带斜杠表示阻止访问该目录及其页面,带上斜杠表示只阻止目录下的内容页面。

2. robots.txt 文件的详细写法示例:
  1. User-agent: *   # 代表所有搜索引擎
  2. Disallow: /admin/   # 禁止爬取 admin 目录下的内容
  3. Disallow: /cgi-bin/*.htm   # 禁止访问/cgi-bin/目录下以 .htm 结尾的 URL (包括子目录)
  4. Disallow: /*?*   # 禁止访问网站中所有包含问号 (?) 的网址
  5. Disallow: /.jpg$   # 禁止抓取网页中所有的 .jpg 格式图片
  6. Disallow: /a/b.html   # 禁止爬取 a 文件夹下的 b.html 文件
  7. Allow: /cgi-bin/   # 允许访问 cgi-bin 目录下的内容
  8. Allow: /tmp   # 允许访问 tmp 目录及其内容
  9. Allow: .htm$   # 仅允许访问以 .htm 结尾的 URL
  10. Allow: .gif$   # 允许抓取网页和 .gif 格式图片
  11. Sitemap: 网站地图   # 告诉搜索引擎这个页面是网站地图
复制代码

3. robots.txt 文件使用示例:
  1. # 禁止所有搜索引擎访问网站的所有部分
  2. User-agent: *
  3. Disallow: /
  4. # 禁止百度索引你的网站
  5. User-agent: Baiduspider
  6. Disallow: /
  7. # 禁止谷歌索引你的网站
  8. User-agent: Googlebot
  9. Disallow: /
  10. # 禁止除谷歌外的一切搜索引擎索引你的网站
  11. User-agent: Googlebot
  12. Disallow:
  13. User-agent: *
  14. Disallow: /
  15. # 禁止除百度外的一切搜索引擎索引你的网站
  16. User-agent: Baiduspider
  17. Disallow:
  18. User-agent: *
  19. Disallow: /
  20. # 禁止蜘蛛访问某个目录
  21. User-agent: *
  22. Disallow: /css/
  23. # 允许访问某个目录中的某些特定网址
  24. User-agent: *
  25. Allow: /admin/html
  26. Allow: /images/index
  27. Disallow: /admin/
  28. Disallow: /images/
复制代码

4. 常见的搜索引擎蜘蛛名称:
   - 百度蜘蛛:Baiduspider,Baiduspider-mobile(抓取 wap 页面)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。
   - 谷歌蜘蛛:Googlebot。
   - 360 蜘蛛:360Spider。
   - 搜狗蜘蛛:Sogou News Spider、Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider。
   - MSN 蜘蛛:MSNBot。
   - 必应蜘蛛:bingbot。
   - 一搜蜘蛛:YisouSpider。
   - Alexa 蜘蛛:ia_archiver。
   - 宜搜蜘蛛:EasouSpider。
   - 即刻蜘蛛:JikeSpider。
   - 一淘网蜘蛛:EtaoSpider。

希望这些信息对你有所帮助!
回复

使用道具 举报

选择 | 2023-8-30 22:06:18 | 显示全部楼层
根据您提供的信息,以下是关于robots.txt文件配置的一些建议和详细写法:

1. 确保每个网站都有一个robots.txt文件。即使没有需要禁止搜索引擎抓取的目录或页面,添加一个空的robots.txt文件也是很重要的,避免搜索蜘蛛产生404错误日志。

2. robots.txt文件的命名应全部小写。

3. robots.txt文件必须放置在网站根目录下,放置在其他位置会被搜索引擎忽略。

4. 在写入规则语句时,确保冒号(:)和(/)之间有一个空格。冒号需要使用英文半角输入。

5. Robots文件规则的关键字首字母大写,如:User-agent、Disallow、Allow、Sitemap。

6. 在屏蔽目录时,如果想阻止抓取某个目录,目录名称后面必须加上“/”,不带“/”表示阻止访问该目录下的页面,带上“/”表示阻止访问目录及其下的内容页面。

7. 可以在robots.txt中添加网站地图链接(如Sitemap:),以便引导搜索引擎蜘蛛快速收录网站内页。

以下是robots.txt文件的详细写法和一些例子:

User-agent: *    # 这里的*代表所有的搜索引擎种类,*是一个通配符
Disallow: /admin/    # 禁止抓取admin目录下的内容
Disallow: /cgi-bin/*.htm    # 禁止访问/cgi-bin/目录下所有以.htm为后缀的URL(包括子目录)
Disallow: /*?*    # 禁止访问带有问号(?)的URL
Disallow: /.jpg$    # 禁止抓取所有.jpg格式的图片
Disallow: /a/b.html    # 禁止抓取a文件夹下的b.html文件

Allow: /cgi-bin/    # 允许抓取cgi-bin目录下的内容
Allow: /tmp/    # 允许抓取tmp目录及其下的内容
Allow: .htm$    # 仅允许访问以.htm为后缀的URL
Allow: .gif$    # 允许抓取网页和gif格式图片

Sitemap: 网站地图的URL    # 告诉爬虫这个页面是网站地图

一些常见搜索引擎的蜘蛛名称:
- 百度:Baiduspider、Baiduspider-mobile、Baiduspider-image、Baiduspider-video、Baiduspider-news
- 谷歌:Googlebot、Googlebot-Mobile
- 360:360Spider
- 搜狗:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider
- MSN:MSNBot
- 必应:bingbot
- Alexa:ia_archiver
- 宜搜:EasouSpider
- 即刻:JikeSpider
- 一淘网:EtaoSpider

希望以上的信息能够对您有所帮助!如果还有其他疑问,请随时提问。
回复

使用道具 举报

随便 | 2023-8-31 05:46:41 | 显示全部楼层
首先,感谢您对SEO优化的关注!下面是有关robots.txt文件配置误区及详细写法的一些建议:

1. robots.txt文件必不可少:无论您的网站是否有需要禁止搜索引擎抓取的目录或页面,建议都添加一个robots.txt文件。当搜索引擎蜘蛛发现不存在robots.txt文件时,会产生一个404错误日志在服务器上,增加服务器负担。

2. 文件命名:robots.txt文件命名应全部小写。

3. 文件位置:robots.txt文件必须放置在网站的根目录下,如果放置在二级目录等位置,搜索引擎将忽略。

4. 规则书写注意事项:在书写规则语句时,注意冒号和斜杠之间要有一个空格,并且冒号需要是英文半角输入。

5. 规则语句中的关键字首字母大写:每一行规则的关键字的首字母都是大写的,如User-agent、Disallow、Allow、Sitemap。

6. 目录阻止访问注意事项:阻止抓取目录时,如果想要阻止访问目录页面和目录下的页面,目录名字不带斜杠;如果只想阻止目录下的内容页面,目录名字需要带斜杠,这两点要分清楚。

7. 添加网站地图链接:为了让搜索引擎更快地收录您的内页,可以在robots.txt文件中添加Sitemap命令来引导搜索引擎蜘蛛来抓取您的网站地图页面。

下面是一些常见的robots.txt文件写法示例:

禁止所有搜索引擎访问网站的所有部分:
User-agent: *
Disallow: /

禁止百度索引您的网站:
User-agent: Baiduspider
Disallow: /

禁止谷歌索引您的网站:
User-agent: Googlebot
Disallow: /

禁止除谷歌外的一切搜索引擎索引您的网站:
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /

禁止除百度外的一切搜索引擎索引您的网站:
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /

禁止蜘蛛访问某个目录:
User-agent: *
Disallow: /css/

允许访问某个目录中的某些特定网址:
User-agent: *
Allow: /admin/html
Allow: /images/index
Disallow: /admin/
Disallow: /images/

以上只是一些基本的robots.txt文件写法,您可以根据您的网站需求进行适当的调整和修改。

最后,以下是一些常见的搜索引擎蜘蛛名称:
1. 百度蜘蛛:Baiduspider、Baiduspider-mobile、Baiduspider-image、Baiduspider-video、Baiduspider-news。
2. 谷歌蜘蛛:Googlebot、Googlebot-Mobile。
3. 360蜘蛛:360Spider。
4. 搜狗蜘蛛:Sogou News Spider、Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou Orion spider。
5. MSN蜘蛛:MSNBot。
6. 必应蜘蛛:bingbot。
7. 一搜蜘蛛:YisouSpider。
8. Alexa蜘蛛:ia_archiver。
9. 宜sou蜘蛛:EasouSpider。
10. 即刻蜘蛛:JikeSpider。
11. 一淘网蜘蛛:EtaoSpider。

希望以上信息对您有所帮助!如有其他问题,请随时提问。
回复

使用道具 举报

nxwqwt | 2023-10-30 20:52:25 | 显示全部楼层
本帖最后由 nxwqwt 于 2023-10-30 20:53 编辑

可以利用.htaccess设置搜索引擎屏蔽,例如:
  1. SetEnvIfNoCase User-Agent "pyspider|Applebot|Apache-HttpClient|CCBot|Abonti|aggregator|AhrefsBot|YisouSpider|BLEXBot|DotBot|YandexBot|trendictionbot|MagiBot|Exabot|ScooperBot|YandexImages|SemrushBot|MJ12bot|startmebot|ltx71|DuckDuckGo|IndeedBot|SEOkicks|GrapeshotCrawler|crawler4j|Pinterestbot|StormCrawler|StormCrawler|paracrawl|StormCrawler|GrapeshotCrawler" bad_bot
  2. Deny from env=bad_bot
复制代码



不同的搜索引擎蜘蛛用竖线|分隔
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则