什么是robots

robots就是网站跟搜索引擎蜘蛛间的协议,用简单直接的 txt格式 告诉对应的蜘蛛被允许的权限,这个文件是我们自己建站的小伙伴经常要使用的。当搜索蜘蛛访问一个网站时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索蜘蛛就会按照该文件中的内容来确定访问的范围;如果该文件不存在,搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

robots有什么用?

robots.txt应放置于网站的根目录下,robots的作用就是告诉搜索蜘蛛,哪些内容可以访问,哪些内容禁止访问。在robots.txt文件内,Disallow 表示禁止,Allow 表示允许。比如robots的基本写法可以这样。

允许所有搜索引擎访问

User-agent: *

Allow: /

禁止所有搜索引擎访问

User-agent: *

Disallow: /

有人以为自己网站上的所有文件都需要蜘蛛抓取,就没必要在添加robots.txt文件了。但是每当搜索蜘蛛来寻找并不存在的文件时,服务器将在日志中记录一条404错误,这样会浪费服务器资源。另外,网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,也会浪费服务器资源。所以应该在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。

wordpress网站的robots怎么写

基础版robots:

User-agent: *
Disallow: 
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.yunmen.cc/sitemap.xml

基础版比较简单,对所有的搜索引擎采取默认的态度,网站的大部分内容都不禁止爬取,但是出于安全考虑,/wp-admin/目录是不允许你爬的!

最后一句告诉搜索引擎我的网站地图地址,你可以根据我的地图来快速爬取。

进阶版robots:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /search/
Disallow: /?s=
Disallow: /readme.html
Disallow: /licence.txt
Disallow: /wp-config-sample.php
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /comments/
Disallow: /attachment/
Disallow: /go/
crawl-delay: 5
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.yunmen.cc/sitemap.xml

这个robots的写法是在默认的基础上进阶的,crawl-delay是开启了蜘蛛5秒盾,就是告诉搜索引擎蜘蛛在每次抓取之前等待几秒钟,你也可以设置10秒、20秒、30秒。

Disallow: /search/或者/?s= 是防止蜘蛛爬搜索,很多站长不太优化 WordPress,访客或蜘蛛一搜索,CPU就爆满了,robots禁止爬取可以避免这一点,另外你也可以通过升级你的云服务器来进行解决。

Disallow: /readme.html

Disallow: /licence.txt

Disallow: /wp-config-sample.php

这三项禁止爬取是防止其他人未经授权查看您正在使用的WordPress版本等信息,这里你还可以对其重定向。

Disallow: /feed

Disallow: /*/feed

Disallow: /comments/feed

这三项禁止爬取是防止爬虫爬你的 rss订阅 内容,另外,也可以直接在 WordPress 后台关闭 rss 订阅。

Disallow: /comments/ 是防止蜘蛛爬你的评论留言内容,如果你的站留言较多,并且没有设置内存缓存或者Nginx缓存的话,每个评论页面服务器都要生成一个页面,自然CPU负荷就高了。

Disallow: /attachment/ 是防止爬取附件内容,也就是WordPress媒体库内容。

/go/ 是很多wordpress网站都通过代码或者插件方式,启用将外链专为内链的功能。而这一部分链接也是不需要搜索蜘蛛爬取的。

我们还可以更细腻的设置对某个目录甚至某个具体文件的允许或者禁止。比如:

Disallow: /a/ 禁止访问网站中a目录

Disallow: /a/*.htm 禁止访问网站中a目录下,所有以”.htm”为后缀的URL。

Disallow: /123.html 禁止访问123.html这个页面。

Disallow: /*?* 禁止访问网站中所有的动态页面

Disallow: .png$ 禁止访问网站中png图片。

定制版robots:

另外,有一些国外的搜索引擎,或者一些不太正规的搜索蜘蛛我们不希望他们访问来消耗我们的服务器资源,也可以在robots文件中禁止。比如:

User-agent: MJ12bot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: YandexBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: msnbot
Disallow: /
User-agent: Nimbostratus-Bot
Disallow: /
User-agent: smtbot
Disallow: /
User-agent: serpstatbot
Disallow: /
User-agent:applebot
Disallow: /
User-agent:yisouspider
Disallow: /

这样就禁止了以上这些搜索蜘蛛爬取我们的网站内容,或者你是专做外贸网站的,也可以用同样的方式禁止国内搜索引擎的爬取,这个大家可以自己根据需要定制。总之,大家使用wordpress自己建站的话,对于robots文件的写法要多少了解一些,对于我们网站的安全、稳定,以及seo优化都有一定的好处。

 
  • 本站名称:清风资源网
  • 本站永久地址:www.mcoxn.com
  • 本站提供的源码、模板、插件等等其他资源,除资源本身问题外,都不包含免费技术服务,请大家谅解!
  • 本站资源解压密码一般都为www.mcoxn.com如发现链接失效,请联系在线客服更新。
  • 本站所有代码模板仅供学习交流使用,请勿用于商业用途,及违法侵权行为使用均与本站无关。
  • 源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。
  • 本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。
  • 本站所有资源来源于公开互联网搜集和网友投稿提供,仅供个人学习研究使用,若本站收录的内容对您的版权或者利益造成损害,请提供相应的资质证明发邮件至kakbga@qq.com我们将于3个工作日内予以删除。