robots.txt怎么设置(robots.txt的作用)
三石哥
2022-10-01 13:43:17
296
写好robots.txt文件必看的10个注意事项
提起robots.txt文件可能站长们并不陌生。
是一个简单的以.txt结尾的文本文件,是搜索引擎Robot(也叫搜索引擎机器人)程序抓取网页时要访问的第一个文件。也是为了告诉搜索引擎,这个 网站的哪些页面是允许被访问和爬取的,哪些页面是不允许访问的。
一、robots.txt文件有什么作用?
通过robots.txt文件,可以和各大搜索引擎很友好的对话,引导搜索引擎机器人抓取你推荐的网页,避免一些意义不大或无用网页,例如网站后台、会员交互功能等,这在一定程度上也节省服务器网络资源。
另外,robots.txt文件对SEO的意义也很重要,可以很好的避免重复、相似网页,以及一些关键字权重流失;写好robots.txt文件,是每个SEOer必做的功课之一。
二、robots.txt文件写法
robots.txt文件写法非常简单,通常以User-agent开始,包含一行或多行Disallow或Allow记录;在robots.txt文件中可以使用“#”进行注释,具体使用方法和PHP一样;另外,robots.txt文件支持*|$|?等通配符。
看个简单的例子:
# robots.txt文件怎么写?
User-agent: * #对所有搜索引擎Robot开放
Disallow: /abc #允许访问abc文件夹下的所有文件
Disallow: /wp-content/ #禁止访问wp-content目录下任何内容
Disallow: /*?* #禁止访问动态页面
Disallow: /*.php$ #禁止访问php文件
Disallow: /*.css$ #禁止访问css
三、robots.txt文件10个注意事项
01
robots.txt文件名必须全部小写,不要为追求个性写成RoboTs.txt等形式;并且只能放在网站根目录下面。
02
网站未创建robots.txt文件,则代表默认网站所有文件向所有搜索引擎开放爬取。
03
要检查robots.txt文件是否达到了预期的效果,可以通过枫树SEO网站长工具中的robots检测工具测试。
04
一般情况下,robots.txt里只写着两个函数:User-agent和 Disallow;Allow默认搜索引擎是会抓取你网站所有内容的。
05
robtos.txt文件内可以放上Sitemap文件地址,方便告诉搜索引擎Sitemap文件地址。
06
在robots.txt中至少要有一条Disallow,如果都允许收录,则写: Disallow: 如果都不允许收录,则写:Disallow: / (注:只是差一个斜杆)。
07
允许有多个User-agent,如果对所有爬取蜘蛛生效,则用“*”星号表示。
08
有几个禁止,就得有几个Disallow函数,并分行描述。
09
不要使用 robots.txt 文件禁掉敏感数据(比如用户数据)
10
网站运营过程中,可以根据情况对robots.txt文件进行更新,屏蔽一些不要搜索引擎抓取的文件地址。
以上就是robots.txt文件配置和使用方法详解了,掌握了这些也许可以让你的SEO技术再升一级!有关robots.txt文件的写法、用法,如果还有什么疑问,也可以到枫树圈子积极讨论。
robots.txt写法大全(网站优化人员必看!)
robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件,想要网站被收录,必须要些robots.txt
准备一个域名,空间。域名就是大家所谓的网址,空间就是这个网站所存储的地方。
那么怎么样能不让搜索引擎抓取呢?又怎么能让搜索引擎抓取呢?那么就要说下Disallow和Allow这两个命令的用法了。首先User-agent是代表搜索引擎能否抓取页面的开始。下面就是Disallow和Allow的选择了。详细的写法如下
robots.txt文件用法举例:
1. 允许所有的robot访问
User-agent: * Allow: / 或者 User-agent: * Disallow:
2. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /
4. 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Disallow:
5. 禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
6. 允许访问特定目录中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
7. 使用”*”限制访问url
禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
User-agent: *
Disallow: /cgi-bin/*.htm
8. 使用”$”限制访问url
仅允许访问以”.htm”为后缀的URL。
User-agent: *
Allow: .htm$
Disallow: /
9. 禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
10. 禁止Baiduspider抓取网站上所有图片
仅允许抓取网页,禁止抓取任何图片。
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
通常的robots写法就是上面的10种了,如果还有其他写法,后续会给大家详细的介绍
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3561739510@qq.com 举报,一经查实,本站将立刻删除。
转载请注明来自专注SEO技术,教程,推广 - 8848SEO,本文标题:《robots.txt怎么设置(robots.txt的作用)》
标签:robots.txt
- 上一篇: 什么是网站优化频率(seo站内优化包括哪些)
- 下一篇: 标题怎么样才能吸引(seo页面标题编写原则)
- 搜索
- 最新文章
- 热门文章
-
- 外卖大战为何京东隐身?100亿补贴钱太少,还是准备细水长流
- 实测6款AI搜索,谁才是效率之王?
- 如何对网站推广效果进行评估?常见问题有哪些?
- 2025年AI搜索优化排行榜:技术创新与市场份额权威解读
- 网站推广营销文案怎么写?如何撰写有效吸引用户的文案?
- 如何进行有效的谷歌优化?掌握关键步骤和常见问题解答
- 拼多多触发关键词仅退款的条件是什么?需要满足哪些要求?
- 22000mAh+2.5T+双屏!这新机真猛!
- 让搜索引擎爱上你的软文:企业做SEO推广到底该怎么写?
- 关键词布局全攻略:让谷歌抓住你网站的“每一页”
- 差价200元,OPPOK13Turbo和K13TurboPro对比,差距比想象中更大
- Ios26beta4发布,初体验如何?性能是否提升?
- 小红书笔记如何有效埋关键词?
- 499元?小米刚公布的新机,有点骚啊
- 最新:山东出现超预期431毫米特大暴雨,今夜危险降雨形势再次出现
- HTML包含哪些基本元素?如何构建一个简单的网页?
- 如何通过淘宝关键词设置提升成交额?
- GEO到底是啥?一文看懂如何让你的内容出现在AI搜索答案里
- 怎样的公司才能把谷歌SEO做出效果?聊聊那些真正靠谱的优化团队
- iOS18.6正式版即将到来:老用户的最后一更,新用户的稳定首选
- 热门tag