robots.txt怎么设置(robots.txt的作用)
三石哥
2022-10-01 13:43:17
286
写好robots.txt文件必看的10个注意事项
提起robots.txt文件可能站长们并不陌生。
是一个简单的以.txt结尾的文本文件,是搜索引擎Robot(也叫搜索引擎机器人)程序抓取网页时要访问的第一个文件。也是为了告诉搜索引擎,这个 网站的哪些页面是允许被访问和爬取的,哪些页面是不允许访问的。
一、robots.txt文件有什么作用?
通过robots.txt文件,可以和各大搜索引擎很友好的对话,引导搜索引擎机器人抓取你推荐的网页,避免一些意义不大或无用网页,例如网站后台、会员交互功能等,这在一定程度上也节省服务器网络资源。
另外,robots.txt文件对SEO的意义也很重要,可以很好的避免重复、相似网页,以及一些关键字权重流失;写好robots.txt文件,是每个SEOer必做的功课之一。
二、robots.txt文件写法
robots.txt文件写法非常简单,通常以User-agent开始,包含一行或多行Disallow或Allow记录;在robots.txt文件中可以使用“#”进行注释,具体使用方法和PHP一样;另外,robots.txt文件支持*|$|?等通配符。
看个简单的例子:
# robots.txt文件怎么写?
User-agent: * #对所有搜索引擎Robot开放
Disallow: /abc #允许访问abc文件夹下的所有文件
Disallow: /wp-content/ #禁止访问wp-content目录下任何内容
Disallow: /*?* #禁止访问动态页面
Disallow: /*.php$ #禁止访问php文件
Disallow: /*.css$ #禁止访问css
三、robots.txt文件10个注意事项
01
robots.txt文件名必须全部小写,不要为追求个性写成RoboTs.txt等形式;并且只能放在网站根目录下面。
02
网站未创建robots.txt文件,则代表默认网站所有文件向所有搜索引擎开放爬取。
03
要检查robots.txt文件是否达到了预期的效果,可以通过枫树SEO网站长工具中的robots检测工具测试。
04
一般情况下,robots.txt里只写着两个函数:User-agent和 Disallow;Allow默认搜索引擎是会抓取你网站所有内容的。
05
robtos.txt文件内可以放上Sitemap文件地址,方便告诉搜索引擎Sitemap文件地址。
06
在robots.txt中至少要有一条Disallow,如果都允许收录,则写: Disallow: 如果都不允许收录,则写:Disallow: / (注:只是差一个斜杆)。
07
允许有多个User-agent,如果对所有爬取蜘蛛生效,则用“*”星号表示。
08
有几个禁止,就得有几个Disallow函数,并分行描述。
09
不要使用 robots.txt 文件禁掉敏感数据(比如用户数据)
10
网站运营过程中,可以根据情况对robots.txt文件进行更新,屏蔽一些不要搜索引擎抓取的文件地址。
以上就是robots.txt文件配置和使用方法详解了,掌握了这些也许可以让你的SEO技术再升一级!有关robots.txt文件的写法、用法,如果还有什么疑问,也可以到枫树圈子积极讨论。
robots.txt写法大全(网站优化人员必看!)
robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件,想要网站被收录,必须要些robots.txt
准备一个域名,空间。域名就是大家所谓的网址,空间就是这个网站所存储的地方。
那么怎么样能不让搜索引擎抓取呢?又怎么能让搜索引擎抓取呢?那么就要说下Disallow和Allow这两个命令的用法了。首先User-agent是代表搜索引擎能否抓取页面的开始。下面就是Disallow和Allow的选择了。详细的写法如下
robots.txt文件用法举例:
1. 允许所有的robot访问
User-agent: * Allow: / 或者 User-agent: * Disallow:
2. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /
4. 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Disallow:
5. 禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
6. 允许访问特定目录中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
7. 使用”*”限制访问url
禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
User-agent: *
Disallow: /cgi-bin/*.htm
8. 使用”$”限制访问url
仅允许访问以”.htm”为后缀的URL。
User-agent: *
Allow: .htm$
Disallow: /
9. 禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
10. 禁止Baiduspider抓取网站上所有图片
仅允许抓取网页,禁止抓取任何图片。
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
通常的robots写法就是上面的10种了,如果还有其他写法,后续会给大家详细的介绍
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3561739510@qq.com 举报,一经查实,本站将立刻删除。
转载请注明来自专注SEO技术,教程,推广 - 8848SEO,本文标题:《robots.txt怎么设置(robots.txt的作用)》
标签:
- 上一篇: 什么是网站优化频率(seo站内优化包括哪些)
- 下一篇: 标题怎么样才能吸引(seo页面标题编写原则)
- 搜索
- 最新文章
- 热门文章
-
- 小红书视频剪辑尺寸设置方法是什么?如何调整视频比例以适应小红书平台?
- 动漫抖音剪辑怎么做的视频?有哪些步骤和技巧?
- 抖音授权影视剪辑名单怎么弄?获取授权的正确步骤是什么?
- 抖音短视频热门剪辑怎么做?如何快速上手并制作出爆款内容?
- 快手剪辑短片如何赚钱?操作流程和常见问题解答?
- 拍抖音剪辑怎么拍好看点?有哪些技巧可以提升视频质量?
- 抖音新版剪辑视频教学怎么弄?操作步骤和技巧是什么?
- 小红书视频太圆怎么剪辑?剪辑技巧和步骤是什么?
- 网站推广招生如何进行?有效策略有哪些?
- 抖音热门短剧剪辑怎么做?如何快速吸引粉丝关注?
- 装修公司如何做网站推广?有哪些有效的策略和方法?
- 抖音爱情剪辑故事怎么拍?拍出感人爱情故事的技巧是什么?
- 抖音做菜视频剪辑教程?如何快速编辑美食视频?
- 抖音配乐剪辑怎么做?如何选择合适的音乐素材?
- 怎么带货抖音女装视频剪辑?视频剪辑技巧有哪些?
- 剪切抖音短视频怎么剪辑?有哪些简单易学的剪辑技巧?
- 抖音音乐剪辑技巧是什么?如何快速编辑音乐片段?
- 自媒体音乐更新优化方法是什么?如何提高音乐内容的SEO排名?
- 动漫剪辑版抖音怎么赚钱?有哪些盈利方式?
- 小红书视频编辑剪辑技巧有哪些?如何快速上手?
- 热门tag