找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
售后投诉-点我祝贺本站成立6周年,赠送站群seo全套工具包
购买软件必看VS销售客服必看守则
查看: 2560|回复: 0

搜索引擎robots.txt写法

[复制链接]

357

主题

145

回帖

2879

积分

管理员

积分
2879
发表于 2015-11-24 19:06:34 | 显示全部楼层 |阅读模式
robots.txt的基本语法

  内容项的基本格式:键: 值对。

  1) User-Agent键

  后面的内容对应的是各个具体的搜索引擎爬行器的名称。如百度是Baiduspider,谷歌是Googlebot。

  一般我们这样写:

  User-Agent: *

  表示允许所有搜索引擎蜘蛛来爬行抓取。如果只想让某一个搜索引擎蜘蛛来爬行,在后面列出名字即可。如果是多个,则重复写。

  注意:User-Agent:后面要有一个空格。

  在robots.txt中,键后面加:号,后面必有一个空格,和值相区分开。

  2)Disallow键

  该键用来说明不允许搜索引擎蜘蛛抓取的URL路径。

  例如:Disallow: /index.php 禁止网站index.php文件

  Allow键

  该键说明允许搜索引擎蜘蛛爬行的URL路径

  例如:Allow: /index.php 允许网站的index.php

  通配符*

  代表任意多个字符

  例如:Disallow: /*.jpg 网站所有的jpg文件被禁止了。

  结束符$

  表示以前面字符结束的url。

  例如:Disallow: /?$ 网站所有以?结尾的文件被禁止。

  四、robots.txt实例分析

  例1. 禁止所有搜索引擎访问网站的任何部分

  User-agent: *

  Disallow: /

  例2. 允许所有的搜索引擎访问网站的任何部分

  User-agent: *

  Disallow:

  例3. 仅禁止Baiduspider访问您的网站

  User-agent: Baiduspider

  Disallow: /

  例4. 仅允许Baiduspider访问您的网站

  User-agent: Baiduspider

  Disallow:

  例5. 禁止spider访问特定目录

  User-agent: *

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /data/

  注意事项:1)三个目录要分别写。2)请注意最后要带斜杠。3)带斜杠与不带斜杠的区别。

  例6. 允许访问特定目录中的部分url

  我希望a目录下只有b.htm允许访问,怎么写?

  User-agent: *

  Allow: /a/b.htm

  Disallow: /a/

  注:允许收录优先级要高于禁止收录。

  从例7开始说明通配符的使用。通配符包括("$" 结束符;

  "*"任意符)

  例7. 禁止访问网站中所有的动态页面

  User-agent: *

  Disallow: /*?*

  例8. 禁止搜索引擎抓取网站上所有图片

  User-agent: *

  Disallow: /*.jpg$

  Disallow: /*.jpeg$

  Disallow: /*.gif$

  Disallow: /*.png$

  Disallow: /*.bmp$

  其他很多情况呢,需要具体情况具体分析。更多详细的 请百度 robots.txt写法。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则



手机版|泛目录站群

GMT+8, 2024-4-25 09:06 , Processed in 0.143752 second(s), 25 queries .

Powered by 泛站群 X3.5

© 2001-2028 黑侠泛站群官方网站

快速回复 返回顶部 返回列表