福否阿卡 · 博客福否阿卡 · 博客

福否阿卡
一个励志成为全栈的90后小伙子~

Robots.txt爬虫协议写法

Robots.txt爬虫协议写法

1、定义搜索引擎:User-agent。

User-agent: *  #所有的搜索引擎
User-agent: Baiduspider #百度蜘蛛
User-agent: Googlebot #谷歌蜘蛛

2、Disallow 禁止爬取。

Disallow: /admin/ #禁止爬取admin文件夹
Disallow: /login.html #禁止爬取登录页面

3、Allow 允许。默认情况下,都是允许的。

Allow: /admin/.html$ #除.html文件
Disallow: /admin/

4、$ 结束符。

Allow: .html$

5、* 通配符符号0或多个任意字符。

#屏蔽所有的动态URL
User-agent: *  
Disallow: /*?*

6、Sitemap 声明网站地图。

Sitemap: http://www.xiaowangyun.com/sitemap.xml

7、注释符。

#:

8、版本号

Robot-version: Version 1.0

Ps:

  • robots.txt文件存放在网站根目录下。
  • 文件名所有字母都必须小写(robots.txt)。
  • User-agent、Disallow、Allow、Sitemap必须是第一个字母大写,后面的字母小写,后面英文字符下的空格。

常用Robots.txt 文件写法

禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

禁止某个搜索引擎抓取网站上的所有图片

User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

禁止访问某些目录。注意的是对每一个目录必须分开声明。

User-agent: *
Disallow: /admin/
Disallow: /log/
Disallow: /bin/

--END--

本文由福否阿卡创作,文章地址:https://blog.suyc.cn/index.php/archives/15.html

采用知识共享署名3.0国际许可协议进行许可。除注明转载/出处外,均为本站原创或翻译,转载前请务必署名。

发表评论:抢沙发

    昵称 (必填)
  • 邮箱 (必填)
  • 网址