电脑爱好者之家

当前位置: 主页 > 开发资料 > 网站推广 >

robots.txt文件详解

时间:2013-01-22 19:09来源:未知 作者:熊猫蜀黍 点击:
我们的网站中有很多的目录,有些是可以公开的,有些是不希望公开的。如何我们不想让搜索引擎显示某个目录里面的内容,需要事先告诉搜索引擎机器人(俗称爬虫程序)。各大搜索引擎建立了一个统一的格式,即使用robots.txt文件来统一的告诉所有搜索引擎,什么

  我们的网站中有很多的目录,有些是可以公开的,有些是不希望公开的。如何我们不想让搜索引擎显示某个目录里面的内容,需要事先告诉搜索引擎机器人(俗称爬虫程序)。各大搜索引擎建立了一个统一的格式,即使用robots.txt文件来统一的告诉所有搜索引擎,什么内容请收录,什么内容请不要收录。
  下面我们就讲一下robots.txt文件。

robots.txt 是什么?
robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。一些病毒如malware(马威尔病毒)经常通过忽略robots协议的方式,获取网站后台数据和个人信息。

robots.txt 使用方法

首先,我们来看一个robots.txt范例:http://www.chinaMBS.com/robots.txt

访问以上具体地址,我们可以看到robots.txt的具体内容如下:

# Robots.txt file from http://www.chinaMBS.com
# All robots will spider the domain

User-agent: *
Disallow:

以上文本表达的意思是允许所有的搜索机器人访问www.chinaMBS.com站点下的所有文件。

具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。

robots.txt语法:
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录 
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录 
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录 
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。 
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址 
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片 
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。 
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录 
Allow: /tmp 这里定义是允许爬寻tmp的整个目录 
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。 
Allow: .gif$ 允许抓取网页和gif格式图片


一个例子:
第一行是表示所有搜索引擎
从第二行开始表示不要搜索的目录和文件。

User-agent: * 
Disallow: /plus/ad_js.php
Disallow: /plus/advancedsearch.php
Disallow: /plus/car.php
Disallow: /plus/carbuyaction.php
Disallow: /plus/shops_buyaction.php
Disallow: /plus/erraddsave.php
Disallow: /plus/posttocar.php
Disallow: /plus/disdls.php
Disallow: /plus/feedback_js.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /include
Disallow: /templets

##----------例子结束

Allow:即表示 允许
Disallow:即表示 不允许
(责任编辑:熊猫蜀黍)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
栏目列表
推荐内容