我们的网站中有很多的目录,有些是可以公开的,有些是不希望公开的。如何我们不想让搜索引擎显示某个目录里面的内容,需要事先告诉搜索引擎机器人(俗称爬虫程序)。各大搜索引擎建立了一个统一的格式,即使用robots.txt文件来统一的告诉所有搜索引擎,什么内容请收录,什么内容请不要收录。 访问以上具体地址,我们可以看到robots.txt的具体内容如下:
# Robots.txt file from http://www.chinaMBS.com
User-agent: * 以上文本表达的意思是允许所有的搜索机器人访问www.chinaMBS.com站点下的所有文件。 具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。
robots.txt语法: User-agent: * Disallow: /plus/ad_js.php Disallow: /plus/advancedsearch.php Disallow: /plus/car.php Disallow: /plus/carbuyaction.php Disallow: /plus/shops_buyaction.php Disallow: /plus/erraddsave.php Disallow: /plus/posttocar.php Disallow: /plus/disdls.php Disallow: /plus/feedback_js.php Disallow: /plus/mytag_js.php Disallow: /plus/rss.php Disallow: /plus/search.php Disallow: /plus/recommend.php Disallow: /plus/stow.php Disallow: /plus/count.php Disallow: /include Disallow: /templets ##----------例子结束 Allow:即表示 允许 Disallow:即表示 不允许(责任编辑:熊猫蜀黍) |