核心概念
robots.txt
什么是robots.txt?
robots.txt是搜索引擎每次来抓取网站的时候,首先访问的一个文件。robots.txt文件告诉搜索引擎哪些网页可以收录,哪些不允许收录。
robots.txt是一个简单的纯文本文件,搜索蜘蛛每次来访问站点时,都会首先检查该站点根目录下是否存在robots.txt文件,如果存在,搜索机器人就会按照该文件中的“说明”来确定访问的范围;如果不存在该文件,则搜索引擎机器人默认这个网站允许其全部抓取。
注意:robots.txt文件必须上传到根目录下,而且文件名必须全部小写。上传robots.txt后,通过比如www.seonile.com/robots.txt 就可以正常访问。
robots.txt写法:
robots.txt文件的内容主要包括2个代码:
User-Agent:
Disallow:
格式如:
User-agent: *
Disallow: /search.html
Disallow: /index.php?
Disallow: /tempweb/
说明:
User-agent: * 星号说明,允许所有的搜索引擎来收录,包括百度、google、yahoo等。
Disallow: /search.html 说明不允许收录 /search.html 这个文件。
Disallow: /index.php? 说明不允许收录以index.php?为前缀的链接如:index.php?122.html、index.php?=12、index.php?/baidu等等
Disallow: /tempweb/ 说明不允许收录/tempweb/里的所有文件。但可以收录如:/tempwebtaim.html 的链接
上述就是基本robots.txt写法,更多关于Disallow:的用法,你可以参见百度官方的介绍:http://www.baidu.com/search/robots.html
更新日期: 2009-10-07
作者: SEONile
修订: 1.0
你不能对该内容发表评论