搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
如何创建 robots.txt 文件?
可以在任何文本编辑器中创建此文件。该文件应为 ASCII 编码的文本文件,而非 HTML 文件。文件名应使用小写字母。
robots.txt使用技巧
1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。
2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在 robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。
4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:
Sitemap: http://www.***.com/sitemap.xml,目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap 文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。
5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。
robots.txt使用误区
误区现象一:“我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。”
原因:每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来访时发现是无法找到的页面,那么服务器也将在日志中记录一条404错误。这样对于搜索引擎来说不是很友好。
解决措施:为了让网站网站的信息更好的被搜索引擎抓取,所以建议在建站中为网站添加一个robots.txt文件,阻止不应该被搜索引擎抓取到的信息。robots.txt的作用主要是用于禁止某些页面,尤其是要禁止一些已经被收录但是该页面由于被修改或删除已经不存在的,或者不想让它收录的页面。
误区现象二:“不需要设置robots.txt文件,这样可以把网站所有的页面都被搜索引擎收录。这样可以增加网站的收录量。”
原因:网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,而且只会浪费服务器资源。
解决措施:其实在网站设计的时候添加robots.txt文件,然后把网站中的程序脚本、样式表等文件禁止蜘蛛的抓取,这样不仅可以减少网站的一些不重要信息被抓取更可以节省服务器的空间,因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件是必须的。
误区现象三:“搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。”
原因:如果这样的话,会导致整个网站不能被搜索引擎收录。网站也会因此远离互联网。
解决措施:应该让网站一些重要的或者相关的信息让搜索引擎抓取,而那些不重要的或者没必要让它索引的就必须使用robots.txt文件进行阻止。
补充:关于误区现象三,对于一些放于互联网运作但又不想给普通访客查阅的信息,是可以采用将大部分信息禁止抓取的。比如一些需要付费后才能阅读的东西。
总之巧用robots文件是一个网站运营者或一个SEOer必需了解的东西。