Robots.txt对于任何网站而言都是一个相当重要的文件。正确设置的Robots.txt能够有效地指引搜索引擎的Spider在网站内的爬行,限制搜索引擎对私密内容或无关内容的索引与收录,其意义不仅在于能够有效地节省搜索引擎对服务器带宽的占用,还可在网站存在重复内容时能够限制部分页面不被搜索引擎索引从而更有效地保证网站在搜索引擎中排名等。
对WordPress网站而言,一般来说,结构相对简单,robots.txt的设置可采用如下格式:
User-agent: *
Disallow: /wp-
Disallow: /comments/feed
Disallow: /trackback/
Disallow: /其他要排除的目录/
其中,“User-agent: *” 指该限制对所有搜索引擎如Google、百度、Yahoo等均有效;“Disallow: /wp-”行则指禁止搜索引擎索引、收录Wordpress自身的工作文件:包括以“wp-”开头的文件与目录如管理目录“wp-admin”。
当然,这是相当简陋的,如果您需要更复杂的设置,如针对不同搜索引擎设定或使用通配符等,可参考相应搜索引擎的说明。
最后需要提醒的是,即使您打算允许搜索引擎的Spider在网站内任意爬行,不做任何限定,最好也上传一个类似如下格式的robots.txt文件,不然,当网站出现错误链接即404错误时,搜索引擎的Spider会将网站的自定义404页面视作robots.txt,这将给Spider索引网站带来很大的困扰,从而影响搜索引擎对网站页面的收录。
User-agent: *
Disallow:
Update : 无独有偶,近日看到Neil Patel在Increasing your rankings through robots.txt一文中提到,通过将comment feeds 与Trackbacks排除在外,他的网站访问量上升了11.3%,相当可观的数字。 ![]()






当前共计14 回复 ↓
1 Gr.Zhang | 2008/03/16 11:58 pm
喜欢,借鉴,学习
2 鬼故事 | 2008/06/14 5:04 am
呵呵,帮顶!来听听鬼故事……
TrackBacks ↓
留下您的评论