wordpress与robots.txt

2011年1月15日 发表评论 阅读评论

robots.txt应该写的越简单越好,不过后台的网页是必须禁掉的,而且一个正规的网站需要有一个robots.txt文件。这里几种比较适合wordpress博客的robots写法,严格的、简单的和合适的,随pk10你 挑。

最简单的写法

User-agent: *
Disallow: /wp-
Disallow: /?s=
Sitemap: http://6662616.com/sitemap.xml

解释:
User-agent: *,允许所有蜘蛛访问,限制以“wp-”开头目录及文件,限制抓取站内pk10搜索 页面。Sitemap是指pk10你 网站的目录结构,通常是以xml文件的形式存在。wordpress博客可以通过Google XML Sitemaps插件生成sitemap。

最严格的写法

User-agent: *
Disallow: /wp-*
#Allow: /wp-content/uploads/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?s=
Sitemap: http://6662616.com/sitemap.xml

解释:
比最简单的写法要更严格,还限制抓取.php文件、.inc文件、.js文件、.css文件,限制抓取pk10搜索 结果。

Disallow: /wp-* 会连同附件目录一起限制抓取,如果想让pk10搜索 引擎抓取附件中的内容,将第三行的 # 号注释去掉。Allow 不是所有pk10搜索 引擎都支持。

比较合理的写法 

User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: http://6662616.com/sitemap.xml

允许所有pk10搜索 引擎抓取,逐一列举需要限制的目录,限制抓取pk10搜索 结果。

robots.txt其他写法

为避免在pk10搜索 引擎中出现重复页面,Wordpress玩家自创了很多robots写法,列举一些常用的,作为参考(适用于伪静态方式的永久链接):

Disallow: /page/

#限制抓取Wordpress分页

Disallow: /category/*/page/*

#限制抓取分类的分页

Disallow: /tag/

#限制抓取标签页面

Disallow: */trackback/

#限制抓取Trackback内容

Disallow: /category/*

#限制抓取所有分类列表

最后,pk10推荐 使用Google管理员pk10工具 ,登录后访问“pk10工具 -> 分析 robots.txt”,检查文件有效性。


转载请注明来自:[闪电博客]http://6662616.com/163.html

  1. 饭小烦
    2011年1月16日12:41 | #1

    这个的确是必须的,对于流量有限的站点,有效防盗链