1假如容许全部检索模块浏览网站的全部一部分的话 大家能够创建1个空白的文字文本文档,取名为robots.txt放在网站的根文件目录下便可。
robots.txt写法以下:
User-agent: *
Disallow:
或
User-agent: *
Allow: /
2假如大家严禁全部检索模块浏览网站的全部一部分的话
robots.txt写法以下:
User-agent: *
Disallow: /
3假如大家必须某1个检索模块的抓取的话,例如百度搜索,严禁百度搜索数据库索引大家的网站的话
robots.txt写法以下:
User-agent: Baiduspider
Disallow: /
4假如大家严禁Google数据库索引大家的网站的话,实际上跟示例31样,便是User-agent:头文档的蜘蛛姓名改为谷歌的Googlebot
便可
robots.txt写法以下:
User-agent: Googlebot
Disallow: /
5假如大家严禁除Google外的1切检索模块数据库索引大家的网站话
robots.txt写法以下:
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
6假如大家严禁除百度搜索外的1切检索模块数据库索引大家的网站的话
robots.txt写法以下:
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
7假如大家必须严禁蜘蛛浏览某个文件目录,例如严禁admin、css、images等文件目录被数据库索引的话
robots.txt写法以下:
User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/
8假如大家容许蜘蛛浏览大家网站的某个文件目录中的一些特殊网站地址的话
robots.txt写法以下:
User-agent: *
Allow: /css/my
Allow: /admin/html
Allow: /images/index
Disallow: /css/
Disallow: /admin/
Disallow: /images/
9大家看一些网站的robots.txt里的Disallow或Allow里会看许多的标记,例如问号星号甚么的,假如应用 * ,关键是限定浏览某个后缀的网站域名,严禁浏览/html/文件目录下的全部以".htm"为后缀的URL(包括子文件目录)。
robots.txt写法以下:
User-agent: *
Disallow: /html/*.htm
10假如大家应用 $ 的话是仅容许浏览某文件目录下某个后缀的文档
robots.txt写法以下:
User-agent: *
Allow: .asp$
Disallow: /
11假如大家严禁数据库索引网站中全部的动态性网页页面(这里限定的是有 ? 的网站域名,比如index.asp?id=1)
robots.txt写法以下:
User-agent: *
Disallow: /*?*
一些情况下,大家以便节约服务器空间,必须严禁各类检索模块来数据库索引大家网站上的照片,这里的方法除应用 Disallow: /images/ 这样的立即屏蔽文档夹的方法以外,还能够采用立即屏蔽照片后缀名的方法。
示例12
假如大家严禁Google检索模块抓取大家网站上的全部照片(假如你的网站应用别的后缀的照片名字,在这里还可以立即加上)
robots.txt写法以下:
User-agent: Googlebot
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
13假如大家严禁百度搜索检索模块抓取大家网站上的全部照片的话
robots.txt写法以下:
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
14除百度搜索以外和Google以外,严禁别的检索模块抓取你网站的照片
(留意,在这里以便让各位看的更搞清楚,因而应用1个较为笨的方法 针对单独检索模块独立界定。)
robots.txt写法以下:
User-agent: Baiduspider
Allow: .jpeg$
Allow: .gif$
Allow: .png$
Allow: .bmp$
User-agent: Googlebot
Allow: .jpeg$
Allow: .gif$
Allow: .png$
Allow: .bmp$
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
15仅仅容许百度搜索抓取网站上的 JPG 文件格式文档
(别的检索模块的方法也和这个1样,只是改动1下检索模块的蜘蛛名字便可)
robots.txt写法以下:
User-agent: Baiduspider
Allow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
16仅仅严禁百度搜索抓取网站上的 JPG 文件格式文档
robots.txt写法以下:
User-agent: Baiduspider
Disallow: .jpg$
17假如 ? 表明1个对话 ID,您可清除全部包括该 ID 的网站地址,保证 Googlebot 不容易抓取反复的网页页面。可是,以 ? 末尾的网站地址将会是您要包括的网页页面版本号。在此状况下,沃恩可将与 Allow 命令相互配合应用。
robots.txt写法以下:
User-agent:*
Allow:/*?$
Disallow:/*?
Disallow:/ *?
1已然阻拦包括 ? 的网站地址(实际而言,它将阻拦全部以您的网站域名开始、后继任意标识符串,随后是问号 (?),然后又是随意标识符串的网站地址)。Allow: /*?$ 1已然容许包括任缘何 ? 末尾的网站地址(实际而言,它将容许包括全部以您的网站域名开始、后继任意标识符串,随后是问号 (?),问号以后沒有任何标识符的网站地址)。
18假如大家想严禁检索模块对1些文件目录或一些URL浏览的话,能够截取一部分的姓名
robots.txt写法以下:
User-agent:*
Disallow: /plus/feedback.php?
以上內容供大伙儿参照下便可。