robots文件禁止蜘蛛方法大全.pdf

上传人:hg158****2095 文档编号:71248633 上传时间:2023-02-01 格式:PDF 页数:4 大小:155.18KB
返回 下载 相关 举报
robots文件禁止蜘蛛方法大全.pdf_第1页
第1页 / 共4页
robots文件禁止蜘蛛方法大全.pdf_第2页
第2页 / 共4页
点击查看更多>>
资源描述

《robots文件禁止蜘蛛方法大全.pdf》由会员分享,可在线阅读,更多相关《robots文件禁止蜘蛛方法大全.pdf(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、robotsrobots文件禁止蜘蛛文件禁止蜘蛛 方法大全方法大全有些时候我们会遇到这样的困难:我们原本不想被搜索引擎收录的网站后台地址却被搜索引擎“无情”的收录,这样只要在 Google 里输入一个“后台、管理 site:”,自己的后台地址就会显露无疑,因此网站安全性也无从谈起。遇到这样的情况时,我们如何阻止搜索引擎收录我们不想被收录的文件呢?一般在这个时候,我们常用的办法有两个,一个是编辑 robots.txt 文件,另外一个是在不想被收录的页面头部放置 META NAME=ROBOTS标签。所谓的 robots.txt 文件,是每一个搜索引擎到你的网站之后要寻找和访问的第一个文件,rob

2、ots.txt 是你对搜索引擎制定的一个如何索引你的网站的规则。通过这个文件,搜索引擎就可以知道在你的网站中,哪些文件是可以被索引的,哪些文件是被拒绝索引的。在很多网站中,站长们都忽略了使用 robots.txt 文件。因为很多站长都认为,自己的网站没有什么秘密可言,而且自己也不太会使用robots.txt 的语法,因此一旦写错了会带来更多的麻烦,还不如干脆不用。其实这样的做法是不对的。在前面的文章中我们知道,如果一个网站有大量文件找不到的时候(404),搜索引擎就会降低网站的权重。而 robots.txt作为蜘蛛访问网站的第一个文件,一旦搜索引擎要是找不到这个文件,也会在他的索引服务器上记录

3、下一条 404 信息。虽然在百度的帮助文件中,有这样的一句话“请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用 robots.txt 文件。如果您希望搜索引擎收录网站上所有内容,请勿建立 robots.txt 文件。”但是我个人还是认为建立 robots.txt 还是必须的,哪怕这个 robots.txt 文件是一个空白的文本文档都可以。因为我们的网站毕竟不是仅仅会被百度收录,同时也会被其他搜索引擎收录的,所以,上传一个 robots.txt 文件还是没有什么坏处的。如何写一个合理的 robots.txt 文件?首先我们需要了解 robots.txt 文件的一些基本语法。语法作

4、用允许所有搜索引擎访问网站的所有部分或者建立一个空白的文本文档,命名为 robots.txt写法User-agent:*Disallow:或者User-agent:*Allow:/禁止所有搜索引擎访问网站的所有部分User-agent:*Disallow:/禁止百度索引你的网站User-agent:BaiduspiderDisallow:/禁止 Google 索引你的网站User-agent:GooglebotDisallow:/禁止除 Google 外的一切搜索引擎索引你的网站User-agent:GooglebotDisallow:User-agent:*Disallow:/禁止除百度外的

5、一切搜索引擎索引你的网站User-agent:BaiduspiderDisallow:User-agent:*Disallow:/禁止蜘蛛访问某个目录(例如禁止 admincssimages 被索引)User-agent:*Disallow:/css/Disallow:/admin/Disallow:/images/允许访问某个目录中的某些特定网址User-agent:*Allow:/css/myAllow:/admin/htmlAllow:/images/indexDisallow:/css/Disallow:/admin/Disallow:/images/使用“*”,限制访问某个后缀的域名

6、例如索引访问 admin 目录下所有 ASP 的文件使用“$”仅允许访问某目录下某个后缀的文件User-agent:*Disallow:/admin/*.htmUser-agent:*Allow:.asp$Disallow:/禁止索引网站中所有的动态页面(这里限制的是有“?”的域名,例如 index.asp?id=1)User-agent:*Disallow:/*?*有些时候,我们为了节省服务器资源,需要禁止各类搜索引擎来索引我们网站上的图片,这里的办法除了使用“Disallow:/images/”这样的直接屏蔽文件夹的方式之外,还可以采取直接屏蔽图片后缀名的方式。具体办法如下。语法作用禁止

7、Google 搜索引擎抓取你网站上的所有图片(如果你的网站使用其他后缀的图片名称,在这里也可以直接添加)写法User-agent:GooglebotDisallow:.jpg$Disallow:.jpeg$Disallow:.gif$Disallow:.png$Disallow:.bmp$禁止百度搜索引擎抓取你网站上的所有图片User-agent:BaiduspiderDisallow:.jpg$Disallow:.jpeg$Disallow:.gif$Disallow:.png$Disallow:.bmp$除了百度之外和 Google 之外,禁止其他搜索引擎抓取你网站的图片User-agen

8、t:Baiduspider(注意,在这里为了让各位看的更明白,因此使用一个比较笨的办法对于Allow:.jpeg$单个搜索引擎单独定义。)Allow:.gif$Allow:.png$Allow:.bmp$User-agent:GooglebotAllow:.jpeg$Allow:.gif$Allow:.png$Allow:.bmp$User-agent:*Disallow:.jpg$Disallow:.jpeg$Disallow:.gif$Disallow:.png$Disallow:.bmp$仅仅允许百度抓取网站上的“JPG”格式文件User-agent:Baiduspider(其他搜索引擎

9、的办法也和这个一样,只是修改一下搜索引擎的蜘蛛名称即 Allow:.jpg$可)Disallow:.jpeg$Disallow:.gif$Disallow:.png$Disallow:.bmp$仅仅禁止百度抓取网站上的“JPG”格式文件User-agent:BaiduspiderDisallow:.jpg$在了解了以上这些基础的语法之后,对于robots.txt 的写法各位已经有了一个大概的概念了,不过在学习写作 robots.txt 文件时,我们还必须要了解一些大型搜索引擎的蜘蛛名称,这样可以便于我们写做 robots.txt 文件。蜘蛛名称GooglebotGooglebot-Mobile

10、Googlebot-ImageMediapartners-Google作用Google 对一般网页的索引蜘蛛Google 对于移动设备,如手机网页的索引蜘蛛Google 专门用来抓取图片的蜘蛛这是 Google 专门为放置了 Google Adsense 广告联盟代码的网站使用的专用蜘蛛,只有网站放置了 Google Adsense 代码的情况下,Google 才会使用这个蜘蛛。这个蜘蛛的作用是专门抓取Adsense 广告内容Adsbot-Google这是 Google 专门为 Google Adwords 客户设计的蜘蛛,如果你使用了 Google 的 Adwords 服务,那么这个蜘蛛就会

11、派出这个蜘蛛来衡量放置了你广告的网站的质量。百度蜘蛛 Baiduspider雅虎蜘蛛:Yahoo!Slurp百度的综合索引蜘蛛雅虎的综合索引蜘蛛雅虎搜索引擎广告蜘蛛 Yahoo!-AdCrawler雅虎专门为 Yahoo!搜索引擎广告开发的专用蜘蛛网易有道蜘蛛 YodaoBot腾讯 SOSO 蜘蛛 Sosospider搜狗蜘蛛 sogou spiderMSNBot注意:以上蜘蛛名称请按照图表区分大小写在上面这些搜索引擎蜘蛛中,我们最常用的就是 Googlebot 和 Baiduspider,因此对这两个蜘蛛的用法要特别注意。以上的 robots.txt 文件可以帮助我们对于搜索引擎的访问做一个

12、限制,这里需要注意的有几个方面。1、robots.txt 文件必须处于网站根目录下,而且必须命名为 robots.txt2、robots.txt 文件的文件名全部是小写字母,没有大写字母。3、如果对于 robots.txt 文件的写法把握不准,那么可以直接放一个空的文本文档,命名为 robots.txt 即可。好了,以上我们介绍了 robots.txt 的写法。这时候有一个问题,有些时候我们会遇到一些实际的特殊情况,那么遇到特殊情况我们应当怎样处理呢?一下就对限制搜索引擎的原标签(META)做一个介绍。第一种情况:限制网页快照很多搜索引擎都提供一个网页快照的功能。但是网页快照功能却有很多的弊端

13、,例如事实内容在网页快照中更新不及时、索引网页快照浪费大量的服务器资源等。因此,我们有些时候可能并不需要搜索引擎来索引我们某个页面的网页快照。解决这样问题的办法很简单,只需要在你的网页元标记中(和之间)放置如下的一段代码。以上的一段代码限制了所有的搜索引擎建立你的网页快照。如果我们需要仅仅限制一个搜索引擎建立快照的话,就可以像如下这样去写需要注意的是,这样的标记仅仅是禁止搜索引擎为你的网站建立快照,如果你要禁止搜索引擎索引你的这个页面的话,请参照后面的办法。第二种情况:禁止搜索引擎抓取本页面。在 SEO 中,禁止搜索引擎抓取本页面或者是允许搜索引擎抓取本页面是经常会用到的。因此我们需要对这一部

14、分重点做一次讨论。为了让搜索引擎禁止抓取本页面,我们一般的做法是在页面的元标记中加入如下的代码:网易有道搜索引擎综合索引蜘蛛腾讯 SOSO 综合索引蜘蛛搜狗综合索引蜘蛛Live 综合索引蜘蛛在这里,META NAME=ROBOTS是泛指所有的搜索引擎的,在这里我们也可以特指某个搜索引擎,例如META NAME=Googlebot、METANAME=Baiduspide等。content 部分有四个命令:index、noindex、follow、nofollow,命令间以英文的“,”分隔。INDEX 命令:告诉搜索引擎抓取这个页面FOLLOW 命令:告诉搜索引擎可以从这个页面上找到链接,然后继续

15、访问抓取下去。NOINDEX 命令:告诉搜索引擎不允许抓取这个页面NOFOLLOW 命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。根据以上的命令,我们就有了一下的四种组合:可以抓取本页,而且可以顺着本页继续索引别的链接:不许抓取本页,但是可以顺着本页抓取索引别的链接:可以抓取本页,但是不许顺着本页抓取索引别的链接:不许抓取本页,也不许顺着本页抓取索引别的链接。这里需要注意的是,不可把两个对立的反义词写到一起,例如或者直接同时写上两句这里有一个简便的写法,如果是的形式的话,可以写成:如果是的形式的话,可以写成:当然,我们也可以把禁止建立快照和对于搜索引擎的命令写到一个命令元标记中。从上面的文章中我们得知,禁止建立网页快照的命令是 noarchive,那么我们就可以写成如下的形式:如果是对于单独的某个搜索引擎不允许建立快照,例如百度,我们就可以写成:如果在元标记中不屑关于蜘蛛的命令,那么默认的命令即为如下因此,如果我们对于这一部分把握不准的话,可以直接写上上面的这一行命令,或者是直接留空。在 SEO 中,对于蜘蛛的控制是非常重要的一部分内容,所以希望各位看官准确把握这部分的内容。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作报告

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁