《认识网站中的robots与网站地图.pptx》由会员分享,可在线阅读,更多相关《认识网站中的robots与网站地图.pptx(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、目录robots.txt1robots meta标签标签2网站地图网站地图3想一想你可能会绕过此地继续游览你也可能会想办法偷偷溜进去网站提示搜索引擎机器人访问网站的指示牌是robots.txt当你进入一个景点游览时,有的地方有指示牌当你进入一个景点游览时,有的地方有指示牌提示此景点暂停开放,你会怎么办?提示此景点暂停开放,你会怎么办?提问提问提问提问robots.txtrobots.txt的介绍robots.txt的语法robots.txt的用法robots.txt的常见错误robots.txt使用案例robots.txtrobots.txt的介绍的介绍1/21/2robots.txt是一个纯
2、文本文件,用于声明该网站中不想被robots访问的部分,或者指定搜索引擎蜘蛛只抓取指定的内容。robots.txt不是规定,而是约定俗成需要搜索引擎蜘蛛自觉遵守一种道德习俗。robots.txtrobots.txt的介绍的介绍2/22/2当一种搜索引擎蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt如果找到,搜索引擎蜘蛛就会按照该文件中的内容来确定抓取的范围如果该文件不存在,那么搜索机器人就沿着链接抓取。robots.txt的作用robots.txt的作用防止私密或重要内容被搜索引擎抓取如:网站在线留言信息、Email信息、网站后台等私密内容被搜索引擎蜘蛛访问抓取可能
3、给企业带来灾难性的损失,robots.txt可以限制搜索引擎抓取重要内容避免以上情况的发生大型网站特别注意,小型网站也要注意保密等工作。节省服务器资源,从而提高服务质量如:搜索引擎蜘蛛爬行次数过多会造成服务器资源大量消耗,不仅浪费流量还可能降低了用户体验,通过robots.txt可以控制搜索引擎蜘蛛的爬行时间间隔等避免以上情况的发生一般大型网站可能会面临这种问题robots.txt的作用robots.txt的作用减少重复抓取,提高网站质量网站内可能存在页面内容相似甚至相同的页面,用robots.txt限制搜索引擎抓取,可以避免搜索引擎认为网站内存在大量重复性页面从而降低整个网站权重的做法如:下
4、载站的最终下载页面指定sitemap文件位置robots.txt可以指定sitemap的位置,方便搜索引擎的爬行,从而实现站内页面的收录更友好大小网站都适合robots.txt的语法的语法robots.txt语法示例一禁止所有搜索引擎访问网站的cgi-bin、tmp、private目录User-agent:*Disallow:/cgi-bin/Disallow:/tmp/Disallow:/private/robots.txt的语法的语法robots.txt语法示例二禁止Baiduspider访问网站的catalogs目录及其子目录(除about子目录外),禁止Baiduspider访问网站的
5、pagead目录User-agent:BaiduspiderAllow:/catalogs/about/Disallow:/catalogs/Disallow:/pagead/Sitemap:http:/ Ia_BYoudaoBot JikeSpider robots.txtrobots.txt的语法的语法Allow 定义的是允许蜘蛛抓取某个栏目或文件Allow:/cgi-bin/这里定义是允许访问cgi-bin目录一般情况是Allow配合Disallow使用,因为不限制的目录默认为是可以抓取的。robots.txtrobots.txt的语法的语法Disallow 定义的是禁止蜘蛛抓取某个栏目
6、或文件Disallow:/admin/这里定义是禁止抓取admin目录Disallow:/ab/adc.html 禁止抓取ab文件夹下面的adc.html文件robots.txtrobots.txt的语法的语法案例案例robotsrobots代码代码例例1.禁止所有搜索引擎访问网禁止所有搜索引擎访问网站的任何部分站的任何部分例例2.允许所有的允许所有的robot访问访问例例3.仅禁止仅禁止Baiduspider访问您访问您的网站的网站例例4.仅允许仅允许Baiduspider以及以及Googlebot访问访问User-agent:*Disallow:/User-agent:*Allow:/Us
7、er-agent:BaiduspiderDisallow:/User-agent:BaiduspiderAllow:/User-agent:GooglebotAllow:/User-agent:*Disallow:/查看查看robots.txtrobots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。例如:http:/ robots.txtrobots.txt的常见错误的常见错误顺序颠倒的错误错误写法 User-agent:/Disallow:Googlebot 正确写法:User-agent:Googlebot Disallow:/多个禁止命令放在一行中的错误错误写法 Use
8、r-agent:*Disallow:/css/cgi-bin/images/正确写法:User-agent:*Disallow:/css/Disallow:/cgi-bin/Disallow:/images/robots.txt的常见错误的常见错误行前有大量空格的错误()错误写法 User-agent:*Disallow:/cgi-bin/正确写法 User-agent:*Disallow:/cgi-bin/不允许访问,忘记斜杠”/”错误写法(这样写表示可以抓取任何页面)User-agent:*Disallow:正确写法 User-agent:*Disallow:/小结robots.txt的介
9、绍robots.txt的语法User-agent:Disallow:Allow:robots.txt的查看 http:/ meta标签标签2网站地图网站地图3想一想robots.txt不能删除搜索引擎中已收录的页面robots meta标签可以解决这个问题如果搜索引擎已经收录网页,而这个网页是我们不想让搜索引擎收录的页面,应该做?提问提问提问提问robots meta标签 robots meta标签介绍robots meta标签语法robots meta标签的注意事项robots meta标签介绍robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而robots meta标签
10、则主要是针对某个具体的页面,robots meta标签是放在页面中的,专门用来告诉搜索引擎蜘蛛如何抓取该页的内容。robots meta标签语法robots meta标签中,name=”robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”Baiduspider”。content部分有四个指令选项:index,noindex,follow,nofollow指令间以“,”英文逗号分隔(大小写无要求,但建议小写)index指令告诉搜索机器人可以抓取该页面;follow指令表示搜索机器人可以爬行该页面上的链接继续爬下去;共有四种组合:robots meta标签注意事项特殊写法:可
11、以写成 可以写成小结robots meta标签介绍robots meta标签语法robots meta标签的注意事项目录robots.txt1robots meta标签标签2网站地图网站地图3什么是网站地图网站地图,又称站点地图,它就是一个页面,上面放置了网站上需要搜索引擎抓取的所有页面的链接(注:不是所有页面)搜索引擎蜘蛛非常喜欢网站地图网站地图作用为搜索引擎蜘蛛提供可以浏览整个网站的链接为搜索引擎蜘蛛提供一些链接,指向动态页面或者采用其他方法比较难以到达的页面作为一种潜在的着陆页面,可以为搜索流量进行优化网站地图分类网站地图分为html地图和xml地图html网站地图 是百度搜索引擎喜欢的
12、网站地图,也是其他搜索引擎都喜欢的网站地图xml网站地图 是谷歌喜欢的网站地图利用DeDeCMS生成网站地图进入网站后台,找到左侧生成标签选择生成选项中的更新网站地图点击更新网站地图,选择普通地图点击进行浏览网站地图构建技巧网站地图要包含最重要的一些页面布局要简洁,所有的链接都是标准的HTML文本尽量在站点地图上增加文本说明在每个页面里面放置网站地图的链接确保网站地图里的每一个链接都是正确、有效的可以把sitemap写进robots.txt里总结robots.txt robots.txt的介绍robots.txt的语法robots.txt的用法robots.txt的常见错误robots meta标签robots meta标签介绍robots meta标签语法robots meta标签的注意事项总结网站地图的作用为搜索引擎蜘蛛提供可以浏览整个网站的链接为搜索引擎蜘蛛提供一些链接可以为搜索流量进行优化网站地图构建技巧网站地图要包含最重要的一些页面布局要简洁,所有的链接都是标准的HTML文本尽量在站点地图上增加文本说明在每个页面里面放置网站地图的链接确保网站地图里的每一个链接都是正确、有效的可以把sitemap写进robots.txt里