Discuz论坛系统的搜索引擎改进,搜索引擎论文.docx

上传人:安*** 文档编号:73304349 上传时间:2023-02-17 格式:DOCX 页数:9 大小:20.15KB
返回 下载 相关 举报
Discuz论坛系统的搜索引擎改进,搜索引擎论文.docx_第1页
第1页 / 共9页
Discuz论坛系统的搜索引擎改进,搜索引擎论文.docx_第2页
第2页 / 共9页
点击查看更多>>
资源描述

《Discuz论坛系统的搜索引擎改进,搜索引擎论文.docx》由会员分享,可在线阅读,更多相关《Discuz论坛系统的搜索引擎改进,搜索引擎论文.docx(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Discuz论坛系统的搜索引擎改进,搜索引擎论文关于 archive 能否需要开启要根据我们的论坛要做内容页的伪静态或是动态来决定。假如内容页为伪静态,那么 archive 就完全没必要开启,假设开启则会造成更多的费事与不稳定主要是重复页的出现 ; 假如主机不支持伪静态,那么就要用动态的内容页,这时就要开启 archive,启用后当用户从搜索引擎点击时自动转向动态页面,能够为用户提供更好的体验。 2 在做了伪静态后,要注意哪些,需要做哪些优化 1 建议不要开启个人资料页面静态化,其他的能够做静态化处理。 2 当伪静态 URL 变化导致内容页出现重复时怎样解决。 thread - 后面的第一组数

2、字 44105241 是该帖子的 ID 号,ID 号 - 后面的第一个数字 1 代表该主题的第一页,最后面的数字 1 表示主题在这个版的首页。但是当该版帖子数量不断增加,这个帖子就被后推到第二,三 页上了,对于一个特别活泼踊跃的论坛帖子,其数量不断变化,原先帖子所在的 页 也就不断变化,对应的原帖地址在论坛中也不断变化。Discuz 固然设置了爬虫抓取功能,允许搜索引擎来抓取网站内容,并且帖子地址中最后一位返回的数字设置为 1 ,这样只是解决了搜索引擎直接到你的网站抓取的网页地址是唯一的问题,方便搜索引擎进行爬读,并不能有效解决地址变化导致内容页出现重复的问题。所以讲,假如你的帖子被其他网站引

3、用,则引用的地址链接还是会出现 URL 重复的问题。 要想处理这个问题,我们能够直接修改 Discuz 控制伪静态地址的函数,最后一个数字始终输出为 1,这样能够保证 rewrite 之后的地址是单一的,但是缺点是 URL 不能给 discuz 正确传递参数,所以假如返回版面的时候只能返回到该版的首页而不能返回到该帖所在的页面。 这里我们给出了解决方式方法: 修改 Rewrite 的格式,最后一个数字统一用 1 代替,以解决 URL 变化和重复的问题。 修改文件 include/global. func. phpfunctionrewrite_thread$ tid,$ page = 0,$

4、prevpage =0,$ extra = return ahref = thread - . $ tid. - . $ page? $ page: 1 . - . $ prevpage ! IS_ROBOT? $ prevpage: 1 . . . stripslashes$ extra . 改为: functionrewrite_thread$ tid,$ page = 0,$ prevpage =0,$ extra = return ahref = thread - . $ tid. - . $ page? $ page: 1 . - . 1 . . . stripslashes$ ex

5、tra . 有人不理解怎么会出现 URL 变化,例如上面那个网址 1154 代表哪个帖子,后面的数字代表第几页第几个回帖,随着回复的增加会出现后面数字的增加,但是这都是一个帖子,内容一样,标题、关键字一样,这些都不利于seo,为此需要解决。 3 做了伪静态化后,一个帖子都会有两个地址: 一个 viewthread. php? 另一个 thread - ,这样也导致了内容页重复,对 seo 不利,解决方式方法有如下两种。 第一种方式方法在 robots. txt 中添加:Disallow: /redirect. phpDisallow: /viewthread. phpDisallow: /fo

6、rumdisplay. php还有的更彻底,直接添加 Disallow: /* ? *第二种方式方法是直接修改 viewthread. php 代码,告诉搜索引擎有和这个网址对应的静态网址,那个静态网址为首选地址。 4 Discuz 在网址标准化上出现很多问题,对于一样的内容,出现很多不同的 URL 地址。下面我们来运用 ca-nonical URL TAG 新标准来解决出现的问题。 一是给 viewthread. php 服务端脚本文件添加标准链接canonical URL .我们发现,动态的链接形式是多样化的,这样造成了有着不同参数的链接指向,但是内容却是完全一致的。然而,如今的 SE 却

7、能够帮助我们解决问题,但 SE 却无法断定首选显示 URL 地址的形式,或者当它们都有返回链接时,却不能集中权重。为了解决相关的网页重复问题,百度、新浪等知名网站都公布支持新的标签属性,能够将链接和权重都推到首选的 URL 地址上。 通过给 viewthread. php 脚本文件加标准链接标签,设置帖子首选为静态。修改脚本文件,在 $ page = max$ page,1 函数所在行的上面加一行语句 $ extrahead. = linkrel = canonical href = thread - . $ tid. - 1 - 1. / 通过给打印页添加标准化标签。我们修改 tmplate

8、s/default /viewthead_pritable. htm,在 title 所在行的下面参加一行: $ extrahead 语句。 二是给 forumdisplay. php 脚本文件加标准化标签。方式方法是找到 includetemplate 函数所在行,在这行的上面参加一行以下语句:$ extrahead. = linkrel = canoncal href = forum - .$ fd. - . $ page. . / 三是为文档服务器转换页参加 linkcanonical 标准化标签。 我们对 archive/index. php 进行修改: 找到 global $ boa

9、-durl 所在行,在其下面插入一行函数 global $ etrahead; 并修改语句 methttp - equiv = Content - Type content = text /; charset = $ charet / 按回车键后添加 $ ex-trahead.修改 archive/include/thread. php: 为第二个 showheader 函数所在的上面一行添加 $ extrahead. = linkrel = canonical href = thread - . . - 1 - 1. / 语句。 四是将文档服务器内容页设置为静态链接形式。将语句 archiv

10、e/include/thread. php 改为 thread - - 1 - 1. . 假如您是以动态地址形式为首选版本,那么上述对应位置应换成下面的语句:$ extrahead. = linkrel = canonical href = viewt-head. php? tid = . $ tid. / 3 对于论坛已删除帖子,google 抓取工具提示 404错误的解决办法。 1 自定义 404 错误页,给用户良好体验,实现当访问到错误页时返回 404 错误代码,并提示该页面已删除。 2 禁止 discuz 无效页面的收录。 #discuz 会产生什么页面,并出现什么问题? 第一,假如我

11、们删除了之前的帖子、版块与当访问时返回帖子中 不存在 的信息提示页时。 第二,只要设置了权限而能看见的帖子与版块,得到了 没有权限 的提示。 第三,在任何情况下让阅读者看的 提示信息 页面。 而这些页面没有本质性的内容,都应该禁止收录。由于最应该解决的问题是 副本内容 中的问题,在很多 URL 地址中,返回却是同样的内容。假如原帖子被删除之后,应该返回 404 错误信息,假如为了简化,需要加上 metarobots标签,禁止 ES 进行收录。 第四,将提示页面的信息进行修改,解决内容重复的问题。找到全局函数定义文件 global. func. php ,修改这个文件中的 showmessage

12、 函数就行了。找到 define 函数并在后面加上如下的语句:$ extrhcad. = mtname = robot cntent = noindex,nfolow / 上面语句经过修改之后,我们发现: 无权访问的 URL地址与已经删除的帖子与信息等页面,都会重新出如今带有 metarobots 禁止的页面的上面。假如 禁止 收录后,过若干段时间还能够从搜索引擎的 索引 中删除。所以给 SE 的全是有内容的网页,对于提高权重会有着重要意义。 假如文档服务器页面的帖子已经删除了,那么它的提示信息也要设置为禁止收录。 我们能够修改 archve/include/thread. php 途径下的t

13、hread. php 文件: 此文件中包含两个 showheader 函数,在第一个函数的上面加一行: $ extrahead. = metaname = robots content = noindex,nofollow / 就实现禁止收录了。 4 为文档服务器转换页加 linkcanonical 标准化标签 我们通过修改 archve/idex. php: 在 glbal $ boardurl,$_DCAHE,$ chaset,$ nvtitle,$ hederbanner,$ hedernav; 行下参加一行: global $ extahead;在 meahttp - equiv =

14、Content - Type content = text/; chaset = $ chrset / 行下参加一行: $ extrhead这样就能够实现为文档服务器转换页加 linkcanonical标签。 5 将 Discuz 的聚合内容RSS 中帖子的地址设置为静态化 在论坛中使用 Discuz 工具,使论坛处于静态化,而此时 RSS 中的链接地址却没有处于静态化,它却处于动态化之状态。假如根据 Discuz 的 robots 文件的默认设置,rss. php 文件却不能被搜索引擎所索引出现的,同时也不会有重复的 URL 地址出现。而实际情况是: 正常情况之下能够用 RSS 进行调用与聚

15、合,而且 RSS 中的动态地址能够被搜索引擎所索引。下面我们将把 RSS 中显示的链接地址改成静态化。 修改文件: rss. php在 rss. php 中找到: ; ; ; title . dspecialchars $ thread subject . /title /n . ; ; ; link $ boardurl viewthread. php? tid =$ threadtid /link /n . ; ; ; description ! CDATA$ threaddescrip-tion /description /n . ; ; ; category . dspecialcha

16、rs $ thread fo-rum . /category /n . ; ; ; author . dspecialchars$ thread author . /author /n . ; ; ; pubDate . gmdate r ,thread dateline . /pubDate /n . ; /item /n 将华而不实的 link $ boardurl viewthread. php? tid =$ threadtid /link /n . 修改为: link $ boardurl thread - $ threadtid - 1 - 1. /link /n . 6 以前开启了 archive,如今搜索引擎里收录了很多archive 的网址,怎样关闭假如以前开启了 archive,如今搜索引擎里收录了很多archive 的网址,我如今想关闭怎么办? 对于这个问题,有两种思路: 1 定制 301 重定向,将 archive 的地址重定向到静态地址。 2 在 robots. txt 中 Disallow: /archive,这样过一段时间搜索引擎中就会删掉已收录的 archive 页,到时候再关闭 archive. 以下为参考文献: 1 三亿文库。 网站建设系统解决方案DE/OL.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 毕业论文 > 文化交流

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁