3901130721-谭淇蔚-电子商务实验3ova.docx-淘文阁

资源描述

《3901130721-谭淇蔚-电子商务实验3ova.docx》由会员分享，可在线阅读，更多相关《3901130721-谭淇蔚-电子商务实验3ova.docx（40页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Evaluation Warning: The document was created with Spire.Doc for .NET.电子商务应用实验报告项目名称搜索引擎及SEO实验专业班级软件工程1307班学号 3901130721 姓名谭淇蔚实验成绩：批阅教师：2015年 11 月 24 日实验3搜搜索引擎及及SEO实验验实验学时： 2 实验地点： X2004 实验日期期： 20155年11月24日星期期二一、实验目目的研究并学习习几种常见见的搜索引引擎算法，包包括网络蜘蜘蛛爬行策策略、中文文分词算法法、网页正正文提取算算法、网页页去重算法法、PaggeRannk和M

2、apRReducce算法，了了解它们的的基本实现现原理；运运用所学SSEO技术术对网页进进行优化。二、实验内内容和方法法1. 研究究常用的网网络蜘蛛爬爬行策略，如如深度优先先策略、广广度优先策策略、网页页选择策略略、重访策策略和并行行策略等，了了解其实现现原理；2. 研究究至少两种种中文分词词算法，了了解其实现现原理；3. 研究究至少两种种网页正文文提取算法法，了解其其实现原理理；4. 研究究至少两种种网页去重重算法，了了解其实现现原理；5. 研究究Googgle的PageeRankk和MapRReducce算法，了了解它们的的实现原理理；6. 使用用所学的SSEO技术术，对实验验二所设计计的

3、网站静静态首页实实施SEOO，在实施施过程中需需采用如下下技术：(1) 网网页标题(titlle)的优优化；(2) 选选取合适的的关键词并并对关键词词进行优化化；(3) 元元标签的优优化；(4) 网网站结构和和URL的优优化；(5) 创创建robbots.txt文文件，禁止止蜘蛛抓取取网站后台台页面；(6) 网网页内部链链接的优化化；(7) HHeadiing标签签的优化；(8) 图图片优化；(9) 网网页减肥技技术。7. 使用用C+、C#和Javaa等任意一一种编程语语言，设计计并实现一一个简单的的网络蜘蛛蛛爬行程序序，要求在在输入关键键词、设置置爬行深度度和初始网网页URLL之后能够够实现

4、网页页搜索，输输出包含关关键词的网网页的URRL和网页页标题。【注注：实验77为补充实实验，不要要求每个同同学都完成成，感兴趣趣者可自行行实现该程程序，不计计入实验报报告评分。】三、实验要要求1. 研究究几种常用用的网络蜘蜘蛛爬行策策略，填写写相应的表表格，表格格必须填写写完整；2. 研究究两种中文文分词算法法，填写相相应的表格格，表格必必须填写完完整；3. 研究究两种网页页正文提取取算法，填填写相应的的表格，表表格必须填填写完整；4. 研究究两种网页页去重算法法，填写相相应的表格格，表格必必须填写完完整；5. 研究究PageeRankk算法和MaapRedduce算算法，填写写相应的表表格，

5、表格格必须填写写完整；6. 提供供实施SEEO之后的的网站静态态首页界面面和HTMML代码，尽尽量多地使使用所学SSEO技术术；7. 严禁禁大面积拷拷贝互联网网上已有文文字资料，尽尽量用自己己的理解来来阐述算法法原理，必必要时可以以通过图形形来描述算算法；8. 使用用任意一种种编程语言言实现一个个简单的网网络蜘蛛程程序，需提提供网络蜘蜘蛛程序完完整源代码码及实际运运行结果。四、实验步步骤1. 通过过使用搜索索引擎并查查阅相关资资料，研究究并整理几几种常用的的网络蜘蛛蛛爬行策略略相关资料料，填写相相应的表格格；2. 通过过使用搜索索引擎并查查阅相关资资料，研究究并整理两两种中文分分词算法的的基本

6、原理理，填写相相应的表格格；3. 通过过使用搜索索引擎并查查阅相关资资料，研究究并整理两两种网页正正文提取算算法的基本本原理，填填写相应的的表格；4. 通过过使用搜索索引擎并查查阅相关资资料，研究究并整理两两种网页去去重算法的的基本原理理，填写相相应的表格格；5. 通过过使用搜索索引擎并查查阅相关资资料，研究究并整理PPageRRank算算法和MaapRedduce算算法的基本本原理，填填写相应的的表格；6. 对实实验二所设设计的网站站静态首页页实施SEEO；7. 使用用任意一种种编程语言言，设计并并实现一个个简单的网网络蜘蛛爬爬行程序。五、实验结结果1. 研究究几种常用用的网络蜘蜘蛛爬行策策

7、略并填写写如下表格格：策略名称基本原理参考资料深度优先策略广度优先策略网页选择策略重访策略并行策略注：参考资资料格式如如下：1 ddevelloperrWorkks中国：Javaa 设计模模式. hhttp:/wwww.ibbm.coom/deevelooperwworkss/cn/javaa/dessign/.2 阎阎宏. JJava与与模式. 北京: 电子工工业出版社社, 20004.3 于于满泉, 陈铁睿, 许洪波. 基于分块块的网页信信息解析器器的研究与与设计. 计算机应应用, 22005, 25(4).解：策略名称基本原理参考资料深度优先策略在深度优先搜索中，针对最新发现的网页源顶点

8、P，如果它还有以此为起点而尚未搜索到的路径，则沿此路径继续搜素下去。反之，如果当顶点P的所有路径均已经被搜索过，则回溯到初始点。这一搜索过程将一直持续到已发现的从源顶点P可达到的所有顶点为止。但是如果仍然存在未被发现的等等P，则继续选择其中一个作为源顶点并重复以上过程，最终实现所有顶点都被遍历。 1李耀华,杨海燕. 论网络爬虫搜索策略J. 山西广播电视大学学报,2013,02:48-50.广度优先策略广度优先遍历策略，可理解为一种基于网络层次分析的遍历策略，是将网络划分成若干层次，其中，种子站点是处于结构的最顶层。在遍历时, 需要处理Web 页之间的抓取优先级的问题，一般规定层次结构中层次越高

9、，优先级也就越高; 同一层次中, 从左到右优先级依次降低。因此, 如果只用一个网络爬虫进行遍历操作, 那么就按不同层次之间先高后低的次序, 以及同层次之间先左后右的次序进行。当然, 也可以将多个网络爬虫设计成分布式的结构, 它们分别负责其中一层或几层Web 站点的遍历, 这样不但技术实现的难度不高, 而且可以较好地避免重复遍历Web 页的现象。1李志义. 网络爬虫的优化策略探略J. 现代情报,2011,10:31-35.网页选择策略由于很大的搜索引擎也只能获取网络上可得到资源的一小部分。所以，在爬取网页需要要求一个公共标准来区分网页的重要程度。一个页面的重要程度与它自身的质量有关，与按照链接数

10、、访问数得出的受欢迎程度有关，甚至与他本身的网址（后来出现的把搜索放在一个顶级域名或者一个固定页面上的垂直搜索）有关。1在线文档 link?url=VnMDg0YItek-rNIyF_Ys-bTu0lUFHGa5OhLZ0u9rzV1G3IPYfNytfpUkl63OThzrJpynIL8uxcGIfoXB9AcFvK#3重访策略重访抓取策略，是最后一个，搜索引擎蜘蛛在抓取完这个网页之后，然后根据这个页面的权重、包括它的更新频率、更新质量、外链的数量等等来判定，那么对于权重高的页面，蜘蛛会在相隔较短的时间段在回来重新抓取，比如新浪网，权重很高，搜索引擎蜘蛛都是按照秒来重新抓取的。而对于一些权重

11、较低的页面，比如长期不更新的页面，那么蜘蛛会隔好长时间再来抓取一次，比如我们常常搜索的百度大更新，蜘蛛就是对于一些网页权重较低的页面进行一次全部的抓取，一般情况，百度大更新，一个月一次。1在线文档og_8960352901017yos.html并行策略一个并行爬虫是并行运行多个进程的爬虫。它的目标是最大化下载的速度，同时尽量减少并行的开销和下载重复的页面。为了避免下载一个页面两次，爬虫系统需要策略来处理爬虫运行时新发现的URL，因为同一个URL地址，可能被不同的爬虫进程抓到。1在线文档url=VnMDg0YItek-rNIyF_Ys-bTu0lUFHGa5OhLZ0u9rzV1G3IPYfNy

12、tfpUkl63OThzrJpynIL8uxcGIfoXB9AcFvK#32. 研究究两种中文文分词算法法并填写如如下表格：算法名称基本原理参考资料算法一算法二解:算法名称基本原理参考资料基于字符串匹配算法又叫做机械分词方法。它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串，则匹配成功(识别出一个词)。该方法有三个要素，即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。 1龙树全,赵正文,唐华. 中文分词算法概述J. 电脑知识与技术,2009,10:260

13、5-2607.基于理解的分词方法在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统和总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。1龙树全,赵正文,唐华. 中文分词算法概述J. 电脑知识与技术,2009,10:2605-2607.3. 研究究两种网页页正文提取取算法并填填写如下表表格：算法名称基本原理参考资料算法一算法二解:算法名称基本原理参考资料基于权值优化的网页正文内容提取算法提取出描述网页内容的文本

14、块及相关链接的锚文本，简称主题块。通过对大量Web 页面进行分析，发现网页通常由主题内容区和噪音( 导航区和广告区) 组成这些区域具有各自的一些特点: ( 1) 主题内容区域一般含有较多文本文字，且包含逗号、句号等标点符号; ( 2) 噪音区域( 导航区域和广告区域) 一般都由较多链接和少量文字组成，且不包含逗号、句号等标点符号; ( 3) 这些区域通常依靠table、p、tr、div 等标签来进行划分首先将页面建立为一棵DOM 树，然后对树进行预处理，再根据上述特点得出主题块的统计特性，然后再使用粒子群算法根据重要度的不同给各个特征赋予不同的权重，最后完成对网页主题块的识别通过从训练集中提

15、取网页正文内容具有的统计特征，再利用粒子群算法对特征权值及阈值进行优化，使得算法的性能得到进一步的提升1吴麒,陈兴蜀,谭骏. 基于权值优化的网页正文内容提取算法J. 华南理工大学学报(自然科学版),2011,04:32-37.基于DBSCAN 算法的网页正文提取算法首先对网页源文件进行预处理，去掉脚本代码后进行基于分段因子的HTML 标签过滤，即以HTML 标签符为单位，当纯文本后面出现的HTML 标签符数目大于或等于分段因子就进行分段，否则用空格取代，进行文本合并，这种分段方式可以用正则表达式实现。预处理后得到的是净文本段，即每段只含纯文本。以段号作为横坐标，每段字符数作为纵坐标得到二维空间

16、中的一个点，正文内容段的点与非正文内容段的点往往距离较远，而非正文段之间的距离往往较近。利用DBSCAN 聚类算法对这些点进行聚类后得到文本内容。算法的具体步骤如下：第1 步对点集(DataSet)进行计算，找出其中的核心点。点与点之间的空间距离用欧氏距离公式进行计算。第2 步扫描一点，判断是否已经聚类，如果是，则跳过，否则进行第3 步。第3 步判断该点是否为核心点，只有核心点才能发起一次聚类，如果是核心点，给它一个新的类号，对它的下一个点进行判断，如果在它的领域内，则设置为相同的类。第4 步下一个点还是核心点，则递归进行处理。直到所有点处理完。1欧阳佳,林丕源. 基于DBSCAN算法

17、的网页正文提取J. 计算机工程,2011,03:64-66+69.4. 研究究两种网页页去重算法法并填写如如下表格：算法名称基本原理参考资料算法一算法二解:算法名称基本原理参考资料基于特征串的大规模中文网页快速去重算法(1) 网页的文本提取采用两遍扫描来提取网页文本。第一遍扫描, 利用HTML 语言或XML 语言的标记提出文本的标题, 过滤掉无关的标记和超链接, 并进行一些必要转换。在过滤时保留必要的占位符和文本的结构信息和一些半结构化信息。第二遍扫描, 利用文本的结构信息、标点、和一些必要的模板提出网页的文本内容, 保留段落信息。至此, 已把网页文本提出。(2) 特征串的抽取采用“自然语句分

18、隔标志”(简称为分隔标志)将文本切成若干“句子” , 从“句子”中抽取若干字符或汉字作特征码, 然后按照“句子”在文本中的顺序把特征码连接起来构成特征串。由于把文本看作字符流且不需保留语义信息, 所以分隔标志可以是任何符号, 但为保持“句子”划分的均匀性, 通常采用高频字符, 如“ 。” 、“ ?”和“的”等。这样得到的特征串只保留了文本内容(特征码内容)和结构(“句子”的顺序)信息。在抽取特征码时可依据具体需要设定抽取的字符或汉字个数, 本文在“句子”的两端分别抽取相等的字符或汉字作为特征码。(3) 重复度评价函数的设计使用精确的特征码匹配其去重效果并不理想, 所以采用特征串模糊匹配进行网页

19、重复性1吴平博,陈群秀,马亮. 基于特征串的大规模中文网页快速去重算法研究J. 中文信息学报,2003,02:28-35.基于Bloom Filter 的网页去重算法首先我们提取出一个网页的特征（长句），然后利用预定义的k 个HASH 函数对这些特征分别做HASH，从而得到一系列的HASH 值整数输出。接着我们以这些整数为下标到比特数组中去查询，判断下标对应的元素是否都为1。如果这些下标对应的元素不全为1，那么这个网页还没有被统计过，是一个和Bloom Filter 中现有网页不重复的网页，接着我们就把该网页的特征全部加入到Bloom Filter 中。如果这些下标对应的元素全为1，那么我们就

20、认为这个网页已经被统计过，是一个和Bloom Filter 中现有网页重复的网页，因此我们就应该去除掉这个网页。1徐娜,刘四维,汪翔,倪卫明. 基于Bloom Filter的网页去重算法J. 微型电脑应用,2011,03:48-51+6.5. 研究究PageeRankk算法和MaapRedduce算算法并填写写如下表格格：算法名称基本原理参考资料PageRankMapReduce解:算法名称基本原理参考资料PageRankPageRank 有效地利用了Web 所拥有的庞大链接构造的特性。例如, 从网页A 导向网页B 的链接被看作是对页面A 对页面B 的支持投票, Google 根据这个投票数来

21、判断页面的重要性。可是Google 不单单只看投票数( 即链接数) , 对投票的页面也进行分析。重要性高的页面所投的票的评价会更高, 因为接受这个投票页面会被理解为重要的物品。根据这样的分析, 得到了高评价的重要页面会被给予较高的PageRank ( 网页等级) , 在检索结果内的名次也会提高。PageRank 是Google 中表示网页重要性的综合性指标, 而且不会受到各种检索( 引擎) 的影响。因此PageRank 就是基于对使用复杂的算法而得到的链接构造的分析, 从而得出的各网页本身的特性。1孔娟,马亨冰. PageRank算法的原理与解析J. 福建电脑,2007,01:95-96+70

22、.MapReduce用户自定义的Map 函数处理一个输入的基于key /value pair 的集合，输出中间基于key /value pair 的集合MapReduce 库把中间所有具有相同key 值的value 值集合在一起后传递给Reduce 函数，用户自定义的Reduce 函数合并所有具有相同key值的value 值，形成一个较小value 值的集合1亢丽芸,王效岳,白如江. MapReduce原理及其主要实现平台分析J. 现代图书情报技术,2012,02:60-67.6. 提供供通过SEEO优化之之后的网站站首页静态态效果图和和完整的HHTML源源代码。解:下面这是对对本原产品品网站

23、进行行优化后的的网站代码码，对tittle，img等等地方进行行了优化，优化后的的代码如下下: !-有爱商城- 正品低价_个性化礼物_有爱商城_havelove $(document).ready(function() $(#myController).jFlow( controller: .control, / must be class, use . sign slideWrapper : #jFlowSlider, / must be id, use # sign slides: #slider, / the div where all your sliding divs are nes

24、ted in selectedWrapper: jFlowSelected, / just pure text, no sign width: 984px, / this is the width for the content-slider height: 480px, / this is the height for the content-slider duration: 400, / time in miliseconds to transition one slide prev: .slidprev, / must be class, use . sign next: .slidne

25、xt, / must be class, use . sign auto: true ); ); $(function() $(#list_product).carouFredSel( prev: #prev_c1, next: #next_c1, auto: false ); $(#list_product2).carouFredSel( prev: #prev_c2, next: #next_c2, auto: false ); $(window).resize(); ); $(document).ready(function() $(button).click(function() $(

26、this).addClass(click) ); ) Call Us 13117314737 亲爱的游客你可以登陆或者注册账号. ¥ £ ¢ 中文英语美语 Have Love Store 购物车 $0.00 最近添加的商品教师节鲜花 1 x $399.00 拉菲红酒 1 x $399.00 查看购物订单进一步确认我的账户 | 我的订单 | 登录 | 注册首页酒类鲜花性别男性女性年龄婴儿孩童少年青年年轻人中年人老年人送人类别对同学对父母对爱人对孩子对教师对同事对领导送礼场合生日祝贺纪念结婚

展开阅读全文