《3901130721-谭淇蔚-电子商务实验3fcu.docx》由会员分享,可在线阅读,更多相关《3901130721-谭淇蔚-电子商务实验3fcu.docx(64页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Evaluation Warning: The document was created with Spire.Doc for .NET.电子商务应用实验报告项目名称 搜索引擎及SEO实验 专业班级 软件工程1307班 学 号 3901130721 姓 名 谭淇蔚 实验成绩:批阅教师:2015年 11 月 24 日实验3搜索引擎及SEO实验实验学时: 2 实验地点: X204 实验日期: 20155年11月24日星期二二 一、实验目的研究并学习几种种常见的搜索索引擎算法,包包括网络蜘蛛蛛爬行策略、中中文分词算法法、网页正文文提取算法、网网页去重算法法、PageeRank和和MapReeduce
2、算算法,了解它它们的基本实实现原理;运运用所学SEEO技术对网网页进行优化化。二、实验内容和和方法1. 研究常用用的网络蜘蛛蛛爬行策略,如如深度优先策策略、广度优优先策略、网网页选择策略略、重访策略略和并行策略略等,了解其其实现原理;2. 研究至少少两种中文分分词算法,了了解其实现原原理;3. 研究至少少两种网页正正文提取算法法,了解其实实现原理;4. 研究至少少两种网页去去重算法,了了解其实现原原理;5. 研究Gooogle的的PageRRank和MapReeduce算算法,了解它它们的实现原原理;6. 使用所学学的SEO技术,对对实验二所设设计的网站静静态首页实施施SEO,在实实施过程中需
3、需采用如下技技术:(1) 网页标标题(tittle)的优优化;(2) 选取合合适的关键词词并对关键词词进行优化;(3) 元标签签的优化;(4) 网站结结构和URLL的优化;(5) 创建rrobotss.txt文文件,禁止蜘蜘蛛抓取网站站后台页面;(6) 网页内内部链接的优优化;(7) Heaading标标签的优化;(8) 图片优优化;(9) 网页减减肥技术。7. 使用C+、C#和Java等任任意一种编程程语言,设计计并实现一个个简单的网络络蜘蛛爬行程程序,要求在在输入关键词词、设置爬行行深度和初始始网页URLL之后能够实实现网页搜索索,输出包含含关键词的网网页的URLL和网页标题题。【注:实实
4、验7为补充实验验,不要求每每个同学都完完成,感兴趣趣者可自行实实现该程序,不不计入实验报报告评分。】三、实验要求1. 研究几种种常用的网络络蜘蛛爬行策策略,填写相相应的表格,表表格必须填写写完整;2. 研究两种种中文分词算算法,填写相相应的表格,表表格必须填写写完整;3. 研究两种种网页正文提提取算法,填填写相应的表表格,表格必必须填写完整整;4. 研究两种种网页去重算算法,填写相相应的表格,表表格必须填写写完整;5. 研究PaageRannk算法和MappReducce算法,填填写相应的表表格,表格必必须填写完整整;6. 提供实施施SEO之后的的网站静态首首页界面和HHTML代码码,尽量多地
5、地使用所学SSEO技术;7. 严禁大面面积拷贝互联联网上已有文文字资料,尽尽量用自己的的理解来阐述述算法原理,必必要时可以通通过图形来描描述算法;8. 使用任意意一种编程语语言实现一个个简单的网络络蜘蛛程序,需需提供网络蜘蜘蛛程序完整整源代码及实实际运行结果果。四、实验步骤1. 通过使用用搜索引擎并并查阅相关资资料,研究并并整理几种常常用的网络蜘蜘蛛爬行策略略相关资料,填填写相应的表表格;2. 通过使用用搜索引擎并并查阅相关资资料,研究并并整理两种中中文分词算法法的基本原理理,填写相应应的表格;3. 通过使用用搜索引擎并并查阅相关资资料,研究并并整理两种网网页正文提取取算法的基本本原理,填写写
6、相应的表格格;4. 通过使用用搜索引擎并并查阅相关资资料,研究并并整理两种网网页去重算法法的基本原理理,填写相应应的表格;5. 通过使用用搜索引擎并并查阅相关资资料,研究并并整理PaggeRankk算法和MappReducce算法的基基本原理,填填写相应的表表格;6. 对实验二二所设计的网网站静态首页页实施SEOO;7. 使用任意意一种编程语语言,设计并并实现一个简简单的网络蜘蜘蛛爬行程序序。五、实验结果1. 研究几种种常用的网络络蜘蛛爬行策策略并填写如如下表格:策略名称基本原理参考资料深度优先策略广度优先策略网页选择策略重访策略并行策略注:参考资料格格式如下:1 devvelopeerWor
7、kks中国:Javva 设计模模式. htttp:/www.iibm.coom/devvelopeerworkks/cn/java/desiggn/.2 阎宏. Javaa与模式. 北京: 电子工业业出版社, 2004.3 于满泉泉, 陈铁睿, 许洪波. 基于分块块的网页信息息解析器的研研究与设计. 计算机应应用, 20005, 225(4).解:策略名称基本原理参考资料深度优先策略在深度优先搜索中,针对最新发现的网页源顶点P,如果它还有以此为起点而尚未搜索到的路径,则沿此路径继续搜素下去。反之,如果当顶点P的所有路径均已经被搜索过,则回溯到初始点。这一搜索过程将一直持续到已发现的从源顶点P可
8、达到的所有顶点为止。但是如果仍然存在未被发现的等等P,则继续选择其中一个作为源顶点并重复以上过程,最终实现所有顶点都被遍历。 1李耀华,杨海燕. 论网络爬虫搜索策略J. 山西广播电视大学学报,2013,02:48-50.广度优先策略广度优先遍历策略,可理解为一种基于网络层次分析的遍历策略,是将网络划分成若干层次,其中,种子站点是处于结构的最顶层。在遍历时, 需要处理Web 页之间的抓取优先级的问题,一般规定层次结构中层次越高,优先级也就越高; 同一层次中, 从左到右优先级依次降低。因此, 如果只用一个网络爬虫进行遍历操作, 那么就按不同层次之间先高后低的次序, 以及同层次之间先左后右的次序进行
9、。当然, 也可以将多个网络爬虫设计成分布式的结构, 它们分别负责其中一层或几层Web 站点的遍历, 这样不但技术实现的难度不高, 而且可以较好地避免重复遍历Web 页的现象。1李志义. 网络爬虫的优化策略探略J. 现代情报,2011,10:31-35.网页选择策略由于很大的搜索引擎也只能获取网络上可得到资源的一小部分。所以,在爬取网页需要要求一个公共标准来区分网页的重要程度。一个页面的重要程度与它自身的质量有关,与按照链接数、访问数得出的受欢迎程度有关,甚至与他本身的网址(后来出现的把搜索放在一个顶级域名或者一个固定页面上的垂直搜索)有关。1在线文档 link?url=VnMDg0YItek-
10、rNIyF_Ys-bTu0lUFHGa5OhLZ0u9rzV1G3IPYfNytfpUkl63OThzrJpynIL8uxcGIfoXB9AcFvK#3重访策略重访抓取策略,是最后一个,搜索引擎蜘蛛在抓取完这个网页之后,然后根据这个页面的权重、包括它的更新频率、更新质量、外链的数量等等来判定,那么对于权重高的页面,蜘蛛会在相隔较短的时间段在回来重新抓取,比如新浪网,权重很高,搜索引擎蜘蛛都是按照秒来重新抓取的。而对于一些权重较低的页面,比如长期不更新的页面,那么蜘蛛会隔好长时间再来抓取一次,比如我们常常搜索的百度大更新,蜘蛛就是对于一些网页权重较低的页面进行一次全部的抓取,一般情况,百度大更新
11、,一个月一次。1在线文档og_8960352901017yos.html并行策略一个并行爬虫是并行运行多个进程的爬虫。它的目标是最大化下载的速度,同时尽量减少并行的开销和下载重复的页面。为了避免下载一个页面两次,爬虫系统需要策略来处理爬虫运行时新发现的URL,因为同一个URL地址,可能被不同的爬虫进程抓到。1在线文档url=VnMDg0YItek-rNIyF_Ys-bTu0lUFHGa5OhLZ0u9rzV1G3IPYfNytfpUkl63OThzrJpynIL8uxcGIfoXB9AcFvK#32. 研究两种种中文分词算算法并填写如如下表格:算法名称基本原理参考资料算法一算法二解:算法名称基
12、本原理参考资料基于字符串匹配算法又叫做机械分词方法。它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串,则匹配成功(识别出一个词)。该方法有三个要素,即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。 1龙树全,赵正文,唐华. 中文分词算法概述J. 电脑知识与技术,2009,10:2605-2607.基于理解的分词方法在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统和总控部分。在总控部分的协
13、调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。1龙树全,赵正文,唐华. 中文分词算法概述J. 电脑知识与技术,2009,10:2605-2607.3. 研究两种种网页正文提提取算法并填填写如下表格格:算法名称基本原理参考资料算法一算法二解:算法名称基本原理参考资料基于权值优化的网页正文内容提取算法提取出描述网页内容的文本块及相关链接的锚文本,简称主题块。通过对大量Web 页面进行分析,发现网页通常由主题内容区和噪音( 导航区和广告区) 组成 这些区域具有各自的一些特点: ( 1) 主题内容区域
14、一般含有较多文本文字,且包含逗号、句号等标点符号; ( 2) 噪音区域( 导航区域和广告区域) 一般都由较多链接和少量文字组成,且不包含逗号、句号等标点符号; ( 3) 这些区域通常依靠table、p、tr、div 等标签来进行划分首先将页面建立为一棵DOM 树,然后对树进行预处理,再根据上述特点得出主题块的统计特性,然后再使用粒子群算法根据重要度的不同给各个特征赋予不同的权重,最后完成对网页主题块的识别通过从训练集中提取网页正文内容具有的统计特征,再利用粒子群算法对特征权值及阈值进行优化,使得算法的性能得到进一步的提升1吴麒,陈兴蜀,谭骏. 基于权值优化的网页正文内容提取算法J. 华南理工大
15、学学报(自然科学版),2011,04:32-37.基于DBSCAN 算法的网页正文提取算法首先对网页源文件进行预处理,去掉脚本代码后进行基于分段因子的HTML 标签过滤,即以HTML 标签符为单位,当纯文本后面出现的HTML 标签符数目大于或等于分段因子就进行分段,否则用空格取代,进行文本合并,这种分段方式可以用正则表达式实现。预处理后得到的是净文本段,即每段只含纯文本。以段号作为横坐标,每段字符数作为纵坐标得到二维空间中的一个点,正文内容段的点与非正文内容段的点往往距离较远,而非正文段之间的距离往往较近。利用DBSCAN 聚类算法对这些点进行聚类后得到文本内容。算法的具体步骤如下:第1 步
16、对点集(DataSet)进行计算,找出其中的核心点。点与点之间的空间距离用欧氏距离公式进行计算。第2 步 扫描一点,判断是否已经聚类,如果是,则跳过,否则进行第3 步。第3 步 判断该点是否为核心点,只有核心点才能发起一次聚类,如果是核心点,给它一个新的类号,对它的下一个点进行判断,如果在它的领域内,则设置为相同的类。第4 步 下一个点还是核心点,则递归进行处理。直到所有点处理完。1欧阳佳,林丕源. 基于DBSCAN算法的网页正文提取J. 计算机工程,2011,03:64-66+69.4. 研究两种种网页去重算算法并填写如如下表格:算法名称基本原理参考资料算法一算法二解:算法名称基本原理参考资
17、料基于特征串的大规模中文网页快速去重算法(1) 网页的文本提取采用两遍扫描来提取网页文本。第一遍扫描, 利用HTML 语言或XML 语言的标记提出文本的标题, 过滤掉无关的标记和超链接, 并进行一些必要转换。在过滤时保留必要的占位符和文本的结构信息和一些半结构化信息。第二遍扫描, 利用文本的结构信息、标点、和一些必要的模板提出网页的文本内容, 保留段落信息。至此, 已把网页文本提出。(2) 特征串的抽取采用“自然语句分隔标志”(简称为分隔标志)将文本切成若干“句子” , 从“句子”中抽取若干字符或汉字作特征码, 然后按照“句子”在文本中的顺序把特征码连接起来构成特征串。由于把文本看作字符流且不
18、需保留语义信息, 所以分隔标志可以是任何符号, 但为保持“句子”划分的均匀性, 通常采用高频字符, 如“ 。” 、“ ?”和“的”等。这样得到的特征串只保留了文本内容(特征码内容)和结构(“句子”的顺序)信息。在抽取特征码时可依据具体需要设定抽取的字符或汉字个数, 本文在“句子”的两端分别抽取相等的字符或汉字作为特征码。(3) 重复度评价函数的设计使用精确的特征码匹配其去重效果并不理想, 所以采用特征串模糊匹配进行网页重复性1吴平博,陈群秀,马亮. 基于特征串的大规模中文网页快速去重算法研究J. 中文信息学报,2003,02:28-35.基于Bloom Filter 的网页去重算法首先我们提取
19、出一个网页的特征(长句),然后利用预定义的k 个HASH 函数对这些特征分别做HASH,从而得到一系列的HASH 值整数输出。接着我们以这些整数为下标到比特数组中去查询,判断下标对应的元素是否都为1。如果这些下标对应的元素不全为1,那么这个网页还没有被统计过,是一个和Bloom Filter 中现有网页不重复的网页,接着我们就把该网页的特征全部加入到Bloom Filter 中。如果这些下标对应的元素全为1,那么我们就认为这个网页已经被统计过,是一个和Bloom Filter 中现有网页重复的网页,因此我们就应该去除掉这个网页。1徐娜,刘四维,汪翔,倪卫明. 基于Bloom Filter的网页
20、去重算法J. 微型电脑应用,2011,03:48-51+6.5. 研究PaageRannk算法和MappReducce算法并填填写如下表格格:算法名称基本原理参考资料PageRankMapReduce解:算法名称基本原理参考资料PageRankPageRank 有效地利用了Web 所拥有的庞大链接构造的特性。例如, 从网页A 导向网页B 的链接被看作是对页面A 对页面B 的支持投票, Google 根据这个投票数来判断页面的重要性。可是Google 不单单只看投票数( 即链接数) , 对投票的页面也进行分析。重要性高的页面所投的票的评价会更高, 因为接受这个投票页面会被理解为重要的物品。根据这
21、样的分析, 得到了高评价的重要页面会被给予较高的PageRank ( 网页等级) , 在检索结果内的名次也会提高。PageRank 是Google 中表示网页重要性的综合性指标, 而且不会受到各种检索( 引擎) 的影响。因此PageRank 就是基于对使用复杂的算法而得到的链接构造的分析, 从而得出的各网页本身的特性。1孔娟,马亨冰. PageRank算法的原理与解析J. 福建电脑,2007,01:95-96+70.MapReduce用户自定义的Map 函数处理一个输入的基于key /value pair 的集合,输出中间基于key /value pair 的集合MapReduce 库把中间所
22、有具有相同key 值的value 值集合在一起后传递给Reduce 函数,用户自定义的Reduce 函数合并所有具有相同key值的value 值,形成一个较小value 值的集合1亢丽芸,王效岳,白如江. MapReduce原理及其主要实现平台分析J. 现代图书情报技术,2012,02:60-67.6. 提供通过过SEO优化之之后的网站首首页静态效果果图和完整的的HTML源代代码。解:下面这是对本原原产品网站进进行优化后的的网站代码,对titlle,img等地地方进行了优优化,优化后的代代码如下: !-有爱商城- 正品低价_个性化礼物_有爱商城_havelove $(document).rea
23、dy(function() $(#myController).jFlow( controller: .control, / must be class, use . sign slideWrapper : #jFlowSlider, / must be id, use # sign slides: #slider, / the div where all your sliding divs are nested in selectedWrapper: jFlowSelected, / just pure text, no sign width: 984px, / this is the wid
24、th for the content-slider height: 480px, / this is the height for the content-slider duration: 400, / time in miliseconds to transition one slide prev: .slidprev, / must be class, use . sign next: .slidnext, / must be class, use . sign auto: true ); ); $(function() $(#list_product).carouFredSel( pre
25、v: #prev_c1, next: #next_c1, auto: false ); $(#list_product2).carouFredSel( prev: #prev_c2, next: #next_c2, auto: false ); $(window).resize(); ); $(document).ready(function() $(button).click(function() $(this).addClass(click) ); ) Call Us   13117314737 亲爱的游客你可以登陆或者注册账号. ¥ £ ¢ 中文 英语 美语 Have Love Store 购物车 $0.00 最近添加的商品 教师节鲜花 1 x $399.00 拉菲红酒 1 x $399.00 查看购物订单 进一步确认 我的账户 | 我的订单 | 登录 | 注册 首页 酒类 鲜花 性别 男性 女性 年龄 婴儿 孩童 少年 青年 年轻人 中年人 老年人 送人类别 对同学 对父母 对爱人 对孩子 对教师 对同事 对领导 送礼场合 生日 祝贺 纪念 结婚 乔迁 a href