《主题网络蜘蛛程序设计及JAVA实现精品资料.doc》由会员分享,可在线阅读,更多相关《主题网络蜘蛛程序设计及JAVA实现精品资料.doc(41页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、主题网络蜘蛛程序设计及JAVA实现By Scut祝庆荣主题网络蜘蛛程序设计及JAVA实现祝庆荣(华南理工大学计算科学与工程学院 广东 广州 510640)一、实验目的1、掌握spider/crawler的工作原理及实现方法;2、熟悉网页抓取的整个流程及操作步骤;3、掌握spider/crawler应用程序的编写、调试和运行;4、掌握主题爬行,内容分析技术;二、实验环境1、操作系统平台:Microsoft Windows Vista Ultimate x862、系统配置:处理器:Intel Celeron M processer 1.50GHz内存:1280M3、开发平台Java 版本信息:ja
2、va version 1.5.0_11Java(TM) 2 Runtime Environment, Standard Edition (build 1.5.0_11-b03)Java HotSpot(TM) Client VM (build 1.5.0_11-b03, mixed mode, sharing)4、开发工具:Source Inside Program Editing & Information System version 3.505、帮助文档:JAVA中文API文档三、实验要求1、锁定某个主题抓取;2、能够产生日志文本文件,格式为:时间戳(timestamp)、URL;3、抓
3、取某一URL时最多允许建立2个连接(注意:本地作网页解析的线程数则不限)4、遵守文明蜘蛛规则:必须分析robots.txt文件和meta tag有无限制;一个线程抓完一个网页后要sleep 2秒钟;5、能对HTML网页进行解析,提取出链接URL,能判别提取的URL是否已处理过,不重复解析已crawl过的网页;6、能够对spider/crawler程序的一些基本参数进行设置,包括:抓取深度(depth)、种子URL等;7、使用User-agent向服务器表明自己的身份;8、产生抓取统计信息:包括抓取速度、抓取完成所需时间、抓取网页总数;重要变量和所有类、方法加注释;9、请遵守编程规范,如类、方法
4、、文件等的命名规范,10、可选:GUI图形用户界面、web界面,通过界面管理spider/crawler,包括启停、URL增删等四、设计思路及总体框架从设计思路上,构造Spider有两种比较常用的方法。第一种是把Spider设计成一个递归的程序,第二种是编写一个非递归的Spider程序,程序维护一个要访问的网页列表,考虑到Java对数组、队列的包支持较为丰富,实现相对容易,本程序使用了第二种设计思路。程序中总共维护了四个不同的队列,它们的总结如下。每一个这样的队列保存着同一处理状态的URL。等待队列 当Spider程序开始处理URL时,它们被传送到这一队列。重要的是同一个URL不能被多次处理,
5、因为这样是浪费的。当一个URL被处理过后,它被移送到或者是错误队列或者是完成队列。运行队列 当前正在处理的URL队列。错误队列 如果在下载当前网页时发生错误,它的URL将被加入到错误队列。该URL到达这一队列后将不再移入其它队列。一旦网页移入错误队列,Spider程序将不会再对它作进一步处理。完成队列 如果在下载网页时没有发生错误,该URL将被加入到完成队列。该URL到达这一队列后将不再移入其他队列。明显,每个得到的URL都只能存在于一个队列中。其状态流程图如下(图1):图1 URL状态流程图完成URL错误队列完成队列运行队列等待队列发现URL以下(图2)是为本Spider程序设计的详细工作流
6、程图:取给定的主题URL,加入到训练队列中是否训练队列中是否有URL得到主题词库及对应权重(分数)把下载的所有训练文件分词统计训练结束下载当前主题URL页面内容分数计算公式如下i,j=Avg(TFi)*(1/(log(nDoc/ni)+1/log(nDoc-1)Avg(TFi):对词i取其在各文档中的值进行平均;nDoc:文档数目;ni:出现词i的文档个数;将此新链接移入完成队列并继续等待队列中是否有URL初始化给定URL,加入到等待队列中工作结束取一个URL移入运行队列,下载页面此网页含有其它链接吗查看网页上的下一个链接是否为指向WEB页面的链接报告网页链接报告其它类型链接将此新链接加入到等
7、待队列中否是是否是否有META且Name=robots的标签吗?否读取META的Content值是Content值含有”nofollow”吗?否是robots.txt是有声明禁止跟踪此页吗否是匹配主题词,计算得分。读取此URL的主机根目录下robots.txt图2 Spider详细工作流程五、程序结构及具体实现程序由四个文件组成:CheckLinks.java; HTMLParse.java; ISpiderReportable.java; Spider.java,程序工程报告如下:Project contains 158 symbol records, 780 index entries,
8、and 6 files.File Size Obj Date-CheckLinks.java 9397 - 2007/5/30 CheckLinks 8 javaawt 0 javaio 3 javanet 2 javaxswing 1HTMLParse.java 172 - 2007/4/20 HTMLParse 2 javaxswingtexthtml 0ISpiderReportable.java 195 - 2007/4/20 ISpiderReportable 2 javanet 0Segmenter.java 31413 - 2007/5/29 javaio 1 javalang
9、0 javalangMath 3 javautil 2 segmenter 10Spider.java 17391 - 2007/5/31 javaio 2 javanet 1 javautil 0 javaxswingtext 3 javaxswingtexthtml 4 Spider 12Tf.java 58 - 2007/5/19 tf 2Total Files: 6Total Bytes: 58626Total Symbols: 21它们结构之前的关系如下各图: 实现的流程如下,首先,CheckLinks得到一个起始的URL,在CheckLinks.run()中,新建Spider实例,
10、把起始URL加入到等待队列中,并通过setKeyWord()方法设置主题词,setCheckRobots()、setCheckMetaTag()配置选项,程序进入正常工作。Spider通过getWorkloadWaiting()方法得到等待队列中的URL,调用processURL()方法对取出的URL进行处理,对此,processURL()方法内以URL为地址建立链接,取回对象通过parse.parse()方法对HTML进行解释,主要是从得到的HTML中获取新的URL并添加到等待队列中,及对主题字的匹配。经过parse返回,则从等待队列中移走处理的URL,如果没有错误,把它添加到完成队列中,否
11、则添加到错误队列中,程序又去等待队列中取出URL,进行同样的处理流程,循环一直到等待队列为空。六、实验结果分析实验结果分析:包括性能分析如抓取速度(网页数/秒)、整个网站抓取总时间、站内总共抓取的网页个数、站外总共抓取的网页个数等,最好图表说明;运行界面如下图(图2)所示:图3 Spider运行界面以为起点,取以下几个站点作为训练站点(均为财经内容网页):抓取结果如下详见日志文件。由日志文件可见,这些不相关的页面的得分大多非常低,最高的也不超过分。同样,再以日志文件说明:spiderEvents.log为所有事件日志;spiderResults.log为网页评分结果。七、存在问题爬行速度太慢,
12、别是对超链接较多的页面;页面内容的多少对评分有一定影响,虽然不大,但仍需考虑;若能在网页架构分析上添加一定的过滤,抓取核心内容,相信对抓取质量会有更大的提高,这方面也待改善。附录资料:如何处理Java异常及常见异常六种异常处理的陋习你觉得自己是一个Java专家吗?是否肯定自己已经全面掌握了Java的异常处理机制?在下面这段代码中,你能够迅速找出异常处理的六个问题吗? 1 OutputStreamWriter out = . 2 java.sql.Connection conn = . 3 try / 4 Statement stat = conn.createStatement(); 5 Re
13、sultSet rs = stat.executeQuery( 6 select uid, name from user); 7 while (rs.next() 8 9 out.println(ID: + rs.getString(uid) / 10 ,姓名: + rs.getString(name); 11 12 conn.close(); / 13 out.close(); 14 15 catch(Exception ex) / 16 17 ex.printStackTrace(); /, 18 作为一个Java程序员,你至少应该能够找出两个问题。但是,如果你不能找出全部六个问题,请继续
14、阅读本文。 本文讨论的不是Java异常处理的一般性原则,因为这些原则已经被大多数人熟知。我们要做的是分析各种可称为“反例”(anti-pattern)的违背优秀编码规范的常见坏习惯,帮助读者熟悉这些典型的反面例子,从而能够在实际工作中敏锐地察觉和避免这些问题。 反例之一:丢弃异常 代码:15行-18行。 这段代码捕获了异常却不作任何处理,可以算得上Java编程中的杀手。从问题出现的频繁程度和祸害程度来看,它也许可以和C/C+程序的一个恶名远播的问题相提并论?不检查缓冲区是否已满。如果你看到了这种丢弃(而不是抛出)异常的情况,可以百分之九十九地肯定代码存在问题(在极少数情况下,这段代码有存在的理
15、由,但最好加上完整的注释,以免引起别人误解)。 这段代码的错误在于,异常(几乎)总是意味着某些事情不对劲了,或者说至少发生了某些不寻常的事情,我们不应该对程序发出的求救信号保持沉默和无动于衷。调用一下printStackTrace算不上“处理异常”。不错,调用printStackTrace对调试程序有帮助,但程序调试阶段结束之后, printStackTrace就不应再在异常处理模块中担负主要责任了。 丢弃异常的情形非常普遍。打开JDK的ThreadDeath类的文档,可以看到下面这段说明:“特别地,虽然出现ThreadDeath是一种正常的情形,但ThreadDeath类是Error而不是E
16、xception的子类,因为许多应用会捕获所有的Exception然后丢弃它不再理睬。”这段话的意思是,虽然ThreadDeath代表的是一种普通的问题,但鉴于许多应用会试图捕获所有异常然后不予以适当的处理,所以JDK把 ThreadDeath定义成了Error的子类,因为Error类代表的是一般的应用不应该去捕获的严重问题。可见,丢弃异常这一坏习惯是如此常见,它甚至已经影响到了Java本身的设计。 那么,应该怎样改正呢?主要有四个选择: 1、处理异常。针对该异常采取一些行动,例如修正问题、提醒某个人或进行其他一些处理,要根据具体的情形确定应该采取的动作。再次说明,调用printStackTr
17、ace算不上已经“处理好了异常”。 2、重新抛出异常。处理异常的代码在分析异常之后,认为自己不能处理它,重新抛出异常也不失为一种选择。 3、把该异常转换成另一种异常。大多数情况下,这是指把一个低级的异常转换成应用级的异常(其含义更容易被用户了解的异常)。 4、不要捕获异常。 结论一:既然捕获了异常,就要对它进行适当的处理。不要捕获异常之后又把它丢弃,不予理睬。 反例之二:不指定具体的异常 代码:15行。 许多时候人们会被这样一种“美妙的”想法吸引:用一个catch语句捕获所有的异常。最常见的情形就是使用catch(Exception ex)语句。但实际上,在绝大多数情况下,这种做法不值得提倡。
18、为什么呢? 要理解其原因,我们必须回顾一下catch语句的用途。catch语句表示我们预期会出现某种异常,而且希望能够处理该异常。异常类的作用就是告诉 Java编译器我们想要处理的是哪一种异常。由于绝大多数异常都直接或间接从java.lang.Exception派生,catch (Exception ex)就相当于说我们想要处理几乎所有的异常。 再来看看前面的代码例子。我们真正想要捕获的异常是什么呢?最明显的一个是SQLException,这是JDBC操作中常见的异常。另一个可能的异常是IOException,因为它要操作OutputStreamWriter。显然,在同一个catch块中处理这
19、两种截然不同的异常是不合适的。如果用两个catch块分别捕获SQLException和IOException就要好多了。这就是说,catch语句应当尽量指定具体的异常类型,而不应该指定涵盖范围太广的Exception类。 另一方面,除了这两个特定的异常,还有其他许多异常也可能出现。例如,如果由于某种原因,executeQuery返回了null,该怎么办?答案是让它们继续抛出,即不必捕获也不必处理。实际上,我们不能也不应该去捕获可能出现的所有异常,程序的其他地方还有捕获异常的机会?直至最后由JVM处理。 结论二:在catch语句中尽可能指定具体的异常类型,必要时使用多个catch。不要试图处理所
20、有可能出现的异常。 反例之三:占用资源不释放 代码:3行-14行。 异常改变了程序正常的执行流程。这个道理虽然简单,却常常被人们忽视。如果程序用到了文件、Socket、JDBC连接之类的资源,即使遇到了异常,也要正确释放占用的资源。为此,Java提供了一个简化这类操作的关键词finally。 finally是样好东西:不管是否出现了异常,Finally保证在try/catch/finally块结束之前,执行清理任务的代码总是有机会执行。遗憾的是有些人却不习惯使用finally。 当然,编写finally块应当多加小心,特别是要注意在finally块之内抛出的异常?这是执行清理任务的最后机会,尽
21、量不要再有难以处理的错误。 结论三:保证所有资源都被正确释放。充分运用finally关键词。反例之四:不说明异常的详细信息 代码:3行-18行。 仔细观察这段代码:如果循环内部出现了异常,会发生什么事情?我们可以得到足够的信息判断循环内部出错的原因吗?不能。我们只能知道当前正在处理的类发生了某种错误,但却不能获得任何信息判断导致当前错误的原因。 printStackTrace的堆栈跟踪功能显示出程序运行到当前类的执行流程,但只提供了一些最基本的信息,未能说明实际导致错误的原因,同时也不易解读。 因此,在出现异常时,最好能够提供一些文字信息,例如当前正在执行的类、方法和其他状态信息,包括以一种更
22、适合阅读的方式整理和组织printStackTrace提供的信息。 结论四:在异常处理模块中提供适量的错误原因信息,组织错误信息使其易于理解和阅读。 反例之五:过于庞大的try块 代码:3行-14行。 经常可以看到有人把大量的代码放入单个try块,实际上这不是好习惯。这种现象之所以常见,原因就在于有些人图省事,不愿花时间分析一大块代码中哪几行代码会抛出异常、异常的具体类型是什么。把大量的语句装入单个巨大的try块就象是出门旅游时把所有日常用品塞入一个大箱子,虽然东西是带上了,但要找出来可不容易。 一些新手常常把大量的代码放入单个try块,然后再在catch语句中声明Exception,而不是分
23、离各个可能出现异常的段落并分别捕获其异常。这种做法为分析程序抛出异常的原因带来了困难,因为一大段代码中有太多的地方可能抛出Exception。 结论五:尽量减小try块的体积。 反例之六:输出数据不完整 代码:7行-11行。 不完整的数据是Java程序的隐形杀手。仔细观察这段代码,考虑一下如果循环的中间抛出了异常,会发生什么事情。循环的执行当然是要被打断的,其次, catch块会执行?就这些,再也没有其他动作了。已经输出的数据怎么办?使用这些数据的人或设备将收到一份不完整的(因而也是错误的)数据,却得不到任何有关这份数据是否完整的提示。对于有些系统来说,数据不完整可能比系统停止运行带来更大的损
24、失。 较为理想的处置办法是向输出设备写一些信息,声明数据的不完整性;另一种可能有效的办法是,先缓冲要输出的数据,准备好全部数据之后再一次性输出。 结论六:全面考虑可能出现的异常以及这些异常对执行流程的影响。 改写后的代码 根据上面的讨论,下面给出改写后的代码。也许有人会说它稍微有点?嗦,但是它有了比较完备的异常处理机制。 OutputStreamWriter out = . java.sql.Connection conn = . try Statement stat = conn.createStatement(); ResultSet rs = stat.executeQuery( sel
25、ect uid, name from user); while (rs.next() out.println(ID: + rs.getString(uid) + ,姓名: + rs.getString(name); catch(SQLException sqlex) out.println(警告:数据不完整); throw new ApplicationException(读取数据时出现SQL错误, sqlex); catch(IOException ioex) throw new ApplicationException(写入数据时出现IO错误, ioex); finally if (con
26、n != null) try conn.close(); catch(SQLException sqlex2) System.err(this.getClass().getName() + .mymethod - 不能关闭数据库连接: + sqlex2.toString(); if (out != null) try out.close(); catch(IOException ioex2) System.err(this.getClass().getName() + .mymethod - 不能关闭输出文件 + ioex2.toString(); 本文的结论不是放之四海皆准的教条,有时常识和
27、经验才是最好的老师。如果你对自己的做法没有百分之百的信心,务必加上详细、全面的注释。 另一方面,不要笑话这些错误,不妨问问你自己是否真地彻底摆脱了这些坏习惯。即使最有经验的程序员偶尔也会误入歧途,原因很简单,因为它们确确实实带来了“方便”。所有这些反例都可以看作Java编程世界的恶魔,它们美丽动人,无孔不入,时刻诱惑着你。也许有人会认为这些都属于鸡皮蒜毛的小事,不足挂齿,但请记住:勿以恶小而为之,勿以善小而不为。-下面是一些 java异常集- -算术异常类:ArithmeticExecption空指针异常类:NullPointerException类型强制转换异常:ClassCastExcep
28、tion数组负下标异常:NegativeArrayException数组下标越界异常:ArrayIndexOutOfBoundsException违背安全原则异常:SecturityException文件已结束异常:EOFException文件未找到异常:FileNotFoundException字符串转换为数字异常:NumberFormatException操作数据库异常:SQLException输入输出异常:IOException方法未找到异常:NoSuchMethodExceptionjava.lang.AbstractMethodError抽象方法错误。当应用试图调用抽象方法时抛出。j
29、ava.lang.AssertionError断言错。用来指示一个断言失败的情况。java.lang.ClassCircularityError类循环依赖错误。在初始化一个类时,若检测到类之间循环依赖则抛出该异常。java.lang.ClassFormatError类格式错误。当Java虚拟机试图从一个文件中读取Java类,而检测到该文件的内容不符合类的有效格式时抛出。java.lang.Error错误。是所有错误的基类,用于标识严重的程序运行问题。这些问题通常描述一些不应被应用程序捕获的反常情况。java.lang.ExceptionInInitializerError初始化程序错误。当执行
30、一个类的静态初始化程序的过程中,发生了异常时抛出。静态初始化程序是指直接包含于类中的static语句段。java.lang.IllegalAccessError违法访问错误。当一个应用试图访问、修改某个类的域(Field)或者调用其方法,但是又违反域或方法的可见性声明,则抛出该异常。java.lang.IncompatibleClassChangeError不兼容的类变化错误。当正在执行的方法所依赖的类定义发生了不兼容的改变时,抛出该异常。一般在修改了应用中的某些类的声明定义而没有对整个应用重新编译而直接运行的情况下,容易引发该错误。java.lang.InstantiationError实例
31、化错误。当一个应用试图通过Java的new操作符构造一个抽象类或者接口时抛出该异常.java.lang.InternalError内部错误。用于指示Java虚拟机发生了内部错误。java.lang.LinkageError链接错误。该错误及其所有子类指示某个类依赖于另外一些类,在该类编译之后,被依赖的类改变了其类定义而没有重新编译所有的类,进而引发错误的情况。java.lang.NoClassDefFoundError未找到类定义错误。当Java虚拟机或者类装载器试图实例化某个类,而找不到该类的定义时抛出该错误。java.lang.NoSuchFieldError域不存在错误。当应用试图访问或
32、者修改某类的某个域,而该类的定义中没有该域的定义时抛出该错误。java.lang.NoSuchMethodError方法不存在错误。当应用试图调用某类的某个方法,而该类的定义中没有该方法的定义时抛出该错误。java.lang.OutOfMemoryError内存不足错误。当可用内存不足以让Java虚拟机分配给一个对象时抛出该错误。java.lang.StackOverflowError堆栈溢出错误。当一个应用递归调用的层次太深而导致堆栈溢出时抛出该错误。java.lang.ThreadDeath线程结束。当调用Thread类的stop方法时抛出该错误,用于指示线程结束。java.lang.Un
33、knownError未知错误。用于指示Java虚拟机发生了未知严重错误的情况。java.lang.UnsatisfiedLinkError未满足的链接错误。当Java虚拟机未找到某个类的声明为native方法的本机语言定义时抛出。java.lang.UnsupportedClassVersionError不支持的类版本错误。当Java虚拟机试图从读取某个类文件,但是发现该文件的主、次版本号不被当前Java虚拟机支持的时候,抛出该错误。java.lang.VerifyError验证错误。当验证器检测到某个类文件中存在内部不兼容或者安全问题时抛出该错误。java.lang.VirtualMachi
34、neError虚拟机错误。用于指示虚拟机被破坏或者继续执行操作所需的资源不足的情况。java.lang.ArithmeticException算术条件异常。譬如:整数除零等。java.lang.ArrayIndexOutOfBoundsException数组索引越界异常。当对数组的索引值为负数或大于等于数组大小时抛出。java.lang.ArrayStoreException数组存储异常。当向数组中存放非数组声明类型对象时抛出。java.lang.ClassCastException类造型异常。假设有类A和B(A不是B的父类或子类),O是A的实例,那么当强制将O构造为类B的实例时抛出该异常。该
35、异常经常被称为强制类型转换异常。java.lang.ClassNotFoundException找不到类异常。当应用试图根据字符串形式的类名构造类,而在遍历CLASSPAH之后找不到对应名称的class文件时,抛出该异常。java.lang.CloneNotSupportedException不支持克隆异常。当没有实现Cloneable接口或者不支持克隆方法时,调用其clone()方法则抛出该异常。java.lang.EnumConstantNotPresentException枚举常量不存在异常。当应用试图通过名称和枚举类型访问一个枚举对象,但该枚举对象并不包含常量时,抛出该异常。java.
36、lang.Exception根异常。用以描述应用程序希望捕获的情况。java.lang.IllegalAccessException违法的访问异常。当应用试图通过反射方式创建某个类的实例、访问该类属性、调用该类方法,而当时又无法访问类的、属性的、方法的或构造方法的定义时抛出该异常。java.lang.IllegalMonitorStateException违法的监控状态异常。当某个线程试图等待一个自己并不拥有的对象(O)的监控器或者通知其他线程等待该对象(O)的监控器时,抛出该异常。java.lang.IllegalStateException违法的状态异常。当在Java环境和应用尚未处于某个
37、方法的合法调用状态,而调用了该方法时,抛出该异常。java.lang.IllegalThreadStateException违法的线程状态异常。当县城尚未处于某个方法的合法调用状态,而调用了该方法时,抛出异常。java.lang.IndexOutOfBoundsException索引越界异常。当访问某个序列的索引值小于0或大于等于序列大小时,抛出该异常。java.lang.InstantiationException实例化异常。当试图通过newInstance()方法创建某个类的实例,而该类是一个抽象类或接口时,抛出该异常。java.lang.InterruptedException被中止异常
38、。当某个线程处于长时间的等待、休眠或其他暂停状态,而此时其他的线程通过Thread的interrupt方法终止该线程时抛出该异常。java.lang.NegativeArraySizeException数组大小为负值异常。当使用负数大小值创建数组时抛出该异常。java.lang.NoSuchFieldException属性不存在异常。当访问某个类的不存在的属性时抛出该异常。java.lang.NoSuchMethodException方法不存在异常。当访问某个类的不存在的方法时抛出该异常。java.lang.NullPointerException空指针异常。当应用试图在要求使用对象的地方使用了null时,抛出该异常。譬如:调用null对象的实例方法、访问null对象的属性、计算null对象的长度、使用throw语句抛出null等等。java.lang.NumberFormatException数字格式异常。当试图将一个String转换为指定的数字类型,而该字符串确不满足数字类型要求的格式时,抛出该异常。java.lang.RuntimeException运行时异常。是所有Java虚拟机正常操作期间可以被抛出的异常的父类。java.lang.Se