J2EE架构下的基于决策辅助支持的教务管理系统的设计——选课系统设计和数据挖掘技术的应用研究.docx

上传人:a**** 文档编号:2722 上传时间:2017-10-19 格式:DOCX 页数:60 大小:969.33KB
返回 下载 相关 举报
J2EE架构下的基于决策辅助支持的教务管理系统的设计——选课系统设计和数据挖掘技术的应用研究.docx_第1页
第1页 / 共60页
J2EE架构下的基于决策辅助支持的教务管理系统的设计——选课系统设计和数据挖掘技术的应用研究.docx_第2页
第2页 / 共60页
点击查看更多>>
资源描述

《J2EE架构下的基于决策辅助支持的教务管理系统的设计——选课系统设计和数据挖掘技术的应用研究.docx》由会员分享,可在线阅读,更多相关《J2EE架构下的基于决策辅助支持的教务管理系统的设计——选课系统设计和数据挖掘技术的应用研究.docx(60页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、贵州大学 硕士学位论文 J2EE架构下的基于决策辅助支持的教务管理系统的设计 一 选 课系统设计和数据挖掘技术的应用研究 姓名:金宇 申请学位级别:硕士 专业:计算机应用技术 指导教师:吴至真 20070901 摘 要 随着高校校园网的建设,基于校园网和 INTERNET的应用系统的开发正在蓬 勃发展,建设高水平的大学教务管理信息系统是基础和关键。本论文针对教务管 理的现状,提出了基于 J2EE架构下开发教务管理系统的设计方案。并着重分析 设计了选课子系统,同时提出将数据挖掘技术运用到教务管理系统的设计思路。 本文引入 J2EE体系结构,采用 MVC设计模式从系统总体架构来设计,分析 系统的特

2、征和功能,重点对选课系统进行分析和设计,然后,对相关数据挖掘知 识详细叙述以后,将数据挖掘技术应用到教务系统的学生成绩数据中,利用数据 挖掘的 Apriori关联规则算法找出在以往学生成绩数据中的课程成绩的蕴藏规 律,得到课程之间的相关性,从而对辅助教务科学安排课程和指导学生选课起到 一定的作用。 关键词:教务管理; J2EE;选课系统;数据挖掘;关联规则 I ABSTRACT College teaching management is the foundation of modernization of college information management. The traditi

3、onal teaching management depends on manual operation, which is time-consuming and laborious. Its critical to develop an intelligent teaching management system based on distributed and network computing. Combined with the present situation of our schools teaching management, the thesis gives a new de

4、sign model of college management system based on campus network, and proposes a new design combining data mining with J2EE technology. The traditional teaching system was developed by using ASP oi other server scripts, which make reuse and transplantablity poor because business logical layer and pre

5、sentation layer are mixed together. To overcome above disadvantages, the author introduces J2EE, which is widely used in present industry, designs and develops a new teaching management system by adopting MVC model and Struts web framework. The developed teaching management system contains such main

6、 functions as student information management, teacher management, select-course management, and score management. This thesis completes the static and dynamic modeling of the select-course management system by using UML as model language and following the software engineering. In addition, there are

7、 huge historical data in college teaching database along with process more years. So, it is also a main work of this thesis how to get the useful information hidden in this database through removing noise or cleaning up to give a reference for later decision support, so, the thesis uses Association

8、Rule method in data mining to get some relationship among courses based on the student score database. At last, a summarization about this thesis and future research work are given. Keywords: College Teaching Management System; J2EE; Data Minning; Association Rule n 贵州大学硕士学位论文 原创性声明 本人郑重声明:所呈交的学位论文,

9、是本人在导师的指导下, 独立进行研究所取得的成果 “ 除文中已经注明引用的内容外,本 论文不包含任何其他个人或集体已经发表或撰写过的科研成果 . 对本文的研究曾做出重要声献的个人和集体,均已在文中以明确 方式标明 “ 本人完全意识到本声明的法律责任由本人承担。 关于学位论文使用授权的声明 本人完全了解贵州大学有关保留、使用学位论文的规定,同意学 校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅;本人授权贵州大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段 保存论文和汇编本学位论文 “ (保密论文在解密后应遵守此规定 )

10、58 贵州大学硕士学位论文 第一章绪论 1.1论文研究背景 在计算机应用不断普及、全球信息化和网络速度不断提髙的情况下,加上国 内髙校教育体制的大规模改革,校与校之间合并,学 校规模不断扩大;专业设置 日趋多样化 ;招生人数逐年增加 :使得原有教务管理系统中存在的问题日益突出。 如何充分利用这些资源,使传统的教育方式更好地适应网络时代的发展,是教育 领域面临的重大机遇和挑战 4 目前有很多髙校教务管理系统采用 C/S和 B/S相结合的开发模式,充分利用 两者的优点来支持多层分布式结构,取得了较好的效果。比如清华大学的教务管 理系统、复旦光华科技公司的大学网上教务管理系统以及上海交大的教务管理系

11、 统等都是目前国内较为先进的高校教务管理系统。但此类系统对于异构环境的支 持并不是很好;同时在可复 用性、可扩展性、可装配性以及二次开发上也有待改 进。贵阳学院现在用的教务管理系统也是基于 C/S和 B/S模式相结合、应用微软 的 ASP.NET平台开发的系统,同样也存在这些问题。因此,结合高校的具体情 况开发 一 套需求明确的教务管理系统已成为迫切的需要。 同时,教学管理的发展也使教育研究的相关人员认识到,仅仅是系统的简单 实现和基本应用是远远不够的。由于教务管理系统将产生海量数据,并以不同的 形式存储于不同的计算机上,从而使隐藏在其中的大量有用信息,如学生选课信 息、学生成绩信息等无法得到

12、有效的综合利用。上述问 题直接导致教学管理部门 无法进行科学有效的安排、学生难于得到一些指导性的建议、任课教师难于进行 有效的教学改进等。而如何将这些数据信息转化为知识表示,为学校决策者提供 决策依据,科学安排教学,为学生提供选课、教学的理性指导,从而提高教学和 管理水平,是系统实现功能的深层次目标。 1.2国内外的研究现状 1.2.1髙校教务管理系统的研究现状 在国内的高校的信息建设过程中高校教务管理系统的发展经历了以下几个 阶段: 1、 基于单机的教学管理系统:此系统的特点是管理内容比较单一和功能比 较简单。这类系统的缺点是数据难以进行共享,软件的维护和升级繁琐等等。 2、 基于 C/S(

13、 Client/Server)模式的校园管理系统: C/S模式主要由客户应用 程序和服务器管理程序 (两层结构 )或者由客户应用程序、服务器管理程序和中间 1 贵州大学硕士学位论文 件三个部分 (三层结构 )组成。主要缺点是业务逻辑全部和部分集中在客户端,在 维护和升级上需耗费较多的精力,并且往往只适用于局域网,无法满足广域的多 层分布式体系。 3、基于 B/S ( Browse/Server)模式的多层分布式校园管理系统: B/S模式是 一 种以 Web技术为基础的新型的 MIS系统平台模式,它把传统 C/S模式中的服务 器部分分解为一个数据服务器与一个或多个应用服务器 (Web服务器 ),

14、 从 而构成一个三层结构的客户服务器体系。该模式支持广域的多层分布式体系,可 以很好的满足多校区的发展趋势。 目前现存的大多数高校教务管理系统采用 C/S和 B/S相结合的开发模式。但 是这种模式对于异构环境下的支持并不是很好,同时在可复用性、可扩展性、可 装配性、可适用性以及二次开发上也有待改进。 现在,国内外许多开发人员都开始使用 J2EE的架构来开发系统。在高校的 应用中,相对来说国外发展较早,研究较为成熟,早在 2000年,美国已有 60% 的高校开展了以互联网为主要手段的教务管理模式,且多数以 J2EE为平台,成 熟的中间件技术使提供的服务更稳定 “ 本世纪初,国内在这方面的研究也逐

15、步展 开。目前开发热点也主要是集中于简单基础的网上教学管理系统和教学支持系统 的开发。如学生注册、教学传递等,缺少一套层次更髙体系更完整的教育综合管 理平台。大型教务系统应用中的关键技术和内容主要集中在:数据访问、数据格 式转 换、逻辑控制、数据传输、数据表示等方面,而这些都是 Java的优势所在 , 因而在实际应用实施中,Java/J2EE己俨然成为此类复杂系统应用解决方案之首 选。 其次,对于一套完善的系统,需要一组成熟的设计标准。过去,大量应用程 序以不恰当的方式使用 J2EE技术,因而应用性能不好。作为信息系统的程序员, 如果太执著于这样纯技术的微观层面,可能浪费太多宝贵时间和精力。因

16、此需要 更加关注 J2EE的模式设计应用。 J2EE是 Java世界中一个独特的框架或标准, 我们首先需要掌握基于Java的设计应用。这些设计应用技巧, 是先行者经过长 期实践总结出来的心得,只有大量使用设计模式,才能体现出分离和解耦的最高 宗旨,才能使得自己的 J2EE系统脉络清晰、层次分明,这样的系统才真正具有 良好的可伸缩性、稳固的健壮性以及方便的可维护性。 1.22数据挖掘研究现状 随着信息化的飞速发展,信息量的超指数上升使传统数据库的检索查询机制 和统计学分析方法己远远不能满足现实的需要。许多数据来不及分析就过时了, 也有很多数据因其海量数据而难以分析数据间的关系。在这样的背景下,数

17、据仓 库和数据挖掘技术便应运而生。 数据仓库的产生和发展为数据挖掘技术提出了新的要求和挑战。数据挖掘的 2 贵州大学硕士学位论文 的目的是使人们能认识数据的真正价值,即蕴藏在数据中的信息和知识。数据分 析己经和数据仓库的研究结合起来。为高级的决策支持服务是数据仓库的最终目 的。因此数据仓库理论及数据挖掘技术的研究,自然成为信息科学学术界的热点 问题。 近十年来,数据挖掘研究不仅在理论上取得了许多成果,而且也出现了很多 成功的应用实例,如已经出现了许多优秀的數据挖掘工具。国外对数据挖掘技术 的研究较为深入,推出许多优秀的数据挖掘工具。数据挖掘工具通常分为两类: 一类是基于统计分析的,如 SAS,

18、 SPSS等;另一类是应用新技术如模糊逻辑、人 工神经网络、决策树理论的,如 CBR Express, Esteem Kate CBR, Fuzzy TECH for Business, Aria、 Neural network Browser等。但这些工具并不是都能应用于所有的 数据挖掘应用领域 ,而是各有侧重。由于数据挖掘技术可以为企业构筑竞争优势 , 并带来巨大的经济效益,因此,数据挖掘的应用具有巨大 的前景。已经有一些国 际知名公司纷纷加入数据挖掘技术研究的行列,如美国的 IBM公司于1996年研 制了智能挖掘机,用来提供数据挖掘解决方案; SPSS公司开发了基于决策树的 数据挖掘软件

19、一 SPSS CHABD挖掘系统 ;此外 SAS公司的 Enterprise Miner,SGI 公司的 SetMiner, Sybase 公司的 Warehouse Studio ; RuleQuest Researcli 公司的 Sees等也是比较成熟的产品。 近年来随着高校的不断扩招,学生人数大幅度增加,给高校学生管理、教 学工作带来了严峻考验,传统的教学管理手段己逐渐不能适应社会的发展。随 着数据挖掘技术的成熟及应用领域的不断扩展,不少髙校研究人员已开始研究 将数据挖掘技术应用于高校的教学、管理中,例如,将数据挖掘技术应用于课 堂教学评价中,通过找出课堂效果与教师职称、年龄等因素之间的

20、内在联系, 以有效地指导教学工作 ;通过对毕业生数据库进行数据挖掘研究,得到了有益于 髙等学校教学管理决策及毕业生就业指导的挖掘结果 ;在制定人事激励制度时, 为了针对不同类别的教师建立有针对性的制度,可以应用分类和关联规则方法挖 掘隐含的规则,从而为 高校管理决策提供科学依据等等 “ 总之,将数据挖掘技术 应用于学校的教学、管理中,对提高学校教学管理水平起到了很好的指导作用, 而且采用先进技术对考试过程和教学环节中产生的数据进行多层次、多角度的分 析,利用分析结果辅助教学决策是保证教学质量、提高学生素质的必然要求。本 文正是从这个目的出发 ,对教务管理系统产生的海量数据一学生成绩数据进行数

21、据挖掘的研究设计。 1.3本文主要研究工作及意义 1丄 1主要研究工作 3 贵州大学硕士学位论文 1、 系统介绍了 J2EE的体系结构和 MVC(Model-View-amtroller)设计模式概 念。然后以 MVC设计模式为基础,运用 J2EE相关技术和 Struts框架构建高校 教务管理系统。对其中的选课子系统做了较全面的需求分析和总结,进行了总体 设计和详细设计,包括数据库设计,系统的功能及结构设计,最后完成编码。 2、 详细叙述了数据挖掘的相关理论知识及其本文用到的数据挖掘方法。 3、 数据挖掘技术的运用。论文探讨了采用数据挖掘中的 Apriori关联方法对 学生成绩数据库进行数据挖

22、掘,从中发现隐含的规律和模式,找到课程之间的相 关信息,以起到合理安排课程和科学指导学生选课的作用。 U.2论文研究意义 当前数据挖掘主要面向商业应用方面,对于高校教务系统来说缺乏系统的研 究。如何在高校教务系统中实施数据挖掘应用是本课题所要探讨的一个方向。 髙校教务系统的利用不足,对数据资源缺乏有效的组织、整理和提取。通过 数据挖掘充分利用系统数据,提升信息系统内在价值是本课题所要做的另一个研 究工作 但是,目前由于髙校信息系统存在着数据不一致、不规范以及部门系统各自 为政等问题,数据挖掘很难在一个高层次上对整个大系统的数据进行处理。本文 根据当前 教务管理的具体情况,分析了数据挖掘技术中的

23、各种方法,对数据挖掘 理论进行研究与实际应用,对其推广到大系统的可行性进行探索,还是有一定的 理论与应用价值的 # 4 贵州大学硕士学位论文 第二章相关技术理论知识 2.1J2EE 架构 2.UJ2EE 简介 J2EE(Java2 Enterprise Edition)是 一 种 Java2平台以简化企业解决方案的开 发、部署和管理相关的复杂问题的体系结构。企业应用体系结构经历了巨大的发 展。它充分利用了 Java的平台独立性、可重用性、模块化等特点,实现基于组 件的多层分布式应用 . Sun推出 J2EE的目的是为了克服传统 C/S模式的弊病,迎合 B/S架构的潮 流,为应用 Java技术开

24、发服务器端应用提供 一 个平台独立的、可移植的、多用 户的、安全的和基于标准的企业级平台,从而简化企业应用的开发、管理和部署。 J2EE是一个标准,而不是一个现成的产品 *各个平台开发商按照 J2EE规范分别 开发了不同的 J2EE应用服务器, J2EE应用服务器是 J2EE企业级应用的部署平 台。由于它们都遵循了 J2EE规范,因此,使用 J2EE技术开发的企业级应用可 以部署在各种J2EE应用服务器上 J2EE应用程序可以是基于 Web方式的,也可以是基于传统方式的。 J2EE的 Web层组件可以是 JSP页面或 Servlet。 按照 J2EE规范,静态的 HTML页面和 applet不

25、算是 Web层组件, Web可能包含某些 JavaBean对象来处理用户输入, 并把输入发送给运行在业务层上的 EJB来进行处理。 业务逻辑层组件主要实现应用系统的业务逻辑,满足商务领域的需要,由运 行在业务层上的 EJB进行处理。 EJB从客户端程序接收数据,进行处理,并发送 到 EIS层储存,这个过程也可以逆向进行。 J2EE中有三种企业级 Bean:会话 (Session)Bean,实体 (Entity)Bean 和消息驱动 (Message-Driven)Bean 会话 Bean 表示与客户端程序的临时交互。当客户端程序执行完后,会话 Bean和相关数据 就会消失。相反,实体 Bean

26、表示数据库的表中一行永久的记录。当客户端程序 中止或服务器关闭时,就会有潜在的服务保证实体 Bean的数据得以保存。消息 驱动 Bean根据 JMS(Java Message Service)的消息监听器的特性,允许 个业务层 组件异步接受 JMS消息。 贵州大学硕士学位论文 2.1.2 J2EE的体系结构 基于组件、具有与平台无关性的 J2EE结构使得 J2EE程序编写十分简单, 因为业务逻辑被封装成为可复用的组件,并且 J2EE服务器以容器的形式为所有 的组件类型提供后台服务,可以集中精力解决手头的业务问题。 J2EE平台由一 整套服务、应用程序接口和协议构成,它对开发基于 Web的多层、

27、分布式应用 提供了以下功能支持。 1.容器雌技术 參 EJB容器:管理所有 J2EE应用程序中 EJB的执行。 EJB和创建的容器运 行在 J2HE服务器上。 * Web容器:管理所有 J2EE应用程序中 JSP页面和 Servlet组件的执行, Web组件和它们的容器运行在 J2EE服务器上。 *应用程序客户端容器:管理所有 J2EE应用程序中应用程序客户端组件的 执行 “应用程序客户端和它们的容器运行在客户端机器上。 * Applet容器:是运行在客户端机器上的 Web浏览器和 Java插件的结合。 .容器设置定制了 J2EE服务器所提供的内在支持,包括安全、事务管理、 NDI(Java

28、Naming and Directory Interface)寻址、远程连接等服务,以下列出最重 要的几种服务: 籲 J2EE安全 (Security)模型可以让你配置 Web组件或 EJB, 这样只有被授权 的用户才能访问系统资源。每一客户属于一个特别的角色,而每个角色只允许激 活特定的方法。你应在 EJB的布置描述中声明角色和可被激活的方法。 _ J2EE事务管理 (Transaction Management)模型让你指定组成一个事务中所 有方法间的关系 ,、这样一个事务中的所有方法被当成一个单 一 的单元 “ 当客户 端激活一个 EJB中 的方法,容器介入一管理事务。由于有容器管理事务

29、,因此 在 EJB中不必对事务的边界进行编码。 EJB的事务属性需要在部署描述文件中声 明。 * JNDI寻址服务向企业内的多重名字和目录服务提供了一个统 一 的接口, 这样应用程序组件可以访问名字和目录服务。 “ 数据库连接池 (Database Connection Pooling)模型是一个有价值的资源。获 取数据库连接是一项耗时的工作,而且连接数非常有限。容器通过管理连接池来 缓和这些问题。 EJB可从池中迅速获取连接。在 EJB释放连接之后可为其他 EJB 使用。 2. JSP 和 Servlet JSP(Java Servlet Pages)页面由 HTML代码和嵌入其中的 jav

30、a代码组成。服 务器在页面被客户端所请求以后,对这些 Java代码进行处理,然后将生成的 6 贵州大学硕士学位论文 HTML页面返回给客户端的浏览器。 Servlet是一种小型的 Java程序,它扩展了 WEB服务器的功能,作为一种服 务器端的应用,当被请求时开始执行。 Servlet提供的功能大多与 JSP类似,不过 实现的方式不同。 JSP通常是大多数 HTML代码中嵌入少量的 Java代码,而 Servlet全部由 JAVA写成并且生成 HTML。 _ 3. EJB技术 EJB(Enterprise JavaBean)是 J2EE技术赢得广泛重视的原因之一。它们提供 了一个框架来开发和实

31、施分布式商务逻辑,显著地简化了具有可伸缩性和高度复 杂的企业级应用的开发。 EJB规范定义了 EJB组件在何时如何与它们的容器进行 交互作用 “ 容器负责提供公用的服务,例如目录服务、事务管理、安全性、资源 缓冲池以及容错性。 2.2MVC概述 MVC是 Model-View-Controller的简称,即模型一视图一控制器。 MVC是 Xerox在 80年代为 Smalltalk语言提出的一种设计模式,其核心为三个模块:模 型、视图和控制器。该设计模式如今已被广泛使用。 2.2.1 MVC 模式 在最初的 B/S应用开发过程中,一般处理业务逻辑代码都嵌入在 HTML页 面中。这样做使得表示层

32、与业务逻辑混合在一起,页面难以修改和维护。 MVC设计模式把输入、输出和处理分成独立的处理模块,并在系统运行时 将其结合,这样使得程序内部的藕合度非常低 9其中,视图负责与用户交互,接 收用户输入,并将结果返回给用户。视图一般由 JSP页面组成。模型用来处理软 件要涉及的业务范围,它主要是业务数据模型和业务逻辑模型,并通常负责与后 台数据库交互,模型一般由 JavaBean, EJB等组成 控制器是整个 MVC模型的 核心,它起到总体协调和控制作用,如调用某个模型组件完成某些业务功能并最 终向用户返回某个视图组件。 MVC设计模式如图 2-1所示 7 贵州大学硕士学位论文 2J.2 Strut

33、s 框架 Jakarta-Struts是 Apache软件组织的一项开放源代码项目,它为 Web应用提 供了模型一视图一控制器框架,特别适合于开发可扩展和可维护的 Web应用。 Struts由一组相互协作的类 (组件 )、 Servlet以及 JSP标签库组成。 在 Struts框架中,控制器角色主要由 ActionServlet类和 Action类来实现。其 中 ActionServlet类是整个 Struts框架的流程控制核心,它接收来自视图组件的请 求,并调用相应的 Action组件,然后它会把合适的视图组件返回给客户端。当 Web容器接收到客户请求时就会把请求交给 ActionServ

34、let类,该类根据 struts-config.xml文件中的配置内容调用合适的 Action来处理请求,并传递请求 过程的数据,这些数据是通过 ActionForm来传递的。 Action本身并不包含业务 逻辑的处理代码,它只是负责调用业务的处理代码。 视图角色由一组 JSP文件组成,负责向用户显示最终界面。 Struts框架建议 视图组件只包含 Struts标签库的标签或者是 JSP客户化标签。这些 JSP文件中不 能包含业务逻辑,也不能包含模型的信息。在 Struts中 ActionForm也被看成是 视图的一 部分。 模型表示应用程序的状态和业务逻辑。在 Struts框架中模型一般由

35、JavaBeans 或EJB组件来实现。 Struts的工作原理如图 2-2如示。 8 贵州大学硕士学位论文 图 2-2 Struts的工作原理 2. 3数据挖掘技术 简单地说,数据挖掘是从大量的数据中提取或 挖掘 知识。数据挖掘应该 更正确地命名为 从数据中挖掘知识挖掘是一个很生动的术语,它抓住了从 大量的未加工的材料中发现少量金块这一过程的特点。 数据挖掘就是应用一系列技术从大型数据库或数据仓库中提取人们感兴趣 的信息和知识,这些知识或信息是隐含的,事先未知而潜在有用的,提取的知识 表示为概念、规则、规律、模式等形式。也可以说,数据挖掘是一类深层次的数 据分析。 数据挖掘 (DataMin

36、ing),也叫数据开采、数据采掘,就是按照既定的业务目 标从海量数据中提取可以解释为知识的规则 (或模式 ), 包括关联规则、特征规则、 区分规则、分类规则 、总结规则、偏差规则、聚类规则等。大多数据挖掘方法都 基于机器学习、模式识别、神经网络和统计学的试探 (tried)和测试 (tested)。 些技 术对应的方法对于无论新手还是有经验的数据分析家都常常带有很大的迷惑性。 可以认为,数据挖掘方法主要有三部分组成:模型表示、模型评价和搜索。 模型表示是一种用于描述能够被发现的模式的语言。如果这种表示太受限制,再 多的时间和例子也不能够为数据产生一个精确的模型。对一个数据分析家来说, 充分掌握

37、可能隐含在特定方法中的有代表性的假设是很重要的。同样,对一个算 法设计者来说 ,能够清楚地表达一个特定算法能做出什么样的有代表性的假设也 非常重要。注意,随着模型表示能力的增强,模型对于训练数据的过适应性 (over fitting)的危险性也与之增加,从而导致它对未知数据的预测准确性降低。 模型评价标准是对一个特定模式 (模型及其参数 )满足 KDD过程目标的程度 的定量描述 (或适应性函数 )。例如,我们常常用模型对于测试数据的预测正确性 9 贵州大学硕士学位论文 来判断其性能。描述模型可以通过其预测准确度、新颖性、可用性和可理解性的 度量尺度来评估。 搜索方法由两部分组成 :参数搜索和模

38、型搜索。模型表示和模型评价标准 一 旦确定,数据挖掘问题就简化为纯粹的优化任务:从己选择的模型家族中寻找能 够优化评价标准的参数和模型。参数搜索时,算法必须在给定观察数据和固定的 模型表示的情况下,搜索能够优化模型评价标准的参数。模型搜索以循环的形式 发生在参数搜索方法之上,改变模型表示以便考虑整个模型家族。 2丄 1数据挖掘技术产生 、 从数据中发现模式 (pattern)的提法很多,如 :知识发现 (KDD, Knowledge Discovery in Databases)、 知识提取、信息收割、数据挖掘、数据釆集等, 1989 年在美国底特律召开的第 11届国际人工智能联合会议的专题讨

39、论会上首次出现 了 KDD这个术语。随后,在 1991年、 1993年和 1994年都举办了 KDD专题讨 论会,汇集了来自各个领域的研究人员和应用开发集中讨论了数据统计、海量数 据分析算法、知识表现、知识运用等问随着参加会议人数的不断增多,从 1995 年开始,每年都要举办一次 KDD国际会议。另外,从 1997年开始, KDD拥有 了自己的专门杂志 Knowledge Discovery and Data Mining。 KDD方法应用于信息、决策支持和査询过程。各种不同的方法应用于发现 不同的知识,从而需要选择不同的技术。数据挖掘是近年来随着数据库和人工智 能技术的发展而出现的一个全新的

40、信息技术,同时也是计算机科学与技术迫切需 要解决的重要课题。 2.3.2数据挖掘的定义 数据挖掘的 一 *种比较公认的定义是 W. J. Frawley、 Piatetsky-Sliaprio等人提出 的:数据挖掘,就是从数据中获取正确、新颖、有潜在应用价值和最终可理解模 式的非平凡的过程。下面对一些概念作详细的解释: 数据:是一组事实 F的集合 (如关系数据库中的记录 ), 它是描述事物有关方 面的信息,一般来说这些数据都是准确无误的。 .模式:是一个用语言 L来表示的一个表达式 E,它可以用来描述数据集 F的 某个集FE。 只有当表达式 E比列举的所有 FE中元素的描述方法更为简单时, 才

41、可以称之为模式。 过程:数据挖掘是一个多阶段的处理过程,它涉及数据预处理、模式提取、 知识评价及过程优化,该过程具有迭代的性质 ;而 非平凡的 是指其要有一定 程度的智能性和自动性。 有效性:是指发现的模式对于新的数据仍保持有一定的可信度,否则数据挖 掘就毫无疑义。 贵州大学硕士学位论文 新颖性:经过数据挖掘提取出的模式必须是新的。 潜在有用性:是指发现的知识将来有实际效用,如用于决策支持系统里可以 提高经济效益。 可理解性:数据挖掘的一个目标就是将数据中隐含的模式被用户理解,目前 它主要表现在简洁性上。 其中,有效性、新颖性、潜在有用性和可迤解性综合在一起可称之为兴趣性。 基于广义的数据挖掘

42、观点,典型的数据挖掘系统具有以下主要成分,如图 2-3所示。 图 2-3典型的数据挖掘系统 (1) 数据库、数据仓库或其它信息库:这是一个或一组数据库、数据仓库、 电子表格或其它类型的信息库,可以对其进行数据清理和集成。 (2) 数据库或数据仓库服务器:根据用户的数据挖掘请求,服务器负责提取 相关数据。 (3) 知识库:领域知识用于指导搜索,或评估结果模式的兴趣度。 (4) 数据挖掘引擎 .“ 它是数据挖掘系统的基本部分,由一组功能模块组成, 用于特征化、关联、分类、聚类分析以及演变和偏差分析。 (5) 模式评估模块:通常它使用兴趣度度量,并与数据挖掘模块交互,以便 将搜索聚焦在有趣的模式上。

43、 (6) 图形用户界面:该模块在用户和数据挖掘系统之间通信,允许用户与系 统交互,指定数据挖掘査询或任务,提供提示信息,帮助搜索聚焦。此外,它允 贵州大学硕士学位论文 许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式 对模式进行可视化 . 2.3.3数据挖掘的功能 数据挖掘的任务主要有关联分析、聚类分析、分类、预测、时序模式和偏差 分析等。 关联分析 (Association Analysis) 两个或两个以上数据项的取值之间存在某种规律性,就称为关联,可以建立 起这些数据项的关联规则。数据关联是数据库中存在的一类重要的、可被发现的 知识,它反映一个事件和其他事件之间依赖

44、或关联。如果两项或多项属性之间存 在关联,那么其中一项的属性值就可以依据其他属性值 进行预测。 例如,买面包的顾客中 90%还会买牛奶,这就是一条关联规则。在商场中将 这两样物品摆放在一起销售,将会提高销售量 #在大型数据库中,这样的关联规 则可以产生很多,这就需要进行筛一般用 支持度 和 可信度 两个阈值来淘 汰那些无用的关联规则 (2)聚类分析 (Clustering) 聚类是把数据按照它们的相似性归纳成若干类别,同一类别中的数据距离较 小、彼此相似,不同类别中的数据距离偏大、彼此相异 “ 聚类分析可以建立宏观 的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。 聚类方法包括统

45、计分 析方法、机器学习方法和神经网络方法等。 在统计分析方法中,聚类分析是基于距离的聚类。这种聚类分析方法是一种 基于全局比较的聚类,它需要考察所有的个体才能决定类的划分。 在机器学习方法中,聚类是无导师的学习。此时距离是根据概念的描述来确 定的,又称为概念聚类,当聚类对象动态增加时,概念聚类则称为概念形成。 在神经网络中,自组织神经网络方法用于聚类。如 ART模型、 Kohonen模 型等,这是一种无监督学习方法。当给定距离阀值后,各样本按阀值进行聚类。 分类 (Classification) 分类是数据挖掘中应用得最多的任务。分类就是找出一个类别的概念描述, 并用这种描述来构造模型 (一般

46、用规则或决策树模式表示类别的概念描述代表 着这类数据的整体信息,也就是该类的内涵描述。 类的内涵描述分为:特征描述和辨别性描述。特征描述是对类中对象的共同 特征的描述。辨别性描述是对两个或多个类之间的区别的描述。 分类的过程是:分析输入数据,通过在训练集中的数据所表现出来的特性, 经过有关算法,为每一个类找到一种准确的描述或者模型,并使用这种类的描述 对未来的测试数据进行分类。 预测 (Predication) 12 贵州大学硕士学位论文 预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种 类及特征进行预测。 典型的预测方法是回归分析,即利用大量的历史数据,以时间为变量建立线

47、性或非线性回归方程。预测时,只要输入任意的时间值,通过回归方程就可求出 该时间的状态。 近年来,发展起来的神经网络方法 (如 BP模型 ), 实现了非线性样本的学习, 能进行非线性函数的判别。 分类也能进行预测,但分类一般用于离散数值 ;回归预测用于连续数值;神 经网络方法预测既可以用于连续数值,也可以用于离散数值。 (5)时序模式 (Time-Series Pattern) 时序模式是指通过时间序列搜索出的重复发生概率较髙的模式 “ 与回归一 样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不 同。 在时序模式中,需要找出在某个最小时间内出现比率一直髙于某一最小百分 比(

48、最小支持度阈值 )的规则。这些规则会随着形势的变化作适当的调整。 时序模式中,一个有重要影响的方法是 相似时序 #用 相似时序 的方 法,要按时间顺序査看时间事件数据库,从中找出另一个 或多个相似的时序事件 , (6)偏差分析 (Deviation) 数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非 常重要的 #偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、 观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是, 寻找观测结果与参照值之间有意义的差别。 2.3.4数据挖掘的对象 数据挖掘的对象主要是关系数据库。随着数据挖掘技术的发展,逐步进入到 空间数据库、时态数据库、文本数据库、多媒体数据库、环球网等。文字、音频、 图像、视频等多媒体数据已逐渐成为信息领域的重要表现形式。音频、视频的数

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 毕业论文

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁