《数据挖掘技术及其在决策支持系统中的应用.pdf》由会员分享,可在线阅读,更多相关《数据挖掘技术及其在决策支持系统中的应用.pdf(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、收稿日期:2004-06-28作者简介:王向辉(1973),男,河北保定人,工程师,研究方向:计算机应用。文章编号:1003-6199(2004)04-0099-04数据挖掘技术及其在决策支持系统中的应用王向辉1,匡晓宁2,刘伟达3,亢建波3(1.保定市供电公司;河北 保定 071000;2.国土资源和房屋管理局,北京 102600;3.华北电力大学计算机科学与工程系,河北 保定 071003;摘 要:介绍了数据挖掘和决策支持系统的概念以及分析方法,讨论了基于数据挖掘的决策支持系统,构建了一个应用于实际的基于数据挖掘的税收决策支持系统构架。关键词:数据挖掘;决策支持系统中图分类号:TP311.
2、13 文献标识码:AThe Technology of Data Ming and its Applicationon Decision Supporting SystemWANG Xiang2hui1,KUANG Xiao2yu2,LIU Wei2da3,KANGJian2bo3(1.Baoding Electric Power Service Company,Baoding071000,China;2.Land resource and house anagement bureauofdaxing district,Beijing102600,China;3.Dept.of Electro
3、nic and Communication Engineering,North China Electric Power University,Baoding071003,China)Abstract:This paper introduces the conception and analytical method of Data Ming and Decision Supporting System,discusses Decision Sup2porting System based on Data Ming,and constructs a framework of tax decis
4、ion supporting system based on data mining which can be applicated onreality.Key words:data mining;decision supporting system1 前言自从Scott Morton等人在70年代初提出计算机对于决策的支持作用和决策支持系统的概念后;二十年来,随着决策理论、汁算机技术、人工智能、信息技术的发展,决策支持系统无论在概念、结构方面还是在应用方面都取得了较快的发展。但随着信息量的剧增,如何从看似无关而实则相关的海量数据中发掘出有用的知识和模式以进行决策支持,是信息时代人们所面临的主
5、要挑战,数据挖掘技术的应运而生,它在许多领域得到了广泛应用1,本文主要介绍了数据挖掘技术的发展及其在决策支持系统中的应用。2 数据挖掘2.1 数据挖掘简介数据挖掘,也叫数据开采、数据采掘。W.J.Frawley等给出的定义是:从大型数据库的数据中,提取人们感兴趣的知识,即正确的、非平凡的、未知的、有潜在应用价值的并最终可为用户理解的模式。数据挖掘涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等各个领域。2.2 数据挖掘的任务根据发现知识的不同,数据挖掘的任务可以分为以下几类:1)关联规则分析:其目的是发现隐藏在数据间的相互关系。这是数据挖掘中研究比较成
6、熟的问题。2)特征规则分析:从数据中提取出关于这些数据的特征式,用以表达该数据集的总体特征。区分规则分析发现或提取数据的某些特征,使之与对比数据区分开来。3)分类分析:先为每个记录赋予一个标记,即按标记分类记录,然后检测这些标记的记录,描述出这些记录的特征。4)聚类分析:从数据中得出一组聚类规则,将数据分成若干类。5)预测:通过对数据的分析处理,估计一组数据中的某些丢失的数据的可能值或数据集合中某种属性值的分布情况。6)变化和偏差分析:探测现有数据与历史记录或标准之间的显著变化和偏离,第23卷第4期2 0 0 4年1 2月计 算 技 术 与 自 动 化Computing Technology
7、and AutomationVol123,No14Dec.2 0 0 4从而获得有用的知识。2.3 数据挖掘的方法数据挖掘的核心技术是人工智能、机器学习、数学统计等,但它并非多种技术的简单组合,而是一个不可分割的整体,还需要其他技术的支持,才能挖掘出令用户满意的结果。具体来说,有以下几种主要的数据挖掘方法:1)规则推导:即从数据仓库中搜索不知道的规则和规律。2)人工神经网络:将每一个连接看作一个处理单元(PE)模拟人脑神经元的功能。3)决策树:是一个类似于流程图的树结构,其中每个内部节点表示在某个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。4)遗传算法:借用了生物遗传
8、学的观点,通过自然选择、遗传、变异等作用机制,实现个体的适应性的提高。5)粗集方法:是利用粗集理论对数据进行客观而有效的处理,从而更迅速的获得知识。3 决策支持系统3.1 基本概念决策支持系统是以现代信息技术为手段,综合运用计算机技术、管理科学、经济数学、人工智能技术等多种学科知识,针对某 类型的半结构化和非结构化决策问题,通过提供背景材料协助明确问题、修改完善模型、列举可能方案等方式,为管理者做出正确决策提供帮助的人机交互式系统。其从功能逻辑结构上看,是由数据库系统、模型库系统、方法库系统、知识库系统及入机会话系统等部分组成的。3.2DSS的分析方法DSS应满足决策支持系统的要求和达到DSS
9、的性能指标,由于DSS的特殊性,对DSS的系统分析通常采用一种称之ROMC的方法。ROMC是一种基于决策过程基本活动的方法,是决策者进行表达(R)、操作(O)、存储辅助(M)和控制(C)的方法,其基本思路是建立起DSS的要求与性能之间的关系,并力求减少它们之间的差异。ROMC分析方法正是建立在用户目标的基础之上的,它主要从以下几点进行分析:1)表达(Representation):提供表达式以帮助决策者将问题概念化,以便于处理和交流;2)操作(Operation):提供这些表达式进行分析和运算的某些操作方法;3)存储辅助(Memory aid):表达与加工的存储支持;4)控制机制(Contro
10、l mechanism):提供处理和使用整个系统的控制机制。图1ROMC方法步骤 图1中,首先识别决策支持过程的基本活动,其次分析每一基本活动的组成部分:R(操作)、O(操作)、M(存储)和C(控制),然后集成这些部分建立一个专用DSS。在交付使用时,设计者将继续沿着这四个方面的追踪系统和用户,不断地扩展和修改基本部件,直到用户最终满意为止。4 基于数据挖掘的决策支持系统的建立基于以上讨论,一种基于数据挖掘的决策支持系统基本结构框架如图2所示。它由数据库、数据仓库、数据仓库管理模块、数据挖掘工具、知识库、知识发现模块、人机交互模块组成。系统的主要输入是源于数据库的数据以及存储在知识库中的知识和
11、经验。人机交互模块通过自然语言处理和语义查询在用户和系统之间提供相互联系的集成界面。数据仓库管理模块完成数据仓库的创建以及数据仓库中数据的综合、提取等各种操作,负责管理整个系统的运转。数据挖掘工具用于完成实际决策问题所需的各种查询检索工具、多维数据的OLAP分析工具和数据开采DM工具等,以实现决策支持系统的各种要求。知识发现模块控制井管理知识发现过程。它将数据的输入和知识库中的信息用于驱动数据选择过程、知识发现引擎过程和发现的评价过程。在图2中箭头方向为控制流。决策支持同数据仓库管理是密切联系的。用户发出决策请求命令后,通过数据挖掘工具触发数据仓库管理模块从数据仓库中获取与任务相关的数据。00
12、1计算技术与自动化2004年12月图2 决策支持系统的基本结构框架 建立该决策支持系统的过程可描述如下:(1)分析决策需求,描述和表示决策的问题。(2)确定数据来源,建立数据仓库。(3)针对所要发现任务的所属类别,如归类、回归分析、聚类、发现关联规则等,设计或选择有效的数据挖掘算法井加以实现。(4)数据挖掘,逐层综合。调用数据挖掘功能,从平凡的历史数据中提出综合数据,独立存储为库文件,作为更高一层数据挖掘的对象。(5)测试与评价所发现的知识,对知识进行一致性、效用性处理。(6)应用开发。根据最终用户的要求,建立适用于决策支持的数据仓库的集成界面和应用程序,使用户能在决策支持中运用所发现的知识。
13、以上过程不是简单的线性流程,而是一个学习、发现和修改的过程,步骤之间包含了循环和反复,这样可以对所发现的知识不断求精、深化,井使其易于理解。5 基于数据挖掘的税收决策支持系统构架5.1 系统目标税收决策支持系统作为一个为税务部门提供各种相关数据和数据分析工具的软件系统,我们设计系统要实现的目标是:对各种业务数据(如征管数据、专用税票和专用发票等效据)按税收业务的主题进行抽取、转换、加载等处理后,建立规范统一、高度共享的综合性主题数据中心,并在此基础上,采用数据仓库、OLAP、数据挖掘、多元统计分析等先进技术,建设一个能够对事物(如税收收入)的规模、构成、分布、发展速度、平均水平、平衡程度等特征
14、以及增长变化规律和发展趋势、事物之间(如GDP与税收收入)的相关关系、强度及均衡性等问题进行分析的平台。5.2 系统结构设计根据系统的设计目标,将税收决策支持系统按照功能分为六个层面:基础数据层、数据提取层、数据仓库层、信息提取层、信息展现层,系统管理层。1)基础数据层:基础数据层涵盖了各级税务部门积累的大量基础数据以及税务部门收集的以Excel、Html等形式存在的其他外部数据。2)数据提取层:数据提取层是对来源于数据库的基础数据进行初步加工、将基础数据从面向应用转变为面向主题的一个高效数据加工工厂。对于一般的以HTML文件形式存在的数据,我们通常采用下面的办法提取其中的数据:标识数据源并把
15、它映射成XHTML查找数据内的引用点 将数据映射成XML 合并结果并处理数据。3)数据仓库层:数据经过提取层加工、净化后,需要存放在数据仓库中,形成只读数据库,以直接面向数据分析、数据挖掘。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。4)信息提取层(OLAP分析、数据挖掘):信息提取层是在数据提取层的基础上,运用数据分析工具,从数据中提取对决策有用的信息。OLAP和数据挖掘是信息提取的有力工具。在应用OLAP时,由于要对数据进行Slice、Dice、Roll-up、Drill-
16、down等操作,因此选用立方体数据模式以直观描述多维数据的结构。比如,在本系统中,可以先建立纳税人信用度评估模型来加强税务稽查,建立税收弹性分析和税收收入预测模型来规划税收任务,然后再运用比AP对模型的拟合度进行验证。5)信息展示层:信息展示层负责为用户展示分析后的结果,并可对展示的数据进行再次的分析利用,形成最后的分析报表和报表。用户可以通过浏览器(B/S架构)完成:对多维数据结构(CUBE)的动态分析(如钻取、切片、旋转101第23卷第4期王向辉等:数据挖掘技术及其在决策支持系统中的应用等)、查询各种定制的即席报表、使用模型进行分析预测等功能。对于多维分析层和数据挖掘、统计分析层产生的信息
17、,用户也可以使用专用的客户端软件(C/S架构)浏览。6)系统管理层:提供对整个系统的用户、权限等安全管理,完成多维分析模型的发布、数据挖掘统计模型的发布、即席报表定制发布等功能。6 结束语数据挖掘技术为决策支持系统的研制与开发提供了一种有效、可行的体系化解决方案、一个完整的决策支持系统应集成数据仓库、数据挖掘技术,随着数据仓库和数据挖掘技术在各个领域的广泛采用,决策支持系统的研究与开发工作将被推向一个更高的层次,从而成为新世纪计算机技术浪潮中的一个热点。参考文献1 赵慧勤,杨清华.数据仓库与数据挖掘技术在决策支持系统中的应用J.雁北师范学院学报,2001(8),7577.2 於晓榛,李青.基于
18、数据仓库的决策支持系统的研究与应用J.计算机与现代化,2002,(10),3234.3 陈岚岚,杨波,李旭霞.数据挖掘技术及其发展方向J.武警工程学院学报,2002,18(4).4(加)Jiawei Han,Micheline Kamber.Data Mining Concepts andTechniquesM.北京:机械工业出版社.2001(11).5 马丽娜,刘弘,张希林.数据挖掘、OLAP在决策支持系统中的应用J.计算机应用研究,2001,1012.6 谢榕.数据挖掘与决策支持系统J.计算机系统应用,1999,(8):911.(上接第83页)作为用户界面,绑定Web接口,调用由IDL定义
19、的Java服务器服务来响应用户的命令,并在服务器端完成该服务。根据RMI协议客户端JavaApplet发送服务请求到服务器的ORB,由ORB根据注册信息找到相应的Java服务器,并收集服务完成后的状态参数,通过RMI传回到客户端的JavaApplet。服务器端对IDL接口的实现方法有多种,而客户端只需调用定义好的IDL接口。当需要扩充或修改客户端的功能时,只需修改IDL的接口文件。5 结束语应用J2EE架构工作流机和XML过程定义语言,所研究开发的基于Web的协同工作流管理平台,具有跨平台、开放的特点,支持多种数据库,实现动态配置,易于集成,不仅适应分布式办公环境,更为实现跨部门、跨企业的不同
20、工作流互操作打下了基础,各种用户可以方便地参与企业工作流的流转,提高工作效率。但分布式工作流管理系统56的实现机制目前只是十分理想状态,有待于进一步深入研究,力求开发出真正支持分布式工作流的系统平台。参考文献1WFMC.The Workflow Reference Model(WfMC-TC00-1003)R.Technical Report,Workflow Management Coalition,Hamnshire,1995.2Mohan C.Recent Trends in Workflow Management Products,Standards,and Research EB/OL.URL:http:/ 范玉顺.工作流管理技术基础 实现企业经营过程重组与经营过程自动化的核心技术 M.北京:清华大学出版社,2001.4 工作流管理联盟工作流标准:工作流过程定义接口XMLProcess Definition LanguageS.WFMC-TC-1025-P,2002-7.5 史美林,杨光信,向勇,等.WFMS:工作流管理系统J.计算机学报,1999(3):326328.6 曾月,范玉顺.工作流管理系统Web客户端的设计与实现J.计算机工程与应用,2002(2).201计算技术与自动化2004年12月