《数据挖掘的常用分析方法与算法研究.pdf》由会员分享,可在线阅读,更多相关《数据挖掘的常用分析方法与算法研究.pdf(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、!#$连接!这样即使黑客侵入%&服务器非法获取了()*文件源码 他们也不会知晓数据库服务器的登陆信息从而可以增强数据的安全性!下面的代码显示了+,-,./$的实现#0&1)234 567 89()&:24;?5 A BC*C-D-!EFG?7 A 4.!*C-D-!EFG&4H(!CDF 0I4EJ?K+G-G./D$K(!CDF 0I:G.FEG4EJ)LE+?MEG-(!CDF 0I8CE!EFG?BC(!CDF 0I*CN+GECN2N?MEG-(!CDF 0I&OL#-N?BC*(-#GEP$指示数据库连接的状态BC表示已连接MEG-未连接*+!D#P(-(H3H68#PP+!D#P$
2、保存创建的数据库连接*FGD+)RSHDT-!C8#PP E-)!CDP/-!C8#PP?KLC#UNC?-V,.,NF65WC N?-EWLE-X.CN?5YZW$!E,+E!E,./?JNFWNE!E-.?5_Y65656577WK3$&CC.C 1-4O!+.$+!.$63L$2a+.$!.$6&CC.C-68.PG#/DPI-!E!?MEG-)!+#PP+!D#P?4#!cDP/&G-9#/DPI-!E!?BC&PN 2a&PN)+#PP+!D#P函数稍作修改即可 很容易实现!下面给出了使用了登录组件的TEd+#PP+!D#P函数#efM+#PP+!D#PRSHDT#FgIG./DPh
3、+PP3P&CC.C 1-4O!)!N+PNF?)CUC68CE!3Fg+!RKEN.NF6+.PP+!D.PKS)!.FgIG./DP?)CUC68CE!3Fg+!RKG./DPI-UC6+G-G.!/DPKS2a.FgIG./DP6G./DPI-!E!?BC BcP)!+PP?.FgIG./DP68.PP+!D.P&G-&CC.CRS&PN 2a)!TEd+.PP+!D.P?+PP&PN M-D.PEG&;D+C.-.a!0D-CP!访问的随时随地性%F管理信息系统所面临的安全性风险要高于传统的8k)管理信息系统!本文针对%F管理信息系统中的数据安全性问题给出了一种基于83;组件的增强数据
4、库登录安全性的策略给出了具体的实现方法和源码!本文所介绍的方法已经应用在笔者最近所参与开发的旅游企业管理信息系统中取得了较好的效果lm!参考文献!l5m吴国普h李志易6基于C.X-Ck)CUC模式的管理信息系统的开发lnm6四川大学学报自然科学版(h5_h0.G6ZR5SoZ6lYm黄梯云6管理信息系统l;m6北京o高教出版社hY77Y6lZm林子禹h邵红维h谭凯等6基于%F与组件技术的企业应用系统设计模型lnm6计算机工程与应用hY777h0.G6ZRSo5Y56lm赵洁6基于8k)和k)混合型结构的旅游企业信息系统的设计与实现lnm6微型电脑应用hY77h0.G6Y7R57SoYZY6收稿
5、日期#Y777p近十几年来人们利用信息技术生产和搜集数据的能力大幅度提高无数个数据库被用于商业管理&政府办公&科学研究和工程开发等这一势头仍将持续发展下去%人们意识到如此海量的数据中必定隐藏着许多知识%例如超级市场的经理人员需要从过去几年的销售记录中分析出顾客的消费习惯和行为)金融业需要从银行的交易数据中分析客户的信用等级 从而降低风险&增加收益%然而多数数据库应用仍只能对数据库进行数据挖掘的常用分析方法与算法研究彭广川李颖!韶关学院计算机系广东 韶关!#$#摘要!本文分析了数据挖掘的概念介绍了数据挖掘的基本分析方法和数据挖掘各种分析方法的分类算法归纳了常用数据挖掘算法与新的数据挖掘算法的基本
6、思路和特点$关键词!数据挖掘%数据分析%算法研究中图分类号!#$%文献标识码!&!万方数据录入!查询!统计等简单操作 如数据不能转化成有用的知识#用户只能被数据的海洋所淹没 人们迫切需要找出大量数据背后隐藏的规则和模式#从而预测未来的趋势因此#数据挖掘和知识发现$!#!%技术应运而生#并得以蓬勃发展#越来越显示出其强大的生命力$%&%年&月召开的第$届国际人工智能联合会议上首次提出了#$()*+,-./-012*3-45 0)676861-1#数据库中的知识发现%概念#而数据挖掘是核心 在$%$!$%9年和$%:年国际人工智能联合会议都举行#专题讨论会#来自各领域的研究人员和应用开发者集中讨论
7、数据统计!海量数据分析算法!知识表示!知识运用等问题!数据挖掘的概念与分析方法$;$数据挖掘基本概念数据挖掘$676 0)0)/%就是从大量的!不完全的!有噪声的!模糊的!随机的数据中#提取隐含在其中的!人们事先不知道的!但又是潜在有用的信息和知识的过程 数据挖掘是一种决策支持过程#它主要基于人工智能!机器学习!统计学等技术#高度自动化地分析企业原有的数据#作出归纳性的推理#从中挖掘出潜在的模式#预测客户的行为#帮助企业的决策者调整市场策略#减少风险#做出正确的决策 因此#数据挖掘是一门广义的交叉学科#它汇聚了不同领域的研究者#尤其是数据库!人工智能!数理统计!可视化!并行计算等方面的学者和工
8、程技术人员$;确定业务对象清晰地定义出业务问题#认清数据挖掘的目的是数据挖掘的重要一步 挖掘的最后结构是不可预测的#但要探索的问题应是有预见的#为了数据挖掘而数据挖掘则带有盲目性#是不会成功的=数据准备=6数据的选择搜索所有与业务对象有关的内部和外部数据信息#并从中选择出适用于数据挖掘应用的数据=8数据的预处理研究数据的质量#为进一步的分析作准备 并确定将要进行的挖掘操作的类型=2数据的转换将数据转换成一个分析模型 这个分析模型是针对挖掘算法建立的 建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键=9数据挖掘对所得到的经过转换的数据进行挖掘 除了完善从选择合适的挖掘算法外#其余一切工作都
9、能自动地完成=:结果分析解释并评估结果 其使用的分析方法一般应作数据挖掘操作而定#通常会用到可视化技术=?知识的同化将分析所得到的知识集成到业务信息系统的组织结构中去$;9数据挖掘相关分析方法数据挖掘技术从功能上可将数据挖掘分析方法划分为&关联分析$11*20670*)1%!序列模式分析$A-BC-)!706,D677-4)1%!分类分析$E,6110F0-41%!聚类分析$E,C17-4!0)/%关联分析是由G6H-1I J+6,等人首先提出的 两个或两个以上变量的取值之间存在某种规律性#就称为关联 数据关联是数据库中存在的一类重要的!可被发现的知识 关联分为简单关联!时序关联和因果关联 关
10、联规则中一般用支持度和可信度两个阀值来度量关联规则的相关性#还不断引入兴趣度!相关性等参数#使得所挖掘的规则更符合需求 关联规则挖掘的目的就是挖掘出隐藏在数据间的相互关系 例如#&KL顾客同时会在购买某种产品的同时购买M产品#这就是一条关联规则序列模式分析在于样式中每个项目的前后位置为样式的识别特征之一#也就是样式中的项目之间是含有顺序性的#因此在寻找序列模式时#我们会有一个用以决定项目先后次序的衡量方式=如时间#所有的项目或项目集合依据该衡量方式在一维的方向上呈现顺序排列#而寻找循序样式就是要在这些循序排列的数据中找到有趣的规则 以在销售记录中进行顺序性样式的搜索为例#数据库中的交易与交易之
11、间可以依发生时间的先后加以顺序排列#例如在时点$顾客甲购买了物品#在时点它主要研究基于几何距离的聚类#如欧式距离!明考斯基距离等 传统的统计聚类分析方法包括系统聚类法!分解法!加入法!动态聚类法!有序样品聚类!有重叠聚类和模糊聚类等 这种聚类方法是一种基于全局比较的聚类#它需要考察所有的个体才能决定类的划分O因此它要求所有的数据必须预先给定#而不能动态增加新的数据对象 聚类分析方法不具有线性的计算复杂度#难以适用于数据库非常大的情况 实际应用的数据!万方数据!#$%&$组件是用于显示节点的结构化列表的窗口!节点是文档中的标题索引中的实体或磁盘上的文在!#$%&中如何使数据库和()&*建立联接韦
12、国贞!宫蕾!平顶山教育学院河南 平顶山!#$%#摘要!解决在&()*+中数据库和,-.+/的联接$关键词!数据库%,011.213%联接中图分类号!#$%&文献标识码!挖掘系统中!以上几种分析方法有着不同的适用范围!因此经常被综合运用#其中关联规则作为一种非常有用的模式!已成为数据挖掘领域的重要课题$(规则与算法研究挖掘关联规则算法的任务就是在给定的交易集合上找出置信度大于等于用户指定的最小置信度!并且支持度大于等于用户指定的支持度的关联规则$挖掘关联规则算法的输入是交易集合以及用户指定的最小置信度和最小支持度%算法的输出是符合要求的关联规则$交易集合通常都来自于数据仓库中的数据!往往包含了一
13、年甚至数年的数据!数据量非常大的$显然!算法至少需要遍历交易集合一次$如何减少对交易集合的遍历次数是提高算法效率的关键$最经典的挖掘关联规则算法是()*$+,-.)/和()0)*&+,1)1 2*&*)13提出的-4&5&算法!-4&5&算法思想利用了数据项频集的子集也是数据项频集的推论$-4&5&需要遍历交易集合多次!在第6次遍历中!计算出所有元素个数为6的数据项频集%在第*次遍历中!计算出所有元素个数为*的数据项频集$每次遍历结束时如果发现本次遍历没有产生任何数据项频集则终止$因此-4&5&算法需要遍历交易集合7 8 6次!7是元素最多的数据项频集的元素个数$-92):)+#等人提出的;)
14、3&3&51算法只需要遍历交 易 集 合 两 次$算 法 先 把 交 易 集 合 分 为 若 干 个 块&1等 人 提 出 的?A&?=1B0&C 3$0+$3A5D13&1.算法中!也把交易集合分为若干个块!初始的数据项频集的集合E仅包含所有单元素数据项集$遍历每个块!计算E中每个数据项集的出现次数!遍历一个块结束时!把所有潜在的数据项频集加进E$所谓F潜在F的数据项频集是指那些在已经计算的交易集合范围内出现频率大于等于最小支持度的数据项集$所有的块都遍历结束后!再从头开始重复执行算法!直到所有的数据项集的出现次数都已经被确定$经过有限次遍历!算法能得到数据项频集的集合$如果块的大小选择的合
15、适!?A算法的遍历次数比-4&5&要小$E&1$3 B/9于6GGH年提出了;&1C$I2#)7,算法!主要的目的在于有效的推导出较长的关联规则$;&17#I2#)7,算法的主要处理方法采取了由下而上和由上而下的双向搜寻机制!先利用由上而下的搜寻方式将所有的数据项组成一个最大的候选数据项集!再根据定理(J6K数据项频集的所有子集合也必为数据项频集%LMK最大候选数据项集中若有非数据项频集!则必为非数据项频集$结合由上向下和由下向上的两种搜索方向同时向中心点搜寻!因此可以减少搜寻的次数!很快地找出所有的数据项频集!从而能够有效的提升处理的效率$结束语本文介绍了一些数据挖掘中产生关联规则的分析方法
16、和算法!这方面一些研究成果已取得很大的成绩$对于关联规则的发展!未来的方向是在下面一些方向上进行近一步的深入研究$在处理极大量的数据时!如何提高算法效率的问题%在挖掘的过程中!提供一种与用户进行交互的方法!将用户的领域知识结合在其中%生成结果的可视化方面等等$参考文献!N6O(9-.)/PQ9 0&$/&1+*&PB1R-9 2)0&9 S&1&1.B+!+5C&B3&51 D/$+T$3$1+$3+5U&3$0+&1/).$R)3)S-/0BR$1($+$BC,A$1!3$P 2B1 5+$P A-Gd6MYP B19 6GG9X陈富赞P寇继松P王以直9数据挖掘方法的研究9系统工程与电子技术
17、PMYYYLHK_ZHIZG9c吉根林P帅克P孙志挥9数据挖掘技术及其应用9南京师大学报&自然科学版PMYYYLMK9d郑志军P林霞光P郑守淇9一种基于神经网络的数据挖掘方法9西安建筑科技大学学报9收稿日期(MYYdIYH+万方数据数据挖掘的常用分析方法与算法研究数据挖掘的常用分析方法与算法研究作者:彭广川,李颖作者单位:韶关学院计算机系,广东,韶关,512000刊名:电脑知识与技术(学术交流)英文刊名:COMPUTER KNOWLEDGE AND TECHNOLOGY年,卷(期):2005(10)参考文献(5条)参考文献(5条)1.R.Agrawal;T.Imielinski;A.Swami
18、 Mining association rules between sets of items in large databases19932.R Agrawal;J Shafer Parallel mining of association.rules:Design,Implementation,and Experience外文期刊 1996(6)3.陈富赞;寇继松;王以直 数据挖掘方法的研究期刊论文-系统工程与电子技术 2000(08)4.吉根林;帅克;孙志挥 数据挖掘技术及其应用期刊论文-南京师大学报(自然科学版)2000(02)5.郑志军;林霞光;郑守淇 一种基于神经网络的数据挖掘方法期刊论文-西安建筑科技大学学报(自然科学版)2000(1)本文链接:http:/