《数据挖掘在高校贫困生校园卡流水数据中的应用研究_王雪飞.docx》由会员分享,可在线阅读,更多相关《数据挖掘在高校贫困生校园卡流水数据中的应用研究_王雪飞.docx(48页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 I 学校代码: 10200 研究生学号: 2011102755 分类号: TP31 密 级:无 数据把掘在高校贫困生校园卡流水数据中 的应用研究 Application of college students with financial difficulties on campus card flow data of data mining 作者: 王雪飞 指导教师 : 钟 绍 春 教 授 学科专业 :计算机软件与理论 研究方向:数 据挖掘 学位类型:学历硕士 东北师范大学学位评定委员会 2014 年 6 月 1 摘 要 随着高校信息化建设的不断推进,校园卡系统在全国各大高校均有广泛的应
2、用。随着校园卡系统运行上线时间的增加,其收集和积累的数据也十分庞大。如 何从这些海量的、 “ 死 ” 的数据中寻找对高校管理层进行辅助决策时有帮助的信 息成为一个非常现实的问题。本文重点研究了校园卡在存在普遍难点的高校困难 生工作中的应用。 本文研究了关联规则挖掘技术在校园卡流水数据及高校困难生信息数据中 应用的完整过程,从数据源的选择到数据预处理;从关联规则算法的设计到原型 系统的开发;从挖掘结果的解释分析到在校贫困生状况信息的获得。具体来讲, 在数据源选择与预处理部分,着重阐述如何将校园卡流水数据与贫困生基本信息 数据通过数据清理、合并以及变量选择与转换等手段,将其准备成为可供后续 数 据
3、挖掘过程运算的基础数据。在关联规则算法设计部分,给出了用于分析数据集 所使用的关联规则算法,包括算法说明与伪代码。在原型系统的设计部分,给出 了系统的总体框架与主要模块说明。最后在结果分析部分,提取数据挖掘规则, 并给出相应的解释说明。 关键词:数据挖掘;关联分析 ; Apriori Abstract With the development of information technology university , campus card systems in the major universities are widely used. With increasing time on -
4、line campus card system is running , the data collected and accumulated very large. How to find from these massive , dead data when the management of the university to help decision support information to become a very real problem . This paper focuses on the campus card in the presence of widesprea
5、d difficulties college students to work in difficult applications. This paper studies the complete process of association rule mining techniques and university campus card data flow difficulties in the application of Health Information data preprocessing to select data from the data source ; from as
6、sociation rule algorithm is designed to develop a prototype system ; from mining results analysis to explain the poor students get school status information . Specifically, the data source selection and pre-processing part , focuses on how water and other campus card data and poor students basic inf
7、ormation data through data cleaning, consolidation and variable selection and conversion tools will become available to prepare its subsequent data mining process basic data operations. In association rules algorithm design part, gives the association rule algorithm is used to analyze the data set u
8、sed , including the algorithm description and pseudo-code. In the design part of the prototype system , given the overall framework of the system and the main module description . Finally, the results of the analysis in part, to extract data mining rules , and the corresponding explanations . Key wo
9、rds:Data Mining;Association Analysis ;Apriori; 目 录 J 商 . I Abstract . II i . in 胃 一 # 躲 . 1 1.1 研究背景 . 1 1_2 研究现状与问题 . 2 1_2_1 研究现状 . 2 1.2.2 存在的主要问题 . 5 1_3 研究定位与意义 . 5 1.3.1 研究定位 . 5 1_3_2 研究意义 . 6 1.4 研究目标、内容及方法 . 6 1_4_1 研究 g 标 . 6 1_4_2 研 究 容 . 6 1.4.3 研究方法 . 6 第二章研究基础 . 8 2.1 数据挖掘技术 . 8 2_1_1
10、数据挖掘的概念 . 8 2_1_2 数据挖掘的过程 . 9 2 丄 3 数据挖掘的分类 . 10 2.2 贫困生校园卡消费行为分析 . 11 2.2.1 贫困生概念 . 11 2.2.2 贫困生校园卡消费行为分析的概念 . 11 2.2.3 贫困生校园卡消费行为分析的依据 . 12 第三章问题分析及总体方案设计 . 13 3.1 问题分析 . 13 3_1_1 |、 n题陈述 . 13 3.1.2 贫困生校园卡数据理解 . 13 3.1.3 贫困生校园卡数据分析主题与目标 . 13 3.2 贫困生校园卡数据挖掘总体方案设计 . 14 3.2.1 贫困生校园卡数据仓库设计 . 14 3.2.2
11、贫困生校园卡数据预处理模块 . 14 3.2.3 关联规则挖掘模块 . 15 3.2.4 结果输出模块 . 15 第四章贫困生校园卡数据仓库的建立 . 16 4.1 贫困生校园卡数据仓库设计 . 16 4 丄 1 数据仓库需求分析 . 16 4 丄 2 数据仓库维度建模 . 17 4 丄 3 数据仓库事实表设计 . 18 4 丄 4 数据仓库维度表设计 . 18 4 丄 5 数据仓库物理模型 . 19 4.2 贫困生校园卡数据预处理 . 20 4.2.1 数据清理 . 20 4.2.2 数据集成和变换 . 21 4.2.3 数据归约 . 22 第五章贫困生校园卡数据关联规则挖掘模块的解决方案
12、. 23 5.1 Apriori 算法及其局限性分析 . 23 5 丄 1 Apriori 算法介绍 . 23 5_1_2 Apriori 算法缺陷 . 24 5.2 种面向多值属性的关联规则算法改进 . 25 5.2.1 多值属性关联规则的提出 . 25 5.2.2 多值属性关联规则的基本概念 . 25 IV 5.2.3 多值属性关联规则算法设计 . 26 第六章原型系统的实现及结果分析 . 28 6.1 系统实现环境 . 28 6.2 系统实现过程 . 28 6_3 结果呈现及分析 . 33 总结与展望 . 36 参考文献 . 37 it if . 40 V 第一章绪论 1.1 研究背景
13、校园一卡通目前全国普及度非常高,校园一卡通就是通过卡片这个媒介,实 现了学校内部学生的生活各方各面的业务功能需要。比如,图书馆管理系统、身 份认证识别系统、学生信息服务系统、学生食堂消费系统、学生金融服务类系统、 学生后勤服务系统等等信息共享共建的数字化校园项目。校园卡系统稳定高效、 全面灵活、管理方便,真实的兑现了既定的一卡在手,走遍学校的构思与设想。 目前校园一卡通所覆盖的校园业务非常广泛,超市消费、洗浴刷卡、食堂消 费、图书借阅、电子阅览室登记、寝室开水使用限制、洗衣消费等等。而其中的 食堂消费媒介,上线最早,最早推广,也是最为成熟稳定的校园卡应用,其中部 分的数据稳定、准确、全面,能够
14、很好的反应学生在校的情况。校园卡数据的特 点为,数据均为流水数据,记录学生在校的每一笔数据,包括学生姓名、消费金 额、消费档口 名称、消费时间等等信息,这些流水数据,在一定程度上,可以很 好的反应学生在饮食方面的特征特点。食堂就餐信息数据,数据量巨大,数据质 量非常好,可以很好的应用在数据挖掘分析学生特征的研究中。 东北师范大学校园卡系统应用上线较早,其中的食堂消费部分,已上线 10 年以上,积累的大量的流水数据,一直无人问津,造成了严重的数据浪费。东北 师范大学现状为,校园分为净月校区与本部校区两个,学生由师范类学生与非师 范类学生两种。学生家庭经济状况参差不齐,资助中心负责认证和评定校园贫
15、困 学生,中心期望打破传统的人为因素占比例 较大的评定方法,寻找客观准确科学 的量化测评方法,经过调查研究寻找到在校园卡流水客观数据中寻找方法的可能 性。笔者负责该项目的初期调研与研究工作,并形成论文。 对校园卡系统的消费群体进行深入剖析研究,了解客观流水数据与在校用户 学籍数据之间隐藏的可能关联、聚类等规则与信息,预期数据挖掘可以在两者间 找到隐藏在数据中的客观知识,并利用知识对贫困生分类工作提供参考与指标。 进而达到辅助学校部门决策,更好的为学生服务。还利用结果,跟踪学生在校的 消费状况,实现一定的监管与管理。 在进行校园卡流水数据行为分析的过程 中,探索适合校园卡流水数据的数据 挖掘方法
16、,在数据预处理、数据转化、模型选择等方法均做最优化尝试,为今后 类似的探究提供一定的经验。 1 1.2 研究现状与问题 1.2.1 研究现状 1. 数据挖掘研究现状 随着信息化技术的普及,各行各业相应的信息管理系统纷纷上线运行,经过 长年累月的运行,数据采集能力的大量提高,数据运算能力的指数级上升,各行 业系统通过外部操作,内部处理,网络公开等方式,积累了大量的原始数据, “ 大 数据 ” 时代的到来已经为今后数据挖掘的应用研究布置了严峻的任务。不缺数据 缺知识是目前的一个亟待解决的怪圈。数据非常充分,但是从这些浩如烟海的数 据中分析得出的游泳知识却少得可怜。已著名的全球连锁的超市沃尔玛为例子
17、, 沃尔玛的全球数据库已经积累的大量的数据,其量级已经达到 TB 的级别,这些 数据包括所有客户的购买行为、消费金额以及其他的销售数据等等。随着电子商 务的普及,阿里巴巴、淘宝、京东等一系列知名的 C2C、 B2C、 B2B 电子商务网 站风行,移动、联通、电信等通讯公司的网上支付、网上营业厅等服务的推广, 各 大银行网上银行的流行,这一系列行业所积累的 web 数据流数据,其存储容 量也大的惊人。国家政府部门积累的数据量也是令人膛目的。 面对这如此丰富大量的海量数据,大量关于 “ 大数据 ” 的应用价值问题应运 而生,分析的需求越来越强烈。我们希望运用合理有效的数据挖掘分析工具方法, 挖掘大
18、数据内部隐含的有价值信息,寻找客观存在的知识,应用于辅助决策与评 判管理等工作。在这样一个背景和目的大环境之下,数据挖掘应用问题备受各行 各业各领域人士关注,这样的背景也决定了数据挖掘多学科交叉多分枝分叉多技 术融合的特点。 国外的数据挖 掘技术发展较为完善,相应的商业与教育应用也比较成熟,涉 及的内容也比较广泛。数据挖掘这一概念最早的提出者是 W.H.Inmon, 他于 1993 年提出数据挖掘这一概念, W.H.Inmon 对于数据挖掘的贡献在于,他有效的解释 与解决了数据挖掘前期数据准备的一系列问题; Berry&Linoff 在 1997 年的时候发 表了论文,关于数据挖掘中的支撑性的
19、四个关键技术指标,从而激发了人们对于 数据挖掘研究应用的热情。 Friedman 于 1997 年在企业的客户销售信息管理系统 应用程序中应用了数据挖掘技术。 2000 年数据挖掘内 容与概念的总结由韩家伟 完成。数据挖掘这些年的发展中,商业运用起到了很大的推动作用。其中比较知 名的公司有如下的一些成就:在商用的数据挖掘模型中, SAS 公司的作品 Enterprise Miner,这是一个十分完善和强大功能的数据挖掘系统,这个系统可以 为客户的未来发展趋势做出统计分析,实现有效的决策意见,这个系统基于统计 模型,特点是功能强大完善,继承了 SAS 公司的多个产品和功能,它可以帮助客 2 户用
20、于决策辅助知识,对于可能的危险系数高问题做出一定的预警,在企业的投 资风险项目上给予一定的决策辅助,从而达到效益最高风险降低的既定目标。此 外, IBM公司也有一个相当成熟稳定高效的数据挖掘工具, IBM 公司的该产品是 商用功能中最为强大的系列产品,它几乎涵盖所有数据挖掘领域的业务逻辑与功 能分区,它所支持的功能包括如下一些,数据预处理,数据结果显示,数据源的 删选,数据转换的自动完成,数据挖掘模块的界定,数据挖掘在商务智能的应用, 顾客分析、定向销售欺诈检测,收入前景、交叉销售等等。除了这两个之外 , Sybase 公司的产品也在数据挖掘工具领域有一定的作为。 HNC 公司的 Data M
21、ining Worstion 在解决有些特别的商业问题方面的关联分析数据分析技术层面有一定 的领先型。已经被丨 BM 收购的Clementine 在流程操作与可视化数据挖掘结果层 面做的非常突出, Clementine 的操作流程通过 SWT 界面的可视化连接操作,其 中的 CS5、 apriori 算法效率较快 。 Angoss 的 Knowledge Seeker and Kowledge Studio 等都是国外上午数据挖掘工具的代表。他们呈现给用 户不同的界面,方便客户通 过这些大型的完善的数据挖掘工具在自己的有待开发的数据中寻找有利于自己 决策分析销售捆绑的知识。 国内在数据挖掘领域
22、的研究要晚于国外的大规模研究,相比之下也没有形成 一定的规范与规模,商业应用也没有国外的成熟软件市场占有率那么高,没有完 善的发展格局。国内的数据挖掘研究点在于对数据挖掘内部核心框架、模式、算 法的优化、改良与创新上面做的更多一些。也就是国内的大环境下,成熟的商业 软件并没有一定的经济与技术支撑,国内的数据挖掘主要也是学院派式的研究方 法。在数据挖掘的关联规则领域,我国 的郑泽芝在 Apriori 算法的频繁项集产生、 规则的产生中的频繁项集产生进行了一定改进和创新。我国的杨青,创新的提出 了一种关于算法 MID3 的改进方法的一种可能的策略研究,主要针对的是 MID3 算法中逻辑表达式 ID
23、3 的较差的运算与准确度能力。我国的刘福涛在聚类分析算 法中有一定的关于分类效率的贡献。中国人民大学的决策树技术,对其进行了很 多的研究,多次的集中讨论,多次的应用等一系列工作。国内的关于数据挖掘的 研究主要停留在数据挖掘内部的逻辑与算法的改进、效率的提高等层次上,对于 数据挖掘的大型应用还有所欠缺 ,市场占有率也相比国外较低。针对性的算法数 据挖掘的应用也相对欠缺。 a 前,国内关于数据挖掘的应用已引起大部分研究者 的重视,数据挖掘技术的应用意义重大。 2. 校园卡系统现状 校园卡系统是以卡片为媒介的,校园卡系统目前已经广泛应用全国的各大高 校管理中,校园卡系统功能广泛,几乎涵盖高校学生生活
24、的方方面面,从食堂消 3 费管理、图书借阅、信息室登记录入、浴池管理、开水开关与洗衣服洗衣机自动 的消费管理等等。 校园卡系统经过多年的运行上线操作,有效的提高了校园的方方面面的管理 和整合工作与实施。校园卡在服务学生与校务管理的各项功能的实现与运行优化 方面起到了很大的作用,真正实现了资源的和理赔和最大化利用管理。满足了校 园卡系统功能的实现与应用目的,对学校资源进行了有效的整合集成和优化,在 具体工作中实现了各种各样的开发功能。但是,校园卡系统在运行的同时,其存 储数据的部分数据库管理系统目前的功能仅仅停留在数据管理中,这些能够客观 真实准确反映学生在校信息的数据被大量的浪费,仅仅停留在服
25、务器的存储空间 之中无人问津,这严重的造成了数据资源的浪费。这些数据没有为学校的后续发 展助力, 没有对相关部门的决策与分析工作做出一定的贡献。这也集中把问题暴 露出来,缺乏有效的数据挖掘工具对大量的校园卡系统产生的海量数据进行深入 的挖掘分析。 近些年来,国内的一些高校已经意识到了这种浪费的弊端,并且尝试用一定 的技术与工具,甚至自己研发的平台与系统对本学校校园卡系统产生的海量数据 进行一定分析与辅助决策工作。意识到了校园卡数据的研究价值。其中比如的有 一些,复旦大学的领导查询系统、武汉理工大学的家庭经济情况与贫困和理性评 判综合管理系统、山东大学的有关家庭贫困学生的评议平台系统等等。有一些
26、单 位和机 构已经在数据挖掘在校园卡的应用中取得了一些收益,从已经取得的一些 经验中表明,数据挖掘在校园卡流水数据中的进行的分析研究,对数字化校园管 理与决策辅助方面可以有相当的积极作用和意义。 而校园卡数据的应用中的比较重要的一块,应用于高校贫困生评定的部分已 经被许多高校重视,由于国内的贫困生认定难题,校园卡数据在贫困学生的认定 工作的量化指标评定工作尤为重要和突出。这是对原来的资助认定体系的量化的 科学的补充和支持。但是从已经开展的多项关于这个问题的研究应用来看,主要 的关注点和围绕还是在统计分析层面,也就是应用 统计学的一些方法,使用较为 简单的不是数据挖掘体系有关联的算法和用具对这些
27、大量的信息进行初步的数 据挖掘,缺乏人工智能与机器学习的灵感式与非人工干预的自动化学习方式。在 利用数据仓库与数据挖掘方法的一些应用曾读,国内的高校在这个问题的应用方 面还是属于初级的阶段,相关的一系列的工作和指导意见指标等还有待进一步深 入的研究。 4 1.2.2 存在的主要问题 目前有关高校贫困生认定的系统设计中,国内的高校还缺乏科学有效的量化 测评标准与测评依据。由于国内无法像一些发达国家一样,通过准确的政务税务 记录信息准确的界定家庭经济学生的状况,国内只能通过一些外围的手段去界定 和评判家庭经济困难学生真实的经济状况,从而把学生按照贫困等级分类,进行 一定的国家助学金与学校助学金的补
28、助。 大部分高校采用的调查问卷,同学互评,老师谈话等家庭经济困难学生的评 定工作,缺乏科学有效的客观量化指标,有很多的因素无法量化,从而也就无法 准确的界定标准。 对于校园卡系统数据在贫困生认定工作的作用,有一些研究者已经开始关注, 但是目前由于校园卡系统手机的信 息的规范程度与不同高校系统上线的时间长 短和业务开展的广泛程度等因素都制约着校园卡系统中的海量流水数据有效的 应用于学生在高校生活中的应用。 主要的问题也集中在以下几点: 校园卡数据的预处理方面。数据集的不同表现在多方面,用来描述数据对象 的属性可以具有不同的分类,定量的或者定性的,而且数据集可能具有特定的性 质。数据的质量问题,数
29、据通常远非完美,尽管大部分的数据挖掘技术可以容纳 某些程度的不完整和不完美数据,另一方面要让数据更好的为数据挖掘软件做准 备,需要对其进行一定的数据预处理。显示信息系统采集的信息 不标准,怎样让 信息为成体系的数据挖掘做最好的状态准备,有待研究。 数据挖掘模型处理和评价模型方面。数据挖掘任务中,需要根据目标的设立, 选择数据源,然后根据目标选择合适的处理和评价模型,模型处理可以使用多种 方法,然而目前国内对于数据挖掘在贫困生校园中的应用,还没有明确的指标和 标准应该从何种模式和模型进行分析。 1.3 研究定位与意义 1.3.1研究定位 数据挖掘在校园卡消费中的应用,着重考虑数据挖掘方法在实际问
30、题中的情 况。深入研究客观流水数据与在校学生基本信息的特征模式、规则,以期研究各 类群体的消费行为特征:通过分析行为结合本校贫困生的评定为应用,对贫困生 分类进行模式研究,从而向有关部门提供决策辅助依据。还可利用结果,跟踪学 生在学校内的消费状况,实现有效性的监管,并以此采取相应措施,更好的为学 生服务。 5 1.3.2研究意义 利用数据挖掘方法,研究如何从校园卡流水数据中获取用于学校决策、管理 相关的关联规则信息,为学校各部门更好的为同学服务提供支撑。其研究意义主 要有理论意义和实际意义两方面。 理论意义方面,本研究对数据挖掘中的关联分析在校园卡 消费流水数据中的 研究有一定的促进作用;对校
31、园卡消费人群行为特征的研究有一定的促进作用; 对高校困难生评定工作流程进行了补充和完善。 实际意义方面,整合校园卡系统 “ 死 ” 数据,挖掘分析学生校园卡消费数据, 跟踪学生在校消费状况,实现有效监管。将数据挖掘技术应用到实际中的实用价 值。在尝试利用数据挖掘在辅助管理、分析、决策方面均有着现实意义。 1.4 研究目标、内容及方法 1.4.1研究巨标 应用关联规则方法,发现校园卡系统数据与贫困生数据中的强关联特征,提 取可以帮助部门辅助决策的有用信息,对现有的贫困生管理方式进行一定的验证 和补充。 1.4.2研究内容 原始数据的预处理。包括数据理解、数据访问、建模数据集的创建、数据的 清理以
32、及变量的选择与转换等。 数据挖掘模型的应用。实现基于 Apriori 的分析模型,并形成原型系统。 1.4.3研究方法 1. 文献研究法: 通过网络与图书资源,杳阅相关数据挖掘技术与应用方面、校园卡流水数据 库管理方面的资料,从而掌握和明确研究内容的方向与问题。 2. 调杳法: 通过对实际问题的了解和认识,建立系统结论与实际情况的联系,评估系统 反应现象的真实性与可行性,运用定量分析和定性分析综合进行分析,对获得的 各种数据综合进行处理,掌握根本性质,树立逻辑进行有效推论。 6 3. 实验法: 实现数据挖掘模型的过程中,对数据挖掘过程一一进行评估与反馈,从设立 目标、选择数据源、准备数据到处理
33、和评价模型,再到模型的验证,便于及时的 发现状况和问题,及时调整。 7 第二章研究基础 2.1 数据挖掘技术 2.1.1 数据挖掘的概念 数据收集技术的高速发展使得社会能够积累浩如烟海的大量信息。但是,从 这些海量的数据提取能够供人们辅助决策,降低风险的有用知识和数据已经变为 严峻的问题。一般情况下,因为信息的数量太巨大,普通的信息统计方式和工具 没有办法运算他们。即使信息量级相比于之前不太大,科室信息自己的一些特征 是不能直接应用传统方式的,所以也不可以用普通的方式对其运算。还有一些情 况,是传统数据分析技术无法解决的,所以,我们需要一种新的技术来为我们服 务。 在商务应用方面,上午可以借助
34、 POS (销售点 )、 RFID (射频识别)、条码扫 面、智能卡技术等方式在其商店的收款处收集到客户的销售记录数据。商务人士 便可以借助这些信息,加上其电子商务网站、网银购物口志等其他销售记录对他 的顾客们进行重要的商务数据分析,从而更好的了解他的客户,进而达到作出明 智商务决策的目的。在商业智能应用程序,数据挖掘技术的应用非常广泛,为客 户分析,销售方向,工作流管理,存储分配和欺诈检测等。对于一些零售商和商 务公司比较关注的问题,比如“ 那些额是我最有价值的顾客 ” , “ 我的下一步投资 计划应该偏重哪些方面 ” , “ 我公司的下一季度收益会是多少 ” , “ 我的哪些产品是 买的最
35、好的,在什么条件下买的最好(最差) ” 。在医学、科学与工程应用方面, 随着信息技术在各领域的应用,特别是科学技术的飞速信息化发展,医学、科学 与工程领域都在快速大量的积累数据。生物学家们 a 前亦收集了大量的基因组数 据,希望利用这些数据进行更好的理解基因功能和结构的目的。而数据挖掘开发 的技术可以帮助科学家们对一些隐含在大量数据中的问题找出来,比如 “ 怎样对 一个地区的生长季节开始和结束的准确预测? ” 等。而在生物学的基因组数据分 析中,传统方法只允许科学家在一次实验中分析几个基因,受限于数据的庞大, 8 数据的噪声和高维性,我们需要借助数据挖掘方法。数据挖掘除了在基因序列数 据中的应
36、用之外,在生物学的其他难题,比如蛋白质结构预测,生物化学路径建 模和种系发生学都有大量的应用。 数据挖掘的过程包括一系列过程。输入的数据可以是各种形式的,数据库文 件,电子数据,手动录入数据等等,可以使集中的数据库,也可以是分布式的数 据库。数据预处理的目的是将没有进行任何加工的输入数据转换成合适后续步骤 分析的数据模式。数据预处理是整个 KDD 过程中耗时最长,最费力的步骤。而 后处理步骤 ,确保只有有效和有实际意义的结果数据应用于决策辅助系统中,后 处理一个非常好的实例就是可视化,通过可视化的呈现,让人们直观的判断结果。 2.1.2 数据挖掘的过程 数据挖掘的完整步骤可以总结为以下一些步骤
37、: 定义目标。在任何有关数据挖掘的项目之中,最重要也是最初的步骤就是要 定位一个明确清晰的目标和达到这个目标的过程。定义目标是,首先要确定我们 要去实现的既定目标是什么,去度量和预测什么。我们在定位目标的时候,必须 要有足够的该领域背景知识,明细问题的脉路。定位目标的时候,要足够顾虑到 是否有充足的和目标问题 相关的数据支撑,以目标为指导选择相关的数据,进而 选择所需要的模型,这一点决定着数据挖掘项目的成败。 选择数据源。供选择的数据通常比较复杂,而且其中还惨杂着大量无用、错 误、有噪音的干扰源,根据已经定位的预期和现有的信息,根据信息特征决定能 够为预期有可能贡献实际作用的数据,抛出无用的干
38、扰项,是选择数据源的主要 任务。 准备数据。数据准备是数据挖掘项目最重要的步骤之一。良好的数据挖掘项 目的第一步就应该是访问数据和理解访问的数据的特征。从多个数据源读入数据、 合并数据的基本步骤为出发点,建立建模数据集,开始麻烦的任务,清理数据。 访问并且清理数据之后,通过一些常规的数学方法,比如概化、比率、日期数学 建立常规变量。完成所有的这些步骤之后,我们就做好了一个用于后续数据挖掘 项目的建模数据集。 9 选择及转换变量。我们强调目标定位的重要性,在定义目标之后,下一步的 工作就是寻找候选的变量,抛出无用的变量,也就是说只保留与定位目标相关的 数据和变量。候选变量应该是强大预测潜力的变量
39、,这可能需要我们借助领域的 背景知识和我们自己对 于问题的推断和可能的一些假设,而且我们也应该放宽预 测点,因为可能会有一些我们主观无法想到的一些关联,但数据中却真实存在他 们之间的联系。比如啤酒和尿布的经典问题。寻找候选变量组可以通过变量规约 的方式来实现。为了更好的选择最终使用的侯选变量,可以综合使用划分、转换 和互相作用检测 ( interaction detection)技术。一旦数据被认为是正确的,相关 的缺失值也被处理过客,下一步的工作就是在已有的变量中,去寻找有可能的更 多的派生变量的机会。这里需要我们对于领域的知识有极深刻的了解。通过概化 或者 分割合并变量能够提高预测能力。 处理和评价模型。数据挖掘模型处理有很多可以使用的方法。数据挖掘算法 执行阶段首先要根据对问题的定义明确挖掘的任务和目标,确定是分类、聚类、 关联规则的发现还是序列模型发现等等,在确定了数据挖掘的目标之后,就可以 决定要是用什么的方法和方式去算了。在选择算法的时候也有两个因素是需要考 虑的:首先是数据的不一致导致了差别的特点,需要根据数据不一样的属性