《应用SASEM进行数据挖掘学习教案.pptx》由会员分享,可在线阅读,更多相关《应用SASEM进行数据挖掘学习教案.pptx(71页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、会计学1应用应用(yngyng)SASEM进行数据挖掘进行数据挖掘第一页,共71页。企业决策企业决策(juc)支持信息系统支持信息系统OLTP数据仓库统计分析数据挖掘决策(juc)支持企业(qy)知识DW SolutionDM&Analysis SolutionApplication for C/S&B/SCBI Solution1st Qtr2nd Qtr3rd Qtr4th QtrPowerPlayFileEditDataValuesDisplayTextLegendLocation 1992 All Products Age groups Revenue($000)OLAP查询报表第1页
2、/共71页第二页,共71页。什么什么(shn me)是数据是数据挖掘?挖掘?定义:从海量的数据库中选择、探索、识别出有效的、新颖的、具有潜在(qinzi)效用的乃至最终可理解的模式以获取商业利益的非平凡的过程-Fayyad,Piatetsky-Shapiro特征:处理海量的数据;揭示企业运作中的内在规律;为企业运作提供直接决策分析,并为企业带来巨大经济效益。第2页/共71页第三页,共71页。待分析数据数据(shj)仓库处理(chl)后数据模式模式变换后数据 知识知识Source:”From Data Mining to Knowledge Discovery:An Overview”,Adva
3、nces in Knowledge Discovery and Data Mining,AAAI Press/The MIT Press.数据(shj)抽取数据预处理数据挖掘数据变换解释评价数据挖掘全数据挖掘全过程过程第3页/共71页第四页,共71页。数据挖掘涉及数据挖掘涉及(shj)领域领域神经计算数据库知识发现数据挖掘统计学模式识别机器学习机器学习人工智能第4页/共71页第五页,共71页。数据挖掘算法(按有无数据挖掘算法(按有无目标目标(mbio)变量)变量)有监督算法有监督算法 无监督算法无监督算法(有目标变量有目标变量)()(无目标变量无目标变量)传统回归传统回归 无无神经网络神经网络
4、决策树决策树 逻辑逻辑/概率回归概率回归决策树决策树 聚类聚类神经网络神经网络 神经网络神经网络判别分析判别分析 基于基于(jy)(jy)记忆的推理记忆的推理决策树决策树 主成分分析主成分分析 聚类聚类关联关联/序列分序列分析析连接分析连接分析因子分析因子分析预测预测(yc)(yc)分类分类探索探索关联关联第5页/共71页第六页,共71页。预测(yc)用过去的数据预测(yc)未来发生什么 预测(yc)未来发生的可能性历史数据预测(yc)算法 -神经元网络 -决策树 -回归 描述 用过去的数据 描述 现在发生了什么描述现在已经发生的规律历史数据描述算法 -聚类 -关联数据挖掘算法(按分数据挖掘算
5、法(按分析目的)析目的)第6页/共71页第七页,共71页。n n回归算法:线性回归、逻辑回归、概率回归n n统计方法:主成分分析、因子分析、判别分析等n n关联算法:关联模式(msh)、序列模式(msh)、连接分析等n n聚类算法:Cluster、SOM/Kohonenn n神经元网络:MLP、RBFn n决策树:CHAID、CART、C4.5、C5.0数据挖掘算法(sun f)第7页/共71页第八页,共71页。x20.00.20.40.60.81.0 x10.0 0.2 0.4 0.6 0.8 1.0 x20.00.20.40.60.81.0 x10.0 0.2 0.4 0.6 0.8 1.
6、0使用(shyng)一元二次项使用(shyng)简单线性 预测(yc)型 回归 希望预测(yc)“绿点”在哪些情况下发生以及发生的概率数据挖掘常用算法第8页/共71页第九页,共71页。Time 13yes no70%9663%ratio .39time 10ratio 00元距今天数元距今天数n n余额连续余额连续2 2次次=0=0的时间的时间(shjin)(shjin)距今天数距今天数n n余额连续余额连续3 3次次=0=0的时间的时间(shjin)(shjin)距今天数距今天数n nn nFrequencyFrequencyn n余额余额=0=0元的次数元的次数n n余额连续余额连续2 2
7、次次=0=0的次数的次数n n余额连续余额连续3 3次次=0=0的次数的次数n n第42页/共71页第四十三页,共71页。Workshop(信用风险信用风险建模)建模)n n业务问题n n用于建模的数据n n建模前的数据处理n n建立预测模型(mxng)n n模型(mxng)的评估n n模型(mxng)实施第43页/共71页第四十四页,共71页。数据挖掘与采样数据挖掘与采样(ci yn)是否需要进行采样?数据在采样前需要进行什么处理?数据挖掘中所用到的一般采样类型。如何决定样本大小?数据挖掘中采样的指导策略。对于某些特定(tdng)的目的,如验证和测试,是否应该采用多重采样?第44页/共71页
8、第四十五页,共71页。针对小概率针对小概率(gil)事件的过事件的过采样采样GoodBad第45页/共71页第四十六页,共71页。数据数据(shj)分割分割第46页/共71页第四十七页,共71页。Exploration 阶段阶段(jidun)通过探索去理解(lji)您的数据显现您的数据 Insight Distribution Explorer Multiplot使用Variable Selection工具发现最有影响的变量-降维第47页/共71页第四十八页,共71页。Distribution Explorer节点节点(ji din)n n交叉报表交叉报表(bobi(bobi o)o)n n简
9、单的汇总分析简单的汇总分析第48页/共71页第四十九页,共71页。Multiplot 节点节点(ji din)n n为每个变量自动生成直方图。为每个变量自动生成直方图。n n同时同时(tngsh)(tngsh)标明每个变量对目标的影响。标明每个变量对目标的影响。第49页/共71页第五十页,共71页。Modify 阶段阶段(jidun)根据所用的模型进行数据调整优化您的数据极值,异常(ychng)值缺失值变量转换建立新的变量改变分布的形状定义最优的输入域处理共线性第50页/共71页第五十一页,共71页。Replacement 节点节点(ji din)包括基于(jy)决策树逻辑的缺失值处理。为修正
10、变量建立指示器第51页/共71页第五十二页,共71页。Transform Variables 节点节点(ji din)n n提供各种变量转换,包括为了优化二元目标提供各种变量转换,包括为了优化二元目标(mbio)(mbio)变量预测而对变量进行自动分变量预测而对变量进行自动分装。装。第52页/共71页第五十三页,共71页。Variable Selection 节节点点(ji din)n n根据目标变量快速确定输入变量(“model screening”)。n n描述它们拟合线型模型的框架(regression/ANOVA)。n n单变量R-平方及相关检验。n n建立(jinl)新的变量组(AO
11、V16)与降低分类变量的类型。第53页/共71页第五十四页,共71页。Workshop(信用风险信用风险建模)建模)n n业务(yw)问题n n用于建模的数据n n建模前的数据处理n n建立预测模型n n模型的评估n n模型实施第54页/共71页第五十五页,共71页。建立预测建立预测(yc)模型模型n n回归(hugu),神经网络和决策树等。n nGood/Bad作为分析目标。n n结果:Bad的可能性(全部方法)变量的重要性分析(回归(hugu),决策树)规则分析(决策树)第55页/共71页第五十六页,共71页。EM回归回归(hugu)节点节点第56页/共71页第五十七页,共71页。EM神经
12、网络节点神经网络节点(ji din)n n提供提供(tgng)(tgng)基本基本选项给普通用户选项给普通用户n n“智能智能”设定其它设定其它的复杂参数的复杂参数第57页/共71页第五十八页,共71页。EM决策树节点决策树节点(ji din)第58页/共71页第五十九页,共71页。Workshop(信用风险信用风险建模)建模)n n业务问题(wnt)n n用于建模的数据n n建模前的数据处理n n建立预测模型n n模型的评估n n模型实施第59页/共71页第六十页,共71页。Assessment 阶段(jidun)Lift Charts(又叫 gains chart)利润(lrn)/损失图(
13、Profit/Loss Charts)投资效益比图(ROI)诊断分类图ROC Charts 各种基于临界值的图形(Threshold-based Charts)。第60页/共71页第六十一页,共71页。Assessment 节点节点(ji din)第61页/共71页第六十二页,共71页。结果结果(ji gu)的鉴别的鉴别好中差ROC增益(zngy)累计(li j)增益第62页/共71页第六十三页,共71页。二值目标的混淆二值目标的混淆(hnxio)矩阵矩阵(Confusion Matrix)正确(zhngqu)的否定错误(cuw)的肯定错误的否定正确的肯定0101预测结果实际结果实际否定合计实
14、际肯定合计否定合计肯定合计第63页/共71页第六十四页,共71页。分界分界(fn ji)(Cutoff)概率)概率x20.00.20.40.60.81.0 x10.00.20.40.60.81.0较低的分界(fn ji)概率(.1)较高的分界(fn ji)概率(.5)第64页/共71页第六十五页,共71页。Workshop(信用风险信用风险建模)建模)n n业务问题(wnt)n n用于建模的数据n n建模前的数据处理n n建立预测模型n n模型的评估n n模型实施第65页/共71页第六十六页,共71页。模型模型(mxng)实施实施n n我们可以用模型来做什么?我们可以用模型来做什么?n n评分
15、评分n n策略策略n n执行执行n n监控监控(jin kn(jin kn)n n集成集成第66页/共71页第六十七页,共71页。Scoring模型开发模型实施集成到现有的业务系统,决策支持系统中。在线客户服务系统第67页/共71页第六十八页,共71页。设计设计(shj)Strategy收益模拟R=信用额度*使用率*利息*人数(rn sh)*(1-p(呆帐))Loss=信用额度*人数(rn sh)*p(呆帐)使P=Revenue Loss最大化压力测试经济发展 p(呆帐)经济萧条 p(呆帐)第68页/共71页第六十九页,共71页。信用(xnyng)记分模型实施的时间窗Actions takenPrediction of Good/BadModel AppliedTime1 monthModel AppliedActions taken第69页/共71页第七十页,共71页。结结束束(jish)第70页/共71页第七十一页,共71页。