《(本科)06 数据挖掘基础ppt课件.pptx》由会员分享,可在线阅读,更多相关《(本科)06 数据挖掘基础ppt课件.pptx(29页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、课程主讲人:06 数据挖掘基础Data Visualization and Analysis Basis 数据可视化与分析基础教师:张丹珏 Email: 办公室:实验楼9103室3数 据 挖 掘数据挖掘(Data mining)又译为资料探勘、数据采矿。数据挖掘一般是指从大量的数据中通过算法寻找隐藏于其中的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多算法来实现上述目标。上海杉达学院4数 据 挖 掘数据挖掘的分析方法: 分类 (Classification) 估计(Estimation) 预测(Predicti
2、on) 相关性分组或关联规则(Affinity grouping or association rules) 聚类(Clustering) 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)上海杉达学院IBM SPSS Modeler 18.05 IBM SPSS Modeler 是IBM开发的一款面向商业用户的数据挖掘工具,该软件拥有良好的用户界面,简单易用,且包含多种挖掘算法,可快速建立数据模型,挖掘结果直观易懂,可应用于商业活动,改进决策过程,故在数据挖掘领域具有较高的口碑。6IBM SPSS Modeler 18.0使用Modeler进行数据挖掘主要是构建数据流。其步骤如
3、下:第一步:将节点添加到编辑区第二步:连接节点形成数据流第三步:运行数据流上海杉达学院7基 本 概 念 节 点Modeler提供多种类型的节点。 源节点:将数据导入到流中,它位于节点工具箱的“源”选项卡中。 过程节点:在单个数据记录或字段上执行操作,它位于选项板的“记录选项”和“字段选项”选项卡中。 输出节点:为数据、图表和模型结果生成各种输出,并包含在节点选项板的“图形”、“输出”和“导出”选项卡中。 建模节点:使用统计算法创建模型块,它位于节点选项板的“建模”选项卡选项卡中。上海杉达学院8基 本 概 念 节 点 添加节点:双击节点,或者将节点拖至编辑区。 编辑节点:双击已添加的节点,或者单
4、击鼠标右键并从快捷菜单中选择“编辑”,会显示编辑对话框,在该对话框中可以设置与当前节点有关的相应属性。 删除节点:单击该节点并按Delete键,或者单击鼠标右键并从快捷菜单中选择“删除”。上海杉达学院9基 本 概 念 数 据 流连接节点可以形成数据流,节点之间的连接指示数据从一项操作流向下一项操作的方向。连接节点形成数据流的方法有以下几种: 通过双击添加节点并自动连接:这是连接节点的最简单方法,此方法会自动将新添加的节点连接到编辑区中选定的节点。 使用鼠标中键连接节点:在编辑区中,可以使用鼠标中键单击某个节点并将其拖到另一个节点。(如果鼠标没有中键,可以通过按住 Alt 键的同时使用鼠标从一个
5、节点拖到另一个节点) 手动连接节点:鼠标右键单击节点,在弹出的快捷菜单中选择“连接”项,此时,开始节点和光标处将同时显示连接图标,然后鼠标左键单击第二个节点,就可连接这两个节点。 上海杉达学院10运 行 运行数据流的方法有以下几种: 在“工具”菜单中,单击运行。 在工具栏上单击“运行当前流”按钮,可以运行整个数据流,也可以单击“运行选定内容”按钮,仅运行所选的节点数据流。 鼠标右键单击节点并在弹出的快捷菜单中选择“运行”菜单项。 要暂停进行中的数据流的运行,可以单击工具栏中的红色“停止”按钮,也可以在“工具”菜单中选择“停止”菜单项。上海杉达学院11保 存 创建流后,可以对其进行保存以备日后继
6、续使用。保存流的步骤如下: 在“文件”菜单中单击“保存流”菜单项。 在弹出的“保存”对话框中,浏览至要保存流文件的文件夹。 在“文件名”文本框中输入流的名称。 单击“保存”按钮。【注意】数据流文件不包含数据源,其扩展名为.str。上海杉达学院12数 据 整 理 在数据整理阶段,需要整合不同的数据源,然后,筛选、清洗、重构数据,生成能够满足数据挖掘需要的原材料,因此,数据整理阶段是十分重要的,没有好的原材料就不可能得到好的数据挖掘的结果。上海杉达学院 数据类型: 数据角色:13数 据 整 理上海杉达学院p 案例: 新建一个数据流文件,命名为“数据挖掘.str”,导入三个数据源“购物车-购物信息1
7、.txt”、“购物车-购物信息2.accdb”和“购物车-客户信息.xlsx”,将三个导入的数据合并在一起,并删除“流水号”字段,导出整理后的数据,命名为“购物车.xlsx”。14数 据 挖 掘 模 型 之 决 策 树 决策树是一个数据挖掘模型,它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。 上海杉达学院15数 据 挖 掘 模 型 之 决 策 树p 案例:根据病患的情况判断所使用的药物
8、。数据源“决策树.xlsx”,包含6个字段,200条数据。数据字段描述年龄性别M(男)或F(女)BP(血压)血压:高、正常或低Cholesterol(胆固醇)血胆固醇:正常或高Na_to_K血液中钠与钾浓度的比例Drug对患者有效的处方药上海杉达学院16数 据 挖 掘 模 型 之 决 策 树上海杉达学院17数 据 挖 掘 模 型 之 决 策 树上海杉达学院 我们发现,对于新的病患来说,使用何种处方药影响因子最大的是血液中钠与钾的浓度比例,其次是血压、胆固醇和年龄,而性别在此不作为影响因子,相应的决策规则有: 钠与钾的浓度比例=14.642,血压为“高”,年龄=50,建议使用处方药A。 钠与钾的
9、浓度比例50,建议使用处方药B。 钠与钾的浓度比例=14.642,血压为“低”,胆固醇为“正常”,建议使用处方药X。 钠与钾的浓度比例=14.642,血压为“低”,胆固醇为“高”,建议使用处方药C。 钠与钾的浓度比例14.642,建议使用处方药Y。18数 据 挖 掘 模 型 之 决 策 树p 案例:用户画像,即按人口统计学方式(如按年龄、收入等)刻画其特征的相关人群。本案例使用某超市店购物者的个人信息,寻找流失客户的特征。在零售领域,可能会针对这类客户群作为特殊优惠目标,以减少客户流失从而提高销售量。上海杉达学院数据源“购物车.xlsx”,目标为“流失客户”。使用“平均购物额”、“支付方式”、
10、“性别”、“住房”、“收入”和“年龄”字段 进行数据挖掘。19数 据 挖 掘 模 型 之 决 策 树上海杉达学院20数 据 挖 掘 模 型 之 决 策 树上海杉达学院 我们发现,流失客户的最主要的特征为收入,其次是性别,年龄和住房,相应的特征有以下两个:流失客户的特征一:收入=16900,男性,有住房。流失客户的特征二:收入 24。21数 据 挖 掘 模 型 之 关 联 分 析 关联规则(Association Rules)是反映一个事物与其他事物之间的相互依存性和关联性,如果两个或多个事物之间存在一定的关联关系,那么,其中一个事物就能通过其他事物预测到。关联规则是数据挖掘的一个重要技术,用于
11、从大量数据中挖掘出有价值的数据项之间的相关关系。 关联规则是指多个对象之间的形如XY的关系,其中,X称为关联规则的先导。Y称为关联规则的后继,其中,关联规则XY,存在其支持度和信任度。上海杉达学院22数 据 挖 掘 模 型 之 关 联 分 析 关联规则中几个重要的参数含义: 项集(Itemset):是一组数据项,而每一个项都是一个属性值。在购物篮分析示例中,项集包含一组产品,例如Cake、Pepsi、Milk。在研究客户的人口统计信息示例中,项集包含一组属性值,比如Gender=Male,Education=Bachelor。每个项集都有一个大小,该大小表示项集中包含的项的数目。项集Cake、
12、Pepsi、Milk的大小是3。 频繁项集:在数据集中出现频率相当高的那些项集,项集出现频率的阈值是用“支持度”来定义的。上海杉达学院23数 据 挖 掘 模 型 之 关 联 分 析 支持度(Support):支持度用来度量一个项集的出现频率。项集A,B的支持度是同时包含A和B的事务的总个数。公式:Support(A,B)=Num(A,B)/Num(All),Minimum_Support是一个阈值参数,一般设置为10%,需在处理关联模型之前设置该参数。 置信度(Confidence):在先决条件A发生的情况下,B发生的概率。公式:Confidence(A=B)=Num(A,B)/Support
13、(A),Minimum_Confidence是一个阈值参数,一般设置为80%,需在处理关联模型之前设置该参数。上海杉达学院24数 据 挖 掘 模 型 之 关 联 分 析 增益(Importance):也叫提升度(Lift),表示在先决条件A发生的情况下,B发生的概率,与在先决条件A不发生的情况下,B发生的概率的比例公式:Importance(A=B)=Num(B|A)/Num(B|not A)如果Importance=1,则A和B是独立的项,它表示购买A和购买B是两个独立的事件。如果Importance1,则A和B是正相关的,当A为真时,B的概率会上升,这表示如果一个客户购买了A,那他也可能购
14、买B。上海杉达学院25数 据 挖 掘 模 型 之 关 联 分 析 购买茶叶的人数购买咖啡的人数甲组:500人500450乙组:500人0450p 案例:已知有1000名顾客购买商品,分为甲乙两组,每组各500人,购买情况如下表所示。支持度(茶叶-咖啡):450/1000=45%置信度(茶叶-咖啡):450/500=90%增益(茶叶-咖啡):(450/500)/(450/500)=90% / 90%=1结论:虽然支持度和置信度都很高,符合关联规则,但是增益为1,表示购买茶叶和购买咖啡是相互独立的事件。上海杉达学院26数 据 挖 掘 模 型 之 关 联 分 析p 案例:已知有1000名顾客购买商品
15、,其中600名顾客购买了手机,750名顾客购买了平板电脑,400名顾客同时购买了这两种商品,没够买手机的客户中有300人购买了平板电脑。请问,手机-平板电脑之间是否有关联关系。支持度:400/1000=40%置信度:400/600=67%增益:(400/600)/(300/400)=67%/75%=0.89结论:如果置信度设置为80%,则未达到阈值,不符合关联规则,且增益1,即使降低相关阈值,这两者之间也是负相关的事件,即购买手机会降低购买平板电脑的概率。上海杉达学院27数 据 挖 掘 模 型 之 关 联 分 析p 案例:购物车分析。数据源“购物车.xlsx” 。上海杉达学院28数 据 挖 掘 模 型 之 关 联 分 析上海杉达学院经过关联分析建模得到相应模型,我们发现以下3个关联规则: 购买啤酒和罐头蔬菜的用户,有可能会购买冻肉。 购买啤酒和冻肉的用户,有可能会购买罐头蔬菜。 购买冻肉和罐头蔬菜的用户,有可能会购买啤酒。Thank You