《《数据挖掘导论》教材配套教学ppt——第1章-认识数据挖掘课件.ppt》由会员分享,可在线阅读,更多相关《《数据挖掘导论》教材配套教学ppt——第1章-认识数据挖掘课件.ppt(65页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益第1章认识数据挖掘数据挖掘定义机器学习数据查询专家系统数据挖掘过程/作用/技术/应用Weka数据挖掘软件清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益本章目标掌握数据挖掘的定义了解机器学习中的基本方法概念学习归纳学习有指导的学习无指导的聚类了解与数据挖掘有关的数据查询、专家系统了解数据挖掘的过程、作用、技术、应用掌握Weka数据挖掘软件的使用方法30 十二月 20222为了规范事业单位聘用关系,建
2、立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.1数据挖掘定义清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益数据挖掘(DataMining)技术角度利用一种或多种计算机学习技术,从数据中自动分析并提取信息的处理过程。目的是寻找和发现数据中潜在的有价值的信息、知识、规律、联系和模式。数据挖掘与计算机科学有关,一般使用机器学习、统计学、联机分析处理、专家系统和模式识别等多种方法来实现。学科角度数据挖掘是一门交叉学科,涉及数据库技术、人工智能技术、统计学、可视化技术、并行计
3、算等多种技术。30 十二月 20224清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益商业角度商业智能信息处理技术;围绕商业目标开展的,对大量商业数据进行抽取、转换、分析和处理,从中提取辅助商业决策的关键性数据,揭示隐藏的、未知的或验证已知的规律性,是一种深层次的商业数据分析方法。数据挖掘(DataMining)30 十二月 20225为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.2机器学习清华大学出版社为了规范事业单位聘用关系,建立和完善
4、适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.2.1概念学习通过对大量实例进行训练,从中发现经验化规律的过程。机器学习结果的通常表现形式为概念。机器最擅长的是学习概念。概念(Concept)具有某些共同特征的对象、符号或事件的集合。概念可以从三个不同的角度来看待30 十二月 20227清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.2.1概念学习1、传统角度(ClassicalView)所有概念都有明确的定义。2、概率角度(ProbabilisticView)对个别样本实
5、例进行概括性描述,概括性说明构成了概率角度中的概念。3、样本角度(ExemplarView)样本角度中的概念是将某个概念中的典型实例组成一个集合,使用该集合来描述概念定义。30 十二月 20228清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.2.2归纳学习(Induction-BasedLearning)基于归纳的学习机器学习方式人类学习最重要方式之一人类通过对事物的特定实例的观察,对所掌握的已有经验材料研究。归纳学习从归纳中获取和探索新知识,并以概念的形式表现出来的学习。30 十二月 20229清华大学出
6、版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.2.3有指导的学习(SupervisedLearning)定义通过对大量已知分类或输出结果值的实例进行训练,调整分类模型的结构,达到建立能够准确分类或预测未知模型的目的。这种基于归纳的概念学习过程被称为有指导(监督)的学习。数据实例(Instance)用于有指导学习的样本数据训练实例(TrainingInstance)用于训练的实例检验实例(TestInstance)分类模型建立完成后,经过检验实例进行检验,判断模型是否能够很好地应用在未知实例的分类或预测中。30 十二月
7、 202210为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益【例1.1】给定如表1.1所示的数据集T,使用有指导的学习方法建立分类模型,对未知类别的实例进行分类。清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益表1.1感冒诊断假想数据集序号Increased-lym淋巴细胞升高Leukocytosis白细胞升高Fever发烧Acute-onset起病急Sore-throat咽痛Cooling-effect退热效果Group群体发病Cold-ty
8、pe感冒类型1YesNoYesYesNoGoodYesViral2NoYesYesNoYesNotgoodYesBacterial3YesNoYesYesYesGoodYesViral4YesNoNoYesNoUnknownNoViral5NoNoNoNoYesUnknownNoBacterial6NoYesYesYesYesNotgoodNoBacterial7NoYesYesNoYesNotgoodNoViral8YesNoYesNoNoGoodYesViral9YesYesYesYesYesGoodYesViral10YesYesYesNoYesNotgoodNoBacterial表1.
9、1感冒诊断假想数据集30 十二月 202212清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益决策树(DecisionTree)倒立树,非叶子节点表示在一个属性上的分类检查,叶子节点表示决策判断的结果,该结果选择了正确分类较多实例的分类。决策树有很多算法(第2章)图1.1感冒类型诊断C4.5决策树30 十二月 202213清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益分类未知实例分类模型建立和检验完成后,就可以实际投入使用,即用该
10、模型对未知分类的实例进行分类。表1.2未知分类的数据实例序号Increased-lym淋巴细胞升高Leukocytosis白细胞升高Fever发烧Acute-onset起病急Sore-throat咽痛Cooling-effect退热效果Group群体发病Cold-type感冒类型NoYesYesNoNoNotgoodNo?YesNoYesNoYesGoodNo?30 十二月 202214清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益产生式规则决策树一般都可以被翻译为一个产生式规则集合。产生式规则的格式为:IF前
11、提条件THEN结论图1.1翻译为4条产生式规则(1)IFSore-throat=NoTHENCold-type=Viral(2)IFSore-throat=Yes&Cooling-effect=GoodTHENCold-type=Viral(3)IFSore-throat=Yes&Cooling-effect=NotgoodTHENCold-type=Bacterial(4)IFSore-throat=Yes&Cooling-effect=UnknownTHENCold-type=Bacterial30 十二月 202215清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济
12、体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.2.4无指导的聚类(UnsupervisedClustering)无指导(监督)聚类一种无指导(无教师)的学习;在学习训练之前,无预先定义好分类的实例,数据实例按照某种相似性度量方法,计算实例之间的相似程度,将最为相似的实例聚类在一个组簇(Cluster)中,再解释和理解每个簇的含义,从中发现聚类的意义。30 十二月 202216为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益【例1.2】给定如表1.1所示的数据集T,使用无指导聚类方法,对所有实例进行分类,解释每
13、个簇的含义。清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益挖掘准备删除Cold-type(感冒类型)属性选择算法无指导聚类有很多种算法,K-means(K-均值)算法、凝聚聚类方法、概念分层Cobweb算法、EM算法等。K-means算法是一种最为常用和易用的算法。指定初始簇K-means(K-均值)算法在聚类前指定一个初始的簇的个数,本例指定为2。30 十二月 202218清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益聚类结果
14、聚类为两个簇,每个簇有5个实例,分别为Cluster0=1,3,4,8,9Cluster1=2,5,6,7,10每个簇的概念结构可以表示为一个产生式规则(1)IFIncreased-lym=Yes&Cooling-effect=GoodTHENCluster=0(ruleaccuracy=4/4=100%,rulecoverage=4/5=80%)(2)IFSore-throat=Yes&Cooling-effect=NotgoodTHENCluster=1(ruleaccuracy=4/4=100%,rulecoverage=4/5=80%)30 十二月 202219为了规范事业单位聘用关系
15、,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.3数据查询清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益数据查询(DataQuery)通过数据查询语言在数据中找出所需要的数据或信息。什么时候使用数据挖掘,什么时候使用数据查询呢?获取浅知识或多维知识(MultidimensionalKnowledge)获取数据中潜在的、隐藏的信息或知识隐含知识(HiddenKnowledge)30 十二月 202221为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事
16、业单位工作人员聘用制度,保障用人单位和职工的合法权益1.4专家系统清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益专家系统(ExpertSystem)一种具有“智能”的计算机软件系统。能够模拟某个领域的人类专家的决策过程,解决那些需要人类专家处理的复杂问题。一般包含以规则形式表示的领域专家的知识和经验,系统就是利用这些知识和方法进行推理和判断,从而解决该领域中实际问题。专家(Expert)有能力解决领域中复杂问题的人通常被称为该领域中的专家(Expert)30 十二月 202223清华大学出版社为了规范事业单位聘
17、用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益专家系统方法与数据挖掘方法图1.2专家系统方法vs数据挖掘方法30 十二月 202224为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.5数据挖掘的过程清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益KDD过程数据挖掘是KDD过程中的一个阶段(第3章)一次数据挖掘实验分为4个步骤(1)准备数据,包括准备训练数据和检验数据(2)选择一种数据挖掘技术
18、或算法,将数据提交给数据挖掘软件(3)解释和评估结果(4)模型应用图1.3数据挖掘实验过程示意图30 十二月 202226清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.5.1准备数据是整个数据挖掘过程中较为重要和费时费力的阶段。在明确数据挖掘目标后,可以通过从传统数据库、数据仓库和平面文件三种途径收集和抽取数据。1、传统数据库操作型数据库(OperationalDatabase),它是面向日常事务处理的数据库,通常结构为关系模型。数据库中包含若干个规范化了的二维关系表。2、数据仓库数据仓库(DataWare
19、house)是面向决策支持而不是日常事务处理而设计的。3、平面文件一些数据量较小的数据集可以存储在如Excel电子表格、.csv、.arff等平面文件中。30 十二月 202227清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.5.2挖掘数据选择一种数据挖掘技术或算法,将数据提交给数据挖掘工具,应用该算法建立模型。选择数据挖掘技术或算法需要考虑(1)判断学习是有指导的还是无指导的。(2)数据集中的哪些实例和属性提交给数据挖掘工具;哪些数据实例作为训练数据;哪些数据实例作为检验数据。(3)如何设置数据挖掘算法的
20、参数。30 十二月 202228清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.5.3解释和评估结果对数据挖掘的输出进行检查,评估其是否达到挖掘目标,确定所发现的信息或知识是有价值的。数据挖掘的评估工具有多种(第5章)如果结果不理想,可以(1)(2)进行重复实验,直到得到满意结果为止。(1)使用或选择新的数据实例或属性(2)选择新的数据挖掘算法或参数一个数据挖掘过程是个迭代的过程。30 十二月 202229清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保
21、障用人单位和职工的合法权益1.5.4模型应用数据挖掘的终极目标。可以应用分类模型解决如例1.1中的疾病诊断问题;可以应用聚类模型解决对顾客的分类,找出不同类中顾客的行为特征,从而为诸如促销活动等提供决策支持;可以通过应用关联分析模型,找出顾客购买的商品之间的关联关系,对于货架摆放、商品促销等提供决策支持。30 十二月 202230为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.6数据挖掘的作用清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益数
22、据挖掘的作用两大类建立有指导的学习模型和无指导聚类模型。因变量(DependentVariables)有指导的学习模型中的输出属性的值依赖于输入属性的取值,所以输出属性又被称为因变量自变量(IndependentVariables)相对的,输入属性被称为自变量30 十二月 202232清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益数据挖掘的作用图1.4数据挖掘的作用30 十二月 202233为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.7
23、数据挖掘技术清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益数据挖掘技术(DataMiningTechnique)对一组数据应用一种数据挖掘方法。一般由一个数据挖掘算法和一个相关的知识结构,如树结构或规则来定义的。30 十二月 202235清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.7.1神经网络(NeuralNetwork)一种具有统计特性的数学模型。创建思想源于人类神经网络的结构、功能和运行过程。试图模拟人脑功能来完成学
24、习。已经成功地应用于多个领域的问题中,是非常流行的数据挖掘技术。可以建立有指导学习模型和无指导聚类模型。输入属性必须是数值的,输出属性可以是数值的也可以是分类的。30 十二月 202236清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益前馈(Feed-Forward)神经网常用的有指导的学习模型。全连接每一层的每个节点都与其下一层的所有节点相连接,而同层节点之间不相连。每个网络连接上都具有权重值,如w1j、w2j、w3j。图1.5三层全连接前馈神经网30 十二月 202237清华大学出版社为了规范事业单位聘用关系
25、,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益建立神经网络模型的两个阶段第一个阶段学习训练阶段将每个实例的输入属性值提交给输入层节点。神经网络使用输入值和网络连接权重值来计算每个实例的输出。将每个实例的输出和希望的网络输出进行比较,希望值和计算输出值之间的误差通过修改连接权值传回网络。当达到一定的迭代次数后或当网络收敛到一个预定的最低错误率时,训练终止。第二个阶段检验阶段固定网络权重,将模型用于计算新实例的输出值。30 十二月 202238清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人
26、单位和职工的合法权益1.7.2回归分析(RegressionAnalysis)一种统计分析方法。可以用来确定两个或两个以上变量之间的定量的依赖关系,并建立一个数学方程作为数学模型,来概化一组数值数据,进而进行数值数据的估值和预测。应用非常广泛。30 十二月 202239清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益办公楼数据集序号Space(x1)Offices(x2)Entrances(x3)Age(x4)Value1231022201420002233322121440003235631.533151000
27、4237932431500005240223531390006242542231690007244821.59912600082471223414290092494332316300010251744551690001125402322149000表1.3办公楼数据集30 十二月 202240清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益回归模型y=27.642500+12529.773+2553.212234.2425+52317.83=158257.56使用回归方程预估办公楼的价值。设有一座未知价值的办公楼
28、,面积为 2500、3个办公室、2 个入口,已使用 25 年,则其估计价值计算所得,为158 257.56。30 十二月 202241清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.7.3关联分析一种关联规则(AssociationRule)挖掘技术,用于发现数据中属性之间的有价值的联系。关联规则可以有多个输出属性,一个规则的输出属性可以在另一规则中作为输入属性。关联分析用来发现潜在的令人感兴趣的商品购买组合,是购物篮分析的常用技术。关联分析有多种算法,其中最著名的为Agrawal等人于1993年提出的Apr
29、iori关联分析算法。Apriori算法不支持数值型数据,在使用该算法之前,需要进行必要的数据变换。30 十二月 202242为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益【例1.3】应用Apriori算法,对表1.1中的数据集进行关联分析,找出感冒症状之间的关联关系。清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益关联规则生成三条关联规则(1)IFLeukocytosis=YesTHENFever=Yes(ruleaccuracy=5/5=1
30、00%,rulecoverage=5/8=62.5%)(2)IFIncreased-lym=NoTHENSore-throat=Yes(ruleaccuracy=4/4=100%,rulecoverage=4/7=57.1%)(3)IFCooling-effect=GoodTHENFever=Yes(ruleaccuracy=4/4=100%,rulecoverage=4/8=50%)30 十二月 202244清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.7.4聚类技术基于划分的聚类方法(K-means算法
31、)基于分层的聚类方法基于模型的聚类方法。30 十二月 202245为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.8数据挖掘的应用清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.8.1应用领域图网站公布的2012年数据挖掘的应用领域30 十二月 202247清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.8.2成功案例除了最著名的沃尔玛的尿布和啤酒之外,
32、还有(1)EmpireBlueCross公司利用DWT,甄别出虚假开立医疗凭据的医生,节省滥赔支出。(2)金融犯罪强制网络AI系统(FAIS)使用DWT,识别大型现金交易中可能存在的洗钱行为。(3)加拿大西门菲沙大学(SimonFraser)的KDD研究组根据其拥有的十几年的客户数据,进行数据挖掘分析,提出了新的电话收费和管理办法,制定出公司和客户都受益的优惠政策。(4)美国梅隆(Mellon)银行使用IntelligentAgent数据挖掘工具提高销售和定价金融产品的准确率。(5)美国西部通信(USWestCommunications)根据家庭大小、家庭成员平均年龄和所在地特征,使用数据挖掘
33、和数据仓库来确定客户的倾向和需要,从而帮助签约新客户和增加与新客户的交易额。(6)使用贝叶斯分类数据挖掘技术,萨莎(Sacha)等人成功地通过心肌SPECT图像对心肌灌注进行分类,诊断患者是否患有冠心病。(7)20世纪Fox公司利用数据挖掘技术分析票房收入来确定在各个市场环境中更容易被接受的演员和故事情节。(8)科学界普遍认为存在两种射线爆。慕克吉(Mukherjee)等人使用统计聚类分析法发现了第三类射线爆。(9)NBA球队使用IBM公司开发的数据挖掘应用软件AdvancedScout系统来优化他们的战术组合。(10)全球十大视频网站之一Netflix公司应用大数据的挖掘技术,成功营销热播剧
34、纸牌屋。30 十二月 202248为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.9Weka数据挖掘软件清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.9.1Weka简介Weka(WaikatoEnvironmentforKnowledgeAnalysis,怀卡托智能分析环境)诞生于UniversityofWaikato(新西兰怀卡托大学)。基于Java的免费开源软件。集成了有关数据挖掘的机器学习算法和统计技术,具有数据预处理、分类、聚类
35、、关联分析、属性选择和交互式可视化等功能。操作简单、易学易用,作为入门软件完成简单挖掘工作。若未安装JRE,需下载包含JRE的Weka版本(Weka3.6.10)30 十二月 202250为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益1.Weka的特点清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益Weka软件特点(1)跨平台;(2)支持结构化文本文件、数据挖掘格式文件和数据库接口;(3)可处理连续型数值数据和离散型(字符型和日期型)数据;(4
36、)具有缺失数据处理、噪声处理、标准化、数据离散化、属性构造、转换变量、拆分数据、数据平滑等数据预处理功能;(5)具有分类、聚类、关联和可视化等数据挖掘功能;(6)提供算法组合、用户自定义算法嵌入、算法参数设置功能;(7)能够生成基本报告、测试报告、输出格式,实现模型解释、模型比较、数据评分功能;(8)具有数据、挖掘过程及挖掘结果可视化功能。30 十二月 202252为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益2.Weka的文件格式清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘
37、用制度,保障用人单位和职工的合法权益ARFF文件Weka默认使用ARFF(Attribute-RelationFileFormat)。一种ASCII文本文件格式,由两部分组成第一部分为头信息(HeadInformation),包括对关系的声明和对属性的声明;第二部分为数据信息(DataInformation),即数据集中的数据实例(Instance)。图1.7表1.1感冒类型诊断数据集的arff文件格式30 十二月 202254为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益3.Weka的功能清华大学出版社为了规范事业单位聘用
38、关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益4种界面(GUI)(1)Explorer:数据挖掘用户最常用的界面。有6个选项卡(6种功能)Preprocess(预处理)Classify(分类)Cluster(聚类)Associate(关联分析)Selectattributes(属性选择)Visualize(可视化)(2)Experimenter(3)KnowledgeFlow(4)SimpleCLI30 十二月 202256清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的
39、合法权益实战1.9.2使用Weka建立决策树模型1.9.3使用Weka进行聚类1.9.4使用Weka进行关联分析30 十二月 202257为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益【例1.4】使用Weka为表1.1感冒类型诊断数据集建立决策树模型,并对表1.2中的未知类别的实例进行分类。清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益实验步骤1、准备数据2、加载和预处理数据3、建立分类模型4、分类未知实例图1.13感冒类型诊断决策树图1.1
40、4表1.2中两个未知实例的分类结果30 十二月 202259为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益【例1.5】使用Weka对表1.1感冒类型诊断数据集进行聚类,解释和评估聚类结果。清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益实验步骤1、准备数据2、加载和预处理数据3、聚类4、解释和评估聚类结果图1.17感冒类型诊断聚类结果30 十二月 202261为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度
41、,保障用人单位和职工的合法权益【例1.6】使用Weka分析表1.1感冒类型诊断数据集中数据的关联关系。清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益实验步骤1、准备数据2、加载和预处理数据3、关联分析4、解释和评估结果图1.20感冒类型诊断数据集的关联分析结果30 十二月 202263清华大学出版社为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益本讲小结图1.21第1章内容导图30 十二月 202264为了规范事业单位聘用关系,建立和完善适应社会主义市场经济体制的事业单位工作人员聘用制度,保障用人单位和职工的合法权益数据挖掘是建立模型,不是魔术!人类的本性要求我们对周围的世界进行归纳和分类,基于这个原因,模型建立是个自然的过程,有趣而富有意义!