《数据挖掘算法培训讲义分类和预测幻灯片.ppt》由会员分享,可在线阅读,更多相关《数据挖掘算法培训讲义分类和预测幻灯片.ppt(66页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据挖掘算法培训讲义分类和预测第1页,共66页,编辑于2022年,星期六2023/4/111数据挖掘:概念与技术(翻译 张磊)DM算法-1 分类和预测n什么是分类?什么是预测?n关于分类与预测的问题n通过决策树归纳来分类n贝叶斯分类n通过反向传播来分类n基于关联规则挖掘的概念来分类n其它分类方法n预测n分类准确率n总结第2页,共66页,编辑于2022年,星期六2023/4/112数据挖掘:概念与技术(翻译 张磊)n分类:n预测分类标签n基于训练集和分类属性值(分类标签)构造分类模型,然后用该模型分类新数据n预测:n对连续函数建模,即预测未知的或缺失的数据n典型应用n信用审核n目标营销n医疗诊断
2、n治疗效果分析分类与预测第3页,共66页,编辑于2022年,星期六2023/4/113数据挖掘:概念与技术(翻译 张磊)分类两步骤过程 n建立一个模型:描述预定的数据类或概念集n假定每个元组/样本可以通过类标签属性来确定它属于某个预定义的类n用于创建模型的元组集合:训练集n模型可以用分类规则,决策树,或数学公式来表达n使用模型:对未知(分类标签的)对象进行分类n模型估计准确率n已知测试样本的分类标签,将其和模型的分类结果比较n模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比n测试集应独立于训练集,否则可能导致过度拟合第4页,共66页,编辑于2022年,星期六2023/4/114数据
3、挖掘:概念与技术(翻译 张磊)分类过程(1):模型创建训练数据分类算法IF rank=professorOR years 6THEN tenured=yes 分类器(模型)第5页,共66页,编辑于2022年,星期六2023/4/115数据挖掘:概念与技术(翻译 张磊)分类过程(2):使用模型来预测分类器测试数据新数据(Jeff,Professor,4)Tenured?第6页,共66页,编辑于2022年,星期六2023/4/116数据挖掘:概念与技术(翻译 张磊)有指导的 vs.无指导的学习n有指导的学习(分类)n指导:模型的学习在被告知每个训练样本属于哪个类的“指导”下进行n基于训练集对新数据
4、进行分类n无指导的学习(聚类)n训练数据的类标签是未知的n给定一组样本,试图建立分类或数据的聚类第7页,共66页,编辑于2022年,星期六2023/4/117数据挖掘:概念与技术(翻译 张磊)DM算法-1 分类和预测n什么是分类?什么是预测?n关于分类与预测的问题n通过决策树归纳来分类n贝叶斯分类n通过反向传播来分类n基于关联规则挖掘的概念来分类n其它分类方法n预测n分类准确率n总结第8页,共66页,编辑于2022年,星期六2023/4/118数据挖掘:概念与技术(翻译 张磊)分类与预测相关问题(1):数据准备n数据清洗n数据准备是为了减少噪声数据,并处理缺失值n相关分析(特征选取)n删除无关
5、属性和冗余属性n数据转换n数据的泛化和归一化第9页,共66页,编辑于2022年,星期六2023/4/119数据挖掘:概念与技术(翻译 张磊)分类与预测的相关问题(2):分类方法的评估n预测准确率n速度和扩展能力n创建模型所需时间n应用模型所需时间n健壮性n可以处理噪声和缺失值n扩展能力n在大型数据库上的处理能力n可解释性n模型能否增强用户对数据的理解和洞察力n是否良好的规则n决策树的大小n分类规则的简洁程度第10页,共66页,编辑于2022年,星期六2023/4/1110数据挖掘:概念与技术(翻译 张磊)DM算法-1 分类和预测n什么是分类?什么是预测?n关于分类与预测的问题n通过决策树归纳来
6、分类n贝叶斯分类n通过反向传播来分类n基于关联规则挖掘的概念来分类n其它分类方法n预测n分类准确率n总结第11页,共66页,编辑于2022年,星期六2023/4/1111数据挖掘:概念与技术(翻译 张磊)通过决策树归纳进行分类n决策树 n类似于流程图的树型结构n内部节点代表对某个属性的一次测试n分支代表测试的输出结果n叶节点代表分类标签或分布n决策树的生成包括两个阶段n树的创建n首先,所有训练样本都位于根节点n递归地基于选择属性来划分样本集n树的修剪n识别并删除那些反映噪声或孤立点的分支n应用决策树:对未知样本进行分类n在决策树上测试样本的各个属性值第12页,共66页,编辑于2022年,星期六
7、2023/4/1112数据挖掘:概念与技术(翻译 张磊)训练数据集接下来是Quinlans ID3算法示例第13页,共66页,编辑于2022年,星期六2023/4/1113数据挖掘:概念与技术(翻译 张磊)输出输出:预测预测“是否会购买计算机是否会购买计算机”的决策树的决策树age?overcaststudent?credit rating?noyesfairexcellent40nonoyesyesyes30.40第14页,共66页,编辑于2022年,星期六2023/4/1114数据挖掘:概念与技术(翻译 张磊)决策树归纳算法n基本算法(贪婪算法)n树的创建是一种自顶向下递归的分而治之方法n
8、首先,所有训练样本都位于根节点n属性都是类别型变量(若为连续值,则需先离散化)n基于选择的属性,对样本进行递归划分n通过启发式搜索或统计量来选取测试属性(例如,信息增益)n停止划分的条件n对于某个给定节点,所有样本都属于同一分类n没有剩余属性可供进一步划分 按照少数服从多数的原则来确定叶节点的分类n所有样本都已分类完毕第15页,共66页,编辑于2022年,星期六2023/4/1115数据挖掘:概念与技术(翻译 张磊)属性选取的度量n信息增益(ID3/C4.5)n所有属性应为类别型变量n可以通过改进来处理连续值属性nGini索引(IBM IntelligentMiner)n所有属性应为连续值变量
9、n对于每个属性,假定已存在若干可能的切分点n可能需要其它工具(如聚类)的辅助来获取切分点n可以通过改进来处理类别型属性第16页,共66页,编辑于2022年,星期六2023/4/1116数据挖掘:概念与技术(翻译 张磊)信息增益(ID3/C4.5)n选取具有最高信息增益的属性n假定存在两个分类,P 和Nn样本集S中包含p个样本属于类别P,n个样本属于类别Nn用于判别S中任意样本属于类别P 或N 的信息量,定义为第17页,共66页,编辑于2022年,星期六2023/4/1117数据挖掘:概念与技术(翻译 张磊)决策树归纳中的信息增益n假定通过属性A可以将样本集S划分为多个集合S1,S2,Sv n如
10、果Si 包含pi 个P 类样本和ni 个N 类样本,熵,或将S所有子树中的对象进行分类所需的期望信息i 定义为n在A上分枝将获得的编码信息是第18页,共66页,编辑于2022年,星期六2023/4/1118数据挖掘:概念与技术(翻译 张磊)通过计算信息增益来选取属性g类别P:buys_computer=“yes”g类别N:buys_computer=“no”gI(p,n)=I(9,5)=0.940g计算属性age的熵:因此因此同样的同样的第19页,共66页,编辑于2022年,星期六2023/4/1119数据挖掘:概念与技术(翻译 张磊)Gini 索引(IBM IntelligentMiner)
11、n如果数据集T 包含n种类别的样本,gini index,gini(T)定义如下 其中pj 是类别j 在T 中所占的百分比n如果数据集T 被划分为两个子集T1 和T2,大小分别为N1 和N2,该划分的gini index gini(T)定义为n选取具有最小ginisplit(T)的属性,对T进行分裂(对每个属性,需枚举出所有可能的切分点).第20页,共66页,编辑于2022年,星期六2023/4/1120数据挖掘:概念与技术(翻译 张磊)从树中抽取分类规则n用IF-THEN规则来作为知识表示n从根节点到叶节点的每条路径,对于于一条规则n路径上的每个(属性-值)对被联合起来n叶节点给出了类别预测
12、n规则非常易懂n示例IF age=“=30”AND student=“no”THEN buys_computer=“no”IF age=“40”AND credit_rating=“excellent”THEN buys_computer=“yes”IF age=“40”AND credit_rating=“fair”THEN buys_computer=“no”第21页,共66页,编辑于2022年,星期六2023/4/1121数据挖掘:概念与技术(翻译 张磊)避免分类中的过度训练n生成的树可能会过度拟合了训练数据n分支太多,某些分支其实反映的是特例(由噪声数据或孤立点引起的)n导致预测未知样
13、本的准确率很差n避免过度训练的两种方法n预修剪:尽早中止树的创建当某个分裂会导致优度度量低于给定阈值时,就不再分裂节点n难于确定合适的阈值n后修剪:从“已长成的”树中删除分支得到多个修剪后的树n使用与训练数据不同的验证集来决定哪个是“最佳剪枝树”第22页,共66页,编辑于2022年,星期六2023/4/1122数据挖掘:概念与技术(翻译 张磊)决定最终树大小的方法n将数据集的2/3作为训练集,1/3作为测试集n使用交叉验证,例如,10-fold交叉验证n使用全部数据来训练n但运用统计检验(例如,chi-square)来估计对某个节点的分裂或修剪是否能改善整体分布n使用最小描述长度(MDL)原则
14、:n当编码量达到最小时停止树的生长第23页,共66页,编辑于2022年,星期六2023/4/1123数据挖掘:概念与技术(翻译 张磊)决策树归纳的改进n允许处理连续值属性n动态地对连续属性值离散化(划分为若干区间)n处理缺失的属性值n赋以最常见的属性值n计算各种取值的概率n属性创建n基于树中很少出现的那些属性,创建新的属性(例如对类别型变量分组,因为信息增益偏向于取值多的属性)n避免碎片(过细的分支),重复(属性在路径上被多次测试)和复制(出现相同子树)第24页,共66页,编辑于2022年,星期六2023/4/1124数据挖掘:概念与技术(翻译 张磊)大型数据库中的分类n分类对于分类算法,很多
15、统计学家和机器学习研究者进行了广泛的研究n扩展性:对于具有上百万的样本和数百个属性类别的数据集,分类所需时间可接受n为什么要采用决策树归纳?n比较快的学习速度(和其它分类方法相比)n可以转换为简单易懂的分类规则n可以用SQL查询来实现n分类准确率和其它方法相近第25页,共66页,编辑于2022年,星期六2023/4/1125数据挖掘:概念与技术(翻译 张磊)DM算法-1 分类和预测n什么是分类?什么是预测?n关于分类与预测的问题n通过决策树归纳来分类n贝叶斯分类n通过反向传播来分类n基于关联规则挖掘的概念来分类n其它分类方法n预测n分类准确率n总结第26页,共66页,编辑于2022年,星期六2
16、023/4/1126数据挖掘:概念与技术(翻译 张磊)贝叶斯分类:为什么?n概率学习:计算假设的先验概率,是处理某些学习问题的常见方法n递增的:每个训练样本可以逐步增加/降低假设正确的概率.已有知识可以与观察数据合并.n概率预测:对多个假设进行预测,根据概率赋于不同权重n标志的:尽管贝叶斯分类方法不容易实施,它们依然可以提供决策制定的优化标准,对其它方法进行评估第27页,共66页,编辑于2022年,星期六2023/4/1127数据挖掘:概念与技术(翻译 张磊)贝叶斯定理n给定训练数据D,假设h 的后验概率,P(h|D)满足贝叶斯定理nMAP(最大后验概率)假设n难以实施:需要首先知道多个概率,
17、计算开销大第28页,共66页,编辑于2022年,星期六2023/4/1128数据挖掘:概念与技术(翻译 张磊)贝叶斯分类n分类问题被形式化为计算后验概率:n计算P(C|X)=元组X(=)属于类别C的概率n例如 P(类别=N|outlook=sunny,windy=true,)n主要思想:将样本X分类到P(C|X)取最大值的类别标签C第31页,共66页,编辑于2022年,星期六2023/4/1131数据挖掘:概念与技术(翻译 张磊)后验概率的估计n贝叶斯定理:P(C|X)=P(X|C)P(C)/P(X)n对于所有类别来说,P(X)是不变的nP(C)=属于类别C的样本占总体的比率n使得P(C|X)
18、取最大值的类别C=使得P(X|C)P(C)取最大值的类别Cn问题:要计算P(X|C)并不容易!第32页,共66页,编辑于2022年,星期六2023/4/1132数据挖掘:概念与技术(翻译 张磊)朴素贝叶斯分类n朴素假设:属性无关性P(x1,xk|C)=P(x1|C)P(xk|C)n如果第i个属性是类别型属性:将P(xi|C)估计为类别C中第i个属性取值为xi的样本所占百分比n如果第i个属性是连续型属性:将P(xi|C)估计为其高斯密度函数n两种情况下都容易计算出来第33页,共66页,编辑于2022年,星期六2023/4/1133数据挖掘:概念与技术(翻译 张磊)“去不去打网球”示例:估计P(x
19、i|C)outlookP(sunny|p)=2/9P(sunny|n)=3/5P(overcast|p)=4/9P(overcast|n)=0P(rain|p)=3/9P(rain|n)=2/5temperatureP(hot|p)=2/9P(hot|n)=2/5P(mild|p)=4/9P(mild|n)=2/5P(cool|p)=3/9P(cool|n)=1/5humidityP(high|p)=3/9P(high|n)=4/5P(normal|p)=6/9P(normal|n)=2/5windyP(true|p)=3/9P(true|n)=3/5P(false|p)=6/9P(false
20、|n)=2/5P(p)=9/14P(n)=5/14第34页,共66页,编辑于2022年,星期六2023/4/1134数据挖掘:概念与技术(翻译 张磊)“去不去打网球”示例:对X分类n未知样本X=nP(X|p)P(p)=P(rain|p)P(hot|p)P(high|p)P(false|p)P(p)=3/92/93/96/99/14=0.010582nP(X|n)P(n)=P(rain|n)P(hot|n)P(high|n)P(false|n)P(n)=2/52/54/52/55/14=0.018286n样本X被分类为类别n(不去打网球)第35页,共66页,编辑于2022年,星期六2023/4/
21、1135数据挖掘:概念与技术(翻译 张磊)无关性假设n 方便了计算n 当假设满足时可以得到最佳的分类器n 但实际上该假设很难满足,因为属性(变量)常常是相关的n克服限制的做法:n贝叶斯网络,将贝叶斯推理和属性间的因果关系相结合n决策树,每次仅对单个属性进行判断,首先考虑最重要的属性第36页,共66页,编辑于2022年,星期六2023/4/1136数据挖掘:概念与技术(翻译 张磊)贝叶斯信念网络(I)家族病史家族病史肺癌肺癌X光透视光透视为为+烟民烟民肺气肿肺气肿呼吸困难呼吸困难LCLC(FH,S)(FH,S)(FH,S)(FH,S)0.80.20.50.50.70.30.10.9贝叶斯信念网络
22、贝叶斯信念网络肺癌肺癌(LungCancer)变量的变量的条件概率条件概率第37页,共66页,编辑于2022年,星期六2023/4/1137数据挖掘:概念与技术(翻译 张磊)贝叶斯信念网络(II)n贝叶斯信念网络允许变量子集是条件无关的n因果关系的图模型n在以下情况下训练贝叶斯信念网络(权重的计算)n给定网状结构和全部变量:容易n给定网状结构和部分变量(梯度下降方法)n事先未知网状结构第38页,共66页,编辑于2022年,星期六2023/4/1138数据挖掘:概念与技术(翻译 张磊)DM算法-1 分类和预测n什么是分类?什么是预测?n关于分类与预测的问题n通过决策树归纳来分类n贝叶斯分类n通过
23、反向传播来分类n基于关联规则挖掘的概念来分类n其它分类方法n预测n分类准确率n总结第39页,共66页,编辑于2022年,星期六2023/4/1139数据挖掘:概念与技术(翻译 张磊)神经网络n优点n预测准确率一般较高n稳定,可以适应包含脏数据的训练样本n可以输出离散值,连续值,或者由多个(离散或连续)属性组成的向量n对训练好的模型可以快速评估n缺点n训练时间长n模型(权重)难以理解n难以结合领域知识第40页,共66页,编辑于2022年,星期六2023/4/1140数据挖掘:概念与技术(翻译 张磊)神经元n通过向量积和非线性函数,将n 维输入向量x 映射到向量ymk-f加权加权求和求和输入输入向
24、量向量 x输出输出 y激活激活函数函数权重权重向量向量 ww0w1wnx0 x1xn第41页,共66页,编辑于2022年,星期六2023/4/1141数据挖掘:概念与技术(翻译 张磊)训练神经网络n训练的最终目标n得到一组权重,使得训练集中的绝大多数元组可以被正确分类 n步骤n用随机数来初始化权重n逐个处理元组,作为神经网络的输入层n对于每个单元n计算该单元全部输入的线性组合,作为其净输入n使用激活函数来计算该单元的输出值n误差的计算n调整权重和偏置第42页,共66页,编辑于2022年,星期六2023/4/1142数据挖掘:概念与技术(翻译 张磊)多层感知器输出输出 层节点层节点输入层节点输入
25、层节点隐层节点隐层节点输出向量输出向量输入向量输入向量:xiwij第43页,共66页,编辑于2022年,星期六2023/4/1143数据挖掘:概念与技术(翻译 张磊)DM算法-1 分类和预测n什么是分类?什么是预测?n关于分类与预测的问题n通过决策树归纳来分类n贝叶斯分类n通过反向传播来分类n基于关联规则挖掘的概念来分类n其它分类方法n预测n分类准确率n总结第45页,共66页,编辑于2022年,星期六2023/4/1145数据挖掘:概念与技术(翻译 张磊)其它分类方法nK-近邻分类器 (k-nearest neighbor classifier)n基于案例的推理 (case-based rea
26、soning)n遗传算法(Genetic algorithm)n粗糙集方法 (Rough set approach)n模糊集方法(Fuzzy set approaches)第46页,共66页,编辑于2022年,星期六2023/4/1146数据挖掘:概念与技术(翻译 张磊)基于实例的方法n基于实例的学习:n保存训练样本并延迟处理(“懒惰的评估”),知道需要对新的实例进行分类时再进行学习n常见方法nk近邻方法n用欧式空间中的点来代表实例n局部加权回归n构造局部估计值n基于案例的推理n使用符号表达方式和基于知识的推理第47页,共66页,编辑于2022年,星期六2023/4/1147数据挖掘:概念与技
27、术(翻译 张磊)K-近邻算法n所有实例都对应于n维空间中的点n根据欧式距离来定义最近的邻居n目标函数可以输出离散值或连续值n对于离散值,k-NN返回xq的k个近邻中最常见的值nVonoroi图:决策面由某个典型训练集的1-NN决定._+_xq+_+_+.第48页,共66页,编辑于2022年,星期六2023/4/1148数据挖掘:概念与技术(翻译 张磊)k-NN算法讨论nk-NN算法对连续值的处理n计算k 近邻的均值n加权距离的近邻算法n根据每个邻居和查询点xq之间的距离予以加权n越近的邻居,权重越大n对于实数值的处理与之类似n由于用k个近邻来判别,因此在脏数据上表现稳定n维度的负面影响:无关属
28、性可能会严重影响距离的准确计算n可以拉伸坐标轴或者除去最不相关的属性第49页,共66页,编辑于2022年,星期六2023/4/1149数据挖掘:概念与技术(翻译 张磊)基于案例的推理(CBR)n同样采用:懒惰评估+分析类似实例n差异:实例不再是“欧式空间中的点”n示例:CADET中的水龙头问题(Sycara et al92)n方法n使用符号描述来表示实例(例如,功能图)n合并多个检索出来的案例n案例检索,基于知识的推理,和问题解决的紧密耦合n研究问题n基于句法相似度的索引技术,如果解答之间出现不相容,可能需要退回搜索其它解第50页,共66页,编辑于2022年,星期六2023/4/1150数据挖
29、掘:概念与技术(翻译 张磊)评论懒惰学习和积极学习n基于实例的学习:懒惰评估 n决策树和贝叶斯分类:积极学习n主要差异n懒惰方法进行决策时要在训练集D上对新实例xq查询n积极方法则不需要,因为它们已经有了全局估计n效率:懒惰学习-训练时间短,但预测所需时间长n准确率n懒惰方法可以有效利用一个更广阔的假设空间,因为采用了多个局部线性函数来构造出目标函数的全局估计n积极方法:必须对整个实例空间提交单个假设,来覆盖整个空间第51页,共66页,编辑于2022年,星期六2023/4/1151数据挖掘:概念与技术(翻译 张磊)遗传算法nGA:基于对生物进化的模拟n每个规则用位串(string of bit
30、s)表达n创建一个由随机产生的规则组成的初始群体n例如,规则”IF A1 and Not A2 then C2”,可被编码为100 n根据适者生存的原则,形成由当前群体中最适合的规则组成新的群体,以及这些规则的子女n规则的适应程度,用它对训练样本集的分类准确率评估n子女通过使用诸如交叉和变异等遗传操作来创建第52页,共66页,编辑于2022年,星期六2023/4/1152数据挖掘:概念与技术(翻译 张磊)粗糙集方法n粗糙集用于近似地(粗糙地)定义等价类n给定类C的粗糙集定义用两个集合近似:C的下近似(确定为C类)和C的上近似(不能判断它不属于C类)n找出最小属性子集(用于特征选取)是NP-难处
31、理的,但可以使用识别矩阵存放每对数据样本属性值之间的差别,以降低计算复杂度第53页,共66页,编辑于2022年,星期六2023/4/1153数据挖掘:概念与技术(翻译 张磊)模糊集方法n模糊逻辑使用0.0和1.0之间的真值(truth value)表示一个特定的值属于给定类的程度,而不是用类或集合的精确截断(例如使用模糊关系图)n属性值被转换为模糊值n例如,将连续属性”收入”的值映射到离散分类low,medium,high上,并计算模糊成员关系或真值n一个给定值可以对应多个模糊值n每个可用规则对样本的分类进行投票n组合上面得到的和,得到一个系统返回的值第54页,共66页,编辑于2022年,星期
32、六2023/4/1154数据挖掘:概念与技术(翻译 张磊)DM算法-1 分类和预测n什么是分类?什么是预测?n关于分类与预测的问题n通过决策树归纳来分类n贝叶斯分类n通过反向传播来分类n基于关联规则挖掘的概念来分类n其它分类方法n预测n分类准确率n总结第55页,共66页,编辑于2022年,星期六2023/4/1155数据挖掘:概念与技术(翻译 张磊)什么是预测?n预测和分类相似n首先,建立一个模型n然后,使用模型来预测未知值n主要的预测方法是回归n线性和多元回归n非线性回归n预测和分类不同n分类用于预测类别标签n预测对连续函数建模第56页,共66页,编辑于2022年,星期六2023/4/115
33、6数据挖掘:概念与技术(翻译 张磊)n建立预测模型:预测数据的取值,或者是基于数据库中的数据建立泛化的线性模型n只能预测值域或类别分布n一般步骤:n 最小的泛化n 属性相关分析n 创建泛化的线性模型n 预测n识别出对预测产生影响的主要因子n数据相关分析:不确定性度量,熵分析,专家判断,等待n多层次预测:下钻和上卷分析数据库中建立预测模型第57页,共66页,编辑于2022年,星期六2023/4/1157数据挖掘:概念与技术(翻译 张磊)n线性回归:Y=+Xn两个参数,和决定一条直线.可以根据数据估计出这两个参数的值n在已知数据Y1,Y2,X1,X2,上使用最小二乘法求解n多元回归:Y=b0+b1
34、 X1+b2 X2.n很多非线性函数可转换为上述形式n对数-线性模型:n通过低阶表的乘积来近似出联合概率多路表n概率:p(a,b,c,d)=ab acad bcd预测中的回归分析和对数-线性模型第58页,共66页,编辑于2022年,星期六2023/4/1158数据挖掘:概念与技术(翻译 张磊)局部加权回归n在查询实例xq附近的局部区域创建f 的显式近似n局部加权线性回归:n在xq附近用线性函数来近似目标函数f:n最小化平方误差:距离递减的权重 Kn梯度下降训练法:n大多数情况下,目标函数被近似为常数、线性函数或二次函数第59页,共66页,编辑于2022年,星期六2023/4/1159数据挖掘:
35、概念与技术(翻译 张磊)预测:数值型数据第60页,共66页,编辑于2022年,星期六2023/4/1160数据挖掘:概念与技术(翻译 张磊)预测:类别型数据第61页,共66页,编辑于2022年,星期六2023/4/1161数据挖掘:概念与技术(翻译 张磊)DM算法-1 分类和预测n什么是分类?什么是预测?n关于分类与预测的问题n通过决策树归纳来分类n贝叶斯分类n通过反向传播来分类n基于关联规则挖掘的概念来分类n其它分类方法n预测n分类准确率n总结第62页,共66页,编辑于2022年,星期六2023/4/1162数据挖掘:概念与技术(翻译 张磊)分类准确率:错误率的估计n划分数据集:训练和测试n
36、使用两个独立的数据集,例如:训练集(2/3),测试集(1/3)n适用于具有大量样本的数据集n交叉检验n将数据集划分为k 个子集n使用k-1 个子集作为训练数据,剩下一个子集作为测试数据-k-折交叉检验n适用于中等规模的数据集n步步为营法(带放回的抽样)n适用于小规模数据集第63页,共66页,编辑于2022年,星期六2023/4/1163数据挖掘:概念与技术(翻译 张磊)强化和装袋n强化方法可以提高分类准确率n可用于决策树或贝叶斯分类器n训练出一批分类器,每个分类器会对前一个分类器中分类错误的样本,进行强化学习n这种强化常常是通过对训练样本逐步加权来实现,每个分类器训练后对其分类错误的样本增加权
37、重,从而导致下一个分类器更加”关注”这些样本n强化学习需要多倍的训练时间,但存储空间不变第64页,共66页,编辑于2022年,星期六2023/4/1164数据挖掘:概念与技术(翻译 张磊)强化学习技术(II)算法n首先给每个样本赋予相同权重 1/NnFor t=1,2,T Do n得到w(t)下的假设(分类器)h(t)n计算h(t)的错误,并根据错误对样本重新加权n规范化w(t+1),使它们的总和为1n输出所有假设的加权求和,每个假设的权重是根据它在训练集上的准确率而定第65页,共66页,编辑于2022年,星期六2023/4/1165数据挖掘:概念与技术(翻译 张磊)DM算法-1 分类和预测n什么是分类?什么是预测?n关于分类与预测的问题n通过决策树归纳来分类n贝叶斯分类n通过反向传播来分类n基于关联规则挖掘的概念来分类n其它分类方法n预测n分类准确率n总结第66页,共66页,编辑于2022年,星期六2023/4/1166数据挖掘:概念与技术(翻译 张磊)