2022年数据挖掘期末实验报告.docx-淘文阁

资源描述

《2022年数据挖掘期末实验报告.docx》由会员分享，可在线阅读，更多相关《2022年数据挖掘期末实验报告.docx（31页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、精选学习资料 - - - - - - - - - 数据挖掘技术期末报告理学院姓名：学号：联系电话：专业班级：评分：优| 良 | 中 | 及格 | 不及格1 名师归纳总结 - - - - - - -第 1 页,共 16 页精选学习资料 - - - - - - - - - 一、试验目的基于从 UCI 公开数据库中下载的数据, 使用数据挖掘中的分类算法, 用 Weka平台的基本功能对数据集进行分类, 对算法结果进行性能比较, 画出性能比较图,另外针对不同数量的训练集进行对比试验,并画出性能比较图训练并测试；二、试验环境试验采纳 Weka 平台,数据使用来自从UCI 公开数据库中下载,主要使用其中的

2、Breast Cancer Wisc-onsin Original Data Set 数据； Weka 是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托高校开发；Weka 使用 Java写成的,并且限制在 GNU 通用公共证书的条件下发布；它可以运行于几乎全部操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件；Weka 供应了一个统一界面,可结合预处理以及后处理方法,将很多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果；三、试验步骤3.1 数据预处理本试验是针对威斯康辛州原始的乳腺癌数据集进行分类, 该表含有 Sample code number（样本

3、代码 ,Clump Thickness（丛厚度）,Uniformity of Cell Size（均匀的细胞大小）,Uniformity of Cell Shape （匀称的细胞外形）,Marginal Adhesion（边际粘连）,Single Epithelial Cell Size（单一的上皮细胞大小） ,Bare Nuclei（裸核）,Bland Chromatin（平淡的染色质）,Normal Nucleoli（正常的核仁）, Mitoses（有丝分裂）,Class（分类）,其中其次项到第十项取值均为 1-10,分类中 2代表良性, 4代表恶性；通过试验,期望能找出患乳腺癌客户

4、各指标的分布情形；该数据的数据属性如下：1. Sample code number（numeric）,样本代码；2. Clump Thickness（numeric）,丛厚度；3.Uniformity of Cell Size （numeric）匀称的细胞大小；4. Uniformity of Cell Shape（numeric）,匀称的细胞外形；5.Marginal Adhesion（numeric）,边际粘连；6.Single Epithelial Cell Size（numeric）,单一的上皮细胞大小；7.Bare Nuclei（numeric）,裸核；2 名师归纳总结 - - -

5、- - - -第 2 页,共 16 页精选学习资料 - - - - - - - - - 8.Bland Chromatin（numeric）,平淡的染色质；9. Normal Nucleoli （numeric）,正常的核仁；10.Mitoses（numeric）,有丝分裂；11.Class（enum）,分类；3.2 数据分析由 UCI 公开数据库得到一组由逗号隔开的数据,复制粘贴至 excel 表中,选择数据分列下一步逗号完成,该数据是有关乳腺癌数据集, 有11 个属性,分别为 Sample code number（样本代码 ,Clump Thickness（丛厚度）,Uniformity

6、 of Cell Size （匀称的细胞大小）,Uniformity of Cell Shape （匀称的细胞外形）,Marginal Adhesion（边际粘连）,Single Epithelial Cell Size（单一的上皮细胞大小）,Bare Nuclei（裸核）,Bland Chromatin（平淡的染色质）,Normal Nucleoli（正常的核仁）, Mitoses（有丝分裂）,Class（分类）,由于复制粘贴过来的数据没有属性,所以手工添加一行属性名；Weka分类数据需把 excel 保存为一个 csv 文件；图 1 中显示的是使用“Exploer” 打开“ 乳腺癌数据集

7、.csv.arff” 的情形 .如图 1 所示：3 名师归纳总结 - - - - - - -第 3 页,共 16 页精选学习资料 - - - - - - - - - （图 1）3.2.1 数据预处理很明显发觉,所用的数据都是（numeric）数值型的,需要将数值型离散化,将“Clump Thickness ” ,“ Uniformity of Cell Size ”,“ Uniformity of Cell Shape” ,“Marginal Adhesion ”,“Marginal Adhesion ” ,“Bare Nuclei ” ,“Bland Chromatin ” ,“ Norma

8、l Nucleoli ” ,“ Mitoses” ,“ Class”离散化；我们需要借助 Weka中名为“ Discretize” 的 Filter 来完成；在区域 2 中点“ Choose” ,显现一棵“Filter 树” ,逐级找到“weka.filters.unsupervised.attribute.Discretize”点击,即可；现在“ Choose” 旁边的文本框应当显示 “ Discretize -B 10 -M -0.1 -R first-last ” ；如图箭头所示, 点击这个文本框会弹出新窗口以修改离散化的参数；我们需将第1,2,3,4,5,6,7,8,9,10项离散化,

9、其中第一项为id,可移除；把 attributeIndices 右边改成“1,2,3,4,5,6,7,8,9,10” ；我们把这两个属性都分成10 段,于是把“bins”改成“ 10” ；其它不变；点“ OK” 回到“ Explorer”,可以看到“ Clump Thickness ” ,“ Uniformity of Cell Size ”,“ Uniformity of Cell Shape ”,“Marginal Adhesion ” ,“Marginal Adhesion ” ,“Bare Nuclei ”,“Bland Chromatin ” ,“ Normal Nucleoli ”

10、 ,“ Mitoses” , 已经被离散化成分类型的属性；其中一项如图 2 所示, 10 项属性可视化如图 3 所示：（图 2）4 经移除后剩 10 项属性,名师归纳总结 - - - - - - -第 4 页,共 16 页精选学习资料 - - - - - - - - - （图 3）3.3.1 决策树分类用“ Explorer” 打开刚才得到的 “ 乳腺癌数据集.csv.arff”,并切换到“ Class” ；点“Choose” 按钮挑选“treeweka.classifiers.trees.j48”,这是 Weka 中实现的决策树算法；得到结果如图4和图5所示：5 名师归纳总结 - - - -

11、 - - -第 5 页,共 16 页精选学习资料 - - - - - - - - - （图 4）（图 5）这个是针对第一项Clump Thickness 丛厚度和第九项 Mitoses 有丝分裂项运用 C4.5 决策算法得到误差分析的结果,分析可知总共有 699 个数据进行分类,Clump Thickness（丛厚度）其中 102 个为正确分类,正确分类率为 26.03726%,517 个为错误分类,错误分类为73.9268%；而第九项 Mitoses 有丝分裂项也是分析 699 个数据,其中正确分类有579 个数据,正确率为82.8326%,错误分类的有 120 个,错误分类的有17.167

12、4%；依据混淆矩阵,被错误分类实例很多如图6 名师归纳总结 - - - - - - -第 6 页,共 16 页精选学习资料 - - - - - - - - - 图 6 3.3.2 贝叶斯分类为了与上面决策树作比较,贝叶斯也挑选第一项第一项 Clump Thickness丛厚度和第九项 Mitoses 有丝分裂项,得到结果如下图 7,8 所示 : 图 7 7 名师归纳总结 - - - - - - -第 7 页,共 16 页精选学习资料 - - - - - - - - - 图 8这个是针对第一项Clump Thickness丛厚度和第九项 Mitoses 有丝分裂项运用贝叶斯算法得到误差分析的结果

13、, 分析可知总共有 699个数据进行分类,Clump Thickness（丛厚度）其中 198 个为正确分类,正确分类率为 28.3262%,501 个为错误分类, 错误分类为 71.6738%；而第九项 Mitoses 有丝分裂项其中正确分类有 467 个数据,正确率为 66.8097%,错误分类的有 232 个,错误分类的有 33.1903%；依据混淆矩阵,被错误分类实例很多,相对来说,Clump Thickness丛厚度用两种方法混淆程度差不多,错综复杂,而 Mitoses 有丝分裂项用贝叶斯分类明显混淆矩阵要比用决策树方法混淆率要低,中间第六项到就第九项明显混响不是很多,如图 9 所

14、示；基于以上两种分析, 建议用贝叶斯分类方法分类, 降低混淆率,提高正确率；8 名师归纳总结 - - - - - - -第 8 页,共 16 页精选学习资料 - - - - - - - - - （图 9）3.3.3K 最近邻算法分类在刚才进行决策树分类和贝叶斯分类的的的那个页面,点“Choose” 按钮挑选“laze-ibk” ,挑选 Cross-Validatioin folds=10,然后点击“start” 按钮：同样挑选图中箭头指向挑选属性,然后点击“start” 按钮：为了与上面决策树和贝叶斯作比较,K 最近邻算法分类也挑选第一项 Clump Thickness丛厚度和第九项 Mito

15、ses 有丝分裂项,得到结果如下图 10,11 所示 : 9 名师归纳总结 - - - - - - -第 9 页,共 16 页精选学习资料 - - - - - - - - - （图 10）（图 11）这个是针对第一项Clump Thickness丛厚度和第九项 Mitoses 有丝分裂项运用 K 最近邻算法得到误差分析的结果,分析可知总共有 699 个数据进行分类,Clump Thickness（丛厚度）其中 191 个为正确分类,正确分类率为 27.3247%,10 名师归纳总结 - - - - - - -第 10 页,共 16 页精选学习资料 - - - - - - - - - 508 个

16、为错误分类,错误分类为72.6753%；而第九项 Mitoses 有丝分裂项其中正确分类有 546 个数据,正确率为 78.1116%,错误分类的有 153 个,错误分类的有 21.8884%；依据混淆矩阵,被错误分类实例很多,相对来说,Clump Thickness 丛厚度与前两个算法混淆程度差不多,错综复杂,甚至比前两个更要复杂,而 Mitoses 有丝分裂项用 K 最近邻算法明显混淆矩阵要比用决策树方法和贝叶斯方法混淆率要低,中间第四项到就最终明显混响不是很多,如图 12 所示：（图 12）3.4 三种分类方法结果比较如表所示：Clump Thickness决策树贝叶斯 K 最近邻

17、算法26.03726% 28.3262% 27.3247%,正确率Clump Thickness0.3109 0.3119 0.3227 11 名师归纳总结 - - - - - - -第 11 页,共 16 页精选学习资料 - - - - - - - - - 标准误差Mitoses 正确率82.8326% 66.8097% 78.1116% Mitoses 标准误差0.1755 0.2104 0.1989 四、三种算法在进行测试的性能比较要进行性能比较,就需比较这10 项属性的猜测,同上文一样,这里只比较第一项 Clump Thickness 丛厚度和第九项 Mitoses 有丝分裂项,点“m

18、ore options.” 按钮 , 选勾选“out prediction” ,其他不勾选,然后点击“OK” 按钮如图 13 所示：（图 13）得到性能测试结果如下, 图 14 分别为第一项 Clump Thickness丛厚度用决策树方法、贝叶斯、 K 最近邻算法猜测的结果,图15 分别为第九项 Mitoses 有丝分裂项用决策树方法、贝叶斯、K 最近邻算法猜测的结果；结果如下：12 名师归纳总结 - - - - - - -第 12 页,共 16 页精选学习资料 - - - - - - - - - 13 名师归纳总结 - - - - - - -第 13 页,共 16 页精选学习资料 - -

19、- - - - - - - （图 14）分析第一项 Clump Thickness丛厚度；性能分析应当包括两个部分,一个部分是测试速度,另一个部分是测试的质量；由于本次使用所使用的数据量一般,不是很多, 在测试速度的对比上相差太少,上,可以从上述数据中很明显得到,在“无法进行精确的分析；而在测试质量 error” 错误项 ,决策树和 K 最近邻算法很多加号, 这说明错误率很大, 从而导致分类质量的降低；而对于“ probability distribution ”（概率分布项 ,决策树和 K最近邻算法分布很纷乱,前六项属性的概率分布波动较大,而贝叶斯与其相比, “ error” 错误项

20、几乎无“+” ,说明其错误率相对其他两种方法,贝叶斯的错误率降低很多,而且在“probability distribution ”（概率分布项 ,上,分布很整齐,所以从性能角度上讲,贝叶斯算法好一点；14 名师归纳总结 - - - - - - -第 14 页,共 16 页精选学习资料 - - - - - - - - - 15 名师归纳总结 - - - - - - -第 15 页,共 16 页精选学习资料 - - - - - - - - - （图 15）观看图 15,分析第九项 Mitoses 有丝分裂项, 同分析第一项 Clump Thickness丛厚度一样；在测试速度的对比上相差太少

21、,量上,可以从上述数据中很明显得到,在“无法进行精确的分析；而在测试质 error” 错误项 ,决策树与贝叶斯相比,明显决策树加号要多, 这说明决策树算法错误率很大,从而导致分类质量的降低,而比较贝叶斯和 K 最近邻算法,“ error” 错误项贝叶斯错误率明显比 K最近邻算法要多,而对于“probability distribution ” （概率分布项 ,贝叶斯与 K最近邻算法分布相对纷乱,对于K 最近邻算法,第一项属性Clump Thickness丛厚度的全部概率分布大致相同,对于第3、5、11、12. 项数据,分布很整齐；所以从性能角度上讲, K最近邻算法好一点；五、试验总结以上

22、试验是对 Breast Cancer Wisconsin Original Data Set数据做了一些分析,通过本次数据挖掘试验, 重新学习了一下数据挖掘的相关概念和学问,懂得了数据挖掘的用途和使用步骤,进一步学习了WEKA开源数据挖掘工具在数据挖掘学习中的使用方法；通过本次试验, 也熟悉到了数据挖掘对大量的数据进行探索后,能揭示出其中隐匿着的规律性内容,并且由此进一步形成模型化的分析方法；可以建立整体或某个业务过程局部的不同类型的模型,可以描述进展的现状和规律性, 而且可以用来猜测当条件变化后可能发生的状况；这可以为后续的研究供应更好的支持依据；本次试验进行比较顺当, 使我对如何在 Weka 中进行分类分析有了更深刻的明白,对 Weka中进行分类分析的决策树算法、贝叶斯算法、K 最近邻算法都有了进一步的懂得,同时也深刻体会到数据预处理对于数据挖掘的重要性；16 名师归纳总结 - - - - - - -第 16 页,共 16 页

展开阅读全文