《实验8-1数据分析.pdf》由会员分享,可在线阅读,更多相关《实验8-1数据分析.pdf(16页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、实验实验 8-18-1 数据分析数据分析一、实验目的一、实验目的1.理解数据挖掘的一般流程。2.掌握数据探索和预处理的方法。3.使用 PHSTAT 软件,结合 Excel 对给定的数据进行手工预处理。4.使用 WEKA 软件,对给定的数据进行预处理。二、实验内容二、实验内容在 D 盘中以“班级-学号-姓名”命名一个文件夹,将下发的数据拷贝到该文件夹下,根据不同要求,对下发的文件进行相应的数据分析和处理。0.0.数据集介绍数据集介绍银行资产评估数据,数据里有 12 个属性,分别是 id(编号),age(年龄),sex(性别),region(地区),income(收入),married(婚否),c
2、hildren(子女数),car(是否有私家车),save_act(是否有定期存款),current_act(是否有活期账户),mortgage(是否有资产抵押),pep(目标变量,是否买个人理财计划 Personal Equity Plan)。1 1数据探索之数据质量分析数据探索之数据质量分析新建“1-数据质量分析.xlsx”文件,导入“”文件数据,请你用 EXCEL 对其进行数据质量分析。【要求】【要求】(1)请找出表中的含有缺失值的记录。(2)请你用 PHSTAT 软件绘制“income(收入)”属性的箱线图和点比例图,筛选出异常值。(3)计算 Whisker 上限、Whisker 下限
3、,并利用高级筛选,找出该属性的异常值记录。【提示】【提示】(1)请找出表中的含有缺失值的记录。方法 1:条件格式法1)选取 A1:L601 区域。2)开始-条件格式-新建规则(N).,在新建格式规则对话框中,选择空值。如图 8-1 所示。图 8-1“新建格式规则”对话框3)点击“格式(F)”按钮,设置特殊格式,高亮显示。如图 8-2 所示。图 8-2 设置条件格式方法 2:1)缺失值定位。“开始”“编辑/查找和选择”“定位”对话框“定位条件”按钮。2)“定位条件”对话框选择“空值”,如图 8-3 所示。图 8-3“转到(G)”下拉菜单命令 和“定位条件”对话框(2)绘制“income”属性箱线
4、图和点比例图。高级筛选出异常值。“加载项/PHStat”“Descriptive Statistics”“Boxplot”或”Dot Scale Diagram“命令。如图 8-4 所示。注意选中“income”属性,如果数据区域包括标题行(E1 单元格),则勾选下面的 First cell contains label 选项,否则,不用勾选 First cell contains label 选项。(a)(b)(c)(d)图 8-4 PHSTAT 软件的“箱线图”和“点比例图”绘制计算 income 属性的最小值、最大值、第一四分位数、中位数、第三四分位数。以及 Whisker 下限和上限。
5、表 8-1 四分位数表箱线图最小值公式=MIN(E2:E601)或=(E2:E601,0)最大值=MAX(E2:E601)或=(E2:E601,4)数值第一分位数第二分位数(中位数)第三分位数=($E$2:$E$601,1)=MEDIAN($E$2:$E$601)或=(E2:E601,2)=(E2:E601,3)Whisker 上限=*(Qu-QL)Whisker 下限=Qu+*(Qu-QL)高级筛选,筛选出大于 Qu,小于 QL 的离群点。1)设置条件区域,如图 8-5 所示。incomeincome图 8-5 高级筛选“条件区域”2)设置高级筛选。2 2数据探索之数据特征分析数据探索之数据
6、特征分析建立“2-数据特征分析.xlsx”文件,导入“”文件,请你用 EXCEL 对其进行数据特征分析。【要求】(1)针对 age 属性进行分布分析。填写 8-2 和 8-3 表。表 8-2 年龄分布分析表表 8-3 年龄数据统计表年龄数据统计年龄数据统计数据个数最大值最小值平均值标准差全距组数组距年龄段年龄段青年中年老年年龄区间年龄区间分组数据分组数据组中值组中值频数频数累积频数累积频数累积百分比累积百分比(2)根据上一步的 age 属性分组,分别用 EXCEL 分布工具和 PHSTAT 软件绘制直方图。(3)同理,将收入属性分组,计算各年龄段收入汇总和购买理财计划汇总,找出购买理财计划的主
7、要群体。【提示】(1)age 分为三组(青年组、中年组和老年组),填写age 数据统计,如表8-4所示。表 8-4 年龄数据分布公式表年龄数据分布公式数据个数最大值最小值平均值标准差全距组数组距表 8-5 年龄统计公式表年龄段N13青年N14中年N15老年N16=O5=(P15+P16)/2=R16+S15=S16/$O$4=P14+O11=(P14+P15)/2年龄区间O13分组数据P13=O6+O11组中值Q13=(O6+P14)/2频数R13=FREQUENCY(B2:B601,P14:P16)=R15+S14=S15/$O$4累积频数S13=R14+S13累积百分比T13=S14/$O
8、$4值所在单元格=COUNT(B2:B601)=MAX(B2:B601)=MIN(B2:B601)600O46718O5O6O7O8O9O10O11=AVERAGE(B2:B601)=(B2:B601)=INT(O5-O6)=INT(O9/O10)49316(2)数据分析工具分析。1)EXCEL 数据分析“数据”选项卡“数据分析”按钮“直方图”选项“直方图”对话框。注意,输入区域为:age 数据,接收区域为:分组数据,输出区域为:分析结果放置区域。如图 8-6(a)(b)(c)所示。图 8-6(a)“数据分析”路径(b)“数据分析”对话框(c)“直方图”对话框结果如表 8-6 和图 8-7 所
9、示。表 8-6 数据分析工具直方图分析结果表接收345067其他频率1952141910累积%32.50%68.17%100.00%100.00%接收503467其他频率2141951910累积%35.67%68.17%100.00%100.00%图 8-7 数据分析工具绘制的直方图2)PHSTAT 软件操作步骤如下:图 8-8 PHSTAT 软件直方图路径注意,PHSTAT 软件绘制直方图过程中,作图区的数据不能包含公式。选中 age 属性(B2:B601),分组数据属性(V14:V16),组中值属性(W14:16)绘制直方图。图 8-9 PHSTAT 软件“直方图”对话框分析结果如下:表
10、8-7 PHSTAT 软件直方图分析结果表Frequency Distribution for ValueFrequency Distribution for Valuefor ValueBinsBins345067FrequencyFrequency01952141910PercentagePercentage032.50%35.67%31.83%0Cumulative Pctage.Cumulative Pctage.032.50%68.17%100.00%-264258.5Midpts.Midpts.图 8-10 PHSTAT 软件绘制的直方图(4)仿照上例,计算年龄收入汇总和购买理财计
11、划汇总,填写下表表 8-8 收入数据统计收入数据统计收入数据统计数据个数最大值最小值平均值标准差全距组数组距年龄段年龄段青年中年老年薪资阶层薪资阶层平民阶层中产阶层富豪阶层阶层区间阶层区间分组数据分组数据阶层频数阶层频数PEP频数PEP频数年龄区间年龄区间分组数据分组数据频数频数收入汇总收入汇总PEP汇总PEP汇总注意:这里收入汇总的公式应该使用 sumif 函数。如,青年的收入汇总应该为:=SUMIF($B$2:$B$601,=&P94,$E$2:$E$601)。其中,$B$2:$B$601 表示年龄区域,&是字符串拼接符号,P94 是青年的分组数据。$E$2:$E$601 为 income
12、 区域。青年的 PEP 汇总应该使用 countifs 函数。如,青 年 的PEP汇 总 应 该 为:=COUNTIFS($B$2:$B$601,=&P94,$L$2:$L$601,=YES)。其中,$L$2:$L$601 为 PEP 区域。(5)给出自己的分析观点,例如:从人数看,从收入上看,从购买理财计划的年龄结构看,。初步对数据和直方图观测,是黄金客户,而可能是潜在客户群。3.3.数据清洗数据清洗建立“3-数据插补.xlsx”文件,导入“”文件,请你用 EXCEL 对异常值和缺失值进行插补。【要求】(1)请对 income 属性的离群点,用均值法替换修正。(2)请将 current_ac
13、t 属性的空值,用众数法替换补值。【提示】(1)income 属性的离群点(异常值)根据实验 8-1 的第一小题实验可知 income 属性的离群点(异常值),可以用公式计算去除异常值后的均值,并用均值替换异常点的 income 属性。如表 8-9 所示。设置 O4 单元格为,P5 单元格为 whisker 上限。表 8-9 离群点统计表离群点统计样本总数样本 income 总和异常点数量异常点 income 总和均值公式=COUNT(E2:E601)=SUM(E2:E601)=COUNTIF(E2:E601,O4&P4)+COUNTIF(E2:E601,O5&P5)=SUMIF(E2:E60
14、1,O4&P4)+SUMIF(E2:E601,O5&P5)值6002=(样本总和-异常点 income 总和)/(样本总数-异常点数量)(2)众数求解方法 1:建立一个新列,去除空值的 current_act 列,将新列用 if 函数转换为 1 或 0 后,用函数求解。由于函数参数必须是数值,所以需要将YES 转换为 1,NO 转换 0。在N2 单元格输入公式:=IF(M2=YES,1,0),向下填充。根据 N 列的 1 和 0,使用函数。公式为:=(N2:N588)方法 2:可以用 countif 函数,分别求出 YES 的个数、NO 的个数和空值的个数,比较找出众数。YES 个数。公式为:
15、=COUNTIF(J2:J601,=YES)。值为 442NO 个数。公式为:=COUNTIF(J2:J601,=NO)。值为 145空值个数。公式为:=COUNTBLANK(J2:J601)。值为 134.4.数据变换数据变换【要求】(1)将插补后的“3-数据插补.xlsx”文件另存为“”文件。(2)启动 Weka 软件,导入“”文件,对待挖掘的数据进行属性规约和数据离散化后,另存为“”文件。【提示】(1)现将 xlsx 文件另存为 csv 文件,然后再导入到 Weka 中,如图 8-1113所示。图 8-11 Weka 登录界面图 8-12 Weka 导入 CSV 文件前图 8-13 We
16、ka 导入 CSV 文件后(2)对数据进行数据变换。首先,数据规约,删除无用的属性,通常对于数据挖掘任务来说,ID 这样的属性信息是无用的,故此,我们将之删除。如图 14 所示。图 8-14 删除 ID 属性 其次,连续属性的离散化。数据集中,age 属性、income 属性和 children属性都是数值型数据,需要将其转换为标称型数据。离散化 age 属性和 income 属性。勾选 age 属性和 income 属性“choose”discretize,然后,单击”first-last“,在弹出的对话框中,将分组 bin 改为3,将”first-last”改为 1,4,如图 1517 所
17、示。图 8-15 first-last图 8-16 bin 值改为 3图 8-17 修改后的属性类型 children 属性只有 4 个取值:0,1,2,3。勾选 children 属性,单击“choose”按钮,再弹出的下拉列表中,展开无监督学习(unsupervised)前的“+”号和属性(attribute)前的“+”号,选择“NumericToNominal”,并将 first-last 改为 6,单击Apply按钮,将 children 类型变成 Nominal。如图 8-1820 所示。图 8-18 离散化 children 属性 8-19 无监督学习下的 NumericToNom
18、inal”图 8-20 离散化后的 children 属性(3)保存为 arff 格式,并用 UltraEdit 打开该文件,手工修改晦涩的标识,如改为 034(-inf 用最小值替换、inf 用最大值替换)。5.5.绘制不等宽的柱形图绘制不等宽的柱形图【要求】(1)统计各年龄层次购买 PEP 的人数。(2)绘制购买 PEP 的各年龄层次的不等宽柱形图。如下图所示。图 8-15 购买 PEP 的年龄结构【提示】(1)分组临界点可参考本节第二小题,统计函数可以使用COUNTIF和COUNTIFS,如表 8-10 所示。表 8-10 年龄分布表年龄段年龄段青年中年老年临界点临界点345067人数人数7195108(2)不等宽柱形图,可采用错行数据,绘制堆积柱形图的方法实现(青年 71行、中年 95 行,老年 108 行)。如图 8-16 所示。中年12312341234571717195959595108108108108108青年老年图 8-16 错行任意宽度柱形图的画法