《探索性数据分析.ppt》由会员分享,可在线阅读,更多相关《探索性数据分析.ppt(97页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、科学方法是通向绝对知识或真理的唯一入口,描述统计,推断统计,一、新旧知识的联系,二、数据分析的宏观概念图?,1 收集数据,2 描述统计,3 推断统计,宏观概念图,描述统计目录,ONE1 描述统计的实质TWO2 描述分布THREE3 描述关系FOUR4 线性关系,一、什么是数据?,数据是指由变量组成的个体的许多信息。变量指个体的特定属性。,二、描述统计的实质,描述统计,一个变量,二个变量,描述分布,描述关系,三、检验分布,变量:类别变量和数值变量,四、检验关系,一些例子,1.在某一标准化的测验中性别与得分的关系?2.婴儿睡眠时的光线类型与是否是近视有关系?3.我们能不能根据新生的SAT的得分预测
2、他的GPA?4.考驾照时的练习时间和是否能通过之间有没有关系?,2,类别变量,数字变量,Case,五、描述统计宏观图,描述分布,描述关系,1,Case,Case,描述统计目录,ONE1 描述统计的实质TWO2 描述分布THREE3 描述关系FOUR4 线性关系,一、类别变量 你觉得你身材怎样?胖、瘦还是刚好?,随机调查了1200大学生,下表显示了一部分回答。,Body Image Distribution,1. 饼形图,2. 直条图,小结:类别变量的分布,计算类别变量的个数和百分比;同时用饼图或直条图进行图形化的显示。,活动1:利用excel绘制饼图或直条图,在这个活动中:会用excel计算次
3、数和百分比知道怎样用excel生成饼图,你发现和谁最容易交朋友?(异性、同性、没差别)原数据:friends1,具体步骤:1 选中需要处理的变量2 选择“数据-数据透视表和数据透视图”3 点击完成,此时你看到一张新的空表.4 选中。,二、数字变量,统计图与统计表:直方图、茎叶图描述统计的特征量:集中量数、差异量数,对于数字变量:我们可以先用直方图或茎叶图描述;然后对其进行数字化测量。,(一)直方图的思想:求出组距,然后计算次数,88, 48, 60, 51, 57;85, 69, 75, 97, 72;71, 79, 65, 63, 73.,例子:考试分数,直方图,组距:40-50,50-60
4、 90-100,如何说明直方图?,我们的例子:,分数基本对称,70作为分布的中心点,最小值大约45、最大值大约95、全距大约为50,小结:直方图是,用于描述数值变量的图形;当检验数值变量的分布时,我们应该描述这个图形的形状、集中趋势、离散趋势,课后思考题: 如何利用excel绘制直方图,利用奥斯卡得主的年龄为例,说明怎样用excel生成直方图,源数据可用actor2,(二)茎叶图的思想:把数据分成茎和叶 叶:最右边的数字;茎:其他的数字,例子:最佳女奥斯卡获得者,34 34 26 37 42 41 35 31 41 33 30 74 33 49 38 61 21 41 26 80 43 29
5、33 35 45 49 39 34 26 25 35 33,小结:茎叶图是,对小的数据集简单快速的描述;能保留原数据;对数据进行排序。,(三)集中趋势度量参数及其计算,众数(Mode)平均数(Mean)中位数(Median),1 众数,众数:指次数分布中出现次数最多的那个数的数值,又称范数,常用符号M0表示。 例1:1,2,2,3,3,4 例2:1,2,3,4,5 例3:12,12,56,78,90,例:2,4,6,8,10,2 算术平均数,平均数=6,下表是17名中学教师的月收入:1200, 1270, 1300, 1310, 1320, 1350, 1360, 1370, 1390, 14
6、00, 1450, 1460, 1530, 1580, 1600, 3200, 4000 现欲了解他们的平均月收入。,平均数=1652.3,3 中数,中数:是指一组按大小顺序排列起来的量数的中间点的数,又称中位数,符号记为Mdn。,下表是17名中学教师的月收入:1200, 1270, 1300, 1310, 1320, 1350, 1360, 1370, 1390, 1400, 1450, 1460, 1530, 1580, 1600, 3200, 4000 现欲了解他们的平均月收入。,平均数=1652.3,中数=1390,那么这则数据的中位数呢?,3、,小结:集中量数 三个代表 在实际中最常
7、用的就是平均数,分布:19, 20, 25, 32, 39分布: 2, 3, 25, 30, 75这两个分布的平均数都是27,中数都是25。,集中量数出现的问题,(四)差异量数及其计算,差异量数:是表示量数之间的差异程序的一些统计量的总称,它是用于表示一群量数的离散情况或离中趋势。,常用的差异量数:方差(Variance)标准差(Std. deviation)标准分数(分数)最大值(Maximum)、最小值(Minimum)等,(1) 样本方差与标准差,样本方差:样本标准差:,n-1,n-1,例:分布:19, 20, 25, 32, 39分布:2, 3, 25, 30, 75求标准差,只有知道
8、了差异量数的大小,才能了解集中量数的代表性如何。,差异量数越大,集中量数的代表性越小;差异量数越小,集中量数的代表性越大。,2 标准分数,标准分数,又称分数。是以标准差为单位表示一个分数在团体分数中所处的位置。,试分析在班里他们三人中谁的总成绩最好。,活动2. 利用excel计算统计量,目标:1. 学习利用excel计算统计量,并进行统计描述2. 用五个变量进行分布描述。,盒子图常用的统计量,最小值Q1值中位数平均数Q3值最大值标准差,步骤:,在列A以外的任何一个单元格中键入min,然后在右边一格中键入=min(A2:A33)。在min单元格下面键入Q1,然后在右边一格中键入=quartile
9、(A2:A33,1)。在Q1单元格下面键入Median,然后在右边一格中键入=median(A2:A33)。在Median单元格下面键入Mean,然后在右边一格中键入=average(A2:A33)。在Mean单元格下面键入Q3,然后在右边一格中键入=quartile(A2:A33,3)。在Q3单元格下面键入Max,然后在右边一格中键入=max(A2:A33)。,问题:,输出结果中有多少个观测值?奥斯卡得主的平均年龄?这五个量的值分别是多少? 奥斯卡获得者有一半的年龄是多少?全距是多少?四分位差是多少?,盒子图,描述统计目录,ONE1 描述统计的实质TWO2 描述分布THREE3 描述关系FO
10、UR4 线性关系,两个变量之间的关系分类,CaseI:自变量是类别的,因变量是数值的,例子:热狗,很关心自己健康的人更愿意选择低卡路里的热狗。于是健康协会做了一项调查,检查54种品牌的热狗,根据原材料的类型(牛肉、家禽、猪肉)进行分类并测其卡路里值。研究的目的是为了检验热狗的卡路里值和其类型是不是有关。,我们先计算各统计量,然后用盒子图来呈现,解释我们的结果,1.家禽类的热狗比牛肉和猪肉的热狗卡路里更低;2.家禽类的热狗的卡路里的中位值比其他两个低,甚至低于其他两个的Q1值;3.这三种类型的热狗分布是一样的。,结论:,总体而言,我们推荐消费者吃家禽类的热狗,但要知道,因为每种类型的热狗,由于品
11、牌不同,卡路里的差异是很大的,因此,吃家禽类的热狗并不能保证是低卡路里的食品。,检验CaseI关系:本质是用盒子图对每种自变量的类别进行因变量的分布比较,再辅以统计量进行说明。,小结:,Case II: Two Categorical Variables,例:美国大学生对自己身材的看法,男生和女生对自己身材看法是否存在差异?,为了概述两个变量之间的关系,我们创建一个如下图所示的二维表。,比较分布,比较分布,1. 用两维表显示数据;2. 辅以百分比进行描述;3. 我们试图理解两个类别变量之间的关系时,我们实质是比较每种类别的反应变量的分布,尤其是比较反应变量值的百分比差异。,小结:检验两个类别变
12、量的关系,Case III: Two Quantitative Variables,自变量是类别变量时,我们比较因变量的分布;自变量是数字变量时,我们需要引入新的统计工具。,例:高速公路上的标志,宾夕法尼亚州一研究所进行了一项研究,对年龄从18到80岁的30名司机进行实验,调查他们能看清楚新标志的最长距离,目的是为了检验司机的年龄和他们能看清标志的最长距离,且将研究发现用于提高老年司机的安全性问题。,这些数据我们也可以转化成:,(18,510), (32,410), (55,420),(23,510) . (82,360).,检验两个数值变量的关系用碎石图(scatterplot),问题出来了
13、:如何解释碎石图?我们该怎么读图?我们应该注意什么?,1.趋势(direction),2.图式(form),a linear form,a curvilinear form,Clusters form,3.强度(strength),4.极端值(outliers ),我们的例子,趋势是递减的;线性的;强度较强;没有极端值。,小结:两个数值型变量之间的关系,用碎石图进行显示,每个点代表每个个体,X轴表示自变量,Y轴代表因变量; 我们可以看散点图的大体情况和偏离,具体来说,就是看它的趋势、图式、强度和极端值。,描述统计目录,ONE1 描述统计的实质TWO2 描述分布THREE3 描述关系FOUR4
14、线性关系,一、相关系数 r,相关系数 r是两变量间相关程度的量化指标,用于测量两个数值变量之间变化的趋势和密切程度。,例1:高速公路上的标志,解释:r为负数,说明两个变量关系是负的;r相对来说比较接近1,说明是强相关;,结论:能看清标志的最远距离会随着年龄递减;从r值我们可以预测,相同年龄的司机能看清标志的最远距离有所变化。,例2:课程的一项统计数据,说明:,r取值范围介于-1至+1之间,常用小数表示,正负号表示相关方向,绝对值的大小表示相关的程度; 特别地,当相关系数为0时,称0相关,表示两变量之间无任何线性关系;相关系数为1时,表示两变量间存在完全正相关;相关系数为-1时,表示两变量之间存
15、在完全负相关; 完全正负相关的两变量的取值存在一一对应的函数关系。,r特性,相关系数不随着变量的测量单位的改变而改变它仅仅是一个数字,不能用百分比来解释,r特性,r只能代表线性关系的强度,测量不出其他模式的程度,不管它有多强。r接近0的意思是没有线性关系.,r特性,r 的大小不能说明它是不是线性关系。一切得看数据。,二、线性回归:从一个例子开始,前面,我们已经知道了司机年龄和看清新标志需要的最远距离,假定政府机构想预测60岁的司机能看到的最远距离,怎么办?,技术上而言,这就叫线性回归。,我们可以预测,最远距离不会超过400英尺。,如何选择一条最适合的线?,选择准则:最小平方,最小平方回归线-函
16、数式,例:年龄距离,Y=a+bXb=r( SY/SX) a=YbX,最小平方回归线-函数式,例子的回归线,60岁所能看到的最远距离是396英尺。,假定研究机构对90岁的司机所能看到的最远距离也很感兴趣,请你预测!,讨论:结果可靠吗?,步骤,1 首先我们需要定义间距。在这个例子中,最小值为31,最大值76,因此我们间距定5,从30-80.在数据的附近的任何一列,输入这些数据:30、35、40 80;2 选择“工具-数据分析”命令,在下拉列表中选择直方图,点击确定;3 在接下来的窗口中,在输入区域中选择你的原始数据;在接受区域中选择包含了间距的数据;最后用图表输出,点击确定。4 右击选择格式数据序列,在选项中将间距设置为0.,描述分布,