《第9章 描述性统计.pdf》由会员分享,可在线阅读,更多相关《第9章 描述性统计.pdf(47页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.2013/10/22 描述性统计 谢中华 E-mail: MATLAB统计分析与应用:统计分析与应用:40个案例个案例分析分析 MATLAB从零到进阶从零到进阶 http:/ http:/ 描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.2013/10/22 案例案例背景背景 描述性统计量描述性统计量 统计图统计图 频数和频率分布表频数和频率分布表 主要内容:主要内容:描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.2013/10/22 第一节第一节 案例背景案例背景 描述性统计描述性统计 谢
2、中华谢中华,MATLAB应用培训应用培训.2013/10/22 从一封情书开始说起从一封情书开始说起 亲爱的莲:亲爱的莲:我们的感情,在组织的亲切关怀下、在领导的亲自过我们的感情,在组织的亲切关怀下、在领导的亲自过问下,一年来正沿着健康的道路蓬勃发展。这主要表现在:问下,一年来正沿着健康的道路蓬勃发展。这主要表现在:(一)我们共通信(一)我们共通信121121封,平均封,平均3.013.01天一封。其中你给天一封。其中你给我的信我的信5151封,占封,占42.1%42.1%;我给你的信;我给你的信7070封,占封,占57.9%57.9%。每封。每封信平均信平均15021502字,最长的达字,最
3、长的达52155215字,最短的也有字,最短的也有624624字。字。(二)约会共(二)约会共9898次,平均次,平均3.73.7天一次。其中你主动约我天一次。其中你主动约我3838次,占次,占38.7%38.7%;我主动约你;我主动约你6060次,占次,占61.3%61.3%。每次约会平。每次约会平均均3.83.8小时小时,最长达最长达6.46.4小时,最短的也有小时,最短的也有1.61.6小时。小时。(三)我到你家看望你父母(三)我到你家看望你父母3838次,平均每次,平均每 9.49.4天一次;天一次;你到我家看望我父母你到我家看望我父母3636次,平均次,平均1010天一次。以上充分证
4、明天一次。以上充分证明一年来的交往我们已形成了恋爱的共识,我们爱情的主流一年来的交往我们已形成了恋爱的共识,我们爱情的主流是互相了解、互相关心、互相帮助,是平等互利的。是互相了解、互相关心、互相帮助,是平等互利的。描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.当然,任何事物都是一分为二的,缺点的存在是不可避免当然,任何事物都是一分为二的,缺点的存在是不可避免的。我们二人虽然都是积极的,但从以上的数据看,发展还不的。我们二人虽然都是积极的,但从以上的数据看,发展还不太平衡,积极性还存在一定的差距,这是前进中的缺点。太平衡,积极性还存在一定的差距,这是前进中的缺点。相信在新的一
5、年里,我们一定会发扬成绩、克服缺点、携手前相信在新的一年里,我们一定会发扬成绩、克服缺点、携手前进,开创我们爱情的新局面。因此,我提出三点意见供你参考:进,开创我们爱情的新局面。因此,我提出三点意见供你参考:(一)要围绕一个(一)要围绕一个“爱爱”字,字,(二)要狠抓一个(二)要狠抓一个“亲亲”字,字,(三)要落实一个(三)要落实一个“合合”字。字。让我们弘扬团结拼搏的精神,共同振兴我们的爱情,争取让我们弘扬团结拼搏的精神,共同振兴我们的爱情,争取达到一个新高度,登上一个新台阶。本着达到一个新高度,登上一个新台阶。本着“我们的婚事我们办,我们的婚事我们办,办好婚事为我们办好婚事为我们”的精神,
6、共创辉煌。的精神,共创辉煌。你的憨哥你的憨哥 描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.2013/10/22 统计学家当奶爸统计学家当奶爸 有个从未管过自己孩子的统计学家,在一个星期六下午有个从未管过自己孩子的统计学家,在一个星期六下午妻子要外出买东西时,勉强答应照看一下四个年幼好动的妻子要外出买东西时,勉强答应照看一下四个年幼好动的孩子。当妻子回家时,他交给妻子一张纸条,上面写着:孩子。当妻子回家时,他交给妻子一张纸条,上面写着:“擦眼泪“擦眼泪1111次;系鞋带次;系鞋带1515次;给每个孩子吹玩具气球各次;给每个孩子吹玩具气球各5 5次;次;每个气球的平均寿命每个
7、气球的平均寿命1010秒钟;警告孩子不要横穿马路秒钟;警告孩子不要横穿马路2626次;次;孩子坚持要穿马路孩子坚持要穿马路2626次;我还要再过这样的星期六次;我还要再过这样的星期六0 0次。”次。”描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.2013/10/22 一、均值一、均值 定义:定义:11niiXXn=一首打油诗:张村有个张千万,隔壁一首打油诗:张村有个张千万,隔壁9个穷光蛋,平均个穷光蛋,平均起来算一算,人人都是张百万。起来算一算,人人都是张百万。报纸上报道有个人在一条河中淹死了,这条河的平均深报纸上报道有个人在一条河中淹死了,这条河的平均深度仅度仅10cm,
8、你信吗?,你信吗?来自国家统计局天津调查总队最新的数据显示,今年上来自国家统计局天津调查总队最新的数据显示,今年上半年天津城市居民人均可支配收入半年天津城市居民人均可支配收入12861元,北京元,北京17068元、上海元、上海18382元、重庆元、重庆11134元。元。第二节第二节 描述性统计量描述性统计量 描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.2013/10/22 二、方差和标准差二、方差和标准差 方差:方差:2211()1niiSXXn=标准差:标准差:211()1niiSXXn=最常用最常用 三、最大值和最小值三、最大值和最小值 最大值:最大值:()12max
9、,nnXXXX=最小值:最小值:(1)12min,nXXXX=描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.2013/10/22 四、极差四、极差 极差:极差:()(1)nRangeXX=五、中位数五、中位数(1)/2)(/2)(1/2),1(),2nnnXnXXXn+=+为奇数为偶数六、六、p分位数分位数()(1)()(1),12nppnpnpXnpmXXnp+=+若不是整数,若是整数七、众数:七、众数:样本数据中出现最频繁的数样本数据中出现最频繁的数 描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.2013/10/22 八、变异系数八、变异系数 cov
10、arS X=九、九、k k阶原点矩阶原点矩 11,1,2,nkkiiAXkn=十、十、k k阶中心矩阶中心矩 11(),2,3,nkkiiBXXkn=十一、偏度十一、偏度 331.5312()(1)(2)nisiBXXnbBnnS=十二、峰度十二、峰度 4223kBbB=描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.2013/10/22 十三、第一四分位数:十三、第一四分位数:0.251Qm=样本数据中小于等于此数的数据占整个数据集的样本数据中小于等于此数的数据占整个数据集的25%十四、第三四分位数:十四、第三四分位数:0.753Qm=样本数据中小于等于此数的数据占整个数据
11、集的样本数据中小于等于此数的数据占整个数据集的75%十五、四分位间距:十五、四分位间距:31IQRQQ=最稳健最稳健 描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.2013/10/22【例例9.2-1】现有现有某两个班的某门课程的考试成绩,某两个班的某门课程的考试成绩,如如下下表所表所示。试对成绩数据进行统计分析(计算描述性统计量,绘制示。试对成绩数据进行统计分析(计算描述性统计量,绘制统计图),分析成绩是否服从正态分布。统计图),分析成绩是否服从正态分布。序号序号 学号学号 姓名姓名 成绩成绩 序号序号 学号学号 姓名姓名 成绩成绩 序号序号 学号学号 姓名姓名 成绩成绩
12、 1 6010101 陈亮 63 18 6010118 肖君扬 80 35 6010211 尹浩天 90 2 6010102 李旭 73 19 6010119 徐欣露 69 36 6010212 曾松涛 80 3 6010103 刘鹏飞*20 6010120 杨姗姗 81 37 6010213 张小兵 80 4 6010104 任时迁 82 21 6010121 姚丽娜 49 38 6010214 奚才 73 5 6010105 苏宏宇 80 22 6010122 张萌 91 39 6010215 郭以纯 73 6 6010106 王海涛 70 23 6010123 张婷婷 76 40 601
13、0216 黄惠雯 72 7 6010107 王洋 88 24 6010124 褚子贞 76 41 6010217 刘丽 79 8 6010108 徐靖磊 80 25 6010201 曹不凡 72 42 6010218 聂茜茜 80 9 6010109 阎世杰 92 26 6010202 付程远 89 43 6010219 苏红妹 81 10 6010110 姚前树 84 27 6010203 李林森 77 44 6010220 唐芸 82 11 6010111 张金铭 95 28 6010204 李强 64 45 6010221 王飞燕 73 12 6010112 朱星宇 82 29 6010
14、205 林志远 94 46 6010222 徐思漫 83 13 6010113 韩宏洁 75 30 6010206 盛世 74 47 6010223 许佳慧 87 14 6010114 刘菲 71 31 6010207 宋天清 98 48 6010224 杨雨婷*15 6010115 苗艳红 70 32 6010208 王润泽 89 49 6010225 曾亦可 90 16 6010116 宋佳艺 80 33 6010209 吴鹏辉 49 50 6010226 张阳 85 17 6010117 王峥瑶 78 34 6010210 徐佳 80 51 6010227 张梓涵 92 描述性统计描述性
15、统计 谢中华谢中华,MATLAB应用培训应用培训.2013/10/22【例例9.2-1续续】根据表中数据计算描述性统计根据表中数据计算描述性统计量量。%求均值求均值 score=xlsread(examp9_1_1.xls,Sheet1,G2:G52);score=score(score 0);score_mean=mean(score)%求方差和标准差求方差和标准差 SS1=var(score)SS1=var(score,0)SS2=var(score,1)s1=std(score)s1=std(score,0)s2=std(score,1)描述性统计描述性统计 谢中华谢中华,MATLAB应
16、用培训应用培训.%求最大值和最小值求最大值和最小值 score_max=max(score)score_min=min(score)%求极差求极差 score_range=range(score)%求中位数求中位数 score_median=median(score)%求分位数求分位数 score_m1=quantile(score,0.25,0.5,0.75)score_m2=prctile(score,25,50,75)%求众数求众数 score_mode=mode(score)描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.%求变异系数求变异系数 score_cvar=
17、std(score)/mean(score)%求原点矩求原点矩 A2=mean(score.2)%求中心矩求中心矩 B1=moment(score,1)B2=moment(score,2)%求偏度求偏度 score_skewness=skewness(score)%求峰度求峰度 score_kurtosis=kurtosis(score)描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.一、一、样本的频数分布与频率分布样本的频数分布与频率分布 将样本观测值将样本观测值 12,nx xx从小到大排列得:从小到大排列得:,列出样本频率分布表如下,列出样本频率分布表如下 (1)(2)
18、()lxxx观测值观测值 x(1)x(2)x(l)总计总计 频数频数 n1 n2 nl n 频率频率 1 11nfn=22nfn=llnfn=第三节第三节 统计图统计图 描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.称称函数函数 (1)()(1)1()0()1,2,11inkiiklxxF xfxxxilxx+=为样本分布函数(或为样本分布函数(或经验分布函数经验分布函数)。它满足分)。它满足分布函数所具有的性质。布函数所具有的性质。二、样本经验分布函数图二、样本经验分布函数图 1.定义定义 描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.2.格里汶科定理
19、格里汶科定理 设总体设总体X 的的分布函数为分布函数为F(x),样本,样本 limsup|()()|01nnxPF xF x+0);figure;h,stats=cdfplot(score)set(h,color,k,LineWidth,2);x=40:0.5:100;y=normcdf(x,stats.mean,stats.std);hold on plot(x,y,:k,LineWidth,2);legend(经验分布函数经验分布函数,理论正态分布理论正态分布,Location,NorthWest);描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.(1)(1)找出样本观测
20、值的最小值找出样本观测值的最小值x(1)和最大值和最大值x(l);011kkattttb=0);score=score(score 0);score1=score(banji=60101);score2=score(banji=60102);qqplot(score1,score2)描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.一、调用一、调用tabulate函数作频数和频率分布表函数作频数和频率分布表 tabulate函数函数 调用方式:调用方式:TABLE=tabulate(x)功能:功能:用来作频数和频率分布表用来作频数和频率分布表 第四节第四节 频数和频率分布表频数
21、和频率分布表 描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.2013/10/22【例例9.4-1】统计数值型数组中各元素出现的频数、统计数值型数组中各元素出现的频数、频率。频率。x=2 2 6 5 2 3 2 4 3 4 3 4 4 4 4 2 2 6 0 4 7 2 5 8 3 1 3 2 5 3 6 2 3 5 4 3 1 4 2 2 2 3 1 5 2 6 3 4 1 2 5;tabulate(x(:)Value Count Percent 0 1 1.96%1 4 7.84%2 14 27.45%3 10 19.61%4 10 19.61%5 6 11.76%6 4
22、 7.84%7 1 1.96%8 1 1.96%描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.2013/10/22【例例9.4-2】统计字符串中各字符出现的频数、频率。统计字符串中各字符出现的频数、频率。x=If x is a numeric array,TABLE is a numeric matrix.;tabulate(x)Value Count Percent I 1 2.44%f 1 2.44%x 2 4.88%i 5 12.20%s 2 4.88%a 5 12.20%n 2 4.88%u 2 4.88%描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用
23、培训.2013/10/22【例例9.4-3】统计字符型数组中各行元素出现的频数、统计字符型数组中各行元素出现的频数、频率频率.x=崔家峰崔家峰;孙乃喆孙乃喆;安立群安立群;王洪武王洪武;王玉杰王玉杰;高纯静高纯静;崔家峰崔家峰;叶叶 鹏鹏;关泽满关泽满;谢中华谢中华;王宏志王宏志;孙乃喆孙乃喆;崔家峰崔家峰;谢中华谢中华;tabulate(x)Value Count Percent 崔家峰崔家峰 3 21.43%孙乃喆孙乃喆 2 14.29%安立群安立群 1 7.14%王洪武王洪武 1 7.14%王玉杰王玉杰 1 7.14%高纯静高纯静 1 7.14%叶叶 鹏鹏 1 7.14%关泽满关泽满 1
24、 7.14%谢中华谢中华 2 14.29%王宏志王宏志 1 7.14%描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.2013/10/22【例例9.4-4】统计字符串元胞数组中各字符串出现统计字符串元胞数组中各字符串出现的频率。的频率。x=崔家峰崔家峰;孙乃喆孙乃喆;安立群安立群;王洪武王洪武;王玉杰王玉杰;高纯静高纯静;崔家峰崔家峰;叶叶 鹏鹏;关泽满关泽满;谢中华谢中华;王宏志王宏志;孙乃喆孙乃喆;崔家峰崔家峰;谢中华谢中华;tabulate(x)Value Count Percent 崔家峰崔家峰 3 21.43%孙乃喆孙乃喆 2 14.29%安立群安立群 1 7.14
25、%王洪武王洪武 1 7.14%王玉杰王玉杰 1 7.14%高纯静高纯静 1 7.14%叶叶 鹏鹏 1 7.14%关泽满关泽满 1 7.14%谢中华谢中华 2 14.29%王宏志王宏志 1 7.14%描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.2013/10/22【例例9.4-5】统计名义尺度(如性别,职业,产品型号等)数统计名义尺度(如性别,职业,产品型号等)数组中各元素出现的频数、频率。组中各元素出现的频数、频率。%载入载入MATLAB自带的鸢尾花数据自带的鸢尾花数据 load fisheriris%将字符串元胞数组将字符串元胞数组species转为名义尺度数组转为名义
26、尺度数组 species=nominal(species);tabulate(species)Value Count Percent setosa 50 33.33%versicolor 50 33.33%virginica 50 33.33%描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.二、调用自编二、调用自编HistRate函数作频数和频率分布表函数作频数和频率分布表 HistRate函数函数 调用方式:调用方式:result=HistRate(x)功能:功能:用来作频数和频率分布表用来作频数和频率分布表 描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训
27、.水水调歌头调歌头 苏轼苏轼 明月几时有明月几时有?把酒把酒问青天问青天。不知不知天上宫阙、今夕是何年天上宫阙、今夕是何年?我我欲乘风归去,惟恐琼楼玉宇,高处不胜寒欲乘风归去,惟恐琼楼玉宇,高处不胜寒 起舞起舞弄清影,何似在人间?弄清影,何似在人间?转转朱阁,低绮户,照无眠朱阁,低绮户,照无眠。不不应有恨、何事长向别时圆应有恨、何事长向别时圆?人人有悲欢离合,月有阴晴圆缺,此事古难全有悲欢离合,月有阴晴圆缺,此事古难全。但愿但愿人长久,千里共蝉娟。人长久,千里共蝉娟。三、三、应用扩展应用扩展 宋词密码宋词密码 宋词中那些词出宋词中那些词出现频率最高呢?现频率最高呢?描述性统计描述性统计 谢中华
28、谢中华,MATLAB应用培训应用培训.9999个两字高频词个两字高频词 1.1.宋词中的高频词汇宋词中的高频词汇 东风 梅花 黄昏 风吹 时节 杨柳 桃李 而今 时候 悠悠 何处 千里 当年 风月 平生 西湖 人生 鸳鸯 肠断 几度 人间 回首 天涯 多情 凄凉 桃花 十分 为谁 富贵 青山 风流 明月 相逢 故人 春色 扁舟 心事 十年 蓬莱 何时 归去 多少 芳草 当时 匆匆 消息 黄花 去年 昨夜 天气 春风 如今 尊前 无人 功名 憔悴 一声 少年 行人 惟有 西风 阑干 一枝 斜阳 一点 何事 佳人 海棠 今夜 一曲 归来 年年 风雨 不知 无限 芙蓉 长安 寂寞 谁知 月明 江南
29、万里 流水 不见 今日 神仙 东君 无情 不似 往事 相思 一笑 依旧 深处 天上 一片 断肠 不是 江上 描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.218218个三字高频词个三字高频词 1.1.宋词中的高频词汇(续)宋词中的高频词汇(续)到如今 又还是 谩赢得 记年时 情脉脉 倚东风 终不似 君知否 人不见 那堪更 人间事 斜阳外 又何须 肠断处 谁知道 当此际 君不见 又只恐 月明中 多少事 西源好 功名事 记当年 家山好 回首处 谁念我 安阳好 阑干外 须信道 东风里 归来也 夜沈沈 还知么 对东风 与谁同 最好是 怎奈向 思往事 断人肠 问何如 对西风 从此去
30、人间世 春去也 还知否 早归来 东风恶 归去也 倚西风 从今去 须知道 追往事 有多少 人何处 归来晚 分明是 谁信道 争知道 最苦是 空凝伫 人正在 愿年年 南徐好 倚阑干 更那堪 空怅望 向尊前 今老矣 江南岸 思晴好 到而今 留不住 空惆怅 微雨过 从别后 空回首 想当年 描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.为高频词编号为高频词编号 2.2.让我们也成为词人让我们也成为词人 通过程序随机抽取高频词通过程序随机抽取高频词 3.3.小试牛刀小试牛刀 最苦是最苦是 谢谢中华中华【天津科技大学天津科技大学】最苦是最苦是 鸳鸯归来晚鸳鸯归来晚 西湖风吹记当年西湖风吹记当年 明月时节空肠断明月时节空肠断 描述性统计描述性统计 谢中华谢中华,MATLAB应用培训应用培训.3.3.小试牛刀(续)小试牛刀(续)相思春色佳丽地相思春色佳丽地 谢中华谢中华【天津科技大学天津科技大学】相思春色佳丽地相思春色佳丽地 富贵凄凉有谁知富贵凄凉有谁知 相逢当时人不见相逢当时人不见 今夜风流吾老矣今夜风流吾老矣