《统计学1-概论.ppt》由会员分享,可在线阅读,更多相关《统计学1-概论.ppt(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、参考教材:参考教材:应用统计学应用统计学数理统计方法、数据数理统计方法、数据获取与获取与SPSS应用应用,马庆国,科学出版社马庆国,科学出版社(右图右图)仅供参考仅供参考p 自我介绍p 本课程介绍(本课程介绍(考试考试课)课)学时分配(学时分配(48学时,其中学时,其中32理论,理论,16上机)上机)成绩构成成绩构成 期末考试卷面期末考试卷面70%+作业作业20%+平时成绩平时成绩10%=100分分p 基本要求基本要求 课前自学预习、课后复习课前自学预习、课后复习 课堂纪律、出勤课堂纪律、出勤 作业作业 让我对你有让我对你有“印象印象”咸淡五分钟咸淡五分钟第一章第一章 统计学概论统计学概论 统
2、计与数据 统计学的产生与发展 统计学的基本概念 SPSS简介第一节第一节 统计与数据统计与数据 统计统计(Statistics)(Statistics)统计是统计是从数据到结论从数据到结论的工具。的工具。1.1.统计的统计的目的目的是为了得到结论,绝不是为了统是为了得到结论,绝不是为了统计而统计。计而统计。2.2.统计的统计的基础基础是数据,而且是大量的数据,简是数据,而且是大量的数据,简单的几个数据加减不是统计,而是小学数学。单的几个数据加减不是统计,而是小学数学。3.3.既然是大量的数据处理,就需要借助工具既然是大量的数据处理,就需要借助工具计算机计算机(软件或编程)软件或编程)统计是通过
3、使用某些工具,从大量数据统计是通过使用某些工具,从大量数据中探索带有结论性的规律的科学。中探索带有结论性的规律的科学。现代统计的发展方向现代统计的发展方向Data MiningData Mining 几个例子几个例子1.1.生男孩还是生女孩生男孩还是生女孩?(?(107107:100100)中国多出中国多出20002000万男性怎么办?万男性怎么办?做男人做男人(难)(难)2.2.BenfordBenfords Laws Law造假数据的检验造假数据的检验方法(应用于审计)方法(应用于审计)3.3.你买彩票么?你买彩票么?计算一下,中计算一下,中500500万万的概率有多大?的概率有多大?统计
4、数据统计数据n 数据胜过自封的专家数据胜过自封的专家,因为我们很难知道专,因为我们很难知道专家是在为谁说话。比如家是在为谁说话。比如老左来了老左来了,听着该,听着该节目的专家建议进入股市,注定是被套的命。节目的专家建议进入股市,注定是被套的命。n 数据强过新闻数据强过新闻,因为数据可以有系统地描绘,因为数据可以有系统地描绘整体的状况,而新闻则聚焦于少数特例整体的状况,而新闻则聚焦于少数特例可可悲的是,在大众心目中,每每都是新闻旗开得悲的是,在大众心目中,每每都是新闻旗开得胜。例如:胜。例如:高压线与白血病高压线与白血病的相关研究。再如:的相关研究。再如:儿子身高与父母身高儿子身高与父母身高的相
5、关性研究。的相关性研究。n 数据不会说谎,但说谎的人会想出办法数据不会说谎,但说谎的人会想出办法 Charles Grosvenor Charles Grosvenor如:如:1 1“The Pursuit of HappinessThe Pursuit of Happiness”中的应聘中的应聘对话。对话。绝对数与相对数绝对数与相对数 2 2“被涨工资被涨工资”平均数的陷阱平均数的陷阱 3 3 自杀率统计自杀率统计天主教国家还是日本?天主教国家还是日本?倾向性回答。倾向性回答。4 4“春晚节目评选:赵本山小品真的那么春晚节目评选:赵本山小品真的那么烂吗?烂吗?”有偏样本。有偏样本。更多的用数
6、据说谎,参见更多的用数据说谎,参见统计陷进统计陷进n 要用统计骗人很容易,但是,不用统计,骗要用统计骗人很容易,但是,不用统计,骗人更容易人更容易 Frederick MostellerFrederick Mosteller 毕竟数据还是有毕竟数据还是有“据据”可查,如:可查,如:失业失业率统计率统计,虽然在失业的定义上有很大缺陷。,虽然在失业的定义上有很大缺陷。像美国的失业定义为:想工作,却没有工作,像美国的失业定义为:想工作,却没有工作,而且过去两周曾积极找工作。如果你过去两而且过去两周曾积极找工作。如果你过去两周没有积极找工作,你就不是失业,而是周没有积极找工作,你就不是失业,而是“不属
7、于劳动人口不属于劳动人口”。但这种有缺陷的定义在。但这种有缺陷的定义在保持口径稳定的基础上统计出来的数据还是保持口径稳定的基础上统计出来的数据还是有很大的参考价值。有很大的参考价值。第二节第二节 统计学的产生与发展统计学的产生与发展 统计学的产生统计学的产生 n 17C 17C中叶,英国的威廉中叶,英国的威廉.配第(配第(William William PattyPatty)的)的政治算术政治算术(16761676)用大量数据)用大量数据对英、法、荷三国的经济实力进行比较,成对英、法、荷三国的经济实力进行比较,成为了政府统计的创始人。为了政府统计的创始人。n 1662 1662年,英国的约翰年
8、,英国的约翰.格朗特(格朗特(John John Graunt Graunt)出版的)出版的关于死亡表的自然观察与关于死亡表的自然观察与政治观察政治观察发现新生儿性别比例为发现新生儿性别比例为1414:1313 即即107107:100100,男性在各年龄组中死亡率较,男性在各年龄组中死亡率较高,一般高,一般疾病与事故疾病与事故的死亡率较稳定,而传的死亡率较稳定,而传染病死亡率的波动较大等,染病死亡率的波动较大等,GrauntGraunt因此成为因此成为人口统计的创始人。人口统计的创始人。n 概率统计的源头则要追溯到古典概率论的奠概率统计的源头则要追溯到古典概率论的奠基人基人帕斯卡和费马,俩人
9、研究帕斯卡和费马,俩人研究赌博赌博中的中的各种具体问题,归纳为一般的概率原理。此各种具体问题,归纳为一般的概率原理。此前,意大利诗人但丁讨论过三颗骰子可能出前,意大利诗人但丁讨论过三颗骰子可能出现的各种点数,意大利科学家伽利略讨论过现的各种点数,意大利科学家伽利略讨论过掷三颗骰子出现掷三颗骰子出现1010点数多于点数多于9 9点数的原因。点数的原因。现代统计现代统计 推断统计推断统计 现代统计的基本构架包括:戈赛特现代统计的基本构架包括:戈赛特(W.S.Gosset)W.S.Gosset)的小样本的小样本t t检验、费舍尔检验、费舍尔(R.A.Fisher)R.A.Fisher)的的F F检验
10、、最大似然估计、方差分检验、最大似然估计、方差分析等、奈曼(析等、奈曼(J.Neyman)J.Neyman)和皮尔逊和皮尔逊(E.S.Pearson)E.S.Pearson)的置信区间估计和假设检验。的置信区间估计和假设检验。沃尔德(沃尔德(A.Wald)A.Wald)的序贯抽样和统计决策函的序贯抽样和统计决策函数等。数等。统计的新发展阶段统计的新发展阶段几乎应用于所有产生几乎应用于所有产生数据的学科。如:数据的学科。如:红楼梦红楼梦作者判断作者判断。统计学的学科分类统计学的学科分类n 描述统计和推断统计描述统计和推断统计n 理论统计和应用统计理论统计和应用统计第三节第三节 统计学的基本概念统
11、计学的基本概念 生活中,我们经常听到别人这样的结论生活中,我们经常听到别人这样的结论:东北人豪爽、北京人厚道、上海人精明、湖东北人豪爽、北京人厚道、上海人精明、湖南人霸蛮等等这样的评论。那么,这些结论南人霸蛮等等这样的评论。那么,这些结论是如何得出的呢?后来的评论者多是人云亦是如何得出的呢?后来的评论者多是人云亦云,但最初得出这种结论的人运用的就是统云,但最初得出这种结论的人运用的就是统计的思想和方法。我们由此引出统计的一些计的思想和方法。我们由此引出统计的一些基本概念。基本概念。n 总体(总体(Population)Population):待研究的所有基本单:待研究的所有基本单位的总和。比如
12、:全体东北人就是总体。位的总和。比如:全体东北人就是总体。n 个体(个体(Unit)Unit):即基本单位。如:具体某个东:即基本单位。如:具体某个东北人张三。北人张三。n 变量(变量(Variable)Variable):我们关注总体单位的某些:我们关注总体单位的某些特征。比如:是否豪爽。(豪爽为特征。比如:是否豪爽。(豪爽为1 1,不豪爽,不豪爽为为0 0)n 样本(样本(Sample):Sample):总体的一部分单位。总体的一部分单位。比如:比如:2020个东北人。个东北人。研究者李四发现周围认识的研究者李四发现周围认识的2020个东北人里有个东北人里有1818个是豪爽的,于是他得出结
13、论:东北人豪个是豪爽的,于是他得出结论:东北人豪爽。至于,该结论是否科学我们以后再论。爽。至于,该结论是否科学我们以后再论。第四节第四节 SPSSSPSS软件简介软件简介n SPSS(Statistics Package for Social SPSS(Statistics Package for Social Science)Science)简介(见教材简介(见教材P100)P100)n SPSS SPSS是是“傻瓜式软件傻瓜式软件”,学习它的关键是要,学习它的关键是要弄懂菜单中统计术语的英文与统计含义弄懂菜单中统计术语的英文与统计含义 。n 统计数据是统计数据是“米米”,数据分析是数据分析
14、是“炊炊”,SPSS,SPSS等等“傻瓜式软件傻瓜式软件”就是就是“电饭煲电饭煲”n 学习中有困难,可以看帮助和说明。学习中有困难,可以看帮助和说明。n 学习软件的最好方式是需要时在使用中学。学习软件的最好方式是需要时在使用中学。n 作业:作业:1.1.确定一个自己感兴趣的研究总体,并收确定一个自己感兴趣的研究总体,并收集与该总体相关的几个变量(至少两个,越集与该总体相关的几个变量(至少两个,越多越好多越好)至少至少2525个样本数据,并记录下来。个样本数据,并记录下来。2.2.从某种渠道获取一些数据及相应结论,从某种渠道获取一些数据及相应结论,并运用统计学的知识,对这些数据的真实性并运用统计
15、学的知识,对这些数据的真实性或者数据的说服力进行简单论述(不超过或者数据的说服力进行简单论述(不超过200200字)字)n 作业说明:作业说明:1.1.比如有人认为人的臂展长度与身高成比比如有人认为人的臂展长度与身高成比例,你要验证这个结论,那么,你需要例,你要验证这个结论,那么,你需要 至少找至少找2525个人,分别测量每个人的身高和臂个人,分别测量每个人的身高和臂展并记录你测量所得到的数据,如果你能找展并记录你测量所得到的数据,如果你能找到更多的同学配合你测量更好,当然,如果到更多的同学配合你测量更好,当然,如果你能记录被测量的同学的籍贯、性别等变量,你能记录被测量的同学的籍贯、性别等变量,或许你会发现更多有价值的东西。或许你会发现更多有价值的东西。2.2.比如:科比出手次数比如:科比出手次数毒瘤论毒瘤论 3.3.作业将作为平时成绩的主要参考依据。视作业将作为平时成绩的主要参考依据。视完成情况作业分会有高低,不仅仅凭完成情况作业分会有高低,不仅仅凭“做做”还是还是“不做不做”给分。给分。