数据的搜集与整理.pptx

上传人:莉*** 文档编号:73033656 上传时间:2023-02-15 格式:PPTX 页数:82 大小:368.35KB
返回 下载 相关 举报
数据的搜集与整理.pptx_第1页
第1页 / 共82页
数据的搜集与整理.pptx_第2页
第2页 / 共82页
点击查看更多>>
资源描述

《数据的搜集与整理.pptx》由会员分享,可在线阅读,更多相关《数据的搜集与整理.pptx(82页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、学习重点数据的计量尺度数据的类型变量的概念及种类统计数据的表现形式统计数据的直接来源统计数据整理的步骤和方法次数分布的图示和类型第1页/共82页2.1 数据的计量与类型数据的计量尺度数据的类型变量及变量值统计数据的表现形式第2页/共82页数据的计量尺度定类尺度:也称“列名尺度”定序尺度:也称“顺序尺度”定距尺度:也称“间隔尺度”定比尺度:也称“比率尺度”第3页/共82页定类尺度是最粗略、计量层次最低的计量尺度,是按照某种属性对事物进行的平行分类或分组。如:按性别将全班学生分为男生和女生分类的原则是类别“穷尽”和“互斥”。分类得到的数据表现为“类别”,且不能进行加减乘除运算。是对事物最基本的测度

2、,是其他尺度的基础第4页/共82页定序尺度是对事物之间等级差或顺序差的一种测度。它不仅可区分“类别”,还可确定类别间的“优劣”或“顺序”。如:将考试成绩分为优、良、中、及格和不及格等。计量得到的数据也表现为“类别”,但只能比较大小,不能进行加减乘除运算。第5页/共82页定距尺度它不仅能对事物进行“分类”并“排序”,而且可测度类别之间的“间距”。如:一个地区的温度200C与另一个地区的温度250C相差5摄氏度。它没有固定的“零点”。计量的结果表现为“数值”,但只能进行加减运算,不能进行乘除运算。第6页/共82页定比尺度是指在对事物进行“分类”、“排序”和计算“间距”的同时,还可计算类别之间“比值

3、”的一种层次最高的计量尺度。如:一个人的月收入1800元是另一个人月收入600元的3倍。它有固定的“零点”。计量的结果也表现为“数值”,可以进行加减乘除运算第7页/共82页数据的类型定性数据(品质数据):说明事物品质特征,不能用“数值”表示,通常表现为“类别”,是定类尺度和定序尺度计量得到的结果。定量数据(数量数据):说明事物数量特征,能用“数值”表示,是定距尺度和定比尺度计量得到的结果。第8页/共82页变量及变量值变量:是指说明现象某种特征的概念。变量值:是指变量的具体表现。统计数据是统计变量的具体表现。第9页/共82页变量的类型第10页/共82页第11页/共82页举例变 量变 量 值 变

4、量 类 型性别男、女品质变量籍贯云南、四川品质变量产品等级一级品、二级品品质变量民族汉、白、彝、回品质变量年龄17、28、38.数量变量.连续变量总产值136.5、138.9.数量变量.连续变量设备台数50、56、126.数量变量.离散变量学生人数37、48、55、56数量变量.离散变量第12页/共82页统计数据的表现形式绝对数:是统计数据的基本表现形式,反映现象的总体规模和水平。有时期数和时点数两种形式,计量单位有实物单位、价值单位和复合单位三种。如:一个地区的总人口、国内生产总值等。相对数:是两个绝对数的比值,反映现象总体的相对规模和相对水平,有比例和比率两种形式,计量单位有“有名数”(如

5、人/平方公里)和“无名数”(如:%)之分。如:一个地区的经济增长率、人口自然增长率等。第13页/共82页第14页/共82页第15页/共82页2.2 统计数据的搜集统计数据直接来源的渠道统计调查方式数据的搜集方法调查方案设计统计数据的间接来源第16页/共82页统计数据直接来源的渠道专门组织的调查:是取得重要社会经济数据的重要渠道,包括统计部门的统计调查和其他部门或机构的调查。科学实验:是取得自然科学数据的主要渠道。主要介绍取得社会经济数据的主要方式和方法第17页/共82页统计调查方式的种类第18页/共82页普 查普查:是为某一特定目的而专门组织的对调查总体各个单位一一进行的一次性全面调查。普查的

6、特点:通常是一次性或周期性的;一般需规定统一的标准调查时间;数据一般比较准且规范化程度较高;适用对象较窄,只能调查一些最基本、最一般的现象。第19页/共82页抽样调查抽样调查:这里指的是“概率抽样”,它是从调查总体中随机抽取部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查方法。抽样调查是实际中应用最为广泛的一种调查方法。抽样调查的特点:经济性、时效性高、适应面广、准确性高。第20页/共82页统计报表是我国目前搜集统计数据的一种重要方式。它是按照国家有关规定,自上而下地统一布置、自下而上逐级提供基本统计数据的一种非全面调查方法。它可以进行不同的分类。第21页/共82

7、页第22页/共82页重点调查重点调查:是从调查对象总体的全部总体单位中选择少数“重点单位”进行的调查。重点单位:是指在所调查的数量特征上占有较大比重的单位。例如:要了解全国钢铁企业的生产情况,可以选择如鞍钢、宝钢、首钢等少数大型钢铁企业作为重点单位进行调查,以便对钢铁产量有一个大致的了解。第23页/共82页典型调查典型调查:是从调查对象总体中选择一个或少数几个有代表性的单位进行全面深入的调查,目的是为了描述或揭示现象的本质和规律。它主要属于一种定性调查研究方法,着眼点不在数量特征上。第24页/共82页数据的搜集方法访问调查邮寄调查电话调查座谈会个别深度访问第25页/共82页访问调查又称“派员调

8、查”,是调查者与被调查者面对面地交谈而得到所需资料的一种调查方法。分为两种:标准式访问调查:事先设计标准式问卷,调查是依次提问。非标准式访问调查:事先不设计问卷,调查是自由交谈。第26页/共82页邮寄调查通过邮寄或其他媒体将问卷或调查表送至被调查者,由被调查者填好后寄回或放在指定收集点的一种调查方法。是一种标准化调查。调查者与被调查者之间没有直接的语言交流,信息的传递完全依赖于调查表。基本程序:设计问卷或表格 小范围预调查 发放问卷或表格 收回问卷或表格 处理和分析。第27页/共82页电话调查是调查者利用电话通过语言交流获取信息的一种调查方法。具有时效快、费用低等特点。可以按预先设计好的问卷进

9、行调查,也可针对某一专题进行电话采访。应注意:调查的问题要简明、数量不宜太多。第28页/共82页座谈会又称“集体访谈法”,即:将一组被调查这集中在调查现场,让其就所要调查主题发表意见,从而获取信息的一种调查方法。适用于搜集与调查主题有关的少数人员的倾向和意见,且调查得到的往往是一些定性资料。优点是可以相互启发、集思广益;缺点是易受权威影响。第29页/共82页个别深度访问是一次只有一名受访者参加的特殊的定性研究。是一种无结构的个人访问,通过发挥调查者的追问技巧,可探知被调查者深层次的想法和感受。适用于个人隐私及敏感性问题的研究。所得到的通常也是一些定性资料。第30页/共82页调查方案设计调查目的

10、调查对象和调查单位调查项目和调查表调查方式和调查方法调查时间调查的组织实施工作第31页/共82页调查目的应明确本次调查的目的、任务和意义。它是调查所要达到的具体目标,所回答的是“为什么调查”。写作应简明扼要。第32页/共82页例:我国第四次人口普查的目的为准确地查清第三次全国人口普查以来我国人口在数量、地区分布、构成和素质方面的变化,为科学地制定国民经济和社会发展战略与规划,统一安排人民的物质和文化生活,检查人口政策执行情况,提供可靠的资料。第33页/共82页调查对象和调查单位所要解决的是“向谁调查”,由谁来提供所需数据的问题。调查对象:是由调查目的决定的调查研究的总体或范围。调查单位:是构成

11、调查对象中的每一个单位,是调查项目和指标的承担者,也是数据搜集和分析的基本单位。实际中,调查单位可以是总体的全部单位,也可以是总体中的部分单位。第34页/共82页调查目的调查对象调查单位为了了解云南财经大学学生的基本情况云南财经大学的所有学生云南财经大学的每一个学生为了了解昆明市食品店零售食品的质量状况昆明市所有食品店的所有零售食品昆明市所有食品店的每一种零售食品第35页/共82页调查项目和调查表所要解决的是“调查什么”的问题。调查项目:是调查单位的调查的具体内容,它可以是调查单位的数量特征,也可以是调查单位的某种属性或品质特征。调查表:就是将调查项目按照合理的顺序排列而成的表格,可以是一览表

12、,也可以是单一表,一般由表头、表体和表外附加三部分组成。市场调查中,调查项目和调查表通常表现为一张调查问卷。第36页/共82页第37页/共82页调查方式和调查方法所要解决的是“怎样调查”的问题。应明确是全面调查还是非全面调查。若是非全面调查,应明确是抽样调查、重点调查还是典型调查。若是抽样调查应明确抽样框、具体的抽样方法、数据的推断方法等。市场调查中,还应明确是采用访问调查、邮寄调查、电话调查还是其他方式。第38页/共82页调查时间调查数据所属时间:应明确规定所调查的是哪个时期或时点上的数据。调查的工作期限:是指调查工作从开始到结束的时间长度,包括调查的时间、数据处理的时间、数据分析和完成调查

13、报告的时间等。第39页/共82页调查的组织实施工作调查人员的选择、组织和培训。调查表格、问卷、调查人员手册的印刷,必要调查工具的准备等调查经费来源和经费预算等。第40页/共82页统计数据的间接来源通过其他途径获取别人调查或科学试验的第二手数据。第二手数据主要是公开出版或报道的数据。也可通过其他渠道使用一些尚未公开的统计数据及广泛分布于各种媒体的各种数据。第二手数据使用起来方便经济,但应注意时效性和适用性,使用时应注明来源。第41页/共82页2.3 统计数据的整理统计数据整理的步骤统计分组的方法次数分配的图示和类型第42页/共82页统计数据整理的步骤数据的预处理:审核 筛选 排序。统计分组编制频

14、数分布表绘制频数(次数)分布图第43页/共82页数据的审核第44页/共82页数据的筛选第45页/共82页数据的排序按一定的顺序将数据进行排列。数据排序便于浏览数据、发现数据特征趋势,有助于数据检查纠错,为重新归类分组提供依据。数字型数据排序有“递增”或“递减”两种。文字型数据排序可用笔画多少等多种方法排序。第46页/共82页统计分组的概念就是根据统计研究的需要,按照某种特征或标志将全部数据分成不同的组别。对全部数据而言,它是“分”。对单个数据而言,它是“合”。分组的结果体现“组间的差异性、组内的同质性”。分组时所依据的特征或标准称为分组标志。第47页/共82页分组标志的种类第48页/共82页频

15、数和频率频数:又称为“次数”,即分布在各组的数据个数。频率:又称为“比重”,即各组频数与总频数的比值。各组的频率之和=1或100%第49页/共82页频数分布和频数分布表频数分布:又称为“次数分布”,即全部数据按其分组标志在各组内的分布状况。频数分布表:是指按某种标志对数据进行分组后,再计算出所有类别或数据在各组中的频数和频率而形成的统计表格。数据分组的过程,就是频数分布及频数分布表的形成过程。第50页/共82页按品质标志分组按品质标志分组的同时计算出各组的频数和频率,就形成“频数分布表”。适用于对定类尺度和定序尺度计量得到的品质数据的分组。1998年我国大陆人口按性别分组表按性别分组人数(万人

16、)比重(%)男 女 63,629 61,181 50.98 49.02 合 计 124,810 100.00资料来源:中国统计年鉴1999,中国统计出版社,1999年,第111页第51页/共82页按数量标志分组可先将数据进行排序,然后根据需要进行“单变量分组”或“组距分组”。适用于对定距尺度和定比尺度计量得到的数量数据的分组。第52页/共82页单变量分组单变量值分组:一个变量值就是一组。步骤:数据排序;分组。适用条件:离散型变量、数据重复次数多且数据个数少的分组场合。第53页/共82页例:某班50名同学,在统计学期中考试成绩如下:65 95 85 75 65 85 95 85 95 85 75

17、 95 65 85 65 75 65 85 65 85 75 75 85 65 75 65 85 65 75 85 65 85 75 75 85 85 85 75 75 7585 75 85 75 85 85 75 85 85 95第54页/共82页将数据“由小到大”排序如下:65 65 65 65 65 65 65 65 65 6575 75 75 75 75 75 75 75 75 7575 75 75 75 75 85 85 85 85 8585 85 85 85 85 85 85 85 85 8585 85 85 85 85 95 95 95 95 95分组得到“频数分布表”见后。第5

18、5页/共82页某班5050名学生统计学期中考试成绩分组表考试成绩分组 人数(人)比重(%)65 75 85 95 10 15 20 5 20.00 30.00 40.00 10.00 合 计 50 100.00第56页/共82页组距分组的概念组距分组:将全部数据依次划分为若干区间,并将一个区间内的数据作为一组。适用于连续型变量或数据较多且重复出现次数少的场合。在组距分组中,一个组的最小值称为“下限”;一个组的最大值称为“上限”。第57页/共82页组距分组的步骤将原始数据进行排序确定组数确定各组的组距根据分组整理成“频数分布表”下面举例说明。第58页/共82页例:某行业管理局所属40个企业199

19、9年的产品销售收入数据排序如下(单位:万元)87 88 92 95 97 100 103 103104 105 105 107 108 108 110 112 113 114 115 115 116 117 117 118 119 119 120 123 124 125 126 127 129 135 136 137 138 142 146 152第59页/共82页确定组数分组的目的之一是为了观察数据的特征和规律。组数的多少应适中。组数的确定,应以能够显示数据的分布特征和规律为目的。第60页/共82页第61页/共82页确定各组组距组距:是一个组的上限与下限之差。=(全部数据的最大值-全部数据的

20、最小值)组数通常,组距宜取5或10的倍数,且第一组的下限应小于最小变量值,最后一组的上限要大于最大的变量值。第62页/共82页第63页/共82页某行业管理局所属4040个企业19991999年的产品销售收入分组表销售收入(万元)企业数(个)比重(%)85100 100115 115130 130145 145160 5 13 15 5 2 12.50 32.50 37.50 12.50 5.00 合 计 40 100.00第64页/共82页组距分组应注意的问题一定要遵循“不重不漏”的原则。解决“不重”的问题,习惯上规定“上组限不在内”。当一组数据悬殊较大时,为避免出现空白组或极个别极端值被遗漏

21、,一般应采用“以下”及“以上”。可以采用等距分组,也可以采用不等距分组。对于不等距分组可用“频数密度”反映频数分布的实际状况。组距分组掩盖了各组内的数据分布状况。“组中值”是上限和下限中间之间的中间数值,它是代表各组数据一般水平的数值。组中值=(下限+上限)2 第65页/共82页附:开口组组中值的计算开口组的组距和组中值的确定,一般一相邻组的组距为准,其计算公式为:缺下限开口组(以下)的组中值=上限-(相邻组组距2)缺上限开口组(以上)的组中值=下限+(相邻组组距2)第66页/共82页向上累计和向下累计为了统计分析的需要,有时需要观察某一数值以下或某一数值以上的频数之和,这就需要在分组的基础上

22、计算出“累计频数”。向上累计:即“由小到大累计”,亦即:从变量值小的一方向变量值大的一方累加频数。向下累计:即“由大到小累计”,亦即:从变量值大的一方向变量值小的一方累加频数。第67页/共82页某班5050名学生统计学考试成绩分组 成 绩 分 组 人数 (人)比 重(%)向上累计 向下累计频 数(人)频 率%频 数(人)频率%60分以下 6070 7080 8090 90分以上 2 12 25 8 34.0024.0050.0016.00 6.00 2 14 39 47 50 4.0028.0078.0094.00100.0 50 48 36 11 3100.0 96.00 72.00 22.

23、00 6.00 合 计 50100.0 -第68页/共82页次数分布的图示和类型次数分布的图示:直方图、折线土、茎叶图。次数分布的类型:正态分布、偏态分布、J型分布、U型分布。第69页/共82页直方图直方图:用矩形的宽度和高度来表示频数分布的图形。在平面直角坐标系中,通常用“横轴”表示“数据分组”,用“纵轴”表示“频数”或“频率”。频数的分布,可以用直矩形的高度,也可用频数密度表示。但用频数密度表示更为合适。频数密度=频数组距 第70页/共82页折线图又称为“频数多边形图”,它是在“直方图”的基础上,把直方图的顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉而形成的图形。特别注意:折线

24、图的两个终点必须与横轴相交;折线图与横轴围成的面积应等于原来直方图各个矩形的面积之和。第71页/共82页茎叶图由“树茎”和“树叶”两部分组成。设计好“茎”是绘制茎叶图的关键。通常将一个数据拆分为两部分,数据的“高位数”作“茎”,“个位数”作为“叶”。如:108拆分为:10为“茎”,8为“叶”。茎叶图既能给出数据的分布状况,又能看出每一个原始数据。适用于未分组的原始数据。第72页/共82页例:某车间30名工人的年龄如下:18 18 21 23 28 29 46 50 45 4423 25 24 25 24 27 36 37 34 3330 39 43 47 48 51 52 42 41 19 根

25、据这些资料编制茎叶图,见下页。第73页/共82页树茎12345树叶8 8 91 3 3 4 4 5 5 7 8 90 3 4 6 7 91 2 3 4 5 6 7 80 1 2第74页/共82页正态分布正态分布:是一种对称的钟型分布。它成“两头小,中间大”的形状。有许多现象均服从正态分布。如农作物的单位面积产量、学生的考试成绩、零件的公差、纤维的强度等均服从正态分布。正态分布正态分布正态分布第75页/共82页正偏(右偏)分布正偏分布:是相对于“正态分布”而言的,表现为一组数据中多数数据偏低,少数数据偏高,有极大值出现。此时,全部数据的均值会高于中位数。右偏分布右偏分布右偏分布第76页/共82页

26、负偏(左偏)分布负偏分布:也是相对于“正态分布”而言的,表现为一组数据中,多数数据偏高,少数数据偏低,有极小值出现。此时,全部数据的均值会低于中位数左偏分布左偏分布左偏分布第77页/共82页正J型分布正J分布:即全部数据由小到大成曲线形上升趋势。西方经济学中的供给曲线,随着价格的提高以更快的速度增加,呈现为正J型。正正正J J J型分布型分布型分布第78页/共82页反J型分布反J分布:即全部数据由大到小呈曲线下降趋势。西方经济学中的需求曲线,随着价格的上升,需求量以较快的速度减少。反反反J J J型分布型分布型分布第79页/共82页U型分布U型分布:其特征是:两端的频数分布多,中间的频数分布少。例如:人和动物的死亡率分布就近似服从U型分布。产品的故障率也有类似的分布。U UU型分布型分布型分布第80页/共82页End of Chapter 2第81页/共82页云南财经大学统计信息学院感谢您的观看!第82页/共82页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > PPT文档

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁