《数据分析与统计调查报告.pptx》由会员分享,可在线阅读,更多相关《数据分析与统计调查报告.pptx(61页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、社会调查人员系列培训调查统计/数据分析讲座课程要点一、数据的收集二、数据的整理三、数据的统计特 性分析一、数据的收集 两种数据来源:原始数据 次级数据 两种数据形式 横截面数据(点)时间数列数据(面)数据的来源与分类数据收集(调查)策划调查目的调查对象-调查内容-调查方法调查结果满足调查目的调查对象一、全面调查不重复、不遗漏二、非全面调查代表性、选择偏性例1936年罗斯福与兰登的总统竞选:文学摘要:罗斯福(43%)兰登(57%)1千万盖洛普:罗斯福(56%)5万人实际结果:罗斯福(62%)兰登(38%)调查方法方法 对象特点适用条件普查 全部单位 一次性、周期性、数据准确、全面、使用面窄掌握总
2、体情况有限总体抽样调查样本单位 经济、实用、准确、适应面广掌握总体情况、有限总体与无限总体重点调查重点单位 非随机性 掌握趋势存在重点单位典型调查典型单位 非随机性 用于定性分析统计报表全部单位与非全部单位统一性、准确性调查内容(一)问卷结构:说明词、填写要求、问卷正文及结尾 说明词:主办单位及调查员身份、调查的目的和意义、承诺及感谢 问卷正文:需要调查的问题及答案、被调查者的背景资料 结尾:说明问卷设计 清楚定义内容:5w“您使用什么品牌的化妆品”用词通俗、词义明确“您经常收看电视节目吗?”“1、从来不看;2、偶尔看;3、有时看;4、经常看;5、天天看”避免隐含的选择(乘车、牛仔裤)避免否定
3、形式的提问 避免诱导性或倾向性的词汇、避免重叠、答案详尽(二)问卷的措辞(三)问题的顺序1、先易后难2、封闭型问题置前,敏感性、开放性问题置后3、注意对后继问题的影响:1)您在选择购物时,哪些因素是重要的?2)您在选择购物时,售后服务这个因素的重要性如何?4、逻辑思路保持一致二、数据的整理审核分组(品质数据、数量数据)计算频数与频率观察数据的表现审核数据资料的可用性 方法错误如:时间,空间,口径等 逻辑错误如:产值与销售值,年龄与工作年限 主观错误敏感性、政治性等如:失业率与平均每周申请失业保险人数IBMIBM 帕科特 贝尔康柏IBM帕科特 贝尔苹果苹果盖威特-2000帕科特 贝尔康柏康柏苹果
4、数据的分组与频率的计算(一)品质数据的分组与计算频数:每组数据值出现的次数例:下表为购买50台计算机的样本数据下表为购买计算机数据的频数分布表按公司分组 频数苹果机13康柏机12盖威特-2000 5IBM 9帕科特贝尔11合计50数量数据频数分布的分组需要3个步骤:1.确定组数;2.确定组距;3.确定组限。12 14 19 18 15 15 18 17 20 2722 23 22 21 33 28 14 18 16 13(二)数量数据的整理案例:下表为年终审计耗用的时间(单位:天)=1.确定分组数目:本例组数=5.3确定分5个组。2.确定组距:本例组距=取整数5天按审计时间分组(天)频数10-
5、14 415-19 820-24 525-29 230-34 1合计 203.计算频数与频率5.计算审计时间数据的相对频数和百分比频数分布:按审计时间分组(天)相对频数 百分比频数10-14 0.20 2015-19 0.40 4020-24 0.25 2525-29 0.10 1030-34 0.05 5合计 1.00 100按审计时间分组(天)频数向上累计频数分布向下累计频数分布10-14 4 4 2015-19 8 12 1620-24 5 17 825-29 2 19 330-34 1 20 1合计 20 6.计算审计时间数据的累积频数分布在数量数据整理中要注意的问题1、在一些应用中,
6、我们需要知道各分组的中点,也就是组中值。2、开口组(即只有上限或只有下限的组),其组中值用邻组的组距计算。3、在数据较少的情况下,可用品质数据整理的方式,采取单变量值分组。4、连续变量与离散变量的组限问题上组限不在内5、等距与不等距分组观察数据的表现观察数据的表现(特征)一般通过图表来分析:统计图 统计表 统计指标(一)统计图1、直方图:是用图形说明数量数据的一种常用方法。下图为审计时间数据直方图2、条形图:是用图的方式描述已概括成频数、相对频数或百分比频数分布的数据的特征3、饼图:是用圆的各部分面积来呈现品质数据的常用方法。本例中所有各组计算机购买的百分比频数总和为100,一个圆有360,则
7、饼图中苹果机的部分为26%X360=93.6其他组的部分以此类推算出:4.统计折线图与曲线图 洛伦茨曲线 生命曲线 投机需求曲线 质量曲线5、象形图按收入大小顺序排列的家庭数占总收入的%累计家庭数%累计收入的%最低的20%4.7 20 4.7第二个20%11 40 15.7第三个20%17 60 32.4第四个20%24.4 80 56.8最高的20%43.2 100 100洛伦茨曲线累计收入的%累计家庭的%1975 1985 1995100101(二)统计表年份国内生产总值 最终消费最终消费率 年末人口)1989112704199018319.5 11365.261.3 1143331991
8、21280.4 13145.960.8 115838199225863.6 15952.159.9 1171711993199419951996合计34500.647110.959404.968498.2274978.120182.158.327216.258.234529.459.040171.758.6162562.6118517119850121121122389三、数据的统计特性分析 绝对数与相对数 集中趋势:众数、中位数、平均数 离散趋势:全距 方差、标准差 方差系数、标准差系数一.绝对数与相对数(一)绝对数 反映社会现象整体规模和水平 时期数 时点数(二)相对数 结构、比较、计划等
9、(三)绝对数与相对数的应用1、指标内涵和可比性:GNP、工业增加值2、指标的结合运用举例:在美国,1985年有19893人遭谋杀,与1970年16848人遭到谋杀相比,增加了20%。这些数字揭示了在1970-1985年期间美国变成一个更多暴力的社会中国的国民生产总值增长了8%,美国的为1%二.数据集中趋势的分析(一)众数Mode众数是总体数据中出现次数最多的变量值。例一:有10名大学生的年龄:18,18,19,19,19,19,19,20,20,21,在这里19岁的人数最多,所以19岁是众数。例二:有10名职工的年龄:20,21,22,23,24,25,26,27,28,29,由于各年龄的人数
10、相同,没有明显集中趋势点的数值,所以这里没有众数。注意:1、是位置平均数,不受极端值的影响2、假定各单位在组内是均匀分布的3、信息量小,缺乏敏感性,不适合代数运算4、用于非对称的次数数列、特别是品质标志数列5、用于数列中有较多的数值向某一数值集中6、有时会存在多个众数(二)中位数Medium中位数就是把计算对象的数据按大小顺序排列后,处于中间位置上的变量值。1、是位置平均数,不受极端值的影响2、假定各单位在组内是均匀分布的3、信息量小,缺乏敏感性,不适合代数运算4、用于非对称的次数数列如:个人收入、年龄注意:(三)均值Mean1.定义:均值就是分布中全部数据的算术平均值。2.确定1、对未经整理
11、的原始数据,表示均值2、对分组数据(加权)的均值某公司推销员工作量如下:推销量(件)组中值X推销员人数(人)FXF20-3030-4040-5050-6060-7025354555652810415028045022065合计25 1065举例对平均数的理解:(1)某房间有10人平均身高1.6米,第11人走进,其身高1.9米,求11人的平均身高;若房间里20个人身高平均1.6米则第21人走进,21人的身高又会如何(2)一教师出3个问题,每题1分班级中30%得3分,50%得2分,10%得1分,10%得0分;全班有10个人;全班有20人?(3)经济衰退时,工人的平均工资高,平均失业期短;经济繁荣时
12、,平均工资低,平均失业期长;这会是真实吗?注意:1.平均数的大小受变量值和权重两个因素的影响2.平均数收极端值的影响3.权重的选择要注意其经济意义4.正确理解各平均数指标测度值优点 缺点众数1、当数据有明显的集中趋势又是偏态分布时其代表性较好;2、不受极端数值的影响;1、具有不唯一性,有的分布有不只一个众数,有的分布没有众数;2、具有假定性,当假定不成立时其代表性会很差。中位数1、不受极端数值的影响;2、可描述集中趋势不明显;3、数据分布中心值;1、具有假定性,当假定性不成立时其代表性会很差;2、当分组数较少而分布又较集中时,中位数不一定准确。均值1、数据信息提取最充分,具有优良的数学性质;2
13、、既是数据分布的中心,又是数据的重心,应用广泛,是其他统计方法的基础;1、对组距分组数据计算均值具有一定的假定性;2、受极端数值的影响;众数、中位数和均值的特点和应用场合 三.数据分布离散程度的分析离散程度是评价数据一般水平代表性大小的依据,并可以反映数据分布的均衡程度。(一)全距(Range)与四分位距:全距也称极差,是用分布数据中的最大值减去最小值的差,表示为四分位距:将所有数据分为4份,每部分之间的分界点为四分位数据1、简单标准差:(二)标准差与方差举例:某百货公司有6家分店,经理要求掌握这6家分店的年净收入差异水平,其标准差计算如下:平均年净收入年净收入(万元)离差()离差平方()49
14、0-68 4624538-20 400560 2 4570 12 144590 32 1024600 42 1764合计 0 7960(三)对标准差的理解:1、相同的数列,用原始数据计算和用分组数据计算,标准差有何不同?2、10个数的数列,若只包括1、9且标准差最大,这10个数是什么?1、是非变量的标准差在统计研究中,经常遇到这样一种情况,即统计对象总体只有两种表现的可能,这类总体的现象表现就是是非变量。一般我们将其中一种表现的变量值表示为1,另一种表现的变量值表示为零,如果我们用P表示变量值1在总体中出现的频率,用Q表示变量值零在总体中出现的频率,则有:,(四)其他形式的标准差是非变量的均值
15、:是非变量的方差:2.2.总体方差与组方差总体方差与组方差 举例:某厂某班组12名工人日产量件数如下:9,11,14,15,16,19,20,21,21,22,23,28,对上述12名工人求日产量的均值及总方差得:如果对上述12名工人按工人的技术等级分为两组:第一组工人的日产量分别为9,11,14,15,16这5个变量值,则其组内均值:组方差:第一组的方差:第二组的方差:同理,第二组2人日产量分组有19,20,21,21,22,23,28七个变量值,则其组内均值和组内方差为:工人分组工人日产量(件)工人数组内均值组内均值与总均值离差离差平方和乘频数XjFi第一组9,11,14,15,16 5
16、13-5 125第二组19,20,21,21,22,23,287 22 4 112组间方差计算列表组内方差的均值与组间方差之和等于总方差,在本例中各组内方差的均值为:则各类方差之间的关系为:26.92=7.17+19.75主要是标准差系数或(五)离散系数举例:有两个不同的生产小组,甲组是生产配件,乙组是整机装配,现在要比较这两个生产小组在一周内平均日产量的均衡程度。日期生产小组周一 周二 周三 周四 周五甲组60 65 70 75 80乙组2 5 7 9 12计算:(六)标准值设标准化分位值为Z,则有:或举例:某班的统计学考试成绩平均分数为80分,标准差为6分,某同学考试成绩86分,则该同学统计学的分数相对于平均分数的标准化分位值是:如果该同学在英语考试中的成绩是120分,全班的平均分数是100分,标准差是20分,则该同学英语的分数相对于平均分数的标准化分位值是:在这里英语的120分与统计的86分是等值的,都是高于平均分一个标准差