《《数据的基础》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《数据的基础》PPT课件.ppt(52页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第12章数据的基础分析:描述统计 了解数据整理的目的和过程了解数据整理的目的和过程 了解问卷检查和编辑方法了解问卷检查和编辑方法 讨论不合格问卷的处理方法讨论不合格问卷的处理方法 描述问卷的编码问题描述问卷的编码问题 描述数据的列表分析描述数据的列表分析 描述数据的分析与解释描述数据的分析与解释2/4/20231 12/4/20232 2第一节 数据的整理 编辑 编码 数据由计算机处理之编码明细单 2/4/20233 31、编辑 编辑是对数据进行筛选,即发现并挤出搜集起来的营销研究数据中的“水分”,选用真正有用的数据。编辑通常分实地编辑和办公室编辑两步进行。2/4/20234 41.1实地编辑
2、 实地编辑是初步编辑。主要任务:发现数据中非常明显的遗漏和错误,帮助控制和管理实地调查队伍,及时调整调研方向、程序,帮助消除误解及有关特殊问题的处理。应在问卷或其他的数据收集形式实施后尽快执行,以便问卷能在数据收集人员解散之前得到校正。实地编辑对数据检查的项目主要有以下几项:完整性、清楚性、内容一致性、明确性、单位统一性。2/4/20235 51.2 办公室编辑 在实地编辑之后进行。主要任务:更完整、确切地审查和校正回收上来的全部数据。为了保证数据的一致性,最好由一个人来处理所有的材料或者将该工作进行分割,由每名审核员对每一份问卷从头审到尾。主要存在的问题是:不完全回答、明显的错误答案、由于被
3、访人缺乏兴趣而作的搪塞回答以及对于开放性问题的打乱顺序的回答等。不完整答卷的对策大面积的无回答,或相当多的问题无回答个别问题无回答相当多的问对同一个问题(群)无回答明显错误答案的对策明显的错误答案是指那些前后不一致的答案,或其他答非所问的答案根据全卷的答案内在逻辑联系对某些前后不一致的地方进行修正,其他不能修正情况按“不详值”对待。2/4/20236 6无兴趣答卷的对策如果这种缺乏兴趣的回答仅属个别问卷倘若这种答卷有一定的数目,且集中出现在同一个问题(群)上对于最后判定按“不详值”处理的答案,审核员要用记号笔明确注明“不详值”字样或其代码。纠正对开放性问题的打乱顺序的回答2/4/20237 7
4、2/4/20238 8对次级数据的审核(1)对著述性文献和行会文献的审核清楚作者或编纂者的身份和背景;对客观性相对较差的文献要持保留态度,尽可能引用客观性较强的文献;注意文献的编写时间,这对记叙历史事件的文献尤为重要。(2)对统计数据的审核注意指标口径和数据分组问题;指标口径系指指标的内涵、外延、计量单位、空间或时间等因素的总和。次级数据的分组与调研设计不一致时,不能直接引用,而需要重新分组。区分直接整理的数据和多次整理的数据。2/4/20239 92、编码编码就是对一个问题的不同回答进行分组和确定数字代码的过程。对数据编码有利于提高效率、减少数据库的大小并且有利于数据分析封闭问题(事前编码)
5、调查中一组问题的不同数字编码已被确定开放问题(事后编码)在资料搜集好后再根据受访者答复内容来决定类别的指定号码事前编码:结构性问卷中的答案Q、您认为人寿保险的主要作用是什么?(最多选择三项)防止意外事故 投资 养老保障建立子女教育基金 储蓄 医疗保障 其他 编码答案2/4/2023事后编码封闭问答题“其它”选项、开放问答题编码过程(给出一份空白问卷)列出答案合并答案设置编码输入编码2/4/2023Q、为什么您喜欢喝这个牌子的啤酒?1 因为它口味好因为它口味好2 它具有最好的味道它具有最好的味道3 我喜欢它的口味我喜欢它的口味4 我不喜欢其他啤酒太重的口味我不喜欢其他啤酒太重的口味5 它最便宜它
6、最便宜6 我买任何打折的啤酒,它大部时间都打折我买任何打折的啤酒,它大部时间都打折7 它不象其它牌子的啤酒使我的胃不舒服它不象其它牌子的啤酒使我的胃不舒服8 其它牌子的啤酒使头痛,而这个牌子不会其它牌子的啤酒使头痛,而这个牌子不会9 我总是选这个牌子我总是选这个牌子10 我已经喝了我已经喝了20多年了多年了11 它是大多数同事喝的品牌它是大多数同事喝的品牌12 我的所有朋友都喝它我的所有朋友都喝它13 这是我妻子在食品店中购买的牌子这是我妻子在食品店中购买的牌子14 我没有想过我没有想过15 不知道不知道16 没有特别的原因没有特别的原因2/4/2023 口味口味1,2,3,41,2,3,41
7、 1价格5,62习惯9,10,11,12,133身体不舒服7,84未知14,15,1652/4/20232/4/20231414事后编码的基本步骤(1)列出答案。(2)将所有有意义的答案列成频数分布表。(3)确定可以接受的分组数。(4)根据拟定的分组数,对在第(2)步频数分布表中整理出来的答案进行挑选归并。(5)为所确定的分组选择正式的描述词汇。(6)根据分组结果制订编码规则。(7)对全部回收问卷的该开放式问题答案进行编码。3、资料的计算机处理之编码明细单编码明细表是说明问卷中各个问题及其答案,与计算机数据文件中的字段、数码位数、数码之间一一对应关系的文件。所有资料都转换为数字每一数值占一列处
8、理无信息答案,例如可以用“8”表示“不知道”,“9”表示“无回答”,“O”表示“不适合”。问卷编号占据第一个字段2/4/2023淘宝使用者问卷淘宝使用者问卷 1,今年您使用淘宝购买过商品吗?今年每买过;今年买过。2,您今年或者以前使用淘宝购买过的商品是什么?请将所购买过的商品都表示出来。食品;服装;运动器材;家电;其他3,您在淘宝购买商品以后,整体满意度如何?非常不满意;不满意;一般情况;满意;非常满意。4,您以后还会使用淘宝购物吗?绝对不会;不会;不清楚;可能还会;一定会。5,如果有机会,您会对他人推荐使用淘宝购物吗?绝对不会;不会;不清楚;可能还会;一定会。6,您的性别?男;女。7,您的年
9、龄?20岁以下;21-30岁;31-40岁;41-50岁;51以上。2/4/2023问题序号问题序号列码列码问题描述问题描述码值含义码值含义1-3问卷编号14淘宝购物经历1,有;2,无2-15食品1,买;0,未买2-26服装1,买;0,未买2-37运动器材1,买;0,未买2-48家电1,买;0,未买2-59其他1,买;0,未买310满意与否1,2,3,4,5411继续使用与否1,2,3,4,5512推荐与否1,2,3,4,5613性别1,男;2,女714年龄1,2,3,4,52/4/2023 10 11 12 13 14 2/4/20232/4/20231919第二节 数据的初步分析列表数据的
10、列表(tabulation):把调查数据按照一定的目的、用表格的形式展现出来。基本方法:计数变量值的出现次数。单向列表(oneway tabulation):仅计数一个变量的不同数值的出现次数;交叉列表(crosstabulation):同时计数两个或多个变量的不同数值联合出现的次数。2/4/202320201、单因素表格化分析 单向列表可以用于以下几个目的:弄清无回答现象的程度;弄清编误(blunder)发生于何处;弄清飞点(outlier)发生于何处;弄清变量的分布;计算主要的描述指标。汽车保有数家庭数1742233291合计1002/4/202322221.1“无回答”“缺省值”(mis
11、sing value):在数据编码和登录时,用来表示“无回答”的数字。对于缺省值通常有以下几种对策供选择:保留下来作为单独的一组。临时排除含有缺省值的记录。以其他数值替补缺省值。算术平均数适合用来替补区间尺度和比率尺度所测得的缺省值;中位数可以用来替补顺序尺度所测得的缺省值;众数可以用来替补类别尺度所测得的缺省值;对于两点式问题的缺省值,可以按随机原则指定其答案属于“是”或“否”;对于多项单选式问题的缺省值,可以按业已取得的有效答案的分布比率来指定替补值。2/4/202323231.2 编误与飞点 编误:在作单向列表时,可能发现一些不正常的数值,经查对原值并非如此,像这种发生在数据编码和登录过
12、程中的误差称为“编误”。飞点:与编误性质不同,飞点是经过查对能够确认的特殊的观测值,只是与其他的观察值相比,它们特别大或者特别小。飞点是真实的观测值,所以不能被“纠正”,只能在列表和数据分析中作为特例来对待。绘制箱索图(boxandwhisker)有助于发现飞点。2/4/2023奇异值占50%的样本所在位置家庭收入箱体图2/4/20232/4/202326261.3 单向列表的主要描述量众数:总体中各单位按照在某一标志上出现次数最多的变量值。中位数:总体中各单位按其在某一标志上数值的大小顺序排列的,居于中间位置的变量值。平均数:总体中各单位数值的和除以标准值项数得到的数值。标准差:各个离差平方
13、的算术平均数的平方根。两端不两端不两端不两端不封口封口封口封口小数位小数位小数位小数位对齐对齐对齐对齐可改为可改为可改为可改为汉字汉字汉字汉字号码可用号码可用号码可用号码可用Q Q或第题表示;或第题表示;或第题表示;或第题表示;标题用陈述句标题用陈述句标题用陈述句标题用陈述句标题与号码标题与号码标题与号码标题与号码2/4/20232/4/202328282、多因素列表分析交叉列表分析是同时将两个或两个以上具有有限类目数和确定值的变量,按照一定顺序对应排列在一张表中,从中分析变量之间的相关关系,得出科学结论的技术。变量之间的分项必须交叉对应,从而使交叉表中每个结点的值反映不同变量的某一特征。2/
14、4/202329292.1 双向交叉列表 双向交叉列表是同时有两个变量参加交叉分组的频数分布表,这种频数分布表称为列联表。下面以“汽车保有量”为例。问题:家庭收入在平均数之上的家庭是否比收入在平均数之下的家庭拥有更多的汽车?操作:以中位数17 500美元作为选定的平均数,将全部家庭划分成低收入组(17 500美元)和高收入组(17 500美元)两组;再按汽车保有量将全部家庭划分成2组,拥有汽车1辆之内的家庭为一组,1辆以上的家庭归为另一组。2/4/20233030家庭收入与汽车保有呈交叉分组额数 家庭收入 汽车保有量 1辆以内 1辆以上 合计 低收入高收入合计 482775 61925 544
15、6100 表8-9家庭收入与汽车保有量交叉分组行组百分比家庭收入 汽车保有量 个案数 1辆以内 1辆以上 合计 低收入高收入89%59%11%41%100%100%5446 2/4/20233131表8-10家庭收入与汽车保有量交叉分组行组百分比家庭收入 汽车保有量 1辆以内 1辆以上 低收入高收入合计 64%36%100%24%76%100%个案数 75 25 2/4/20233232表89与表810的对比表89表明汽车保有量受收入水平的影响,41的高收入家庭拥有1辆以上的汽车,然而只有11的低收入家庭拥有1辆以上汽车。表810表明64的拥有不超过1辆汽车的家庭属于低收入组,36的拥有不超过
16、l辆汽车的家庭属于高收入组,这样的表述给人以汽车保有量主动影响收入水平的印象,显然是不合逻辑的。为此,交叉列表一般都将自变量沿横向展开,将因变量沿纵向展开,相对频数计算行百分比。这种行百分比在总体上实质是一种条件概率。2/4/20233333家庭收入 汽车保有量 1辆以内 1辆以上 合计 低收入高收入48(89%)27(59%)6(11%)19(41%)54(100%)46(100%)表8-11家庭规模与汽车保有量交叉分组家庭规模 汽车保有量 1辆以内 1辆以上 合计 4口以内4口以上 70(90%)5(23%)8(10%)17(77%)78(100%)22(100%)合计 75 25 100
17、 2/4/20233535这表明家庭规模对汽车保有量有一定的影响。这表明家庭规模对汽车保有量有一定的影响。3、三向交叉列表第一步,先把其中一个自变量稳定在其各种量值之中的一个量值上,然后对另一自变量与因变量作双向交叉分组;第二步,再将第一个自变量稳定在下一个量值上,作另外两个变量的交叉列表,依次类推,直至穷尽第一个自变量的所有量值;第三步,最后列出没有第一个自变量介入的另外两上变量的交叉列表。2/4/202336363.1 三向交叉列表收入水平 家庭规模 4口以内 4口以上 全部家庭 1辆以内 1辆以上 合计 1辆以内 1辆以上合计 1辆以内 1辆以上 合计 低 4424644848654高
18、26632113142719462/4/20233737上表是把家庭规模作为第一个自变量,将收入作为另一个自变量,研究上表是把家庭规模作为第一个自变量,将收入作为另一个自变量,研究它们对于汽车保存有量的影响。它们对于汽车保存有量的影响。表8-13 家庭收入、家庭规模与汽车保有量交叉分组频数收入水平 家庭规模 4口以内 4口以上 全部家庭 1辆以内 1辆以上 合计 1辆以内 1辆以上合计 1辆以内 1辆以上 合计 低 96%4%100%(46)50%50%100%(8)89%11%100%(54)高 81%19%100%(32)7%93%100%(14)59%41%100%(46)2/4/202
19、33838表8一14 按家庭收入和家庭规模交叉分组的拥有l辆以上汽车的家庭百分比家庭收入 家庭规模 4口以内 4口以上 合计 低高 4%19%50%93%11%41%2/4/20233939家庭收入与家庭规模哪一个对汽车保有量影响力更大?通过算术加权平均法求得不论家庭规模大小与否,单纯提升某户收入水平,该户拥有1辆以上汽车的机会所增加的百分点。算式是:(0.1578+0.4322)(78+22)=021对不同的收入水平综合起来考虑,家庭规模的扩大将使某户拥有1辆以上汽车的机会增加:(0.4654+0.7446)(54+46)=0.59 通过以上两步,可知家庭规模对汽车保有量的影响远比家庭收入水
20、平的影响大。2/4/202340402/4/202341413.2 数据的分析与解释 分析是以某种有意义的形式或次序把收集的数据重新展现出来。即回答“每组数据里有些什么信息?”解释是在数据分析的基础上找出信息之间或手中信息与其他已知信息的联系,目的是从所收集的数据中获得结论。数据的分析与解释是相互联系、相互依赖的。分析和解释中任何一个不适当都会影响到研究结果的正确性。季度A牌(万支)B牌(万支)110010290153802047030数据的解释在解释数据时没有一个统一的模式可循,但下面两个方面是必须注意的:一是要理解归纳和演绎的推理方法;二是要保证形成结论时的客观性。2/4/20234343
21、归纳和演绎的推理方法 归纳和演绎方法常被用来从数据中获得结论推断。演绎推理方法是从一般的前提推到个别的结论的方法。演绎推理的主要形式是“三段论”,由大前提、小前提、结论三部分组成一个“连珠”;而归纳法则是把一系列分离的事实或观察到的现象放在一起从而得出规律、法则。在常温情况下,金、银、钳、铁、锡等部分金属都具有固体特征-“一切金属都是固体”一切生物都可遗传,人也是生物,人也遗传2/4/20234444归纳推理方法在市场营销调研中的应用归纳方法中,任何结论都是基于从调查、实验或观察中得出的证据。市场营销研究中使用的通过对大量个体(或样本)的研究得出一般性结论的方法就是归纳法。例如某个汽车方面的调
22、查表明,100个汽车用户中有60个声称在将来更换新汽车时,很可能或绝对会买东风汽车。根据这60个个别发现,得出下面的结论:大部分汽车用户(60%)在更新汽车时会购买东风汽车。2/4/202345452/4/20234646演绎方法在市场营销调研中的应用演绎推理过程包括一系列的语句,其中最后一句是结论,它是从前几句逻辑地推理出来的。结论的正确性取决于前提的正确性,然而在管理方面的应用中,演绎方法的大前提常常是不太可靠的。60%的车主更新汽车时会购买东风汽车,明年将有10万个车主更换新车,明年东风汽车的销售量中由于车主更新而产生的销售量将是6万辆。2/4/20234747分析解释的客观性评价 研究
23、者进行研究时的客观态度对数据的收集是非常重要的,这种对客观性的要求在对数据的解释中更重要。理想的研究课题要求研究者始终保持完全客观的态度,但在实际生活中,这是难以完全办到的。本章小结数据的整理包括编辑、编码和列表。编辑是指检查和修正搜集到的数据,通常分为实地编辑和办公室编辑。办公室编辑要对不完整答卷、错误答卷和无兴趣答卷予以处理,并对次级数据进行审核。编码是给问题的答案配上数字或符号的过程。封闭武问卷与开放式问卷的编码方式有所不同,编码传来后,还要编削编码明细单以便计算机输入和分析。列表是把相似的数据放在一起,以表格形式加以展示的过程,它可以帮助进行数据的初步分析。列表根据计数变量个数的不同,
24、可分为单因素列表和多因素列表。2/4/20234848单因素列表的作用在于弄清无回答现象的程度、编误和飞点发生在何处,弄清变量的经验分布并计算主要的描述指标。多因素列表中最重要的是双向交叉列表,它是分析研究变量问关系的主要工具。在数据整理完毕后,就要进行数据分析与解释。分析与解释相互联系、相互依赖。共同影响研究结果的正确性。在解释数据时,必须注意理解归纳和演绎的推理方法。并保证结论的客观性。2/4/20234949常用统计图1、直方图与饼形图饼形图只适合于单选题整张圆饼总计100%三维效果减至最低不能切成太多说明标在饼形内标题标题标题标题项目与项目与项目与项目与数据数据数据数据在饼外在饼外在饼外在饼外时应加时应加时应加时应加牵引线牵引线牵引线牵引线2/4/20232、态度对比表2/4/20233、其它统计图4、统计图制作的注意点每张图有号码与标题每张图的大小应大体相当具有比较性的题目采用相同的统计图图形比例适当颜色配比适当说明数据来源2/4/2023