《市场调查方法与技术第9章.ppt》由会员分享,可在线阅读,更多相关《市场调查方法与技术第9章.ppt(65页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第八章第八章 调查资料的整理调查资料的整理本章结构本章结构调查问卷的回收及审核 1.调查资料的编码与录入2.调查数据的清洁和预处理3.第一节第一节 调查问卷的回收及审查调查问卷的回收及审查 v调查资料整理的意义v原始调查数据的类型v调查资料整理的步骤v调查问卷的回收v调查问卷的审查一、调查资料整理的意义一、调查资料整理的意义 v数据整理是提高调查数据质量的必要步骤 v数据的整理是分析的重要基础 v数据的整理便于今后对数据的长期保存和研究 二、原始调查数据的类型二、原始调查数据的类型 v 第一手数据和第二手数据v 定性数据和定量数据v 市场调查问卷、专家访谈记录、政府机关的档案 资料、录音带或其
2、他多媒体资料等三、调查资料整理的步骤三、调查资料整理的步骤 v对原始资料进行审核、修正。v编码。v数据的录入。v数据的清洁。v进行统计预处理。四、四、调查问卷的回收卷的回收v与资料收集工作相配合v记录问卷完成的日期和接收的日期v多个项目同时实施时,分别记录清楚v每一份问卷记录唯一的、有顺序的识别号码v依据识别码进行资料的核对、事后的编码、资料的录入等工作五、调查问卷的审核五、调查问卷的审核 1.审核的内容:v完整性的审核:单位无回答或项目无回答 v正确性的审核:口径、计算方法、计量单位 v一致性的审核:逻辑错误 v及时性的审核 v清楚易懂 五、调查问卷的审核五、调查问卷的审核 2.审核的主要方
3、法v经验判断。如年龄,营业面积v逻辑检查。如婚姻状况v计算审核。如收支 五、调查问卷的审核五、调查问卷的审核 3.审核的阶段(何时进行审核)v实地审核,又称初步审核、现场审核v中心办公室审核五、调查问卷的审核五、调查问卷的审核 4.审核的基本步骤v接收核查问卷(一审):将无效的或不能接受的问卷剔除。无效问卷:1)缺损的问卷;2)回答不完全,3)被调查者没有理解问卷的内容而错答问题,或没有按照指导语的要求回答问题;4)回答没有什么变化的问卷;5)在截止日期之后回收的问卷;6)由不属于调查对象的人填写的问卷;7)前后矛盾或有明显错误的问卷。v编辑检查(二审):退回实地重新调查视为缺失数据放弃不用本
4、章结构本章结构调查资料的编码与录入2.调查问卷的回收及审核1.调查数据的清洁和预处理3.第二节第二节调查资料的编码与录入调查资料的编码与录入v编码的概念v编码的基本原则v编码设计的内容与分类v前设计编码v后设计编码v编码表的设计原则v实践中的编码技巧v调查资料的录入一、编码的概念一、编码的概念v编码:就是将问卷信息(包括调查问题和答案)转化为统一设计的计算机可识别的代码,以便于对其进行数据整理与分析。v编码的作用减少数据录入和分析的工作量,节省费用和时间,提高工作效率将定性数据转化为定量数据,进行定量分析减少误差二、编码的基本原则二、编码的基本原则v准确性v完整性v有效率v便于数据的整理与分析
5、v标准化原则三、编码设计的内容与分类三、编码设计的内容与分类v编码的设计即确定各问卷、问卷各项目和答案对应代码的名称、形式、范围以及与原数据的对应关系。1编码设计的内容包括:(1)问卷的代码 (2)变量的定义 (3)取值的定义 某项调查的编码表格式某项调查的编码表格式 变量序号变量名变量类型变量所占字节取值范围取值对应含义备注对应题号对应问题138codeV28数值型数值型7104或9105120203表示台数;4表示4台或4台以上;9表示缺失问卷编号28家中拥有电视机数某项调查的编码表格式某项调查的编码表格式 三、编码设计的内容与分类三、编码设计的内容与分类2编码设计的分类v结构式问卷编码设
6、计和非结构式问卷编码设计v封闭题、半封闭题和开放题编码设计v前设计编码和后设计编码四、前设计编码四、前设计编码 v前设计编码要求事先已知问题的答案类别,主要应用于结构式问卷中的封闭题和数字型开放题。2封闭题的编码设计封闭题的编码设计 1.对单选题只需规定一个变量,取值为选项号。例如:Q18 请问您最近一年内买过VCD光盘吗?【】1 买过 2 没买过 设计编码时:变量名为V18,属于数字型变量,变量所占字节数为1,变量取值范围为1,2或9,其中1表示买过,2表示没买过,9表示该题无回答。封闭题的编码设计封闭题的编码设计 2.对多选题的变量 (1)将各个可能回答的答案选项都设为一个01指示 变量,
7、如被调查者选择了该答案,此变量的值为1,否则为0。优点:便于分析,编码的结果不用经过转换,可直接分析;缺点是不便于录入,变量随选项增多而增多.例如例如Q17 请问您观看的DVD光盘的主要来源是?【】【】【】1 自己购买 2 租借 3 向朋友/同事/亲戚借 4 别人送的 5 单位的 6 其他变量序号变量名变量类型变量所占字节取值范围取值对应含义备注对应题号对应问题方法一改进法484950515253V171V172V173V174V175V176数值型数值型数值型数值型数值型数值型1111110或10或10或10或10或10或10或10或20或30或40或50或6取值为1表明该选项为主要来源,为
8、0则不是。全为0表示该题无回答17观看的VCD盘的主要来源封闭题的编码设计封闭题的编码设计 (2)将变量定义为所选题号,变量值为选项号,变量排列顺 序即为选择答案的顺序 优点:便于录入和检查,但分析前要用程序把它们转化为各选择答案的0-1变量例如:例如:Q17 请问您观看的DVD光盘的主要来源是?(至多只选择3项)【】【】【】1 自己购买 2 租借 3 向朋友/同事/亲戚借 4 别人送的 5 单位的 6 其他变量序号变量名变量类型变量所占字节取值范围取值对应含义(i=1,2,3,4,5,6)备注对应题号对应问题484950V171V172V173数值型数值型数值型111060606取值为i表明
9、第i选项为主要来源,为0则说明其余选项都不是主要来源全为0表示该题无回答17观看的VCD盘的主要来源封闭题的编码设计封闭题的编码设计 3.排序题的编码设计Q12 请您根据信任程度由大到小对下列广告排序(信任程度最高的广告前填1,其次信任的广告前填2,依次类推,最不信任的广告前填5):【】1 电视广告 【】2 报纸广告 【】3 广播广告 【】4 杂志广告 【】5 路牌广告Q12问题的编码(方法一)问题的编码(方法一)变量序号变量名变量类型变量所占字节取值范围取值对应含义(i=1,2,3,4,5)备注对应题号对应问题3031323334V121V122V123V124V125数值型数值型数值型数值
10、型数值型111110505050505取值为i表明该广告的信任程度排名为i,为0则表明对该广告的排名缺失全为0表示该题无回答12对各类广告的排序变量个数即选项个数,按照选项排列顺序,变量个数即选项个数,按照选项排列顺序,分别定义各变量为对应选项所排次序号,分别定义各变量为对应选项所排次序号,取值即为次序号。取值即为次序号。Q12问题的编码(方法二)问题的编码(方法二)v变量个数即要求排序项数,依照次序号排列顺序,分别定义各变量为各次序号对应的选项项数,取值即为选项号。Q12 请问下列广告中,您最信任哪个广告?【】其次呢?【】再次呢?【】1 电视广告 2 报纸广告 3 广播广告 4 杂志广告 5
11、 路牌广告 Q12问题的编码(方法二)问题的编码(方法二)变量序号变量名变量类型变量所占字节取值范围取值对应含义(i=1,2,3,4,5)备注对应题号对应问题303132V121V122V123数值型数值型数值型111050505i为对应信任度的广告对应的选项号。0则表明对应信任度的广告缺失全为0表示该题无回答12对各类广告的排序各变量为各次序号对应的选项项数,取值即为选项号。数字型开放题的编码设计数字型开放题的编码设计v对直接回答数字的问题,变量取值即为该数字。v变量所占字节数可以根据事先预计的数字最大值的位数确定。v例如,直接询问被调查者的年龄,设计编码时取变量名为NL,所占字节为2(因为
12、调查对象要求在2060岁之间),小数点位为0,变量取值即为年龄,单位为“岁”,取值范围为2060或99(99表示该题缺失)。牌子表的编码设计牌子表的编码设计v牌子表是记录产品品牌的统计表。v它是一种编码表,在涉及产品品牌的问题时有助于被调查者回答,访问员提问和记录。v牌子表中给出所有可能答案选项的代码,使访问员可直接编码。v建立牌子表时应注意及时了解市场情况,加入新品牌,删除消失的品牌。另外,注意“其他”选项的设立,避免出现品牌错误、重码、漏码等错误。五、后设计编码五、后设计编码v数据收集完成后再进行编码设计v实践中主要的应用对象是无结构问卷和结构式问卷中的文字开放题 五、后设计编码五、后设计
13、编码v开放题编码:将问题转化为一个或几个变量,将所有可能的答案类别赋予相应代码。根据问题的回答确定各答案类别。选取问卷有两种方式:v阅读所有问卷对该问题的回答,这种方法适用于样本量较小的情况;v抽取部分问卷,抽取方法可以随机选取,也可以分层系统选取,还可以主观选取,此方法适用于样本量较大的情况。开放题编码开放题编码v选定问卷后,仔细阅读每个被调查者对该特定问题的回答,每遇到一个新的答案类别就记录下来,同时记录各答案类别出现的频数,依次类推。这里要注意的是答案除表面含义以外,可能还有引申、隐含的含义,应注意区分。v最后结合调查分析目的对分类的要求,对各答案类别进行整理归纳,突出分析重点,尽量包含
14、所有信息且互不交叉,将不能编码或个数较少、可不予考虑的答案归入“其他”项。v此外,注意留出位置准备修改,如果后期发现较多或较重要、有新意的类别,可以增加或细化类别。开放题编码开放题编码v您为什么不考虑未来两年不买该产品?太大,厨房进不去买不起外观丑陋不喜欢其颜色,太贵听说不可靠我们家只有两个人,不需要我预期会降价,到时候再买使用起来太复杂不知道产品设计成本因素不可靠不需要不知道五、后设计编码五、后设计编码v无结构问卷:首先看有无必要编码v无结构问卷编码步骤:(1)确定变量,定义问卷变量(2)针对各变量,分别确定答案类别,定义代码六、编码表的设计原则六、编码表的设计原则v准确性v便利性v完整性v
15、唯一性v有效率v标准化v维护性七、实践中的编码技巧七、实践中的编码技巧v设计问卷时,答题说明尽量详细一些便利性v针对模棱两可的问题时,制定统一标准v尽量保证编码表的质量,避免由编码表引起的编码误差v在编码表中编入“其他”项,如果该答案比较重要或出现频率较多,可以通过增加、细分答案类别,修改编码表,v做好编码人员的选择、培训、监督、审核工作。八、调查资料的录入八、调查资料的录入 KEY-INv键盘录入,扫描、光标阅读器 v数据录入软件:v文本软件:文件小,操作简单v试算表软件:分栏,审核,简单分析v数据库软件:专业储存,录入界面v统计软件:统计分析。八、调查资料的录入八、调查资料的录入 KEY-
16、IN本章结构本章结构调查数据的清洁和预处理3.调查资料的编码与录入2.调查问卷的回收及审核 1.一、一、调查数据的一致性数据的一致性检查和和逻辑检查一、调查数据的清洁1.一致性检查和逻辑检查:v变量的取值是否超出合理范围v有无逻辑错误v有无极端值。二、二、缺失数据的缺失数据的处理理2.缺失数据的处理v将有缺失值的个案整个删除:数在样本量很大、有缺失数据的个案比例较小,而且有缺失数据的个案与无缺失据的个案在分布上无显著差异时使用。v将有缺失值的个案保留,仅在计算时删除相应变量的缺失值:当样本量较大、缺失数据较少且变量间不是高度相关的情况下使用。v插补法:均值替代、回归估计、随机抽取、最近距离确定
17、等方法 用一个样本统计量的值去代替缺失值用一个统计模型计算出来的值去代替缺失值v加权组调整法:就是通过对调查中的回答数据使用加权因子,从而对数据进行调整,减少缺失值的影响三、三、异常异常值诊断与断与处理理v异常值诊断统计分布法回归诊断法戈罗伯斯检验法四分位数法三、三、异常异常值诊断与断与处理理v异常值处理方法:不能简单采用剔除的方法,应该先判断可能的产生原因测量误差。例如:受访者把公里误解为米人为错误。例如:家庭常住人口数出现55很可能是重复录入5抽样错误。例如:规模以下企业调查中由于编码错误,抽取了大规模企业自然异常值。例如:大学生身高调查中可能会访问到身高2米的篮球特长生三、三、异常异常值
18、诊断与断与处理理v异常值处理方法删除法,适用于抽样错误,及异常值比较少的情况。缩尾法,如果排在第k位的数据y(k)至最大值y(n)被认为是离群值,将y(k),y(n)均替换为y(k-1)的数值参与计算。变换变量,比如自然对数变换降低异常值的权数,使得异常值的影响变小。插补法,将异常值直接删除,视为缺失数据进行插补处理。采用对异常值不太敏感的稳健估计量,比如中位数比均值更为稳健,四分位数间距比方差估计量更为稳健四、加权处理四、加权处理 v加权就是给每个被调查者(个案)赋予一个权重,该权重可以反映该被调查者(个案)相对于其它被调查者(个案)的重要性。权重越大,相应的被调查者(个案)越重要。权重为1
19、相当于没有加权。v使用加权预处理时,一定要慎重对待,并在报告中提供加权处理的方法以及处理的结果。四、加权处理四、加权处理 v设计权数:样本单元入样概率的倒数 简单随机抽样分层抽样 多阶段抽样v权数的结构调整主要指调查现场出现与抽样设计不同情况,为了保证抽样设计方案的落实而进行的某些权数调整v权数的无回答调整 调整的思路是把无回答单元的设计权数在回答单元之间进行重新分配v最终权数 最终权数 =设计权数结构调整系数无回答调整系数四、加权处理四、加权处理 v例如,某项拦截访问面访了300位大学生,目的是了解北京市大学生使用手机的情况。由于样本中女生占了60%,因而样本是有偏的。这并不是一个严格的随机
20、样本,因此不适合作统计推断。但是研究人员仍然希望从资料中获取尽可能多的有关大学生使用手机的信息。为此,根据北京市大学生的性别分布,对样本进行了加权处理,其中的加权系数或权重等于对应的总体比例除于样本比例(如下表所示)。四、加权处理四、加权处理 男男40.060.01.5女女60.040.00.67性别性别样本()样本()总体()总体()权重权重合计合计100.0100.0通过加权处理使样本更具代表性 四、加权处理四、加权处理 五、变量的转换五、变量的转换 1.变量重新定义,如改变数据的测量水平,把定距、定比变量转为定序、定类变量。v60岁以上4 40-593 20-392 20岁以下1变量重新
21、定义变量重新定义v把资料合并为更少的几个大类五、变量的转换五、变量的转换 2.变量转换 例如,进行聚类分析、因子分析时,必须消除量纲的影响,要在分析前先把变量标准化。又如,进行回归分析,为了改进模型的拟合程度,要对变量进行对数变换、平方根变换等等。流行音乐参与度每月上KTV次数每月购买CD数 五、变量的转换五、变量的转换 3.定类变量转换为0-1变量 含K个类别的变量可以用K-1个0-1量来表示。产品的使用程度原变量编码0-1变量编码X1X2X3从不使用1100偶尔使用2010一般使用3001经常使用4000两种编码的转换表两种编码的转换表Dummy Variable五、变量的转换五、变量的转
22、换 4.重新组合新变量v把几个变量重新组合为一个新变量,重新进行定义。例如:根据被调查者对耐用消费品在若干方面的评价,把各方面的评价值加权平均,就可以得到一个新变量“综合评价得分”。六、量表的转换六、量表的转换 v一些量表可能会分别从正、反两个方向设计问题,分析时应注意统一方向,如全部正向提问或全部反向提问,这样可以使数据便于比较。六、量表的转换六、量表的转换 例如,从以下六个角度调查观众对某广告的看法 1 非常同意 2 同意 3 不同意 4 非常不同意A.这个广告与您无关 .【】B.这个广告吸引您的注意力.【】C.您不想进一步了解有关它的更多信息.【】D.这个广告让您产生购买欲望.【】E.这个广告令人信任.【】F.天天播此广告,让您产生反感.【】B、D、E为正向提问 A、C、F为反向提问:该题的取值颠倒位置,原来选1现在该为4,原来选4现在该为1,原来选2现在该为3,原来选3现在该为2。为简化分析:把4级改为2级,即“非常同意”和“同意”合并,“非常不同意”和“不同意”合并。六、量表的转换六、量表的转换 v为了使不同单位或不同量表的变量在分析中具有可比性,可以对数据进行标准化(1)标准化变换(2)规格化变换