市场调查中的数据分析132904.pdf-淘文阁

资源描述

《市场调查中的数据分析132904.pdf》由会员分享，可在线阅读，更多相关《市场调查中的数据分析132904.pdf（22页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、以铜为镜，可以正衣冠；以古为镜，可以知兴替；以人为镜，可以明得失。旧唐书魏征列传人不知而不愠，不亦君子乎？论语第四编市场调查中的数据分析第十五章市场调查数据的录入与整理第一节调查问卷的回收与编辑数据资料的处理过程是从回收第一份问卷开始的。按照事先调查方案的计划，尽量确保每份问卷都是有效问卷（所谓“有效”问卷，指的是在调查过程中按照正确的方式执行完成的问卷）。问卷回收以后，督导员必须按照调查的要求，仔细的检查问卷。检查问卷的目的在于将有错误填写，或者是挑出不完整或不规范的问卷，保证数据的准确性。所谓错误填写即出现了那些不合逻辑或根本不可能的结果，通过对调查员的复核，可以检查出哪些调查

2、员没有按照调查的要求去访问，那么，该调查员完成的问卷可能存在很多问题。还有可能出现漏答了某些必须回答的问题，比如被访者的人口特征等基本情况，造成问卷回答不完整。鉴于这些情况，不管是由于调查员造成的还是被访者的原因，通常有两种方式进行补救：对于出现漏答的问卷，通常要求调查员对受访者进行重访，以补充未答的问题；如果不便于重访或重访后的问卷还有问题，数目不是很多，可以当作缺失值计。如果数量非常大，这份问卷就只能当作废卷处理，并且按照被访对象的抽样条件，补作相关的样本。问卷检查本编重点变量类型频数（百分比）众数、中位数均值、标准差卡方分析单因素方差分析简单相关系数因子分析调查报告的结

3、构好学近乎知，力行近乎仁，知耻近乎勇。中庸好学近乎知，力行近乎仁，知耻近乎勇。中庸问卷的检查一般是指对回收问卷的完整性和访问质量的检查，目的是要确定哪些问卷可以接受，哪些问卷要作废。检查的要点包括：（1）规定详细的检查规则，一份问卷哪些问题是必须填写完整的，哪些问题出现缺失时可以容忍等，使督导员明确检查问卷的每一项流程。（2）对于每份调查员交回来的问卷必须彻底地检查，以确认调查员或者被访者是否按照相关的要求完成了访问，并且完整的记录在问卷恰当的位置。（3）应该将问卷分成三种类型，一种是完成的问卷，一种是作废的问卷，第三种是有问题的问卷，但是通过追访还可以利用的问卷。（4）如果抽样中有配额的要

4、求，那么应将完成的问卷中的配额指标进行统计分析，确定问卷是否完成配额的要求，以便及时的补充不足的样本。（5）通常有下面的情况的问卷是不能接受的：所回收的问卷明显不完整，缺了一页或者多页；问卷中有很多内容没有填答；问卷的模式说明调查员（被访者）没有理解或者遵循访问指南回答等；问卷的答案几乎没有什么变化，如在态度的选项上全部选择第项的情况；问卷的被访者不符合抽样要求；问卷的回收日期超过了的访问的时限等。问卷的校订谋事在人，成事在天！增广贤文志不强者智不达，言不信者行不果。墨翟为了加强问卷的准确性，对那些初步接受的问卷还要进行进一步的检查和校订，在校订的过程中，通常会发现问卷中存在有字迹模糊、问

5、题漏选的、前后回答不一致的、答案模棱两可的和跳答错误的问题。问卷的某些问题答案可能出现字迹模糊的情况，特别是碰上无结构的开放式的问题时，因为调查员记录的不好，答案不容易识别。如果发现这样的问题，必须对受访者进行追访，将积极不清楚的地方填写清楚。对于漏选的问题处理方法也是一样，出现漏选的题目因为各种原因，无法进行补充访问事后，普通的问题，而且数目不大的情况，通常作为缺失值处理；如果涉及到是受访对象的个人特征的问题，通常只能作为废卷处理。问卷中有些问题的答案会出现不容易理解的模棱两可的情况，或者是使用了不是通用的缩写方式或词语，或者在该单选一项的问题中，圈选了两项等，都必须通过追访进行补救。另外就

6、是回答时可能出现跳答错误的情况，这可能是因为被访对象没有很好的理解问题。如果出现这种情况，首先要核实被访对象是否符合抽样调查的条件（跳答题目往往是筛选条件），如果符合，进行追问补充，如果不符合条件，问卷只能作废，重新补充样本。问卷的回收、检查与校订可能是非常繁琐、且工作时间很长的工作，但是却是保证数据处理过程中较少误差的重要的步骤。问卷的编码谋事在人，成事在天！增广贤文好学近乎知，力行近乎仁，知耻近乎勇。中庸编码是指对一个问题的不同答案进行分组和确定数字代码的过程。大多数问卷的大多数问题都是封闭式的，在调查之前就已经完成了编码的过程，即每一组问题的不同答案的数字编码已经确定。而开放式问题，

7、因为不知道会得到什么答案，或者是希望得到比列出的封闭式的选项更详尽的答案，所以在调查结束后，必须对这些开放式的问题进行事后编码。开放题的事后编码的工作量很大，无法预知会出现多少个新的代码和答案，而且有些答案是非常类似的，必须决定是否合并成一类呢，还是分成不同的代码。具体地说明编码需要以下几个步骤：（1）每个需要编码的项目都必须有一份编码表，将问题和项目的代码详细的标注在编码表的顶端位置，由于事先不知道会有多少新的代码或答案出现，所以一定要预备足够的空间。（2）如果编码的工作由一个编码员完成，出现错误的可能性相对较小。但实际上，因为需要编码的问题可能很多，一个认识没有办法按时完成的，这就需要多个

8、编码员。在这样的情况下，一定要注意多个编码员工作的协调。应该安排编码员在不同的时间，或者相同的时间相同的地点，使用同一个编码表。这样可以避免编码重复的情况。（3）研究人员应详细制定编码的守则，指导编码员如何识别答案，并且将其归类，以及如何分配编码等等，并同时对编码的过程进行监督和检查。编码员在编码的过程中可能有两种倾向：一种是事无巨细将出现的每一种答案够给与新的代码，结果代码的数量比预料的要多出很多；另一种情况是对答案的归类过于粗糙，可能丢弃了数据谋事在人，成事在天！增广贤文勿以恶小而为之，勿以善小而不为。刘备中有意义的差异。对于这两种情况都必须通过守则的规定，尽量避免。碰到无法确认的分类的时

9、候，通常的做法是付与一个新的代码，如果需要合并，可以在将来的数据处理过程中完成。（4）可以对“不知道”、“无所谓”、“不清楚”、“缺失”事先规定，但是一定要注意规定的编码与实现对该问题的最大编码的预计的数量一致。（5）编码的字迹必须清楚，如果可能的话，及时的进行计算机的录入管理。见非淡泊无以明志，非宁静无以致远。诸葛亮大丈夫处世，不能立功建业，几与草木同腐乎？罗贯中第二节调查资料的录入和整理数据录入勿以恶小而为之，勿以善小而不为。刘备大丈夫处世，不能立功建业，几与草木同腐乎？罗贯中数据录入是指将问卷或编码表中的每一个项目对应的代码转化成计算机能够识别的形式的过程。这个过程需要数据录

10、入装置（计算机）和一个存储介质（数据库软件、磁盘）。市场调查发达的国家在数据的采集中使用 CATI、CAPI 的方式很普遍，因此键盘录入的过程已在访问的时候就已经完成了。而且对于简单的问卷调查，使用调查卡进行光学扫描录入也能从时间上节约不少成本。但是国内目前主要还是纸面问卷调查的形式居多，所以在问卷完成后，还需要对问卷进行录入的操作。大多数问卷信息通过智能录入系统进行，即使用相关的数据库软件包。数据库软件不仅可以存储数据，而且在录入过程中，通过事先的数据库结构的编辑，可以对录入员录入的过程进行逻辑检查，避免数据录入过程中出现某种类型的错误，如录入无效的编码或者是太广的编码，同时对于跳答问题的录

11、入也能进行很好的控制，减少错误的条约模式。数据库软件的录入检查的范围，限制在最常见的逻辑错误上，对于在选项范围内，因为录入员的疏忽而出错的信息，往往是不能察觉，而录入员在问卷的输入过程中，因为速度非常快，即使是非常老练的录入员，也会出现录入错误的情况。为了保证数据录入的准确性，有必要对录入的结果进行核查，核查的方式主要有双机录入或三机录入。所谓双机录入的方式，是将同一份问卷分别由两个录入员进行两次录入，将两次的结果进行逐个比较，相同的部分是被认为没有错误的，如果出现不同的部分，检查问大丈夫处世，不能立功建业，几与草木同腐乎？罗贯中大丈夫处世，不能立功建业，几与草木同腐乎？罗贯中卷，及时修正。所

12、谓三机录入，即将同一份问卷由不同的录入员录入3 次，将 3 次的结果通过计算机进行比较，采用“2 排 1”的选择，如果 2 个结果是相同的，排除那个不同的答案。三机录入的方式可以减少翻阅问卷的人工。无论是双机录入还是三机录入，都会增加调查的时间和费用成本，而且是成倍地增加。但是为求得数据的收集录入各个环节的准确性，越来越多的企业和市场调查公司要求数据的正确录入的操作。如将在中出现的问题进行录入，问卷编号，城市编码，调查员编号，Q1、Q2、Q3LLQ12-1、Q12-2、Q12-3、Q13、Q14，对应的数据库结构。这样，输入时每份问卷按数据库中指定的位置输入相应变量的取值，一行数字就是一份问卷

13、。结果所有问卷次依输入完毕就形成一个数据库。（1）问卷编码是 001 号，城市是北京市，12 号调查员完成的问卷，圈选的结果是：Q1男性；Q230 岁；Q3大学专科；LL Q12 圈选的 2 3 5；Q13 非常同意；Q14 不同意；（2）问卷编码是 005 号，城市是上海市，2 号调查员完成的问卷，圈选的结果是：Q1女性；Q222 岁；Q3大学本科；LL Q12古之立大事者，不惟有超世之才，亦必有坚忍不拔之志。苏轼丹青不知老将至，贫贱于我如浮云。杜甫圈选的 1 3；Q13 不同意；Q14 非常同意；对应的数据库1）001112130423552；2）005202222513045 数据的整理

14、如果在录入过程中，没有实行双机录入（三机录入）的措施，在录入完成之后，有必要对数据进行全面的整理检查。数据整理主要是尽可能的处理错误或不合理的信息以及进行一致性的检查。虽然经过回收问卷、编码过程以及录入的重重检查，但是数据的整理过程是使用计算机进行的，对数据的矫正将更为彻底。数据整理可使用 SPSS 或 SAS 统计软件进行，可以很方便的寻找出超出选项范围、极端值或逻辑上不一样的数据。通常的做法是首先对所有变量进行频数的计算，对连续性的变量进行均值、标准差、最小值、最大值等统计分析，超出范围的数据和极端的数值很容易检查出来。例如，的调查中，关于年龄的填写，假定缺失值为“0”，如果出现小于 1

15、6，或者大于 60 的数值就是超出范围的。根据对应的问卷编号，变量编码找出问卷，进行核实。数据整理是对数据进行的最后一道检查程序，这一步完成后，数非淡泊无以明志，非宁静无以致远。诸葛亮一寸光阴一寸金，寸金难买寸光阴。增广贤文谋事在人，成事在天！增广贤文志不强者智不达，言不信者行不果。墨翟第十六章数据分析第一节常用的统计方法变量类型在编码时我们已经提到过，问卷的每一个题目都可以看做是一个变量，由于所提问题的性质不同，对应的变量类别就不一样，变量的类别由低到高依次为：定类变量、定序变量、定距变量（定比变量）。（1）定类变量：变量的不同取值仅仅代表了不同类的事物，这样的变量叫定类变量。问卷

16、的人口特征中最常使用的问题，而调查被访对象的“性别”，就是定类变量。对于定类变量，加减乘除等运算是没有实际意义的。（2）定序变量：变量的值不仅能够代表事物的分类，还能代表事物按某种特性的排序，这样的变量叫定序变量。问卷的人口特征中最常使用的问题“教育程度”，以及态度量表题目等都是定序变量，定序变量的值之间可以比较大小，或者有强弱顺序，但两个值的差一般没有什么实际意义。（3）定距变量：变量的值之间可以比较大小，两个值的差有实际意义，这样的变量叫定距变量。有时问卷在调查被访者的“年龄”和“每月平均收入”，都是定距变量。定比变量与定距变量在市场调查中一般不加以区分，它们的差别在于，定距变量取值为“0

17、”时，不表示“没有”，仅仅是取值为 0。穷则独善其身，达则兼善天下。孟子志不强者智不达，言不信者行不果。墨翟定比变量取值为“0”时，则表示“没有”。上面举的“年龄”、“每月平均收入”也是定比变量，因为它们的“0”值都表示“没有”。而像“温度”这样的变量中的“0”值并不表示“没有”，而是表示“0”这一特定温度，这样的变量是定距变量，但不是定比变量。在统计分析时，对不同类型的变量要选用不同的方法。一般的原则是适于较低类别变量的统计方法也可用于较高类别的变量，反之则不行。比如适用于定类变量的分析方法，同时也可用于其他类别的变量，反过来适于定距变量的分析方法，一般不能用于其他类别的变量。由于市场调查中

18、的定类、定序变量较多，为了能够使用更多的统计方法，常常将有些定类和定序变量通过某些转换变成定距变量或近似看成定距变量，这样只适用于定距变量的统计方法，就可以用于这些定类和定序变量了。对于缺失值的处理在数据整理中，经常会碰到缺失值的问题，缺失值的数量过多的话，说明数据收集过程中存在着严重的问题。可以接受的标准是，缺失值的数量在 10%以下。处理缺失值的方法有下面 4 种：（1）用一个样本统计量的值代替缺失值缺失值可以使用一个样本的统计量去代替，最典型的做法就是使用该变量的样本平均值。由于该变量的平均值保持不变，其他的统计量如标准差、相关系数等都不会受到影响。如在收入或者年龄问题中出现缺失值，

19、可以使用收入、年龄的平均值代替缺失值。天行健，君子以自强不息。地势坤，君子以厚德载物。易经万两黄金容易得，知心一个也难求。曹雪芹（2）用从一个统计模型计算出来的值去代替缺失值另一种缺失值的处理方法就是利用由某些统计模型计算得到的比较合理的值代替，常使用的模型有回归模型、判别模型等等。如“个人收入”、“年龄”与“品牌的选择”可能存在关系，利用这三个问题的被访者问答数据，可能构造出一个回归方程。根据这个回归方程，对于没有回答“品牌选择”的被访者，可以根据“个人收入”和“年龄”的选项，利用回归方程式，计算出品牌选择的值。（3）将有缺失值的个案删除将有缺失值的个鞍删除的方法，结果可能会导致样本量

20、的减少，如果调查在收集过程中控制得不是很好，被访对象多多少少都会出现一些问题没有回答的情况，删除个案的方法，会导致大量的样本减少。（4）将有缺失值的个案保留，仅在相应的分析中做必要的删除将有缺失值的个案保留，仅在相应的分析中做必要的排除的方法，会使分析中不同计算的样本量不同，也有可能导致不适宜的结果。调查的样本量比较大，缺失值的数量又不是很多，而且变量之间也不存在高度的相关的情况下，市场研究者经常采用这种方式处理缺失值。统计方法根据研究的目的与要求，要选择不同的统计方法。如果是对一个变量取值的归纳整理及对其分布形态的研究，用频数分析（计算百分比等）、众数、中位数、均值和标准差等方法或统计量

21、来描述；对两天行健，君子以自强不息。地势坤，君子以厚德载物。易经百川东到海，何时复西归？少壮不尽力，老大徒伤悲。汉乐府长歌行个变量的相关性分析，可以用卡方分析、单因素方差分析、简单相关系数、一元线性回归分析等方法；对多个变量间的相关性分析，可以用多元线性回归、判别分析、聚类分析、因子分析等方法。在学习掌握这些统计方法的同时，还应该会熟练使用相关的统计软件，因为很多统计方法靠手工计算是难以完成的。现在普遍使用的统计软件是 SPSS、SAS。下面我们分单变量的分析、两个变量的相关分析、多个变量的相关分析三部分，介绍一些常用的统计方法，主要介绍如何应用这些方法，并列举模拟的例子，给出相应的用 SPS

22、S 统计软件分析的结果，使读者能够较快地学会使用这些方法。第二节单变量分析频数和百分比所谓频数（Frequencies），时变量某一个去值的个案数；所谓百分比（Percentage），是表示该取值的个案数占总样本的比例，即频数/样本量100%。将变量所有取值的频数和百分比列在一个表中，这种表叫频数表，从中可以看出变量各个取值的分布情况。频数表分析方式一般适用于定序变量和定类变量，对定距变量，必须先将变量的取值进行分组，每一个分组作为一个新的选项，然后对这些新的选项进行频数表的计算。非淡泊无以明志，非宁静无以致远。诸葛亮古之立大事者，不惟有超世之才，亦必有坚忍不拔之志。苏轼表中第一列是“

23、变量标签”，是对变量取值的说明（现在使用的 SPSS软件虽然是英文版，但是已经可以兼容中文，变量标签可以使用中文表示）。第二列是“变量取值”，即：“1”至“5”分别代表了“非常不好”到“非常好”，其中“.”代表缺失值，即有些人没有回答此题；第三列是“频数”，对应的数值表示各个取值的个案数，这里认为“非常好”有 16 样本、认为“好”的有 216 个样本、认为“一般”的有 193 人、认为“不好”的有 10 个样本、认为“非常不好”的有1 个人，而没回答此题约有 65 人。第四列是“百分比”，是频数对样本量（501 人）的比率。先天下之忧而忧，后天下之乐而乐。范仲淹人不知而不愠，不亦君子乎？论语

24、第五列是“有效百分比”，是频数对有效个案数（所谓有效个案数，即样本量减去缺失个案数）的比例，这里有效个案数是 436 人。第六列是“累计百分比”，是对有效百分比的逐行累加的结果。从对该题的频数分析的结果来看，对 A 品牌广告的评价总的来说还是倾向于比较好的，所有的样本中，认为“不好”或者“非常不好”的比例合计只有 2.5%，即占样本 2.5%的人不喜欢 A 品牌的广告。频数和百分比计算中，百分比大小比较是一个相对的概念，频数大小则是绝对的数值，在市场分析报告中，经常利用百分比来说明结果，但是有时也需要频数进一步的说明之间的差异。在比较两个公司的营业额的增长幅度时，A 公司和 B 公司的经营规

25、模差异巨大的情况下，虽然 A 公司的增长幅度没有 B 公司快，这是因为 A 公司的实际规模可能是 B 公司的几十倍，在这种情况下，也需要比较增长的实际数额，才能全面的说明问题。指数指数（Index）的计算方法很多，最常用的一种方法是，将一些待比较的数字中的一个特定的数字定为基数 100，计算其他数字相对于基数的百分数。用各种指数来描述和比较一些特定的市场的问题，既方便又直观。定义适当的指数不但可以进行横向（不同空间）的比较，还可以进行纵向（不同时间）的比较。为了说明 20 多年来广告海纳百川，有容乃大；壁立千仞，无欲则刚。林则徐万两黄金容易得，知心一个也难求。曹雪芹的发展情况，可以 1978

26、广告营业额作为基数，计算以后每年广告经营额与基数的百分比，如果小于 100 的指数表明广告经营额的负增长，如果大于 100 的指数，代表增长，而且还能够计算出来增长的幅度。指数的使用和计算方法多种多样，在使用时要注意几个问题：首先，自定义指数时，应以简便的、合理的描述研究结果为原则；在自定义指数时，在考虑定义的合理性和科学性的基础上，还需要考虑其计算是否方便可行。因此使用指数进行比较时，首先应该查阅和参考那些已经明确定义的、使用广泛的指数，避免重复制造。其次，在应用这些指数的概念时，还必须详细了解其定义和计算方法，以便正确的使用。目前国内的中国统计年鉴和各个省市的统计年鉴中，指数使用已经非

27、常平常。包括价格指数、消费指数、收入指数等，同时类似于房地产价格指数、股票价格指数等在相应的专业领域里使用的也是非常广泛。最后，指数定义的基数一定要与研究目的紧密结合，根据调查的目的，确定是进行横向比较，还是进行纵向比较更为有效，从而确定基数的订立基准。众数、中位数、均值和标准差用于描述一组市场调查数据或资料的中心的常用的统计量有三种：众数、中位数和平均数。所谓众数（Mode），是表示一组数据中出现次数最多或最常见的数值。在市场调查的数据中，众数代表了典型的个案，或者是分布的高峰所对应的变量取值。变量的所有取值志不强者智不达，言不信者行不果。墨翟常将有日思无日，莫待无时思有时。增广贤文中频数

28、最大的取值，如在消费者的教育程度问题里，初中学历程度选项最多，所以初中相对应的变量编码，就是众数。众数适于描述定序和定类变量，对于定距变量，可先将数据分组，分组后频数最大的那一组的组中值，被近似的认为是该变量的众数。中位数（Median）表示一组数据按照大小的顺序排列时，中间位置的那个数值，即针对某个变量，有 50%的个案的取值在中位数以下。通俗的讲，样本的所有观测值中，有一半数比中位数大，有一半数比中位数小。中位数的计算时会面临两种情况：当样本数（n）是奇数时，将样本的所有观测值按由小到大（或由大到小）的顺序排列，排在中间位置上的数值即为中位数；当样本为偶数时，排在中间两个位置上的数值的平均

29、值即为中位数。中位数适用于定序变量，对于定距变量，还是首先对观测值进行分组，简单的方法就是用中间那一组的组中值作为变量的中位数。平均数（Mean）也叫均值，等于样本的所有 n 个观测值之和除以样本量。假设 n 个观测值用 x1,x2,x n 表示，均值用 x 表示，均值的公式为：这里公式（2）是针对分组的数据而言，其中 X 表示某变量的取值，f 表示变量落在某一组中的频数，表示对所有的值求和（或者对所有的组求和）。平均数是最典型也是最常用的统计量，适用于定距变量和定比变量。平均数也是最有“意义”的统计量，它可以看作是数据的“平衡忍一句，息一怒，饶一着，退一步。增广贤文我尽一杯，与君发三愿：一愿

30、世清平，二愿身强健，三愿临老头，数与君相见。白居易点”或“重心”位置所在。因为中位数在计算时，使用到了所有的数据，所以与众数和中位数相比，所包含的信息量最大。但是平均数受受极端值的影响很大，个别的极端值会直接影响平均数的熟知的变化，不如中位数和众数稳定。因此当调查的数据分布比较规则，不存在什么极端值，或数据对中心的偏离不是很大的情况下，平均数是很好的描述统计量；如果存在极端值或分布步偏离比较大时，还必须使用众数和中位数的来补充描述。众数、中位数、均值都是对变量分布中心的描述，其中均值最为常用。对变量的分布形状的描述，最常用的统计量是方差或标准差。所谓方差（Variance）或标准差（Stand

31、ard variance）是表示分布对平均数的偏离程度或伸展程度的度量。计算公式是：标准差，标准差的大小反映了数据对均值的离散程度，标准差越小，表明数据越集中于均值附近，反之则越分散。任何统计分析软件都有标准差的计算，标准差是描述分布的分散（伸展）程度的经常使用的统计量。例 2：在表 16-1 是频数和百分比计算的结果，使用的变量是定序变量，也可以近似看成定距变量，所以众数、中位数、均值和标准差都是有意义的。见表 16-2。人之为学，不日进则日退，独学无友，则孤陋而难成；久处一方，则习染而不自觉。顾炎武古之立大事者，不惟有超世之才，亦必有坚忍不拔之志。苏轼本节重点卡方分析单因素方差分析简

32、单相关系数因子分析使用图形表示分析的结果使用图表的形式将更为直观的描述调查的结果，有助于客户更容易理解数据的内容。在报告中使用的图形的格式非常多，最经常使用的包括直方图、面积图、折线图和雷达图等形式。1 直方图 2 面积图 3 折线图第三节两个变量及多变量分析卡方分析以家为家，以乡为乡，以国为国，以天下为天下。管子牧民宠辱不惊，看庭前花开花落；去留无意，望天上云卷云舒。洪应明卡方分析是用来研究两个定类变量间是否独立即是否存在某种关联性的最常用的方法。简单地说，卡方分析的方法是这样的：假设两个变量是相互独立，互不关联的。这在统计上称为原假设；对于调查中得到的两个变量的数据，用一个

33、表格的形式来表示它们的分布（频数和百分数），这里的频数叫观测频数，这种表格叫列联表；如果原假设成立，在这个前提下，可以计算出上面列联表中每个格子里的频数应该是多少，这叫期望频数；比较观测频数与期望频数的差，如果两者的差越大，表明实际情况与原假设相去甚远；差越小，表明实际情况与原假设越相近。这种差值用一个卡方统计量来表示；对卡方值进行检验，如果卡方检验的结果不显着，则不能拒绝原假设，即两变量是相互独立、互不关联的，如果卡方检验的结果显着，则拒绝原假设，即两变量间存在某种关联，至于是如何关联的，这要看列联表中数据的分布形态。要注意的是，卡方检验受样本量的影响很大，同样两个变量，不同的样本量，可能得

34、出不同的结论。解决这个问题的办法是对卡方值进行修正，最常用的是列联系数。对较大样本，当卡方检验的的结果显着，并且列联系数也显着时（列联系数至少超过 0.16），才可拒绝原假设；当卡方检验的结果显着，列联系数不显着时，不能轻易下结论。另外，对变量取值的不同分类会引起卡方值的改变，有可能得到不同的结论。所以在分类时不能随意，要有理论或统计上的依据。特别是对定距或定序变量，要先将变量的取值分组归类，才能使用卡方海纳百川，有容乃大；壁立千仞，无欲则刚。林则徐志不强者智不达，言不信者行不果。墨翟分析，而且由于分组的方法不同，也会得出不同的结论；同时，对于定距或定序变量用卡方分析，没有充分利用它们的数量信

35、息。这都是在使用卡方分析时要注意的问题。例 3：在A 品牌宣传认知情况调查中有几个关于对广告的看法和态度的问题，其中一题是”“家电广告应当比较严谨，因为这样的方式更适合于表现家电的性能”，备选答案有“1-非常不同意”、“2-不同意”、“3-一般”、“4-同意”、“5-非常不同意”5 种选择。要研究对这个问题的看法与年龄有没有关系，可以使用卡方分析的方法。其中年龄的变量名是 NND2，其取值 1 代表 1629 岁，2 代表3039 岁，3 代表 4049 岁，4 代表 5060 岁；前面所说题目的变量名是 B106，为避免列联表中空格过多，在做卡方分析之前用 SPSS中的 Recode 命令将 B106 的取值做变换，将“非常不同意”和“不同意”两个变量合并，用 1 代表，“一般”用 2 代表，“同意”和“非常同意”用 3 代表。表 16-3 是用 SPSS 的 Crosstables 命令得出的两变量的卡方分析结果。

展开阅读全文