《医疗行业统计基础知识培训24157.pptx》由会员分享,可在线阅读,更多相关《医疗行业统计基础知识培训24157.pptx(78页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、本课内容包含本课内容包含统计回顾统计回顾方差分析方差分析主成分分析和因子分析主成分分析和因子分析聚类分析聚类分析判别分析判别分析典型相关分析典型相关分析对应分析对应分析列联表列联表Logistic回归回归Poisson对数线性模型对数线性模型时间序列分析时间序列分析。统计基本概念回顾随机性和规律性现实中的随机性和规律性现实中的随机性和规律性从中学起,我们就知道自然科学的许多定律,例从中学起,我们就知道自然科学的许多定律,例如物理中的牛顿三定律,物质不灭定律以及化学如物理中的牛顿三定律,物质不灭定律以及化学中的各种定律等等。中的各种定律等等。但是在许多领域,但是在许多领域,很难用如此确定的公式或
2、论述很难用如此确定的公式或论述来描述一些现象。来描述一些现象。比如,人的寿命是很难预先确比如,人的寿命是很难预先确定的。一个吸烟、喝酒、不锻炼、而且一口长荤定的。一个吸烟、喝酒、不锻炼、而且一口长荤的人可能比一个很少得病、生活习惯良好的人活的人可能比一个很少得病、生活习惯良好的人活得长。得长。因此,可以说,活得长短是有一定随机性的因此,可以说,活得长短是有一定随机性的(randomness)。这种随机性可能和人的经历、基。这种随机性可能和人的经历、基因、习惯等因、习惯等无数说不清的因素无数说不清的因素都有关系。都有关系。现实中的随机性和规律性现实中的随机性和规律性但是从总体来说,我国公民的平均
3、但是从总体来说,我国公民的平均年龄却是非常稳定的。而且女性的年龄却是非常稳定的。而且女性的平均年龄也稳定地比男性高几年。平均年龄也稳定地比男性高几年。这就是这就是规律性规律性。一个人可能活过这个平均年龄,也一个人可能活过这个平均年龄,也可能活不到这个年龄,这是可能活不到这个年龄,这是随机的随机的。但是总体来说,平均年龄的稳定性,但是总体来说,平均年龄的稳定性,却说明了却说明了随机之中有规律性随机之中有规律性。这种。这种规律就是统计规律。规律就是统计规律。概率和机会概率和机会你可能经常听到概率(你可能经常听到概率(probability)这个)这个名词。例如在天气预报中会提到降水概名词。例如在天
4、气预报中会提到降水概率。大家都明白,如果降水概率是百分率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。分之十,就不大可能下雨。因此,从某种意义说来,因此,从某种意义说来,概率描述了某概率描述了某件事情发生的机会。件事情发生的机会。显然,这种概率不可能超过百分之百,显然,这种概率不可能超过百分之百,也不可能少于百分之零。换言之,也不可能少于百分之零。换言之,概率概率是在是在0和和1之间的一个数之间的一个数,说明某事件发,说明某事件发生的机会有多大。生的机会有多大。有些概率是无法精确推断的有些概率是无法精确推断的比如你对
5、别人说你下一个周末去公园比如你对别人说你下一个周末去公园的概率是百分之八十。但你无法精确的概率是百分之八十。但你无法精确说出为什么是百分之八十而不是百分说出为什么是百分之八十而不是百分之八十四或百分之七十八。之八十四或百分之七十八。其实你想说的是你很可能去,但又没其实你想说的是你很可能去,但又没有完全肯定。有完全肯定。实际上,到了周末,你或者去,或者实际上,到了周末,你或者去,或者不去;不可能有分身术把百分之八十不去;不可能有分身术把百分之八十的你放到公园,而其余的放在别处。的你放到公园,而其余的放在别处。有些概率是可以估计的有些概率是可以估计的比如掷骰子。只要没有人在骰子上做比如掷骰子。只要
6、没有人在骰子上做手脚,你得到手脚,你得到6 6点的概率应该是六分之点的概率应该是六分之一。得到其他点的概率也是一样。一。得到其他点的概率也是一样。得到得到6 6的概率或者机会是可以知道的,的概率或者机会是可以知道的,但掷骰子的结果还但掷骰子的结果还只可能是六个数目只可能是六个数目之一。之一。这个已知的规律就反映了规律性,而这个已知的规律就反映了规律性,而得到哪个结果则反映了随机性。得到哪个结果则反映了随机性。如果你掷如果你掷10001000次骰子,那么,大约有次骰子,那么,大约有六分之一的可能会得到六分之一的可能会得到6 6;这也是随机这也是随机性呈现有规律的一个体现。性呈现有规律的一个体现。
7、变量变量做任何事情都要有做任何事情都要有对象对象。比如一个班上注册。比如一个班上注册的学生有的学生有200人,这是一个固定的数目,称为人,这是一个固定的数目,称为常数(常数(constant)或者常量。或者常量。但是,如果猜测今天这个班有多少人会来上但是,如果猜测今天这个班有多少人会来上课,那就没准了。这有随机性。课,那就没准了。这有随机性。可能有请病可能有请病假或事假的,也可能有逃课的。这样,就要假或事假的,也可能有逃课的。这样,就要来上课的人数是个来上课的人数是个变量变量(variable)。另外对于某项政策同意与否的回答,也有另外对于某项政策同意与否的回答,也有“同意同意”、“不同意不同
8、意”或者或者“不知道不知道”三种可三种可能值;这也是变量,只不过能值;这也是变量,只不过不是数量不是数量而已。而已。变量变量当变量按照随机规律所取的值是数量时该变量称当变量按照随机规律所取的值是数量时该变量称为为定量变量或数量变量定量变量或数量变量(quantitative variable););因为是随机的,也称为随机变量(因为是随机的,也称为随机变量(random variable)。)。象性别,观点之类的取非数量值的变量就称为象性别,观点之类的取非数量值的变量就称为定定性变量或属性变量或分类变量性变量或属性变量或分类变量(qualitative variable,categorical
9、 variable)。)。这些定性变量也可以由随机变量来描述,比如男这些定性变量也可以由随机变量来描述,比如男性和女性的数目,同意某政策人数的比例等等。性和女性的数目,同意某政策人数的比例等等。只有当变量用数量来描述时,才有可能建立数学只有当变量用数量来描述时,才有可能建立数学模型,才可能使用计算机来分析。模型,才可能使用计算机来分析。数据数据有了变量的概念,什么是数据呢?拿掷骰子来说,掷骰有了变量的概念,什么是数据呢?拿掷骰子来说,掷骰子会得到什么值,是个随机变量;而每次取得子会得到什么值,是个随机变量;而每次取得1至至6点中点中任意点数的概率它在理论上都是六分之一(如果骰子公任意点数的概率
10、它在理论上都是六分之一(如果骰子公平)。这依赖于在掷骰子背后的理论或假定;而在实际平)。这依赖于在掷骰子背后的理论或假定;而在实际掷骰子过程中,如果掷掷骰子过程中,如果掷100次,会得到次,会得到100个由个由1至至6点组点组成的数字串;再掷成的数字串;再掷100次,又得到一个数字串,和前一次,又得到一个数字串,和前一次的结果多半不一样。这些试验结果就是数据。所以说次的结果多半不一样。这些试验结果就是数据。所以说,数据是关于变量的观测值数据是关于变量的观测值.通过数据可以验证有关的理论或假定通过数据可以验证有关的理论或假定(比如每一次得到(比如每一次得到每个点的概率是不是每个点的概率是不是1/
11、6等等)。对于顾客是否喜欢某等等)。对于顾客是否喜欢某种饮品的调查也类似,但这里不象掷骰子那样事先可以种饮品的调查也类似,但这里不象掷骰子那样事先可以大致猜测顾客喜欢与否的概率。在问了大致猜测顾客喜欢与否的概率。在问了1000人之后,可人之后,可能有能有364人说喜欢,而人说喜欢,而480人说不喜欢,其余的人可能不人说不喜欢,其余的人可能不回答,或说不知道,或从来没有喝过这种饮料。这些数回答,或说不知道,或从来没有喝过这种饮料。这些数目就是数据。当然,它仅仅反映了目就是数据。当然,它仅仅反映了1000个被问到的人的个被问到的人的观点;但这对于估计整个消费群体的观点还是有用的。观点;但这对于估计
12、整个消费群体的观点还是有用的。统计和计算机统计和计算机 现现代代生生活活越越来来越越离离不不开开计计算算机机了了。最最早早使使用计算机的统计当然更离不开计算机了。用计算机的统计当然更离不开计算机了。事事实实上上,最最初初的的计计算算机机仅仅仅仅是是为为科科学学计计算算而而建建造造的的。大大型型计计算算机机的的最最早早一一批批用用户户就就包包含含统统计计。而而现现在在统统计计仍仍然然是是进进行行数数字字计计算最多的用户。算最多的用户。计计算算机机现现在在早早已已脱脱离离了了仅仅有有计计算算功功能能的的单单一模式,而成为一模式,而成为百姓生活的一部分百姓生活的一部分。计计算算机机的的使使用用,也也
13、从从过过去去必必须须学学会会计计算算机机语语言言到到只只需需要要“傻傻瓜瓜式式”地地点点击击鼠鼠标标。结结果果也也从从单单纯纯的的数数字字输输出出到到包包括括漂漂亮亮的的表表格格和图形的各种形式。和图形的各种形式。统计软件统计软件统计软件的发展,也使得统计从统计统计软件的发展,也使得统计从统计学家的圈内游戏变成了大众的游戏。学家的圈内游戏变成了大众的游戏。只要你输入你的数据,点几下鼠标,只要你输入你的数据,点几下鼠标,做一些选项,马上就得到令人惊叹的做一些选项,马上就得到令人惊叹的漂亮结果了。漂亮结果了。你可能会问,是否傻瓜式的统计软件你可能会问,是否傻瓜式的统计软件使用可以代替统计课程了?使
14、用可以代替统计课程了?当然不是。数据的整理和识别,方法当然不是。数据的整理和识别,方法的选用,计算机输出结果的理解都不的选用,计算机输出结果的理解都不象使用傻瓜相机那样简单可靠。象使用傻瓜相机那样简单可靠。统计软件统计软件有些诸如法律和医学方面的软件都有不少警告,有些诸如法律和医学方面的软件都有不少警告,不时提醒你去咨询专家。不时提醒你去咨询专家。但统计软件则不那么负责。只要数据格式无误、但统计软件则不那么负责。只要数据格式无误、方法不矛盾而且不用零作为除数就一定给你结果,方法不矛盾而且不用零作为除数就一定给你结果,而且而且没有任何警告没有任何警告。另外,统计软件另外,统计软件输出的结果太多输
15、出的结果太多;即使是同样的;即使是同样的方法,不同软件输出的内容还不一样;有时同样方法,不同软件输出的内容还不一样;有时同样的内容名称也不一样。这就使得使用者大伤脑筋。的内容名称也不一样。这就使得使用者大伤脑筋。即使是统计学家也不一定能解释所有的输出。因即使是统计学家也不一定能解释所有的输出。因此,就应该特别留神,明白自己是在干什么。此,就应该特别留神,明白自己是在干什么。不不要在得到一堆毫无意义的垃圾之后还沾沾自喜要在得到一堆毫无意义的垃圾之后还沾沾自喜。统计软件统计软件统计软件的种类很多。有些功能齐统计软件的种类很多。有些功能齐全,有些价格便宜;有些容易操作,全,有些价格便宜;有些容易操作
16、,有些需要更多的实践才能掌握。还有些需要更多的实践才能掌握。还有些是专门的软件,只处理某一类有些是专门的软件,只处理某一类统计问题。面对太多的选择往往给统计问题。面对太多的选择往往给决策带来困难。这里介绍最常见的决策带来困难。这里介绍最常见的几种。几种。统计软件统计软件SPSS:这这是是一一个个很很受受欢欢迎迎的的统统计计软软件件;它它容容易易操操作作,输输出出漂漂亮亮,功功能能齐齐全全,价价格格合合理理。对对于于非非统统计计工工作作者者是是很好的选择。很好的选择。Excel:它它严严格格说说来来并并不不是是统统计计软软件件,但但作作为为数数据据表表格格软软件件,必必然然有有一一定定统统计计计
17、计算算功功能能。而而且且凡凡是是有有Microsoft Office的的计计算算机机,基基本本上上都都装装有有Excel。但但要要注注意意,有有时时在在装装Office时时没没有有装装数数据据分分析析的的功功能能,那那就就必必须须装装了了才才行行。当当然然,画画图图功功能能是是都都具具备备的的。对对于于简简单单分分析析,Excel还还算算方方便便,但但随随着着问问题题的的深深入入,Excel就就不不那那么么“傻傻瓜瓜”,需需要要使使用用函函数数,甚甚至至根根本本没没有有相相应应的的方方法法了了。多多数数专专门门一一些些的的统统计计推推断断问问题题还还需需要要其其他他专专门门的的统统计计软软件来
18、处理。件来处理。SAS:这这是是功功能能非非常常齐齐全全的的软软件件;尽尽管管价价格格不不菲菲,许许多多公公司司还还是是因因为为其其功功能能众众多多和和某某些些美美国国政政府府机机构构认认可可而而使使用用。尽尽管管现现在在已已经经尽尽量量“傻傻瓜瓜化化”,仍仍然然需需要要一一定定的的训训练才可以进入。对于基本统计课程则不那么方便。练才可以进入。对于基本统计课程则不那么方便。统计软件统计软件S-plus:这这是是统统计计学学家家喜喜爱爱的的软软件件。不不仅仅由由于于其其功功能能齐齐全全,而而且且由由于于其其强强大大的的编编程程功功能能,使使得得研研究究人人员员可可以以编编制制自自己己的的程程序序
19、来来实实现现自自己己的的理理论论和和方方法法。它它也也在在进进行行“傻傻瓜瓜化化”以以争争取取顾顾客客。但但仍仍然以编程方便为顾客所青睐。然以编程方便为顾客所青睐。R软软件件:这这是是一一个个免免费费的的,由由志志愿愿者者管管理理的的软软件件。其其编编程程语语言言与与S-plus所所基基于于的的S语语言言一一样样,很很方方便便。还还有有不不断断加加入入的的各各个个方方向向统统计计学学家家编编写写的的统统计计软软件件包包。同同时时从从网网上上可可以以不不断断更更新新和和增增加加有有关关的的软软件件包包和和程程序序。这这是是发发展展最最快快的的软软件件,受受到到世世界界上上统统计计师师生生的的欢欢
20、迎迎。是是用用户户量量增增加加最最快快的的统统计计软软件件。对对于于一一般般非非统统计计工工作作者者来来说说,主主要要问问题题是是它没有它没有“傻瓜化傻瓜化”。统计软件统计软件Minitab:这这个个软软件件是是很很方方便便的的功功能能强强大大而而又又齐齐全全的的软软件件,也也已已经经“傻傻瓜瓜化化”,在在我我国国用用的的不不如如SPSS与与SAS那那么普遍。么普遍。Statistica:也也是是功功能能强强大大而而齐齐全全的的“傻傻瓜瓜化化”的的软软件件,在我国用的也不如在我国用的也不如SAS与与SPSS那么普遍。那么普遍。Eviews:这是一个主要处理回归和时间序列的软件。这是一个主要处理
21、回归和时间序列的软件。GAUSS:这这是是一一个个很很好好用用的的统统计计软软件件,许许多多搞搞经经济济的的喜喜欢欢它它。主主要要也也是是编编程程功功能能强强大大。目目前前在在我我国国使使用用的的人人不多。不多。FORTRAN:这这是是应应用用于于各各个个领领域域的的历历史史很很长长的的非非常常优优秀秀的的编编程程软软件件,功功能能强强大大,也也有有一一定定的的统统计计软软件件包包。计计算算速速度度比比这这里里介介绍绍的的都都快快得得多多。但但需需要要编编程程和和编编译译。操操作不那么容易。作不那么容易。MATLAB:这这也也是是应应用用于于各各个个领领域域的的以以编编程程为为主主的的软软件件
22、,在在工工程程上上应应用用广广泛泛。编编程程类类似似于于S和和R。但但是是统统计计方法不多。方法不多。统计软件统计软件当当然然,还还有有其其他他的的软软件件,没没有有必必要要一一一一罗罗列列。其其实实,聪聪明明的的读读者者只只要要学学会会使使用用一一种种“傻傻瓜瓜式式”软软件件,使使用用其其他他的的仅仅仅仅是是举举一一反反三三之之劳劳;最最多多看看看看帮帮助助和和说说明明即即可可。如如果果只只有有英英文文帮帮助助,那那还还可可以以顺顺便提高你的英文阅读能力。便提高你的英文阅读能力。想想看想想看举出你所知道的统计应用例子。举出你所知道的统计应用例子。举举出出日日常常生生活活中中随随机机性性和和规
23、规律律性性的的例子。例子。你你使使用用过过统统计计软软件件或或者者利利用用过过其其他他软软件件中中的的统统计计功功能能吗吗?你你有有什什么么经经验和体会?验和体会?数据的收集二手数据二手数据每天翻开报纸或打开电视,就可以看每天翻开报纸或打开电视,就可以看到各种数据。比如高速公路通车里程、到各种数据。比如高速公路通车里程、物价指数、股票行情、外汇牌价、犯物价指数、股票行情、外汇牌价、犯罪率、房价、流行病的有关数据(确罪率、房价、流行病的有关数据(确诊病例、疑似病例、死亡人数和出院诊病例、疑似病例、死亡人数和出院人数等等);当然还有国家统计局定人数等等);当然还有国家统计局定期发布的各种国家经济数
24、据、海关发期发布的各种国家经济数据、海关发布的进出口贸易数据等等。从中可以布的进出口贸易数据等等。从中可以选取对自己有用的信息。选取对自己有用的信息。这些间接得到的数据都是这些间接得到的数据都是二手数据二手数据。第一手数据第一手数据获得第一手数据并不象得到二手数据那么轻松。获得第一手数据并不象得到二手数据那么轻松。某某些些在在华华的的外外资资企企业业每每年年至至少少要要花花三三四四千千万万元元来来收集和分析数据。收集和分析数据。他他们们调调查查其其产产品品目目前前在在市市场场中中的的状状况况和和地地位位并并确确定其竞争对手的态势;定其竞争对手的态势;他他们们调调查查不不同同地地区区,不不同同阶
25、阶层层的的民民众众对对其其产产品品的的认认知知程程度度和和购购买买意意愿愿以以改改进进产产品品或或推推出出新新品品种种争争取新顾客;取新顾客;他他们们还还收收集集各各地地方方的的经经济济交交通通等等信信息息以以决决定定如如何何保保住住现现有有市市场场和和开开发发新新市市场场。市市场场信信息息数数据据对对企企业是至关重要的。业是至关重要的。他他们们很很舍舍得得在在这这方方面面花花钱钱。因因为为这这是是企企业业生生存存所所必需的,绝不是可有可无的。必需的,绝不是可有可无的。观测数据观测数据和和试验数据试验数据上面所说的数据是在上面所说的数据是在自然的未被控制的自然的未被控制的条件下观测到的,称为观
26、测数据条件下观测到的,称为观测数据(observational data)。而对于有些问题,而对于有些问题,比如在不同的医疗手比如在不同的医疗手段下某疾病的治疗结果有什么不同、不段下某疾病的治疗结果有什么不同、不同的肥料和土壤条件下某农作物的产量同的肥料和土壤条件下某农作物的产量有没有区别、用什么成分可以提高某物有没有区别、用什么成分可以提高某物质变成超导体的温度等等。质变成超导体的温度等等。这种在人工这种在人工干预和操作情况下收集的数据就称为试干预和操作情况下收集的数据就称为试验数据验数据(experimental data)。总体和样本总体和样本 要想了解北京市民对建设北京交通设要想了解北
27、京市民对建设北京交通设施是以包括轨道运输在内的公共交通施是以包括轨道运输在内的公共交通工具为主还是以小汽车为主的观点,工具为主还是以小汽车为主的观点,需要进行调查;需要进行调查;调查对象是调查对象是所有北京市民所有北京市民,调查,调查目的目的是希望知道市民中对这个问题的不同是希望知道市民中对这个问题的不同看法各自占有的看法各自占有的比例比例。显然,显然,不可能去问所有的北京市民,不可能去问所有的北京市民,而只能够问一部分而只能够问一部分;并且根据这一部;并且根据这一部分的观点来理解整个北京市民的总体分的观点来理解整个北京市民的总体观点。观点。总体和样本总体和样本 这种情况下,称所有(每个)北京
28、市这种情况下,称所有(每个)北京市民对这个问题的观点为一个民对这个问题的观点为一个总体总体(population),而调查时问到的那部,而调查时问到的那部分市民的观点为分市民的观点为该总体的该总体的一个样本一个样本(sample)。当然,也有可能调查所有的人(比如当然,也有可能调查所有的人(比如人口普查),那叫做人口普查),那叫做普查普查(census)。总体是包含所有要研究的个体总体是包含所有要研究的个体(element)的集合。而样本是总体中选的集合。而样本是总体中选中的一部分。中的一部分。随机样本随机样本在抽取样本时,如果总体中的每在抽取样本时,如果总体中的每一个体都有同等机会被选到样本
29、一个体都有同等机会被选到样本中,这种抽样称为简单中,这种抽样称为简单随机抽样随机抽样(simple random sampling),),而这样得到的样本则称为而这样得到的样本则称为随机样随机样本本(random sample)。)。随机样本随机样本就北京交通问题的调查为例,在随就北京交通问题的调查为例,在随机抽样的情况下,如果样本量机抽样的情况下,如果样本量(sample size,也就是样本中个体,也就是样本中个体的数目)在总体中的比例为的数目)在总体中的比例为1/5000,那么,无论在东城区或者在延庆那么,无论在东城区或者在延庆县,无论在白领阶层还是蓝领阶层县,无论在白领阶层还是蓝领阶层
30、被问到的人的比例都应该大体是被问到的人的比例都应该大体是1/5000。也就是说,也就是说,这种比例在总体的任何这种比例在总体的任何部分是大体不变的。部分是大体不变的。方便样本方便样本在实践中,得到随机样本不容易。很多搞调查的在实践中,得到随机样本不容易。很多搞调查的人就采取人就采取简单简单的办法。的办法。还以北京的交通问题的调查为例。假定按照随机还以北京的交通问题的调查为例。假定按照随机选出的电话号码进行调查。这样肯定节省时间和选出的电话号码进行调查。这样肯定节省时间和资源,但这样得到的就不是一个随机样本了。资源,但这样得到的就不是一个随机样本了。如果按照随机选择的数字(无论号码本上有没有)如
31、果按照随机选择的数字(无论号码本上有没有)打电话,那很多电话是空号或单位电话;显然这打电话,那很多电话是空号或单位电话;显然这种样本也不是随机样本,它称为方便样本种样本也不是随机样本,它称为方便样本(convenience sample)。)。在调查中,即使选择对象的确是随机的,最理想在调查中,即使选择对象的确是随机的,最理想的情况所得到的样本也只代表那些愿意回答问题的情况所得到的样本也只代表那些愿意回答问题人的观点所组成的总体;人的观点所组成的总体;没有回答问题的人的观没有回答问题的人的观点永远不会被这种调查的样本所代表。点永远不会被这种调查的样本所代表。方便样本方便样本这种不回答的问题是抽
32、样调查特有的问这种不回答的问题是抽样调查特有的问题。题。在其他问题中,也有使用方便样本的情在其他问题中,也有使用方便样本的情况。比如在肺癌研究中,人们往往看到况。比如在肺癌研究中,人们往往看到吸烟和肺癌的关系的数据;这些数据并吸烟和肺癌的关系的数据;这些数据并不是整个人群中采集的随机样本;它们不是整个人群中采集的随机样本;它们可能只是医院中的病人记录中得到的。可能只是医院中的病人记录中得到的。在杂志和报纸上也有问卷,但得到的只在杂志和报纸上也有问卷,但得到的只是拥有这份报刊,而且愿意回答的人的是拥有这份报刊,而且愿意回答的人的观点。观点。误差误差 假定在某一职业人群中女性占的比例为假定在某一职
33、业人群中女性占的比例为60%60%。如果在这。如果在这个人群中抽取一些随机样本,这些随机样本中女性的比个人群中抽取一些随机样本,这些随机样本中女性的比例并不一定是刚好例并不一定是刚好6060,可能稍微多些或稍微少些。这,可能稍微多些或稍微少些。这是很正常的,因为样本的特征不一定和总体完全一样。是很正常的,因为样本的特征不一定和总体完全一样。这种差异不是错误,而是必然会出现的这种差异不是错误,而是必然会出现的抽样误差抽样误差(sampling errorsampling error)。)。刚才提到在抽样调查中,一些人因为种种原因没有对调刚才提到在抽样调查中,一些人因为种种原因没有对调查作出反映(
34、或回答),这种误差称为查作出反映(或回答),这种误差称为未响应误差未响应误差(nonresponse errornonresponse error)。)。而另有一些人因为各种原因回答时并没有真实反映他们而另有一些人因为各种原因回答时并没有真实反映他们的观点,这称为的观点,这称为响应误差响应误差(response errorresponse error)。)。和抽样误差不一样,未响应误差和响应误差都会影响对和抽样误差不一样,未响应误差和响应误差都会影响对真实世界的了解;应该在设计调查方案时尽量避免。真实世界的了解;应该在设计调查方案时尽量避免。抽样调查的一些常用方法抽样调查的一些常用方法 在抽样
35、调查时,最理想的样本是前面提到在抽样调查时,最理想的样本是前面提到的随机样本。的随机样本。但是但是由于实践起来不方便由于实践起来不方便,在大规模调查,在大规模调查时一般不用这种全部随机抽样的方式,而时一般不用这种全部随机抽样的方式,而只是在局部采用随机抽样的方法。只是在局部采用随机抽样的方法。下面介绍几种抽样方法。这里没有深奥的下面介绍几种抽样方法。这里没有深奥的理论;读者完全可以根据常识判断在什么理论;读者完全可以根据常识判断在什么情况下简单的随机样本不方便以及下面的情况下简单的随机样本不方便以及下面的每个方法有什么好处和缺陷。对于它们具每个方法有什么好处和缺陷。对于它们具体的设计、实施与数
36、据分析,有许多专门体的设计、实施与数据分析,有许多专门的书籍,就不在这里赘述了。的书籍,就不在这里赘述了。一些抽样方法一些抽样方法 1 分分层层抽抽样样(stratified sampling)。这这是是先先把把要要研研究究的的总总体体按按照照某某些些性性质质分分类类(stratum),再再在在各各类类中中分分别别抽抽取取样样本本。在在每每类类中中调调查查的的人人数数通通常常是是按按照照这这该该类类人人的的比比例例,但但出出于于各各种种考考虑虑,也也可可能能不不按按照照比比例例,也也可可能能需需要要加加权权(加加权权就就是是在在求求若若干干项项的的和和时时,对对各各项项乘乘以以不不同同的的系系
37、数数,这这些些系系数数的的和和通通常常为为1)。比比如如可可以以按按照照教教育育程程度度把把要要访访问问的的人人群群分分成成几几类类;再再在在每每一一类类中中调调查查和和该该类类成成比比例例数数目目的的人人。这这样样就就确保了每一类都有成比例的代表。确保了每一类都有成比例的代表。一些抽样方法一些抽样方法 2.整整群群抽抽样样(cluster sampling)。这这是是先先把把总总体体划划分分成成若若干干群群(cluster),再再(通通常常是是随随机机地地)从从这这些些群群中中抽抽取取几几群群;然然后后再再在在这这些些抽抽取取的的群群中中对对个个体体进进行行抽抽样样。比比如如,在在某某县县进
38、进行行调调查查,首首先先在在所所有有村村中中选选取取若若干干村村子子,然然后后只只对对这这些些村村子子的的人人进进行行调调查查。显显然然,如如果果各各村村情情况况差差异异不不大大,这这种种抽抽样样还还是方便的。否则就会增大误差了。是方便的。否则就会增大误差了。一些抽样方法一些抽样方法 3.3.多多级级抽抽样样(multistage multistage samplingsampling)。在在群群体体很很大大时时,往往往往在在抽抽取取若若干干群群之之后后,再再在在其其中中抽抽取取若若干干子子群群,甚甚至至再再在在子子群群中中抽抽取取子子群群,等等等等。最最后后只只对对最最后后选选定定的的最最下
39、下面面一一级级进进行行调调查查。比比如如在在全全国国调调查查时时,先先抽抽取取省省,再再抽抽取取市市地地,再再抽抽取取县县区区,再再抽抽取取乡乡、村村直直到到户户。在在多多级级抽抽样样中中的的每每一一级级都都可可能能采采取取各各种种抽抽样样方方法法。因因此此,整整个个抽抽样样计计划划可可能能比比较较复复杂杂,也也称称为为多多级级混混和和型型抽样。抽样。一些抽样方法一些抽样方法 4.系系统统抽抽样样(systematic sampling)。这这是是先先把把总总体体中中的的每每个个单单元元编编号号,然然后后随随机机选选取取其其中中之之一一作作为为抽抽样样的的开开始始点点进进行行抽抽样样。如如果果
40、编编号号是是随随机机选选取取的的,则则这这和和简简单单随随机机抽抽样样是是等等价价的的。在在选选取取开开始始点点之之后后,通通常常从从开开始始点点开开始始按按照照编编号号进进行行所所谓谓等等距距抽抽样样;也也就就是是说说,如如果果开开始始点点为为5号号,“距距离离”为为10,则则下面的调查对象为下面的调查对象为15号、号、25号等等。号等等。抽样方法的选择不能一概而论抽样方法的选择不能一概而论实际上每个抽样通常都可实际上每个抽样通常都可能是各种抽样方法的组合。能是各种抽样方法的组合。既要考虑精确度,还要根既要考虑精确度,还要根据客观情况考虑方便性、据客观情况考虑方便性、可行性和经济性。不能一可
41、行性和经济性。不能一概而论。概而论。计算机中常用的数据形式计算机中常用的数据形式 数据是由一些变量和它们的观测值所组成。下面数据是由一些变量和它们的观测值所组成。下面就是调查人们对某个问题观点的一个数据的方阵就是调查人们对某个问题观点的一个数据的方阵形式。其中有形式。其中有6 6个变量:观点(观测值为支持、个变量:观点(观测值为支持、反对和不知道三种)、教育程度(有高中低三种反对和不知道三种)、教育程度(有高中低三种取值,用取值,用H H、M M、L L表示)、月收入(取值为实际表示)、月收入(取值为实际数字)、性别(取值有男女两个,用数字)、性别(取值有男女两个,用M M和和F F表示)表示
42、)以及地区号(用数字以及地区号(用数字1 1,2 2,3 3,4 4表示)等。该表表示)等。该表一共有一共有13641364个观测值(问卷回答)。可以看出这个观测值(问卷回答)。可以看出这些变量有定性(属性)变量,也有定量(数值)些变量有定性(属性)变量,也有定量(数值)变量。按照这个数据的格式,每一列为一个变量变量。按照这个数据的格式,每一列为一个变量的不同观测值;而每一行则称为一个观测值,它的不同观测值;而每一行则称为一个观测值,它是个由数量值和属性值组成的向量,每一个值相是个由数量值和属性值组成的向量,每一个值相应于一个变量。应于一个变量。思考思考1 1 举出一些观测数据和试验数据的例子
43、。举出一些观测数据和试验数据的例子。2 2 举出简单随机样本的例子。举出简单随机样本的例子。3 3 根根据据你你的的经经验验,举举出出总总体体和和样样本本的的一一些些具具体例子。体例子。4 4 举举出出调调查查抽抽样样时时可可能能发发生生的的各各种种影影响响调调查查结结果果的的问问题题,并并且且提提出出你你认认为为可可以以减减少少或或避避免免这这些问题的建议。些问题的建议。5 5 根根据据你你的的直直觉觉,本本章章提提到到的的几几种种抽抽样样方方法法的优缺点是什么?原因何在?的优缺点是什么?原因何在?6 6 举举出出一一些些书书报报上上发发表表的的数数据据例例子子,并并指指出出那些是变量,哪些
44、是观测值。那些是变量,哪些是观测值。数据的描述如同给人画像一样直方图直方图 比如某个地区(地区比如某个地区(地区1 1)学校高三男生)学校高三男生的身高;有的身高;有163163个度量如何用图形来表个度量如何用图形来表示这个数据,使人们能够看出这个数示这个数据,使人们能够看出这个数据的大体分布或据的大体分布或“形状形状”呢?一个办呢?一个办法就是画一个直方图法就是画一个直方图(histogram)(histogram)。盒型图盒型图比比 直直 方方 图图 简简 单单 一一 些些 的的 是是 盒盒 形形 图图(boxplot(boxplot,又又称称箱箱图图、箱箱线线图图、盒盒子子图图)。后后面
45、面图图的的左左边边一一个个是是根根据据地地区区1 1高高三三男男生生的的身身高高数数据据所所绘绘的的盒盒形形图图;其其右右边边的的图图代代表表另另一一个个地地区区(地地区区2 2)的高三学生的身高的高三学生的身高 茎叶图茎叶图 地区地区1 1高三男生身高数高三男生身高数据的茎叶图据的茎叶图 HEIGHT Stem-and-Leaf Plot Frequency Stem&Leaf 9.00 15.001223344 17.00 15.55666667778899999 20.00 16.01112222223333333444 35.00 16.555556666666677777888888
46、88888999999 25.00 17.0000000011112222233333344 24.00 17.555666677777777777888899 13.00 18.0111111122333 11.00 18.55667788899 4.00 19.2333 2.00 19.56 3.00 Extremes (=198)Stem width:10.00 Each leaf:1 case(s)散点图散点图往往人们得到的数据有两个变量的,比如美国男士往往人们得到的数据有两个变量的,比如美国男士和女士初婚年限的数据。该数据描述了自和女士初婚年限的数据。该数据描述了自19001900年
47、到年到19981998年男女第一次结婚延续的时间的中位数。当然,年男女第一次结婚延续的时间的中位数。当然,不可能将所有人的婚姻年限都给出来。所以,每年不可能将所有人的婚姻年限都给出来。所以,每年就取了一个中间的值就取了一个中间的值(中位数中位数)作为代表。自作为代表。自19001900到到19601960年是每十年一个值,以后到年是每十年一个值,以后到19901990是每五年取一是每五年取一个数,个数,19951995年以后是每年一个数。这里的一个变量年以后是每年一个数。这里的一个变量为记录年份,另一个是结婚时间长短。由于分男士为记录年份,另一个是结婚时间长短。由于分男士和女士,因此有两二维数
48、据。这时可以以一个变量和女士,因此有两二维数据。这时可以以一个变量为横坐标(如年份),另一个为纵坐标(这里是结为横坐标(如年份),另一个为纵坐标(这里是结婚年限)来点图。这种图称为散点图(婚年限)来点图。这种图称为散点图(scatter scatter plotplot)。还可以看出在二十世纪六十年代婚姻年限)。还可以看出在二十世纪六十年代婚姻年限降低,而后来又升高。而男子的年限平均比女性长。降低,而后来又升高。而男子的年限平均比女性长。这个图是用这个图是用SPSSSPSS画的。画的。定性变量的点图定性变量的点图定性变量(或属性变量,分类变量)定性变量(或属性变量,分类变量)不能点出直方图、散
49、点图或茎叶图,不能点出直方图、散点图或茎叶图,但可以描绘出它们各类的比例。下面但可以描绘出它们各类的比例。下面用用SPSS绘的图表示了说世界各种主要绘的图表示了说世界各种主要语言的人数的比例语言的人数的比例 饼图条形图汇总统计量汇总统计量或或概括统计量概括统计量(summary statistic)汇总统计量(位置)汇总统计量(位置)均值均值(mean)中位数中位数(median)(第一,第三第一,第三)四分位数四分位数(点点)(first quantile,third quantile)k百分位数百分位数(k-percentile)众数众数(mode)汇总统计量(尺度)汇总统计量(尺度)(s
50、cale statistic)极差(极差(range)四分位间距四分位间距(四分位极差四分位极差)(interquantile range)标准差标准差(standard deviation)方差方差(variance)两个尺度不同的数据的直方图,左边的标准差大约只有右边的一半两个尺度不同的数据的直方图,左边的标准差大约只有右边的一半 数据的标准得分数据的标准得分(standard score)两个水平类似的班级(一班和二班)上同一门课,但是两个水平类似的班级(一班和二班)上同一门课,但是由于两个任课老师的评分标准不同,使得两个班成绩的由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准