《基于R语言的社会统计分析 (1).pdf》由会员分享,可在线阅读,更多相关《基于R语言的社会统计分析 (1).pdf(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、基于R语言的社会统计分析第一周讲义2目录第一章引言71.1统计学与社会统计学.71.2数据.91.3几个概念.111.4统计软件.121.5数据收集.141.5.1抽样.141.5.2简单随机抽样.141.6收集数据的途径.151.6.1抽样调查.151.6.2实验研究.151.6.3观察性研究.161.6.4艰难的因果关系证明.1634目录写在第一周的话过去几年,我主要的教学任务是为社会学以及社会工作专业的本科生、研究生、甚至是博士生讲授社会统计学。这期间,我听到的最多抱怨就是,“我是文科生,最讨厌数学”或者“我感兴趣的是定性研究,为什么一定要学统计学”。统计学的学习让他们不得不跳出自己的“
2、comfortzone”,短暂的忘却”雄辩”的激荡,而回归那些看似了无生气的“数字“和“事实”。我深知社会科学专业学生在学习统计学时的痛苦纠结,也常常为一些学生仅因为对一些数理推导过程的不解而放弃学习感到遗憾。然而,我深信,统计学的精髓绝非止步于晦涩难懂的希腊字母和数学公式,它是一种存在于人类思维各个领域的基础思维模式。甚至有人认为,是统计学方法论体系的建立令很大一部分人文学科成为了社会科学。进入大数据时代,我们被来自四面八方的数据围得水泄不通,我们需要一双更明亮的眼睛,了解数字背后的深意。我们需要统计学知识的帮助,需要学会从海量数据中提取关键信息、进行合理推断并做出正确决策,以更科学的视角欣
3、赏我们生活的世界。人人都可以学习统计学,人人都应该学习统计学,然而面对一门内容如此丰富且具有很高技术复杂性的学科,人们的学习方法应视自身需求而有所取舍。对作为统计学理论“消费者”的社会科学研究者而言,对基本概念和实际应用方法的掌握往往比对数学及计算细节的理解更为重要。随着计算机数据处理能力和可操作性的迅速提升,社会科学研究者收集与分析数据的方式也在产生变革,对统计软件的驾驭能力成为了新一代研究者代替手动推导能力的基本功。本套讲义是为社会科学学生设计的社会统计学入门级教材。你不需要是微积分学霸或线数达人,更不用为自己捉襟见肘的数学知识担忧。我们将从社会科学研究的实际出发,借助R语言统计软件的强大
4、功能,通过对大56目录量案例的分析,带你一步步的学习如何收集数据、建立模型及如何基于模型对样本数据进行解读并对总体进行推断。学习中,你可能会对一些术语或推论过程感到“消化不良”,但请千万不要放弃。任何一门课都很难仅仅通过端坐在课堂上的有限时间就被充分理解。英语学习需要对话,化学学习需要实验,统计学也需要通过反复的阅读和结合实例的练习和操作得以掌握。希望你可以暂时忘却你的“数学恐惧症”,和我一起关注社会统计学里精彩的概念和逻辑,逐步体会这门新时代通用语的魅力。2016年4月第一章引言无论在科学领域还是社会领域,如果一个重要且严肃的问题被提出,那么仅提供一个简单的答案是远远不够的。我们在寻求答案的
5、同时,往往还需要掌握一系列可以被检验的证据,并了解其所伴随的证明过程。这些证据并不一定是数字,但量化的证据已逐渐成为人们对这些证据对直接的联想。当人们开始以一副需要深思熟虑的架势来迎接某一议题时,量化的证据变得越发重要。统计学就是为这套证明过程提供科学方法的理论体系。国务院新闻发言人在答记者问时,常会说“我这里有一组数字.”;任意翻开一期American Sociological Review,你会看到研究人员为回答“非洲裔美国人、西班牙裔以及白人对黑人和白人间的不平等是否有不同的解读”这一社会学问题,使用了1977 年到2004年的美国综合社会调查(General Social Survey
6、s)数据 5;同样,在该杂志较新一期的文章中,研究人员使用美国“中年发展研究”的两波数据,探讨了童年劣势与中老年健康问题的关系 3。对这些以定量研究为基础的社会学科学研究简单浏览,你会发现一些出镜率极高的字眼,比如:变量(variable)、相关性(correlation)、回归(regression)、显著(significant)、p值(p-value)等等,他们正是我们要从统计学课堂了解的内容。在进入具体学习之前,让我们先提纲挈领的了解几个核心概念。1.1统计学与社会统计学那么统计学是什么呢?牛津字典上说:“统计学是一门关于收集、分析、解释、展示以及组织数据的学问”2。我更喜欢Alan
7、Agresti和BarbaraFinlay在他们的教材Statistical Methods for Social Sciences中的定义,即78第一章引言统计学(Statistics)统计学是一套获取与分析数据的方法。(Statistics consists of a body of methods for obtaining and analyzing data.)具体而言,统计学为设计(design)、描述(description)、和推断(inference)提供方法学基础:设计是指对数据收集方法的计划。以社会调查为例,我们需要考虑如何抽取访谈对象、需要多少访谈对象、使用电话访问还是
8、入户访问、甚至是问卷设计的方方面面。描述是指对现有数据的总结提炼。原始数据通常是杂乱无章的,如何从无序的数据中总结出有应用价值的趋势和特点需要多种描述统计方法的支持。推断是指依据数据对总体进行的推测(如图1.1。研究者所感兴趣的通常不是样本本身。例如,民调机构希望通过对2000个样本的分析得到全州或全国的选民对不同总统候选人的支持情况;证券公司希望通过对最近3个月股市数据的分析预测未来几天某只股票的涨跌情况。统计推断(statistical inference)为这些基于数据所进行的可靠推测提供了方法,是统计学方法论体系的脊梁。描述和推断是两种最基本的统计分析类型。研究者通常结合这两种方法,试
9、图对各种社会现象进行探究。图 1.1:统计推断流程图社会统计学,是指将统计方法应用于对社会环境中人类行为的研究。它与生物统计学、商务统计学、计量经济学、医学统计学等其他统计学应用领域共享着以概率论和统计推断为代表的统计学经典理论成果,同时1.2数据9也根据社会科学研究问题的特性,发展出了其特有的方法论体系,如结构方程模型(Structural Equation Modeling)、项目反应理论(Item ResponseTheory)和调查统计调查方法(Survey Methodology)等。过去的四分之一个世纪,我们见证了统计学方法在社会学研究中的几何级数式增长。在统计方法为社会学研究提供
10、新视角、新方法的同时,我们也听到了不少对定量研究质疑声。一些学者认为社会科学要发掘出“放之四海而皆准”的规律注定是困难的,甚至是不可能的,尤其在个体层面上更是如此。笔者认为,定性与定量从来就不应是两种对立的方法,他们更像是阴阳两极,互为补充。如图1.2 所示,我们往往通过直接观察、深度或焦点小组访谈的方法产生并丰富研究问题,进而建立研究假设;通过统计学建立的方法论体系,我们科学的收集有代表性的数据,对数据进行描述,对总体进行推断;通过定量调查的检验和对其结果的解读,人们又会发现新的问题,于是新的假设建立,新的定量研究也随之产生。图 1.2:社会学定性研究与定量研究的关系1.2数据俗话说:”巧妇
11、难为无米之炊”。数据就是我们的米,没有高质量的数据,就很难通过严谨的统计分析获得精彩结论。信息收集几乎是所有的科学领域的核心,它为我们提供统计分析中的观测值(observation)4。社会科学研究通过不同的方法收集数据,相对传统的方法包括调查、实验以及对行为的直接观察等,有时我们也会利用各种统计年鉴及一些因其他目的而获取的数据(如户籍资料、健康档案、税务信息等等)。随着互联网的发10第一章引言展,越来越多的政府、企业和研究机构本着推动数据共享性与开放性的思路,开始逐步与公众共享数据,且随着网络数据的爆发性积累,网络抓取数据也逐渐成为一种主流的数据获取方法。当然,不同数据收集方法所获取的数据质
12、量及代表性各不相同,其结论的可靠程度也不尽相同,方法的选取需根据研究目的和实际研究条件而有所取舍。将收集来的数据按照一定数据结构来组织、存储和管理,就形成了数据库。目前,很多高质量的数据库都可以从互联网获得。数据提供者通常会提供调查问卷和数据使用说明,更严谨的数据提供者还会共享包括抽样方案(sampling method)、权重(sampling weights)、编码手册(codebook)、缺失值处理方法(imputation of missing values)等内容的多个技术报告(technical report)。西方国家实证研究开展的时间较长,积累了丰富的数据,较具代表性的数据库包
13、括:始于1972年的美国综合社会调查(The General Social Survey,GSS)1、始于1992年的健康与退休追踪调查(Health and Retirement Study,HRS)2、始于1957年的威斯康辛追踪调查(Wisconsin Longitudinal Study)3以及始于1960年代的瑞典双胞胎注册数据库(The Swedish Twin Registry)4,这些研究直到今天,仍然以不同的时间间隔坚持着严谨的数据收集工作。值得一提的是,随着一些数据库问卷设计以及数据收集方法的不断完善,越来越多的国家开始以极其类似的框架建立姐妹数据库,这些极具可比性的数据库
14、的可获得性为更严谨的国际比较带来了无限可能。例如,由美国密西根大学管理的HRS 数据库自1992年起开始,每两年一次,搜集50岁以上人群样本的微观信息。他们系统的采集了关于人们收入、工作、财产、养老金计划、健康保险、失能状况、生理健康与功能、认知功能以及医疗支持的信息,以探讨人们在进入工作生涯的最后阶段以及退休生活时在劳动力参与和健康等方面所经历的转变 6。伴随着HRS的极大成功,英国、比利时、瑞士、德国、法国、瑞典、丹麦等多个欧洲国家、韩国、印度和中国都纷纷以它为范本建立节目数据库。我国较为系统的大规模社会调查数据收集工作是从2000年以后开始的,到目前为止,中国综合社会调查、中国健康与养老
15、追踪调查、中国家庭追踪调查、中国教育追踪调查、中国健康与营养调查的数据均已向公众开放,为社会科学研究者提供了大量的研究素材。1http:/gss.norc.org/2http:/hrsonline.isr.umich.edu/3http:/www.ssc.wisc.edu/wlsresearch/4http:/ki.se/en/research/about-us-11.3几个概念111.3几个概念前文中我们提到描述和推断是统计分析的两种类型。描述是对样本数据的总结,而统计推断是指运用样本数据对总体进行预测。要更清楚的理解描述与推断的区别,我们首先需要定义总体和样本的概念。总体与样本研究所观测的
16、个体称为研究对象(subject)。社会科学的研究对象通常是人,但有时也会以家庭、小组、社区、学校、组织,甚至是省市、国家为单位。总体(Population)总体是指研究所感兴趣的所有对象的集合。(The population is the total set of subjects of interest in a study.)样本(Sample)样本是研究所收集的属于总体子集的数据。(A sample is the subset of the population on which the study collects data.)以CGSS 2013为例,该调查的目标总体为全国31个省
17、、自治区、直辖市(不含港澳台)的所有城市、农村家庭户;其样本则是于2013年搜集的来自于11438名居民的数据。社会科学研究的终极目标是获得关于总体的信息,但对总体的数据收集会受到时间、经费和人力的限制,且通常是不必要的,于是人们选择通过观测样本信息来研究总体,这要求样本具有较好的代表性。12第一章引言参数与统计量参数(Parameter)参数是对某一总体特征的数量概括。(A parameter is a numerical summary of a population characteristic.)统计量(Statistics)统计量是对某一样本的特征的数量概括。(A statistic
18、 is a numerical summary of the sample data.)在实际研究中,我们感兴趣的实际上是参数的取值,而非从某一特定样本中获得统计量的取值。比如,CGSS 2013的数据告诉我们,在11438名调查对象中,有7.6%的人完全同意“男性能力天生比女性强”的看法,这是对样本特征的一个描述。然而我们真正关心的是,在全国范围内,有多少人完全同意这一看法的这一总体参数。推断统计告诉我们,全国居民完全同意这一看法的比例在7.1%到8.1%之间,即样本统计量7.6%的边际误差是0.5%。这些陈述你可能现在还似懂非懂,相信在完成第五章的学习后,你会了解这些关于总体的比例特征是如
19、何被计算出来的。值得指出的是,我们并不是永远需要推断统计,当我们所收集的数据确实是总体数据,即普查(census)时,从该数据得出的描述统计就是总体参数。1.4统计软件传说中的SAS、SPSS、Stata过去的几十年见证了统计软件的蓬勃发展。以SAS、SPSS、Stata等为代表的统计软件在激烈的市场竞争中不断更新换代,在强大其计算、分析功能的同时也大大增加了其可操作性,推动了社会学定量研究的普及。很多学习者都会问,SAS、SPSS和Stata有什么不同?哪个更厉害?我该学习哪个?从这三支软件长年三足鼎立的状态就不难看出,尺有所短,寸有所长,他们各有其特点,也各有其目标用户群。下面我仅面对社会
20、科学领域的学习者对这三种软件做一个简要的介绍。SAS是侧重于商业大数据管理的商业分析与商业智能软件,它是于1976年上市的权威统计软件,数据分析及管理功能强大,也是最昂贵的1.4统计软件13统计软件之一。Stata是Statacorp于1985年开发的统计程序,在全球范围内被广泛应用于企业和学术机构中,尤其受到社会学、经济学、政治学等领域的研究者的青睐。使用Stata时,用户通常可以使用简单直观的语法同软件对话,同时也可以通过交互式界面对数据进行清理和分析。SPSS是IBM公司旗下的统计分析软件,它原名为社会科学统计包(StatisticalPackage for the Social Sci
21、ences),后因其用户的扩展,更名为统计产品与服务解决方案(Statistical Product and Service Solutions),缩写不变。因为它友好的交互式界面、较全面的统计分析功能和灵活的绘图功面,SPSS无疑是统计初学者的宠儿。但是,SPSS的操作语法相对复杂,虽然人们可以通过从交互式界面拷贝和粘贴的方法学习这些语法,但当数据处理和分析任务较多时,这些语法就略显繁复了。Journal of Marriage and Family2005年刊登的一篇文章对以上三种软件进行了比较,文章指出,虽然SAS在数据分析和数据管理任务重展现出了超凡实力,但同Stata 与SPSS 相
22、比,较难学习并使用 1。相反,SPSS和Stata则在强调操作性的同时牺牲了一些功能,有些高级功能需要通过另行购买(如SPSS AMOS)或安装免费扩展程序包(Stata)来实现。文章作者Acock 总结,SAS对于实力商业用户(power user)来说是最好的选择,而个人用户或仅需阶段性进行统计分析的用户(occasional users)会从SPSS和Stata中会益更多。由美国加州大学洛杉矶分校2014 年发表的简要软件比较也支持了这一观点5。介绍了半天统计软件三巨头,我要来个大喘气,因为我们这门课,要学习的软件是R。什么是R?R的官方网站上说:R是用于统计计算和绘图的一种语言和环境(
23、R is alanguage and environment for statistical computing and graphics)。然而我觉得,这种说法未免谦虚了,如Zuur和同事们在他们的R 语言初学者指南中所说,广义的定义,R是允许用户编辑算法并使用其它可编程工具的一种计算机语言 7。R提供了包括线性与非线性建模(linear and nonlinearmodelling)、经典统计检验(classical statistical tests)、时间序列分析(timeseries analysis)、分类方法(classification)、聚类分析(clustering)在内的
24、多种统计方法与绘图技术,而且它可以被高度扩展,因为活跃于各个领域的R语言爱好者正在痴迷的编写着代码,不断的扩展着它的功能。我们将在第5http:/www.ats.ucla.edu/stat/mult pkg/compare packages.htm14第一章引言三章对R语言的使用进行系统介绍。1.5数据收集1.5.1抽样统计推断运用样本统计量对总体参数进行推测,这种推测的准确性极大的依赖于样本对总体的代表性。为保证样本的代表性,这里我们需要引入随机化的概念。随机化是达到良好样本代表性的有效途径,它是保证我们可以将样本特征安全的推广到总体的必要条件。1.5.2简单随机抽样简单随机抽样是大多数统计
25、推断方法的发展基础,这种抽样方法需要确保研究对象被抽中的概率相等。我们用n代表样本中研究对象的数量,称之为样本量。那么对简单随机抽样的定义如下。简单随机抽样(Simple Random Sample)一个从总体中抽取n个研究对象的简单随机样本与其他相同样本量的可能样本被选择的概率(机会)相同。(A simple random sample of n subjectsfrom a population is one in which each possible sample of that size has thesame probability(change)of being selected
26、.)简单随机抽样通常被简单的成为随机抽样。加上“简单”是为了更好的区别于一些更复杂的抽样设计。简单随机抽样大大降低了样本严重偏差,进而导致错误推断的机会。然而,它确实一种最难实现的抽样方法。这种方法的实施需要一个包含总体所有研究对象的抽样框(sampling frame)。假设你需要以某社区的居民为研究对象,你就需要去街道办事处或当地警察局获得户籍资料,如果你需要研究一个学校的学生,则需要从校方获得花名册。传统意义上,从抽奖箱里抽取中奖号码,掷筛子,甚至扔硬币(假设你的总体只有两个人)都是简单随机抽样的方法实现,而现代研究大都采用计算机生成随机数的方法:1.为抽样框中的全部研究对象编号2.用计
27、算机生成包含这些编号的集合1.6收集数据的途径153.从这个编号集合中抽取样本图 1.3:使用R生成随机数另外,在试验研究中,研究者常使用随机表法。可以想象,即使是警察局,也不可能随时拥有最新最全最准确的户籍信息。对于社会学研究者经常关注的研究对象,比如流动人口和无家可归者,做到简单随机抽样是不可能的。1.6收集数据的途径前文讲到选取样本的方法,社会学研究需要另外考虑的是收集数据的途径。目前三种最主要的数据收集方法为抽样调查、实验研究和观察性研究。1.6.1抽样调查很多研究从总体中抽取样本并对样本中的研究对象进行访谈,这种数据收集的方法称为抽样调查。抽样调查可能是面对面的访谈,可能是电话调查,
28、也可能采取由调查对象自己填写问卷的形式。抽样调查存在着一些可能造成偏差的潜在问题,我们将在后面对这些问题做深入讨论。1.6.2实验研究有些研究的数据是从一个计划周详的实验中获得,社会科学中较多使用这种方法的自然是心理学。大多数实验的目的是比较调查对象当暴16第一章引言露在不同的实验条件时的反应,这些反应由一些结果变量测量。所谓不同的实验条件是我们研究所假定的可能影响结果变量取值的因素。比如,在医学研究中,我们通常关心一种即将上市的新药对某种病是否有治疗效果,这时候的实验条件被称为处理(treatment)。研究对象会被分成实验组(treatment group)和对照组(control gro
29、up),有时还会增加一个安慰剂组(placebo group),参与研究。此时,研究者的力量就显得十分强大,在大多数单盲实验中,实验对象通常并不知道自己是在服用研究药物还是安慰剂,在更严格的双盲实验中,甚至连实施实验的医生都不知道他们给病人服用的是什么。研究者此时就需要一个完善的实验设计(experimentaldesign),将研究对象分组。一个好的实验设计会通过随机化的方法将对象分组,使用的经常是随机数表。1.6.3观察性研究在社会学研究中,我们很少有进行一个严格实验的条件。抛开伦理问题不谈,社会科学研究问题的性质就决定了考虑实验的荒谬性。比如,当研究所关注的是性别、教育水平、或年收入等已
30、既成事实且我们无力改变的因素时,我们就需要选择观察(observe)的方法对结果变量进行记录了。这种数据收集的方法成为观察性研究。研究者对研究对象进行被动的观察,而不做任何干预。大多数抽样调查就属于观察性研究的范畴。1.6.4艰难的因果关系证明即使拥有完美的随机抽样过程,通过观察研究比较不同组别结果变量的区别也是困难的。一个经典的例子,为什么近百年过去了,人们还在不断的研究吸烟或者酗酒和健康之间的关系?因为我们至今我们得到的结果都是被动观察所得到的结论。吸烟的人常会伴有其他特征,如作息不规律、自律性差、或从事艰巨的工作等,如何区分不同特征对健康的影响是极其困难的。科学的核心是建立因果关系,遗憾
31、的是,单纯通过观察研究想要建立因果关系是不可能的。严格来说,只要数据是依靠观察所收集的,所观测数据的形态特征就总可能归因于我们没有观察到的某些变量。相反,实验研究通过随机分组,使可能影响实验结果的其他因素达到了基本平衡。参考文献1 Alan C Acock.Sas,stata,spss:A comparison.alan c.acock.Journal ofMarriage and Family,67(4):10931095,2005.2 Yadolah Dodge.The Oxford dictionary of statistical terms.OxfordUniversity Pres
32、s on Demand,2006.3 Kenneth F Ferraro,Markus H Schafer,and Lindsay R Wilkinson.Child-hood disadvantage and health problems in middle and later life ear-ly imprints on physical health?American Sociological Review,page0003122415619617,2015.4 Eric A Hanushek and John E Jackson.Statistical methods for so
33、cialscientists.Academic Press,2013.5 Matthew O.Hunt.African american,hispanic,and white beliefsabout black/white inequality,1977-2004.American Sociological Review,72(3):390415,2007.6 Freddi Karp.Growing older in America:The health and retirementstudy.National Institute on Aging,National Institutes of Health,USDepartment of Health and Human Services,2007.7 Alain Zuur,Elena N Ieno,and Erik Meesters.A Beginners Guide to R.Springer Science&Business Media,2009.17