Stata课件1-社会科学研究领域的定量分析过程与方法(杨菊华).ppt

上传人:豆**** 文档编号:26618511 上传时间:2022-07-18 格式:PPT 页数:45 大小:629.50KB
返回 下载 相关 举报
Stata课件1-社会科学研究领域的定量分析过程与方法(杨菊华).ppt_第1页
第1页 / 共45页
Stata课件1-社会科学研究领域的定量分析过程与方法(杨菊华).ppt_第2页
第2页 / 共45页
点击查看更多>>
资源描述

《Stata课件1-社会科学研究领域的定量分析过程与方法(杨菊华).ppt》由会员分享,可在线阅读,更多相关《Stata课件1-社会科学研究领域的定量分析过程与方法(杨菊华).ppt(45页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、导论社会科学研究:探究事情的真相,关注事物之间的联系及其原因 同一个体的不同特征之间 不同个体之间 个体与群体之间 个体与社会制度之间合适的理论,科学的方法,合理的步骤有助于有效地发掘事物之间关联的显性和潜在机制一个普遍的问题:理论、方法和与经验材料分析的脱节。原因: 对理论理解的欠缺 对研究方法掌握的不足 对研究过程和方法本身的不了解,等等 目的 勾勒出社会科学(尤其是社会学和人口学研究领域)定量研究过程 探讨在此过程中需要遵循的行为规范 寻求整合研究理论与数据处理的最优途径 演绎法(deduction)和归纳法(induction)演绎法从一般到个别,即从(1)逻辑或理论上预测的模式到(2

2、)观察检验预期的模式是否确实存在;换言之,演绎法是从“为什么”推延到“是否”归纳推理从个别到一般,从一系列特定的观察中,发现一种模型,在一定程度上代表所有给定时间的秩序两种途径的结合可以寻求人们对事物更有力、更完整的理解本章主要内容1.1理论的作用1.2提出问题1.3生成假定1.4收集数据1.5分析数据1.6假定检验1.7分析结果陈述研究过程与方法 研究过程研究过程:探求事物原理和关联时遵从的一系列行为;研研究方法究方法:研究过程实施的手段。方法寓于过程之中,也指导研究过程和步骤的实施。通过这些行为和方法,研究者最终得以回答研究问题 定量研究的5个基本步骤和过程: 提出问题、生成假定、收集数据

3、、分析数据、检验假定 与理论互动,既被理论影响,也验证理论的适应性 理论:科学的逻辑层面 数据:观察层面 检验假定:比较预期的逻辑和实际观察之间的吻合度图图1. 科学研究流程科学研究流程注释:双向箭头表示相互影响,单向箭头表示先后顺序理论人们由实践概括出来的关于自然界和社会的系统结论;对某些特定现象的系统解释对客体概括性的归纳和总结在观察到的现象和概念之间建立一种联系用以解释个体或群体之间两个或多个可观察的属性关系,解释为什么一种现象以一种特殊的方式与另一种现象相关联理论关心的是是什么是什么(what is)和为什么为什么(why)、而不是应该应该(should be)如何。理论不是价值判断,

4、而是对事物之间联系的系统的、言之成理的客观描述、总结和解释理论与方法论关系:车之两轮车之两轮、鸟之双翼鸟之双翼因研究、解释的对象和构建的不同可以分为三个层次:宏观理论,中层理论和微观理论宏观理论(grand theory;total theory;paradigm)社会科学家往往尝试着构建一个完整的理论体系,以便更为精确地解释事物原理和社会生活的一些共性特征,并最终揭示社会客体的本质这样的理论往往着眼于大的社会结构或体制。比如: 马克思的资本理论、辩证唯物主义和历史唯物主义理论 韦伯的官僚体制效率理论 帕森斯的结构功能理论宏观理论难以检验中层理论(middle range theory)Mer

5、ton(1968)提出了介于宏观模式和微观分析框架之间的中层理论 中层理论继承社会学的古典传统,即设想社会学能像物理学那样,建立一些颠扑不破的铁律中层理论虽也涉及抽象概念,但它始于有限的社会现象,且其抽象概念得到可观察到的数据的支持或反证与宏观理论最大的不同之处在于,它有许多并存的小理论,适用于有限的数据,可以解释社会生活多面面现象。比如: 社会流动理论 角色冲突理论 行为失范理论 代际权力转移理论微观理论(conceptual/analytical framework) 即分析框架,以解释日常现象和事件。如:两性收入不公 职业和行业的性别差异、职场的性别分割 男性和女性从事不同的工作。女性工

6、作往往收入较低,声望较差,升迁机会较少;职场的性别分割影响两性职业声望,导致收入差异 在类似的职场中,由于工作类型不同,女性的收入也多低于男性 IT领域:男性为主(职场分割);女性很少能升迁到高层管理部门(职业分割) 两性行业和职业的不同可能是造成收入不公的直接原因 职场分割影响两性收入不公是分析理论。但该理论命题是否正确,只有在经过反复检验和修正后才能确定步骤步骤 I:提出问题:提出问题研究工作的起点是研究问题的提出,包括:研究问题的提出研究内容的确定研究对象的选择研究概念的界定如何提出研究问题 研究问题的好坏直接影响研究的意义和价值,成果去向、用途和影响 研究问题:具有明确的实际意义和(或

7、)学术意义 如何提出新颖且有价值的研究问题? 能否提出问题、提出怎样的问题? 如何弥补资料积累不多、阅历不深的不足呢? 用眼观察,用心感受形形色色的社会现象 从新闻媒体、个体体验和直觉中获得启示 从与他人的交谈中开启思路 从文献的检索中得到灵感,帮助提出合适的研究问题主观问题和客观问题客观问题客观问题,描述客观现象之间的关联(是/否)。比如: 父母的收入水平影响子女的教育程度吗? 限制性的生育政策导致了出生性别比的失衡吗?客观问题不能只靠推理、设想、道德判断等方法来回答;实证研究方法主观问题主观问题,表达个人的价值判断(好/坏)。比如: 城市的生活方式比农村的生活方式更好吗? 男性比女性更适合

8、担任领导工作吗?“更好”、“更适合”:主观成分,不能被直接检验;需要重新定义通过将主观问题客观化,带有个人主观价值判断的问题就演变成对客观事物之间关系的描述了,也成为可经实证检验的科学研究问题了确认研究总体(Population/Universe) 在提出研究问题的过程中,同时也确定了(1)研究目的;(2)研究内容;(3)研究总体 总体:理论上研究要素的特定集合体 以人为研究对象的总体以人为研究对象的总体:社会科学和行为科学领域的主要研究对象是人 人们人们为什么会做出这样的举动,而不是其它举动 为什么有的育龄妇女育龄妇女子女众多,而有的很少,甚至不生孩子 为什么男性男性的收入高于女性女性 全体

9、人群、所有育龄妇女、全体男性和女性 = 总体 以非人为研究对象的总体以非人为研究对象的总体:组织机构、制度、物品等定义概念 概念指物体(如,书本)、行为(如,犯罪)、观点(如,成绩好)或现象(如,年轻),等等 概念化缩小研究范围,使研究更具有可行性和操作性 概念可大可小。有的相对抽象、较为模糊 若是想对某个事情(物)获得一个“思想把手”,从而更清楚地将自己的观点对他人表达出来的话,这样的概念多比较模糊 个体“经济成功”:为什么有些人经济上取得很大成就,而其他人却未能成功 概念也可以是比较具体、容易被观察或体验,比如生育率 不是所有的研究问题或与此相关的概念都与人有关。“大学”、人口的年龄分布、

10、犯罪率、职业机会量化概念 变量:概念的可衡量指标。 概念相对抽象;变量具体、能被观察和衡量;被观察到的特性即属性。比如:将年收入在10万元以上的个体定义为经济成功。“经济成功”=概念,“年收入”=变量,具体的收入水平=属性“大研究机构”:什么是“大”?学生的数量、老师的数量、校园的面积?表表1. “1. “概念、变量、属性概念、变量、属性”之间的关系之间的关系步骤步骤 II:生成假定:生成假定研究背景的回顾理论模型的构建理论假定的生成假定的生成 假定是两个变量之间关系的陈述,也即是未经检验的、对研究问题的回答 假定是尝试性的,尚未经过实证的检验或核实 假定不必是正确的,但必须是可以经过检验的假

11、定不必是正确的,但必须是可以经过检验的 假定关注事物之间的因果关系。例如: 教育程度越高,收入越高 男性的收入高于女性的收入 女性占绝大多数的职业的收入水平低于男性占绝大多数的职业的收入水平因果关系存在的条件 相关关系相关关系二者同变(co-vary)。一个因素的变化必然导致另一个因素的变化。换言之,两个因素之间必须存在直接或间接的逻辑关系,而不是风马牛不相及的。然而,同变(co-variation)虽是因果关系的必要条件,但不是充分条件。因果关系的存在还必须满足以下前提: 时间顺序时间顺序(time order):假定之因必须发生在假定之果之前; 真实关系真实关系(nonspuriousne

12、ss):两个因素之间的关系必须是真实的,不能被其它因素所取代。只有排除因素之间的虚假关系(spuriousness)两个变量之间巧合性的统计关系,实际上是由第三个变量引起的后,才能真正建立两个因素之间的因果关系因果关系的类型 直接因果关系。 一个因素对另一个因素发生直接作用。如父母的收入与子女的教育机会 间接因果关系。一个因素对另一个因素的影响是通过第三个(中间)因素实现的。如温度与犯罪之间的关系 直接和间接因果关系。一个因素通过直接和间接双重路径对另一个因素发生影响。如性别对收入的作用 受到调节的因果关系 虚假的因果关系。一个因素对另一个因素的影响实际上并不存在。相反,这两个因素都是由一个共

13、同因素而决定的假定的类型 假定描述两个变量之间的关系,且通常是因果关系:“是什么引起了什么”。假定的“引起变量”即为自变量,而假定的“被引起变量”为因变量 自变量和因变量之间的关系可以表现为不同的性质正关系正关系:指自变量水平的增加(因)导致因变量相应的增加(果),反之亦然;在正关联中,自变量和因变量的变化的方向一致:负关系负关系:指自变量水平的增加导致因变量相应的降低,反之亦然;在负关联中,自变量和因变量的变化的方向相反 性质不明确性质不明确:有时,在生成假定时,我们并不明确因果的正负方向。但这并不意味着两个变量之间缺乏联系,而只表明,我们不知道他们是如何相关的 步骤三:收集收据步骤三:收集

14、收据省略步骤步骤IV:数据的分析:数据的分析 样本的确定 变量的定义 描述性统计 推断性统计在这个阶段,统计分析在研究过程中扮演十分重要的角色样本(sample)与总体 在提出研究问题的同时,需要认定研究总体 总体与样本 样本不同于总体,但来自于总体,是总体的一部份。比如一位老师想知道大学一年级学生的平均年龄。如何获得相关资料?一位研究生打算检验婚姻市场上“甲女丁男”的现象是否成立。如何获得相关资料? 根据样本得出的特征不一定完全等同于总体特征,但若样本选择恰当、具有代表性的话,其分析结果可能十分接近总体特征,并可推断到全部人群从样本中发现的规律也就是整个人群的特征和规律变量 按因果关系区分:

15、自变量 vs. 因变量 按衡量方式区分:连续变量(continuous variable) 和离散变量(discrete variable) (属性互不相连,完全和排斥的类别) 按存在方式区分:内生变量(endogenous variable)或外生变量(exogenous variable):例如 自变量:按研究问题区分:主要自变量vs. 控制变量变量的内生关联性(endogeneity)I变量的内生关联性之源包括 双向因果关系 遗漏变量偏误(omitted variable bias) 选择性偏误(sample selection bias)以教育与收入的关系为例:其中,y=收入;x1 =

16、 教育水平;x2=其它因素x1与y可能存在内生关联性,因为被忽略的第三者(比如“智力”)可能同时影响教育和收入,即个人的智力同时导致了教育水平的高低和收入的多寡,而不是教育影响收入如果不对内生关联性问题进行处理的话,分析结果可能产生偏误exbxby2211*变量的内生关联性(endogeneity)II 解决自变量与因变量之间内生关联性问题的主要途径:使用工具变量(instrument variable)采用固定效果模型(fixed effect models)局限:在一般的数据中,很难找到“工具变量”;“固定效果模型”也仅仅适用于某些类型的数据 工具变量法: 选定一个与有内生关联的自变量关系

17、密切、却与误差项无直接关系的“工具变量”来预测自变量,并利用预测的数值来预测因变量 “工具变量”的使用有时与“2 stage least squares”(步骤最小方乘)方法相当,虽然后者不全是前者变量的内生关联性(endogeneity)III假如变量Z代表从家里到学校的距离。假定Z与教育水平有关,却与收入无关。因此,到学校的距离越近,教育程度越高,但到学校的距离不会影响收入。于是,首先分析:(阶段)然后,利用预测的数值,预测(阶段)在该公式中, 是预测的。基本原理就是利用变量 Z 随机分布 x1完美的工具变量是试验:将教育水平随机指定到不同个体,再利用随机指定的教育水平预测收入;使用工具变

18、量即是创造一个虚假的试验uZcx*11exbxby2211*1 x描述性方法 通过一系列的程序帮助组织、归纳、总结样本的基本特征 常见的方法包括:频数的分布;均值和标准误差;中数,众数,最大值和最小值;二元或多元交叉表, 二元相关关系;相关系数 描述数据是数据分析的第一步,也是必不可少的一步。帮助研究者熟悉、认识和了解数据的分布特征,变量之间的关系,从而决定是否有必要对数据作进一步的分析处理 局限:研究者无法判断变量之间的关系是否为独立关系描述性的分析结果也不能直接地用于揭示整体人群特征 描述性方法是不够的,必须采用推断性统计分析方法推断性方法 应用概率理论,根据观察到的样本特征预测和推断总体

19、特征 若样本代表全体人群,则总结性的推断也具有很高的可信性,即便不是100%的自信 统计上的重要性检验帮助判断假定关系实际发生的概率 只有推断性方法,才能检验假定是否成立 置信水平:常用的包括90%,95%,99% 置信水平的选定受多种因素的影响,包括样本量的大小。通常情况下,样本量越大,置信水平的要求越高(如,99%)。若数据的样本量较小,置信水平可适当放宽模型的选定 标准? 数据的结构 因变量的属性 一般情况下,虚拟变量:使用binary logistic 模型;连续变量:使用线性模型 图2 不详尽 其它模型问题1:职业与生育关系研究问题2:生育水平决定因素研究问题3:中国家庭经济状况变化

20、的纵向分析问题4:生育政策与妇女地位关系研究问题5:教育与生育关系研究问题6:儿童营养状况(有序衡量)决定因素研究问题7:人口转变与老年贫困关系研究问题8:婚姻状况决定因素分析注释:图中的变量均为因变量,除明确指明的以外。注释:图中的变量均为因变量,除明确指明的以外。步骤步骤 V:检验假定:检验假定检验假定 根据分析结果,评估假定和理论 决定数据与指导整个研究工作的理论框架之间的关系 印证假定,支持理论? 促使研究者反思、修正理论和假定? 假定: 独生子女遭遇肥胖的概率大于非独生子女 典型且合理的理论假定:时间要求和逻辑关系 但模型分析结果可能不支持该理论假定 意料之外的数据规律和趋势:新问题

21、,为什么看似很合理的假定却得不到支持 理论正确? 理论永远不能被证明是正确的,只能“没有被证明是不正确的” 进一步的研究可能发现对理论的真实性提出反驳的证据 通过可以被拒绝的假定检验,社会知识不断积累和增加 若研究设计仔细合理、数据可信、方法得当,则任何分析结果都是有用的 分析结果可能证实现存知识,并因此而给予我们更大的信心去认识和理解事物存在的方式和联系 分析结果可能与过去的或预期的知识相反,促使我们重新审视对事物联系的看法,从而更加接近了解事物之间真正的关联 统计分析是赋予数据意义的主要途径,也是架起理论-研究的桥梁;分析结果帮助研究者评估、重新审视假定和理论,发现意外的规律和趋势,提供修

22、正、更新理论的动力 当分析结果被清晰地表达出来时,具有很强的说服力 但统计分析并不是研究的终结,也不是研究的最终目的 只是整个研究过程中的一个链条,不能取代其他研究步骤 每个环节对研究工作的成功都起到各自独特的、不可替代的作用 统计分析的运用也不能降低研究者对问题判断的重要性 若研究问题模糊不清、概念不明、数据充斥着系统性和随机错误,再科学的分析结果也毫无用途,且可能误导他人统计分析的作用和局限 假定通常涉及到因果关系的存在 在数据分析过程中,若参数估计不显著时,表明理论假定没有得到证实。造成这种现象的原因包括 样本量过小 因变量的变化范围太小 自变量的变异太小 二者之间的关系不是线性的 某些

23、自变量之间线性相关(即关联程度达到0.80以上) 二者之间的确不存在显著的关联当分析结果不支持假定时 例如:儿童营养不良概率 营养不良因其表现形式而分为三类:身高偏矮、体重偏轻、体型偏瘦 每类营养不良因其程度可分为三级:一般性以养不良,中度营养不良、重度营养不良 然而,儿童体型偏瘦的发生率比较少见。以此为因变量的话,则其变化范围太小而难以进行回归分析;即便进行了回归分析,与自变量的关系很可能不显著 如何改善假定关系中变量的相关程度 增加样本量 扩大变量的变异 在方程中减少与主要自变量高度相关的其它变量当分析结果不支持假定时VI 陈述分析结果避免误用分析结果 科学研究的最后一步就是展示研究成果。

24、通过学术论文和(或)研究报告,研究者与他人分享研究的信息、意义与价值 避免有意或无意地误用统计分析结果有的误用不是有意的,而是由于个人的疏忽或知识的欠缺有的误用则是有意的,以引起他人的重视或支持某种观点 社会科学和行为科学缺乏医生行业的“希波克拉底誓约”,但社会科学家必须遵从学术道德规范。有目的地误用数据或分析结果以支持秘密的、见不得人的企图违背了普通的道德行为法则。不幸的是,道德和非道德行为之间往往缺乏清楚地界限以犯罪率的年增长率为例:科学研究是具有明确目的的、对事物之间关系细致、严谨的探索;具有整体性,通过系统的程序和过程来完成每个步骤(问题的提出,假定的生成,数据的收集和分析,假定的检验)只是整个研究链条中不可缺少的一环;每个环节都具有独特的、其它环节无可替代的作用一个好的研究不仅要有好的研究问题和理论设计,也需要有可以信赖的数据、正确的模型和分析方法以及客观准确的分析结果的展示研究步骤的每个环节都需要服从于整体研究思路掌握正确的研究方法,减少错误,少走弯路,产生高质量的研究成果结 语结束结束

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁