《敏感问题Simmons 模型的( 分层) 整群抽样研.pdf》由会员分享,可在线阅读,更多相关《敏感问题Simmons 模型的( 分层) 整群抽样研.pdf(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、*国家自然科学基金资助项目(编号 30571620)敏感问题 Simmons 模型的(分层)整群抽样研究*苏州大学公共卫生学院卫生统计与流行病学教研室(215123)高 歌 范玉波 =提 要 目的 为敏感性问题提供科学的较复杂抽样调查方法及其统计量的计算公式。方法 Cochran W.G.的抽样理论及给出的抽样研究结果,随机应答技术的 Simmons模型,全概率公式,方差的基本性质等理论与方法被利用。结果 推导出二分类敏感问题随机应答技术 Simmons 模型在整群抽样、分层整群抽样下总体比例的估计量及其估计方差的计算公式,并对相应的调查方法与技术进行了科学的设计。结论 本文提供的敏感问题 S
2、immons 模型下整群抽样、分层整群抽样的方法信度较高,值得推广应用。=关键词 敏感问题 Simmons模型 分层整群抽样 总体比例的估计 估计方差 所谓敏感性问题是指高度私人机密性或大多数人认为不便在公开场合表态及陈述的问题,例如吸毒、赌博、卖淫、酒后驾驶、个人收入、逃税、婚前性行为、性病、艾滋病、同性恋倾向等。敏感性问题按总体的特征可分为属性特征的敏感性问题和数量特征的敏感性问题两类,属性特征的敏感性问题又可进一步分为二项选择(两分类)敏感性问题和多项选择(多分类)敏感性问题。对于敏感性问题的调查,若采用直接提问的方式,被调查者为了保护自己的隐私或出于其他目的,往往会拒绝回答或故意说谎,
3、使调查结果产生偏倚。为了防止偏倚,随机应答技术(randomized response tech-nique,简记为 RRT)被认为是最能有效保护被调查者隐私,提高其真实回答率的一种方法112。目前国内外对敏感问题RRT 的抽样调查设计研究,只局限于简单随机抽样,实际应用也主要局限于小范围特殊人群小样本的简单随机抽样,或将敏感问题RRT 的复杂抽样方法调查资料误用 RRT 简单随机抽样调查的有关公式来统计分析,而且也极少对敏感问题RRT 抽样调查的信度与效度进行评价。本文对二分类敏感问题随机应答技术 Simmons模型下较复杂的整群抽样、分层整群抽样调查方法进行了设计;推导出二分类敏感问题随机
4、应答技术 Sim-mons 模型在整群抽样、分层整群抽样下总体比例的估计量及其估计方差的计算公式;并结合苏州大学学生婚前性行为的调查实例,对二分类敏感问题随机应答技术 Simmons模型的整群抽样、分层整群抽样取得了成功的应用效果。调查方法11Simmons模型的随机应答技术Simmons 模型是 1967 年由学者 Simmons 等提出122。该模型需设计一随机化装置,例如:一口袋中放置若干个大小、重量、触感完全相同的红球和白球。在没有旁人在场时,每个被抽中的人有放回地从袋中随机抽出一球;抽到红球时,针对敏感性问题 A:/你具有特性 A 吗?0,回答/是0或/否0;抽到白球时,针对非敏感性
5、问题 B:/你具有特性 B 吗?0,回答/是0或/否0。该模型中设计了两个无关联问题 A 和 B,故又称两个无关联问题的 RRT 模型。21Simmons模型的整群抽样方法整群抽样的优点是抽样框要求简单,调查单位比较集中,调查工作的组织和进行比较方便,调查每个基本单元的费用降低,使得同样的费用可调查更多的基本单元;一般认为其缺点是调查单位在总体中的分布不均匀,抽样误差较大。作为一种经济实用、实施方便的抽样方法,在医学调查中被广泛应用。Simmons 模型的整群抽样可分为三个步骤:第一步将总体划分为群(一级单元),各群由二级单元组成;第二步以群为抽样单元,从总体中随机抽取一部分群;第三步对抽中群
6、的全部二级单元采用 Simmons 模型的随机应答技术进行二分类敏感问题的调查。31Simmons模型的分层整群抽样方法分层抽样的主要优点是减少抽样误差。Simmons模型的分层整群抽样可分为四个步骤:第一步将总体根据某项或某几项特征划分成若干层;第二步将各层划分为群(一级单元),各群由二级单元组成;第三步以群为抽样单元,分别从各层随机抽取一部分群;第四步对抽中群的全部个体采用 Simmons 模型的随机应答技术进行二分类敏感问题的调查。公式推导11Simmons模型的整群抽样(1)总体比例的估计量及其估计方差假定总体划分成 N 个群,第 i 个群包含Mi个二级单元。随机抽取 n 个群,调查得
7、第 i 个群有ai个二级单#562#中国卫生统计 2008 年 12 月第 25 卷第6 期元具有特性 A。假设第 i(i=1,2,n)个群具有特性 A 的比例为 Pi,总体比例为 P。当群的大小相等时当各群包含的二级单元数均等于 M 时,CochranW.G.给出整群抽样总体比例 P的估计量为132:P=1nMEni=1ai=1nEni=1aiM=1nEni=1Pi(1)统计量 P的方差的估计量是13 2:v(P)=1-fn(n-1)Eni=1(Pi-P)2(2)其中 f=nM/(NM)=n/N 是抽样比。当群的大小不相等时当各群包含的二级单元数不等时,Cochran W.G.给出整群抽样总
8、体比例 P的估计量为13 2:P=Eni=1aiEni=1Mi(3)统计量 P的估计方差为132:v(P)=1-fnM2Eni=1a2i-2PEni=1aiMi+P2Eni=1M2in-1(4)其中 M=Eni=1Mi/n 是样本中每群包含的平均二级单元数,f=Eni=1MiENi=1Mi是抽样比。在实际场合可使用下面较简单的均方误差13 2:MSE(P)=1-fnM2Eni=1M2i(Pi-P)2n-1(5)(2)Pi、ai的计算公式事先设置要回答敏感问题的红球所占的比例假定为 P,第 i 群具有无关非敏感问题B 的个体所占的比例Ri已知或通过专门调查获得。用 Ki表示第i 群调查对象回答/
9、是0 的比例,Pi表示第 i 群调查对象中敏感问题A 的发生比例。根据全概率公式可得142:Ki=Pi#P+(1-P)Ri则有:Pi=Ki-(1-P)RiP(6)于是:ai=MiPi21Simmons模型的分层整群抽样假定总体划分成 L 层,第 h 层包含Nh个群(一级单元),h 层第i 群包含Mih个二级单元,总体共包含N个二级单元。从h 层随机抽取nh个群,调查得第 i 个群有 aih个二级单元具有特性A。(1)h 层内各群的大小相等时 h 层总体比例的估计及其估计方差假定 h 层各群的大小均等于Mh(各层间群的大小可不相等),按式(1)h 层整群抽样总体比例 Ph的估计量为:Ph=1nh
10、Enhi=1Pih(7)由(2)式得 h 层 Ph的方差的估计量:v(Ph)=1-fhnh(nh-1)Enhi=1(Pih-Ph)2(8)fh是h 层的抽样比。总体比例的估计及估计方差总体比例的估计量为132:P=ELh=1NhMhPhN=ELi=1WhPh(9)其中 Wh=NhMh/N 是按二级单元计算的h 层的相对大小。因各层的样本是独立的,对(9)式根据方差的基本性质有152:v(P)=ELh=1W2hv(Ph),又因此种情况下 v(Ph)的估计量为(8)式,则得估计方差:v(P)=ELh=1W2hv(Ph)=ELh=1W2h1-fnnh(nh-1)Enhi=1(Pih-Ph)2(10)
11、Pih的计算公式h 层第i 群具有无关非敏感问题B 的二级单元所占的比例Rih已知或通过专门调查获得。用 Kih表示h层第i 群调查对象回答/是0的比例,Pih表示h层第i 群调查对象中敏感问题的发生比例。根据全概率公式可得142(h=1,2,L;i=1,2,nh):Pih=Kih-(1-P)RihP(11)(2)各层各群的大小不相等时 h 层总体比例的估计量及其估计方差当各层各群的大小不相等时,由(3)式得 h 层总体比例的估计量为:Ph=Enhi=1aihEnhi=1Mih(12)由(4)式得 h 层 Ph的估计方差为:v(Ph)=1-fhnhM2hEnhi=1a2ih-2PhEnhi=1
12、aihMih+P2hEnhi=1M2ihnh-1(13)由(5)式得 h 层 Ph的较简单形式的估计方差:#563#Chinese Journal of Health Statistics,Dec 2008,Vol.25,No.6MSE(Ph)=1-fhnhM2hEnhi=1M2ih(Pih-P2h)nh-1(14)总体比例的估计量及其估计方差按(9)式总体比例的估计量为:P=ELh=1ENhi=1MihPhN=ELh=1W2hPh(15)其中 Wh=ENhi=1Mih/N 是按二级单位计算的h 层的相对大小。因各层的样本是独立的,对(15)式根据方差的基本性质有152:v(P)=ELh=1W
13、2hv(Ph),又因 v(Ph)的估计量为(13)式,则得估计方差:v(P)=ELh=1W2h1-fhnhM2hEnhi=1a2ih-2PhEnhi=1aihMih+P2hEnhi=1M2ihnh-1(16)若代入形式较简单的 Ph的均方误差,有:v(P)=ELi=1W2h1-fhnhM2hEnhi=1Mih(Pih-Ph)2nh-1(17)Pih、aih的计算公式Pih按(11)式计算,h 层第i 群具有特性A 的二级单元数 aih=MihPih。应用实例以 2007 年苏州大学新校区全体在校学生为调查总体,划分为本科生(1 层)、研究生(2 层)两个层,本科生共 9689 人,研究生共 1
14、890 人,得 W1=9689/(9689+1890)=0184,W2=0116。以班为群,使用大班拆小班、小班并大班的做法,使各层内各班学生数近似相等。采用 Simmons模型的分层整群抽样(各层内即为整群抽样),分别随机抽取本科班 20 个共 1080 人、研究生班 18 个共 818 人,总计 38 个班 1898 人。设置一随机化装置:一口袋中放置大小、重量、触感完全相同的6 个红球和 4 个白球。在没有旁人在场时,每个被抽中的学生有放回地从袋中随机抽出一球;抽到红球时,回答敏感问题:/你是否有过婚前性行为?0,抽到白球时,回答非敏感问题:/你是男生吗?0,只需回答/是0或/否0,每人
15、重复调查 2 次,总计调查 3796 人次。各层各班男生的比例 Rih在调查时由调查员清点获得。本次调查问卷回收率达 100%,无漏填项目,回收问卷的合格率达 100%。用 Excel 2003 建立数据库录入数据,对所有资料进行手工及计算机纠错,数据分析通过SAS 9113 完成。11 各班婚前性行为发生率的调查计算结果Simmons 模型分层整群抽样重复 2 次调查苏州大学新校区 38 个班学生婚前性行为数据,按(11)式计算得:20 个本科班第一次调查的婚前性行为发生率Pi1(i=1,2,20)及第二次调查的婚前性行为发生率 Pi1c(i=1,2,20);18个研究生班第一次调查的婚前性
16、行为发生率 Pi2(i=1,2,18)及第二次调查的婚前性行为发生率 P ci2(i=1,2,18)。结果见表 1。表 1 Simmons 模型分层整群抽样重复 2 次调查苏大 38 个班学生婚前性行为结果本科班编号Pi1Pi1c研究生班编号Pi2Pi2c10.26240.227010.23480.234820.16310.127720.22960.192630.21010.246430.24030.240340.20630.246040.21480.252250.15560.192650.20410.262460.23900.215160.20000.233370.17830.217170.
17、22700.262480.19700.197080.22700.191590.04760.007990.22960.2667100.12240.0884100.26390.2292110.04550.0076110.24110.2766120.11850.1185120.22920.2639130.09030.1273130.23400.1986140.27270.2348140.23810.1984150.18840.1884150.42220.3852160.14390.1439160.22640.2264170.17460.1349170.28030.2045180.15940.1957
18、180.28030.2202190.19840.1587200.19260.1556 21 各层婚前性行为发生率的估计及其估计方差以第一次调查的数据,按(7)式计算得本科生婚前性行为发生率的估计值为:P1=1n1En1i=1Pi1=120(012624+011631+,+011926)=011683按(8)式计算得 P1的估计方差为:v(P1)=1-f1n1(n1-1)En1i=1(Pi1-P1)2=1-1080/968920(20-1)(012624-011683)2+(011631-011683)2+,+(011926-011683)2=010002以第一次调查的数据,按(7)式计算得研究
19、生婚前性行为发生率的估计值为:P2=1n2En2i=1Ki2-(1-P)Ri2P=118(012348+012296+,+012803)=012457按(8)式计算得 P2的估计方差为:#564#中国卫生统计 2008 年 12 月第 25 卷第6 期v(P2)=1-f2n2(n2-1)En2i=1(Pi2-P2)2=1-818/189018(18-1)(012348-012457)2+(012296-012457)2+,+(012803-012457)2=01000131 苏州大学新校区学生婚前性行为发生率的估计及其估计方差按(9)式苏州大学新校区学生婚前性行为发生率的估计值为:P=ELh=
20、1Wh#Ph=W1P1+W2P2=0184 011683+0116 012457=011807由(10)式得 P的估计方差为:v(P)=ELh=1W2h#v(Ph)=W21#v(P1)+W22#v(P2)=01842 010002+01162 010001=010001由此,可得总体比例的 95%可信区间为:P?1196 v(P)=011954?1196 010001=011758 01215041 调查的信度评价将38 个班重复两次调查计算的比例数据进行平方根反正弦变换,对变换后的数据进行相关分析,Pearson 积差相关系数 r=0188429,P K nearest neighbors;
21、Over-sampling;Imba-lanced;Medical datasets;Machine learning参 考 文 献11 陈继彬,刘磊,车宜平,等.北京市某社区老年人 6 种慢性病发病状况分析.中国预防医学杂志,2007,8(3):267-268.21 张琦,吴斌,王柏.非平衡数据训练方法概述.计算机科学,2005,32(10):181-186.31Batista Geapa,Prati RC,Monard MC.A Study of the Behavior of Sever-al Methods for Balancing Machine Learning T rainin
22、g Data.Chicago,IL,USA,SIGKDD Explorations,2004,6(1):20-29.41Barandela R,Sanchez J,Garcia V,et al.Strategies for learning in classimbalance problems.Pattern Recognition,2003,36:849-851.51Huang KZ,Yang HQ,King I,et al.Learning Classifiers from Imba-lanced Data Based on Biased Minimax Probability Machi
23、ne.Proceedingsof the IEEE Computer Society Conference on Computer Vision andPattern Recognition,2004.61Laurikkala J.Improving Identification of Difficult Small Classes by Ba-lancing Class Distribution.Tech.Rep.A-2001-2,University of Tam-pere,2001.71Chawla NV,Bowyer,KW,Hall LO,et al.SMOTE:Synthetic M
24、inorityOver-sampling Technique,2002,16:321-357.81Randall Wilson,Tony R.Martinez.Improved Heterogeneous DistanceFunctions.Journal of Artificial Intelligence Research,1997,6:1-34.91Nonnemaker JE.The safe use of synthetic data in classification.ProgramProposal for Ph.D.in Computer Science,2006.101Wu G.
25、Class-Bo undary Alignment for Imbalanced Dataset Learning.In:ICML-KDD.2003 Workshop:Learning from Imbalanced Data Sets,2003.(上接第 565 页)The Research of Stratified Cluster Sampling on Simmons Modelfor Sensitive Question Survey Gao Ge,Fan Yubo.Public HealthSchool of Soochow University(215123),Jiangsu =
26、Abstract Objective T o explore scientific sampling methodsand corresponding formulas for sensitive question survey on the complicatedsample method.Methods Cochran W.G.s classic sampling theories,Simmons model,total probability formulas and properties of variance wereused in this paper.Results Formul
27、as for the estimate of the populationproportion and its variance on Simmons model in cluster sampling and strat-ified cluster sampling were deduced.Our survey methods and formulas onSimmons model may have an extensive application for sensitive question sur-vey at Soochow University.Conclusion Our su
28、rvey methods and formu-las on Simmons model in cluster sampling and stratified cluster sampling arereliable.=Key words Sensitive question;Simmons model;Stratifiedcluster sampling;Estimate of population proportion;Estimatedvariance参 考 文 献11 李鲁主编.社会医学.第 3 版.北京:人民卫生出版社,2007,86、87.21 王建华主编.实用医学科研方法.北京:人
29、民卫生出版社,2003,444、445、446、449、450.31Cochran W.G.抽样技术.张尧庭,吴辉译.北京:中国统计出版社,1987,93-95、432、491.41 苏良军.高等数理统计.北京:北京大学出版社,2007,3.51 王岩,隋思涟,王爱青.数理统计与 MATLAB 工程数据分析.北京:清华大学出版社,2006,10、11.61Gerty JLM,Lensvelt-M ulders JJH,Peter GM,Cora JMM.Meta-Analysisof Randomized Response Research:Thirty-Five Years of Validation.So-ciological Methods&Research,2004,33:319-348.#569#Chinese Journal of Health Statistics,Dec 2008,Vol.25,No.6