《概率统计模型讲座ppt课件.ppt》由会员分享,可在线阅读,更多相关《概率统计模型讲座ppt课件.ppt(91页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、概率统计模型讲座概率统计模型讲座主讲:吕 佳数学与计算机科学学院篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统确定性因素和随机性因素确定性因素和随机性因素随机因素可以忽略随机因素可以忽略随机因素影响可以简单随机因素影响可以简单地以平均值的作用出现地以平均值的作用出现随机因素影响必须考虑随机因素影响必须考虑随机模型随机模型确定性模型确定性模型随机性模型随机性模型篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统一、电梯问题一、电梯问题 有有r r个人在某栋大楼的一楼进入电个人在
2、某栋大楼的一楼进入电梯,大楼共有梯,大楼共有n n层。如果每个乘客在任层。如果每个乘客在任何一层楼出电梯的可能性相同,那么直何一层楼出电梯的可能性相同,那么直到电梯中的人下完为止,电梯平均需要到电梯中的人下完为止,电梯平均需要停多少次?如果在一楼共进入电梯停多少次?如果在一楼共进入电梯1414人,人,而这栋大楼共有而这栋大楼共有2828层高,请用计算机模层高,请用计算机模拟验证你的理论。拟验证你的理论。篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统Matlab Matlab 模拟程序模拟程序 dianti.m:dianti.m:N=
3、5000;%N=5000;%模拟次数模拟次数n=28;%n=28;%电梯层数电梯层数r=14;%r=14;%电梯开始进的人数电梯开始进的人数s=0;s=0;x=zeros(n,1);x=zeros(n,1);for k=1:N%for k=1:N%模拟模拟N N次次 s1=0;s1=0;for i=1:n for i=1:n x(i)=0;x(i)=0;end end for j=1:r%for j=1:r%对每个人是否下电梯进行模拟对每个人是否下电梯进行模拟 i=1+floor i=1+floor(rand(1,1)*n);rand(1,1)*n);x(i)=1;%x(i)=1;%第第i i
4、层有人下层有人下 end end s1=sum(x);%s1=sum(x);%该次模拟中总共要下的人数该次模拟中总共要下的人数 s=s+s1;%s=s+s1;%累加各次模拟中要下的人数累加各次模拟中要下的人数endendeq=s/N%eq=s/N%模拟平均值输出模拟平均值输出ei=n*(1-(1-1/n)r)%ei=n*(1-(1-1/n)r)%理论值输出理论值输出计计算算机机模模拟拟程程序序篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统二、聪明的保险公司二、聪明的保险公司人寿保险问题人寿保险问题3、对这2500个参保对象每人每年至
5、少收取多少保险费才能使公司以不小于0.99的概率每年获利不少于10万元?假设有假设有2500个同一年龄段同一社会阶层的人参个同一年龄段同一社会阶层的人参加某保险公司的人寿保险。根据以前的统计资料,加某保险公司的人寿保险。根据以前的统计资料,在一年里每个人死亡的概率为在一年里每个人死亡的概率为0.0001.每个参加保每个参加保险的人一年付给保险公司险的人一年付给保险公司120元保险费,而在死亡元保险费,而在死亡时其家属从保险公司领取时其家属从保险公司领取20000元,那么,元,那么,1、保险公司有多大可能性亏本?2、有多大可能性保险公司一年获利不少于10万元?篮球比赛是根据运动队在规定的比赛时间
6、里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统4、由于保险公司之间竞争激烈,为了吸引参保者、挤垮对手,保险费还可以降低,比如20元,只要不亏本就行。因此,保险公司将考虑这样的问题:在死亡率和赔偿金不变的情况下,每人每年交给保险公司20元保险费,保险公司至少要吸引多少个参保者才能以不小于0.99的概率不亏本?人寿保险问题人寿保险问题 篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统人寿保险问题的数学模型人寿保险问题的数学模型问题的关键在于,保险公司会面临多少理赔,即会有多少参保者死亡?而这是具有随机性的。可以引
7、入随机变量X来表示参保者中的死亡人数。问题分析容易理解:X是服从二项分布B(n,p)的,其中n为参保总人数,p为死亡概率。根据中心极限定理还可以知道,X近似服从正态分布N(np,npq),可据此解决上述问题。篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统模型构成 用随机变量X表示一年之中死亡的人数,则 XB(2500,0.0001),一年之中有k个人死亡的概率为:根据 E(X)=25000.0001=0.25,D(X)=25000.00010.9999 0.25,由中心极限定理知;XN(0.25,0.52)。篮球比赛是根据运动队在规
8、定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统1、保险公司亏本的概率为:实际上这个值很难计算,改用正态分布计算会方便很多:模型求解2、“一年获利不少于10万元”等价于“X10”篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统3、设x为每人每年所交保险费,“获利不少于10万元”即 2500 x-20000X100000,等价于Xx/8-5.即每人应交给保险公司51.32元保险费。模型求解篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统4、设
9、y为参保人数,X仍为参保死亡人数,那么此时X N(0.0001y,0.00010.9999y),则不亏本的条件变为:20y-20000X0,即Xy/1000.即保险公司至少要吸引671人参加保险。模型求解篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 对于二项分布,当n很大时,可以应用中心极限定理用正态分布近似计算。理论依据德莫佛-拉普拉斯中心极限定理(De Moivre-Laplace)设随机变量设随机变量n(n=1,2,.)服从参数为服从参数为n,p(0p1)的的二项分布,则二项分布,则篮球比赛是根据运动队在规定的比赛时间里得分
10、多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统关于中心极限定理关于中心极限定理 在客观实际中有这样一种随机变量,它们是由大量的相互独立的随机因素的综合影响所形成的。而其中每一个别因素在总的影响中所起的作用都是微小的。这种随机变量往往近似地服从正态分布,这种现象就是中心极限定理的客观背景。篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 正态分布在随机变量的各种分布中,占有特别重要的地位.在某些条件下,即使原来并不服从正态分布的一些独立的随机变量,它们的和的分布,当随机变量的个数无限增加时,也是趋于正态分布的.在概率
11、论里,把研究在什么条件下,大量独立随机变量和的分布以正态分布为极限这一类定理称为中心极限定理.关于中心极限定理关于中心极限定理篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统关于中心极限定理关于中心极限定理 一般说来,如果某些偶然因素对总和的影响是均匀的,微小的,即没有一项起特别突出的作用,那么就可以断定描述这些大量独立的随机因素的总和的随机变量是近似的服从正态分布.这是数理统计中大样本的理论基础,用数学形式来表达就是李雅普诺夫定理.篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型
12、的系统关于中心极限定理关于中心极限定理李雅普诺夫Liapunov定理:设1,2是相互独立的随机变量,有期望及方差篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统关于中心极限定理关于中心极限定理 这个定理的实际意义是:如果一个随机现象由众多的随机因素所引起,每一因素在总的变化里起着不显著的作用,就可以推断,描述这个随机现象的随机变量近似的服从正态分布.由于这些情况很普遍,所以有相当多一类随机变量遵从正态分布,从而正态分布成为概率统计中最重要的分布.篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是
13、一种得分类型的系统三、社会收入分配公平吗?三、社会收入分配公平吗?收入分配问题 收入的差异是反应社会收入分配是否公平的重要指标。一般来说,鼓励自由竞争会扩大收入差异,但是政府可以通过税收政策和对低收入者的补贴来缩小收入的差异。现有30个工人家庭的月收入(元)的数据,从低到高列表如下:篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统编号收入编号收入编号收入11650112020212550217001220802226803180013210023280041820142150242820518301522002528606188016
14、2250262920719001723002730008192018235028322091940192430293580101980202500304010工人家庭月收入表篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 根据以上数据,你能设法描述收入分配的不公平程度吗?来看看洛伦兹(Lorenz)是怎么做的:篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统洛伦兹曲线洛伦兹曲线 把这30个家庭按收入顺序分成相等的5组,然后统计出每组家庭的收入总数以及户数和收入的累积值及百分
15、比累积值,如下表所示:组号户数累积百分比组内收入收入累积收入累积百分比1(16户)20%106801068014.99%2(712户)40%118402252031.61%3(1318户)60%133503587050.35%4(1924户)80%157805165072.50%5(2530户)100%1959071240100%篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统洛伦兹曲线洛伦兹曲线 用横坐标表示户数累积百分比,纵坐标表示收入累积百分比,描点、连线便得到洛伦兹曲线,它是一条向下凸的曲线。如果所有家庭的收入全部相等,则洛伦
16、兹曲线为y=x,这条线称为绝对平等线,所以洛伦兹曲线描述了收入的不平等状况。由于收入是按从小到大的顺序排列的,所以洛伦兹曲线位于直线y=x的下方,它越接近直线y=x,收入就越平均;越向下凸出,则收入分配越不平均。篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统基尼基尼(Gini)系数系数 在洛伦兹曲线的基础上,意大利统计学家基尼于1992年在他发表的有关收入集中指数的研究中提出了基尼系数。篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统评价评价 纵观以上洛伦兹曲线得到的过程,
17、只用到数理统计中极其平常而简单的数据处理的基础知识,但却解决了“收入分配公平程度分析”这样的大问题。由此可见,往往不是我们所学的知识没用,而是我们没有运用知识的意识,没有深入理解知识的本质,也没有抓住问题的本质。而数学建模正是在用数学知识解决问题的过程中把对知识的运用和对问题的挖掘同时发挥到极致!篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统四、生命线越长寿命越长?四、生命线越长寿命越长?有人认为人的寿命与手掌上的“生命线”的长度有关,“生命线”长的人,寿命就长些;“生命线”越短的人,寿命就越短。下表列出了50位自然死亡的人的生存年
18、龄x(单位:年)及“生命线”的长度(单位:厘米)的数据,试检验以上说法是否正确。篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统编号12345678910111213x19404242474950545656575758y9.7599.69.7511.39.4511.397.95128.110.28.55编号14151617181920212223242526x61626265656566666667686868y7.27.958.858.258.859.758.859.1510.29.157.958.859编号27282930313
19、233343536373839x69697071717172737474757575y7.810.110.59.159.459.459.458.18.859.66.459.7510.2编号4041424344454647484950 x7677808282828386888894y68.8599.7510.713.27.957.959.159.759生命线越长寿命越长?生命线越长寿命越长?篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统生命线越长寿命越长?生命线越长寿命越长?问题分析 人的寿命和生命线的长度都是不确定的量,可分别用变量
20、X和Y来描述。数据表实际上提供了X和Y的观测值。要对“生命线”越长寿命越长?这个问题给出是与否的回答,相当与假定:两随机变量Y 和随机变量X有线性依赖的关系。篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统生命线越长寿命越长?生命线越长寿命越长?利用相关系数可以判断两随机变量之间是否存在线性关系。然而,随机变量X和Y的分布都是未知的,无法直接计算其相关系数这一数字特征。但是我们可以从数据即样本观测值来计算相关系数的估计量r.模型建立篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的
21、系统生命线越长寿命越长?生命线越长寿命越长?利用所给数据可以计算出:从而X与Y之间的相关系数的估计值为:篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统生命线越长寿命越长?生命线越长寿命越长?由于所以X与Y之间的线性相关关系是不显著的。篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统相关分析和回归分析相关分析和回归分析 在客观世界中,普遍存在着变量之间的相互关系。数学的重要作用就是从数量上来揭示、表达和分析这些关系。而变量之间的关系分为两类:确定性关系-即我们所熟悉的变量之间
22、的函数关系,如圆的半径R与圆的面积S之间就存在确定的函数关系。非确定性关系-即变量之间虽然有密切的关系,但这种关系却无法用确定的函数关系表达,变量之间的这种非确定性关系,称为相关关系。例如:人的身高和体重的关系;人的血压和年龄的关系,某产品的广告投入与销售额的关系等。篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 具有相关关系的变量虽然不具有确定的函数关系,但是可以借助函数关系来表示它们之间的统计规律。这种近似地表示它们之间的相关关系的函数被称为回归函数。最简单的情形是由两个变量形成的关系。考虑用下列模型表示:但是由于两个变量之间不
23、存在确定的函数关系,因此,必须把随即波动考虑进去,故引入模型如下:相关分析和回归分析相关分析和回归分析篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 回归分析就是根据已得的试验结果以及以往的经验来建立统计模型,并研究变量间的相关关系,建立起变量之间的近似表达式,并由此对相应的变量进行预测和控制。相关分析和回归分析相关分析和回归分析篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 相关分析法和回归分析是研究两个或两个以上变量的相关关系的重要的统计方法。但两者之间又有明显的区别
24、:回归分析回归分析相关分析相关分析研究一个或一组变量(自变量)的变动对另一个变量(因变量)的变动之影响程度。研究变量之间相随变动的程度因变量为随机变量,自变量一般是非随机变量都是随机变量可以进行预测和控制只是度量变量间线性相关的密切程度相关分析和回归分析相关分析和回归分析篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统编号编号123456789脂肪脂肪含量含量%15.417.518.920.021.022.815.817.819.1蛋白蛋白质含质含量量%44.039.241.838.937.438.144.640.739.8试求出试求
25、出 与与 的关系,并判断是否有效。的关系,并判断是否有效。例例 为了研究大豆脂肪含量为了研究大豆脂肪含量 和蛋白质含量和蛋白质含量 的关系,的关系,测定了九种大豆品种籽粒内的脂肪含量和蛋白质含量,测定了九种大豆品种籽粒内的脂肪含量和蛋白质含量,得到如下数据得到如下数据篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统解解 (1 1)描散点图)描散点图 篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统(2 2)建立模型)建立模型 由散点图,设变量由散点图,设变量 与与 为线性相关
26、关系:为线性相关关系:确定回归系数确定回归系数 和和 :编号编号123456789 x15.417.518.920.021.022.815.817.819.1168.3y44.039.241.838.937.438.144.640.739.8364.5x2237.16306.25357.21400441519.84249.64316.84364.813192.75y219361536.641747.241513.211398.761451.611989.161656.491584.0414813.2xy677.6686790.02778785.4868.68704.68724.46760.18
27、6775.02篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统所以,所求的回归方程为所以,所求的回归方程为 篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统(3 3)检验回归方程的有效性)检验回归方程的有效性 查相关系数临界值表查相关系数临界值表 因为因为 所以回归方程在所以回归方程在 的检验水平下有统计意义。的检验水平下有统计意义。即可以认为大豆的蛋白质含量与脂肪含量有线性相关性。即可以认为大豆的蛋白质含量与脂肪含量有线性相关性。篮球比赛是根据运动队在规定的比赛时间里得分多
28、少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统五、你身体的血液总量有多少?五、你身体的血液总量有多少?如何估计一个人体内的血液总量?注射一定量的葡萄糖,采集一定容积的血样,测量注射前后葡萄糖含量的变化,即可估计人体的血液总量。主意采集和测量的时间要选择恰当,使血液中的葡萄糖含量充分均匀,又基本上未被人体吸收。篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统湖中有多少条鱼?湖中有多少条鱼?设湖中有鱼群,现捕出r条鱼,做上记号后放回一段时间后,再从湖中捕起n条鱼,其中有标记的有k条,试据此信息估计湖中鱼的总数N.凭感觉你
29、也能给出回答:上述两个问题本质上是一样的,为什么可以这样做呢?篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统数学解释数学解释我们以捕鱼问题为例给出其数学解释:我们以捕鱼问题为例给出其数学解释:解释一:概率可以用频率来近似估计。篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统数学解释数学解释解释二:极大似然估计理论篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统数学解释数学解释篮球比赛是根据运动队在规定的比赛时间里得
30、分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 抽样调查现在已被广泛应用。它省时省力,能获得较为准确的结果,这一方面是由于方法本身的科学性;但另一方面很重要的一个前提是被调查者的回答必须都是真实的。六、敏感性问题的调查六、敏感性问题的调查篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统敏感问题(敏感问题(sensitive problem)是指涉及)是指涉及个人(或单位)的隐私或利益的问题个人(或单位)的隐私或利益的问题,以及以及大多数人认为不便在公开场合表态或陈述大多数人认为不便在公开场合表态或陈述的问题,在某
31、些情况下,还包括一些违法的问题,在某些情况下,还包括一些违法或犯罪的行为。或犯罪的行为。敏感问题的概念篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 例如:例如:在统计学研究中,经常会遇到一些在统计学研究中,经常会遇到一些不受被调查者欢迎、或感到尴尬的所谓敏不受被调查者欢迎、或感到尴尬的所谓敏感问题:如一群人中参加赌博的比率?吸感问题:如一群人中参加赌博的比率?吸毒人的比率?经营中偷税漏税人的比率?毒人的比率?经营中偷税漏税人的比率?学生中考试作弊的人的比率?婚前有无性学生中考试作弊的人的比率?婚前有无性行为?推销药品是否给回扣?各
32、种类型的行为?推销药品是否给回扣?各种类型的额外消费、公款吃喝、同性恋及类似的为额外消费、公款吃喝、同性恋及类似的为社会所不赞成的各种事件等问题。社会所不赞成的各种事件等问题。篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统敏感问题的分类敏感问题的分类敏感问题的分类 按答案特征可分两大类按答案特征可分两大类p 属性特征敏感属性特征敏感问题问题 也称分类特征敏感问题,它被用于了解被调查者是也称分类特征敏感问题,它被用于了解被调查者是否具有敏感问题的特征,并估计具有敏感问题特征的人在否具有敏感问题的特征,并估计具有敏感问题特征的人在总体中
33、所占比重,例如是否有吸毒行为?是否有婚外情?总体中所占比重,例如是否有吸毒行为?是否有婚外情?p 数量特征敏感数量特征敏感问题问题 数量敏感问题是指被调查者具有敏感问题数额大小的数量敏感问题是指被调查者具有敏感问题数额大小的特征,一般是估计敏感问题数值的均数,也可称为敏感性特征,一般是估计敏感问题数值的均数,也可称为敏感性均值问题,例如均值问题,例如“你有几个婚外性伴侣?你有几个婚外性伴侣?”“你每月的工你每月的工资外收入有多少?资外收入有多少?”篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 这类问题,如果直接调查,被调查者这类问
34、题,如果直接调查,被调查者可能拒绝回答,应答率很低,即使问卷上可能拒绝回答,应答率很低,即使问卷上有答案,但答案是否真实,值得怀疑。所有答案,但答案是否真实,值得怀疑。所以,对于敏感性问题,若采用直接调查的以,对于敏感性问题,若采用直接调查的方法,调查者将难以控制样本信息,得不方法,调查者将难以控制样本信息,得不到可靠的样本数据。到可靠的样本数据。篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 为了得到敏感性问题的可靠的样本数据,必须采取特为了得到敏感性问题的可靠的样本数据,必须采取特殊的科学可行的方法来提高应答率、降低不真实回答率
35、,殊的科学可行的方法来提高应答率、降低不真实回答率,以使调查结果真实可靠。以使调查结果真实可靠。u首先是将保密措施坦诚告诉调查对象,取得理解首先是将保密措施坦诚告诉调查对象,取得理解和信任,调查场所要保证没有他人在场,一般由和信任,调查场所要保证没有他人在场,一般由调查对象自己在调查表上填写;调查对象自己在调查表上填写;u其次需要采取一定的其次需要采取一定的技术技术。敏感问题的调查敏感问题的调查篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 对敏感性问题的调查方案,关键要使被调对敏感性问题的调查方案,关键要使被调查者愿意做出真实回答
36、,又能保守个人秘密。查者愿意做出真实回答,又能保守个人秘密。一旦调查方案设计有误,被调查者就会拒绝配一旦调查方案设计有误,被调查者就会拒绝配合,所得调查数据将会失去真实性。心理学家合,所得调查数据将会失去真实性。心理学家与统计学家为此设计了一种调查方法,一些统与统计学家为此设计了一种调查方法,一些统计分析方法计分析方法随机化回答技术,也应运而生。随机化回答技术,也应运而生。随机化回答技术随机化回答技术(Randomized Response Technique,RRT)篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 是指在调查中使用
37、特定的随机化装置,是指在调查中使用特定的随机化装置,使得被调查者以预定的概率使得被调查者以预定的概率P来回答敏感性来回答敏感性问题。问题。这一技术的宗旨就是最大限度地为被调这一技术的宗旨就是最大限度地为被调查者保守秘密,从而取得被调查者的信任。查者保守秘密,从而取得被调查者的信任。随机化回答技术随机化回答技术比如在调查学生考试作弊的问题中,设计外形完全比如在调查学生考试作弊的问题中,设计外形完全一样的卡片一样的卡片n n张,其中张,其中n n1 1张卡片上写上张卡片上写上“你考试是你考试是否作过弊否作过弊?”?”,n-nn-n1 1张卡片上写上另外的问题。然张卡片上写上另外的问题。然后放在一盒
38、子里。调查时,由被调查者从盒子里任后放在一盒子里。调查时,由被调查者从盒子里任抽一卡片,根据卡片上的问题做出回答,至于卡片抽一卡片,根据卡片上的问题做出回答,至于卡片上具体是什么问题,调查者无权过问。这样就起到上具体是什么问题,调查者无权过问。这样就起到了为被调查者保密的作用。因而相对于直接问答调了为被调查者保密的作用。因而相对于直接问答调查,易于得到被调查者的合作。查,易于得到被调查者的合作。篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 随机化回答技术是由美国社会学家Warner于1965年首先提出并用于敏感问题调查。随机应答技
39、术的类型随机应答技术的类型n沃纳随机化回答模型沃纳随机化回答模型 n西蒙斯模型(西蒙斯模型(Simmons model)篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 沃纳随机化回答模型沃纳随机化回答模型调查模型的调查模型的基本思想基本思想是:是:为为了了调调查查某某个个敏敏感感问问题题,同同时时列列出出两两个个存存在在相相关关关关系系的的问问题题制制成成卡卡片片,被被调调查查者随机抽取卡片进行回答。者随机抽取卡片进行回答。篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统
40、具体的做法是:要调查的敏感性问题,列具体的做法是:要调查的敏感性问题,列出出正反正反两个问题。如调查考试作弊问题,就作两个问题。如调查考试作弊问题,就作成两种卡片:成两种卡片:A、你在考试中作了弊吗?、你在考试中作了弊吗?B、你在考试中没有作弊吗?、你在考试中没有作弊吗?然后由被调查者随机抽取一张来回答然后由被调查者随机抽取一张来回答“是是”或或“否否”,至于卡片上具体是什么问题,调查者至于卡片上具体是什么问题,调查者无权过问。无权过问。因此,调查人员因此,调查人员并并不知道被调查者在不知道被调查者在回答那一个问题,而达到对被调查者个人秘密回答那一个问题,而达到对被调查者个人秘密的的保密作用。
41、保密作用。沃纳随机化回答模型沃纳随机化回答模型篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 要求被要求被调查调查者从中随机抽取一个回答而者从中随机抽取一个回答而调查调查人人员员不知道其具体抽中的是哪一个不知道其具体抽中的是哪一个问题问题,但但问题问题A的比例的比例P是确定的。如果他所抽到的是确定的。如果他所抽到的问题问题与自己情况一致与自己情况一致则则回答回答“是是”,否,否则则回答回答“不是不是”。沃纳随机化回答模型沃纳随机化回答模型篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得
42、分类型的系统沃纳随机化回答模型沃纳随机化回答模型 设设 是具有敏感性特征的人所占的比例,是具有敏感性特征的人所占的比例,p是写有问题是写有问题“你属于你属于A吗吗?”的卡片所占的比的卡片所占的比例。例。如果对如果对n人进行调查,调查结果中有人进行调查,调查结果中有n1个个人回答人回答“是是”,有,有n-n1个人回答个人回答“否否”,统计,统计结果中回答结果中回答“是是”的人的比例的人的比例 =n1/n,对问,对问题题A回答回答“是是”的人数比例为的人数比例为 。于是:。于是:篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统的极大似然估
43、计为:的极大似然估计为:其方差为:其方差为:公式:公式:篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 印度教育当局研究大学生中酗酒的流行程印度教育当局研究大学生中酗酒的流行程度。如果一个学生在调查前的一个月内饮酒至度。如果一个学生在调查前的一个月内饮酒至少少1250毫升,则称他(她)是一个酗酒者。毫升,则称他(她)是一个酗酒者。在这个定义下,从加尔各答市大学生中简在这个定义下,从加尔各答市大学生中简单随机有放回地抽取了若干名大学生,目标是单随机有放回地抽取了若干名大学生,目标是估计加尔各答大学中酗酒者所占的比例估计加尔各答大学中酗
44、酒者所占的比例 。实例:实例:篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 随机抽取了随机抽取了100名大学生,所用随机化装置为一名大学生,所用随机化装置为一装有装有60个卡片的盒子。盒子中有个卡片的盒子。盒子中有45张卡片上写有问张卡片上写有问题题“在上一个月你是否至少饮酒在上一个月你是否至少饮酒1250毫升毫升?”(问题(问题 A),剩余的,剩余的15张卡片上写有问题张卡片上写有问题“在上一个月内你在上一个月内你是否饮酒少于是否饮酒少于1250毫升毫升?”调查时,在没有调查员观察的情况下,被调查者调查时,在没有调查员观察的情况
45、下,被调查者把盒子中的卡片摇匀后从中随机抽取一张,而后根据把盒子中的卡片摇匀后从中随机抽取一张,而后根据所抽到的卡片上的问题如实地回答所抽到的卡片上的问题如实地回答“是是”或或“不是不是”。调查结果为:有调查结果为:有28个人回答了个人回答了“是是”,72个人回答个人回答“不是不是”。写有敏感写有敏感问题问题A的卡片占全部卡片的比例为的卡片占全部卡片的比例为 p=0.75,回答回答“是是”的人数占总人数的比例的人数占总人数的比例 =n1/n=0.28篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统有:n=100,n1=28,p=0.7
46、5,因此有:=0.008145=0.28-0.25/0.5=0.06这样应用第一种统计方法估计对问题一回答这样应用第一种统计方法估计对问题一回答“是是”的比例为:的比例为:6%。标准差的估计值为:。标准差的估计值为:即即0.09。也即有6%的人是酗酒者。根据篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 沃纳的方法虽然比直接提出敏感性问题要好,沃纳的方法虽然比直接提出敏感性问题要好,但所提的两个问题都还具有敏感性。而且,该方法但所提的两个问题都还具有敏感性。而且,该方法中回答中回答A的人数比例不能为的人数比例不能为1/2。1967年
47、西蒙斯对沃年西蒙斯对沃纳模型进行了改进。纳模型进行了改进。西蒙斯模型(西蒙斯模型(Simmons model)他所建立的模型与沃纳模型最大的他所建立的模型与沃纳模型最大的不同点:不同点:在于调查人员提出的随机化问题是两个在于调查人员提出的随机化问题是两个不相关的不相关的问题,其中一个为敏感性问题,另一个为非敏感问题,其中一个为敏感性问题,另一个为非敏感性问题性问题B,这样的处理使被调查者的合作态度进一,这样的处理使被调查者的合作态度进一步提高。步提高。篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统 设样本中对问题设样本中对问题B(无
48、关问题)回答(无关问题)回答“是是”的人数比例为的人数比例为和的含义仍同上。的含义仍同上。西蒙斯模型(西蒙斯模型(Simmons model)对问题对问题A回答回答“是是”的人数比的人数比例例统计结果中回答统计结果中回答“是是”的人的比例,的人的比例,也就是对问题也就是对问题A或或B回答回答“是是”的人数的人数比例比例篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统1.已知的情况已知的情况 设抽样方式是简单随机有放回的设抽样方式是简单随机有放回的是具有敏感性特征是具有敏感性特征A的人所占的比例。的人所占的比例。设总体为设总体为n n的
49、简单随机样本中,有的简单随机样本中,有n n1 1人回答人回答“是是”,则,则,从而得到从而得到则则 的极大似然估计为:的极大似然估计为:(1.2)其方差为:其方差为:西蒙斯模型(西蒙斯模型(Simmons model)篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统实践中,实践中,并不总是已知的,例如对于无关问题并不总是已知的,例如对于无关问题“你你是四月份出生的吗是四月份出生的吗?”我们可以通过查有关资料来获得我们可以通过查有关资料来获得 的值,而对于无关问题的值,而对于无关问题“你喜欢蓝色吗你喜欢蓝色吗?”我们就我们就无法预知无
50、法预知 的值,此时的值,此时 就是未知的。因此有必要就是未知的。因此有必要对对 未知的情况进行讨论。未知的情况进行讨论。篮球比赛是根据运动队在规定的比赛时间里得分多少来决定胜负的,因此,篮球比赛的计时计分系统是一种得分类型的系统2.未知的情况未知的情况敏感性敏感性问题问题占的比例分占的比例分别为别为 和和假假设设总总体体1中回答敏感性中回答敏感性问题问题的人占的比例的人占的比例为为 时时对问题对问题A或或B作出作出“是是”的答复者所占的比例的答复者所占的比例为为假设假设总体总体2中中回答敏感性回答敏感性问题问题的人占的比例的人占的比例为为 对这对这两个两个问题问题作出作出“是是”的答复者的比例