统计学第一次作业解答.pdf

上传人:asd****56 文档编号:74065846 上传时间:2023-02-24 格式:PDF 页数:20 大小:293.25KB
返回 下载 相关 举报
统计学第一次作业解答.pdf_第1页
第1页 / 共20页
统计学第一次作业解答.pdf_第2页
第2页 / 共20页
点击查看更多>>
资源描述

《统计学第一次作业解答.pdf》由会员分享,可在线阅读,更多相关《统计学第一次作业解答.pdf(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、统计学作业解答(2014)第一次作业第一章1.14 这是一个开放的题目,使用能描述商业环境的变量来对城市进行排名。1.27(a)n=50,min=3.3max=8.9 选择组距为 1,从 3 开始的直方图:103218241240102030Percent2468Rate(b)茎叶图:3*356794*01224566667789995*0134568896*0234555668997*1346778*59(c)两图的分组方法是相同的,表现的分布也相同,茎叶图能保留原始数据,而直方图可以更灵活一些。对小比量的数据,茎叶图有其优势。1.29(a)豪华车的颜色分布条形图:graph hbar(su

2、m)LuxuryPercent,over(Color)blabel(bar)graph hbar(sum)LuxuryPercent,over(Color)blabel(bar)6141116751272205101520sum of LuxuryPercentYellowGoldWhitePearlWhiteSilverRedOtherGrayBlueBlack (b)中等价格车的颜色分布条形图:4482510141213100510152025sum of IntermediatePercentYellowGoldWhitePearlWhiteSilverRedOtherGrayBlueB

3、lack (c)两类车颜色分布的比较条形图:graph hbar(sum)LuxuryPercent(sum)IntermediatePercent,over(Color)blabel(bar)graph hbar(sum)LuxuryPercent(sum)IntermediatePercent,over(Color)blabel(bar)464148112516107145121213710220510152025YellowGoldWhitePearlWhiteSilverRedOtherGrayBlueBlacksum of LuxuryPercentsum of Intermedia

4、tePercent1.61 (a)n=100,min=3338 max=66667 使用组距为 2000,从 3000 开始的直方图:3015165671252 2121 11210102030Percent020000400006000080000Value数据强烈右偏,并有若干极端值。(b)根据数据特点,采用五数来概括其分布ValuePercentiles Smallest1%3348.5 33385%3507.5 335910%3586.5 3401Obs10025%45893471SumofWgt.10050%7558.5 Mean 12143.95 LargestStd.Dev.12

5、421.4875%13416 5308690%25583.559007 Variance 1.54e+0895%34996 59031 Skewness2.4940599%62849 66667 Kurtosis 9.650954用箱线图来识别极端值:020,00040,00060,00080,000Value(c)数据的分布高度右偏,有 7 个大的极端值。从直方图看,大部分公司的品牌价值在 30 亿到 150 亿美元之间,有 79 家,30 家公司品牌价值在 30 亿到50 亿之间;有 12 家公司品牌价值在 200 亿左右,5 家公司品牌价值在近 300 亿,500 亿以上有 4 家公司。

6、1.62(a)n=86,min=0.4%,max=6.5%选组距为 0.5 12233312132010203040Frequency0246PercentAlcohol从以上直方图看出,有一个极端值 0.4%,酒精含量非常低的品牌,概括统计采用五数概括更合适。0.4,4.3,4.7,5,6.5LeUMinQMQMax(b)此极端值为酒精含量只有 0.4%的啤酒品牌,显然其销售的目标群体为有喝啤酒的习惯但有不能摄入酒精的小部分消费群体。1.63(a)包含极端值:mean=4.759302,median=4.7 不包含极端值:mean=4.810588,median=4.7由此可看到,极端值的去

7、除,使均值增加了,而中位数不变,说明均值对极端值是不耐抗的。(b)包含极端值:.7523106,4.03LUsdQQ,5 不包含极端值:.5863575,4.04LUsdQQ,5当极端值去除后,标准差显著变小,而四分位数变化很小或没有变化(c)从此练习中可获悉,均值和标准差对极端值的存在非常敏感,而极端值的存在对中位数和四分位数影响很小。1.64(a)概括统计如下:CaloriesPercentilesSmallest1%70705%96 9410%102 95 Obs8625%113 95 SumofWgt.8650%145.5 Mean141.0581 LargestStd.Dev.27.

8、7913975%157 19590%171 200 Variance772.361395%188 200 Skewness.087986699%210 210 Kurtosis2.785831 以上概括统计说明,卡路里数据的分布呈轻微左偏,数据中心在 145 附近,分散程度适中。(b)上题中的极端值,即酒精含量为 0.4%的品牌,其卡路里数量也是最低的,为 70.,但从上面的描述统计看,它在卡路里数量上虽然是最小值,但不是极端值,因为 1131.5*(157113)=473507.5&Value|t|95%Conf.Interval Total 8.0035e+09 15 533569423

9、Root MSE =867.91 Adj R-squared=0.9986 Residual 10545767.6 14 753269.111 R-squared =0.9987 Model 7.9930e+09 1 7.9930e+09 Prob F =0.0000 F(1,14)=10611.08 Source SS df MS Number of obs=16拟合优度 Rsquared 为 0.9987,说明 20072008 年度的工资能解释 20082009 年度工资变化的 99.87%。2.139(a)以上结果得到的最小二乘回归线为:00089.9815917 5403.704*3

10、salarysalary7 08(b)残差图:rvpplotSalary2007to2008-2000-1000010002000Residuals80000100000120000140000160000Salary2007to2008残差图整体上在 0 上下随机分布,没有表现出明显的模式,说明线性回归方程对两变量之间关系的描述是合适的,没有明显的极端值和有影响的值。2.140(a)(b)计算工资增长的百分数:gengrowth=100*(Salary2008to2009Salary2007to2008)/Salary2007to2008)散点图:1234568000010000012000

11、0140000160000Salary2007to2008growthFitted values由上图知,工资增长百分数与基年工资之间的关系:形式:近似线性;方向:负向;强度:适中(c)残差图:-2-1012Residuals80000100000120000140000160000Salary2007to2008残差图没有反映出明显的极端值和有影响的值,残差随机分散在 0 直线的周围,没有明显的变化模式,说明回归方程可以很好描述两变量之间的关系。(d)最小二乘回归的结果为:_cons 8.853558 .9714134 9.11 0.000 6.770084 10.93703Salary20

12、07to2008 -.0000504 8.58e-06 -5.87 0.000 -.0000688 -.000032 growth Coef.Std.Err.t P|t|95%Conf.Interval Total 29.6044473 15 1.97362982 Root MSE =.78161 Adj R-squared=0.6905 Residual 8.55276149 14 .610911535 R-squared =0.7111 Model 21.0516858 1 21.0516858 Prob F =0.0000 F(1,14)=34.46 Source SS df MS Nu

13、mber of obs=16估计的斜率系数为负(0.0000504),统计上显著,说明基年的工资越小,下年度工资的增长率会越高。数据提供了充分证据支持,对较低工资的教授会给予较大的工资增长。2.142(a)散点图:15202530510152025SmokeEverydayFruitVeg5Fitted values每天吃五种以上水果和蔬菜的人口比例与每天吸烟人的比例存在明显的负向关系,这是可预见的。吃五种以上水果和蔬菜的人是非常关注身体健康的,往往不会有吸烟等影响健康的行为,因此前者比例高,后者比例会较低。(b)相关系数:SmokeEveryy -0.4798 1.0000 FruitVeg

14、5 1.0000 FruitV5 SmokeEy相关系数为0.4798(c)犹他州用红色三角点表示twoway(scatter FruitVeg5 SmokeEveryday if FruitVeg5!=22.1)(lfit FruitVeg5 SmokeEveryday)(scatter FruitVeg5 SmokeEveryday if FruitVeg5=22.1,mcolor(red)msymbol(triangle)twoway(scatter FruitVeg5 SmokeEveryday if FruitVeg5!=22.1)(lfit FruitVeg5 SmokeEvery

15、day)(scatter FruitVeg5 SmokeEveryday if FruitVeg5=22.1,mcolor(red)msymbol(triangle)15202530FruitVeg5510152025SmokeEverydayFruitVeg5Fitted valuesFruitVeg5由上图可知,犹他州点是整个散点图中最左边的点,说明其每天吸烟的人口比例最低。(d)加州用红色三角点表示15202530FruitVeg5510152025SmokeEverydayFruitVeg5Fitted valuesFruitVeg5上图显示,加州是全美国每天吸烟人口比例第二低的州,且

16、每天吃五种以上水果和蔬菜的人口比例比较高。(e)2.143(a)(b)散点图与拟合线20253035404515202530FruitVeg5EdCollegeFitted values数据的整体模式:形式:线性;方向:正向;强度:比较强回归直线能够比较好的反映两变量之间的关系,点比较均匀分散在回归直线的周围,尽管随着自变量的增加,点对直线的偏离程度在加大。(c)选择二个州,一是受大学教育人口比例最低的州:WestVirginia,该州是密西西比河以东地势最高的一个州,全州都在阿帕拉契山系境内,无平原,75%的土地被森林覆盖,因而有“山岳之州”之称;一是每天吃五种以上水果和蔬菜的人口比例最高的

17、州:Vermont,佛蒙特州是新英格兰地区的一部分,全州约 77%的面积是森林,其他的是草地、高原、湖泊、池塘和藻泽湿地。牛奶工业是佛蒙特州最大的农业收入来源。佛蒙特州的奶制品被出口到全世界。佛蒙特州美丽的自然和宽容的气氛吸引了许多自由思想主义者、独一无二的公司和小工业。旅游业、许多夏季宿营地、家具制造业和滑雪是佛蒙特州财政来源的重要方面。202530354045EdCollege15202530FruitVeg5EdCollegeFitted valuesEdCollege(d)仅凭观察数据不能得出两变量之间存在因果关系,因为可能存在影响两变量的潜变量,如州的富裕程度和产业结构等2.148(a)group=1 时67891012345xyFitted values (b)group=2 时1415161718678910 xyFitted values(c)所有数据合并51015200246810 xyFitted values(d)51015200246810 xyFitted valuesyFitted valuesFitted values此练习说明,回归中的 Simpson 悖论,分组数据得到的回归结果,即变量之间的关系,与将数据合并后进行的回归结果相矛盾。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁