Bootstrap方法统计数据质量评价研究.docx

上传人:l*** 文档编号:6323448 上传时间:2022-02-01 格式:DOCX 页数:7 大小:31.98KB
返回 下载 相关 举报
Bootstrap方法统计数据质量评价研究.docx_第1页
第1页 / 共7页
Bootstrap方法统计数据质量评价研究.docx_第2页
第2页 / 共7页
点击查看更多>>
资源描述

《Bootstrap方法统计数据质量评价研究.docx》由会员分享,可在线阅读,更多相关《Bootstrap方法统计数据质量评价研究.docx(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Bootstrap方法统计数据质量评价研究摘要:统计的作用在于服务国家宏观决策和人民生产生活,它在反映国民经济和社会进展水平、为党和国家制定正确的决策、预报将来进展趋势等方面发挥着举足轻重的作用。统计数据要实现以上功能,必需保证统计数据高质量。数据作为生产要素,在数据要素市场化过程中,假如不能保证其质量,数据价值不但得不到表达,反而会给使用者带来不良的后果。本文首先介绍了数据质量的概念和Bootstrap方法的基本原理,然后基于Bootstrap抽样并应用统计分布验证方法对统计数据质量进行评估,最终对山西统计局公布的地区国内生产总值数据质量进行验证评估。关键词:数据质量;Bootstrap方法

2、;统计分布毋庸置疑,大数据时代下,数据充分发挥其价值的必备条件是要有高质量数据。2022年1月19日统计局局长宁吉喆在题为“推动统计现代改革中指出:“统计数据作为国家经济进展的晴雨表已经取得了显著的成果,但它发挥的作用还不够充分,还有待开发,数据质量需要进一步提升。统计数据质量的内涵也不再仅仅是精确,大数据背景下,适合的才是最好的,用户需求也是衡量数据质量的一个方面。近年来,科技进展迅猛,新型技术的进展突飞猛进,物联网、人工智能、云计算的进展让人目不暇接,海量的数据纷繁冗杂,如何保证数据的质量,已成为上到国家,下到每一位统计相关者关注的问题,也是我们亟待解决的问题。在此背景下,数据质量评估无疑

3、是保证高质量数据的前提条件。在数据评估讨论方面,祝君仪20226在大数据时代背景下统计数据质量的评估方法及适用性分析一文中分析了目前常用的包括规律规则检验、核算数据重估、计量模型分析、统计分布验证、调查偏差评估、多维评估延长六种评估数据质量的方法,但仅仅是定性分析。成邦文等20012已经证明假如统计指标反映的是经济社会规模如产量、销售收入等,则统计量均趋于对数正态分布,并提出了统计数据质量评估的对数正态分布检验法。本文基于社会规模服从对数正态分布,利用Bootstrap抽样法对统计数据质量进行评估。一、基本概念及理论一统计数据质量对于统计数据质量还没有形成统一公认的定义,随着大数据时代的到来,

4、统计数据质量的内涵从精确性这一个维度扩展到多个维度。衡量数据质量最明显的标准就是数据的精确性,即数据信息精确描述其所代表的真实机构或现象的程度。除了精确性这一特征外,数据的时效性、精确性、完好性、一致性都是数据质量的重要表现。当然在众多的维度中,精确性是摆在数据质量的第一位的,只有数据精确,数据分析结果才有效,管理者据此做出的决策才正确。本文的讨论是基于数据精确性进行讨论。二Bootstrap基本思想Bootstrap是1979年Efron在他的论文<Bootstrapmethods:anotherlookatthejackknife>一文中首次提出,又名拨靴法,Bootstrap

5、方法在现代统计学中应用特别广。Bootstrap方法是一种利用计算机软件实现抽样的方法,其基本原理是基于初始给定样本重复抽样,本文设置1000条抽样路径,故可得到1000个样本,基于所得样本计算讨论者关怀的统计量,在抽样次数足够大条件下很简单得到统计量的分布图。Bootstrap抽样的优点在于不需要事先对总体分布进行假设,依据中心极限定理,在样本量足够大条件下,样本统计量会无限靠近总体分布。三评估步骤步骤1:假定为初始样本,利用Matlab中Bootstrap函数从今样本中有放回抽取m个样本,本文规定m=1000。步骤2:依据1中抽样结果,计算各自样本统计量,具体利用Matlab中mean函数

6、计算均值统计量,即可得到1000个样本均值;步骤3:基于2中计算结果,调用log函数计算统计量的对数值;步骤4:利用QQ图及单一样本Kolmogorov-Smirnov检验3中结果是否服从正态分布,假如是,说明统计量服从对数正态分布,统计数据质量符合要求,否则,统计数据误差大,需要修正。二、数据收集与实证讨论一数据收集本文以山西省2000-2022年地区生产总值为讨论对象,对其进行数据质量评估。表1是山西省2000-2022年地区生产总值。二验证对数正态分布利用Bootstrp方法对2000-2022年山西省地区生产总值进行可放回的重复抽样1000次,进而得到1000个Bootstrap样本,

7、然后依据每一个样本计算对应的均值,从而得到1000个样本均值,接着计算样本均值对数,然后通过spss绘制其对应的直方图,如图1所示。从图1可以直观的看出,统计量的对数服从正态分布,从图中只是很形象的观看出统计量对数的分布,要想进一步证明其为正态分布,还需要进行统计检验。本文使用Q-Q图检验和K-S检验两种方法对统计量对数进行正态性检验。1Q-Q图又名分位数图,通过比较实际观测数据分位数与正态分布分位数是否一致来检验数据的正态性。具体是通过做散点图,观测两列数据的分位数是否分布在参考直线上,假如是,说明被检验数据服从正态分布,否则非正态。通过SPSS中Q-Q图功能对样本统计量对数进行检验,结果如

8、图2所示,从Q-QPlot中,各点几乎全部落在参考直线上,说明被检验数据服从正态分布。2K-S检验。在利用Bootstrp方法得到1000个样本均值对数后,为了检验样本均值对数的分布,提出原假设和备择假设,原假设为样本均值对数服从正态分布,备择假设为样本均值对数不服从正态分布。通过SPSS中的非参数检验K-S方法进行检验,输出结果如表2,从表里可以看出,K-S检验中,Kolmogorov-SmirnovZ值为0.022,P值双侧=0.2,在给定显著性水平=0.05条件下,明显P>,所以接受原假设,说明样本均值对数服从正态分布。结语本文讨论新时代统计数据质量评价方法,利用对数正态分布来评估

9、数据质量,鉴于讨论数据分布需要足够的样本容量,然而现实数据无法满足此要求,故采纳Bootstrap重抽样方法解决两者间矛盾。通过以山西省2000-2022年地区生产总值为讨论对象,验证采纳Bootstrap方法构造的统计量是否服从对数正态分布推断真实数据的数据质量,通过检验,结果说明山西省2000-2022年地区生产总值统计数据质量可靠。参考文献1宁吉喆.推动统计现代化改革R/OL.20220119.2成邦文.讨论与开发机构统计数据质量与异样点的对数正态分布检验与识别J.统计讨论,20001:4245.3EfronBradley.Bootstrapmethods:anotherlookatth

10、ejackknifeJ.TheAnnalsofStatistics,19791.4白永昕,闫懋博,基于Bootstrap方法的多维统计数据质量评估J.统计与决策,202211:59.5宗威,吴峰.大数据时代下数据质量的挑战J.西安交通大学学报社会科学版,20225:3843.6祝君仪.大数据时代背景下统计数据质量的评估方法及适用性分析J.中国市场,202229:4142.7王华.政府统计数据质量的用户满意度测评基于多层次模糊综合评价的实证讨论J.商业经济与管理,20225:6270 张会清 单位:晋中信息学院本文来源:网络收集与整理,如有侵权,请联系作者删除,谢谢!第7页 共7页第 7 页 共 7 页第 7 页 共 7 页第 7 页 共 7 页第 7 页 共 7 页第 7 页 共 7 页第 7 页 共 7 页第 7 页 共 7 页第 7 页 共 7 页第 7 页 共 7 页第 7 页 共 7 页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 工作计划

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁