《大数据时代统计学重构分析.docx》由会员分享,可在线阅读,更多相关《大数据时代统计学重构分析.docx(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据时代统计学重构分析摘要:基于大数据特征,统计学的抽样理论和总体理论的存在价值、统计方法的重构及统计结果评价标准的重建等成为统计学理论面临解决的首要问题.为适应大数据时代的发展,分析了大数据时代传通通计学所面临的机遇与挑战,对传通通计学的继承、发展和完善,重构大数据时代新的统计理论有其重要意义.关键词:大数据;统计学;数据分析;抽样理论;理论重构随着信息科学技术的高速度发展,现代获取和储存数据信息的能力不断加强而成本不断下降,这为大数据的应用提供了必要的技术环境和可能.应用大数据技术的优势愈来愈明显,它的应用能够帮助人类获取真正有价值的数据信息.近年来,专家学者有关大数据技术问题进行了大量
2、的研究工作1,很多领域也都遭到了大数据分析的影响.这个时代将大数据称为将来的石油,它必将对这个时代和将来的社会经济以及科学技术的发展产生深远的意义和影响.目前对于大数据概念,主要是从数据;和数据的处理工具与处理难度方面考虑,但国内外专家学者各有各的观点,并没有给出一致的准确定义.麦肯锡全球数据分析研究所指出大数据是数据集的大小超越了典型数据库工具集合、存储、管理和分析能力的数据集,大数据被Gartner定义为极端信息管理和处理一个或多个维度的传统信息技术问题23.目前得到专家们认可的一种观点,即:“超大规模是GB级数据,“海量是TB级数据,而“大数据是PB及其以上级别数据2.一些研究学者把大数
3、据特征进行概括,称其具有数据规模宏大、类型多样、可利用价值密度低和处理速度快等特征,同时十分强调大数据区别于其他概念的最重要特征是快速动态变化的数据和构成流式数据.大数据技术发展所面临的问题是数据存储、数据处理和数据分析、数据显示和数据安全等.大数据的数据量大、多样性、复杂性及实时性等特点,使得数据存储环境有了很大变化45,而大部分传统的统计方法只合适分析单个计算机存储的数据,这些问题无疑增加了数据处理和整合的困难.数据分析是大数据处理的核心经过,同时它也给传通通计学带来了宏大的挑战6.产生大数据的数据源通常情况下具有高速度性和实时性,所以要求数据处理和分析系统也要有快速度和实时性特点,而传通
4、通计分析方法通常不具备快速和实时等特点.基于大数据的特点,传统的数据统计理论已经不能适应大数据分析与研究的范畴,传通通计学面临着宏大的机遇与挑战,然而为了适应大数据这一新的研究对象,传通通计学必须进行改良,以继续和更好的服务于人类.目前国内外将大数据和统计学相结合的研究文献并不多.本文对大数据时代这一特定环境背景,统计学的抽样理论和总体理论的存在价值、统计方法的重构及统计结果的评价标准的重建等问题进行分析与研究.1传统意义下的统计学广泛的统计学包括三个类型的统计方法:处理大量随机现象的统计方法,比方概率论与数理统计方法.处理非随机非概率的描绘统计方法,如指数编制、社会调查等方法.处理和特定学科
5、相关联的特殊方法,如经济统计方法、环境科学统计方法等7.受收集、处理数据的工具和能力的限制,人们几乎不可能收集到全部的数据信息,因而传统的统计学理论和方法基本上都是在样本上进行的.或者即便能够得到所有数据,但从实际角度出发,因所需成本过大,也会放弃搜集全部数据.然而,选择最佳的抽样方法和统计分析方法,也只能最大程度复原总体一个特定方面或某些方面的特征.事实上我们所发觉到的数据特征也只是总体大量特征中的一小部分,更多的其他特征尚待开掘.总之,传通通计学是建立在抽样理论基础上,以点带面的统计分析方法,强调因果关系的统计分析结果,推断所测对象的总体本质的一门科学,是通过搜集、整理和分析研究数据进而探
6、索数据内部存在规律的一门科学.2统计学是大数据分析的核心数的产生基于三个要素,分别是数、量和计量单位.在用数来表示事物的特征并采用了科学的计量单位后,就产生了真正意义上的数据,即有根据的数.科学数据是基于科学设计,通过使用观察和测量获得的数据,认知自然现象和社会现象的变化规律,或者用来检验已经存在的理论假设,由此得到了具有实际意义和理论意义的数据.从数据中获得科学数据的理论,即统计学理论.科学数据是通过统计学理论获得的,而统计学理论是为获得科学数据而产生的一门科学.若讲数据是传达事物特征的准确语言,进行科学研究的必备条件,认知世界的重要工具,那么大数据分析就是让数据最大限度地发挥功能,充分表达
7、并有效知足不同需求的基本要求.基于统计学的发展史及在数据分析中的作用,完成将数据转化为知识、挖掘数据内在规律、通过数据发现并解决实际问题、预测可能发生的结果等是研究大数据的任务,而这必然离不开统计学.以大数据为研究对象,通过数据挖掘、提取、分析等手段探索现象内在本质的数据科学必须在继承或改良统计学理论的基础上产生.统计数据的发展变化经历了一系列经过,从只能收集到少量的数据到尽量多地收集数据,到科学利用样本数据,再到综合利用各类数据,以致于发展到今天的选择使用大数据的经过.而统计分析为了适应数据可观察集的不断增大,也经历了相应的各个不同阶段,产生了统计分组法、大量观察法、归纳推断法、综合指标法、
8、模型方程法和数据挖掘法等分析方法,并且借助计算机以及其他软件的程度也越来越深.300多年来,随着数据量以指数速度的不断增长,统计学围绕怎样搜集、整理和分析数据而展开,合理构建了应用方法体系,帮助各个学科解决了很多复杂问题.如今进入了大数据时代,统计学照旧是数据分析的灵魂,大数据分析是数据科学赋予统计学的新任务.对于统计学而言,来自现代的数据科学挑战有可能促使新思想、新方法和新技术产生,这一挑战也意味着对于统计学理论将面临宏大的机遇.3统计学在大数据时代下必须改革传通通计学是通过对总体进行抽样来搜索数据,对样本数据进行整理、分析、描绘等,进而推断所测对象的总体本质,甚至预测总体将来的一门综合性学
9、科.从研究对象到统计结果的评判标准都是离不开样本的抽取,完全不能适应大数据的4V特点,所以统计学为适应大数据技术的发展,必须进行改革.从学科发展角度出发,大数据对海量数据进行存储、整合、处理和分析,能够看成是一种新的数据分析方法.数据关系的内在本质决定了大数据和统计学之间必然存在联络,大数据对统计学的发展提出了挑战,体如今大样本标准的调整、样本选取标准和形式的重新确定、统计软件有待升级和开发及本质性统计方法的大数据化.但是也提供了一个机遇,体如今统计质量的提高、统计成本的下降、统计学作用领域的扩大、统计学科体系的延伸以及统计学家地位的提升7.3.1大数据时代抽样和总体理论存在价值传通通计学中的
10、样本数据来自总体,而总体是客观存在的全体,能够通过观测到的或经过抽样而得到的数据来认知总体.但是在大数据时代,不再是随机样本,而是全部的数据,还需要假定一个看不见摸不着的总体吗?假如将大数据看成一个高维度的大样本集合,针对样本大的问题,根据传通通计学的方法,能够采用抽样的方法来减少样本容量,并且能够到达需要的精度;对于维度高的问题,能够采取对变量进行选择、降维、压缩、分解等方法来降低数据的复杂程度.但实际上很难做得到,大数据涵盖多学科领域、多源、混合的数据,各学科之间的数据融合,学科边界模糊,各范畴的数据集相互重叠,合成一体,而且大数据涉及到各种数据类型.因而想要通过抽样而使数据量到达传通通计
11、学的统计分析能力范围是一件相当困难或是一件不可能的事.大量的构造数据和非构造数据交织在一起,系统首先要认清哪个是有价值的信息,哪个是噪声,以及哪些不同类型的数据信息来自于同一个地址的数据源,等等,传统的统计学是无法做到的.在大数据时代下,能否需要打破传统意义的抽样理论、总体及样本等概念和关系,是假设“样本=总体,还是“样本趋近于总体,还是不再使用总体和样本这两个概念,而重新定义一个更适宜的概念,等等.人们该如何“安排抽样、总体及样本等理论,或人们该如何修正抽样、总体、样本的“公理化定义,这个问题是大数据时代下,传通通计学面临改良的首要问题.3.2统计方法在大数据时代下的重构问题在大数据时代下,
12、传统的高维度表达、构造描绘和群体行为分析方法已经不能准确表达大数据在异构性、交互性、时效性、突发性等方面的特点,传统的“假设-模型-检验的统计方法遭到了质疑,而且从“数据到“数据的统计形式还没有真正建立,急迫需要一个新的理论体系来指引,进而建立新的分析模型.去除数据噪声、挑选有价值的数据、整合不同类型的数据、快速对数据做出分析并得出分析结果等一系列问题都有待于研究.大数据分析涉及到三个维度,即时间维度、空间维度和数据本身的维度,如何才能全面、深化地分析大数据的复杂性与特性,把握大数据的不确定性,构建高效的大数据计算模型,变成了大数据分析的突破口.科学数据的演变是一个从简单到复杂的各种形式不断丰
13、富、互相包涵的经过,是一个循序渐进的经过,而不是简单的由一种形式取代另一种形式.研究科学数据的统计学理论也是一样,也是由简单到复杂的各种形式互相包涵、不断丰富的发展经过,而绝不是完全否认一种理论、由另一种理论形式所代替.大数据时代的到来统计学理论必需要进行不断的完善和发展,以适应呈指数增长的数据量的大数据分析的需要.3.3怎样构建大数据时代下统计结果的评价标准框架大数据时代下,统计分析评价的标准又该怎样变化?传通通计分析的评价标准有两个方面,一是可靠性评价,二是有效性评价,然而这两种评价标准都因抽样而生.可靠性评价是指用样本去推断总体有多大的把握程度,一般用概率来衡量.可靠性评价有时表现为置信
14、水平,有时表现为显著性水平8.怎么确定显著性水平一直是个存在争议的问题,十分是在模型拟合度评价和假设检验中,由于各自参照的分布类型不一样,其统计量就不一样,显著性评价的临界值也就不一样,可是临界值又与显著性水平的高低直接相关.而大数据在一定程度上是全体数据,因而不存在以样本推断总体的问题,那么在这种情况下,置信水平、可靠性问题怎么确定?根据是什么?有效性评价指的是真实性,即为误差的大小,它与准确性、准确性有关.通常准确性是指观察值与真实值的吻合程度,一般是无法衡量的,而准确性用抽样分布的标准差来衡量.显然,准确性是针对样本数据而言的,也就是讲样本数据有准确性问题,同时也有准确性问题.抽样误差和
15、非抽样误差都可能存在于样本数据中,抽样误差能够计算和控制,但是非抽样误差只能通过各种方式加以识别或判定910.大多数情况下,对于样本量不是太大的样本,非抽样误差能够得到较好的防备,然而对于大数据的全体数据而言,没有抽样误差问题,只要非抽样误差问题,也就是讲大数据的真实性只表现为准确性.但是由于大数据特有的种种特性,使得大数据的非抽样误差很难进行防备、控制,也很难对其进行准确性评价.总之,对于大数据分析来讲,有些统计分析理论能否还有意义,确切讲有哪些统计学中的理论能够适用于大数据分析,而哪些统计学中的理论需要改良,哪些统计学中的理论已不再适用于大数据统计研究,等等,都有待于研究.所以大数据时代的统计学必是在继承中求改良,改良中求发展,重构适应大数据时代的新统计学理论.来自于社会各种数据源的数据量呈指数增长,大数据对社会发展的推动力呈指数效应,大数据已是生命活动的主要承载者.一个新事物的出现,必然导致传统观念和传统技术的变革.对传通通计学来讲,大数据时代的到来无疑是一个挑战,固然传通通计学必须做出改变,但是占据主导地位的仍然会是统计学,它会引领人类合理分析利用大数据资源.大数据给统计学带来了机遇和挑战,统计学家们应该积极学习新事物,适应新环境,努力为大数据时代创造出新的统计方法,扩大统计学的应用范围.