传通通计数据和大数据探究.docx

上传人:安*** 文档编号:16373709 上传时间:2022-05-17 格式:DOCX 页数:10 大小:20.85KB
返回 下载 相关 举报
传通通计数据和大数据探究.docx_第1页
第1页 / 共10页
传通通计数据和大数据探究.docx_第2页
第2页 / 共10页
点击查看更多>>
资源描述

《传通通计数据和大数据探究.docx》由会员分享,可在线阅读,更多相关《传通通计数据和大数据探究.docx(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、传通通计数据和大数据探究从传通通计数据与大数据之间的演变历史、数据特征等方面展开讨论,厘清两者之间存在的千丝万缕但又千差万别的联络,提出传通通计数据是大数据的简单形式和初期阶段,大数据是传通通计数据的复杂演化形态的论断,指出两者在数据分析思维方式上存在宏大差异,并对数据质量管理内涵、全周期数据质量保证等问题提出不同的解决思路和方案。关键词:传通通计数据;大数据;数据分析;数据质量0引言传通通计数据的内涵在于揭示数字背后信息与现实世界的关系。大数据是指巨量数据,是无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。从传通通计数据到大数据的持续演变导致在理论层面大数据内涵复杂,并

2、与传通通计数据在信息界线上概念模糊。从传通通计数据到大数据不仅是量的积累,更是质的飞跃。厘清传通通计数据与大数据之间的内涵辩证关系,是有效利用数据的基础和关键。1传通通计数据向大数据演变的动力信息技术的进步为传通通计数据向大数据演变提供了物质和技术基础。随着互联网的日益发展,每一次网络存储技术的进步都使信息的生产、存储、传输成本大幅度降低,而流通的范围、深度、速度则显著提升。JimGray的新摩尔定理以为,每18个月全球新增信息量是计算机有史以来全部信息量的总和,新摩尔定律以信息量的维度确定了数据化演变信息的节拍。这种趋势导致的基本形态就是数据信息空前丰富,大数据成为了研究和利用热门。信息需求

3、多样化与个性化是传通通计数据向大数据演变的基本动力。数据最终是为信息需求服务的,用户信息价值最大化才是数据应用的关键所在。在数据化趋势下,随着人们认知实践与需求状态的变化,数据一方面从知足基本特定信息需求到利用复杂的数据属性解析出多样化信息需求转变,另一方面从被动知足简单需求到主动开掘复杂有效需求,并探知用户个性化信息需求转变。这两方面成为传通通计数据项大数据内涵演变的基本动力。相应地,数据内涵也从朴素的信息真实业务逻辑向知足复杂需求的数据化逻辑迁移。随着信息技术的发展和用户需求的变化,信息效率价值的实时化及数据泛滥造成数据噪声加强和有效信息稀缺现象,大数据应运而生。传通通计数据是大数据的简单

4、形式和初期阶段,大数据是传通通计数据的复杂演化形态。2传通通计数据与大数据的数据特征差异数据量增加是人们区别传通通计数据与大数据的第一个认识。传通通计数据数据量小,以MB、GB、TB等为存储单位。大数据数据量大,一般以PB、EB、ZB等为存储单位。但这两者之间特征区别并不仅仅是体量,还包括数据类型、研究对象的范围、信息视角等方面。2.1传通通计数据与大数据的数据类型比照传通通计数据是一种构造化的标准数据。其数据类型单一,主要以构造化、体量小、标准化、价值密度高及周期化数值为特征,数据产生和变化的速度慢。其数据特点是朴素真实、简单有限、准确性高及被动有用性。大数据统计范畴扩大、数据类型复杂,其中

5、包括:a非构造化非标准数据,如动态实时时序数据。b半构造化数据和非构造化数据,如文本、图像、视频等。c现有的构造化数据,如传通通计数据。其数据模型具有复杂多维的特征,统计结果多是非准确多种相关性趋势数据。大数据具有4个V基本特征,即Volume体量浩大、Variety模态繁多、Velocity生成快速和Value价值宏大但密度很低,且具有;多样、实时、多元的信息化特点。这些特点导致数据在产生、获取、存储、传输和计算经过中,因体量大、快速多变易产生冲突和不一致,人工很难检测和修复。2.2传通通计数据与大数据的研究对象范围不同传通通计数据的研究对象是宏观视角下有限的随机样本数据。随着信息化的发展,

6、实践中产生大量冗余沉淀数据,这一时期经过清洗的全样本数据是数据挖掘的研究对象。而大数据面对的则是原生态全样本数据,也就是所谓的总体数据。从随机样本数据到经过清洗的全样本数据再到原生态总体数据,数据内涵总体信息视角从宏观向中观和微观扩散。研究对象范围向宽度和深度两个方向不断扩展,不断深化系统微观的多维度个体感悟,信息能力和价值也不断提升。这种转变来自技术和需求的驱动,新型数据处理技术及需求获取能力成为演变的关键因素。3大数据相对传通通计数据分析方式的变革数据中蕴含的珍贵价值成为人们存储和处理数据的驱动力,数据分析是实现数据价值的必要途径。由于传通通计数据与大数据在体量、构造、内涵等方面有着本质的

7、区别,所遵循的数据分析理论基础、分析思路、相关技术也不同。3.1传通通计数据与大数据数据分析的理论基础对传通通计数据进行数据分析的理论基础是分布理论,以概率为保证,即根据样本去推断总体特征,其逻辑关系是“分布理论概率保证总体推断,分析经过是“假设验证基础上的“定性定量再定性。对大数据进行数据分析是以全体数据为基础,以数据信息相关为保证,其逻辑关系是“实际分布总体特征概率判定,能够不受任何假设的限制去寻找关系、发现规律,分析经过是“定量定性及“发现总结重要数量特征和关系基础上的定量回应。3.2传通通计数据与大数据数据的分析思路传通通计数据价值的实现途径为“数据到信息再到知识和智慧。传通通计数据分

8、析着力于经典严密封闭系统的准确性和因果关系的探索,找到事物属性之间的因果关系,比拟容易实现。对于开放复杂的巨系统,传统的因果分析难以奏效,由于系统中各个组成部分之间互相有影响,可能互为因果,因果关系隐藏在整个系统中。因果关系本质上是一种互相纠缠的相关性。大数据数据分析无法检验逻辑上的因果关系,不能致力于寻找真正的原因。Mayer-Sch觟nberger在(大数据时代)一书中指出了大数据时代处理数据理念的三大转变:要全体不要抽样,要效率不要绝对准确,要相关不要因果。因而,大数据分析逻辑体现为走“数据直接到价值的捷径。大数据数据分析关注事物相关性认知分析,所谓相关性是指两个或两个以上变量的取值之间

9、存在某种规律性,即对数量宏大的数据进行统计性的搜索、比拟、聚类、分类等分析归纳。相关分析的目的是找出数据集里隐藏的互相关系网关联网,一般用支持度、可信度、兴趣度等参数反映相关性。3.3传通通计数据与大数据的数据分析处理技术进行数据分析需要相应的数据分析处理技术以及技术人员的全力介入。数据分析领域面临的主要矛盾是快速增长的数据信息需求与有限统计资源和滞后数据处理能力的矛盾。信息技术应用成本的低廉化和性能效率的聚变成为数据需求和质量要求快速增长的基本动力。传通通计数据的分析和处理遵循一般的关系数据库的数据分析和处理技术,技术人员经过一定的训练即可胜任。对大数据进行分析和处理需考虑下面技术因素:a数

10、据清洗。大数据价值密度低、冗余数据增加、垃圾数据泛滥,大数据清洗需要专业和细致。数据不能清洗过细,否则会增加数据清洗复杂度,甚至有可能过滤掉有用信息。数据也不能清洗过粗,要保证数据挑选的效果。b以MapReduce一种编程模型和HadoopApache基金会所开发的分布式系统基础架构为代表的非关系型数据库的非关系型数据分析技术,因其具有良好的横向扩展性,在大数据分析处理中得到广泛应用。c要深化分析数据,数据分析人员既要熟悉数据分析技术和工具,又要具备相关领域的专业知识。4传通通计数据与大数据的数据质量内涵高质量数据是进行数据分析的前提和基础,是数据发挥效能的保证。传通通计数据数据质量以有限信息

11、逻辑的因果性、确定性、明晰且高度的构造化为主要特征,主要关注数据本身本源的质量问题,例如准确性、完好性和客观性。质量标准至少应该包括指标解释含义、范围、口径、数据特征、调查方法、统计误差、获取时间、频率及渠道等方面的内容。大数据以既定边界内总体数据系统相关性的随机、本身的不确定性以及总体的非构造化为特征。由于数据质量问题在大数据环境下会被不断放大,因而,大数据主要关注数据可信与溯源等非数据本源性质量问题,即数据资源产生后在传输、存储和应用经过中产生的突显问题。下面重点从流程和管理两方面分析传通通计数据和大数据所面临的数据质量的挑战及应对措施。4.1从流程视角看数据质量保证从流程的角度即从数据生

12、命周期角度来看,能够将数据生产经过分为数据采集、数据存储和数据使用三个阶段,三个阶段对传通通计数据和大数据的质量保证提出了不同的要求。1数据采集经过中数据质量保证问题数据采集阶段是整个数据生命周期的开场,这个阶段的数据质量对后续阶段的数据质量有着直接的、决定性的影响。传通通计数据数据量小,通过编写简单的匹配程序,甚至是人工查找即可实现多数据源中不一致数据的检测和定位。大数据由于数据;复杂,数据之间存在着冲突、不一致或互相矛盾的现象。因而,需要在数据获取阶段保证数据定义的一致性及元数据定义的统一性,以保证数据质量。2数据存储经过中数据质量保证问题数据存储是实现高水平数据质量的基本保障,假如数据不

13、能被一致、完好、有效的存储,数据质量将无从谈起。传通通计数据以构造化数据为主,主要采用传统的构造化数据存储架构如关系型数据库进行数据的存储。大数据数据构造多样、数量庞大、数据构造复杂、变化速度快,需要使用专门的数据库技术和专用的数据存储设备进行大数据存储,以保证数据存储的有效性,方便对数据进行快速读取。数据库一般采用分布式文件系统和分布式并行数据库如HDFS分布式文件系统、BigTableGoogle设计的分布式数据存储系统等,在数据存储经过中,数据格式的转换非常关键和复杂,要根据大数据构造的要求和特点合理设计数据存储和使用规则。3数据使用经过中数据质量保证问题数据价值的发挥在于对数据的有效分

14、析和应用。传通通计数据的使用需要遵从关系型数据的完好性约束和数据一致性保证技术要求。由于大数据使用人员诸多,数据规模庞大、变化速度快,对数据的处理速度要求较高,很多时候需要同步、不断地对数据进行提取、分析、更新和使用,因而需要保证数据使用的一致性。4.2从管理视角看数据质量保证传通通计数据一般由业务部门负责掌管数据,IT部门负责信息技术的应用,这种分离式的运营管理方式容易造成业务人员不了解分析不同数据所需的不同IT工具,而IT人员在运用IT技术分析数据时不了解数据本身的内涵,甚至会做出错误的数据解释,影响了企业决策的准确性和有效性。为了更好地利用大数据,保证大数据的质量,企业高层管理者应给与重

15、视和支持,需在高层配备专业数据管理人员。在大数据生产经过的任何一个环节,企业都应该配备相应的专业数据管理人员,如由专门人员负责记录定义并记录元数据,收集原始数据,建模、提取并利用隐藏在大数据中的信息。5结束语传通通计数据和大数据是数据科学发展经过中由于技术的发展和客户需求的多样化、个性化而必然出现的数据阶段。由于两者之间关系不清,界线模糊,采集、分析、处理等技术多样,难度大,因而,从业者难免存在模糊认识和畏难情绪。本文从两者的演变历史、数据特征、数据分析和质量管理等方面对两者的异同进行辨析,指出传通通计数据是大数据的简单形式和初期阶段,大数据是传通通计数据的复杂演化形态,大数据从广义上来讲包含了传通通计数据。试图通过对两者的辨析为从业者提供一个辩证和明晰的思路。数据的分析应用无止境,任重而道远。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 文案大全

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁