《拓展阅读1:大数据是什么.pdf》由会员分享,可在线阅读,更多相关《拓展阅读1:大数据是什么.pdf(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据是什么? “大数据”一词时下的热门程度无需赘言,这一两年来互联网相关的任何活 动、会议必不可少“大数据”板块。 对于任何一个大数据的从业者或初接触者,或许都会有个共同的感触:大数 据很有用!大数据该怎么用? 关于大数据的著作和文章铺天盖地,似乎也共同在传递一个信息:越来越多 的行业、人士开始关注并实际探索大数据的应用,我们正在一起描绘着大数据巨 大效用的蓝图,但在实践的路上,我们都还在起步阶段小步前行。 大数据根基于互联网,数据仓库、数据挖掘、云计算等互联网技术的发展为 大数据的应用奠定了基础。然而实践应用尚处于在探索中前进。同样作为探索学 习,我想从我个人的理解角度,分享并与大家探讨四
2、个问题:大数据是什么?大 数据可以做什么?大数据实际做了什么?大数据要怎么做? 首先,大数据是什么? 引用 3 个比较常用的大数据定义: (1)需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海 量、高增长率和多样化的信息资产。 Gartner (2) 海量的数据规模 (Volume) 、 快速的数据流转和动态的数据体系 (Velocity) 、 多样的数据类型(Variety)、巨大的数据价值(Value)。 IDC (3)或称巨量数据、海量数据、大资料,指所涉及的数据量规模巨大到无法通 过人工, 在合理时间内达到截取、 管理、 处理、 并整理成为人类所能解读的信息。 Wiki
3、 其他关于大数据的定义也大抵类似, 我们可以用几个关键词对大数据做一个 界定。 首先,“规模大”,这种规模可以从两个维度来衡量,一是从时间序列累积 大量的数据,二是在深度上更加细化的数据。 其次,“多样化”,可以是不同的数据格式,如文字、图片、视频等,可以 是不同的数据类别,如人口数据,经济数据等,还可以有不同的数据来源,如互 联网、传感器等。 第三, “动态化” 。 数据是不停地变化的, 可以随着时间快速增加大量数据, 也可以是在空间上不断移动变化的数据。 这三个关键词对大数据从形象上做了界定。 但还需要一个关键能力,就是“处理速度快”。如果这么大规模、多样化又 动态变化的数据有了,但需要很
4、长的时间去处理分析,那不叫大数据。从另一个 角度,要实现这些数据快速处理,靠人工肯定是没办法实现的,因此,需要借助 于机器实现。 最终,我们借助机器,通过对这些数据进行快速的处理分析,获取想要的信 息或者应用的整套体系,才能称为大数据。 我们可以用下面的图示给大数据定义: 对大数据概念有了界定后,那大数据可以做什么呢? 想要应用大数据,从流程上来说,大概是这样。 首先我们要有数据源,然后对数据进行收集和存储,在这基础上,再进行分 析和应用,形成我们的产品和服务,而产品和服务也会产生新的数据,这些新数 据会循环进入我们的流程中。 当这整个循环体系成为一个智能化的体系,通过机器可以实现自动化,那也
5、 许就会成为一种新的模式,不管是商业的,或者是其他。 然后具体到实际的应用中,我认为,大数据能够实现的应用,可以概括为两 个方向,一是精准化定制,二是预测。 首先,精准化定制。 主要是针对供需两方的,获取需方的个性化需求,帮助供方定准定位目标, 然后依据需求提供产品,最终实现供需双方的最佳匹配。 具体应用举例,也可以归纳为三类。 一是个性化产品,比如智能化的搜索引擎,搜索同样的内容,每个人的结果 都不同。或者是一些定制化的新闻服务,或者是网游等。 第二种是精准营销,现在已经比较常见的互联网营销,百度的推广,淘宝的 网页推广等,或者是基于地理位置的信息推送,当我到达某个地方,会自动推送 周边的消
6、费设施等。 第三种是选址定位,包括零售店面的选址,或者是公共基础设施的选址。 这些全都是通过对用户需求的大数据分析, 然后供方提供相对定制化的服务。 应用的第二个方向,预测。 预测主要是围绕目标对象,基于它过去、未来的一些相关因素和数据分析, 从而提前做出预警,或者是实时动态的优化。 从具体的应用上,也大概可以分为三类。 一是决策支持类的,小到企业的运营决策,证券投资决策,医疗行业的临床 诊疗支持,以及电子政务等。 二是风险预警类的,比如疫情预测,日常健康管理的疾病预测,设备设施的 运营维护,公共安全,以及金融业的信用风险管理等。 第三种是实时优化类的,比如智能线路规划,实时定价等。 以上呢,
7、是各种文献资料里,对于大数据可以用来做什么的一些畅想,事实上也 许大数据可以做的事情,可以扩展到方方面面。 但是,我们再看现实中,大数据实际应用到了什么程度呢? 我认为, 目前大数据真正实现了商业化的应用, 只有一种, 就是互联网营销。 其他我们前面列举的方向,会有些初步的应用,但基本都还停留在探索的阶 段。比如疫情预测,无抵押信用贷款等,对于准确性、精细度、可推广性等方面 还有待推敲。 造成大数据实际应用与目标蓝图之间差距的主要原因是什么, 我认为是数据 源的问题。 你必须先获得数据,然后才能应用数据。 因此, 数据的可获取性, 成为大数据在具体行业应用性评价的一个重要维度。 可以从数据的标
8、准化、开放性和集中度几个维度衡量数据可获取性 同时,获取了数据之后,在应用数据方面,可以从大数据应用的潜在价值维 度来衡量,包括效率的提升、成本降低或者是新模式的产生。 此外,还可以从大数据行业应用的可复制/推广性的角度来衡量,不仅包括 在本行业内的推广,同时也包括跨行业的推广性。 从三个维度,我个人对大数据在各行业应用的可能性做了一个定位,但这个 定位还是非常定性和粗略的, 具体可能还需要对行业有更多的大数据应用的探讨 和探索。 对于专门从事大数据应用的企业来说,大数据要怎么做? 我认为可以从两个维度发展,首先一个重点任务就是要累积数据,以自身拥 有的互联网数据及大数据技术两个资源为基础,从一些细分应用切入,比如可以 先从企业角度,继而扩展到行业甚至跨行业的角度,从细分应用先有一些产品的 产出, 这会成为获取更多数据的入口, 同时也为大数据更广应用提供了方向借鉴。 但还有一点,对于平台型的互联网企业,在确定与哪些企业或者行业数据结 合、 应用大数据时, 可以有一些筛选条件, 比如, 是不是发挥了平台属性, 另外, 这种应用是不是具有可复制或推广性,不是只局限于某一个企业内,至少是可以 应用到整个行业中的。