《大数据时代电子商务的挑战与机遇研究毕业论文.doc》由会员分享,可在线阅读,更多相关《大数据时代电子商务的挑战与机遇研究毕业论文.doc(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 . 目 录摘要1AbstractII第1章绪论11.1选题背景与意义11.2电子商务的发展现状21.3我国电子商务的发展阶段31.3.1电子商务的PC互联时代31.3.2电子商务的移动互联时代41.3.3电子商务的大数据时代41.4研究方法与主要研究容5第2章电子商务的大数据时代62.1电子商务大数据时代概述62.2电子商务大数据时代的特点82.2.1数据量大82.2.2数据类型多样92.2.3数据处理速度快102.2.4数据价值密度低102.3电子商务大数据时代的SWOT分析112.3.1优势分析112.3.2劣势分析122.3.3机会分析122.3.4威胁分析132.4电子商务大数据时代
2、的发展前景13第3章电子商务大数据时代面对的问题与挑战163.1 企业对大数据的认知程度163.2竞争情报系统的数据处理能力173.3竞争情报体系组织模式183.4相应的问题解决方案分析18第4章电子商务大数据时代的机遇204.1重构精准营销模式204.2大数据时代电商IT基础设施的变革224.3大数据处理模式224.4信息检索服务的强大性244.5处理能力快速性254.6数据分析的精准性254.7信息的安全服务25第5章阿里巴巴电子商务大数据时代实证分析275.1阿里大数据信息采集与推送275.2阿里大数据战略发展历程285.2.1数据产品战略285.2.2数据平台战略285.3阿里大数据战
3、略存在的安全隐患与解决对策29结束语30致31参考文献3230 / 32第1章 绪论1.1选题背景与意义根据IDC机构的定义,“大数据”是指为了更经济、更有效地从高频率、大容量、不同结构类型的数据中获取有价值的信息而设计的新一代架构技术,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展创新。十年之前,电影天下无贼中的经典对白“21世纪什么最贵?人才”被人们争相传颂;十年之后,这个问题的答案与时俱进地变为当前市场热点数据!当然,此数据已非传统意义的数据,而是海量、爆发式增长的“大数据”。作为继云计算、物联网之后IT产业的又一次颠覆性技术浪潮,大数据被人们视为智慧城市的源泉
4、、精准营销的根基,其与传统BI究竟有何区别?未来企业应该如何挖掘海量数据背后的潜在价值?自2009年以来,从IBM、甲骨文到谷歌、亚马逊、Face book,从IDC、Gartner到麦肯锡、普华永道、埃森哲,从纽约时报到福布斯、财富周刊,从科学、自然杂志到MIT斯隆管理评论产业巨头的实践探索、连篇累牍的新闻报道,令“大数据”概念深入人心。顾名思义,“大数据”的精髓在于“大”,其不仅说明数据的数量庞大,还意味着数据种类繁多、结构复杂,变化速度飞快。大数据呈现三种特性:Volume(极多的数据量)、Velocity(极快的处理速度)、Variety(极繁的数据种类)。Volume指的是数据量庞大
5、。如今有许多企业已面临单日数据量以数十、数百TB(万亿字节,1TB=1024GB)的速度增加,而近几年累加的总数据量也达到了PB(1000个TB)甚至EB(一百万个TB)等级,这样的数据量令传统的数据库不堪重负。Velocity指企业数据增加的速度越来越快。诸如移动“大数据”成就“智慧营销”产业聚焦EstateFocus、社交网络的广泛应用,使得数据增加的速度比传统的应用程式快了很多,而在数据迅猛增生的背后,处理、分析的能力和速度必须紧跟其后加以完善。Variety则是指数据的多样性、复杂性。一方面,互联网在产生文字资讯的同时,也不断产出与以往不同的数据:照片、视频、微博等;另一方面,IT遍与
6、工作生活的每个角落,各种各样的传感器、监控器也不断产生新的数据,各种机器资讯数据的形式日趋复杂多样,从结构化数据到非结构化数据不断转化,催生了对大数据技术的强烈需求。当前,从搜索引擎、社交网络的普与,到“人手一机”的智能移动终端应用,全球互联网上的信息总量正以每年30%50%的增速不断爆涨。人们每天在Facebook分享几亿条容,在Twitter转发15TB信息,在淘宝浏览十亿条店铺、商品,创造上亿的成交、收藏纪录与3000多万条传感器资讯IDC发布的数字宇宙研究报告显示,2011年全球创造的信息数量达到1800EB,如果把这些数据刻录到CD碟片中,这些碟片可环绕地球30圈。而目前这个数字还在
7、以每年50%的速度增长,到2020年,全球每年产生的数字信息将达到40ZB(1ZB=1024EB),估计是地球上所有沙粒数量的57倍。“在大数据时代,信息将呈爆发式增长,而数据价值密度非常低,找到有价值的数据如同大海捞针,通过怎样的产品平台和方式提炼数据价值,是关乎公共事业发展和企业生存的大计,值得大家从战略角度去思索”在2012年百度世界营销分论坛上,百度商业产品与技术执行总监子斌关于“大数据”时代的见解,赢得了产业界的广泛认同。1.2电子商务的发展现状随着电子商务的发展,企业开始应用“虚拟购物”手段在众多购物场所开展逼近现实的市场研究,以期借助电脑系统在信息处理方面的优势,用灵活、科学的方
8、法去观察和分析消费行为,加速市场研究过程。根据哈佛商学院研究人员对多种产品销售的分析。“虚拟购物”能获得较为可靠、准确的市场信息,其记录数据与实际购物数据之间的相关系数大多在90%以上。由此看来,“虚拟购物”能够克服传统市场研究手段的缺点,对企业营销大有裨益。但电子商务对营销的影响并不局限在市场研究的围。互联网是一个国际性的开放系统,企业一旦涉足其中,就要面对世界各国的潜在顾客即访问者,于是自觉或不觉地成为进行国际营销的国际性企业。这就促使企业特别是以往针对本地市场的中小企业去考虑更为复杂的营销战略问题。根据目前对“在线购物”所进行的研究,企业与顾客在互联网上的交易一般是起源于顾客对企业或产品
9、、服务的寻找,即对互联网上相关企业或产品、服务信息的浏览或访问。这与以往市场交易的起始方向似正相反,从而带来营销与相应经营规则的重大改变:其一,根据顾客的访问信息,企业可以更明确地界定潜在市场。营销的重点,是最大限度地令访问者成为消费者,该项工作也可望因企业在互联网上对多媒体展示容的巧妙运用而达到很高的成功率;其二,在顾客对企业的访问过程中,双方在互联网上必然产生交互作用,企业因此与时获得顾客对其产品、服务的信息反馈。当这些信息被输入先进的生产经营系统时,就可以用批量处理的效率去提供满足不同顾客需求的产品、服务,实现比批量生产更胜一筹的批量个人化。从一定意义上讲,电子商务的国际化发展,预示着未
10、来企业经营革命的方向。电子商务也对企业管理产生影响。在企业部管理方面,管理人员以往注重对企业施加充分的控制以完成效率目标。组织结构的设立和办公、生产经营场所的界定,使管理者得以结合等级制进行现场管理控制,控制的主要对象之一,是可以观测到的员工行为。此时企业的经营效率将更多地取决于组织部的合作沟通情况,而合作沟通又与组织成员之间的信任程度密切相关。类似的情况也出现在企业间与企业外部管理方面。由于外联网的出现,多个企业得以共享国际化、专业化程度高、灵活性强、反应速度快等好处。但是在外联网这种松散的“虚拟”联盟体系中,一个企业很难对其伙伴企业施加那些在合资合作企业和一般战略联盟中行之有效的控制手段,
11、整个外联网运作的成败主要取决于各成员企业之间的相互信任和沟通。然而对于在电子商务方面起步较晚的发展中国家如中国与其企业来说,这一机遇同时也是严峻的挑战。实际上,发达国家的企业在应用电子商务以后,经营过程的资源处理活动相对减少,信息处理活动相对增加;能源应用相对减少,知识应用相对增加。这种向信息、知识密集型经营转换的直接结果,是越来越多的行业出现了类似于“马太效应”的报酬递增竟争机制。从这个角度看,电子商务有可能像过去二三百年间对发端于西方国家的许多重大技术进步的应用那样,在推动人类物质文明进步的同时,也导致发达国家与发展中国家之间在经济发展和企业经营等方面差距的进一步扩大。1.3我国电子商务的
12、发展阶段1.3.1电子商务的PC互联时代电子商务的起源可以追溯到互联网(Internet)和电子数据交换的出现。前者为电子商务的推广应用奠定了基础;后者是电子商务的初始应用方式,至今仍是电子商务的重要组成部分。60年代末期,美国国防部高级项目管理处建立了联接美国各大学与国防工业合同商之间的电脑网络ARPANE,继而开发了该网络的标准通讯协议TCP/IP。至80年代中期,美国国家科学基金会利用ARPANET的模式形成了自己的电脑网络NSFNE,并逐渐与ARpA NET合并。与此同时,诸如Usenet、llTNET,经由各自的电脑系统以共用的交易标准进行商业信息的交换,这就是电子数据交换。70年代
13、中期,美国运输行业制定了T l)cc交易标准,率先应用这一先进的商务手段。其后美国国家标准局在T l)CC的基础上制定了ANslX12交易标准,并负责对增值网的合格认证工作,促进了电子数据交换在多个产业部门的应用。近年来,电子数据交换的管道进一步从私人线路和增值网扩展到互联网上。用户急剧增多。据估计,目前全美使用电子数据交换的企业已经超过5万家,到2000年时将达20万家左右,其应用前景由此可见一斑。1993年9月,美国克林顿政府发布规划信息高速公路的行动纲领,将电子商务、远程教学、电子医疗列为三大信息支柱项目,一系列旨在加速信息高速公路建设的公共政策也相继出台,这对推广电子商务的应用有很大的
14、帮助。与此同时,www服务器与相关技术的出现,为企业提供了在互联网上传输容丰富、栩栩如生的多媒体信息的手段,从而得以在网络上开展外部经营管理活动,如生产经营管理、人力资源管理、财务管理、营销、咨询服务等。企业界和一般消费者对新一代基于互联网信息技术的逐步接受,也成为电子商务应用的另一种不容忽视的推动力。目前电子商务的容已经十分广泛,覆盖企业经营的许多个方面。电子商务的一般框架可图示如下:图1电子商务的概念框架1.3.2电子商务的移动互联时代移动互联网是一个全国性的、以宽带IP为技术核心的,可同时提供语音、 、数据、图像、多媒体等高品质电信服务的新一代开放的电信基础网络。简单地说,移动互联网能让
15、用户在移动过移动设备(如手机、iPod等移动终端)随时、随地访问Internet、获取信息,进行商务、娱乐等各种网络服务。终端、网络与应用是移动互联网的3个要素。正是由于中国3G网络的投入运营,iPhone、Android等智能手机终端以与应用平台的出现,才使得移动互联网得以如此迅猛地发展。中国目前约有8.4亿的手机用户、3.02亿的手机网民,新兴且前景光明的移动互联网成为众企业垂涎的蛋糕。诸如新浪微博、街旁、米聊等,甚至是开心网、优酷也都纷纷推出自己的手机客户端。中国社会化媒体几乎都可以从国外找到原型,从You tube到优酷、土豆,从Twitter到新浪、腾讯微博,以与各种消费点评、问答百
16、科、位置服务等,这些媒体为普通用户提供了极大的互动交流空间。随着中国的互联网产业进入一个持续、快速、稳定的发展时期,丰富多彩的互联网应用已成为国人生活中必不可少的部分。移动互联网应用缤纷多彩,娱乐、商务、信息服务等各种各样应用开始渗入人们的基本生活。手机电视、视频通话、手机音乐下载、手机游戏、手机IM、移动搜索、移动支付等移动数据业务开始带给用户新的体验。1.3.3电子商务的大数据时代大数据(big data),或称巨量资料,指的是所涉与的资料量规模巨大到无法透过目前主流软件工具,在合理时间达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。业界将其特点归结为4VVolume(数
17、据体量巨大)、Velocity(数据类型繁多)、Variety(价值密度低)、Veracity(处理速度快)。与传统数据相比较,大数据包含数据交换、互联、质量、安全等数据体系建设以与建设上层数据应用的整个生态圈。在大数据时代浪潮中,时间每过去3分钟,全球将会产生6.12亿封,6000万照片,将会有18.3万小时的音乐被下载,有76.4个视频在优酷被上传,有14.1万个程序在苹果商店被使用,支付宝上将产生4400万人民币的交易额。这种爆炸性增长的数据量对于企业发展来说,是一笔取之不尽、用之不竭的财富。阿里巴巴、京东商城等众多网络巨头正因为看中了这座金矿,纷纷提出将数据作为未来发展的重要战略之一。
18、2013年,电商的竞争很大程度上就是大数据的竞争,大数据将贯穿整个电商的业务流程,成为公司核心竞争力。目前,大数据在现实世界中已有着非常广泛的分布和应用,包括医疗信息、视频监控、移动设备、智能设备、非传统IT设备、传统IT信息的非传统应用以与特定行业需求等。1.4研究方法与主要研究容近年来,伴随着互联网、3S技术(GPS、GIS、RS)、以与智能手机的迅速发展,人文社会科学领域的研究数据获取与处理已经出现了新的趋向。主要包括:利用软件对网络数据进行挖掘;利用GPS或LBS设备,结合GIS或网络日志来采集与分析居民行为数据;利用网络地图对获取的数据进行可视化开发。这些技术可以作为大数据时代城市时
19、空间行为研究数据的重要来源,将有利于扩大研究的围,并增加研究结果的精确性。网络数据挖掘是计算机科学研究的重要容,包括容挖掘、结构挖掘和使用挖掘3种类型。其中,容挖掘是对网页文本和媒体数据的获取,用于研究用户活动状态和特征;结构挖掘是对网页结构进行分析,用于评估网页的资源量;使用挖掘则是通过挖掘网页访问的日志记录,以便提供个性化的产品和服务以此来研究电子商务的大数据时代。第2章 电子商务的大数据时代近年来,以互联网、物联网、电信网、广电网、无线宽带网为基础的智慧城市建设带来了数据量的爆发式增长,“大数据”像血液一样遍布智慧交通、智慧医疗、智慧生活、智慧营销等城市生活的方方面面,并推动社会职能部门
20、与企业决策者们从“经验治理”向“科学治理”转型。如何挖掘海量数据的潜在价值,为城市治理、市民生活、企业营销提供可靠的决策建议,是智慧城市发展所面临的重要课题,亦是企业在未来市场竞争中抢占先机的关键。2.1电子商务大数据时代概述“大数据”时代(“Age ofBig Data”)这一说法的流行得力于全球知名咨询公司麦肯锡的倡导,英国牛津大学教授维克托迈尔舍恩伯格更在其大数据时代:生活、工作和思维的改变声疾呼,断言一个史无前例的大数据时代已经来临!“大数据”(“Big data”)显然并不是一个严格的学理性概念,而更多地是一个描述性话语。所谓大数据,也就是大型数据集,一般在10TB规模左右。多个数据
21、集一整合,就会形成PB级,甚至以E、Z等为计量单位的数据量。过去几年全世界产生的数据量甚至超过了历史上4万年来产生的数据量的总和。这种激增的数据量势必突破传统常规软件的信息处理能力极限。大数据的说是在与传统数据库的比照中形成的,也注定只能是一个暂时性的权宜说法。随着信息技术的进一步发展,更大的数据集合会不断出现,今日所谓的“大数据”势必相形见绌。IT业界通常将大数据的特征概括为四个“V”:体量(volumes)巨、类别(variety)多、速度(Velocity)快、价值(Value)大。大数据之大首先是指体量大。大数据和传统所说的数据库有所不同。诞生在20世纪70年代的传统数据库是小型的、单
22、一的、孤立的,基于小围的抽样样本统计。而大数据则要求穷尽一切相关样本,搜集尽可能全面的数据,大数据的数据集拥有的不是支离破碎的割裂数据,不是数据片段,而是完整的数据。数据的海量与数据的完整性使大数据有着传统的数据库无法比拟的信息优势。大数据之大还在于气魄大、境界大。大数据的来源也有别于传统的数据库,显示出了跨领域、跨门类、多类别的整合气魄和越界意识,如果说非结构化数据、半结构化数据一直没有被纳入经典数据库技术SQL的视野,那么大数据的数据则源自多种数据源,是一种综合数据,兼收并蓄了结构化数据、半结构化数据、非结构化数据等各种类别和格式的数据,尤其是包含了大量的视频音频数据。这使其信息占有量和信
23、息复杂度为传统数据库所无法比拟。这些海量数据本身就会凸显以往不为人们注意的事物的多方面的关联性,因此这种数据更能显示出多方面的信息涵,信息质量更为优化,信息意味更为繁复。大数据与传统数据库的差异还在于它并不是一个整齐排列,有着固定层次结构、划一技术标准、反馈迟滞后延的物态化的实体,而是一个灵活、越界、即时、交互、综合的动态过程,可以在瞬间完成信息分析,形成数据图谱,满足社会各界人士的实时性需求。大数据之大更在于处理信息的手笔大。大数据的要害不在于数据存储技术的升级跃进,大数据的“大”不是指存储和备份的数据大,在根本上它是指处理数据所使用的模式“大”。大数据在今天的时代里俨然成为了一种新的产业资
24、源,通过尽力搜集整理全面数据、完整数据、综合数据并对数据进行深度智能分析和建模,可以显示出各种事物的潜在关联,挖掘出各种以往不为人知的相关性,判断事物发生的概率,预测事物变化的走向,预见某种社会趋势,从而使鱼龙混杂的信息在大数据时代的社会管理、商业营销、产业开发、文化创意、医疗保健等方面更能发挥见微知著的预见性价值,据此各行各业都可以有的放矢地制定新策略,成就新创意,开发新产品,推出新业务。虽然早在1980年著名未来学家阿尔文托夫勒在其第三次浪潮一书中已经提到“大数据”一词。在20世纪90年代,“数据仓库之父”比尔伊蒙(Bill In mon)更明确提出了“大数据”的概念。但在当时“大数据”的
25、说法并没有引起世人的高度关注。最近几年大数据一说不胫而走,显然与信息量的持续攀升、大数据的俯拾即是、云计算的大量运用息息相关。一夜之间,人类俨然进入了一个全新的“大数据”时代。实际上,大数据时代的到来早有征兆。20世纪80、90年代所谓的信息爆炸可谓是今日的大数据潮流的先声。只不过,目前物联网、移动通讯、互联网每时每刻都在不断滋生潮水般的海量数据,人类的信息数据在以几何指数形式激增。根据市场调研公司IDC的报告,全球信息总量每过两年就会增长一倍。据统计,1分钟,微博推特上新发信息超过10万条,脸谱上的浏览量超过600万,苹果应用商店下载次数以万计,淘宝可卖出几万件商品,百度能产生百万次搜索记录
26、。而以往的数字化信息存储和处理能力严重限制了信息的采集、存储量。这些TB级、PB级海量数据的存储、挖掘、处理、分析、利用对于以往时代来说是不可想象的。在过去,存储的主要是模拟数据,报纸、书籍、图片、磁带等媒介是信息存储的主要载体,甚至在2000年的时候,数字存储信息仍只占全球数据量的四分之一;当时,另外四分之三的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。P23数据处理技术和处理能力的局限使大量在交通、医疗、商业、管理中产生的数据资料都难以得到长期有效的存储。直到MPP、MapReduce、Hadoop平台、云计算等新的数据处理技术诞生后,海量的大数据才被深度挖掘。处理,显示出了前所
27、未有的价值。但大数据潮流的深层根源显然还是利润最大化的商业冲动,大数据产业说到底不过是数字经济、知识经济的最新形态,这也是“大数据”这个为管理咨询公司、经济学家、IT界巨头欢欣鼓舞的概念招人质疑的重要原因。但是商业化潮流既可能导致文化的沙化、社会的急功近利、商业的唯利是图,也会成为文化创新的不竭动力,开启知识创造的新天地和新境界。事实上,正是近年来数字化领域的商业逐利冲动驱使商家不断改换思路,升级设备,实现数字技术创新,提升数字服务水准,开辟新的产业领域,开发新的文化产品,开创了蔚为潮流的大数据产业,也开启了有别于互联网时代的“数字化生存“的新境界。2.2电子商务大数据时代的特点大数据是一个较
28、为抽象的概念,正如信息学领域大多数新兴概念,大数据至今尚无确切、统一的定义。在维基百科中关于大数据的定义为:大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间的数据集。个人认为,这并不是一个精确的定义,因为无法确定常用软件工具的围,可容忍时间也是个概略的描述。IDC在对大数据作出的定义为:大数据一般会涉与2种或2种以上数据形式。它要收集超过100TB的数据,并且是高速、实时数据流;或者是从小数据开始,但数据每年会增长60%以上。这个定义给出了量化标准,但只强调数据量大,种类多,增长快等数据本身的特征。研究机构Gartner给出了这样的定义:大数据是需要新处理模式才能具有更强
29、的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。这也是一个描述性的定义,在对数据描述的基础上加入了处理此类数据的一些特征,用这些特征来描述大数据。当前,较为统一的认识是大数据有四个基本特征:数据规模大(Volume),数据种类多(Variety),数据要求处理速度快(Velocity),数据价值密度低(Value),即所谓的四V特性。这些特性使得大数据区别于传统的数据概念。大数据的概念与“海量数据”不同,后者只强调数据的量,而大数据不仅用来描述大量的数据,还更进一步指出数据的复杂形式、数据的快速时间特性以与对数据的分析、处理等专业化处理,最终获得有价值信息的能力。2.2.
30、1数据量大大数据聚合在一起的数据量是非常大的,根据IDC的定义至少要有超过100TB的可供分析的数据,数据量大是大数据的基本属性。导致数据规模激增的原因有很多,首先是随着互联网络的广泛应用,使用网络的人、企业、机构增多,数据获取、分享变得相对容易,以前,只有少量的机构可以通过调查、取样的方法获取数据,同时发布数据的机构也很有限,人们难以短期获取大量的数据,而现在用户可以通过网络非常方便的获取数据,同时用户在有意的分享和无意的点击、浏览都可以快速的提供大量数据;其次是随着各种传感器数据获取能力的大幅提高,使得人们获取的数据越来越接近原始事物本身,描述同一事物的数据量激增。早期的单位化数据,对原始
31、事物进行了一定程度的抽象,数据维度低,数据类型简单,多采用表格的形式来收集、存储、整理,数据的单位、量纲和意义基本统一,存储、处理的只是数值而已,因此数据量有限,增长速度慢而随着应用的发展,数据维度越来越高,描述一样事物所需的数据量越来越大。以当前最为普遍的网络数据为例,早期网络上的数据以文本和一维的音频为主,维度低,单位数据量小。近年来,图像、视频等二维数据大规模涌现,而随着三维扫描设备以与Kinect等动作捕捉设备的普与,数据越来越接近真实的世界,数据的描述能力不断增强,而数据量本身必将以几何级数增长。此外,数据量大还体现在人们处理数据的方法和理念发生了根本的改变。早期,人们对事物的认知受
32、限于获取、分析数据的能力,一直利用采样的方法,以少量的数据来近似的描述事物的全貌,样本的数量可以根据数据获取、处理能力来设定。不管事物多么复杂,通过采样得到部分样本,数据规模变小,就可以利用当时的技术手段来进行数据管理和分析,如何通过正确的采样方法以最小的数据量尽可能分析整体属性成了当时的重要问题。随着技术的发展,样本数目逐渐逼近原始的总体数据,且在某些特定的应用领域,采样数据可能远不能描述整个事物,可能丢掉大量重要细节,甚至可能得到完全相反的结论,因此,当今有直接处理所有数据而不是只考虑采样数据的的趋势。使用所有的数据可以带来更高的精确性,从更多的细节来解释事物属性,同时必然使得要处理数据量
33、显著增多。2.2.2数据类型多样数据类型繁多,复杂多变是大数据的重要特性。以往的数据尽管数量庞大,但通常是事先定义好的结构化数据。结构化数据是将事物向便于人类和计算机存储、处理、查询的方向抽象的结果,结构化在抽象的过程中,忽略一些在特定的应用下可以不考虑的细节,抽取了有用的信息。处理此类结构化数据,只需事先分析好数据的意义以数据间的相关属性,构造表结构来表示数据的属性,数据都以表格的形式保存在数据库中,数据格式统一,以后不管再产生多少数据,只需根据其属性,将数据存储在合适的位置,就可以方便的处理、查询,一般不需要为新增的数据显著的更改数据聚集、处理、查询方法,限制数据处理能力的只是运算速度和存
34、储空间。这种关注结构化信息,强调大众化、标准化的属性使得处理传统数据的复杂程度一般呈线性增长,新增的数据可以通过常规的技术手段处理。而随着互联网络与传感器的飞速发展,非结构化数据大量涌现,非结构化数据没有统一的结构属性,难以用表结构来表示,在记录数据数值的同时还需要存储数据的结构,增加了数据存储、处理的难度。而时下在网络上流动着的数据大部分是非结构化数据,人们上网不只是看看新闻,发送文字,还会上传下载照片、视频、发送微博等非结构化数据,同时,遍与工作、生活中各个角落的传感器也时刻不断的产生各种半结构化、非结构化数据,这些结构复杂,种类多样,同时规模又很大的半结构化、非结构化数据逐渐成为主流数据
35、。如上所述,非结构化数据量已占到数据总量的75%以上,且非结构化数据的增长速度比结构化数据快10倍到50倍。在数据激增的同时,新的数据类型层出不穷,已经很难用一种或几种规定的模式来表征日趋复杂、多样的数据形式,这样的数据已经不能用传统的数据库表格来整齐的排列、表示。大数据正是在这样的背景下产生的,大数据与传统数据处理最大的不同就是重点关注非结构化信息,大数据关注包含大量细节信息的非结构化数据,强调小众化,体验化的特性使得传统的数据处理方式面临巨大的挑战。2.2.3数据处理速度快要求数据的快速处理,是大数据区别于传统海量数据处理的重要特性之一。随着各种传感器和互联网络等信息获取、传播技术的飞速发
36、展普与,数据的产生、发布越来越容易,产生数据的途径增多,个人甚至成为了数据产生的主体之一,数据呈爆炸的形式快速增长,新数据不断涌现,快速增长的数据量要求数据处理的速度也要相应的提升,才能使得大量的数据得到有效的利用,否则不断激增的数据不但不能为解决问题带来优势,反而成了快速解决问题的负担。同时,数据不是静止不动的,而是在互联网络中不断流动,且通常这样的数据的价值是随着时间的推移而迅速降低的,如果数据尚未得到有效的处理,就失去了价值,大量的数据就没有意义。此外,在许多应用中要求能够实时处理新增的大量数据,比如有大量在线交互的电子商务应用,就具有很强的时效性,大数据以数据流的形式产生、快速流动、迅
37、速消失,且数据流量通常不是平稳的,会在某些特定的时段突然激增,数据的涌现特征明显,而用户对于数据的响应时间通常非常敏感,心理学实验证实,从用户体验的角度,瞬间(moment,3秒钟)是可以容忍的最大极限,对于大数据应用而言,很多情况下都必须要在1秒钟或者瞬间形成结果,否则处理结果就是过时和无效的,这种情况下,大数据要求快速、持续的实时处理。对不断激增的海量数据数据的实时处理要求,是大数据与传统海量数据处理技术的关键差别之一。2.2.4数据价值密度低数据价值密度低是大数据关注的非结构化数据的重要属性。传统的结构化数据,依据特定的应用,对事物进行了相应的抽象,每一条数据都包含该应用需要考量的信息,
38、而大数据为了获取事物的全部细节,不对事物进行抽象、归纳等处理,直接采用原始的数据,保留了数据的原貌,且通常不对数据进行采样,直接采用全体数据,由于减少了采样和抽象,呈现所有数据和全部细节信息,可以分析更多的信息,但也引入了大量没有意义的信息,甚至是错误的信息,因此相对于特定的应用,大数据关注的非结构化数据的价值密度偏低,以当前广泛应用的监控视频为例,在连续不间断监控过程中,大量的视频数据被存储下来,许多数据可能是无用,对于某一特定的应用,比如获取犯罪嫌疑人的体貌特征,有效的视频数据可能仅仅有一两秒,大量不相关的视频信息增加了获取这有效的一两秒数据的难度。但是大数据的数据密度低是指相对于特定的应
39、用,有效的信息相对于数据整体是偏少的,信息有效与否也是相对的,对于某些应用是无效的信息对于另外一些应用则成为最关键的信息,数据的价值也是相对的,有时一条微不足道的细节数据可能造成巨大的影响,比如网络中的一条几十个字符的微博,就可能通过转发而快速扩散,导致相关的信息大量涌现,其价值不可估量。因此为了保证对于新产生的应用有足够的有效信息,通常必须保存所有数据,这样就使得一方面是数据的绝对数量激增,一方面是数据包含有效信息量的比例不断减少,数据价值密度偏低。2.3电子商务大数据时代的SWOT分析2.3.1优势分析1、资源优势对档案馆而言,其最大的优势在于所拥有的资源。首先,档案馆信息资源总量庞大且增
40、长迅速。2008年,全国各级国家档案馆共保存档案1.93亿卷,较上年增加1769万卷,增幅达10%,而到2011年各级国家档案馆馆藏已达3.3亿卷,到2020年各级国家档案馆馆藏将达到6亿多卷。其次,档案馆数据资源种类繁多。在档案馆的数据资源中,既有数字化的纸质档案、接收进馆的电子文件、音视频档案等,也有用户利用信息、服务数据等数据资源。再次,档案馆数据资源价值很高。与其它数据资源等相比,“档案是一种最真实、最可靠、最具权威性与凭证性的原生信息资源”,这就使得数据洪流时代档案的价值与作用更加凸显。2、行业领先首先,各级国家档案馆是集中统一保管党和国家档案的科学文化事业机构,是永久保管档案的基地
41、,是社会各界利用档案史料的中心。作为一种机构性存在与制度性安排,档案馆的公共性、服务性、公平性、永久性等特征,使得档案馆成为人们心目中最系统、最值得信赖的数据资源库。大数据时代,档案馆维护和传承记忆的功能将更加重要,构建一个“基于互联网的,以档案数字资源为主体,以文本、图片、音频、视频等为形式,为中华民族集体记忆的建构和传承提供文献支撑的中国记忆数字将成为档案人新的目标与使命。其次,档案馆在数据处理上具有丰富的经验。考察数据生命周期,涉与到数据生成、采集、传输、处理、分析、应用等阶段,而这也恰恰是档案馆熟悉的业务畴。因此,档案馆可以通过模拟或借鉴传统档案处理的整套业务规或流程来指导大数据的处理
42、,“对知识规性控制的思想和技术方法恰巧在大数据领域有了用武之地”。2.3.2劣势分析1、认识问题作为一个档案大国,几千年档案工作的历史积淀在我国形成了丰富多彩的档案文化,也形成了一套独特的档案思维模式。大数据时代,有可能出现两种认识问题:一是没有大数据意识,即无视大数据时代的来临,采取固守原状的鸵鸟政策,这将使档案馆失去未来的发展机会,甚至会失去存在的意义。二是泛大数据化,即不加鉴别地收集保存数据,从而使档案馆陷入数据沼泽,进而丧失自己的特色,显然这也是档案馆无法承受的。因此,大数据背景下,科学认识大数据的涵,合理地选择切入点,将是档案馆在大数据时代立足的首要问题,而这或许也是档案馆最难解决的
43、一个问题。2、人才瓶颈在档案事业快速发展的今天,我国的档案人才队伍建设却不尽如人意。一是专业人才不足。以2006年为例,全国各省(除外)、自治区、直辖市各级档案馆中具备博士学位且毕业于档案学专业的工作人员为零,具备硕士学位且毕业于档案学专业的工作人员只有26人,具备学士学位且毕业于档案学专业的工作人员只有1598人。二是信息技术人才的匮乏。“大数据泡沫如果现在存在的话,恐怕并非数据的作用被过分夸大,而主要是由于真正具备资质的数据科学家数量不足导致的。”据统计,到2018年美国将面临150万个掌握大数据应用分析方法的技术经理和分析师缺口,另缺14万至19万具有“深度分析”经验的工作者。从目前来看
44、,大数据成功的案例无不是特定的项目,例如“啤酒与尿布”,因此,现阶段档案馆人员最需要的是懂得用户的需求,因为数据越大,用户的个性需求就越多样,服务切口就越小。毫无疑问,这需要档案人员拥有极强的洞察能力。2.3.3机会分析1、需求旺盛随着信息环境的变化和社会档案意识的觉醒,用户的档案信息需求层面不断加深,需求领域也不断拓展。首先,精品化的信息需求与专业化的知识服务要求。随着社会档案意识的增强,“用户关注的已不再是简单的获取文献,而是如何从繁杂的信息环境中捕获和析取解决所面临问题的信息容,并将这些信息融化或重组为相应的知识或解决方案”。其次,个性化的信息需求与互动式的信息服务要求。随着用户信息素养
45、的不断提高,档案用户已从信息服务的“被动接受者”转换为“主动选择者”,他们更希望获得一种为自己量身定做的个性化信息服务。同时,用户在获取信息的过程中,希望能与馆员进行人际交流与相互沟通,从而获取文化的熏、思想的碰撞与心灵的浸润。2、政策导向2010年国家档案局数字档案馆建设指南颁布,提出运用多种技术手段“采集具有重要保存价值的各类数字信息,进行资源整合”、“对数字档案信息进行深度挖掘,开展增值服务”、“开展档案利用访问量统计、分布分析、舆情分析等工作”。2012年冬权在全国档案局馆长会议上讲话指出,要在新的起点上进一步推进档案信息化,即从过去以技术为主导向以服务为主导转变,从注重应用信息技术向
46、注重档案容信息化转变,树立“容为王”的观念,建设以服务为主导的档案信息化体系。这些政策性文件与讲话,将为大数据在档案馆中的应用带来更多的政策支持,也为大数据时代档案馆的发展带来更多机遇。2.3.4威胁分析1、信息安全大数据时代,数据量之大、数据种类之多、对数据处理速度与时间之快,都对传统的档案馆安全体系造成极大冲击。从基础技术角度而言,当前档案馆广泛应用的关系型数据库(SQL)技术,经过长期实践与完善,在维护数据安全方面已经设置了严格的访问控制和隐私管理工具,而大数据依托的基础技术是非关系型数据库(No SQL),其在成熟度和可访问性方面都不如传统数据库技术。从核心价值角度而言,大数据的关键在
47、于信息爆炸时代对数据价值的再挖掘。然而,数据分析技术的发展,对国家安全与用户隐私产生了极大威胁,数据持有人可以从历史数据中推测判断出行为人的下一步动作个人行动轨迹、行为轨迹,甚至思维轨迹。2、用户流失大数据时代,档案馆面临着网络、图书馆与信息服务公司等的竞争,用户流失是不争的事实。以网络为例,网络信息资源的丰富使用户足不出户就可以获取所需的信息,用户对档案馆的稳定性与忠诚度下降。据统计,“超过90%的用户在查找信息时,会首选搜索引擎,搜索已经成为公众获取信息的代名词”。因此,数字化时代,档案馆如何实现“数据化生存”,将是不得不慎重考虑的难题。2.4电子商务大数据时代的发展前景20年后互联网发生
48、的巨大的变化,移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域。我们在享受便利的同时,也无偿贡献了自己的“行踪”。现在互联网不但知道对面是一只狗,还知道这只狗喜欢什么食物、几点出去遛弯,几点回窝睡觉。我们不得不接受这个现实,每个人在互联网进入到大数据时代,都将是透明性存在。在物理世界中,许多行为是“人似秋鸿有来信,事如春梦了无痕”。但在互联网上却是“处处行迹处处痕”。任何行为,皆有前兆。要买商品,必先浏览,对比,询价;要搞活动,必先征集、讨论、策划;互联网上恰恰保留了大量的前兆性的数据,通过对这些数据的收集和分析,互联网企业具备了预判物理世界中,人类未来行为的能力。收集分析海量的各种类型的数据,并快速获取影响未来的信息的能力,这就是大数据技术的魅力。事实上大数据的来源非常广泛,天上的卫星、地上汽车、埋在土壤里面的各类传感器,无时无刻不在生成大量的数据。这些数据如果综合利用,产生的社会价值和经济价值将是难以估量的。第一篇报告大数据时代即将到来,之所以用时代这个词作为标题,是因为大数据是历史上首个可以预测人类短期行为的技术。未来的不确定性,是人类产生恐惧的根源之一,也是各类组织最为头痛的问题。大数据技术技术让我们看到解决未来预测问题的一丝曙光。“08年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中购在下滑。海关是卖了货,出去以后再获得数据;而我们提