《理解大数据培训课件.pptx》由会员分享,可在线阅读,更多相关《理解大数据培训课件.pptx(50页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据BIG DATA一、大数据的背景一、大数据背景信息自由之战数据爆炸数据帝国数据治国信息自由之战 信息之于民主,就如货币之于经济。托马斯杰斐逊,第三任 总统 三权分立三权组织机构宪法立法行政司法国会参议院众议院总统副总统总统下属机构行政部门法院联邦最高法院州最高法院基层法院第四股力量(Fourth Estate)新闻和报纸 新闻自由、言论自由、知情权1948年,报纸编辑协会成立“世界信息自由 会”约翰摩斯信息自由法(担任 国会议员25年,六朝元老、连选连任)1955年摩斯着手信息自由的立法工作以来,一系列列的法律层层叠加,不断完善,的信息自由最终形成了一个体系,这个体系也成了世界上许多国家
2、制定信息自由法的模板,截止2006年,已有60多个国家实施了类似的法案。信息自由法(Freedom of Information Act简称FOIA,也译作情报自由法)主要内容是规定民众在获得行政情报方面的权利和行政机关在向民众提供行政情报方面的义务:第一、联邦政府的记录和档案原则上向所有的人开放,但是有九类政府情报可免于公开;第二、公民可向任何一级政府机构提出查阅、索取复印件的申请;第三、政府机构则必须公布本部门的建制和本部门各级组织受理情报咨询、查找的程序、方法和工程,并提供信息分类索引;第四、公民在查询情报的要求被拒绝后,可以向司法部门提起诉讼,并应得到法院的优先处理。这项法律还规定了行
3、政、司法部门处理有关申请和诉讼的时效。奥巴马政府政府的态度:大国新政阳光是最好的防腐剂,建立一个透明开放 的政府。政府的行动:透明和开放的政府 放松对总统文件的管制(公众可查阅)公开、发布信息政府的思想:依靠数据说话政府 :奥巴马热爱高新科技 支持技术创新数据帝国 what:什么是数据?什么是数据?where:数据是从哪来的?数据是从哪来的?how:应对数据爆炸该如何做?应对数据爆炸该如何做?什么是数据?数据是对信息数字化的记录,其本身并无意义,把数据放置到一定的背景下,对数字进行解释、赋予意义,则为信息。例如:“1.85”是一个数据“奥巴马身高1.85米”是一条信息数据的储存单位2023年
4、各行业数据存储量(拍字节)(1998年,联邦政府共拥有432所数据中心,专门负责各类数据的存储和维护工作。2023年,数据中心的总数跃升到2094所,翻了几倍)庞大的数据资产需要经费来支持,联邦政府庞大的数据资产需要经费来支持,联邦政府19961996年度年度ITIT预算预算180180亿美元,亿美元,20232023年已经高达年已经高达784784亿亿美元。美元。这些投资中的一半以上,都用在了购置存储数据这些投资中的一半以上,都用在了购置存储数据的硬件设备上。的硬件设备上。这是一个不择不扣的数据帝国。这是一个不择不扣的数据帝国。帝国形成的原因帝国形成的原因摩尔定律。摩尔定律。戈登戈登.摩尔摩
5、尔(Intel(Intel的创始人之一的创始人之一)其内容为:当价格不变时,集成电路上可容纳的其内容为:当价格不变时,集成电路上可容纳的晶体管数目,约每隔晶体管数目,约每隔1818个月便会增加一倍,性能个月便会增加一倍,性能也将提升一倍。换言之,每一美元所能买到的电也将提升一倍。换言之,每一美元所能买到的电脑性能,将每隔脑性能,将每隔1818个月翻两倍以上。这一定律揭个月翻两倍以上。这一定律揭示了信息技术进步的速度。示了信息技术进步的速度。最小数据集Minimum Data Set 帝国的数据到底从何而来?海量的数据源头在哪里?联邦政府的数据来源,当然首先缘于它各个部门的业务工作,也就是业务数
6、据。大规模、系统地收集数据,在 联邦历开展史上,有一个重要的里程碑最小数据集定义:最小数据集是指通过收集最少的数据,最好地掌握一个研究对象所具有的特点或一件事情,一份工作所处的状态,其核心是针对被观察的对象建立一套精简有用的数据指标。源于:医疗领域源于:医疗领域出院病人最小数据集出院病人最小数据集病人都要付钱病人都要付钱医疗账单最小数据集医疗账单最小数据集出台统一的数据格式出台统一的数据格式医疗保险和索赔最小数据集医疗保险和索赔最小数据集在医疗领域迅速被推广,几乎每年都有新的最小数据集被定义。在医疗领域迅速被推广,几乎每年都有新的最小数据集被定义。眼科,眼科,皮肤科等等医疗服务的方方面面各种各
7、样,特定的最小眼科,眼科,皮肤科等等医疗服务的方方面面各种各样,特定的最小数据集数据集开展:开展:由于不同的组织之间信息交换的需要,各个业务部门之间都建立由于不同的组织之间信息交换的需要,各个业务部门之间都建立了标准的了标准的“数据接口数据接口”,从此彼此,从此彼此“数据数据”相连。相连。最小数据集是业务管理过程中最重要的数据指标。最小数据集是业务管理过程中最重要的数据指标。有些最小数据集,甚至直接被引用,成为信息管理系统的数据结有些最小数据集,甚至直接被引用,成为信息管理系统的数据结构。构。20232023年,年,联邦政府已经拥有联邦政府已经拥有1 1万多个独立的信息管理系统。万多个独立的信
8、息管理系统。几乎每一项业务,每一个新的立法、新的方案,都会有一个数据几乎每一项业务,每一个新的立法、新的方案,都会有一个数据库和信息管理系统与之对应。库和信息管理系统与之对应。普适计算普适计算:万事万物,凡存在皆联网,凡联网皆计算。万事万物,凡存在皆联网,凡联网皆计算。人类的计算方式:人类的计算方式:主机型计算阶段主机型计算阶段很多人共享一台大型机很多人共享一台大型机个人型计算阶段个人型计算阶段每个人都拥有一台电脑每个人都拥有一台电脑普适计算阶段普适计算阶段广泛的部署微小的计算设备。广泛的部署微小的计算设备。传感器微小的计算设备就是传感器。微小的计算设备就是传感器。例:例:20232023年,
9、年,国家海洋与大气管理局建立了一个覆盖全美海岸、国家海洋与大气管理局建立了一个覆盖全美海岸、从浅水到深水的、精确的海浪监测系统。在近海、外大陆架、从浅水到深水的、精确的海浪监测系统。在近海、外大陆架、内大陆架和沿海共架设了内大陆架和沿海共架设了296296个传感器。这些传感器以分秒为个传感器。这些传感器以分秒为单位,将数据源源不断地实时传回到国家海洋局单位,将数据源源不断地实时传回到国家海洋局政府的三种数据源政府的三种数据源政府应对数据爆炸公布的法案:信息自由法可以公开数据阳光政府法必须公开数据电子信息自由法计算机数据公开数据源大数据大小超出传统意义上的尺度,一般的软件工具已经难以捕捉、存储、
10、管理和分析的数据。没有统一的定义。大数据的特点:大知识、大科学、大利润、大开展。数据治国每一个机构和部门都要制定一个应对大数据的战略“数据驱动的管理方法Data-Drivern Management用数据决策、管理、创新。数据和信息是执法工作当中制定战略和决策的基础循数管理三部曲:收集、分析、发布数据收集建立收集网络保证数据质量数据分析确定存在问题研究新的政策评估政策绩效数据发布接受社会监督鼓励民间介入推动政策复制调动政策竞争 数据可以用来打假,数据挖掘技术可以提高打假效率,为国家节省数据可以用来打假,数据挖掘技术可以提高打假效率,为国家节省开支。开支。新的数据统计分析技术逐步广泛应用于环境,
11、交通,医疗,治安管理,新的数据统计分析技术逐步广泛应用于环境,交通,医疗,治安管理,金融,商务等各个领域。金融,商务等各个领域。数据收集建立收集网络保证数据质量数据分析确定存在问题研究新的政策评估政策绩效数据发布接受社会监督鼓励民间介入推动政策复制调动政策竞争二、数据开放平台专门为联邦政府建立的一个统一的数据开放的门户网站,全面开放政府拥有的公共数据。主要目的:1.把政府推向前所未有的开放高度,稳固国家民主,2.提高政府的效率和效能。3.通过鼓励创新,上数据走出政府,得到更多的创新运用。上线同一天,阳光基金会宣布设立25000美元的奖金,举办程序员公共数据开放大赛。参赛作品必须使用开放的数据,
12、可以是数据的分析程序,可以是数据可视化的应用,还可以是社交网站和智能 的查件。初次上线只开放了47组数据,但三个月内,阳光基金会却收到了47个新的开辟应用程序。大量的“互动”使的功能不断完善,先后参加了数据的分级评定、高级搜索、用户交流以及和社交网站互动等等新的功能。2023年12月8日开放政府的指令命令各个联邦部门必须在45天之内,在上至少开放3项高价值数据。(上线的第一天受到了上线的第一天受到了210万的点击,两个月创下了万的点击,两个月创下了2000多万次的访问总量。多万次的访问总量。)DATA AND TOOLS候机经济学:航班延误分析系统 用户可以看到不同天气,不同日期,不同时段、不
13、同航空公司、不同航班等各种条件下的飞机是否准时以及平均延误时间的数据明细。数据混搭器DataMasher成果截止2023年12月,仅仅在上,就聚集了1140个应用程序和软件工具、85个 应用查件,其中,有近300个是由民间的程序员、公益组织等社会力量自发开辟的。2023年,开放的数据总数到达了27万项,2023年12月,共开放原始数据3721项,地理数据386429项。开放数据时一石三鸟,不仅服务了群众,刺激经济,还调动了群众创新,为政府节省了软件开辟的开支。三、业界开展动态商务智能大趋势云计算商务智能指利用数据仓库、数据挖掘技术对客户数商务智能指利用数据仓库、数据挖掘技术对客户数据进行系统地
14、储存和管理,并通过各种数据统计分析据进行系统地储存和管理,并通过各种数据统计分析工具对客户数据进行分析,提供各种分析报告,如客工具对客户数据进行分析,提供各种分析报告,如客户价值评价、客户满意度评价、服务质量评价、营销户价值评价、客户满意度评价、服务质量评价、营销效果评价、未来市场需求等,为企业的各种经营活动效果评价、未来市场需求等,为企业的各种经营活动提供决策信息。提供决策信息。商务智能 数据仓库 Data Warehouse数据仓库的诞生:轨迹的起点,计算机通过二进制,解决了数据的传送问题。关系数据库,解决了数据的快速组织、存储和读取1.累积了大量的数据(仅仅查询,没有分析)2.决策支持系
15、统与运营信息系统别离3.为了解决数据集成问题,数据仓库诞生4.以数据分析、决策支持位目的来组织储存数据数据仓库是商务智能的依托,是对海量数据库进行分析的核心物理构架,是数据仓库是商务智能的依托,是对海量数据库进行分析的核心物理构架,是一种格式一致的多源数据存储中心。数据源可以来自多个不同的系统,如企业内一种格式一致的多源数据存储中心。数据源可以来自多个不同的系统,如企业内部的财务系统、客户管理系统、人力资源系统,甚至是企业外部系统。部的财务系统、客户管理系统、人力资源系统,甚至是企业外部系统。数据仓库的物理结构出现以后,一系列的产业链也逐步形成:数据仓库的物理结构出现以后,一系列的产业链也逐步
16、形成:ETL Extraction Transformation LoadExtraction Transformation LoadETLETL就是将数据按统一的格式提取出来,然后再转化,集成,载入数据仓库就是将数据按统一的格式提取出来,然后再转化,集成,载入数据仓库的工具的工具 。联机分析Online Analytical ProcessingOnline Analytical Processing 联机分析也称多维分析,本意是把分立的数据库联机分析也称多维分析,本意是把分立的数据库“相联相联”,进行多维的分析。,进行多维的分析。“维维”是联机分析的核心概念,指的是人们观察事物、计算数据的
17、特定角度。是联机分析的核心概念,指的是人们观察事物、计算数据的特定角度。可以从任意的维度交叉和细分问题,用户能根据自己的需要,随时创立可以从任意的维度交叉和细分问题,用户能根据自己的需要,随时创立“万维万维”动态报表。动态报表。数据挖掘Data Mining数据仓库、联机分析技术的开展和成熟,为商务智能奠定了框架,但真正赋数据仓库、联机分析技术的开展和成熟,为商务智能奠定了框架,但真正赋予予“智能智能”生命的是它的下一条产业链:数据挖掘。生命的是它的下一条产业链:数据挖掘。是指通过特定的计算机算法对大量的数据进行自动分析,从而揭示数据之间是指通过特定的计算机算法对大量的数据进行自动分析,从而揭
18、示数据之间的关系,模式和趋势,为决策者提供新的知识。的关系,模式和趋势,为决策者提供新的知识。如果说联机分析是对数据的一种探测,数据挖掘则是对数据进行开采,发现如果说联机分析是对数据的一种探测,数据挖掘则是对数据进行开采,发现数据之下的历史规律,对未来进行预测。数据之下的历史规律,对未来进行预测。尿布和啤酒的例子:尿布和啤酒的例子:沃尔玛是全世界最大的零售商,拥有沃尔玛是全世界最大的零售商,拥有84008400多家分店,多家分店,200200多万雇员多万雇员20232023年,收入突破了年,收入突破了40004000亿美元,超过了很多国家的亿美元,超过了很多国家的GDPGDP总值。总值。拥有世
19、界上数一数二的数据仓库,是最早应用数据挖掘技术的企业之一拥有世界上数一数二的数据仓库,是最早应用数据挖掘技术的企业之一。在一次例行的数据分析之后,发现跟尿布搭配在一起购置最多的商品竟然是在一次例行的数据分析之后,发现跟尿布搭配在一起购置最多的商品竟然是啤酒。经过调查:一些年轻的爸爸经常要到超市去购置婴儿尿布,有啤酒。经过调查:一些年轻的爸爸经常要到超市去购置婴儿尿布,有30%30%到到40%40%的新爸爸会顺便买一些啤酒来犒劳自己。随后沃尔玛将两者捆绑销售,销的新爸爸会顺便买一些啤酒来犒劳自己。随后沃尔玛将两者捆绑销售,销量双双增加。量双双增加。数据可视化Data Visualization数
20、据可视化是指以图形、图像、地图、动画等更为生动、易为理解的方式来展现数据的大小,诠释数据之间的关系和开展的趋势,以期更好地理解、使用数据分析的结果。安斯科姆四重奏X1=X2=X3,X4=8X1,X2,X3和X4的平均值等于9,其方差等于10,Y1,Y2,Y3和Y4的平均值等于7.50,其方差等于3.754组数据都符合线性回归:y=3+0.5x也就是说:4组数据中,X和Y之间的关系是相同的。个别数据偏离可以视为随机产生的干扰。当我们用散点图标识后,面对图形,就会发现统计学当我们用散点图标识后,面对图形,就会发现统计学“欺骗欺骗”了我们了我们大趋势数据开放的舰队已经形成数据开放的舰队已经形成随着上
21、开放的数据越来越多,随着上开放的数据越来越多,联邦政府开始在州和地方政联邦政府开始在州和地方政府的层面上得到追随和响应。府的层面上得到追随和响应。20232023年先后有年先后有3131个州,个州,1313个大城市先后推个大城市先后推出了自己的。出了自己的。20232023年年1111月,月,商业部、内务部共同组织了第一次开放政府数据的国商业部、内务部共同组织了第一次开放政府数据的国际会议。际会议。3030多个国家参加了会议。多个国家参加了会议。20232023年,全世界已经有年,全世界已经有5050多个大大小小的网站,多个大大小小的网站,与印度与印度合作,将现有的改造成开源平台,合作,将现有
22、的改造成开源平台,20232023年开放所有平台代码,年开放所有平台代码,任何国家都可以免费引进、使用和修改任何国家都可以免费引进、使用和修改 的数据开放平台,使全世界共的数据开放平台,使全世界共同建立统一的数据开放平台的开放标准。同建立统一的数据开放平台的开放标准。20232023年,年,9 9月,以月,以 为首共为首共8 8个国家宣布成立个国家宣布成立“开放政府联盟开放政府联盟”,20232023年年4 4月,陆续收到月,陆续收到4242个国家的加盟申请,其会员迅速增加到个国家的加盟申请,其会员迅速增加到5050个。个。云计算云计算新的航向新的航向有一天,就像用公用 一样,计算的能力会被组
23、织起来,成为一种公共资源和公共事业,这种公共资源和事业,会成为一个新的、重要的产业。来源:来源:“云”的概念来源于 通讯行业。20世纪,已经普及成为一种公共事业,通过公共 ,两点之间可以实现通讯。但如果想在两个用户之间建立一条专用的、私密的通讯渠道,必须架设新的物理专线。后来,一种被称为“虚拟专用网络(VPN)”的技术出现了,他可以通过公共网络随时为两个用户建立专线网络。这种可以为个人提供专用服务,并可以招之即来,挥之即去的网络服务,我们称之为“云”服务。方式:方式:把计算的能力放在互联网上,所以的硬件计算能力,存储能力和软件的执 行能力,全部都有网络提供,网络就是你的计算力。云的供给商将计算
24、能力作为一种资源,集中在一起,然后再通过网络,配送给有需要的客户。开展:开展:2023年后,云计算已经形成了一个从应用软件、操作系统到硬件的一个完整的产业链。开始大规模的商业应用。2023年,奥巴马聘请81名专家,成立了“云”委会,帮助政府普及“云知识”,制定“云”策略,推动“云”部署。优势:优势:客户无需购置相应的软件和硬件就能享受到大公司才能具有的软硬件能力。把有形的产品变成了无形的服务,计算能力成了一种可以传送的服务。这种通过网络将计算能力组织起来的做法,可以实现经济学意义上的“规模化”和“专业化”,意味着巨大的利润空间。再造互联网从网页相连到数据相“联”伯纳斯伯纳斯.李李万维网(万维网
25、(World Wide WebWorld Wide Web)创始人)创始人,将下一代互联将下一代互联网网称为语义网。语义网就是称为语义网。语义网就是“数据网(数据网(Web of DataWeb of Data)”。所谓所谓“语义语义”,是指遵循一个统一的标准,给每一片信息,是指遵循一个统一的标准,给每一片信息 赋予一个赋予一个计算机都能理解的计算机都能理解的“意义意义”,为信息贴上统一的标签,即,为信息贴上统一的标签,即“元数据元数据”。(的(的400400多组数据就定义了多组数据就定义了6464亿的元数据)亿的元数据)在语义网上,数据将像网页一样,成为组织资源的单位。一个数据,在语义网上,
26、数据将像网页一样,成为组织资源的单位。一个数据,可以像万维网上的网页一样,获得一个地址,统一的标识,还有统一的可以像万维网上的网页一样,获得一个地址,统一的标识,还有统一的语义对他就行描述。语义对他就行描述。这样,语义网上的数据就不再是一个死的数字,而是一个活的细胞,这样,语义网上的数据就不再是一个死的数字,而是一个活的细胞,可以通过可以通过“元数据元数据”进行数据相进行数据相“联联”,而不是像网页一样相,而不是像网页一样相“连连”。Web 1.0以网站为标志的信息传播共享Web 1.0Web 2.0以社交媒体为顶峰的信息交流和协同Web 3.0以语义网为基础的数据智能网络大数据时代每一天,世
27、界各地都在定义新的本体、增加新的互联数据。终有一天,全球将数数相联。那将是一个更加辉煌的大数据时代。大数据之“大”,将不仅仅意味着数据之多,还意味着,每一个数据都能在互联网上获得生命、产生智能、散发活力和荣耀。四、底层技术简介分布式计算(HADOOP)机器学习(人工神经网络)数据挖掘(聚类算法)HadoopWhat Is Apache Hadoop?The Apache Hadoop project develops open-source software for reliable,scalable,distributed computing.The Apache Hadoop softwa
28、re library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models.It is designed to scale up from single servers to thousands of machines,each offering local computation and storage.Rather than rely on hardware to del
29、iver high-availability,the library itself is designed to detect and handle failures at the application layer,so delivering a highly-available service on top of a cluster of computers,each of which may be prone to failures.The project includes these modules:Hadoop Common:The common utilities that sup
30、port the other Hadoop modules.Hadoop Distributed (HDFS):A distributed that provides high-throughput access to application data.Hadoop YARN:A framework for job scheduling and cluster resource management.Hadoop MapReduce:A YARN-based system for parallel processing of large data sets.Hadoop特性用户可以轻松地在Ha
31、doop上开辟和运行处理海量数据的应用程序。高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。Hadoop带有用 Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比方 C+。机器学习技术机器学习(Machine Learn
32、ing)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用普及人工智能的各个领域,它主要使用归纳、综合而不是演绎。机器学习在人工智能的研究中具有十分重要的地位。一个不具有学习能力的智能系统难以称得上是一个真正的智能系统,但是以往的智能系统都普遍缺少学习的能力。例如,它们遇到错误时不能自我校正;不会通过经验改善自身的性能;不会自动获取和发现所需要的知识。它们的推理仅限于演绎而缺少归纳,因此至多只能
33、够证明已存在事实、定理,而不能发现新的定理、定律和规则等。随着人工智能的深入开展,这些局限性表现得愈加突出。正是在这种情形下,机器学习逐渐成为人工智能研究的核心之一。它的应用已普及人工智能的各个分支,如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。其中尤其典型的是专家系统中的知识获取瓶颈问题,人们一直在努力试图采用机器学习的方法加以克服。研究领域目前,机器学习领域的研究工作主要围绕以下三个方面进行:(1)面向任务的研究 研究和分析改进一组预定任务的执行性能的学习系统。(2)认知模型 研究人类学习过程并进行计算机模拟。(3)理论分析 从理论上探索各种可能的学习方法和独
34、立于应用领域的算法机器学习是继专家系统之后人工智能应用的又一重要研究领域,也是人工智能和神经计算的核心研究课题之一。现有的计算机系统和人工智能系统没有什么学习能力,至多也只有非常有限的学习能力,因而不能满足科技和生产提出的新要求。对机器学习的讨论和机器学习研究的进展,必将促使人工智能和整个科学技术的进一步开展。人工神经网络(ANN)人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型,由大量的节点(或称神经元)和之间相互联接构成。每个节点代表一种特定的输出函数,称为鼓励函数(activation fu
35、nction)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和鼓励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。基于JAVA的开源ANN框架JOONE(Java Object Oriented Neural Network)是sourceforge上一个用java语言迅速开辟神经网络的开源工程。JOONE支持很多的特性,比方多线程和分布式计算,这意味着可以JOONE可以利用多处理器或是多计算机来均衡附载。数据挖掘 之 聚类分析聚类分析指将物理或抽象对象的集
36、合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了开展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、参加法、动
37、态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被参加到许多著名的统计分析软件包中,如SPSS、SAS等。从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是例如式的学习。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到
38、的聚类数未必一致。从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。支持向量机(SVM)一种聚类分析的理论支持向量机是由Vapnik领导的AT&TBell实验室研究小组在1995年提出的一种新的非常有潜力的分类技术,SVM是一种基于统计学习理论的模式识别方法,主要应用于模式识别领域。由于当时这些研究尚不十分完善,在解决模式识别问题中往往趋于保守,且数学上比较艰涩,这些研究一直没有得到充分的重视。直到90年代,统计学习理论(Statistical Learning Theory,SLT)的实现和由于神经网络等较新兴的机器学习方法的研究遇到一些重要的困难,比方如何确定网络结构的问题、过学习与欠学习问题、局部极小点问题等,使得SVM迅速开展和完善,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。从此迅速的开展起来,现在已经在许多领域(生物信息学,文本和手写识别等)都取得了成功的应用。LibSVM:一个开源的SVM实现右图为LibSVM的demo