《计算机新技术学术讲座精选PPT.ppt》由会员分享,可在线阅读,更多相关《计算机新技术学术讲座精选PPT.ppt(132页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、计算机新技术学术讲座计算机新技术学术讲座第1页,此课件共132页哦个人简介个人简介复旦大学计算机软件与理论复旦大学计算机软件与理论 博士博士东南大学电子商务系东南大学电子商务系 副教授副教授东南大学经济决策与信息管理研究所东南大学经济决策与信息管理研究所 副所长副所长主要研究方向:主要研究方向:数据库数据库/数据仓库、数据挖掘与知识发现、智能信息处理。数据仓库、数据挖掘与知识发现、智能信息处理。已在国内外计算机类核心期刊发表论文十余篇,其中多已在国内外计算机类核心期刊发表论文十余篇,其中多篇论文被篇论文被EIEI检索。检索。研究课题:研究课题:n数据挖掘数据挖掘应应用平台研制及用平台研制及应应
2、用用 (国家(国家863863项目)项目)n智能交通数据挖掘平台(信息产业部攻关项目)智能交通数据挖掘平台(信息产业部攻关项目)n环球多市场金融信息平台(上海市科委攻关项目)环球多市场金融信息平台(上海市科委攻关项目)2第2页,此课件共132页哦主要内容主要内容n计算机硬件与互联网技术计算机硬件与互联网技术n计算机软件技术计算机软件技术n智能信息处理技术智能信息处理技术3第3页,此课件共132页哦计算机硬件与互联网技术计算机硬件与互联网技术n集群计算技术集群计算技术n网格计算技术网格计算技术n普适计算普适计算n本体论与语义网络本体论与语义网络4第4页,此课件共132页哦集群计算技术集群计算技术
3、n什么是集群什么是集群n集群是使用两台或两台以上的服务器组成的集群是使用两台或两台以上的服务器组成的服务器集合,用以提供高性能的不停机服务,服务器集合,用以提供高性能的不停机服务,每台服务器均承担部分计算任务和容错任务,每台服务器均承担部分计算任务和容错任务,但是整体上表现为一个单一系统。但是整体上表现为一个单一系统。n与传统的并行计算模型相比,集群中各节点与传统的并行计算模型相比,集群中各节点的复杂度中等,但是在单一系统映像、可靠的复杂度中等,但是在单一系统映像、可靠性和可伸缩性上更优越。由于集群大多使用性和可伸缩性上更优越。由于集群大多使用标准的商用部件,因此能够大幅度降低企业标准的商用部
4、件,因此能够大幅度降低企业成本,如下页表所示。成本,如下页表所示。5第5页,此课件共132页哦集群计算技术集群计算技术特征特征MPPSMP集群集群分布式系统分布式系统节点个数节点个数100-100010-10010010-1000节点复杂性节点复杂性低低中中中中高高中中高高节点通信节点通信消息传递、共消息传递、共享变量享变量共享存储器共享存储器消息传递消息传递共享文件、共享文件、PRC、消息、消息单一系统映像单一系统映像部分支持部分支持支持支持完全支持完全支持不支持不支持任务调度任务调度主机单一队列主机单一队列单一运行队列单一运行队列多队列协同多队列协同独立运行队列独立运行队列系统可用性系统可
5、用性中中低低高高中中系统可扩展性系统可扩展性低低中(中(100CPU以下)以下)高高中中6第6页,此课件共132页哦集群计算技术集群计算技术n集群系统的组成部分集群系统的组成部分n后台共享存储设备后台共享存储设备n集群内部网络通讯集群内部网络通讯n公共网络公共网络n虚拟的前台界面虚拟的前台界面n无虚拟内存的的集群系统无虚拟内存的的集群系统n为了进一步提高集群系统的效率,使用高速网络将各主机的为了进一步提高集群系统的效率,使用高速网络将各主机的内存连接起来,当一个任务的内存不够时,它可以通过远程内存连接起来,当一个任务的内存不够时,它可以通过远程缺页的方式使用远程结点的内存,这样可以通过高速网络
6、共缺页的方式使用远程结点的内存,这样可以通过高速网络共享全局内存。享全局内存。7第7页,此课件共132页哦集群计算技术集群计算技术n无虚拟内存集群系统的难点无虚拟内存集群系统的难点n整个资源的分配概念发生了变化,它是基于内存的资源整个资源的分配概念发生了变化,它是基于内存的资源分配;分配;n一个结点可能需要访问另外一个结点的内存,这就需要一个结点可能需要访问另外一个结点的内存,这就需要解决结点内存的所有权和自治问题;解决结点内存的所有权和自治问题;n需要解决全局内存管理问题(集中式还是分散式),通过全需要解决全局内存管理问题(集中式还是分散式),通过全局内存管理,应能达到减少网络流量,降低延迟
7、和数据本地局内存管理,应能达到减少网络流量,降低延迟和数据本地优化的目的。优化的目的。目前的操作系统还没有实现上述的处理,我们需要重构操作系统目前的操作系统还没有实现上述的处理,我们需要重构操作系统以方便内存资源共享。以方便内存资源共享。8第8页,此课件共132页哦集群计算技术集群计算技术n集群的分类集群的分类n科学计算集群科学计算集群n该集群主要用于大规模数值计算,解决复杂的科该集群主要用于大规模数值计算,解决复杂的科学问题。这种集群上一般运行专用软件,能够将学问题。这种集群上一般运行专用软件,能够将数据分布到不同的服务器上进行解决。针对不同数据分布到不同的服务器上进行解决。针对不同的科学计
8、算任务,一般有以下两种方式:的科学计算任务,一般有以下两种方式:n任务分片方式:将任务分成多个子任务并分配任务分片方式:将任务分成多个子任务并分配到各节点,每个节点单独运行出结果,最后汇到各节点,每个节点单独运行出结果,最后汇总计算结果;总计算结果;n并行计算方式:各个节点可以进行具有强藕合关系的并行计算方式:各个节点可以进行具有强藕合关系的运算,运算中交换大量数据。运算,运算中交换大量数据。9第9页,此课件共132页哦集群计算技术集群计算技术n负载均衡集群负载均衡集群n该集群的目的是使负载尽量在各个节点中该集群的目的是使负载尽量在各个节点中均衡分布,如计算负载、网络流量负载等。均衡分布,如计
9、算负载、网络流量负载等。n高可用性集群高可用性集群n该集群的目的是使服务系统的运行速度和响应速该集群的目的是使服务系统的运行速度和响应速度尽可能快,通过将程序运行在冗余节点上,集度尽可能快,通过将程序运行在冗余节点上,集群具有更好的容错性。群具有更好的容错性。n高可用性集群可以分为主从方式、双机备高可用性集群可以分为主从方式、双机备份方式和多机备份方式。份方式和多机备份方式。10第10页,此课件共132页哦集群计算技术集群计算技术n并行数据库集群并行数据库集群n近年来兴起的集群类型,同时具有并行计算、高近年来兴起的集群类型,同时具有并行计算、高可用性和负载均衡等多种特征,主要用于高端数可用性和
10、负载均衡等多种特征,主要用于高端数据库领域,如据库领域,如OracleRAC和和IBMDB2EEE。nOracleRAC系统每台主机拥有独立的系统每台主机拥有独立的CPU和内和内存,但是共享磁盘空间,主要针对于大量用户并存,但是共享磁盘空间,主要针对于大量用户并行的访问,行的访问,I/O冲突采用数据库的锁机制解决;冲突采用数据库的锁机制解决;nDB2EEE中各计算机拥有独立的中各计算机拥有独立的CPU、内存和、内存和磁盘,并且高速相连,对每一次访问,每个节点磁盘,并且高速相连,对每一次访问,每个节点查询本地表中的相应结果,返回给协调程序,最查询本地表中的相应结果,返回给协调程序,最后汇总成最终
11、查询结果。后汇总成最终查询结果。11第11页,此课件共132页哦网格计算技术网格计算技术n网格的基本概念网格的基本概念n什么是网格(什么是网格(GRID)n网格是以网格是以Internet技术和分布计算技术为基础,技术和分布计算技术为基础,将地理上分散的各类计算资源、存储资源、数据将地理上分散的各类计算资源、存储资源、数据资源、应用资源、仪器设备等构成统一的虚拟环资源、应用资源、仪器设备等构成统一的虚拟环境,采用开放标准的协议,实现资源的有效共享,境,采用开放标准的协议,实现资源的有效共享,为动态参与的、由多机构所形成的虚拟组织协同为动态参与的、由多机构所形成的虚拟组织协同完成高性能计算、信息
12、处理等各类应用,提供可完成高性能计算、信息处理等各类应用,提供可扩展的、安全的、一致的、不同等级质量的服务。扩展的、安全的、一致的、不同等级质量的服务。网格是集群系统的进一步发展。网格是集群系统的进一步发展。12第12页,此课件共132页哦网格计算技术网格计算技术n网格计算的产生背景网格计算的产生背景n分布式计算、高性能计算、大规模的资源共享、分布式计算、高性能计算、大规模的资源共享、协同工作、数据密集型的科学计算。协同工作、数据密集型的科学计算。n网格的本质特征是网格的本质特征是n分布与资源共享分布与资源共享n高度抽象高度抽象n自相似自相似n动态性和多样性动态性和多样性n高可扩展性高可扩展性
13、n网格计算的示例(见下页图所示)网格计算的示例(见下页图所示)13第13页,此课件共132页哦网格计算技术网格计算技术Tier 1Tier 1Tier2 Centre 1 TIPSOnline SystemOffline Processor Farm 20 TIPSCERN Computer CentreFermiLab 4 TIPSFrance Regional Centre Italy Regional Centre Germany Regional Centre InstituteInstituteInstituteInstitute 0.25TIPSPhysicist workstat
14、ions100 MBytes/sec100 MBytes/sec622 Mbits/sec1 MBytes/secPhysics data cachePBytes/sec 622 Mbits/sec or Air Freight(deprecated)Tier2 Centre 1 TIPSTier2 Centre 1 TIPSTier2 Centre 1 TIPSCaltech 1 TIPS622 Mbits/secTier 0Tier 0Tier 2Tier 2Tier 4Tier 414第14页,此课件共132页哦网格计算技术网格计算技术n网格的系统结构(见下页图所示)网格的系统结构(见下
15、页图所示)n网格结点:地理上独立的计算和信息中心,由网格结点:地理上独立的计算和信息中心,由Internet上孤上孤立、异构的各类资源组成;立、异构的各类资源组成;n网格中间件:网格体系结构的核心部分,其功能是屏蔽网格网格中间件:网格体系结构的核心部分,其功能是屏蔽网格资源层中计算资源的分布、异构性,向网格应用层提供透明、资源层中计算资源的分布、异构性,向网格应用层提供透明、一致的服务接口,如远程进程管理、资源分配、存储访问和一致的服务接口,如远程进程管理、资源分配、存储访问和安全控制等。安全控制等。n网格应用工具层:提供更为专业化的服务和组建不同类网格应用工具层:提供更为专业化的服务和组建不
16、同类型的应用。型的应用。n网格应用层:应用层包括各种应用软件的研究、高速网格的网格应用层:应用层包括各种应用软件的研究、高速网格的建设等,它可以使用户方便地共享网格中的各种资源。建设等,它可以使用户方便地共享网格中的各种资源。15第15页,此课件共132页哦网格计算技术网格计算技术16第16页,此课件共132页哦网格计算技术网格计算技术n典型的网格系统(典型的网格系统(1)Globus系统系统n什么是什么是GlobusnGlobus是一个研究性的项目,其主要的研究目是一个研究性的项目,其主要的研究目标是网格基础技术研究,以及相应软件的开发和标是网格基础技术研究,以及相应软件的开发和标准的制定。
17、标准的制定。Globus是网格技术的典型代表,是网格技术的典型代表,也是目前事实上的规范。也是目前事实上的规范。nGlobus是一种软件基础设施,它以单一虚拟机是一种软件基础设施,它以单一虚拟机的方式处理分布异构的计算资源,其核心在于的方式处理分布异构的计算资源,其核心在于GlobusMetacomputingToolkit(GMT),它提供,它提供了建构一个计算网格所需的基本服务,如安全、了建构一个计算网格所需的基本服务,如安全、资源定位、管理和调度、通讯服务等。资源定位、管理和调度、通讯服务等。17第17页,此课件共132页哦网格计算技术网格计算技术nGlobus的五层结构的五层结构应用层
18、应用层多科学模拟多科学模拟光线追踪光线追踪汇聚层(面汇聚层(面向问题)向问题)联合求解器,联合求解器,分布式数据文档分布式数据文档检查点,作业管理,故障避免,检查点,作业管理,故障避免,分段运输分段运输汇聚层(通汇聚层(通用)用)资源发现,资源代理,系统监控,社团授权,收回证书资源发现,资源代理,系统监控,社团授权,收回证书资源层资源层访问计算,访问数据,访问系统结构,状态与性能信息访问计算,访问数据,访问系统结构,状态与性能信息连接层连接层通信(通信(IP),服务发现(),服务发现(DNS),认证,授权,代理),认证,授权,代理构造层构造层存储系统,计算机,网络,代码库,目录存储系统,计算机
19、,网络,代码库,目录18第18页,此课件共132页哦网格计算技术网格计算技术n典型的网格系统(典型的网格系统(2)TeraGrid系统系统nTeraGrid网格系统基本情况与主要应用网格系统基本情况与主要应用nTeraGrid网格系统最初包括网格系统最初包括4个节点,后扩充到个节点,后扩充到9节点,节点间通过节点,节点间通过10-30GB/s的专用网络互联,的专用网络互联,具有超强的计算能力和存储能力。具有超强的计算能力和存储能力。n协作进行分布式数据集的分析和交换:各节点进协作进行分布式数据集的分析和交换:各节点进行独立的数据分析,整个项目的完成依赖于快速行独立的数据分析,整个项目的完成依赖
20、于快速和频繁的分析结果交换,如研究宇宙射线项目;和频繁的分析结果交换,如研究宇宙射线项目;n多个机构共享的分布式模拟:例如规模庞大的地多个机构共享的分布式模拟:例如规模庞大的地震模拟计算在不同的节点进行,任何节点的科学震模拟计算在不同的节点进行,任何节点的科学家可以通过高速网络快速获取各个不同阶段的计家可以通过高速网络快速获取各个不同阶段的计算结果;算结果;19第19页,此课件共132页哦网格计算技术网格计算技术n网格计算的关键技术网格计算的关键技术n安全技术安全技术n网格安全机制相当复杂,各种自治资源交互时既网格安全机制相当复杂,各种自治资源交互时既不能影响资源本身的可用性,又不能在系统中引
21、不能影响资源本身的可用性,又不能在系统中引入漏洞。入漏洞。nGlobus提出了网格安全基础设施提出了网格安全基础设施GSI,GSI主主要集中在网络的传输层和应用层,采用要集中在网络的传输层和应用层,采用X1509认认证和安全套接层(证和安全套接层(SSL)通信协议,)通信协议,GSI中的主中的主要安全技术包括安全认证、安全身份相互鉴别、要安全技术包括安全认证、安全身份相互鉴别、通信加密等。通信加密等。20第20页,此课件共132页哦网格计算技术网格计算技术n异构系统的单一系统映像技术异构系统的单一系统映像技术n网格包含多种异构资源,实现异构机器间的合作网格包含多种异构资源,实现异构机器间的合作
22、和转换,向用户提供统一、透明的服务是首要问和转换,向用户提供统一、透明的服务是首要问题。题。nGlobus中使用使用轻量级目录访问协议中使用使用轻量级目录访问协议(LDAP)作为访问该信息的接口。)作为访问该信息的接口。通过使用通过使用LDAP服务器,服务器,MDS在公共接口中提供了中间在公共接口中提供了中间件信息,从而将统一的图像放在全异资源的顶部。件信息,从而将统一的图像放在全异资源的顶部。21第21页,此课件共132页哦网格计算技术网格计算技术n网格统一资源管理技术网格统一资源管理技术n网格资源管理包括资源信息的组织、查询与更新网格资源管理包括资源信息的组织、查询与更新等,等,网格资源分
23、为计算类和非计算类资源。网格资源分为计算类和非计算类资源。n计算类资源信息包括所有网格结点及网络的静态计算类资源信息包括所有网格结点及网络的静态和动态信息,如结点计算能力、存储能力、网络和动态信息,如结点计算能力、存储能力、网络结构和性能指标;非计算类资源信息指网格中服结构和性能指标;非计算类资源信息指网格中服务于系统和用户的信息,如网格用户信息、软件务于系统和用户的信息,如网格用户信息、软件信息、服务功能信息等。信息、服务功能信息等。nGlobus使用使用GRAM处理资源请求、执行远程应处理资源请求、执行远程应用、分配资源等任务,并根据计算资源的情况,用、分配资源等任务,并根据计算资源的情况
24、,把资源更新信息发送给把资源更新信息发送给MDS。22第22页,此课件共132页哦网格计算技术网格计算技术n网格技术的缺陷和局限网格技术的缺陷和局限n网格系统对数据通讯速率要求很高,影响了系统效率或网格系统对数据通讯速率要求很高,影响了系统效率或提高了成本;提高了成本;n网格系统的维护费用比集群等高得多;网格系统的维护费用比集群等高得多;n由于目前网络带宽比由于目前网络带宽比CPU资源昂贵得多,且因特网成本降资源昂贵得多,且因特网成本降低的速度低于芯片成本降低的速度,因此网格系统目前比低的速度低于芯片成本降低的速度,因此网格系统目前比较适合于计算复杂、但数据传输量小的应用。对于大多数较适合于计
25、算复杂、但数据传输量小的应用。对于大多数应用,集群系统方案综合看来更优越。应用,集群系统方案综合看来更优越。23第23页,此课件共132页哦网格计算技术网格计算技术n网格技术在数字油藏模拟中的应用网格技术在数字油藏模拟中的应用n背景背景n当前被模拟的油藏模型从几十万个单元到几千万当前被模拟的油藏模型从几十万个单元到几千万个单元,个单元,运行平台主要是专业的并行机。随着运行平台主要是专业的并行机。随着老油区开发难度的增大,油藏模型的面积和数量老油区开发难度的增大,油藏模型的面积和数量将会明显地增加和扩大,继续用传统的并行计算将会明显地增加和扩大,继续用传统的并行计算机来模拟,为了达到理想的模拟速
26、度和效果,其机来模拟,为了达到理想的模拟速度和效果,其硬件平台的投资将很高。同时随着随着并行机市硬件平台的投资将很高。同时随着随着并行机市场不断萎缩,其系统的扩容、维护等都存在很大场不断萎缩,其系统的扩容、维护等都存在很大的问题。的问题。24第24页,此课件共132页哦网格计算技术网格计算技术n目的目的n为获得低成本、高性能的计算平台,以满足企业为获得低成本、高性能的计算平台,以满足企业对油藏模拟不断增长的计算需求,国外石油公司对油藏模拟不断增长的计算需求,国外石油公司逐步采用了基于网格技术的逐步采用了基于网格技术的PC集群系统(即以集群系统(即以PC集群作为网格主节点,再通过网格中间件并集群
27、作为网格主节点,再通过网格中间件并入其他异构系统)替代并行机来进行油藏模拟。入其他异构系统)替代并行机来进行油藏模拟。n对比实验对比实验n选择了国外某油田选择了国外某油田100万个网格万个网格、8个断层、个断层、7个组分、个组分、100个井的模型,模拟时间个井的模型,模拟时间20年。年。n对比对比IBMSP2并行机与基于千兆以太网、并行机与基于千兆以太网、Myrinet高速交换技术和高速交换技术和AMDOpteron64位位CPU的的PC集群系统。(基于集群系统。(基于VIP模拟软件)模拟软件)25第25页,此课件共132页哦网格计算技术网格计算技术n实验结果(新疆油田勘探开发研究院提供)实验
28、结果(新疆油田勘探开发研究院提供)n在模拟计算的精度和稳定性上,在模拟计算的精度和稳定性上,PC集群系统与集群系统与并行机结果相当;并行机结果相当;n到到IBMSP2的的4个节点个节点8CPU的并行机上模拟,的并行机上模拟,系统运行了系统运行了30.2个小时后,同样个小时后,同样CPU个数的基个数的基于于Myrinet的的PC集群的运算时间为集群的运算时间为11.66小时;小时;基于千兆以太网的基于千兆以太网的PC集群运算时间是集群运算时间是16小时,小时,在运算速度上,比在运算速度上,比IBMSP2提高了提高了2.61.9倍;倍;nVIP软件的计算节点之间需要大量的数据交换,软件的计算节点之
29、间需要大量的数据交换,去计算相邻网格单元边缘处的偏移。在去计算相邻网格单元边缘处的偏移。在PC集群集群系统中,当计算节点很多时,存在着访问网络的系统中,当计算节点很多时,存在着访问网络的瓶颈问题。瓶颈问题。26第26页,此课件共132页哦普适计算普适计算n普适计算普适计算n普适计算的定义普适计算的定义n普适计算是信息空间与物理空间的融合,在这个普适计算是信息空间与物理空间的融合,在这个融合的空间中人们可以随时随地、透明地获得数融合的空间中人们可以随时随地、透明地获得数字化的服务。字化的服务。n随时随地随时随地是指人们可以在工作、生活的现场就可是指人们可以在工作、生活的现场就可以获得服务,甚至是
30、由系统主动提供;以获得服务,甚至是由系统主动提供;透明透明是计是计算机技术已经渗透到人们的日常生活中,以致于算机技术已经渗透到人们的日常生活中,以致于人们根本没有意识到这些技术。人们根本没有意识到这些技术。n普适计算强调把计算机嵌入到环境或日常工具中普适计算强调把计算机嵌入到环境或日常工具中去,让计算机本身从人们的视线中消失,让人们去,让计算机本身从人们的视线中消失,让人们注意的中心回归到要完成的任务本身。注意的中心回归到要完成的任务本身。27第27页,此课件共132页哦普适计算普适计算n普适计算的研究内容普适计算的研究内容n智能环境和不可见的计算智能环境和不可见的计算n即物理环境与信息环境有
31、效地融合,信息环境能即物理环境与信息环境有效地融合,信息环境能够自动、智能地感知物理环境中的变化。常用的够自动、智能地感知物理环境中的变化。常用的方法包括:(方法包括:(1)直接在物体上嵌入一定的感知、)直接在物体上嵌入一定的感知、计算、通信能力,使其同时具有物理空间和信息空计算、通信能力,使其同时具有物理空间和信息空间中的用途;(间中的用途;(2)为每个物体添加可以被计算)为每个物体添加可以被计算机自动识别的标签,如红外或者机自动识别的标签,如红外或者RFID。28第28页,此课件共132页哦普适计算普适计算n无缝的可移动性无缝的可移动性n用户能够在不同的服务空间中很自然地移动,可以把用户能
32、够在不同的服务空间中很自然地移动,可以把应用从一个设备移动到另一个设备中。应用从一个设备移动到另一个设备中。n普遍的信息访问普遍的信息访问n通过网络和服务器的支持,用户能在任何时间和地通过网络和服务器的支持,用户能在任何时间和地点检索信息,利用任何种类的交互设备与远程联网点检索信息,利用任何种类的交互设备与远程联网的设备进行交互。的设备进行交互。n觉察上下文的计算觉察上下文的计算n系统能觉察在当时的情景中与交互的任务有关的上系统能觉察在当时的情景中与交互的任务有关的上下文,并据此做出决策和自动地提供相应的服务。下文,并据此做出决策和自动地提供相应的服务。29第29页,此课件共132页哦普适计算
33、普适计算n普适计算的实例普适计算的实例nRFID(无线射频识别标签)通常为一片带有存(无线射频识别标签)通常为一片带有存储单元和天线的半导体芯片,通过天线与读取器储单元和天线的半导体芯片,通过天线与读取器进行非接触通信。进行非接触通信。n普适计算环境下,带有普适计算环境下,带有RFID标签的衣服能够在标签的衣服能够在商场收银台显示商品的价格,能够将衣服的布料商场收银台显示商品的价格,能够将衣服的布料成分传递给洗衣机和电熨斗,使洗涤、烘干程序成分传递给洗衣机和电熨斗,使洗涤、烘干程序和熨烫温度均可以自动设定。家庭计算机可以通和熨烫温度均可以自动设定。家庭计算机可以通过过RFID信息了解到衣物的保
34、暖、防风性能,自信息了解到衣物的保暖、防风性能,自动比较主人外出前穿戴衣物的保暖性能是否适应动比较主人外出前穿戴衣物的保暖性能是否适应室外的气候,包括当时的气候和一段时间之后的室外的气候,包括当时的气候和一段时间之后的气候。如果主人出远门,计算机还会通过订票信气候。如果主人出远门,计算机还会通过订票信息了解目的地的气候情况并进行分析,这些分析息了解目的地的气候情况并进行分析,这些分析会根据每个个体的衣着习惯进行。会根据每个个体的衣着习惯进行。30第30页,此课件共132页哦本体论与语义网络本体论与语义网络n本体论与语义网络本体论与语义网络n什么是本体(什么是本体(Ontology)n在哲学界,
35、本体作为表述哲学理论的术语,是指在哲学界,本体作为表述哲学理论的术语,是指形成现象的根本实体。形成现象的根本实体。n在信息技术与知识领域,本体是用于描述或表达在信息技术与知识领域,本体是用于描述或表达某一领域知识的一组概念或术语,可用于组织知某一领域知识的一组概念或术语,可用于组织知识库较高层次的知识抽象,也可用来描述特定领识库较高层次的知识抽象,也可用来描述特定领域的知识。域的知识。n总的来说,本体就是通过对于概念、术语及其相总的来说,本体就是通过对于概念、术语及其相互关系的规范化描述,勾画出某一领域的基本知互关系的规范化描述,勾画出某一领域的基本知识体系和描述语言。识体系和描述语言。31第
36、31页,此课件共132页哦本体论与语义网络本体论与语义网络n研究本体的意义研究本体的意义n本体可以在不同的建模方法、范式、语言和软件本体可以在不同的建模方法、范式、语言和软件工具之间进行翻译和映射,以实现不同系统之间工具之间进行翻译和映射,以实现不同系统之间的互操作和继承。的互操作和继承。n本体和数据库在功能上有些相似,但是定义本体本体和数据库在功能上有些相似,但是定义本体的语言,在词法和语义上都比数据库所能表示的的语言,在词法和语义上都比数据库所能表示的信息丰富得多,并且本体提供的是一个领域严谨信息丰富得多,并且本体提供的是一个领域严谨丰富的理论,而不单单是一个存放数据的结构。丰富的理论,而
37、不单单是一个存放数据的结构。n本体是领域内重要实体、属性、过程及其相互关本体是领域内重要实体、属性、过程及其相互关系形式化描述的基础,这种形式化的描述可成为系形式化描述的基础,这种形式化的描述可成为软件系统中可重用和共享的组件。软件系统中可重用和共享的组件。32第32页,此课件共132页哦本体论与语义网络本体论与语义网络n对于知识管理系统来说,本体就是一个正式的词对于知识管理系统来说,本体就是一个正式的词汇表。本体可以将对象知识的概念和相互间的关汇表。本体可以将对象知识的概念和相互间的关系进行较为精确的定义。在这样一系列概念的支系进行较为精确的定义。在这样一系列概念的支持下进行知识搜索、知识积
38、累、知识共享的效率持下进行知识搜索、知识积累、知识共享的效率将大大提高,真正意义上的知识重用和知识共享将大大提高,真正意义上的知识重用和知识共享也能成为现实。也能成为现实。n本体适合表示抽象的描述,而企业模型是人们对本体适合表示抽象的描述,而企业模型是人们对企业或者企业的某些模型的抽象描述,因此在企企业或者企业的某些模型的抽象描述,因此在企业逻辑建模中,本体的使用可以帮助我们清楚地业逻辑建模中,本体的使用可以帮助我们清楚地理解企业特定领域的相关元素、关系和概念,让理解企业特定领域的相关元素、关系和概念,让知识表达更加准确便捷,帮助人们进行更好的企知识表达更加准确便捷,帮助人们进行更好的企业决策
39、。业决策。33第33页,此课件共132页哦本体论与语义网络本体论与语义网络n本体的分类本体的分类n顶层本体描述的是最普遍的概念及概念之间的关顶层本体描述的是最普遍的概念及概念之间的关系,如空间、时间、事件、行为等等,与具体的系,如空间、时间、事件、行为等等,与具体的应用无关,其他种类的本体都是其的特例;应用无关,其他种类的本体都是其的特例;n领域本体描述的是某个特定领域(如医药、地理领域本体描述的是某个特定领域(如医药、地理等)中的概念及概念之间的关系;等)中的概念及概念之间的关系;n任务本体描述的是特定任务或行为中的概念及概任务本体描述的是特定任务或行为中的概念及概念之间的关系;念之间的关系
40、;n应用本体描述的是依赖于特定领域和任务的概念应用本体描述的是依赖于特定领域和任务的概念及概念之间的关系。及概念之间的关系。34第34页,此课件共132页哦本体论与语义网络本体论与语义网络n语义网络的产生背景语义网络的产生背景n现有互联网技术只是按照现有互联网技术只是按照URI来定位信息,并没来定位信息,并没有对信息的含义进行描述,但对信息的内容并不有对信息的含义进行描述,但对信息的内容并不关心,因此互联网上信息处理的自动化、智能化关心,因此互联网上信息处理的自动化、智能化程度是很低的。程度是很低的。n语义语义Web通过扩展现有互联网,在信息中加入表通过扩展现有互联网,在信息中加入表示其含义的
41、内容,使计算机可以自动与人协同工示其含义的内容,使计算机可以自动与人协同工作,提高信息处理的自动化和智能化。作,提高信息处理的自动化和智能化。n语义语义Web是要把是要把Web上的资源(如一篇文章里的上的资源(如一篇文章里的关键词的含义和主题思想)用本体论语言标注明关键词的含义和主题思想)用本体论语言标注明确其语义,然后进行基于语义的查询和推理。确其语义,然后进行基于语义的查询和推理。35第35页,此课件共132页哦本体论与语义网络本体论与语义网络n语义语义Web的分层结构的分层结构n基于基于XML的语法层的语法层nXML允许用户为文档添加结构信息,但并不能说明这允许用户为文档添加结构信息,但
42、并不能说明这些结构的含义,语义些结构的含义,语义Web结构中使用结构中使用XML作为语作为语法层,为语义法层,为语义Web的建立提供语法基础。的建立提供语法基础。n基于资源描述框架(基于资源描述框架(RDF)的数据层)的数据层nRDF是对结构化的元数据编码、交换和重用的基础。是对结构化的元数据编码、交换和重用的基础。在语义在语义Web模型中,信息统一以模型中,信息统一以RDF句子的形式句子的形式存储,便于机器理解。存储,便于机器理解。RDF数据模型表示为一个数据模型表示为一个有向标记图,该图独立于实现且可以用有向标记图,该图独立于实现且可以用XML来序列来序列化。化。36第36页,此课件共13
43、2页哦本体论与语义网络本体论与语义网络n基于本体的语义层基于本体的语义层n本体适合于描述互联网上各种不同的、分散的、本体适合于描述互联网上各种不同的、分散的、半结构化的信息资源。通过定义共享的、通用半结构化的信息资源。通过定义共享的、通用的领域知识,的领域知识,本体帮助人和机器进行语义级的本体帮助人和机器进行语义级的交换,交换,而不仅是语法级的。而不仅是语法级的。n逻辑层逻辑层n逻辑层提供了规则逻辑层提供了规则,从而便于进行推理。从而便于进行推理。n证据层证据层n在逻辑层基础上交换推理的结果,为了检查这在逻辑层基础上交换推理的结果,为了检查这些结果,需要将内部推理机制转化为一种通用些结果,需要
44、将内部推理机制转化为一种通用的证据表示语言。的证据表示语言。37第37页,此课件共132页哦本体论与语义网络本体论与语义网络n语义语义Web的应用研究的应用研究nWebservices是一系列用来促进跨平台的程序间是一系列用来促进跨平台的程序间通信的标准。语义通信的标准。语义Web可以提高用户对可以提高用户对Webservices进行定位、选择、运用、组合和监控的进行定位、选择、运用、组合和监控的自动化程度。自动化程度。n语义语义Web用本体来描述各种网上资源,网络中用本体来描述各种网上资源,网络中的知识将用一种结构化、逻辑化、语义化的方式的知识将用一种结构化、逻辑化、语义化的方式来表示。代理
45、(来表示。代理(Agent)可以在本体的指导下对)可以在本体的指导下对网上知识进行读取和推理,并形成一个动态联系网上知识进行读取和推理,并形成一个动态联系的的Agent网络,传统的网络,传统的C/S计算模式将可能被一种计算模式将可能被一种基于基于Agent的分布式计算模式所取代。的分布式计算模式所取代。38第38页,此课件共132页哦本体论与语义网络本体论与语义网络n现有的搜索引擎是基于关键字,词语中的多义词现有的搜索引擎是基于关键字,词语中的多义词和同义词降低了查询的精确性。尽管研究者们提和同义词降低了查询的精确性。尽管研究者们提出许多算法来解决这个问题,出许多算法来解决这个问题,但从网页的
46、文本但从网页的文本内容入手仅能得到有限的语义信息,而语义内容入手仅能得到有限的语义信息,而语义Web则可以较好的处理这个问题。则可以较好的处理这个问题。n近年来大量的数字化多媒体数据被加入互联网,近年来大量的数字化多媒体数据被加入互联网,传统的基于内容的多媒体数据检索技术,不能有传统的基于内容的多媒体数据检索技术,不能有效利用网上的多媒体数据。基于语义的查询能够效利用网上的多媒体数据。基于语义的查询能够利用多媒体资源的高级特征,从而使各种多媒体利用多媒体资源的高级特征,从而使各种多媒体数据资源得到有效利用。数据资源得到有效利用。39第39页,此课件共132页哦计算机软件技术计算机软件技术n数据
47、库技术数据库技术n数据仓库数据仓库n空间数据库、移动数据库空间数据库、移动数据库n实时数据库、数据流技术实时数据库、数据流技术nXML数据库、微型数据库数据库、微型数据库n商用数据库新进展商用数据库新进展n数据库新技术在地矿行业的应用数据库新技术在地矿行业的应用n软件工程技术软件工程技术n软件工程中的知识管理软件工程中的知识管理40第40页,此课件共132页哦数据库技术数据库技术数据仓库数据仓库n数据仓库数据仓库n数据仓库的定义数据仓库的定义n面向主题的、集成的、相对稳定的、反映历史变面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。化的数据集合,用于支持管理决策。n数
48、据仓库的主要特点数据仓库的主要特点:n数据仓库面向分析型数据处理,用于支持决策数据仓库面向分析型数据处理,用于支持决策,不同于企业现有的操作型数据库;不同于企业现有的操作型数据库;n数据仓库是对多个异构数据源进行的有效集成,数据仓库是对多个异构数据源进行的有效集成,并按主题进行重组,数据一般也不再修改。并按主题进行重组,数据一般也不再修改。41第41页,此课件共132页哦数据库技术数据库技术数据仓库数据仓库n数据仓库的体系结构图数据仓库的体系结构图数据仓库数据仓库抽取抽取转换转换加载加载更新更新OLAP引擎引擎分析分析查询查询报表报表数据挖掘数据挖掘监测集监测集成成元数元数据据数据源数据源前端
49、工具前端工具数据集市数据集市操作数据库操作数据库其它数据源其它数据源数据存储数据存储OLAP服务器服务器42第42页,此课件共132页哦数据库技术数据库技术数据仓库数据仓库n数据仓库与联机分析处理数据仓库与联机分析处理OLAPnOLAP是使分析人员能够从多角度对信息进行快是使分析人员能够从多角度对信息进行快速、一致、交互地访问,从而获得对数据的更深速、一致、交互地访问,从而获得对数据的更深入了解的一种软件技术,其目标是满足在多维环入了解的一种软件技术,其目标是满足在多维环境下特定的查询和报表需求。境下特定的查询和报表需求。nOLAP的核心是将数据按照多维结构(即数据立的核心是将数据按照多维结构
50、(即数据立方体)进行组织与处理,即将实体的重要属性定方体)进行组织与处理,即将实体的重要属性定义为义为“维维”,并且,并且“维维”可以包含复杂的层次结可以包含复杂的层次结构。构。n根据根据“维维”的结构层次不同,的结构层次不同,OLAP分析的常见分析的常见操作包括下钻、上卷、切片、切块以及旋转等。操作包括下钻、上卷、切片、切块以及旋转等。43第43页,此课件共132页哦数据库技术数据库技术数据仓库数据仓库n数据立方体的实例数据立方体的实例美国的电视机美国的电视机年度销售总额年度销售总额日期日期产品产品国家国家sumsum TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMe