《2022年2022年开放数据的查询处理 .pdf》由会员分享,可在线阅读,更多相关《2022年2022年开放数据的查询处理 .pdf(48页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第页1 本科毕业论文(设计)题目_开放数据的查询处理 _ 学院 _计算机科学与信息技术学院_ 专业 _计算机科学与技术 _ 年级 _07 级_ 学号 _222007321012033_ 姓名 _温光玉 _ 指 导 教 师 _李莉_ 成绩 _ 2011 年 4 月20 日名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 48 页 - - - - - - - - - 第页2 开放数据的查询处理温光玉西南大学计算机与信息科学学院,重庆,400715 摘要本文的研究主要基于现存于语
2、义网(Semantic Web )上的链接开放数据集(Linked Open Data,LOD ) 。系统的主要目标是利用链接开放数据集上的数据源Semantic Web Dog Food 网站提供的开放数据集(Open Data Set) 建立一个学术黄页。 首先, 笔者利用开放数据源收集信息,然后提取“person, paper, conference, country, organization”这五方面的信息,并对这些信息进行一定的过滤处理,提取出有效信息后,进行一定的分析处理和统计,旨在为用户提供具有一定搜索功能的学术黄页。最终实现的系统使得用户可以在这个网站上搜索那些致力于语义网研
3、究的作者/ 学者,会议,机构的基本信息,并对各学者所在机构的地理位置进行统计,同时网站也会会对这些搜索和统计结果提供了图形化展示。关键字 :语义网,开放数据集,全文检索,资源描述框架Query Processing On the Open DataGuangyu Wen Faculty of Computer and Information Science, SouthWest University, Chongqing 400715, ChinaAbstract In recent years,with the emergence of the social network and the
4、rapid development of social network systems, for example, the instant messaging tool MSN, information-sharing website YouTube, Facebook etc, people increasingly rely on social networks to communicate with others, either in work or study, or both of them. Growing social networks brings opportunities
5、as well as challenges to the Semantic Web. Now, the Semantic Web is generally regarded as the next generation of the Internet. In recent years, the Semantic Web has become a popular term, and sometimes representing almost everything on the web. This paper is based on an existing linked open dataSema
6、ntic Web Dog Food(SWDF). The main purpose of the work is to build an academic yellow page to facilitate research work in the Semantic Web area. Firstly, the information about authors and papers in the area of the Semantic Web fields are extracted from the data source (i.e.SWDF). Secondly, the key in
7、formation about person, paper, conference, country, organization are re-organised accordingly. In order to get the correct and valid information, the obtained data sets are analysed and filtered. Then an academic yellow page which can provide some services to end-users is built. The end-user may use
8、 this website to search the relevant information about authors who are working in the Semantic Web area. The publication information indicates the authors involvement in the area. Other statistics such as how many papers have been published within a specified organisation, and the number of papers p
9、ublished ina country reveals some interesting results, some graphical views are demonstrated as well.Key word :Semantic Web,RDF,data search,Linked Open Data 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 48 页 - - - - - - - - - 第页3 目录引言- 1一 绪论 - 11.1 语义网的概念 - 11
10、.2 语义网的研究现状- 21.3 研究意义 - 21.4 语义网的相关技术- 21.4.1 可扩展标记语言XML - 21.4.2 资源描述框架RDF - 21.4.3 语义网的语义集成(Data Integration)- 31.5 开发技术 - 41.5.1 开发平台 Visual Studio 2010 - 41.5.2 开发框架 .net4.0 MVC2 + entity framework - 41.5.3 Linq技术 - 51.5.4全文检索及L控件 - 51.5.5 Google Maps API - 81.5.6 Pajek 软件 - 8二 系统分析 - 82.1 用户需求
11、分析 - 82.2 系统设计原则 - 10三 系统的总体设计 - 113.1 系统总体设计流程- 113.2 系统的数据流图(DFD ) - 133.3 系统的用例图 - 133.4 网站总体设计图:- 14四 系统详细设计 - 154.1 数据查询模块 - 154.2 数据展示模块 - 164.2.1作者关系展示模块 - 214.2.2 组织分布展示模块 - 22五系统实现 - 235.1 数据查询模块 - 235.1.1 Lucene.Net实现原理 - 235.1.2查询首页 - 235.1.3按 Person 查询 - 245.1.4 按 Paper 查询 - 265.1.5 按 Or
12、ganization查询 - 285.1.6 按 Country 查询 - 295.2 数据展示模块 - 305.2.1 Person展示界面 - 305.2.2 Paper展示页面 - 32名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 48 页 - - - - - - - - - 第页4 5.2.3 Conference展示页面 - 345.2.4WorkShop展示页面 - 345.2.5 Country展示页面 - 345.2.6 Organization展示页面
13、 - 365.3 搜索结果的图形化展示- 375.3.1 作者 -作者关系展示图- 375.3.2 组织地理位置展示 - 39六 总结和展望 - 416.1 总结 - 416.2 展望 - 42参考文献: - 43致谢- 43名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 48 页 - - - - - - - - - 第页1 引言从古至今,人类的文明和知识的传播总是相辅相成的。无论是远古时代的草绳记事,还是后来的烽火传信,亦或是现在的信息时代,人类文明的延续和发展都离不开
14、知识的传播。在二十一世纪,知识比以往的任何时代都更易存储,传播,组织和检索。互联网作为信息的载体,改变了数千年来人类对知识利用的形式。互联网以丰富而多样的形式将知识组织,重现,将世界各地的信息融合起来,使得整个互联网变成了一个巨大的知识库。然而,随着 WEB 信息量的膨胀,人们越来越多的意识到-我们很聪明的创造了WEB 这个庞大的知识库,却缺乏有效利用的技术。人们早已不担心去搜寻海量信息的途径,但是对于如何让计算机有效、自动的去处理这些搜索而来海量的信息,人们还是束手无策。于是, Berners-Lee 于 1999年提出了下一代WEB 的概念语义网。近年来,针对语义网的研究和基于语义网的知识
15、管理受到人们越来越多的重视。本文主要针对对语义网上的开放数据源提供的信息进行有效提取和有效处理,旨在构建一个基于开放数据源的学术黄页。一 绪论1.1 语义网的概念语义网的英文是Semantic Web。顾名思义,语义网是可以进行语义分析的。这也是它与传统网络的最大不同之处。 通俗的说,语义网是一个通过能表达网页内容的“词语”连接起来的全球信息库。Tim Berners Lee并没有给出语义万维网严格的数学定义, 只是在和当代万维网的对比中, 给出了如下的描述 : 语义万维网并不是一个从无到有孤立发展的万维网 , 而是对当前万维网的延伸和扩展, 语义万维网上的信息具有定义良好的含义 , 计算机能
16、根据概念的定义声明和逻辑推理规则发现资源对象的含义, 使得机一机之间以及人一机之间都能够更有效地合作处理【1】 。在语义万维网中定义和链接的数据能被各种不同的应用程序以更为有效的方式查询,重用和集成。语义网是人工智能领域和Web 技术相结合的产物,人工智能领域中的知识工程研究从孤立的知识库系统逐渐发展到信息系统集成,最后扩展到整个 Internet。语义网较之传统互联网的优势在于语义网不同于现存的万维网,它通过开发一系列计算机可理解和处理的,能表达语义信息的语言和技术,以支持网络环境下广泛有效的自动推理,使得其数据不仅仅被人类所理解,更是能被计算机所理解。因此,新一代万维网中将提供能为计算机所
17、处理的数据,这将使得万维网上大量的智能服务成为可能。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 48 页 - - - - - - - - - 第页2 1.2 语义网的研究现状近几年来,语义网的研究已经成为互联网研究领域的热点。不仅许多学者专家投身到对语义网的研究中,许多公司,机构也投入于对语义网建设的工作中。许多人认为语义网就是下一代互联网。目前,我国对语义网的研究还处于起步阶段,与国外相比,我国的研究进度还是比较落后【2】 。不过随着时间的推移,我国的语义网研究也是
18、越来越广泛而深入,发表的论文数量也随着时间的推移而有所增加,但是大多数发表的论文都是基于对语义网理论的介绍或概述,而对语义网层次结构的构建以及其底层机制都缺乏更深入的研究 【5】 。 对于更广泛的推广语义网, 使语义网技术深入到人们日常的生活中,还尚且需要时日。1.3 研究意义传统意义上的互联网相当于是一个储存信息的媒介,拥有海量的文字,图片等各种形式的信息,但是从繁杂的信息中提取有效信息的效率低下。传统万维网上的数据是非结构化的文档,而语义网上的数据则是结构化文档。语义网的研究旨在解决WEB 信息无法自动处理,有效利用和WEB 服务存在的异构性问题,以创造真正的智能化WEB 服务,使得用户可
19、以进行更复杂而精确的查询【3】 。1.4 语义网的相关技术1.4.1 可扩展标记语言 XML XML (Extensible Markup Language)即可扩展标记语言,它与HTML 一样,都是SGML(Standard Generalized Markup Language,标准通用标记语言 ) 。 XML 由W3C 创建,用来克服 HTML 所缺乏的语义表示,是语义网上的信息统一的数据交换格式。它继承了以往标记语言的优点,是一种可以用来创建标记的标记语言。XML 采用纯文本的基本形式来存储和表达信息。这种存储方式使其具有持久性和自描述性的优点。XML 采用树模型来充分发挥其信息的表示
20、能力, 并利用 DTD 或者XML Schema 来定义 XML 文档的树模型结构。XML 的标记是对文档内容进行描述的元数据,形式上都是用一对尖括号()括起来。XML 文档的标记可以由用户自己自由创建,比起HTML 有着更好的灵活性。即是说, XML 文档是一种标记元语言, 没有固定的标记, 而是让用户根据需要自行创建标记。目前,XML元语言已经被广泛的应用于多个领域中【3】 。1.4.2 资源描述框架 RDF RDF 由三元组表示,有一套特定的术语来表达其声明里的各个部分,这种声明可以是网页的标题、作者、修改日期、内容以及版权信息。三元组可以表示为“主体- 谓词-客名师资料总结 - - -
21、精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 48 页 - - - - - - - - - 第页3 体” ,即:资源的声明中用于区分资源的部分称为主体,用于区分声明对象主体各个不同的特性的部分被称为谓词,而用于区分各个特性的值的部分被称为客体【4】 。RDF 区分资源,文字这些对象类型,并定义rdf:Property为特性组成的类,要求主体必须是资源,谓词只能由特性担当,而客体可以是资源也可以是文字。如图1-1 http:/data.semanticweb.org/conference/dc/
22、2010/paper/posters/A-1015http:/data.semanticweb.org/person/ahsan-morshedhttp:/data.semanticweb.org/Paper/creator图1-1 RDF三元组结构图Fig.1-1 A triple structure of RDF其中: http:/data.semanticweb.org/conference/dc/2010/paper/posters/A-101 为主体, 对应于资源。而客体是 http:/data.semanticweb.org/person/ahsan-morshed ,对于于特性值
23、,谓词则是http:/data.semanticweb.org/Paper/creator ,对应的特性。RDF 的灵活性在于特性和声明都可以是资源,可以作为声明的主体加以描述。1.4.3 语义网的语义集成( Data Integration)近年来,万维网上的语义数据集以指数级增长。人们把越来越多的语义数据发布到互联网上,到 2010年6月份为止,来自不同领域的在线数据集已经拥有超过了10亿多条资源描述框架( Resource Description Framework,RDF )三元组【 7】 。这些语义数据是开放的,用户可以自由的使用和标注它们,并且这些语义数据覆盖了很多领域,比如地理信
24、息、生物、乃至艺术领域。这些大量涌现的结构化数据为搜索,浏览,利用资源提供了很好的条件, 但同时人们也发现这些语义数据包含了许多冗余和重合的信息。比如,在链接开放数据( Linked Open Data,LOD )上的两个数据集 Dbpedia和Freebase就存在大量的重合实体。因此,在把这些数据集当成一个整体使用之前,必须要确定不同的数据集中有哪些概念关系和实体是相同的,这就是语义数据集成。语义集成的目标是在数据集中发现相同的概念, 关系和实体。目前,Google公司开发的 OpenSocial 平台【7】 ,提供了一系列的 API来实现不同社会网络的信息集成。当今,语义集成是基于语义网
25、的知识管理研究的热点。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 48 页 - - - - - - - - - 第页4 1.5 开发技术1.5.1开发平台 Visual Studio 2010 Visual Studio 是微软公司推出的一种开发平台,也是目前最流行的 Windows 平台应用程序开发环境。Visual Studio 可以用来创建 Windows 平台下的 Windows 应用程序和网络应用程序,也可以用来创建网络服务、智能设备应用程序和 Office
26、 插件。Visual Studio 2010 是目前最新的版本,增加了许多新特性。Visual Studio 2010的主要目标是为开发者带来新的观念,在PC 与互联网之间拓展更多的机会。VS2010 自带的Microsoft SQL 2008 Express,使数据库的访问更加简单便捷。可视化设计器、调试功能,使 Web ,ASP.NET AJAX 的技术开发人员能够迅速创建更高效、交互式更强和个性化的Web 应用程序。1.5.2 开发框架 .net4.0 MVC2 + entity framework 本系统是基于 .net4.0 MVC2+entity framework 的框架以及 L
27、INQ技术进行开发的。 MVC 的全称是 Model View Controller (MVC) architecture ,既: “M=Model V=View C=Controler ” ,译为中文是“模型 - 视图- 控制” 。使用 MVC 框架的优点: 可以为一个模型在运行时同时建立和使用多个视图。变化-传播机制可以确保所有相关的视图及时得到模型数据变化,从而使所有关联的视图和控制器做到行为同步。 视图与控制器的可接插性,允许更换视图和控制器对象,而且可以根据需求动态地打开或关闭、甚至在运行期间进行对象替换。 模型的可移植性,因为模型是独立于视图的,所以可以把一个模型独立地移植到新的平
28、台工作。需要做的只是在新平台上对视图和控制器进行新的修改。 潜在的框架结构,可以基于此模型建立应用程序框架。MVC 框架图如下名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 48 页 - - - - - - - - - 第页5 如图 1-2 MVC 框架图Fig.1-2 framework char of MVCADO.NET Entity Framework 以 Entity Data Model (EDM) 为主,将数据逻辑层切分为三块,分别为 Conceptual
29、Schema, Mapping Schema 与 Storage Schema 三层:(1)概念层:负责向上的对象与属性显露与访问, 让上层的应用程序代码可以如面向对象的方式般访问数据。这部分由设计器自动生成,表现为一系列的类。(2) 对应层:将上层的概念层和下层的储存层的数据结构对应在一起, 负责将上层的概念层结构以及下层的储存体结构中的成员结合在一起,以确认数据的来源与流向。这部分由描述语言实现,可以自由修改。(3) 储存层:根据不同数据库与数据结构,描述实体的数据结构体,负责与数据库管理系统 (DBMS) 中的数据表做实体对应 (Physical Mapping),让数据可以正确输入到数
30、据源中,或者从数据源中正确的取出。1.5.3 Linq技术为了从根本上解决 Web开发领域的数据访问难题,自.net3.5框架就引入了 LINQ (即微软的 ORM ) 。LINQ是“Language Integrated Query”的简称,它是集成在 .NET编程语言中的一种特性,是编程语言的一个组成部分。LINQ可为程序提供以下的数据支持: 基于.NET的查询,集合与转换操作 可操作几乎所有的数据类型 支持关系数据库操作.NET3.5 及以上版本还存在着3 种独立的 LINQ技术: LINQ to DataSet ,LINQ to SQL LINQ to Entities。LINQ查询表
31、达式中每个子句可以包含一个或多个C# 表达式,而这些表达式本身又可以是查询表达式或包含查询表达式。查询表达式和其他表达式一样, 可以用在 C#表达式有效的任何上下文中。 LINQ查询表达式包含8 个基本语句: from、where、select 、orderby 、group、into 、join和 let 语句。1.5.4 全文检索及 L 控件什么叫做全文检索呢?这要从我们生活中的数据说起。我们生活中的数据总体分为两种:结构化数据 和非结构化数据 。结构化数据: 指具有固定格式或有限长度的数据,如数据库,元数据等。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - -
32、- - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 48 页 - - - - - - - - - 第页6 非结构化数据: 指不定长或无固定格式的数据,如邮件,word 文档等。当然有的地方还会提到第三种,半结构化数据,如XML ,HTML 等,当根据需要可按结构化数据来处理,也可抽取出纯文本按非结构化数据来处理。非结构化数据又一种叫法叫全文数据。按照数据的分类,搜索也分为两种:对结构化数据的搜索 :如对数据库的搜索,用SQL 语句。再如对元数据的搜索,如利用 windows 搜索对文件名,类型,修改时间进行搜索等。对非结构化数据的搜索 :如利用 win
33、dows 的搜索也可以搜索文件内容,Linux 下的 grep命令,再如用 Google 和百度可以搜索大量内容数据。对非结构化数据也即对全文数据的搜索主要有两种方法:一种是 顺序扫描法 (Serial Scanning) :所谓顺序扫描,比如要找内容包含某一个字符串的文件,就是一个文档一个文档的看,对于每一个文档,从头看到尾,如果此文档包含此字符串,则此文档为我们要找的文件,接着看下一个文件,直到扫描完所有的文件。如利用 windows 的搜索也可以搜索文件内容,只是相当的慢。如果你有一个80G硬盘,如果想在上面找到一个内容包含某字符串的文件,不花他几个小时, 怕是做不到。 Linux下的
34、grep 命令也是这一种方式。 大家可能觉得这种方法比较原始, 但对于小数据量的文件,这种方法还是最直接,最方便的。但是对于大量的文件,这种方法就很慢了。有人可能会说,对非结构化数据顺序扫描很慢,对结构化数据的搜索却相对较快(由于结构化数据有一定的结构可以采取一定的搜索算法加快速度),那么把我们的非结构化数据想办法弄得有一定结构不就行了吗?这种想法很天然,却构成了全文检索的基本思路,也即将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息,我们称之索引。这种说法比较抽象
35、,举几个例子就很容易明白,比如字典,字典的拼音表和部首检字表就相当于字典的索引,对每一个字的解释是非结构化的,如果字典没有音节表和部首检字表,在茫茫辞海中找一个字只能顺序扫描。然而字的某些信息可以提取出来进行结构化处理,比如读音,就比较结构化,分声母和韵母,分别只有几种可以一一列举,于是将读音拿出来按一定的顺序排列,每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音,然后按其指向的页数,便可找到我们的非结构化数据名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10
36、 页,共 48 页 - - - - - - - - - 第页7 也即对字的解释。这种先建立索引,再对索引进行搜索的过程就叫全文检索(Full-text Search)。下面这幅图来自 Lucene in action ,但却不仅仅描述了Lucene的检索过程,而是描述了全文检索的一般过程。全文检索大体分两个过程,索引创建 (Indexing)和搜索索引 (Search)。索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。搜索索引:就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程。L 是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检
37、索引擎的架构,提供了完整的查询引擎和索引引擎。开发人员可以基于L 实现全文检索的功能。L 是 Apache软件基金会赞助的开源项目,基于Apache License 协议。L 并不是一个爬行搜索引擎, 也不会自动地索引内容。 我们得先将要索引名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页,共 48 页 - - - - - - - - - 第页8 的文档中的文本抽取出来,然后再将其加到L索引中。标准的步骤是先初始化一个 Analyzer 、打开一个 IndexWriter 、
38、然后再将文档一个接一个地加进去。一旦完成这些步骤,索引就可以在关闭前得到优化,同时所做的改变也会生效。这个过程可能比开发者习惯的方式更加手工化一些,但却在数据的索引上给予你更多的灵活性。1.5.5 Google Maps API Google Maps API 是 Google 公司为开发者提供的Maps API。它允许开发者在不必建立自己的地图服务器的情况下,将Google Maps 地图数据嵌入到网站之中,从而实现嵌入 Google Maps的地图服务应用,并借助 Google Maps 的地图数据为用户提供位置服务。Google Maps API 除了帮助开发者将地图嵌入到Web 应用中
39、之外,还允许开发者利用JavaScript 脚本进行应用开发拓展,比如给地图添加标注,折线及其他地图图层覆盖物,或者响应用户的点击动作, 并显示包含内容信息在内的气泡提示窗口。通过 Google Maps 为开发者提供的地图API,可以开发出各种各样有趣的地图Mash-up 应用,还可以将不同地图图层加载到应用中, 如卫星影像、根据海拔高度绘制的高山和植被地形图、街道视图等,从而帮助开发者打造个性化的地图应用站点。对统计结果的图形化展示中调用了 Google 提供的世界地图,并在上面做出标注。1.5.6 Pajek 软件Pajek 是流行的大型复杂网络分析工具, 是用于研究目前所存在的各种复杂
40、非线性网络的有力工具。 Pajek 在 Windows环境下运行,用于在上千乃至数百万个结点的大型网络的分析和可视化操作。目前,许多领域中的语义分析都会用到Pajek 工具。比如数据挖掘的 2-mode网,传播网( AIDS 、新闻、创新)以及化学有机分子【10】 ,蛋白质受体交互网等。本文主要用Pajek 软件来实现对人物 -人物关系的图示表示。二 系统分析2.1 用户需求分析在客户端需要实现四个基本功能:按作者名字 (Person) 查询按组织机构( Organization )的名字查询按论文题目 (Paper) 查询按国家 (Country) 查询用户需求模型图如图2-1:名师资料总结
41、 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 12 页,共 48 页 - - - - - - - - - 第页9 图 2- 功能需求模型图Fig.2-Function Provided by the System(1)人物( Person)查询模块本模块实现了用户的作者查询需求。主要功能为:系统根据用户键入的作者名字关键字,在数据库中进行匹配搜索查询。最后反馈的内容应包含所有与输入关键字匹配的作者信息的链接,以及对该作者所在组织,发表论文数,出席会议的数量及所属工作小组的数量的统计。用户点击人
42、物信息的链接可以查询到以下内容:作者的名字,所发表的论文,所参与的会议,所参加的组织 和 该 作 者 有 关 系 的 人 , 这 种 关 系 的 定 义 可 以 是 一 起 共 同 撰 写 一 篇 文章(Co-Author ) ,也可以是出席过同一场会议,还可以是同一个工作小组里的成员,甚至是以上几种关系的组合。(2)论文( Paper)查询模块用户键入文章题目或部分题目,服务器端接收用户的查询请求,在后台数据库中进行搜索,将搜索到的所有匹配的结果反馈给用户。其中反馈的内容应含所有匹配输入关键字的论文信息的链接,以及论文所属的会议,论文的作者。用户点击论文的链接可以查询到以下内容:论文题目论文
43、发表的时间论文所属的会议、组织或工作小组名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 13 页,共 48 页 - - - - - - - - - 第页10 论文的作者论文的摘要论文的链接(3)组织机构( Organization )查询模块用户键入组织名,服务器端接收查询请求,在数据库中进行搜索,将所匹配的搜索结果返回给客户端,其中反馈的内容为组织信息的链接,用户点击此链接,即可得到如下内容:组织名:组织的主页组织所属的国家组织的成员名字列表(4)国家( Country )查询模块
44、用户键入组织名,服务器端接收查询请求,在数据库中进行搜索,将所匹配的搜索结果返回给客户端,其中反馈的内容为国家信息的链接,同时系统对这个国家的组织个数做出统计,若用户点击此链接,即可得到如下内容:国家名字属于该国家的组织的链接列表属于这个国籍的学者发表的论文,并且可以按发表的年份进行查询为了让系统的界面更具友好性,内容更易被用户所理解,系统也将部分查询结果用图形化的方式展示给用户。如:用图形化的方式展示人物人物之间的关系在 Google 地图上展示组织的地理的分布情况2.2 系统设计原则(1)系统定位:明确该网站主要的服务对象,明确对不同开放数据集的融合,映射和处理。(2) 系统的实时性和可扩
45、展性在设计该系统时,应充分考虑该系统的扩展性,使得系统能与系统数据来源的网站同步跟新相关人物,论文,会议,组织,国家信息,并且不断的更新后台数据库。(3) 技术的先进性和系统的高效性在完成功能的同时应充分考虑该系统实现所用到的技术是否是前沿的,先进的,名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 14 页,共 48 页 - - - - - - - - - 第页11 同时在实际实现系统时也应根据实际情况,结合需求,尽可能的提高系统的运行效率和减少代码的冗余度。三 系统的总体设计该系统
46、的主要流程是:用户根据自己的实际查询需要选择不同的查询模块,系统根据用户不同的选择做出不同的查询反馈。系统的总体功能模块图如下(图3-1) :图 3-1 系统的总体功能模块图Fig.3-1Overall system functional block diagram3.1 系统总体设计流程系统设计的流程图如下(图3-2)基背知识及技术准备从开放数据集中提取数据(RDF )分析,处理,加工数据(RDF )判断整理后的数据是否有效有效的数据无效的数据二次加工建立数据集之间的映射关系将数据导入数据库建立查询机制,对返回结果进行处理图 3-2 系统流程图Fig.3-2 the flowchart 名师
47、资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 15 页,共 48 页 - - - - - - - - - 第页12 3.1.1 从开放数据源中提取数据集从 Semantic Web Dog Food提供的开放数据集中提取五个独立的数据集:Person 数据集,Paper 数据集, Conference 数据集, Organization数据集, Country 数据集。这些数据集中的数据的表现方式都是RDF格式。此步骤需要下载这些RDF 格式的数据到本地服务器。3.1.2 分析 RDF
48、的语义表示通过对比,推论,总结等方法对这些下载的RDF数据集进行语义分析,清晰其每个节点的现实意义,为后期的处理做好准备。图 3-3 作者的 RDF文件截图Fig.3-3 Screenshot of the RDF file 如上图,笔者通过分析,得到节点的现实语义。比如,节点made表示该作者发表的论文,其属性值为这位作者发表的论文URL,节点 Page 表示这名作者的主页,其属性值即是该作者的主页的URL 。以此类推,通过这种方法分别对Person,Paper,Conference ,Organization,Workshop这五个数据集进行语义分析,从而提取出需要的有效的信息。3.1.3
49、 处理加工数据集对这些数据集中不规范的地方做或手动或自动的加工处理,使其变成规范标准的RDF 格式,并能够被XML 解析器所解析,方便后期的统一处理。3.1.4 建立不同数据集之间的映射关系根据前期的语义分析,得出这些RDF数据的语义后,根据语义建立不同的数据集间名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 16 页,共 48 页 - - - - - - - - - 第页13 的映射关系,将五个独立的数据集通过某种或直接或间接的关系映射连接起来。3.1.5 将“干净”的数据导入数据
50、库根据对数据集的映射情况建立相应的数据表单,并将这些RDF数据解析得到有效信息后,将信息导入到数据库中,将 RDF格式的数据转换成数据库中的表单,方便查询。3.1.6 建立查询机制和结果反馈机制根据需求分析中得来的用户查询需要,建立相应的查询机制,实现查询的功能,并将所得的查询结果反馈给用户。3.1.7 对返回结果的处理为了方便用户的查询,网站需要对反馈的查询结果做出一定的处理。其中需要处理的部分如下:对结果排序的处理对结果的展示处理,使得查询更友好化,更易被用户所理解对网站数据的统计结果做出图形化的展示3.2 系统的数据流图( DFD )下面的数据流图(图3-4)(DFD图)描述了本系统中的