《电子政务领域数字档案本体的构建.docx》由会员分享,可在线阅读,更多相关《电子政务领域数字档案本体的构建.docx(17页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、电子政务领域数字档案本体构建周义刚/董慧2012-11-28 15:12:23来源:图书情报工作(京)2009年19期【英文标题】Construction of Digital Archives Ontology in E-government Domain【作者简介】周义刚,女,1977年生,馆员,发表论文10余篇,武汉大学信息管理学院部主任博士,武汉430072;董慧,男,1941年生,教授,博士生导师,发表论文70余篇,出版著作7部,武汉大学信息管理学院,武汉430072【内容提要】 在分析电子政务领域本体构建需求基础上,提出构建领域本体必备条件。针对这种需求,分析电子政务领域数字档案特
2、征,并根据该特征,探讨电子政务领域数字档案本体构建过程。This paper proposes the prerequisites of construction for the domain ontology after analyzing the requirement of ontology construction in the domain of E-government. Aiming at the requirements, the paper analyzes the characteristics of digital archives in E-government dom
3、ain. Then the paper discusses the construction process of digital archives in E-government domain. 【关 键 词】领域本体/数字档案/电子政务/本体构建Domain ontology/Digital archives/E-government/Ontology construction领域本体是用于描述指定领域知识一种专门本体。它给出了领域实体概念及相互关系领域活动以及该领域所具有特性和规律一种形式化描述。目前,本体模型研究已经进入实际应用阶段,许多研究领域都建立了适用于本领域标准本体1-2。We
4、b上有许多可利用本体资源库,这使得诸多领域专家能够使用它们来共享领域中信息。目前,国内图书情报领域关于本体研究尚处于起步阶段,领域本体构建是一项需要投入巨大人力物力科研活动,要构建某一领域内本体,决非某个人或某几个人所能完成。本文以电子政务领域数字档案为例,通过对构建本体具体过程介绍,建立了一个有关数字档案知识本体,希望本文能对未来电子政务领域本体进一步研究和构建提供有益借鉴。1 电子政务领域本体构建问题提出电子政务是指公共管理组织在政务活动中,全面应用现代化信息技术、网络技术以及办公自动化技术等进行办公、管理和为社会提供各种公共服务一种治理方式3。在电子政务初级阶段,需要完成政务数字化、信息
5、化任务:包括电子政务公文数字化、公文流转自动化、数字档案归档、政务信息上网等政务信息化基础工作。湖北省档案局已将2000年以来11 662篇政务公文进行了数字化归档。这些公文涵盖社会经济政治生活各个领域中各种事项:有政府专项工作部署、总结,也有职能部门对相关领域工作汇报;有会议精神传达,也有对社会突发事件报道。内容包括省委、省人大、省政府、省政协以及省委各部委、省级国家机关各委办厅局、各人民团体、各事业单位等形成法规性、政策性、服务性、公益性文件目录。这些公文内容广泛,时间跨度长,信息量大,总共文字统计近2 000万。湖北省档案局不仅将这些政务公文进行扫描,数字化归档为Tif格式图片,还提供这
6、些电子政务公文网上查询服务4。但是这种仅仅基于元数据或主题词查询服务,很难满足知识共享、辅助决策等电子政务需求。在这样背景下,湖北省档案局和武汉大学信息资源研究中心联合申请了“知识管理技术方法在数字档案馆建设中应用研究”项目。在这个项目中,采取本体作为数字档案馆知识管理核心技术,并以湖北省档案局提供政务公文作为原始资料,设计并实现基于本体数字档案馆知识管理模型。基于本体知识管理模型基础是领域本体库构建。2 构建领域本体必备条件本体构建是一项十分复杂系统工程,需要选择合适开发工具辅助并需要领域专家参和。笔者认为构建电子政务领域数字档案本体至少需要以下3个方面准备。2.1 本体形式化描述语言选择本
7、体形式化描述语言直接影响本体模型表达能力和可扩展能力。目前形式化本体描述语言非常多,经过比较,选用了OWL。OWL优点是以Web资源为描述对象,而且是W3C推荐标准,所以具有良好应用前景。另外,OWL是基于描述逻辑。这就意味着基于描述逻辑OWL类构造算子和公理都有相应逻辑描述表示,这样利用OWL构建本体库在具备良好表现能力同时还具有强大推理能力。这对于Web资源逻辑检测、本体集成、知识整合是非常重要。2.2 本体开发工具选择目前,国内外已经有许多成熟本体开发平台软件可供选择。经过我们对部分常见工具试用和比较,最终选择是Protg 3.3。Protg是由斯坦福大学医学信息化研究小组开发,一个基于
8、Java环境开放式架构开源知识建模工具。其扩展OWL插件是目前最为强大OWL本体构建工具。Protg不仅具有良好可扩展性和简单灵活用户定制界面,还具有如下一些特性:支持图形化本体编辑模式、支持数据库存储模式、基于OWL数据库多人开发模式和支持逻辑检测功能等。2.3 领域专家参和领域本体构建是本体开发人员和领域专家共同努力结果。开发人员虽然具有丰富本体知识和较强开发能力,但是对特定领域知识却知之甚少,很难建立起面向特定领域本体模型。所以本体构建非常需要领域专家参和。在电子政务领域数字档案本体构建过程中,湖北省档案局3位专家参和了本体库构建。在整个过程中,他们细致而专业理论支持协助了本体库成功建立
9、。3 电子政务领域数字档案特征3.1 电子政务档案类型分布现行国家行政机关公文处理办法规定国家行政公文有13类:命令(令)、决定、公告、通告、通知、通报、议案、报告、指示、批复、意见、函、会议纪要等。可以按照上行文、下行文和平行文将公文分为三类。其分类情况见表1。其中议案兼有上行文和平行文双重特征,通知同时属于平时文和下行文之列,会议纪要可以是下行文,也可以是平行文。用上述13类公文类型名在湖北省档案局数据库中进行检索,发现其文件类型分布见表2(数据来自检索结果,可能存在较小偏差),其中上先行文请示、报告和议案不出现在档案局数据库中。3.2 电子政务档案结构特点档案局电子政务文件以扫描图片方式
10、进行存放。由于国家对红头文件格式有着一定显性限制,并且长期以来,红头文件书写也存在一定潜在规律。这些限制和规律为档案领域本体构建提供了一定便利。电子政务档案一般由文件头,正文和文件尾组成,某些文件可能有附件。正文一般由以下几部分组成:标题、主送机关、原由和事项组成。原由有依据和目两种。其具体结构见图1所示。图1 电子政务档案结构3.3 电子政务档案内容相对确定性本体在人文社科领域应用相对较少,其中一个重要原因是人文社科领域不确实性,不同于数理公式推理演绎过程,人文社科领域结论多带有主观性。人文社科领域发展为人类社会带来了多样性,但同时也增加信息管理难度。档案公文不同于一般人文社科文献,它具有一
11、定确实性。国家或某一部委在某一时间段政策方针往往是明确。档案文件相对确定性有利于档案本体构建。3.4 电子政务档案内容相互关联性政府公文虽然涉及生活中方方面面,但从系统学上讲,政府公文所联系各个团体和个人组成了一个闭合系统。在这样一个聚集里面,成员是相对稳定,并且成员级别划分明确。各级职权明确,如公文接收单位一般是政府、政府职能部门、企业、机关团体、学校和军区等,并且接收对象往往只能是一个团体,而不是团体某个下属部门或机构。这样在档案领域本体构建中所确定部门本体是有限。在这样一个闭合聚集里面,成员节点数量少,而相互联系较多,这决定了各个成员之间关系是比较复杂,某一个成员可能成为许多联系成员节点
12、。正如政府某一项工作通常要求各个部门合作,发挥各自业务专长来完成。并且在从时间线来看,也存在着多种联系。如一旦上级召开某些会议,作为会议成果,一般会产生一些新思想和会议精神。一段时间后相关部门便会发布公文组织下属各级政府进行学习。政府会承办一些活动,政府会组织各方面人力物力来完成这些任务,在活动结束之后,政府可能会有一些通报和表扬。4 电子政务领域数字档案本体构建过程电子政务中档案领域本体构建用户需求明确而且相对稳定,根据本体构建常用方法:Skeletal Methodology(骨架法)、TOVE、METHONTOLOGY、Cyclic Acquisition Process和IDEF-5等
13、方法特点及适用环境,结合电子政务中档案馆业务特点和公文结构和内容特性,提出了档案领域本体构建方法。借鉴Skeletal Methodology设计,其流程见图2。图2 数字档案馆本体构建流程4.1 识别系统功能需求湖北省档案馆已经实现了相关公文数字化,并提供按检索号、组织机构、关键词、人物、文件编号、责任者和时间等多种检索方式,可以说其功能是比较完备。笔者利用本体对这些公文进行组织,其目是提供给用户更高效信息检索途径。相比于此前系统,基于本体检索系统细化了用户群体,提供更具有专指性检索服务。笔者将用户分为以下几类:公文书写者。政府机构或部门在书写公文时需要关心以下两方面问题:一方面是公文内容和
14、部门已有思想和政策是否相抵触,若抵触,如何协调和处理;另一方面是拟发布公文和上级机构思想是否冲突,这种冲突是不被允许。公文书写者需要查看上级政府相关政令以及部门以往思想和政策。本体通过建立部门已有公文之间关联,并用可视化方式将不同时间段相关主题之间关系展现给用户。事件关注和情报了解者。这类用户关注和事件相关全部公文,本体分子所具有专题功能可以将同主题知识聚合起来,并消除冗余。这种呈现方式比以往基于关键字匹配结果列表更为高效。也存在关注目标不明确用户,本体分子提供多粒度知识管理实现了知识组织方式和用户逻辑统一。用户可以在不同层次概念之间轻松地实现跳转。学习者。此类用户更关注公文中指导思想,而不是
15、具体实施方案。这种新思想是国务院组织相关专家进行多轮讨论,最终以公文形式发放给各地方政府,并由地方政府结合自身情况来具体实施。寻求依据和了解责任者。有些公文是对个人或部门约束。用户需要查询潜在行为是否合乎规定。上级部门已有领导方针和工作指导是部门开展工作凭据和规范。人事、机构关注者。用户想要了解关于某个人生平,最近职务情况或者是他受到所有奖惩。基于本体政务数字档案馆系统将人物这一概念从源文件中抽取出来,并且赋予一定语义。对人物检索不再仅仅是表态字符匹配,而是语义筛选。职务作为一个概念和某个特定人物实例关联起来,本体分子可以处理这种关联随时间动态变化。政策变化探究者。新政策出台、政策改变多数是由
16、于一些新现象、新事物出现而引发。只有了解政府指导思想法和意图才可能对新政策有更深刻地理解。现实事件概念复杂性决定了本体系统应提供给用户更多本体库观察视角,更具有针对性。总来说,基于本体电子政务数字档案馆系统功能就具有以下特征:语义性、专指性、强推理性和逻辑一致性。4.2 确定核心概念根据T. R. Gruber清晰、一致、可扩展性、编码偏好程度最小和本体约定最小原则5,笔者采用核心扩展(middle-out)方法建立领域知识概念模型。其表现形式为:由具有本体雏形一组核心概念入手,不断扩展本体6。按照核心扩展法,首先需要确定核心概念集。在充分分析了档案公文结构形式和内容特征之后,确定了“人物”、
17、“组织机构”、“文件对象”、和“事件”4个核心概念。核心概念作为概念模型顶级概念,须满足没有二义性、互不相交和并集覆盖电子政务数字档案知识要求。4.3 建立概念层次结构图确立核心概念后,对由这组具有本体雏形核心概念进行扩展,建立整个本体概念模型。这是一个自顶向下过程,即根据事先定义好上一层父类,分别逐步细化说明其下一级子类。在建立概念体系过程中,需要考虑和解决概念之间关系选择和层次结构组织。领域本体概念间存在着许多关系,仅仅“部分-整体”关系就达6种之多。“部分-整体”关系是本体构建中常用层次结构划分标准,其中“Kind of”和“Part of”是两个最常用。一个结构良好、可扩展概念模型要求
18、其层次结构中概念关系必须是同质、直接父子概念之间具有相同泛化程度。“Kind of”关系能够很好地满足这些要求。经过对概念模型中概念进行消除二义性、同层次概念间互不相交以及并集覆盖整个父类概念范围处理,最后得到了电子政务领域数字档案本体概念模型,如图3所示。图3 电子政务档案本体概念模型根据本体工程要求,人物划分为公职人员、商界人物、公众人士和国际人士。这一划分符合本体无交叉,覆盖完全原则。结合公文领域所涉及组织机构特点和用户需求,对组织机构做如下细划:政府机构、职能部门、国有企业、私营企业、团体学校和军区六种。之所以将政府机构和政府职能部门划分开来,是因为虽然职能部门在自己相关领域表现了扮演
19、角色,但是其在公文领域所扮演角色和政府机构极大差别,他们决定和建议只能通过政府来进行转发。这里定义职能部门包括省级财政厅、教育厅、交通厅、人事厅、信息产业厅、农林厅、地矿厅和水利厅等。市级有发展计划委员会、经济委员会、建设委员会、教育局、科学技术局、监察局、民政局和司法局等。国有企业和私营企业因出现在公文中概率不一样而被划归为两种,其经济成分性质也让人有理由将其划分开来。按照公文类型对公文进行划分,因为不同类型公文一般具有不同内容和结构。按照通知适用范围将通知分为以下4种:批转下级机关公文;转发上级机关和不相隶属机关公文;传达要求下级机关办理和需要有关单位周知或执行事项;人事任免。通报分为:表
20、彰先进、批评错误、传达重要指示精神或者情况。请示、批复、意见、函和会议纪要因其内容单一而不进行划分。其主要内容和字面意思保持一致。4.4 定义概念、术语和属性概念层次结构还只是本体骨架,其血肉就要通过概念间关系,即属性来充实。根据项目特点,概念需要定义两种属性,一种用于描述概念自身信息和结构;另一种用于描述概念之间关系,即数值属性和对象属性。同时,还需要进行概念和关系明确定义工作,即对属性自身性质,如取值类型、允许取值以及属性基数进行说明。4.5 本体编码在这个阶段,笔者利用OWL描述语言显式地形式化上个阶段完成概念模型,这部分工作主要是通过Protg + OWL插件本体开发工具来完成。出于本
21、体资源可重用性和开发协同性考虑,没有像大多数本体构建项目一样,将4个核心概念和角色属性类本体定义在一个OWL文件里。而是将4个核心概念分开定义到4个OWL文件,角色属性类根据其语义增强对象不同定义到不同本体文件中,这样就得到4个本体文件。同时,通过OWL中注释属性来对本体资源(类、属性、实例等)进行标注。利用这些属性可以标注本体资源版本信息、领域信息、分类信息以及开发者、备注等。这有助于开发人员分享、交流以及其他Web服务和本体获取工具对该领域本体资源识别和使用。Protg中还提供了逻辑检测功能。笔者利用Racer推理机对本体库概念和属性进行逻辑检测,保证了所建立本体库结构正确性。4.6 实例
22、化实例化工作包括实例声明、实例描述和关系关联三个部分。因为此本体构建项目特点是侧重信息描述(实例表现),所以实例化是整个开发工程过程中工作量最大,最为烦琐部分。虽然Protg可以帮助我们自动生成符合OWL语法库文件,但是手工在Protg中进行大量实例声明、实例描述和关系关联仍然是非常烦琐。所以为了减轻本体构建工作量,项目组开发了一个基于XML模式匹配中文半自动构建系统OntoLTCn7。OntoLTCn是在OntoLT基础上进行二次开发成果。OntoLTCn总体上按照Protg插件框架开发,运用了中文词法分析技术,将原本面向德语文本OntoLT框架应用于中文本体建库。4.7 工作成果从档案局1
23、1 662篇电子公文档案中,总共建立本体类76个,关系属性47个,本体实例数量5 427个。其中核心本体类有4个:“人物”、“组织机构”、“文件”和“事件”。这4类核心本体是湖北省档案局相关领导和公务员共同讨论确定电子政务领域最核心基本概念。在此基础上,进行了本体实例抽取,并进一步建成本体库。5 结论文章主要介绍在课题研究中所做本体构建工作,总结了项目实施中对本体构建过程。笔者相信利用本体思想和方法来组织电子政务领域数字档案知识,构建面向知识数字档案本体库是一次非常有意义尝试。希望在该项目上所做工作能够对大家有所帮助,也衷心希望和大家交流经验、相互学习。【参考文献】 1王梅.OWL领域本体构建
24、方法研究.图书情报工作,2006,50(12):30-33.2岳静,张自力.本体表示语言研究综述.计算机科学,2006,22(3):57-64.3林棋桐,王融.推行电子政务,建设廉明高效政府.2008-07-15. .42008-08-13. .5Gruber T. Towards principles for the design of ontologies used for knowledge sharing. International Journal of Human-Computer Studies, 1995, 43(5/6): 907-928.6董慧,陈亮.数字图书馆历史领域资源本体构建/董慧,唐晓波.信息化和信息资源管理学术研讨会文集.武汉:湖北人民出版社,2005:213-226.7董慧,姜赢,高中,等.基于XML模式匹配电子政务领域本体半自动构建系统/王新才.信息化和信息资源管理学术研讨会文集.武汉:湖北人民出版社,2007:229-244.