信息组织期末复习要点-(1).docx

上传人:叶*** 文档编号:36744370 上传时间:2022-08-28 格式:DOCX 页数:19 大小:46.47KB
返回 下载 相关 举报
信息组织期末复习要点-(1).docx_第1页
第1页 / 共19页
信息组织期末复习要点-(1).docx_第2页
第2页 / 共19页
点击查看更多>>
资源描述

《信息组织期末复习要点-(1).docx》由会员分享,可在线阅读,更多相关《信息组织期末复习要点-(1).docx(19页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、信息组织期末复习要点第一章 信息组织导论信息组织的环境与背景一、信息检索工具的变化1.手工检索时代:目录、题录、索引等2.计算机检索时代:各种检索系统,核心是数据库3.网络检索时代:检索型、目录型、混合型检索工具4.各种检索工具的涌现,目前互联网上运行的搜索引擎至少有几千种之多。二、信息检索技术的进步1.按照信息存储的载体和实现查找的技术手段,信息检索可以分为手工检索、机械检索、光电检索、计算机检索。2.网络信息检索采用的检索技术包括:布尔逻辑检索、自然语言检索、多语种检索、字段检索、区分大小写检索、限制检索、二次检索、自然语言检索、多语种检索、加权检索、模糊检索、概念检索、相关反应检索等1.

2、2 信息组织的相关概念与内容一、组织与组织系统1.组织:组织是一种有意识地行为;其目的是为了创造次序与构造2.组织系统:资源与交互3.组织系统的三层体系:用户界面、业务逻辑、数据4.组织对象的种类:物理实体、关于物理实体的信息、数字资源、关于数字资源的信息5. 资源、文献与馆藏1资源:资源具有一般意义上的任何价值, 可以支持面向目标的活动,如实体、对象等。资源在网络体系构造中具有特殊的意义。通常, 描述网页、图像、视频等资源, 以及访问它们的协议, 超文本传输协议 ( ), 使用统一资源标识符 (URI)。2文献:文献通常用于数字或物理格式的信息资源; 工件是指由人创造的资源, 以及具有经济价

3、值的资源的资产。3馆藏:馆藏是已为某一目的选择的一组资源。相似的期限被设置 (数学), 聚合 (数据建模), 数据集 (科学和商业) 和语料库 (语言学和文艺分析)。6.元数据:描述或与其他资源相关联的数据1挑战1:决定哪一个资源是主要的2挑战2:用于描述一个人或过程的元数据再用于描述其他资源7.信息组织:为了方便人们检索、获取信息而奖庞杂、无序的信息进展系统化和有序化的过程。从广义上来说,包括信息搜集与选择、信息分析与提醒、信息描述与加工、信息整理与存储。1.3 组织活动决策的6个方面一、组织活动决策的6个方面1.组织对象:不同组织系统的组织对象存在不同,如图书馆、博物馆、档案馆。越来越多的

4、组织系统处理和组织的资源是原生数字资源,如音乐、照片、视频和其他非文本内容如传感器数据。2.组织原因:发现,识别,选择,建立分类体系,类分,整合,分割,推荐,交互等。3.组织数量:并非所有的资源都应享有同等程度的组织。受控词汇可以产生更一致的组织,如果正在组织一个固定的资源集合, 那么可能会比需要一个能够容纳将来可能拥有的资源的组织系统来组织它。4.组织时间5.如何组织:组织活动从资源产生时就开场发生,嵌入到资源的整个生命周期中。如当一个作者撰写一篇文档时,作者通过标题、章节标题、体例、页码和其他机制对该文档进展了一定程度的组织,用以区分和识别与其他局部的关系。数字形式的照片、视频和文档在创立

5、时往往被自动地赋予了相应的描述,如时间和位置。6.组织位置:可以在物理安排中组织资源,资源安排可以鼓励或劝阻人之间的交往, 创造自由、平安感或监禁的感觉。对于数字资源, 它们组织的位置通常是无形的或无关紧要的。第二章 信息组织导论信息组织系统中的4类活动一、 分别是什么?1.选择信息资源1选择是一个发现,识别,评估资源并纳入组织系统中某一集合的过程。选择的方法和标准因不同领域而异,但它们要确保资源能够实现“面向目标的活动“。2选择和保存所有资源:信息过载、弱组织原那么 选择在组织之前:独特或罕见资源需要被一个一个地评估 选择和组织并发:同质或可预测的资源 选择在组织之后:根据模式创立的资源3选

6、择标准:基于某些特定目的效用价值、内在价值、稀缺性或唯一性、最新、建立品牌或声誉、适于使用。4路径依赖5选择与采样:如果您的目标是对其进展推论而不必研究其所有实例,那么通过从大量群体中随机抽样来选择资源至关重要。基于统计的良好样本是指被选资源和未被选资源在重要方面没有不同。2.组织信息资源1几乎任何资源的属性都可以用来组织它们,但是最适当或有效的属性因资源类型和任务而异。在资源创立或被选择之前,就应当决定在组织中使用哪些资源属性。2组织物理资源3自动/预先注意:物理资源通常根据诸如它们的尺寸,颜色或形状的内在物理性质来组织,因为人类视觉系统快速且自动地对它们给予很多关注。相近性和相似性、即格式

7、塔原那么。4形状和颜色的预处理,当形状和颜色特性不相关时,预注意与处理并行是不可能的。5整体由一些相互作用的局部组成,这些局部可以在整体上分开,分析和重新排列。当视觉信息不明确时,存在将视野的一些局部视为前景而将其它局部视为背景的自然趋势。6连续性7伪装:类似于背景,反向阴影,阴影消除和破坏边缘检测的破坏性着色,颜色和图案证明了Gestalt处理的力量。3.支持交互1直接交互与中介交互:与资源的交互可以是直接的,中介的或间接的,或限于与资源副本、描述的交互。2交互与价值创造:物理操作,符号控制和人际交互,三者的交互有不同的地方。3物理资源的价值创造4数字资源的价值创造:交互的本质是对资源中包含

8、的信息进展信息交换或符号操纵。用于信息资源的数字资源描述可以促进查找,识别,选择和其他“价值创造交互,即使资源本身没有被数字化。5智慧资源的价值创造6符号交互和其它技术作用的分解7价值创造:功能可见性和交互设计8功能可见性:交互不同于那些通过有意识的描述、整理或技术之后产生的“被设计的交互.9数字化与交互:数字资源交互的种类和功能由编码中的构造和语义的数量“信息智能来确定。4.维护信息资源1维护包括任何活动, 其目的是确保资源在将来的某一时间使用或重用。2可维护性和扩展性设计/组织。3选择基于应用于资源的一些隐式或显式条件。4保存物质资源需要保持在防止其恶化的条件下,它还包括用于改良访问或恢复

9、资源的举措。5文档恢复6数字保护:副本、篡改杜绝等7法律:启用文档发现的民事诉讼规那么、政府问责、被遗忘权、强制披露数据泄露。8记录管理:保存要求、不保存要求、访问控制,特别是分类信息制止保存个人身份信息、去除要求和权限等。9计算治疗:众包数字化 /公民科学,许多博物馆或科学存储库正在寻求帮助将他们的藏品数字化,初步分类和稀缺专家。第三章 组织系统中的资源3.1什么是资源一、资源的粒度1.资源是其他资源的聚合或复合材料, 或具有内部构造, 对其“属性的粒度构成疑问。2.我们可能需要组织和管理粒状资源、复合资源以及它们之间的关系-同时也可以在不同级别的上下文/容器/集合中标识 零件。3.对于信息

10、资源而言, 物理资源的粒度更容易确定二、资源的标识符1. 标识符:是一种特殊命名,它通过规那么以受控的方式分配,规那么定义可能的值和命名原那么。例如,将一个数字资源的标识符输入到系统中,从而确定它的位置,这样它就可以被检索出来。三、资源的名称1. 名称:指的是对某一资源区别于其他资源的标签。2. 名称的选择往往受到多种因素的影响,如公众的可获取性、习惯,语言类型,机构政策,个人以及文化偏见等。如果一个资源有两个及以上的名称或者标识符,也就意味着有同义词或别名的出现。这种现象被称为“词汇问题。3. 受控词汇可用于来解决词汇问题。通过添加名称和标签,标准资源被分配的规那么,或通过自然语言定义映射,

11、使其转换为权威或受控的术语。需要注意的是,词汇控制不能消除所有歧义。3.2资源的属性一、四个可区分属性1.资源域1每个资源具有一定的区别于其他资源的本质或类型,称之为资源域。对于物理资源而言,域的区别较为容易,即可以粗略根据物质容易感知的属性做物质类型的区分。对于信息资源而言,容易被感知的属性往往不可靠和不相关,因此更多的是基于语义特征来进展域的区别。2信息资源可以被分类和分层,但有时候类别边界不清晰却更有益于从弱构造的叙事内容到高度构造化的事务性内容发现信息资源的域。由此,格鲁什科和麦格拉思提出了文档类型谱。3不同构造域或类型的文档可以根据被语义规定的内容区分,即通过其内部构造数量、呈现方式

12、和内容构造的相关性。2. 资源格式1物理环境还是数字环境,信息资源都能以各种格式存在。知道哪个是最原始或者最重要的信息资源十分的重要,特别对于独特的或有价值的信息资源而言。2数字信息资源的两个维度:内容表示显性化程度和内容表示的别离程度。信息智商,如扫描文档;数据库或XML文档;HTML文档。具有较高“智商格式的信息很容易和有效地用计算机处理。3编码构造的部件,如章,节或类似的语义组成。信息是否被编码为文本字符的序列,以使它是人类以及计算机可读也是十分重要的。3. 资源能动性1代理是在某种程度上促使资源可以自发引起自身的行动。被动型:组织系统中的被动型资源无处不在,这些资源通常是无形的,只有某

13、些行动的触发才能使得他们变得有价值。主动型:主动型资源通常依靠自己创造效益和价值,有时候也通过触发被动型资源产生。2智能性连续体感知与意识:资源媒介感知周围环境和其他资源的互动的根底,但是感知事物并不能为组织系统创造任何价值。刺激:当资源通过信息的感知采取行动时,才具备创造价值和影响的能力。驱动器:通常被用来描述可以控制物理机械或者系统的东西。关联:主动型资源要发挥自身的作用,就必须要与控制其他资源的驱动器相关联。计算或计算力:主动型资源通常可以通过阅读传感器的信息,然后分析信息的内容并不断去调整行动。可组合性与合作:智能的主动型资源不仅仅能够分析所搜集的信息和为之调整行为,还可以在共同遵守一

14、定格式和标准的根底上,会聚不同来源的信息来创造更大的价值。4. 资源格式与焦点1物理形式描述物理资源:描述性资源与物理资源的关系是通过将描述性资源以物理形式进展编码。2数字形式描述物理资源:典型就是通过图书馆在线目录定位实体图书馆资源的馆藏所在位置。3数字形式描述数字资源:描述数字资源的数字资源也就是对网络原生的信息资源进展描述。4物理形式描述数字资源:报纸广告、马路广告商品货架上的可以被手机扫描商品或效劳信息的二维码就是以物理形式描述数字资源。5识别资源所属的域,确定哪些属性是重要的或与人或者系统操作相关的,然后指定由其中哪些性质来定义的资源之间的关系的原理是构建组织系统最核心的任务。3.3

15、 命名资源一、为什么要给资源命名帮助我们寻找到资源、描述资源、复用资源、链接资源等。二、资源命名中存在的问题1词汇问题:人们描述事物中所选择的单词与他们的经历和语境有关系。2同义词、多义词、假同源词等:当资源有同义词或者多义词时容易被错误区分,难以用自动化的程序确定其正确的表示方式。3不恰当联系的命名:假同源,如在中国,4是不桔祥的数字,意味着死亡4通过假设常量属性的命名:通过假设常量属性来命名是建立在资源属性的根底上,但是随着资源本身的变化,其属性的含义也会跟着改变。5语义差距:指在命名和描述资源时,用自动化方式代替人为方式描述产生语义的差距。三、选择好的命名和标识符1需要让命名有富含信息量

16、2使用受控语言3允许别名4使标识唯一或者被限定5区分识别和解决第四章 资源描述与元数据4.1 资源描述一、为什么要描述一个资源1. 资源描述的目的是便于查阅、区分、检索这些资源,以及管理资源获取入口和保存这些资源。2. 不同的资源领域有特色的或标准的资源描述,但是不同类型的资源一定也有用于区分的属性, 或者不带偏见或有理由的区分他们。二、资源描述的框架或方法1.RDF1RDF是一种计算机可处理的网络资源描述的标准模型,是语义网构建的根底。资源是指带有URIUniform Resource Identifier的任何资源。2关键思想:使用URI识别在线资源,如网页,以及线下资源,如人和国家。3三

17、元组形式:资源,属性和属性值。RDF使用XML编写,它的设计编写目的不是为了显示给人看,而是设计为可被计算机阅读和理解。于是RDF信息会有假设干种序列化形式,即可使用三元组表示。2. MARC21:包括作者,标题,出版年,出版商和页码等。4.2 资源属性一、资源属性类型1. 内在属性:资源所固有的,局部是静态的,也有动态的,但是是从资源内部发生变化,而不是由于外部行动或努力而改变,有时可用于识别符。1物理属性:物理的或可感知的属性即外表可见的。对于自然事物,这些物理属性非常适合进展描述,这些属性具有一定的特色或一致性、可预测性和关联性。对于人造产品,外观属性预测性较差,重要的是外观下所具有的的

18、功能。对于物理形式的信息,外观与内容之间的关联因文档类型不同而不同。2.外在属性:外在属性是人为赋予的一种属性。局部是静态的,如名字或识别符,局部是动态的,如当前位置,受欢送程度,价格等。1文化属性:来源于传统语言的使用或文化,或者涉及到与此类似的方面。由于文化属性来源于文化或语言知识,因而对于缺少一样视角或经历的人来说是难以理解的。2情境属性:与事物被描述时所处的情景或情境相关。情境是指与用户、应用程度和周围环境之间交互相关的情景的特征化信息。随着情境的改变,可能基于情境的描述会变得不再使用。3构造属性:事物的内在或外在构造对于描述来说是有用。组成局部的数量或排列和与其他资源的关联的数量和类

19、型。4.3 资源描述的过程一、资源描述的六个环节1. 选择范围和焦点:1描述实例或馆藏:确定资源粒度之后,就是确定是否需要分别描述这些资源。2抽象化资源描述:一个应用于整个资源类型的描述方案如模型或元数据标准。2.确定目标1支持选择:发现、性能与兼容性、鉴别、评估2支持组织:组织是为描述和配置资源指定原那么或条例以便实现更好的交互能力。实体资源通常根据其有形或可感知的属性,如大小,颜色,组成材料,形状等。3支持交互:书目记录功能需求FRBR应用于组织系统的四个目的包括发现已经存在的资源识别所需资源从资源集中选择一个资源导航:当用户不清楚他们的信息需求时,使用关系性和构造化描述进展导航效果更好。

20、具体方式如: 概括,聚合和派生关系。4支持资源维护关于资源格式和技术的技术性信息,保持资源完整性的“保存元数据.版本信息,有效期或使用期限信息使用记录3.识别属性1任何资源都要从多角度描述,这些描述均与不同属性相关,取决于交互类型和所处情境。2不同类型资源需要包含不同的属性3资源描述中所使用的属性取决于描述的主体4概念层次一样的属性在实现层次可能不同。基于时间的资源的总结性描述具有非常大的挑战,如电影,歌曲等。5两个重要维度:属性的本质和属性持久性4.设计描述词表1原那么:用户便利性、表达性、充分性和必要性、标准化、整合2两大挑战:需要额外的和特定的情境原那么之间可能存在一定的冲突3资源描述利

21、用的主体:资源描述必须针对不同用户群体进展设计,如图书馆用户,企业员工,企业客户,科学家等群体。4受控词表和内容规那么:术语表、叙词表、上位词、下位词、本体 。5降维:目标是减少描述资源的术语数量,通过一些方法减少资源描述的维度,如特征抽取,主成份分析,正交分解,潜在语义分析,多维标度等。5.编制资源描述:每个编制主体都有不同的特点,最好使用混合的方式取长补短。如,由终端用户为一个新的资源领域标记相应词汇,由专家进展准确之后再借助于软件工具利用分类器生成摘要。6.评价资源描述:依据一些标准或维度评估其质量1常用:准确度、完整性、一致性.2其他:时效性、互操作性、可用性.3评价资源描述的创立4评

22、价资源描述的使用5反复评价的重要性:用户显性反应或资源交互记录的隐形反应非常重要.第五章 对关系和构造的描述一、描述关系的五种观点1语义学: 联想的意义2词法学: 如何使用特定语言中的词语来表达关系的概念描述。3构造: 分析资源之间的关联、排列、邻近或连接的模式 (通常忽略它们的原因)。4架构:强调关系组成局部的数量和抽象级别,它们一起表征其复杂性。5实施层面的观点:如何以特定符号和语法实现关系,以及在某些技术环境中将关系排列和存储的方式。二、三种广义的语义关系1包含关系种类包含:is-a, is-a-type-of, subset is-a-type-of, subset局部-整体关系包含:

23、部件-对象、成员-集合、局部-质量、材料-对象、地点-区域、特征-活动、阶段-活动拓扑、位置、时间包含:is-in,the Vatican City is-in Italy2归属关系:为特定的资源断定或分配其属性的值注意属性与值的区别,如color: attribute, green: value属性有时可以包含多个判断,有多种表达方式,可以用于表达另外的关系。3拥有关系:外表上和局部整体关系相似,但没有后者中“作为其中一局部的意思。在机构组织系统里尤其重要,所有权,控制,责任及相关的转让,均是这些系统支持的交互活动的根本局部。同时隐含持续时间和持续力,有时难于从惯常处所和做法来区分关系。三、

24、本体和分类法1分类法可以捕捉到在某个范畴的种类包含关系的系统,但还有很多种关系。其他类型的关系,都在表述着这个范畴的知识,对了解这个范畴或者多个范畴相关的资源或活动都有帮助。2本体是众多的关系组成的网络可以创立出一种资源。关于视图,显示出它也具备一种分类法作为自身概念的展台。本体在某些组织系统,是不可或缺的局部,特别是信息密集的系统,其资源的范围和规模需要一套全面而受控的描述词表。四、词汇关系的种类1下位关系和上位关系,这可对应种类包含关系。2转喻关系,这可对应局部全部关系。3同义关系,绝对同义或者命题同义。4多义关系,具备多种含义。5反义关系,严格的双分反义词对。五、叙词表对叙词关系的表达1

25、叙词表是一项参考性工作,根据语义与词汇的关系组织词语,被专业人士用于描述资源。2不同的范畴和主题领域都有各自的叙词表。3在叙词表中,通常用宽含义(BT)和窄含义(NT)来表述上位和下位的种类包含关系。六、构造元数据以数据库或文档的概要模式,描述信息资源的种类,也可能包括组成局部的包含和归属关系的语法细节。可用于描述数据库表格间的关系,图书章节的关系或库存管理系统的各局部关系。七、语义网和关联数据1.语义网在2001年提出,所有的信息都可以被自开工具和人类分享和处理。1XML的应用,包括RDF和OWL,使得网络更加语义化和网络资源关系更加显性化。2Wikepedia,就是利用语义注释的模版鼓励用

26、户以内容编码格式创立信息。2.“关联数据运动是语义网的延伸,将网络架构的根本原那么以更好的语义条目来重建。八、资源描述和获取1.前提:在线目录在编制文献书目关系上做得并不好,原因在于目录显示的设计和目录记录中信息组织的局限性。即使是MARC记录,内含的数据也不能被重复使用和重新排列。2.RDA1作为新一代的编目规那么,希望将不相连的资源描述链接起来,呈现完整而相连的关于著作,作者,出版物,出版商和主题的数据。2利用RDF来提醒和存储书目资料中的关系。3将图书馆数据变得更广泛在线和可用,同时也希望利用语义网的分布特性,使得本身更具影响力。第六章 描述资源的类和类型一、为什么分类以及怎样分类1.定

27、义:类别是指被同样对待的事物或抽象实体构成的类、集合或组。2.原因:感知、交流、分析、预测、分类或试图使经历有意义时, 都涉及到类别。所有人类语言和文化将物理和经历的 世界 分成类别。类别是应用先验知识的认知和语言模型,创造和使用类别是必要的人类活动;类别使我们能够根据相似性和不相似性将事物彼此关联。3.怎样分类人们认识到世界中的构造,然后创立类别。通过强化构造来表达世界的意义,哪些事物应该放在一起是结果,而不是分类的原因。二、4种根本类别及其联系和区别1.文化类别:可以理解为一种自然人认知能力,它是作为非正式和正式组织系统的根底。2.个人类别:倾向于在我们的个人活动中自发增长。3.机构类别:

28、符合公司、政府和其他目标企业内部和之间正式协调配合的需要。明确创立和使用,最常见的是用于许多人相互协调。在抽象和信息密集型领域中创立,其中需要明确和准确类别来标准和系统化活动,实现信息共享和重用,并降低交易本钱。不是描述世界本来的样子,而是通过赋予比文化类别更正式和专制的语义模型定义类别进而改变或控制世界。4.计算类别:由计算机程序创立,用于信息检索,机器学习,预测分析和其他应用。5.联系文化、个人、计算机和机构类别的概念有效地区分了创立类别的主要过程和目的。 这些类别描述了物体、事件、设置、内部体验、物理定向,实体之间的关系以及人类经历的许多其他方面。6.区别融合、冲突和相互重组,不是将它们

29、视为具有准确的边界,而是分类活动、方法上的区域。个人类别和机构类别基于文化类别而形成。文化类别倾向于描述日常经历和积累的文化知识。文化类别的学习没有明确指导,主要是受照顾孩子的人的影响,它们与特定文化背景下的语言习得和语言使用有关。个人类别与文化类别不同:一是个别类别有时具有想象力或隐喻根底,对创造他们的人而言是有意义的,但可能会扭曲或误解文化类别。其次,个人类别通常是专门的或综合的文化类别,可以捕捉特定的经历或个人历史。机构类别与个人类别不同,因为它需要大量努力来协调现个体类别之间的不匹配,表达了在正式制度体系中丧失了的有用的工作或语境知识。机构分类工作必须克制文化类别的模糊性和不一致性,因

30、为前者必须经常符合更严格的逻辑标准,以支持推理和符合法律要求。三、七个主要原那么1.枚举:有限或可数集合中的任何资源都可以被该事实视为类别成员。 该原那么也称为扩展定义,集合的成员称为扩展项。 2.单个属性:资源的任何单个属性都可以用于创立类别。最容易使用是内在的静态属性,是永远不会改变的属性。天然或制造物体的组成材料是可用于描述物理资源的内在和静态属性。用于为组织系统创立类别的最有用的单一属性是那些被正式分配,客观可测量和有序的,或与已建立的文化类别相关联的属性。3.多个属性和等级多级类别系统。当使用一样的资源属性序列来布置组织系统中的所有资源时,这创立了逻辑等级构造。资源子集的不同属性。每

31、个资源都针对每个属性进展评估。必要和充分的属性。一组大型的资源并不总需要许多属性和类别来组织。某些类型的类别可以只用一些根本属性来准确定义。4.家族相似性:使用统计而不是逻辑方式对属性进展分类,以得出要分类的资源和类别的其他成员之间的相似性或相似性的一些量度。使用它们在复合或集成的方式来确定相似性。5. 相似性:成为分类的有用机制的前提是必须明确相似性度量的方法。 基于特征或基于属性、基于几何、基于队列(alignment-based)、变换6. 基于理论的类别:以适合使特定分类合理的理论或形式组织事物,防止家庭相似性或相对于可见属性的相似性将导致不同的类别分配。7.基于目标的类别组织并处理资

32、源以到达目标。类别是由某个特定上下文中的特定目标导出或导出的。第七章 按照类别类分资源一、Classification的涵义1.作为名词,分类法或分类表,是一种类别系统,即根据预先确定的一组原那么对类别进展排序,并用于组织资源集合。2.作为动词,是以系统化方式将资源分进设置好的类别系统通常是机构类别的活动。二、分类法与标签的区别1.分类法按照原那么和系统化的方式实现,是准确、可靠的,效地满足机构和商业性目的。2.标签利用资源的任何属性和词汇来描述该资源,不管该资源之间的差异,从而构建一个类目系统。也可以称为社会分类法。3.群众分类法,用于描述特定网站或应用的标签集合4.标签分类法:用户或社区建

33、立原那么来管理标签,旨在以一种使标签更加系统化的新词。三、分类表的排列形式1.枚举式:一种明确将所有可能分配资源的类别列举的分类方表。 2.层级式:当所有的资源属性以一种固定的次序考虑,每种构成分类系统中的一个等级的分类方案。3.字母或有序化:认为这些组织原那么是创立隐式或潜在的分类系统,在该类别仅在需要时生成。4. 分面分类分析-综合法:最常见的类型的方面是枚举(互斥的);布尔(是或否);分级或分类(逻辑控制);和频谱(一系列数值)。四、分类法的原那么1. 原那么镶嵌在分类表中:文献保障、科学保障、用户或使用保障。2. 按照类别类分资源的原那么:唯一性,重新开发和遵循一套详细且通常比拟主观的

34、规那么。3. 分类法维护的原那么:在开场定义时构建多余的逻辑空间,图书馆分类法使用命名或编码方案创立新的子,信息系统分类方案也能预估文档或数据库方案的演化。五、世界三大分类法的概况1.杜威十进分类法:分为10个大类,涵盖整个知识领域。每个大类可以进一步分为10个子类,每个子类再包括10个局部。分类号码根本上采用层累制,有时也采用小数顺序制。2. 国际际十进分类法:欧洲第一部文献分类表,最早提出概念分析和组配原那么。UDC 多语种、多版本、类目详细、组配灵活、标引能力强,能适用于成册文献的分类和排架,也能满足单篇文献的分类要求。 3. 美国国会图书馆图书分类法:有21个大类,由字母进展编号。每个

35、大类可进一步细分,使得LCC类目层级较多,具有较强的实践性,但是缺乏一定的理论性根底。偏向于适应于美国及国家管理层面的需求。 六、杜威十进分类法的特点1.体系构造完整、严谨,类目详尽,层次清楚,易于理解,便于按学科进展检索。2.采用严格的层累标记制,类号等级清楚,具有较强的助记性,但有时号码过于冗长。3.首创仿分、复分等具有组配性质的编号法。4.最先为分类表编配详细的相关索引,提供一条简便的字顺检索的途径 。5.拥有实力雄厚的管理机构,定期修订,使分类法不断得到更新。 七、什么是分面在分面分类系统中,每一种资源可以使用多个分面的属性加以描述,但是搜寻资源的代理不需要考虑所有的属性即分面,也不需

36、要以固定的顺序来考虑。八、分面分类系统设计的步骤和原那么1。设计步骤1范围:定义分类的目的,细化概念或资源的范围2选择每一个组面的取值:决定组面的逻辑类型和可能的取值;细化组面的取值顺序,包括字母、年代、处理过程、规模、流行程度、复杂性程度、地理或拓扑构造。3组面识别:分析和描述资源样本实例以失却候选组面的属性或维度。4设计组面层级和语法:检查组面之间的关系;决定如何组合各个组面。5验证,迭代与精:利用新的实例对分类进展检验,修正各个组面和取值。2.原那么1正交性:组面应该是相互独立的维度,确保一个资源涵盖所有组面的取值,且每一个组面只有一个取值。2语义平衡:顶层组面应该是分类领域中对资源具有

37、最正确区分能力的属性,取值应该具有相等的语义范围,使得资源分布在各个子类别中。3覆盖范围:组面的取值应该能在预期范围内类分所有的实例。4可扩展性:组面的值应能适应需要潜在增加的一组实例,简单是增加一个“其他值。5客观性:尽可能明确和具体。6标准性:不使用特殊、隐喻或需要特定知识来解释的术语。第八章 资源描述形式一、使资源描述构造化的元模型1.元模型描述了资源描述和其他信息资源中常见的构造。组织系统的任何设计师都会创立一个特定领域的模型,但不会创立一个全新的元模型,而是从已现有标准的元模型中进展选择。2.所产生的模型有时被称“领域特定语言。标准元模型可以提高经济效益,开发人员可以用针对这些元模型

38、设计的工具和知识,不必从头开场。二、建模的约束条件1.元模型对资源描述的构造施加了限制,但在组织系统方面,仍需要进一步明确所组织的具体资源类型的描述内容和组成。2. 一旦选择了一个元模型,在特定的域中对资源和集合进展建模时,必须处理约束条件。3. 指定词汇和模式:为特定领域的资源描述创立模型涉及指定这些描述的公共元素,并给出这些元素的标准名称。还可以指定如何将这些元素排列成较大的构造。4. 在XML中,模型在schemas单独文档中被定义。XML提供了文档中的元素和属性名称的术语词汇表。XML还定义如何将这些元素,属性及其内容排列成更高级别的构造规那么。5. 控制值:模型也可限制描述的值或内容

39、。有时,单个模型可用于将定义某些属性名称的术语和可用于属性值的术语。三、符号和写作系统1.符号1ASCII美国信息交换标准代码是用于数字环境的已经编码和标准化的符号例如。每个字符都必须严格定义。在ASCII中,每个charcter的数字从0到127,所以有128个ASCII字符。2不同的符号可能包括非常相似的标记。在非数字环境中,将依靠上下文来了解书面标记是否被用作音乐符号、数学符号或英文缩写的一局部。3计算机没有对上下文的直观理解。Unicode将number sign日常生活中#的表现形式和sharp sign音乐中#的表现形式编码看做两个不同的字符。 2.写作系统1写作系统采用一个或多个

40、符号,并添加一组使用它们的规那么。2声门书写系统:大多都能认知到一种特定的人类语言。3许多书写系统,如数学和音乐系统,都不与人类语言相联系。用于描述资源的系统属于后者。4以自然人类语言为根底的声门书写系统难以准确,全面地描述。非声门书写系统可以使用抽象模型进展准确和全面的描述。非声门书写系统由特定元模型描述,并且适合于给定元模型的约束条件。5写作系统提供了将符号排列成有意义的构造的规那么。符号中的字符没有固有的含义,字符取决于写入系统上下文的内涵。第九章 与资源进展交互一、交互的前提:整合,联接,聚类或合并资源以提供更广泛的资源和更同质的描述进展检索。二、交互的决定要素1.用户需求:人与组织系

41、统之间的交互越抽象及之间中介的越多,从用户获取自描述组织系统到用户与人或机器中介交互再到计算代理与其他计算代理之间交互,就应该越准确的描述交互的需求。用户信息需求决定了所需资源的类型和内容,表现为搜索请求、构建查询式、浏览组织系统分类体系中的技术等。受教育水平,身体健全程度,位置,时间,或截止期限压力等因素,通常限制了所需资源的类型及用户愿意或能参与的交互类型。计算代理的信息需求由代理创立者所设置的规那么和标准决定。无目的交互:网络冲浪也是一种随机的,没有特定信息需求驱动的行为。这种类型的需求无法通过仅仅提供搜索能力来满足,更应该依靠浏览、推荐等类型的交互。组织系统也应该提供计算代理通过API

42、获取系统的方式。2.资源属性层级:组织的范围越广、可识别的资源属性的数量越多,可提供的交互功能越强。3.社会政治和组织的约束:组织系统生产者的获取政策是交互设计选择的重要约束。组织的约束表现为多种矛盾性政策或甚至会导致在缺少额外投资的情况下无法将独立不相交的系统进展有效整合具有不同价值奉献、策略、流程和实践惯例的组织单元,必须清完成组织系统内部或之间的高度兼容。组织的约束比社会政治约束具有更大的不确定性。三、转换资源1.资源属性层次:根底设施或符号转换、书写系统转换、语义转换、资源或资源描述转换。2.转换模式除了映射和对照表之外,更有效的方法:为所有词表的映射使用一种词表或格式作为转换机制也称

43、为枢纽或枢纽语言。另一种方法:在不对称权利关系中,强迫所有系统使用与最强大的一方一样的格式,如沃尔玛。日常生活中常用的方法如旅行信息查询,设计者面临着为合并来自不同系统信息需要创立更加构造化流程的挑战。依赖于高度合作的环境,可以在系统实施之前协商特定的设计需求如映射规那么和标准。四、交互的实施三个根本步骤:比拟资源、排列资源、定位资源五、基于实例属性的交互:布尔模型1.操作符:与AND, 或OR, 非NOT2.比拟的结果要么为真TRUE 要么为假FALSE ,仅返回所有为真的结果。3.布尔搜索对每一个返回的结果不再进展比拟或排序,所有结果均视为相等。优势在于,结果是可预测的且容易解释,缺点是用

44、户很难找到最有用的资源。六、基于资源集属性的交互:向量空间模型词频 (tf):是指术语在资源中出现的频次,为资源实例层次的属性df:是包含某个术语的资源的数量逆文档词频 (idf) :表示了一个术语在文档集中出现频次的 公式表示为:idft = log(N/dft) N为文档总数七、基于其他属性的交互1. 基于派生属性的交互:基于流行性的排序、基于引用的搜索、翻译。2. 基于多种资源的交互:Mash-Ups、关联数据检索与资源发现八、评估的交互三种方式1.交互是高效的:以一种及时且经济地方式执行;工程方面2.交互是有效的:以正确且完整地方式执行;算法方面3.交互是令人满意的:交互按照预期执行,高度依赖个人偏好和体验九、评估的交互相关性、查全率与查准率1.相关性1四个维度:(i) 代理,文档,信息 (ii) 查询,请求,信息需求和问题 (iii) 主题,情境以及其结合 (iv)从问题产生到解决持续的时间 2相关性是满足评估特定用户情境下和时间中已表述的或潜在的信息需求的有效性程度。3挑战:用户信息需求和信息需求表达即查询之间的差距。2.查准率测量结果集的准确性,即与查询相关的检索结果数量。3.查全率测量结果集的完整性,即资源集中被检索到的相关。4.组织原那么的完整性和粒度对查全率和查准率之间的权衡具有较大的影响

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 工程图纸

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁