《情报检索系统.ppt》由会员分享,可在线阅读,更多相关《情报检索系统.ppt(38页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、现代情报检索系统现代情报检索系统modern information retrieval systems 经济管理学院经济管理学院 赵赵 捧捧 未未Email:Email:二零一二年三月1 课程引入课程引入n课程课程名称名称:现代情报检索系统现代情报检索系统n课程性质课程性质:图书情报学领域的专业课程图书情报学领域的专业课程(学位课学位课)n课程内涵:课程内涵:信息组织、检索、系统及应用信息组织、检索、系统及应用n课程基础:课程基础:信息存储与检索,软件技术基础等信息存储与检索,软件技术基础等n目标与要求目标与要求:基本掌握现代信息检索的概念、原理、技术基本掌握现代信息检索的概念、原理、技术及
2、主要应用,理解现代信息检索系统的基本结构与功能,及主要应用,理解现代信息检索系统的基本结构与功能,了解该领域的研究进展了解该领域的研究进展,为今后从事图书情报领域或现代为今后从事图书情报领域或现代信息管理系统的研究与开发奠定良好的基础。信息管理系统的研究与开发奠定良好的基础。2课程引入课程引入思考思考:n科学硕士研究生培养定位科学硕士研究生培养定位 精英教育;精英教育;应用研究型应用研究型n研究生课程学习研究生课程学习(巩固基础巩固基础)n硕士论文研究硕士论文研究(系统、正规训练系统、正规训练)n其它训练其它训练(实践实习实践实习;特长;竞赛特长;竞赛)3本课程主要内容本课程主要内容 一、情报
3、检索概述一、情报检索概述 基础知识;相关内容基础知识;相关内容二、检索系统的基本结构二、检索系统的基本结构 功能模块(人机界面)、系统评价功能模块(人机界面)、系统评价三、文本信息检索三、文本信息检索 文本检索概念;全文数据库的特点和结构;全文检索技术;文本检索概念;全文数据库的特点和结构;全文检索技术;全文检索系统及软件举例全文检索系统及软件举例四、并行与分布式检索四、并行与分布式检索 并行处理与分布式处理概念;并行检索领域的研究内容;并行处理与分布式处理概念;并行检索领域的研究内容;并行机上的信息检索;分布式信息检索并行机上的信息检索;分布式信息检索4课程主要内容课程主要内容(续续)五、多
4、媒体信息检索五、多媒体信息检索 基于内容检索的概念;基于内容的多媒体查询和检索过程;基于内容检索的概念;基于内容的多媒体查询和检索过程;基于内容的视频检索技术等。基于内容的视频检索技术等。六、现代信息检索的应用六、现代信息检索的应用 1网上信息资源检索;网上信息资源检索;2数字图书馆数字图书馆 定义与特征、研究现状;体系结构;实现技术;系统集成定义与特征、研究现状;体系结构;实现技术;系统集成技术;案例技术;案例七、情报检索领域研究进展七、情报检索领域研究进展 跨语言信息检索;检索可视化;智能信息检索;知识组织跨语言信息检索;检索可视化;智能信息检索;知识组织与知识服务;其它进展与知识服务;其
5、它进展5课程的实施课程的实施n实施方式:实施方式:讲授讨论课讲授讨论课 n课堂讲授课堂讲授:课程组;加强互动课程组;加强互动n专题讨论:专题讨论:围绕本课程的相关问题,事先拟定若干专题,由学生分组选择,阅读有围绕本课程的相关问题,事先拟定若干专题,由学生分组选择,阅读有关期刊论文和课下讨论,后在课堂上进行专题报告(小组成员可分工),关期刊论文和课下讨论,后在课堂上进行专题报告(小组成员可分工),在讨论的基础上,由学生各自撰写出规范的研究报告。(研究生报告和专在讨论的基础上,由学生各自撰写出规范的研究报告。(研究生报告和专题讨论占题讨论占1/31/3)n考核办法:考核办法:期终笔试:期终笔试:6
6、0 报告报告/作业:作业:406参考书参考书1信息检索理论与技术信息检索理论与技术,苏新宁主编。科技文献出,苏新宁主编。科技文献出版社,版社,2004.92 modern information retrieval,Ricardo Baeza-Yates and Berthier Ribeiro-Neto (有中(有中译本)译本)3 情报学研究进展情报学研究进展(武汉大学出版)、(武汉大学出版)、情报学情报学进展进展(年度评论,国防工业出版社(年度评论,国防工业出版社)4.相关期刊相关期刊7课程特点课程特点n1.1.技术性技术性 与信息技术密切相关,且处于发展态势与信息技术密切相关,且处于发展
7、态势n2.2.系统性系统性 涉及理论、方法、技术、过程、系统等涉及理论、方法、技术、过程、系统等n3.3.应用性应用性 信息检索在全社会的应用日益广泛信息检索在全社会的应用日益广泛 8课程学习中应注意的问题强强 调:调:n注重基础,拓宽知识面,培养综合素质注重基础,拓宽知识面,培养综合素质n强化自主学习能力,主动学习和运用知识,注重分析判断强化自主学习能力,主动学习和运用知识,注重分析判断能力;能力;n积极积极参与参与教学过程,预先思考并加强相互交流;教学过程,预先思考并加强相互交流;n训练归纳、概括、演讲能力,探索意识;训练归纳、概括、演讲能力,探索意识;n善于阅读有关期刊论文、参考书,了解
8、本领域动态善于阅读有关期刊论文、参考书,了解本领域动态 (上课不允许请假(上课不允许请假,联络人考勤)联络人考勤)9第一章第一章 情报检索概述情报检索概述1.1 相关领域相关领域n“情报检索情报检索”隶属于隶属于“情报学情报学”学科。学科。有学者认为,有学者认为,“情报检索情报检索”是是“情报学情报学”的保留地。的保留地。n情报学情报学 关于情报学的定义,关于情报学的定义,ASIS前主席前主席Harold Borkozai在在1968年的描述是:年的描述是:情报学情报学是一门研究情报的行为和属性,以及处理信息使是一门研究情报的行为和属性,以及处理信息使其其易于获得和易于使用易于获得和易于使用的
9、最适宜方法的学科。它关注与的最适宜方法的学科。它关注与信信息的产生、收集、组织、存储、息的产生、收集、组织、存储、检索检索、解释、传播、转换、解释、传播、转换和使用相关的知识体。具有跨学科的性质。和使用相关的知识体。具有跨学科的性质。在以后在以后40多年,后继学者又补充了情报用户及信息交流、多年,后继学者又补充了情报用户及信息交流、信息行为、信息需求等内容。信息行为、信息需求等内容。10 第一章第一章 情报检索概述情报检索概述1.1 相关领域相关领域n情报学情报学 IIS(英国情报科学工作者协会英国情报科学工作者协会)在在1998年认为,情年认为,情报学内容有报学内容有3部分:部分:情报学核心
10、领域,包括信息的生产、采集、评价、包括信息的生产、采集、评价、组织、存储、传输、组织、存储、传输、检索检索和传播的理论与实践。和传播的理论与实践。信息管理,各种组织的信息资源管理。,各种组织的信息资源管理。信息技术,包括可用于情报学与信息管理的各种技,包括可用于情报学与信息管理的各种技术。术。11第一章第一章 情报检索概述情报检索概述n情报学情报学 主要研究热点:主要研究热点:情报检索情报检索:包括信息检索的人机交互、智能检索、知识检索等。包括信息检索的人机交互、智能检索、知识检索等。(ACM SIGIR:信息检索专门兴趣小组):信息检索专门兴趣小组)信息资源管理信息资源管理:包括社会信息资源
11、管理、信息资源规划、网络信息:包括社会信息资源管理、信息资源规划、网络信息资源管理、信息资源共享和优化配置、信息政策法规等。资源管理、信息资源共享和优化配置、信息政策法规等。数字图书馆数字图书馆:归纳为:归纳为3个层面。一是基础理论研究,包括概念、特征、个层面。一是基础理论研究,包括概念、特征、功能等;二是技术研究,包括功能等;二是技术研究,包括XML语言、数据挖掘、知识信息导语言、数据挖掘、知识信息导航等;三是建设研究,包括与传统图书馆的联合与衔接、数字图书航等;三是建设研究,包括与传统图书馆的联合与衔接、数字图书馆新型服务等。馆新型服务等。知识管理知识管理:概念、知识管理与信息管理、知识管
12、理与知识创新、知:概念、知识管理与信息管理、知识管理与知识创新、知识组织、知识发现、知识技术、知识网络化研究识组织、知识发现、知识技术、知识网络化研究 等。等。竞争情报竞争情报:主要面向企业。:主要面向企业。12第一章第一章 情报检索概述情报检索概述n情报学情报学 新领域新领域:数据库中的知识发现(数据库中的知识发现(KDD)语义网语义网(Semantic Web)、P2P3G网格网格(Great Global Grid)信息构建信息构建(IA)元数据,云计算等元数据,云计算等n情报学与图书馆学情报学与图书馆学 二者关系密切。二者关系密切。13第一章第一章 情报检索概述情报检索概述 1.1 相
13、关领域相关领域n情报学与信息管理学情报学与信息管理学 美国美国“信息检索信息检索”的内涵扩大为的内涵扩大为“信息处理与管理(信息处理与管理(IP&M)”。涉。涉及计算机、网络、及计算机、网络、DB 对应刊物对应刊物信息处理与管理信息处理与管理(原名是(原名是情报存储与检索情报存储与检索)情报学与信息管理学有一定的交叉。情报学与信息管理学有一定的交叉。从概念角度分析,涉及到从概念角度分析,涉及到数据、事实、信息、知识、智能数据、事实、信息、知识、智能等。等。对对应应于于信信息息管管理理学学的的范范畴畴:数数据据管管理理、信信息息管管理理(处处理理)、知知识识管管理理、智能管理智能管理等。等。有人
14、认为,有人认为,“情报学情报学”(Information Science)所关心的是信息管理学所关心的是信息管理学中的高层次问题中的高层次问题知识管理与智能管理。知识管理与智能管理。可以说,可以说,信息管理学科是情报学的重要支撑领域之一。信息管理学科是情报学的重要支撑领域之一。14第一章第一章 情报检索概述情报检索概述1.1 相关领域相关领域n其它相关领域其它相关领域 IT计算机科学,信息处理技术计算机科学,信息处理技术 数学数学数学模型、系统评价等数学模型、系统评价等 语言学语言学各种语言信息的处理各种语言信息的处理15附:我校附:我校“情报学情报学”学科主要研究方向学科主要研究方向 我校我
15、校“情报学情报学”学科是陕西省唯一的硕士学科点。学科是陕西省唯一的硕士学科点。在在国内同领域具有良好的声誉国内同领域具有良好的声誉信息资源组织与内容检索信息资源组织与内容检索 信息资源的描述,信息资源的组织、检索与利用,基于内容信息资源的描述,信息资源的组织、检索与利用,基于内容的信息检索、数字图书馆、知识组织与检索,信息资源战略规划的信息检索、数字图书馆、知识组织与检索,信息资源战略规划及实施流程及实施流程 知识管理与知识挖掘知识管理与知识挖掘 多媒体信息资源的数据挖掘与知识发现,基于语义网环境多媒体信息资源的数据挖掘与知识发现,基于语义网环境下的数字文本知识元本体模型、挖掘和应用,知识共享
16、与转换、下的数字文本知识元本体模型、挖掘和应用,知识共享与转换、知识挖掘、知识库知识挖掘、知识库16附:我校附:我校“情报学情报学”学科主要研究方向学科主要研究方向情报研究情报研究 电子情报研究、军事电子装备发展战略、电子信息电子情报研究、军事电子装备发展战略、电子信息技术和产业发展的战略规划、政策法规、技术发展趋技术和产业发展的战略规划、政策法规、技术发展趋势。势。信息系统与安全管理信息系统与安全管理 信息系统开发、信息资源安全控制及信息系统安信息系统开发、信息资源安全控制及信息系统安全管理,重点研究网络环境下信息服务与安全机制,全管理,重点研究网络环境下信息服务与安全机制,信息系统的安全保
17、障机制与安全管理策略等信息系统的安全保障机制与安全管理策略等 另,图书馆学:另,图书馆学:信息资源整合、数字图书馆、知识服务17n思 考:什么是什么是“情报情报”、“情报检索情报检索”、“情情报检索系统报检索系统”?18第一章第一章 情报检索概述情报检索概述1.2 相关概念相关概念 n信息信息 信息,英文信息,英文information。不同领域不同理解。不同领域不同理解。从图书情报领域来理解,可以认为从图书情报领域来理解,可以认为 信息是经过处理、组织而获得的数据。信息是经过处理、组织而获得的数据。信息的层次观点:数据信息的层次观点:数据信息信息 知识知识 智能(智慧)智能(智慧)n情报情报
18、 在古代,情报首先产生于军事领域。在古代,情报首先产生于军事领域。辞海辞海的定义:的定义:“战时关于敌情之报告,曰情报。战时关于敌情之报告,曰情报。”即情况、消息的报导与交流即情况、消息的报导与交流。19第一章第一章 情报检索概述情报检索概述n情报情报 有代表性的几个概念:有代表性的几个概念:n“情报是在特定时间、特定状态下,对特定的人提供情报是在特定时间、特定状态下,对特定的人提供的有用知识。的有用知识。”n“情报是判断、意志、决心、行动所需要的能指引方情报是判断、意志、决心、行动所需要的能指引方向的知识和智慧。向的知识和智慧。”n“作为存储、传递和转换的对象的知识。作为存储、传递和转换的对
19、象的知识。”20第一章第一章 情报检索概述情报检索概述n情报检索情报检索 “情报检索情报检索”一词出现于一词出现于20世纪世纪40年代末期。年代末期。情报检索:情报检索:将情报按一定的方式组织和存储起来,将情报按一定的方式组织和存储起来,并根据用户的需要找出有关情报的过程并根据用户的需要找出有关情报的过程。该过程包括了存和取两个环节。该过程包括了存和取两个环节。“存存”对大量信息进行的高度组织化的存储;对大量信息进行的高度组织化的存储;“取取”是面向随机出现的信息需求而进行的高是面向随机出现的信息需求而进行的高度选择性的检索,且强调快速方便性。度选择性的检索,且强调快速方便性。“存存”和和“取
20、取”二者的关系是密不可分的。二者的关系是密不可分的。21第一章第一章 情报检索概述情报检索概述n情报检索情报检索 该过程中该过程中“存存”和和“取取”二者的关系:二者的关系:一是一是相互依存相互依存。没有存储就无从检索,而没有检索。没有存储就无从检索,而没有检索其存储将失去意义。其存储将失去意义。二是二是相互制约相互制约。从存储的角度看,越简单越好,但。从存储的角度看,越简单越好,但过于简单的存储势必影响检索的质量和效率。即有效过于简单的存储势必影响检索的质量和效率。即有效的检索是以增加存储的代价为前提。的检索是以增加存储的代价为前提。提到提到“检索检索”,一般只涉及,一般只涉及“取取”。此时
21、,。此时,“检索检索”也可以称为也可以称为“查询查询”或或“查找查找”(狭义理解)。(狭义理解)。22第一章第一章 情报检索概述情报检索概述n情报检索情报检索 情报检索的本质:情报检索的本质:情报集合与需求集合的匹配与选择。情报集合与需求集合的匹配与选择。情报集合情报集合就是有关某一领域的文献或数据的集合体,可以向用就是有关某一领域的文献或数据的集合体,可以向用户提供所需要的知识或事实,或者获取知识的线索。(户提供所需要的知识或事实,或者获取知识的线索。(含选择、含选择、采集、组织、存储采集、组织、存储)需求需求指用户的需求,往往以用户提出问题或检索课题的形式体指用户的需求,往往以用户提出问题
22、或检索课题的形式体现。众多不同形态的的需求汇集,就构成了现。众多不同形态的的需求汇集,就构成了需求集合需求集合。(需求需求往往带有主观性。满足用户需求是检索的目的往往带有主观性。满足用户需求是检索的目的)匹配与选择匹配与选择是一种机制,负责把需求集合与情报集合进行相似是一种机制,负责把需求集合与情报集合进行相似性比较,然后根据一定的标准选出符合需要的情报性比较,然后根据一定的标准选出符合需要的情报。(。(二者联系二者联系的桥梁。包括匹配标准和匹配实施者的桥梁。包括匹配标准和匹配实施者)说明说明:情报检索中的匹配与选择,可以是手工或机器。情报检索中的匹配与选择,可以是手工或机器。23第一章第一章
23、 情报检索概述情报检索概述n计算机情报检索计算机情报检索 电子计算机诞生于电子计算机诞生于20世纪世纪40年代中期。年代中期。计算机的特点:存储量大,速度快,运算准,可靠性高。计算机的特点:存储量大,速度快,运算准,可靠性高。于是,有些情报学家一开始就考虑计算机能否用于情报于是,有些情报学家一开始就考虑计算机能否用于情报检索,即将计算机作为情报检索的主要工具。检索,即将计算机作为情报检索的主要工具。计算机与情报检索的结合,产生了计算机与情报检索的结合,产生了计算机情报检索计算机情报检索这一这一新的领域。它出现于新的领域。它出现于20世纪世纪50年代。年代。计算机情报检索计算机情报检索:在人和计
24、算机的共同作用下完成情报:在人和计算机的共同作用下完成情报的存取操作,从机器存储的大量情报(信息)中自动筛的存取操作,从机器存储的大量情报(信息)中自动筛选出用户所需要的情报。选出用户所需要的情报。24第一章第一章 情报检索概述情报检索概述n计算机情报检索计算机情报检索 计算机情报检索的内涵剖析:计算机情报检索的内涵剖析:情报检索的本质未变,变的是情报检索的本质未变,变的是存储方式存储方式和和匹配方法匹配方法。情报情报用字符串表示;用字符串表示;存储存储用计算机存储器;用计算机存储器;匹配匹配由原人工匹配选择变为机器自动比较和运算。由原人工匹配选择变为机器自动比较和运算。检索过程检索过程就是表
25、示用户需求的字符串(情报需求,提问)与计就是表示用户需求的字符串(情报需求,提问)与计算机内存储的大量字符串(情报集合,数据库)的比较和运算的算机内存储的大量字符串(情报集合,数据库)的比较和运算的过程。过程。计算机情报检索的实现,使检索服务进入了各个办公室计算机情报检索的实现,使检索服务进入了各个办公室和千家万户,促进了各行各业的信息管理现代化。和千家万户,促进了各行各业的信息管理现代化。25第一章第一章 情报检索概述情报检索概述n 广义的信息检索广义的信息检索 广义的信息检索广义的信息检索指信息的存储与检索指信息的存储与检索(2个环节)存储存储(Storage)将大量信息有序化组织并存入数
26、据库将大量信息有序化组织并存入数据库(信息集合)(信息集合);检索检索(Retrieval)从数据库中选择、查寻用户所需的从数据库中选择、查寻用户所需的信息。信息。这里,存储是检索的基础,检索是存储的反过程。这里,存储是检索的基础,检索是存储的反过程。狭义的信息检索狭义的信息检索:仅指信息检索环节本身。仅指信息检索环节本身。信息检索的本质信息检索的本质:信息集合与需求集合的匹配信息集合与需求集合的匹配。注意注意:目前提到的信息检索,一般指计算机化的信息检索。目前提到的信息检索,一般指计算机化的信息检索。26第一章第一章 情报检索概述情报检索概述n信息检索系统信息检索系统 信息检索系统:一类具有
27、信息存储和检索功能,面向一定用户的:一类具有信息存储和检索功能,面向一定用户的信息服务设施。信息服务设施。在当前环境下,在当前环境下,信息检索系统通常是一类基于计算机和网络的人机交互通常是一类基于计算机和网络的人机交互信息检索系统信息检索系统。信息检索系统分类信息检索系统分类 (1)按资源形式划分)按资源形式划分 数据资源大体有:题录型数据、全文型数据、多媒体数据以及产数据资源大体有:题录型数据、全文型数据、多媒体数据以及产品信息等。品信息等。对应的信息检索系统:书目检索系统、全文检索系统、多媒体检对应的信息检索系统:书目检索系统、全文检索系统、多媒体检索系统等。索系统等。还有许多其他资源形式
28、的检索系统,如产品新型检索系统、语料还有许多其他资源形式的检索系统,如产品新型检索系统、语料库新型检索系统、名录检索系统、标准检索系统等,可归纳到上库新型检索系统、名录检索系统、标准检索系统等,可归纳到上述三种相应的系统。述三种相应的系统。27第一章第一章 情报检索概述情报检索概述n信息检索系统信息检索系统 (2)按服务功能划分)按服务功能划分 建立信息检索系统的目的就是为了利用与服务。建立信息检索系统的目的就是为了利用与服务。从服务角度划分,可以分为:单纯检索服务系统、统从服务角度划分,可以分为:单纯检索服务系统、统计分析系统、决策支持系统、专家信息系统等。计分析系统、决策支持系统、专家信息
29、系统等。(3)按服务区域划分)按服务区域划分 信息检索系统的区域大到全球、小到单机。信息检信息检索系统的区域大到全球、小到单机。信息检索系统的主流发展经过了索系统的主流发展经过了3个阶段:单机检索系统、个阶段:单机检索系统、联机检索系统、网络检索系统。联机检索系统、网络检索系统。28n思考:“情报检索理论情报检索理论”包括那些范畴?包括那些范畴?29 第一章第一章 情报检索概述情报检索概述1.3 信息检索研究的主要内容信息检索研究的主要内容n信息检索理论信息检索理论(部分)(部分)作用:指导检索系统设计、改进信息检索算法,提高检索效率等。作用:指导检索系统设计、改进信息检索算法,提高检索效率等
30、。理论来源:数学模型。理论来源:数学模型。(1)(1)检索模型检索模型 信息检索模型信息检索模型(IR Model)的理论基础主要来源于数学。的理论基础主要来源于数学。集合论和布尔代数是构造集合论和布尔代数是构造布尔模型布尔模型的基础。的基础。模糊检索模型模糊检索模型以模糊数学为基础。模糊检索目前在全文检索中使以模糊数学为基础。模糊检索目前在全文检索中使用最多。用最多。向量空间模型向量空间模型是将提问向量与文献向量进行相似度计算来决定相是将提问向量与文献向量进行相似度计算来决定相关度,命中结果由相似度阈值来决定。因此实际上也是一种模糊关度,命中结果由相似度阈值来决定。因此实际上也是一种模糊匹配
31、的检索模型。匹配的检索模型。概率检索模型概率检索模型建立在概率论框架基础上,采用概率论原理来解决建立在概率论框架基础上,采用概率论原理来解决信息检索问题。信息检索问题。30 第一章第一章 情报检索概述情报检索概述n信息检索理论信息检索理论(2 2)标引理论)标引理论 信息的标引(信息的标引(Indexing)主要是给出信息内容的概念主)主要是给出信息内容的概念主体和类别等,以便用户从不同角度去检索。体和类别等,以便用户从不同角度去检索。计算机自动标引的理论基础:统计学方法。单词频统计、计算机自动标引的理论基础:统计学方法。单词频统计、加权统计标引、逆文献频率加权标引。加权统计标引、逆文献频率加
32、权标引。其他理论基础:情报学的引文分析原理、语言学的语言规其他理论基础:情报学的引文分析原理、语言学的语言规则,句法和语义的分析方法。则,句法和语义的分析方法。31 第一章第一章 情报检索概述情报检索概述n 信息自动处理与组织信息自动处理与组织 信息处理与组织的目的,主要是确保信息能够被用户快速地信息处理与组织的目的,主要是确保信息能够被用户快速地检索和方便的获取,并能够为数据挖掘和信息分析提供良好的检索和方便的获取,并能够为数据挖掘和信息分析提供良好的数据结构。数据结构。(1 1)自动标引)自动标引 自动标引自动标引(Automatic Indexing):指利用计算机从数据库中抽:指利用计
33、算机从数据库中抽取关键词,通过一定的分析处理,给出标引词的过程。取关键词,通过一定的分析处理,给出标引词的过程。自动标引有抽词标引和赋词标引两类。自动标引有抽词标引和赋词标引两类。中文自动标引的难题:汉语词的切分、如何确定标引词(三种中文自动标引的难题:汉语词的切分、如何确定标引词(三种方法:统计分析法、语言学方法以及人工智能法)。方法:统计分析法、语言学方法以及人工智能法)。32 第一章第一章 情报检索概述情报检索概述n 信息自动处理与组织信息自动处理与组织 (2 2)自动分类与聚类)自动分类与聚类 分类与聚类主要是将信息按内容特征分门别类的组织分类与聚类主要是将信息按内容特征分门别类的组织
34、在一起,使人们可以方便的获取某一类信息。在一起,使人们可以方便的获取某一类信息。其中,分类可以借助分类词表进行,也可以根据某一其中,分类可以借助分类词表进行,也可以根据某一分类训练集进行归类,或按所设计的分类决策树进行分类训练集进行归类,或按所设计的分类决策树进行分类。分类。聚类完全是利用信息相似原理来进行。聚类完全是利用信息相似原理来进行。33 第一章第一章 情报检索概述情报检索概述n 信息自动处理与组织信息自动处理与组织(3 3)自动摘要)自动摘要 自动摘要(Automatic Abstrcting):利用计算机将利用计算机将一篇文章(文本)浓缩成较短摘要的过程。一篇文章(文本)浓缩成较短
35、摘要的过程。自动摘要主要是通过抽取文中的主题句来实现的,自动摘要主要是通过抽取文中的主题句来实现的,抽取主体句的方法有:词频或词组频率统计、摘抽取主体句的方法有:词频或词组频率统计、摘录各级标题、利用各级标题中的关键词抽取句子、录各级标题、利用各级标题中的关键词抽取句子、借助提示短语抽取句子。借助提示短语抽取句子。自动摘要的另一种方法是基于理解的自动摘要。自动摘要的另一种方法是基于理解的自动摘要。34 第一章第一章 情报检索概述情报检索概述n 信息自动处理与组织信息自动处理与组织(4 4)视频信息索引)视频信息索引 视频信息索引研究的主要内容包括:视频信息索引视频信息索引研究的主要内容包括:视
36、频信息索引的标引、分类、摘要、描述等。的标引、分类、摘要、描述等。视频索引的目的是为视频信息整序,为视频检索提视频索引的目的是为视频信息整序,为视频检索提供手段和途径。供手段和途径。(5 5)信息的组织)信息的组织 对信息检索而言,信息组织的文档形式有:流式文对信息检索而言,信息组织的文档形式有:流式文档、顺序文档、索引文档和倒排文档。档、顺序文档、索引文档和倒排文档。35关于选题及学位论文研究关于选题及学位论文研究 n存在问题:1 1对选题的研究现状论述不充分。对选题的研究现状论述不充分。国内研究综述;国外研究综述;总结与评述2 2选题研究的意义条理不清晰。选题研究的意义条理不清晰。一般应分为几点来分别描述。3 3选题研究的内容过于泛化。选题研究的内容过于泛化。解决“做什么”的问题。解析;深入;系统性。36关于选题及学位论文研究关于选题及学位论文研究n存在问题(续)4 4预期研究结果和创新点不突出。预期研究结果和创新点不突出。解决“做出什么东西”。在研究内容基础上提炼形成。创新点原则上应是前人没有作出的东西。首创/改进;学术/应用。5 5研究思路、方法与技术路线不明确。研究思路、方法与技术路线不明确。解决“如何做”。应具体思考、系统描述。6 6研究计划及进度缺乏针对性。研究计划及进度缺乏针对性。应根据论文研究内容的深度、难度和工作量,来仔细划分。37 谢谢 谢!谢!38