《信息存储与检索第3章.ppt》由会员分享,可在线阅读,更多相关《信息存储与检索第3章.ppt(153页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章第三章 文本信息存储与检索文本信息存储与检索 本章目录本章目录第一节第一节 引言引言第二节第二节 书目记录书目记录第三节第三节 顺排文档顺排文档第四节第四节 倒排文档倒排文档第五节第五节 文本文本检索技术检索技术第六节第六节 文本聚类检索文本聚类检索第七节第七节 全文检索全文检索信息存储与检索第一节第一节 引言引言v在用户需求的驱动下,信息检索始终处于动态演变的过程中。传统的手工检索采用人工匹配的方式,由检索人员对提问标识与文献标识进行比较,并做出文献选择。而计算机信息检索则是由计算机将输入的检索策略与系统中存储的信息特征标识及其逻辑组配关系进行类比、匹配的过程,它将人脑的过程显性化。信
2、息存储与检索第一节第一节 引言引言v无论是手工检索还是计算机检索,信息检索的过程实际上都是一个比较、匹配的过程,其本质是信息用户将自身的信息需求与信息集合进行匹配和选择。信息检索这一概念是基于这样的假设,即包含相关信息的文献或记录已经按照某种有利于检索的顺序组织起来了,因此为了实现有效的信息检索,首先需要对大量无序的信息进行收集、加工和存储,并用特定的标识系统描述信息获取的特征。在检索时,首先分析用户信息需求的内容,提取其中包含的概念或属性,并用与信息集合相同的标识系统将其表示出来,形成检索提问。如果检索提问与信息集合中信息的标识相一致,则属于检索“命中”,即找到了符合要求的信息。因此,计算机
3、信息检索的基本原理仍是“匹配运算”,但是却不同于手工检索的“匹配运算”方式。信息存储与检索3.2.1 书目记录书目记录结构结构v由美国国会图书馆主编的USMARC、国际图联主编的UNIMARC以及中国机读目录格式(CNMARC)都是对机读目录中格式的规定。其标准构成为:记录头标、地址目次区、数据字段区。v记录结构如下:记录头标地址目次区数据字段区记录分隔符信息存储与检索3.2.1 书目记录书目记录结构结构(一)记录头标区 记录头标是间接标识书目实体本身的记录内容,共24位字符。每个记录的头标都包含有ISO2709定义的关于记录结构的数据和为ISO2709的特定形式而定义的几项数据元素:记录类型
4、、目录级别、在层级中的位置、记录完整程度以及是完全采用还是部分采用ISBD规则。信息存储与检索3.2.1 书目记录书目记录结构结构(二)地址目次区 地址目次区位于记录头标之后,由一个或多个款目构成,每个款目都包括三部分:三位数字表示的字段号、四位数字表示的数据字段长度、五位数字表示的字段起始字符位置。其具体结构如下:字段号字段高度起始字符位置 字段分隔符地址目次区款目1款目2 其他款目信息存储与检索3.2.1 书目记录书目记录结构结构(三)数据字段区 由变长字段和变长字段的特殊形式定长字段共同构成。数据字段形式有两种:(1)定长字段 00-字段为定长数据字段,也称数据(控制)字段,其结构如下:
5、(2)变长字段 从010到999的所有字段均为变长数据字段,其结构如下:数 据字段分隔符指示符1指示符2$a数据 字段分隔符信息存储与检索3.2.1 书目记录书目记录结构结构(四)记录分隔符 著录于每个MARC记录最后的专门符号,是该MARC记录结束的标志。信息存储与检索3.2.2 CNMARCCNMARC数据字段区的构成数据字段区的构成 v在CNMARC书目格式中,记录的字段首先根据其标识符的第一位数字划分成十大功能块(Block)。一个功能块可划分成若干个字段,一个字段又可划分成若干个子字段,而一个子字段通常是由数据元素(Data element)所组成。信息存储与检索3.2.2 CNMA
6、RCCNMARC数据字段区的构成数据字段区的构成(一)功能块v0-标识块:用于标识记录或出现在编目实体上的号码(如记录标识号、ISBN、ISSN等),设有20个字段。v1-编码信息块:用于描述文献的各个方面的定长数据元素(通常是编码数据),设有27个字段。v2-著录信息块:用于录入ISBD所规定的除附注项和文献标准编号与获得方式项以外的全部著录项目,设有10个字段。v3-附注块:用于对著录项目或检索点作进一步的陈述,设有35个字段。v4-款目连接块:用于揭示相关记录之间的层次关系、平行关系和时间关系,设有36个字段。信息存储与检索3.2.2 CNMARCCNMARC数据字段区的构成数据字段区的
7、构成 v5-相关题名块:用于录入作为检索点的该文献的其他题名,设有18个字段。v6-主题分析块:用于录入既可以是词语又可以是符号的主题数据,设有21个字段。v7-知识责任块:用于录入需要建立检索点的个人、团体等责任者,设有11个字段。v8-国际使用块:用于录入国际上一致约定但又不适合在0-至7-字段处理的字段,设有6个字段。v9-国内使用块:原来CNMARC书目格式设有1个馆藏信息字段,但新版中国机读目录格式使用手册已将该字段废除。信息存储与检索3.2.2 CNMARCCNMARC数据字段区的构成数据字段区的构成(二)字段v001 记录标识号;v100 通用处理数据;v101 文献语种(当文献
8、存在语言文字时);v120 编码数据字段:测绘制图资料一般性特征(仅限于测绘制图资料);v123 编码数据字段:测绘制图资料比例尺与坐标(仅限于测绘制图资料);v125 编码数据字段:录音制品与印刷乐谱(仅限于乐谱等文献);v191 编码数据字段:拓片(仅限于拓片资料);v200 题名与责任说明项(仅$a正题名为必备数据);v206 资料特殊细节项:测绘制图资料的数学数据(仅限于测绘制图资料);v230 资料特殊细节项:电子资源特征(仅限于电子资源);v304 题名与责任说明附注(仅限于电子资源);v801 记录来源。信息存储与检索3.2.2 CNMARCCNMARC数据字段区的构成数据字段区
9、的构成(三)子字段与数据元素 子字段就是字段内所定义的数据单位。而数据元素则是被明确标识的数据最小单元。在可变长字段内,数据元素构成子字段,并用子字段标识符标识;在头标区、目次区和定长子字段内,由代码构成的数据元素则由其字符所在的位置标识。信息存储与检索3.2.3 CNMARC数据字段区的标识系统数据字段区的标识系统(一)标识符v又称为内容标识符(Content designator),是指以识别数据元素或提供有关数据元素附加信息的编码,包括字段标识符(Tag)、字段指示符(Indicator)和子字段标识符(Subfield identifier)。字段标识符是指用于标识各个字段的一组三位数
10、字符号,即字段号,如001、010、101等。字段指示符是与变长数据字段连用的两位字符,可以是数字,也可以是符号,用于提供字段内容、记录该字段与其他字段的相互关系或某些数据处理时所需操作的附加信息,如#0、1#、#等。子字段标识符是指由两位字符组成的代码,用来标识变长字段中的不同子字段。信息存储与检索3.2.3 CNMARC数据字段区的标识系统数据字段区的标识系统(二)分隔符v分隔符根据其功能可分为字段分隔符(Field separator)和记录分隔符(Record separator)。其中,字段分隔符是指在每个变长字段的结尾用来分隔字段的控制符,它也用于目次区的结尾。该字符使用ISO 2
11、709中规定的专用字符“IS2”(ISO 646(1/14位),文本格式中即为“*”)。记录分隔符是指在每条记录的结尾用来区分记录的控制符。该字符使用ISO 2709中规定的专用字符“IS3”(ISO 646(1/13位),文本格式中即为“%”)。信息存储与检索3.3.1 表展开法表展开法 v表展开法是菊池敏典先生所提出的,其主要思想是采用列表处理方法将逻辑提问式即检索式变换为等价的提问展开表,然后按提问展开表的内容对文档中的每一条记录进行检索。v(一)编辑逻辑提问式v构造提问式,需要正确、全面地反映用户的信息需求,并且还要有一个恰当的、便于计算机处理的表示形式。通常情况下,在计算机内一个提问
12、式的表达包括两个部分:第一部分是检索词表,用来表达检索词及对它的各种检索要求,如检索词、检索词号、字段号等;第二部分是逻辑提问式,它由检索词号组成。这两部分之间的连接枢纽就是检索词号。信息存储与检索3.3.1 表展开法表展开法 检索检索词词号号字段字段号号截断截断说说明明比较比较条条件件检索检索词词ABCD65065026026011331134信息信息检索检索19982008例如,检索1998至2008年间出版的信息检索方面的文献资料,其检索词表如下:信息存储与检索3.3.1 表展开法表展开法 v(1)展开表的结构v表展开法是将每个逻辑提问式转换成一个展开表,如果有N个提问式就可做N个展开表
13、。展开表由地址、检索词、检索词号、AFD、NFD、层级值等栏构成,其一般格式如下:地址地址AFDNFD层级层级值值检索检索词号词号字段号字段号截断截断说明说明比较比较条件条件权值权值有效有效位位检索检索词词“地址地址”栏用来表示检索词地址;栏用来表示检索词地址;“AFD”栏指匹配成功栏指匹配成功时转向地址;时转向地址;“NFD”栏指匹配不成功时转向地址;栏指匹配不成功时转向地址;“层层级值级值”栏表示当前检索词在提问式中的层次级别;栏表示当前检索词在提问式中的层次级别;“权权值值”栏表示在进行加权检索时,指定的检索词的权值;栏表示在进行加权检索时,指定的检索词的权值;“有效位有效位”栏表示检索
14、词字符数。栏表示检索词字符数。信息存储与检索3.3.1 表展开法表展开法 v(2)展开表的生成1.若是若是检索词代检索词代号号,则将对应的,则将对应的检索词有关内容检索词有关内容存入展开表内存入展开表内6.若是若是“”为结束标为结束标志,则将最后一检索词志,则将最后一检索词的条件满足指向栏放入的条件满足指向栏放入“命中命中”,条件不满足,条件不满足指向栏放入指向栏放入“不命中不命中”2.若是若是“+”,则,则将其前一检索词的将其前一检索词的条件不满足指向栏条件不满足指向栏放入后一词的地址放入后一词的地址3.若是若是“”,则将其左边检索词则将其左边检索词的条件满足指向栏的条件满足指向栏放入后一词
15、的地址放入后一词的地址4.若是若是“(”,则将,则将其后的检索词所在行其后的检索词所在行的级位栏值加的级位栏值加1;若;若有多个有多个“(”则级位则级位值连续加值连续加1,级位初,级位初值为值为05.若是若是“)”,则将,则将其紧前一个检索词所其紧前一个检索词所在行的级位栏值加在行的级位栏值加1;若有多个;若有多个“)”则则级位值连续减级位值连续减1前处理算法前处理算法信息存储与检索3.3.1 表展开法表展开法 v(2)展开表的生成1.从最后一行条件满足指向栏往上推,如果遇从最后一行条件满足指向栏往上推,如果遇到空,则置入下面最临近的且级位小于该栏的条到空,则置入下面最临近的且级位小于该栏的条
16、件满足指向栏的内容,或最后一行条件满足指向件满足指向栏的内容,或最后一行条件满足指向栏的内容栏的内容2.从最后一行条件不满足指向栏往上推,如果遇从最后一行条件不满足指向栏往上推,如果遇到空,则置入下面最临近的且级位小于或等于该到空,则置入下面最临近的且级位小于或等于该栏的条件不满足指向栏的内容,或最后一行条件栏的条件不满足指向栏的内容,或最后一行条件不满足指向栏的内容不满足指向栏的内容后处理算法:后处理算法:信息存储与检索3.3.1 表展开法表展开法 v(2)展开表的生成例:逻辑提问式(A+B)(C+D)E的展开表形式 级位级位条件满足指向条件满足指向检索词代号检索词代号地址地址条件不满足指向
17、条件不满足指向字段号字段号 比较条件比较条件 检索词检索词ABCDE12345335510100命中命中不命中不命中不命中不命中不命中不命中24(略略)信息存储与检索3.3.1 表展开法表展开法 v(二)表展开法的检索处理v表展开法检索的基本思想就是从主文档中读出文献记录,并将其与已变换成展开表的提问式进行比较,若满足条件,便将该文献作为答案输出给用户。v构造检索标识表的办法:v 从主文档中读入一条文献记录,取出其头标部分,根据头标信息可以计算出该记录含有多少个登录项;信息存储与检索3.3.1 表展开法表展开法 v 检索目录区,判断各登录项是否属于可检项目。若属于可检项,则将其字段属性代号放入
18、检索标识表的相应栏目中。然后根据地址数据到数据区中取出该检索项目的所有子字段内容,放入检索标识表的“检索词”栏中,而对应项目的长度放入“有效位”栏中。检索表格式如下:字段号字段号有效位有效位检索词检索词6506502602602244信息信息检索检索19982008信息存储与检索3.3.1 表展开法表展开法 v在建好检索标识表后,检索就从文献记录与提问的比较转变为检索标识表与提问展开表的比较。由于计算机内存容量有限,所以当文献量和提问数超出一定范围,在检索时就不能将检索标识表文档和提问展开表文档的所有内容全部放入内存,需要分批进行处理。v表展开法的检索处理过程如图所示:信息存储与检索3.3.1
19、 表展开法表展开法 主文档复位主文档复位k=m标识表与展开表比较标识表与展开表比较不匹配不匹配提问档提问档出口出口主文档主文档编制检索标识词编制检索标识词1k主文档结束否主文档结束否提问档结束否提问档结束否NoNoNoYesYesYes匹配匹配k+1k读入一文献读入一文献输出命中文献,并标明提问式编号输出命中文献,并标明提问式编号读入一批(读入一批(m个)提问式个)提问式将提问式变换为提问展开表将提问式变换为提问展开表入口入口信息存储与检索3.3.1 表展开法表展开法 凡是可不查阅的文献属性一定不查凡是可不查阅的文献属性一定不查.其效率在某种程度上依赖原提问式的书写其效率在某种程度上依赖原提问
20、式的书写.在实际的定额批式检索中在实际的定额批式检索中,很多提问中往往很多提问中往往含有很多相同的检索词含有很多相同的检索词.由于每个提问都要由于每个提问都要与主文档进行匹配处理与主文档进行匹配处理,因此一批提问中这因此一批提问中这些相同的检索词和同一文献要重复匹配多次些相同的检索词和同一文献要重复匹配多次.凡是可不再查阅的检索词一定不再查凡是可不再查阅的检索词一定不再查.优点优点缺点缺点(三)表展开法的优缺点 信息存储与检索3.3.2 树展开法树展开法 v树展开法的主要思想是将逻辑提问式转换为树形结构,其中,逻辑树的叶节点是提问式中的提问词,该树非叶节点对应一个逻辑算子。使用树展开法,所有的
21、检索词都要按照有限自动机原理构造成字符树,即辅树,而主树与辅树之间的相关元素用指针链接。树展开法主要可分为三大部分,即逻辑提问式的分解、字符树生成以及检索处理。v(一)分解逻辑提问式v分解逻辑提问式,其主要目标就是构建出可以直接用于检索实现的主逻辑树表、检索词地址表以及检索词位置表。信息存储与检索3.3.2 树展开法树展开法 v(1)主逻辑树表v主逻辑树是逻辑提问式的一种树形表达形式,它用层次型的树形结构把算符及算项关联起来。它所对应的主逻辑树表是检索处理的关键环节,其主要内容包括:运算种类、子项个数、父项地址、处理标识以及检索处理登记栏:v运算种类:表示提问式中的算符“+”、“”、“”等,每
22、个算符有一个或多个子项,但只能有一个父项,没有父项的节点为根节点。v子项个数:表示某算符直接下属项的个数。v父项地址:表示本项的父项在本表中的地址。如提问式A+BC,“A”和“”都指向同一父项“+”。信息存储与检索3.3.2 树展开法树展开法 v处理标识:在检索过程中填写,表示该检索项或逻辑组合项是否“命中”。通常情况下,处理标识初值为0,当检索“命中”以后,则记为1。对于“”运算,则初值为1,在该词命中后置0。v检索处理:用以记录该项在检索过程中的变化情况。即当该项的子项命中后,对该项进行累计处理,当该项的检索要求被满足后,则在“处理标识”栏置1。v对于主逻辑树表,在检索时,当某一行的处理标
23、识为1时,则根据该行的“父项地址”值找到其“父项地址”行,进行检索处理,以此类推,直到“树根”行。当“树根”行的处理标识为1时,则说明该检索提问式“命中”。信息存储与检索3.3.2 树展开法树展开法 v(2)中间工作表v中间工作表用于存储将逻辑提问式转换为逻辑树表的过程中所生成的一些中间数据,一旦主逻辑树表生产完毕,则清除该表。v起始位置:表示子项在逻辑提问式中的起始位置。v终止位置:表示子项在逻辑提问式中的截止位置。v父项地址:本项的父项在逻辑提问式中的地址。v辅助信息:为分解该子项时提供辅助信息。例如,本项是否为括号项,本项的父项为何种运算,等等。在本算法中,“0”表示该子项的前后端分别为
24、左右括号,“1”表示父项为“+”运算,“2”表示父项为“*”运算,“3”表示父项为“-”运算。信息存储与检索3.3.2 树展开法树展开法 v(3)检索词地址表v检索词地址表是主逻辑树表与辅表间的联系枢纽。在检索过程中,当一个检索词“命中”时,就通过辅表找到其在检索词地址表中的位置,然后再根据地址表中记录的主表位置进行检索处理。v检索登录:用于登记检索词“命中”与否。初值为0,首次“命中”后记为1,同时根据所记录的本项在主表中的位置找到主表,进行检索处理。v主表位置:表示该检索词在主逻辑树表中的位置。此栏是主表和辅表间的连接点,当辅表中的检索词“命中”后,可以通过辅表的指针在该表中找到主表中的相
25、应位置。信息存储与检索3.3.2 树展开法树展开法 v(4)检索词位置表v检索词位置表是在将逻辑提问式转换成逻辑树表的过程中,临时生成的一个中间处理过程表,该表也是提问式与辅表间的纽带,当辅表生成完毕,则清除该表。v检索词种类:记录检索词的类别,如标题、著者、关键词、出版年代等。v起始位置:表示本行检索词在逻辑提问式中的起始位置。其作用在于构造辅表时,可以快速准确地在提问式中取词。v终止位置:表示本行检索词在逻辑提问式中的结束位置。作用同上。信息存储与检索3.3.2 树展开法树展开法 v(5)主逻辑树的生成v其算法思想就是采用多次扫描的分层分解构造法:v首先分解提问式中最外层“+”运算下的子项
26、,括号内的项暂不分解。v扫描已分解出的子项(在最外层没有“+”运算的情况下则对整个逻辑式进行)中的“*”运算的运算子项,若该子项为括号括起项,则仍先分解“+”号子项。v最后分解“-”号子项。v例:L=(politicaleconomiccultural)*development*nationalsocial*status 的分解转换过程。信息存储与检索3.3.2 树展开法树展开法 起始位置起始位置终止位置终止位置父项地址父项地址辅助信息辅助信息2)3)5)6)7)9)10)12)13)14)20)1531+13143536021221445165291415158651019285111222
27、33444611022221113中间工作表示例中间工作表示例 信息存储与检索3.3.2 树展开法树展开法 运算种类运算种类 子项个数子项个数 父项地址父项地址 处理标识处理标识 检索处理检索处理4)8)11)15)17)19)22)25)28)31)34)37)+*+232301000000提问号提问号1)112223344461主逻辑树表示例主逻辑树表示例 信息存储与检索3.3.2 树展开法树展开法 检索词种类检索词种类起始位置起始位置终止位置终止位置16)21)24)27)30)33)36)315360212214441586510192851检索词位置表示例检索词位置表示例 信息存储与
28、检索3.3.2 树展开法树展开法 检索登录检索登录主表位置主表位置18)23)26)29)32)35)38)5789101112检索词地址表示例检索词地址表示例 信息存储与检索3.3.2 树展开法树展开法(二)检索词字符树表构造检索词字符树表的构建思想就是将所有检索词构造成有限自动机状态表,该表是一个由字符和状态层次组成的二维表,其结构如下表所示。字符树表内容根据状态转移函数g(n,x)填写,当一个检索词结束就调用函数output(s)填写地址表指针。字符(x)状态(n)abc xyz检索词终极点与检索词地址表指针012信息存储与检索3.3.2 树展开法树展开法 以检索词簇be,fig,box
29、,bean,fisher,boxcar为例,它们在检索词地址表中的位置如下表所示。构造字符树表的总体思路为:对每一个检索词都从0状态出发;在0状态下,若遇有该检索词首字母字符位置已登记过时,即g(0,x)匹配成功,就顺其走下去;不管在何种状态下,若g(n,x)匹配失败,则构造一个新的状态。检索词检索词地址表中位置地址表中位置检索词检索词地址表中位置地址表中位置be5,26bean19figfig8fisherfisher7boxbox10boxcarboxcar15信息存储与检索3.3.2 树展开法树展开法 naeb109821054311sigfhracxo157141661213er检索词
30、字符树结构示例检索词字符树结构示例信息存储与检索3.3.2 树展开法树展开法 字符字符(x)状态状态(n)aefhilmoprstuwxz地址地址012345678910111213141516128141215351146913161075,2681019715检检索索词词的的字字符符树树表表示示例例信息存储与检索3.3.2 树展开法树展开法 v(三)树展开法的检索处理从文从文档中档中读取读取一条一条记录记录将记录中将记录中的标引项的标引项去匹配相去匹配相关的检索关的检索词字符树词字符树根据检索词地根据检索词地址指针去判断址指针去判断检索词地址表检索词地址表对应的检索登对应的检索登录区录区若
31、为,表明该词已命中若为,表明该词已命中过,不需要再处理过,不需要再处理若为,将该项置为,若为,将该项置为,并根据本行的并根据本行的“主表位置主表位置”字段去修改主逻辑树表字段去修改主逻辑树表实际检索过程实际检索过程由于判断次数少,处理速度更快;由于判断次数少,处理速度更快;对提问式的处理是一次性的,而且是对提问式的处理是一次性的,而且是后台处理的,为检索带来了极大便利后台处理的,为检索带来了极大便利逻辑树法逻辑树法的优点的优点信息存储与检索3.3.2 树展开法树展开法 若为若为”1”,可返可返回进行下一次的回进行下一次的处理处理若为若为”0”,根据根据”运算种类运算种类”做相应做相应处理处理若
32、为若为”+”,在完成标志栏置在完成标志栏置”1”,再向父再向父项移动项移动若为若为”,比较比较”检索处理检索处理”和和”子项个子项个数数”的值的值,相等则在完成标志栏置相等则在完成标志栏置1,再向父再向父项移动项移动;不等则返回进行下一词的处理不等则返回进行下一词的处理若为若为”,则顺着父项进行注销处理则顺着父项进行注销处理当移动到顶项时当移动到顶项时,若若该行处理标志为该行处理标志为1,则则表示其是命中文献表示其是命中文献,将提问号和记录号将提问号和记录号写入命中文档写入命中文档 在主逻辑树表在主逻辑树表中该词的中该词的”处理处理标志标志”栏中填上栏中填上1根据父项地址的指针根据父项地址的指
33、针找到父项行找到父项行,对对”检索检索处理处理”栏做加一运算栏做加一运算查看查看”处理标处理标志志”栏栏检索处检索处理过程理过程信息存储与检索3.4.1 倒排文档的建立倒排文档的建立 v利用顺排文档来建立倒排文档,具体步骤如下:1.从主文档中抽从主文档中抽取可检项目建立取可检项目建立倒排文档倒排文档3.检索处理检索处理,输出结果输出结果1.选择并选择并抽出做索抽出做索引的字段引的字段内容内容,在在其后附上其后附上相应记录相应记录号号2.对对抽出抽出的内的内容进容进行排行排序序 3.对相同内对相同内容进行归并容进行归并,将合并后的将合并后的内容,其频内容,其频次、记录号次、记录号顺序填入相顺序填
34、入相应字段应字段2.提问式提问式的编辑的编辑步骤步骤注意注意:倒排文档的倒排文档的建立应具有及时更建立应具有及时更新的功能新的功能;对于只对于只能处理定长字段的能处理定长字段的数据库或文件系统数据库或文件系统,需建立溢出文档需建立溢出文档信息存储与检索3.4.2 提问式的编辑提问式的编辑 v(一)逆波兰变换v要将提问式进行逆波兰变换,首先应在计算机内存里开辟三个工作区:算子保留栈。主要作用是重新排列运算符,以便确定运算顺序,它是进行逆波兰转换过程中不可或缺的临时堆栈;结果保留区。用于存放经变换处理后的逆波兰表达式;检索词表存储区。用于存放提问式中的检索词。此外,还需要给每一个算子赋上一个优先数
35、,以决定它们在处理过程中进入算子保留栈的顺序。下表给出了有关算符的优先级。算算子子)+*(优优先先级级1 1 2 2 3 3 4 45/15/1(外外/内内)信息存储与检索3.4.2 提问式的编辑提问式的编辑(a)先从左到右逐个扫描先从左到右逐个扫描提问式字符提问式字符,予于适当转移予于适当转移(d)遇遇”(”,无条件置入栈内无条件置入栈内(c)遇运算符遇运算符,若其优先级高于栈顶若其优先级高于栈顶运算符运算符,则压入栈内则压入栈内;不高于则取出不高于则取出栈顶运算符送入逆波兰输出区栈顶运算符送入逆波兰输出区.依此依此类推类推,直到遇到高于栈顶运算符直到遇到高于栈顶运算符(b)遇检索词遇检索词
36、,将其置入检索词表中将其置入检索词表中,词表地址送入逆波兰输出区词表地址送入逆波兰输出区(e)遇遇”)”,则将栈内与其对应的则将栈内与其对应的左括号之间的运算符盘出左括号之间的运算符盘出,送入逆送入逆波兰输出区波兰输出区.清除这对括号清除这对括号(f)遇遇”,栈内算子依次出栈送入栈内算子依次出栈送入逆波兰输出区逆波兰输出区转换规则:转换规则:信息存储与检索3.4.2 提问式的编辑提问式的编辑(A+B)*(C+D)+E的逆波兰变换处理的逆波兰变换处理示例:示例:(A+B)*(C+D)+E(A+B)*(C+D)+E地址地址 检索词检索词(*0(特征特征 内容内容0010011010或或10102+
37、0304+*05+0102030405ABCDE信息存储与检索3.4.2 提问式的编辑提问式的编辑 v(二)检索指令表的生成v为了将提问的逆波兰形式翻译成一组检索指令,除了用到原来的结果保留区和检索词表以外,还需要设置一个检索指令表,用来放置检索指令,其结构如下:检索指令操作检索指令操作码(码(ONON)第一操作数第一操作数(AD1AD1)第二操作数第二操作数(AD2AD2)第三操作数第三操作数(AD3AD3)信息存储与检索3.4.2 提问式的编辑提问式的编辑 v生成检索指令表,要从结果保留区的第一行开始逐行扫描,同时遵循以下处理顺序和规则:v在工作区管理表中,假设“未被占用”的工作区标识为0
38、,“已占用”则为1。v 若是检索词表地址,则从工作区管理表中找出可用的工作区Wi,将词表地址作为第一操作数AD1,Wi作为第三操作数AD3,执行“输入指令”,并送入检索指令表中。信息存储与检索3.4.2 提问式的编辑提问式的编辑 v 若是算符,则从工作区管理表中取出最近被占用的工作区号码,根据占用的先后次序,分别作为AD1和AD2;再从工作区管理表中找出一个标识为0的工作区号码作为AD3;按照算符做“或”、“与”、“非”检索指令,并将指令送入检索指令表。同时,由AD3所确定的工作区标识置1,释放AD1、AD所确定的工作区,其标识置0。v 若是结束号“.”,说明已将结果保留区扫描完毕,此时,工作
39、区管理表中有且只有一个工作区被占用。这时将此工作区的号码作为AD1,最终工作区的号码Wn作AD3,做“存储指令”,并送入检索指令表中。v 执行了“存储指令”后,便做出“终止指令”,并送入检索指令表中。信息存储与检索3.4.2 提问式的编辑提问式的编辑 v以提问式(A+B)*(C+D)+E.为例,说明其工作区占用情况,以及由逆波兰表示式转换为一组检索指令的过程。转转储储工作区工作区W1 1A结果文献号码集合结果文献号码集合 1)C结果文献号码集合结果文献号码集合 4)(A+B)*(C+D)结果文献结果文献号码集合号码集合 7)2 2B结果文献号码集合结果文献号码集合 2)D结果文献号码集合结果文
40、献号码集合 5)E结果文献号码集合结果文献号码集合 8)3 3A和和B“或或”结果文献结果文献号号码集合码集合 3)(A+B)*(C+D)和和E“或或”结果文献号码集合结果文献号码集合 9)4 4C和和D“或或”结果文献结果文献号码集合号码集合 6)n=7n=7(A+B)*(C+D)+E.结果结果文献文献号码集合号码集合 10)信息存储与检索3.4.2 提问式的编辑提问式的编辑 检检索索指指令令表表生生成成过过程程示示例例信息存储与检索3.4.2 提问式的编辑提问式的编辑 检检索索指指令令表表生生成成过过程程示示例例信息存储与检索3.4.2 提问式的编辑提问式的编辑 检检索索指指令令表表生生成
41、成过过程程示示例例信息存储与检索3.4.3 检索处理检索处理 生成检索指令表后,便开始进行实际的检索处理,整个检索生成检索指令表后,便开始进行实际的检索处理,整个检索过程主要依赖于检索指令表和检索词表,具体操作如下:过程主要依赖于检索指令表和检索词表,具体操作如下:若操作码若操作码ON=1,表示应进行查找和输入操作。按第一操,表示应进行查找和输入操作。按第一操作数作数AD1中的词表地址所代表的检索词检索倒排文档,将获中的词表地址所代表的检索词检索倒排文档,将获得的文献记录号码放入第三操作数指定的工作区中。得的文献记录号码放入第三操作数指定的工作区中。若操作码若操作码ON=2,表示应进行转储操作
42、。将第一操作数,表示应进行转储操作。将第一操作数AD1指定的工作区中的记录号集合存储到第三操作数指定的工作区中的记录号集合存储到第三操作数AD3指定的指定的工作区中。工作区中。若操作码若操作码ON2,表示应进行逻辑,表示应进行逻辑“或或”、“与与”、“非非”运算操作。根据操作码代号,将第一操作数运算操作。根据操作码代号,将第一操作数AD1和第二操和第二操作数作数AD2指定的工作区中的文献记录号集合进行相应的逻辑指定的工作区中的文献记录号集合进行相应的逻辑运算,运算结果存放到第三操作数运算,运算结果存放到第三操作数AD3指定的工作区中。指定的工作区中。若操作码若操作码ON=0,表示该提问式检索结
43、束。应根据第七工,表示该提问式检索结束。应根据第七工作区的内容,即命中结果,到主文档中调出命中记录,输出作区的内容,即命中结果,到主文档中调出命中记录,输出给用户。给用户。信息存储与检索赋初值赋初值由检索指令表中取出一条指令由检索指令表中取出一条指令由工作区中取出第二个文献号码集合由工作区中取出第二个文献号码集合将取出的两个文献号码集合做逻辑运算将取出的两个文献号码集合做逻辑运算将运算结果置入工作区将运算结果置入工作区由工作区中取出第一个文献号码集合由工作区中取出第一个文献号码集合入口入口终止操作终止操作操作类别操作类别将工作区的文献将工作区的文献号码集合置于最号码集合置于最终结果工作区终结果
44、工作区由检索词表中取词由检索词表中取词检索倒排文档检索倒排文档将检索到的文将检索到的文献号码集合置献号码集合置入工作区入工作区倒排倒排挡挡出口出口输出输出存贮存贮YN+图:倒排文档检图:倒排文档检索的主程序流程索的主程序流程信息存储与检索3.5.1 布尔检索布尔检索 v(一)布尔逻辑算符及其应用v常用的布尔逻辑算符有三种,分别是逻辑与AND、逻辑或OR、逻辑非NOT,用以表达两个检索词之间的逻辑关系。下面分别简释他们各自的含义与用法。v(1)逻辑与“AND”或*v检索词A与检索词B若用“AND”组配,则提问式可写为“A AND B”或者“A*B”。检索时,数据库中同时含有检索词A和检索词B的文
45、献,才算是命中文献。信息存储与检索3.5.1 布尔检索布尔检索 v(2)逻辑或“OR”或+v检索词A和检索词B若用“OR”组配,则提问式可写为“A OR B”或者“A+B”。检索时,数据库中的文献凡含有检索词A或者检索词B或者同时含有检索词A和B的,均为命中文献。v(3)逻辑非“NOT”或 v检索词A和检索词B若用“NOT”进行逻辑组配,则可写为“A NOT B”或者“A B”。对于这个提问式,数据库中凡含有检索词A而不含检索词B的文献,为命中文献。v(4)逻辑异或”XOR”或v检索词A和检索词B若用异或XOR组配,可写为“A XOR B”或者“AB”。该检索式的检索结果为:含有检索词A的文献
46、命中,含有检索词B的文献命中,但同时含有A和B的文献不命中。信息存储与检索3.5.1 布尔检索布尔检索 “ANDAND”运算运算 “OROR”运算运算 “NOTNOT”运运算算 “XORXOR”运算运算布尔运算的示意图布尔运算的示意图 信息存储与检索3.5.1 布尔检索布尔检索 v(二)使用布尔逻辑算符的注意事项 v(1)布尔检索执行顺序。三种布尔检索运算符之间的优先顺序为NOT、AND、OR。有括号时,先执行括号内的逻辑运算。有多层括号时,先执行最内层括号中的运算。v(2)不同检索工具的布尔逻辑检索有不同的表现形式,在使用的时候,要注意先了解相关的使用规则。信息存储与检索3.5.2 截词检索
47、截词检索 v所谓截词(truncation),是指检索者将检索词在自己认为合适的地方截断;而截词检索,则是用截断的检索词的一个局部去数据库中进行检索,凡是能与这个词局部中的所有字符(串)相匹配的文献,即为命中文献。v截词符号在不同的信息检索系统中表示不同,但功能是相同的。通常情况下用“*”表示无限截断,用“?”表示有限截断。信息存储与检索3.5.2 截词检索截词检索 v(一)后截词检索v后截断是最常用的截词检索技术。将截词符号置放在一个字符串右方,以表示其右的有限或无限个字符不影响该字符串的检索。从检索性质上讲,后截断是前方一致检索。v【例】coagula*v可检出的词汇有:coagula、c
48、oagulable、coagulant、coagulase、coagulate、coagulation、coagulative、coagulator等v【例】mold?v可检出的词汇有:mold、molded、molder等,但却不能检出下述词汇:moldery、molding、moldman、moldwash。信息存储与检索3.5.2 截词检索截词检索 v(二)前截词检索v与后截断相对,前截断是将截词符号置放在一个字符串左方,以表示其左的有限或无限个字符不影响该字符串的检索。从检索性质上讲,前截断是后方一致检索。v【例】*meterv可检出的词汇如下:meter、cubic-meter、ma
49、cro-meter、macrometer、mini-meter、minimeter、square-meter,但是检不出meterage、metering、meterman等。信息存储与检索3.5.2 截词检索截词检索 v(三)中截词检索v中截断又称为“通用字符法”或“内嵌字截断”或“屏蔽”。这种截断是把截断符置于一个检索词的中间,允许检索词的中间有若干形式的变化。一般地,中截断仅允许有限截断。v英语中有些单词的拼写方式有英式、美式之分,有些词则有某个元音位置上出现单复数不同,如:organizationorganisation,manmen,womanwomen等等。文献数据库中与之相似的例
50、子是大量存在的。若希望不漏检,使用这种词进行检索时就要用中截断的处理方法。比如,上述词汇在用于检索时可写成:organi?ation,m?n,wom?n。信息存储与检索3.5.3 限制检索限制检索 v(一)字段检索v字段检索是限定检索词在数据库记录中出现的字段范围的一种检索方法。v在检索系统中,数据库设置、提供的可供检索的字段通常分为主题字段和非主题字段两大类。每个字段都有一个用两个字母表示的字段代码。在DIALOG系统中各字段代码及对应名称说明如下:v/AB 文摘字段(Abstract)v/DE 叙词字段(Descriptor):主题词表中的词v/ID 自由标引词字段(Identifier)