《信息检索的方法与技术第2讲.ppt》由会员分享,可在线阅读,更多相关《信息检索的方法与技术第2讲.ppt(14页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、3.2.2 截词检索(截词检索(truncation)截词:截词:检索者将检索词在他认为合适的地方截断。检索者将检索词在他认为合适的地方截断。截词检索:截词检索:用截断词的一个局部进行的检索,凡满用截断词的一个局部进行的检索,凡满足这个词局部中的所有字符串的文献,都为命中足这个词局部中的所有字符串的文献,都为命中文献。文献。3.2.2 截词检索(截词检索(truncation)截词的方式截词的方式按截词的位置分:后截词、前截词、中截词按截词的位置分:后截词、前截词、中截词按截词的数量分:无限截词、有限截词。按截词的数量分:无限截词、有限截词。截词符号:不同的系统符号不同截词符号:不同的系统符号
2、不同 如如 “*”“*”“?”“$”?”“$”截词检索截词检索非限定性截词(无限截词)非限定性截词(无限截词)截词符截词符(truncation operator),是在一个词尾加一个?号,表示,是在一个词尾加一个?号,表示在其后可添加任意多个字符,这些字符都被作为检索词进行检索。在其后可添加任意多个字符,这些字符都被作为检索词进行检索。如:如:smok?它将对若干词进行检索,包括:它将对若干词进行检索,包括:smoke,smoky,smoked,smoker,smokes,smokers,smoking,smokeless等等。等等。限定性截词(有限截词)限定性截词(有限截词)限定性截词限定
3、性截词(limited truncation),是在一个词尾加有限个是在一个词尾加有限个?号,?号,n个个?号表示其后可添加的字符数少于等于?号表示其后可添加的字符数少于等于n 如:如:smok?将对将对smoke,smoky,smoked,smoker,smokes等进行检索。等进行检索。对于最多允许添加一个字符的情况,对于最多允许添加一个字符的情况,则用则用?的形式表示。的形式表示。如;如;smok?将只对将只对 smoke,smoky进行检索。进行检索。后截词后截词:将截词符号置于一个字符串的右方。将截词符号置于一个字符串的右方。如如comput?可检索出:可检索出:compute,co
4、mputed,computer,computing,computers,computable,computation,computerize,computerization等等 后截词又叫后截词又叫前方一致前方一致。截词检索举例截词检索举例截词检索举例截词检索举例归纳起来,后截词主要主要使用在以下几个方面:归纳起来,后截词主要主要使用在以下几个方面:1.1.词的单复数:如词的单复数:如 book?,potato?book?,potato?2.2.年代:如年代:如198?198?(8080年代),年代),19?19?(2020世纪)世纪)3.3.作者:如作者:如lancaster?,lancas
5、ter?,可检索出所有姓可检索出所有姓lancasterlancaster的作者的作者4.4.同根词:如同根词:如biolog?biolog?可检索出可检索出biological,biologist,biology.biological,biologist,biology.注:使用后截词,有可能检索出无关的词汇。注:使用后截词,有可能检索出无关的词汇。词干不能太短,会造成大量误检,系统软件不支持或发词干不能太短,会造成大量误检,系统软件不支持或发生溢出。生溢出。前前(左左)截断截断:将截词符号置于一个字符串的左方。将截词符号置于一个字符串的左方。如如?Computer可检索出:可检索出:mac
6、rocomputer,minicomputer,microcomputer,computer等相关词。等相关词。中间截断中间截断:如:如analy?er表示表示analyzer和和analyser,wom?n表示表示woman和和women前后截断:前后截断:如如?computer?上述上述4种截断中,后截断最常用。种截断中,后截断最常用。截词检索举例截词检索举例3.2.3 字段检索字段检索 限定检索词在数据库记录中出现的字段范围的一限定检索词在数据库记录中出现的字段范围的一种检索方法种检索方法。DialogDialog系统中字段检索分为两类:后缀方式和前系统中字段检索分为两类:后缀方式和前缀
7、方式。缀方式。后缀方式:后缀方式:对应于基本索引,反映文献的主题内对应于基本索引,反映文献的主题内容。如容。如/TI/TI,/AB/AB,/DE/DE,/ID/ID,等。,等。前缀方式:前缀方式:对应于辅助索引,反映文献的外部特对应于辅助索引,反映文献的外部特征。如征。如AU=(AU=(著者著者),BN=(ISBN)BN=(ISBN),CC=(CC=(分类号分类号),CS=(CS=(机构名称机构名称),LA=(LA=(语种语种),PY=(PY=(出版年出版年),等。,等。例如:例如:(minicomputer/DE,TI+personal(minicomputer/DE,TI+personal
8、 computer/Ti,AB)*py=1990*LA=Engcomputer/Ti,AB)*py=1990*LA=Eng数据库常用检索字段列表数据库常用检索字段列表 西文数据库常用字段西文数据库常用字段中文数据中文数据库库常用字段常用字段字段名称字段名称字段代字段代码码TitleTI题题名名AuthorAU作者作者Keyword,TopicKW关关键词键词Descriptor,SubjectDE主主题词题词CorporateSource,CompanyCS机构(作者机构(作者单单位)位)AbstractAB文摘文摘DocumentTypeDT文献文献类类型型JournalName,Publi
9、cationTitleJN期刊名称期刊名称PublicationYearPY出版年出版年ISSN/ISBNISSN/ISBNISSN/ISBNFull_textFT全文全文 词位置检索词位置检索 词位置检索又叫相邻检索,是以原始记录中检索词之间特词位置检索又叫相邻检索,是以原始记录中检索词之间特定的位置关系为逻辑运算的对象,检索词之间用位置算符定的位置关系为逻辑运算的对象,检索词之间用位置算符连接。它是一种不依赖词表而直接使用自由词的检索技术,连接。它是一种不依赖词表而直接使用自由词的检索技术,可以使检索结果更加准确。可以使检索结果更加准确。一般分为一般分为4 4个级别:个级别:记录级检索记录
10、级检索(C)(C):要求检索词出现在同一记录中。:要求检索词出现在同一记录中。字段级检索字段级检索(F)(F):要求检索词出现在同一字段中。:要求检索词出现在同一字段中。自然句级检索自然句级检索(S)(S):要求检索词出现在同一句子中。:要求检索词出现在同一句子中。词位置检索词位置检索(W)(W):要求检索词之间的相互位置满足某些条:要求检索词之间的相互位置满足某些条件。件。如:vA(W)B A(nW)B A(nN)vHDTV OR High()Difinition()Television词位置检索算符词位置检索算符1.(W)算符与(算符与(nW)算符算符 (W)(W)算符是算符是“word”
11、word”或或”with”with”缩写,它表示在缩写,它表示在此算符两侧的检索词必须按输入时的前后顺序排此算符两侧的检索词必须按输入时的前后顺序排列。而且所连接的词之间除有一个空格、或一个列。而且所连接的词之间除有一个空格、或一个标点符号或一个连接号外不得夹有任何其他固定标点符号或一个连接号外不得夹有任何其他固定的词组,的词组,(W)(W)算符的严密性较强。算符的严密性较强。(nWnW)算符:允许在连接的两个词之间最多插入算符:允许在连接的两个词之间最多插入n n 个及其个及其n n个以内的其他词。个以内的其他词。词位置检索算符词位置检索算符例如:例如:?s potential(w)ener
12、gy 可检出:可检出:.potential energy and function?s glass(1W)glass 可检索出可检索出:glass and glass glass for glass glass to glass glass-to-glass词位置检索算符词位置检索算符2.(N)算符和算符和(nN)算符算符 (N)(N)算符是算符是”near”near”的缩写,它表示:在此算符两的缩写,它表示:在此算符两侧的检索词必须紧密相连,不允许插入任何其他侧的检索词必须紧密相连,不允许插入任何其他的单词,单词的顺序可以颠倒。的单词,单词的顺序可以颠倒。(nN)(nN)算符:表示在此算符两侧的词之间最多可插算符:表示在此算符两侧的词之间最多可插入入n n个或个或n n个以内的单词,且这个检索词之间的词个以内的单词,且这个检索词之间的词序任意。序任意。词位置检索算符词位置检索算符例如:例如:?s money(N)supply 可检出:可检出:money supply和和supply money?s econom?(2N)recovery 可检出:可检出:economic recovery recovery of the economy recovery from economic troubles10 第第3章章 完完