信息检索技术精选PPT.ppt

上传人:石*** 文档编号:47937489 上传时间:2022-10-04 格式:PPT 页数:52 大小:2.98MB
返回 下载 相关 举报
信息检索技术精选PPT.ppt_第1页
第1页 / 共52页
信息检索技术精选PPT.ppt_第2页
第2页 / 共52页
点击查看更多>>
资源描述

《信息检索技术精选PPT.ppt》由会员分享,可在线阅读,更多相关《信息检索技术精选PPT.ppt(52页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、信息检索技术信息检索技术1 1第1页,此课件共52页哦内容提要内容提要n n倒排文档检索倒排文档检索n n加权检索加权检索n n全文检索全文检索2 2第2页,此课件共52页哦4.1 4.1 倒排文档检索倒排文档检索3 3第3页,此课件共52页哦信息检索系统的体系结构文本文本数据库数据库数据库数据库管理管理建索引建索引索引索引提问处理提问处理搜索搜索排序排序排序后排序后的文档的文档用户用户反馈反馈文本处理文本处理用户界面用户界面检出的文档检出的文档用户用户需求需求文本文本提问提问逻辑视图逻辑视图倒排文档倒排文档4 4第4页,此课件共52页哦建立索引的目的建立索引的目的n n对文档或文档集合建立索

2、引,以加快检索速度对文档或文档集合建立索引,以加快检索速度n n倒排文档(或倒排索引)是一种最常用的索引机制倒排文档(或倒排索引)是一种最常用的索引机制倒排文档(或倒排索引)是一种最常用的索引机制倒排文档(或倒排索引)是一种最常用的索引机制n n倒排文档的索引对象是文档或文档集合中的单词等。倒排文档的索引对象是文档或文档集合中的单词等。倒排文档的索引对象是文档或文档集合中的单词等。倒排文档的索引对象是文档或文档集合中的单词等。5 5第5页,此课件共52页哦在关系数据库上建索引在关系数据库上建索引n n这种想法也被应用于数据库技术中,即对数据库中需要经常这种想法也被应用于数据库技术中,即对数据库

3、中需要经常这种想法也被应用于数据库技术中,即对数据库中需要经常这种想法也被应用于数据库技术中,即对数据库中需要经常进行检索的域建立索引结构,进行快速的查询。进行检索的域建立索引结构,进行快速的查询。进行检索的域建立索引结构,进行快速的查询。进行检索的域建立索引结构,进行快速的查询。n n索引结构索引结构索引结构索引结构:hashing,B+-tree:hashing,B+-tree:hashing,B+-tree:hashing,B+-treen n可以索引全部记录,在全部记录上进行搜索可以索引全部记录,在全部记录上进行搜索可以索引全部记录,在全部记录上进行搜索可以索引全部记录,在全部记录上进

4、行搜索n n精确地快速地查找精确地快速地查找精确地快速地查找精确地快速地查找地址地址姓名姓名姓名索引姓名索引查询式查询式:姓名姓名 =“张三张三”张三张三哈尔滨工业大学哈尔滨工业大学哈尔滨工业大学哈尔滨工业大学张三张三张三张三6 6第6页,此课件共52页哦对文档进行索引对文档进行索引n n索引结构索引结构索引结构索引结构:hashing,B+-trees,trieshashing,B+-trees,tries.n n可以进行部分匹配可以进行部分匹配可以进行部分匹配可以进行部分匹配:%computcomputcomputcomput%n n可以进行短语搜索可以进行短语搜索可以进行短语搜索可以进行

5、短语搜索:查找包含查找包含查找包含查找包含“computer computer graphgraphicsicsicsics”的文档的文档的文档的文档文档索引文档索引D1D1D2D2D3D3computercomputerD1,23,97,104D1,23,97,104D3,43D3,43graphicsgraphicsD2,5D2,5D3,44D3,44“computer”“computer”在在D1D1中出现的位置中出现的位置7 7第7页,此课件共52页哦倒排文档组成倒排文档组成n n倒排文档一般由两部分组成:词汇表倒排文档一般由两部分组成:词汇表(vocabularyvocabulary

6、)和记录表()和记录表(posting listposting list)n n词汇表词汇表是文本或文本集合中所包含的所有不同单是文本或文本集合中所包含的所有不同单词的集合。词的集合。n n对于词汇表中的每一个单词,其在文本中出现的对于词汇表中的每一个单词,其在文本中出现的位置或者其出现的文本编号构成一个列表,所有位置或者其出现的文本编号构成一个列表,所有这些列表的集合就称为这些列表的集合就称为记录表记录表8 8第8页,此课件共52页哦一般的倒排索引一般的倒排索引n n索引文件可以用任何文件结构来实现索引文件可以用任何文件结构来实现n n索引文件中的词项是文档集合中的词表索引文件中的词项是文档

7、集合中的词表索引文件中的词项是文档集合中的词表索引文件中的词项是文档集合中的词表architecturearchitecturecomputercomputerdatabasedatabaseretrievalretrieval.D D1 1,a,a1 1D D1 1,a,a2 2D D1 1,a,a3 3索引项索引项索引项索引项/词表词表词表词表索引索引索引索引/索引文件索引文件索引文件索引文件/索引数据库索引数据库索引数据库索引数据库Postings Postings 列表列表列表列表Q=term1,term2,term3,.Q=term1,term2,term3,.附加信息附加信息附加信

8、息附加信息例如:词位置,出现例如:词位置,出现例如:词位置,出现例如:词位置,出现次数次数次数次数9 9第9页,此课件共52页哦例子例子1 12 23 34 45 56 67 78 89 91010111112121313141415151616这这这这是是是是一本一本一本一本 关于关于关于关于 信息信息信息信息 检检检检索索索索的的的的教材教材教材教材。介介介介绍绍绍绍了了了了检检检检索索索索的的的的基本基本基本基本 技技技技术术术术。技术技术教材教材检索检索信息信息 15,15,8,8,6,12,6,12,5,5,词汇表词汇表Posting listPosting list文本文本倒排文件

9、倒排文件1010第10页,此课件共52页哦以文本为记录表以文本为记录表 记录表既可以存储文本中记录表既可以存储文本中记录表既可以存储文本中记录表既可以存储文本中单词的编号位置单词的编号位置单词的编号位置单词的编号位置,也可以指向,也可以指向,也可以指向,也可以指向单词首字单词首字单词首字单词首字母的字符位置母的字符位置母的字符位置母的字符位置,还可以是其,还可以是其,还可以是其,还可以是其所在的文本编号所在的文本编号所在的文本编号所在的文本编号,下图是一个以文本,下图是一个以文本,下图是一个以文本,下图是一个以文本为记录表的情况为记录表的情况为记录表的情况为记录表的情况1111第11页,此课件

10、共52页哦距离约束:需要位置信息为记录表距离约束:需要位置信息为记录表n n常常需要知道邻接条件,例如:常常需要知道邻接条件,例如:常常需要知道邻接条件,例如:常常需要知道邻接条件,例如:“databasedatabasedatabasedatabase”后面紧跟着后面紧跟着后面紧跟着后面紧跟着“systemssystemssystemssystems”n n例如:短语搜索例如:短语搜索例如:短语搜索例如:短语搜索 “database systemsdatabase systemsdatabase systemsdatabase systems”“databasedatabasedatabas

11、edatabase”和和和和“systemssystemssystemssystems”之间不能间隔超过之间不能间隔超过之间不能间隔超过之间不能间隔超过3 3 3 3个词个词个词个词“databasedatabasedatabasedatabase”和和和和“architecturearchitecturearchitecturearchitecture”在同一个句子里在同一个句子里在同一个句子里在同一个句子里n n需求扩展需求扩展需求扩展需求扩展:倒排索引中保存着关键词在文档中的位置,文档的组成单元倒排索引中保存着关键词在文档中的位置,文档的组成单元倒排索引中保存着关键词在文档中的位置,文档

12、的组成单元倒排索引中保存着关键词在文档中的位置,文档的组成单元(标题标题标题标题,小标题小标题小标题小标题,句子分割标记等句子分割标记等句子分割标记等句子分割标记等)检索算法和位置信息相关联,并需检查文档的组成单元检索算法和位置信息相关联,并需检查文档的组成单元检索算法和位置信息相关联,并需检查文档的组成单元检索算法和位置信息相关联,并需检查文档的组成单元1212第12页,此课件共52页哦以位置信息为记录表以位置信息为记录表 保存段落、句子和词的位置:保存段落、句子和词的位置:保存段落、句子和词的位置:保存段落、句子和词的位置:databasedatabasefilefilesystemssy

13、stems.D D345345,25,25D D348348,37,37D D350350,8,8D D123123,5,5D D128128,25,25D D345345,25,25n n保存倒排表中的位置信息保存倒排表中的位置信息保存倒排表中的位置信息保存倒排表中的位置信息:保存句子位置保存句子位置保存句子位置保存句子位置:文档文档文档文档D D350350第第第第8 8句句句句databasedatabasefilefilesystemssystems.D D345345,2,3,5,2,3,5D D348348,37,5,9,37,5,9D D350350,8,12,1,8,12,1D

14、 D123123,5,4,3,5,4,3D D128128,25,1,12,25,1,12D D345345,2,3,6,2,3,6文档文档文档文档D D350350第第第第8 8段,第段,第段,第段,第1212句句句句第第第第1 1个词个词个词个词1313第13页,此课件共52页哦以权重信息为记录表以权重信息为记录表n n可保存出现频率,以便支持基于统计的检索可保存出现频率,以便支持基于统计的检索可保存出现频率,以便支持基于统计的检索可保存出现频率,以便支持基于统计的检索:databasedatabasefilefilesystemssystems.D D345345,10,10D D348

15、348,20,20D D350350,1,1D D123123,82,82D D128128,8,8D D345345,12,12在在在在DD345345中中中中“systems”“systems”比比比比“database”“database”重要重要重要重要1.21.2倍倍倍倍n nPostingsPostingsPostingsPostings中的第二个单元可以是该中的第二个单元可以是该中的第二个单元可以是该中的第二个单元可以是该termtermtermterm的权重的权重的权重的权重(例如例如例如例如,可以被可以被可以被可以被归一化在归一化在归一化在归一化在0 0 0 0和和和和1 1

16、 1 1之间之间之间之间),或者是该,或者是该,或者是该,或者是该termtermtermterm的出现频率的出现频率的出现频率的出现频率1414第14页,此课件共52页哦同义词扩展词汇表同义词扩展词汇表n n同义词对于提高召回率很有意义同义词对于提高召回率很有意义同义词对于提高召回率很有意义同义词对于提高召回率很有意义n n同义词可以通过指针指向同一个同义词可以通过指针指向同一个postings list.postings list.postings list.postings list.databasedatabasedatabasesdatabasessystemssystemsD D3

17、45345,2,3,5,2,3,5D D348348,37,5,9,37,5,9D D350350,8,12,1,8,12,1D D123123,5,4,3,5,4,3D D128128,25,1,12,25,1,12D D345345,2,3,6,2,3,6datasetdataset1515第15页,此课件共52页哦建立索引的过程建立索引的过程1616第16页,此课件共52页哦建立索引的过程建立索引的过程n n识别文档中的词识别文档中的词识别文档中的词识别文档中的词n n删除停用词删除停用词删除停用词删除停用词(stop wordsstop wordsstop wordsstop word

18、s)n n提取词干提取词干提取词干提取词干(stemmingstemmingstemmingstemming)n n用索引项的标号代替词干用索引项的标号代替词干用索引项的标号代替词干用索引项的标号代替词干(stemsstemsstemsstems)n n统计词干的数量统计词干的数量统计词干的数量统计词干的数量(tf tf tf tf)n n(可选可选可选可选)对低频词项使用同义词词典对低频词项使用同义词词典对低频词项使用同义词词典对低频词项使用同义词词典(thesaurusthesaurusthesaurusthesaurus)n n(可选可选可选可选)对高频词项构成短语对高频词项构成短语对高

19、频词项构成短语对高频词项构成短语n n计算所有单个词项、短语和语义类的权重计算所有单个词项、短语和语义类的权重计算所有单个词项、短语和语义类的权重计算所有单个词项、短语和语义类的权重1717第17页,此课件共52页哦英文词根还原英文词根还原(Stemming)(Stemming)n n进行词根还原:进行词根还原:stop/stops/stopping/stoppedstop/stops/stopping/stopped stopstop好处:减少词典量;坏处:按词形查不到,好处:减少词典量;坏处:按词形查不到,词根还原还可能出现错误词根还原还可能出现错误n n不进行词根还原:不进行词根还原:S

20、toppedStopped sto+ppe+dsto+ppe+d好处:支持词形查询;坏处:增加词典量好处:支持词形查询;坏处:增加词典量1818第18页,此课件共52页哦停用词消除停用词消除n n停用词(stop words)是指那些出现频率高但是无重要意义,通常不会作为查询词出现的词,如“的”、“地”、“得”、“都”、“是”等等消除:通常是通过查表的方式去除,去除的好处-大大较少索引量,坏处-有些平时的停用词在某些上下文可能有意义保留:索引空间很大1919第19页,此课件共52页哦建立索引的过程建立索引的过程 举例举例n n输入文本输入文本输入文本输入文本 The analysis of 2

21、5 indexing algorithms has not produced consistent retrieval The analysis of 25 indexing algorithms has not produced consistent retrieval performance.The best indexing technique for retrieving documents is not knownperformance.The best indexing technique for retrieving documents is not knownn n删除删除删除

22、删除stopwordsstopwordsstopwordsstopwords analysis indexing algorithms produced consistent retrieval performance best indexing analysis indexing algorithms produced consistent retrieval performance best indexing technique retrieving documents knowntechnique retrieving documents knownn nStemmingStemming

23、 analysis index algorithm produc consistent retriev perform best index technique retriev analysis index algorithm produc consistent retriev perform best index technique retriev document knowndocument knownn n转换为索引编号转换为索引编号转换为索引编号转换为索引编号 123 345 110 2234 432 3565 2302 566 345 4321 3565 755 1128123 34

24、5 110 2234 432 3565 2302 566 345 4321 3565 755 1128n n计算计算计算计算tf tf tf tf 110 1 123 1 345 2 1 432 1 566 1 755 1 1128 1 2302 1 2344 1 3565 2 110 1 123 1 345 2 1 432 1 566 1 755 1 1128 1 2302 1 2344 1 3565 2 4321 14321 1n n计算词项的权值计算词项的权值计算词项的权值计算词项的权值(依赖于使用的模型依赖于使用的模型依赖于使用的模型依赖于使用的模型)2020第20页,此课件共52页哦

25、检索过程检索过程n n给定给定给定给定queryqueryn n对对对对queryqueryqueryquery进行进行进行进行stemmingstemmingstemmingstemming,算法与对文档的处理相同,算法与对文档的处理相同,算法与对文档的处理相同,算法与对文档的处理相同n n用索引编号代替用索引编号代替用索引编号代替用索引编号代替stemsstemsstemsstemsn n计算所有计算所有计算所有计算所有query termsquery terms的权重的权重的权重的权重n n形成形成形成形成queryqueryqueryquery向量(对向量(对向量(对向量(对VSMVS

26、MVSMVSM模型而言)模型而言)模型而言)模型而言)n n计算计算计算计算queryqueryqueryquery向量和文档向量之间的相似度向量和文档向量之间的相似度向量和文档向量之间的相似度向量和文档向量之间的相似度n n返回排序后的文档集合返回排序后的文档集合返回排序后的文档集合返回排序后的文档集合2121第21页,此课件共52页哦倒排索引上的布尔检索倒排索引上的布尔检索n n一个布尔检索包含一个布尔检索包含一个布尔检索包含一个布尔检索包含n n n n个用布尔操作连接的词项个用布尔操作连接的词项个用布尔操作连接的词项个用布尔操作连接的词项 ,例如:,例如:,例如:,例如:“comput

27、er AND news computer AND news computer AND news computer AND news AND NOT newsgroupAND NOT newsgroupAND NOT newsgroupAND NOT newsgroup”可以用括号来调整逻辑运算次序可以用括号来调整逻辑运算次序可以用括号来调整逻辑运算次序可以用括号来调整逻辑运算次序n n每个每个每个每个termtermtermterm从倒排索引中返回一个从倒排索引中返回一个从倒排索引中返回一个从倒排索引中返回一个postingpostingpostingpostings s s s list l

28、ist list list 如果如果如果如果termtermtermterm不在任何文档中出现,则不在任何文档中出现,则不在任何文档中出现,则不在任何文档中出现,则postings listpostings listpostings listpostings list为空为空为空为空n n检索结果根据逻辑关系相结合:检索结果根据逻辑关系相结合:检索结果根据逻辑关系相结合:检索结果根据逻辑关系相结合:AND:AND:AND:AND:集合做交运算集合做交运算集合做交运算集合做交运算 OR:OR:OR:OR:集合做并运算集合做并运算集合做并运算集合做并运算 NOT:NOT:NOT:NOT:集合做差运

29、算集合做差运算集合做差运算集合做差运算A AB BA and BA and B2222第22页,此课件共52页哦倒排索引上的布尔检索倒排索引上的布尔检索n n查询查询:中国中国 ANDAND 文化文化查找查找DictionaryDictionary,定位,定位中国中国;n n读取对应的读取对应的读取对应的读取对应的postings.postings.postings.postings.查找查找DictionaryDictionary,定位,定位文化文化;n n读取对应的读取对应的读取对应的读取对应的postings.postings.postings.postings.“MergeMerge”

30、合并合并(AND)(AND)两个两个postings:postings:12834248163264123581321中国中国文化文化2323第23页,此课件共52页哦34128248163264123581321合并合并n nListsLists的合并算法的合并算法的合并算法的合并算法34248163264123581321中国中国文化文化28If the list lengths are x and y,the merge takes O(x+y)operations.Crucial:postings sorted by docID.2424第24页,此课件共52页哦倒排索引上的布尔检索倒

31、排索引上的布尔检索n n标准的优化技术应用:标准的优化技术应用:从最短的从最短的posting listposting list开始做开始做“与与”操作,保操作,保证中间结果越小越好证中间结果越小越好“网络网络”AND AND“病毒病毒”AND AND“蠕虫蠕虫”从哪个词项开始做交运算呢?从哪个词项开始做交运算呢?显然是:“病毒”和“蠕虫”2525第25页,此课件共52页哦倒排索引的优点倒排索引的优点n n快速索引快速索引 (长长queryquery需要更多时间需要更多时间)n n灵活性灵活性:不同类型的信息都可以存储在不同类型的信息都可以存储在postings listpostings li

32、st中中n n如果存储了足够多的信息,则可以如果存储了足够多的信息,则可以支持支持复杂的检索操作复杂的检索操作例如:如果记录了词在文档中的准确位例如:如果记录了词在文档中的准确位置,就可以支持短语检索,或模糊检索置,就可以支持短语检索,或模糊检索2626第26页,此课件共52页哦倒排索引的缺点倒排索引的缺点n n很大的存储开销很大的存储开销很大的存储开销很大的存储开销 50%-150%-300%50%-150%-300%50%-150%-300%50%-150%-300%n n更新、插入和删除都需要很高的维护开销,倒更新、插入和删除都需要很高的维护开销,倒排索引相对静态的环境排索引相对静态的环

33、境(很少插入和更新很少插入和更新)中使中使用比较好用比较好n n处理开销随着布尔操作的增加而增长处理开销随着布尔操作的增加而增长n n由于由于postingspostings越来越多越来越多(例如引入同义词例如引入同义词),导致,导致索引检索的代价越来越大,需要对位置进行很索引检索的代价越来越大,需要对位置进行很多处理多处理(例如短语匹配例如短语匹配)2727第27页,此课件共52页哦倒排文档中研究的问题倒排文档中研究的问题n n倒排文档的压缩倒排文档的压缩n n倒排文档的删除倒排文档的删除n n倒排文档的插入倒排文档的插入2828第28页,此课件共52页哦索引压缩索引压缩n n理论上,(全文

34、)索引的大小和原始文件相当,因为每个词的每次出现都必须在posting list中记录。n n需不需要压缩?要压缩:索引大小通常和原始文本大小相当,不压缩可能会耗费大量存储开销不压缩:硬盘很便宜,数据量不是特别大,而且不需要解压缩的消耗2929第29页,此课件共52页哦倒排索引的更新倒排索引的更新n n情况一:情况一:出现了新的词,则需要修改词出现了新的词,则需要修改词典结构,在词典中增加词条。典结构,在词典中增加词条。n n情况二:情况二:出现了新的文档,则在相应的出现了新的文档,则在相应的词条下增加词条下增加posting listposting list。n n情况三:情况三:某些文档不

35、复存在,则在相应某些文档不复存在,则在相应的位置进行标记,等积累到一定时期进的位置进行标记,等积累到一定时期进行一次性操作。行一次性操作。3030第30页,此课件共52页哦词汇表的组织词汇表的组织n n顺序排序数组:顺序排序数组:采用字典序,查找采用采用字典序,查找采用二分法。空间消耗小,查找较快,但是二分法。空间消耗小,查找较快,但是插入删除麻烦。插入删除麻烦。n n二叉搜索树、二叉搜索树、B B树、树、TrieTrie树树等。等。n nHashHash表:表:通过通过HashHash函数直接把词映射函数直接把词映射到地址,空间消耗和到地址,空间消耗和HashHash函数设计有关。函数设计有

36、关。较快,插入删除容易。较快,插入删除容易。3131第31页,此课件共52页哦4.2 4.2 加权检索加权检索n n加权检索根据每个词在检索要求中的加权检索根据每个词在检索要求中的重要程重要程度度不同,分别给予一定的数值(不同,分别给予一定的数值(权值权值)加以)加以区别,同时利用给出的检索命中界限值(阈区别,同时利用给出的检索命中界限值(阈值,值,ThresholdThreshold)限定检索结果的输出。)限定检索结果的输出。n n加权检索是布尔逻辑检索的一种扩充,把加权检索是布尔逻辑检索的一种扩充,把量量化思想化思想引入定性检索中。引入定性检索中。n n加权检索分为加权检索分为标引加权标引

37、加权和和检索加权检索加权两种类型。两种类型。3232第32页,此课件共52页哦4.2.1 4.2.1 检索词赋权检索检索词赋权检索n n对每一检索词给定一权值,代表其重要性。检索时,对每一检索词给定一权值,代表其重要性。检索时,对每一检索词给定一权值,代表其重要性。检索时,对每一检索词给定一权值,代表其重要性。检索时,对存在的检索词的记录计算其权值总和。当权值总对存在的检索词的记录计算其权值总和。当权值总对存在的检索词的记录计算其权值总和。当权值总对存在的检索词的记录计算其权值总和。当权值总和大于阈值时,则认为命中。和大于阈值时,则认为命中。和大于阈值时,则认为命中。和大于阈值时,则认为命中。

38、n n最简单、最容易实现的加权检索系统。最简单、最容易实现的加权检索系统。最简单、最容易实现的加权检索系统。最简单、最容易实现的加权检索系统。3333第33页,此课件共52页哦n n举例n n一个企业管理者为了改进企业管理模式,接受新的管理一个企业管理者为了改进企业管理模式,接受新的管理一个企业管理者为了改进企业管理模式,接受新的管理一个企业管理者为了改进企业管理模式,接受新的管理理念,提高企业的竞争力,希望获取知识管理、竞争情理念,提高企业的竞争力,希望获取知识管理、竞争情理念,提高企业的竞争力,希望获取知识管理、竞争情理念,提高企业的竞争力,希望获取知识管理、竞争情报、企业文化方面的文献资

39、料,用加权法列出的提问式报、企业文化方面的文献资料,用加权法列出的提问式报、企业文化方面的文献资料,用加权法列出的提问式报、企业文化方面的文献资料,用加权法列出的提问式如下:如下:如下:如下:W=W=W=W=知识管理(知识管理(知识管理(知识管理(4 4 4 4)竞争情报()竞争情报()竞争情报()竞争情报(2 2 2 2)企业文化()企业文化()企业文化()企业文化(1 1 1 1)表中表中“”表示相应检索词与文献中主题词匹配,若设定阈值为表示相应检索词与文献中主题词匹配,若设定阈值为4 4,由上表可知,组合由上表可知,组合1 1至至4 4为命中文献。为命中文献。3434第34页,此课件共5

40、2页哦检索词赋权检索的优缺点n n检索词赋权检索的优点:检索词赋权检索的优点:明确了检索词在检索中的重要程度;明确了检索词在检索中的重要程度;通过提高或降低阈值来扩大和缩小检索输出的范围;通过提高或降低阈值来扩大和缩小检索输出的范围;检索结果按符合检索需求的重要程度顺序排列。检索结果按符合检索需求的重要程度顺序排列。n n检索词赋权检索的缺点:检索词赋权检索的缺点:加权法提问式表达不如逻辑式直观;加权法提问式表达不如逻辑式直观;权值的确定较为困难。权值的确定较为困难。3535第35页,此课件共52页哦4.2.2 4.2.2 加权标引加权标引n n加权标引是指在对文献进行标引时,根加权标引是指在

41、对文献进行标引时,根据每个据每个标引词在文献中的重要程度标引词在文献中的重要程度不同,不同,为它们附上为它们附上不同的权值不同的权值,检索时通过对,检索时通过对检索词的检索词的标引权值相加标引权值相加来来筛选筛选命中记录。命中记录。3636第36页,此课件共52页哦加权标引加权标引n n在进行加权标引时,对反映文献在进行加权标引时,对反映文献主要内主要内容的标引词给予高权值容的标引词给予高权值,反映文献,反映文献次要次要内容的标引词给予较低的权值内容的标引词给予较低的权值。n n词频加权检索方法应建立在对全文数据词频加权检索方法应建立在对全文数据库和文摘数据库基础之上,否则词频加库和文摘数据库

42、基础之上,否则词频加权将失去意义。权将失去意义。3737第37页,此课件共52页哦简单词频加权简单词频加权n n简单词频加权检索:指检索时简单词频加权检索:指检索时累计累计检索检索词在记录中出现的词在记录中出现的次数次数来决定记录的权来决定记录的权值。值。n n最大缺点就是不论文章长短、词频高低最大缺点就是不论文章长短、词频高低都采用的是统一的词频标准。都采用的是统一的词频标准。3838第38页,此课件共52页哦相对词频加权检索相对词频加权检索n n将每将每一个检索词在本文中频率一个检索词在本文中频率和在和在整个数据库整个数据库中的频率中的频率综合考虑,进行加权检索的方法。综合考虑,进行加权检

43、索的方法。n n文内频率文内频率=指定词在本文中的频次指定词在本文中的频次/该文本词汇该文本词汇该文本词汇该文本词汇总频次总频次总频次总频次n n文外频率文外频率文外频率文外频率=指定词在本文中的频次指定词在本文中的频次指定词在本文中的频次指定词在本文中的频次/该词在整个数该词在整个数该词在整个数该词在整个数据库据库据库据库(所有文献所有文献所有文献所有文献)中总次数中总次数中总次数中总次数n n文内频率解决了文内频率解决了文内频率解决了文内频率解决了短文章中词频过低短文章中词频过低短文章中词频过低短文章中词频过低的问题,文外的问题,文外频率解决了频率解决了新词、专用词的低频新词、专用词的低频

44、新词、专用词的低频新词、专用词的低频问题。问题。问题。问题。3939第39页,此课件共52页哦4.2.3 4.2.3 标引加权的检索过程标引加权的检索过程n n检索时给出检索词和检索阈值,对满足检索时给出检索词和检索阈值,对满足检索阈值的检索结果按其权值之和从大检索阈值的检索结果按其权值之和从大到小输出来筛选命中记录。到小输出来筛选命中记录。n n在实际的人工标引中尚未见有加权标引在实际的人工标引中尚未见有加权标引的系统。的系统。n n在计算机自动标引的系统中,可以方便在计算机自动标引的系统中,可以方便而有效的采用加权标引技术。而有效的采用加权标引技术。4040第40页,此课件共52页哦标引加

45、权检索阈值的设定标引加权检索阈值的设定n n在检索中,阈值有两种设置方法:在检索中,阈值有两种设置方法:为每个检索词制定一个阈值,避免了次要为每个检索词制定一个阈值,避免了次要内容被检出;内容被检出;给总的检索结果指定一个阈值,保证了命给总的检索结果指定一个阈值,保证了命中文献的综合相关度。中文献的综合相关度。4141第41页,此课件共52页哦4.3 4.3 全文检索技术全文检索技术n n全文检索,即检索的数据源、检索的对全文检索,即检索的数据源、检索的对象、检索匹配技术、检索结果都是全文象、检索匹配技术、检索结果都是全文信息的检索。信息的检索。n n全文检索有两种实现方式:全文检索有两种实现

46、方式:对全文编索引;对全文编索引;不对全文进行任何加工处理,只是从前至不对全文进行任何加工处理,只是从前至后的逐字匹配。后的逐字匹配。4242第42页,此课件共52页哦4.3.1 4.3.1 全文检索的技术指标全文检索的技术指标(1 1 1 1)索引膨胀系数)索引膨胀系数)索引膨胀系数)索引膨胀系数n n索引的膨胀系数是指针对全文所建的索引文件索引的膨胀系数是指针对全文所建的索引文件大小与全文文件大小之比。大小与全文文件大小之比。n n索引膨胀系数索引膨胀系数 =索引文件的大小索引文件的大小/全文数据库的全文数据库的全文数据库的全文数据库的大小大小大小大小n n全文索引需要以最小的标引单位作为

47、索引主键字,全文索引需要以最小的标引单位作为索引主键字,全文索引需要以最小的标引单位作为索引主键字,全文索引需要以最小的标引单位作为索引主键字,英语一般为单词,中文则为单汉字。英语一般为单词,中文则为单汉字。英语一般为单词,中文则为单汉字。英语一般为单词,中文则为单汉字。(2 2 2 2)检索速度)检索速度)检索速度)检索速度 4343第43页,此课件共52页哦4.3.2 4.3.2 全文检索的实现全文检索的实现n n全文检索的实现通常用检索词对全文产全文检索的实现通常用检索词对全文产生的词(字)索引文档的匹配。生的词(字)索引文档的匹配。n n西文的全文检索多数采用位置检索技术,西文的全文检

48、索多数采用位置检索技术,这样可以提高全文检索的查准率。这样可以提高全文检索的查准率。n n位置检索分为四种级别:记录级检索、位置检索分为四种级别:记录级检索、字段或段落级检索或自然句级检索、词字段或段落级检索或自然句级检索、词位置检索。位置检索。4444第44页,此课件共52页哦词位置级检索词位置级检索(1 1)词位置顺序相邻()词位置顺序相邻(WW)n n检索时要求(检索时要求(WW)两边的词在原文中不)两边的词在原文中不能有其他单词,并且次序不能颠倒。能有其他单词,并且次序不能颠倒。n n例如:?例如:?select information select information(WW)re

49、trievalretrievaln n可检得含有固定词组可检得含有固定词组“information information retrievalretrieval”的文献全文。的文献全文。4545第45页,此课件共52页哦词位置级检索词位置级检索(2 2 2 2)位置顺序隔词()位置顺序隔词()位置顺序隔词()位置顺序隔词(nWnWnWnW)n n表示由算符(表示由算符(表示由算符(表示由算符(nWnWnWnW)所连接的检索词之间最多只)所连接的检索词之间最多只能含有能含有n n n n(n n可以为可以为可以为可以为0 0)个单词,并且两词的顺序不)个单词,并且两词的顺序不)个单词,并且两词的

50、顺序不)个单词,并且两词的顺序不能颠倒。能颠倒。能颠倒。能颠倒。n n例如:例如:例如:例如:?select computer?select computer?select computer?select computer(1W1W1W1W)communicationcommunicationcommunicationcommunication n n其检索式表示含有下述词组的文献都可作为检索命其检索式表示含有下述词组的文献都可作为检索命其检索式表示含有下述词组的文献都可作为检索命其检索式表示含有下述词组的文献都可作为检索命中结果:中结果:中结果:中结果:computer communicat

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 资格考试

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁