信息检索技术优秀课件.ppt

上传人:石*** 文档编号:52241939 上传时间:2022-10-22 格式:PPT 页数:52 大小:3.99MB
返回 下载 相关 举报
信息检索技术优秀课件.ppt_第1页
第1页 / 共52页
信息检索技术优秀课件.ppt_第2页
第2页 / 共52页
点击查看更多>>
资源描述

《信息检索技术优秀课件.ppt》由会员分享,可在线阅读,更多相关《信息检索技术优秀课件.ppt(52页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、信息检索技术信息检索技术1 1第1页,本讲稿共52页内容提要内容提要n n倒排文档检索倒排文档检索n n加权检索加权检索n n全文检索全文检索2 2第2页,本讲稿共52页4.1 4.1 倒排文档检索倒排文档检索3 3第3页,本讲稿共52页信息检索系统的体系结构文本文本数据库数据库数据库数据库管理管理建索引建索引索引索引提问处理提问处理搜索搜索排序排序排序后排序后的文档的文档用户用户反馈反馈文本处理文本处理用户界面用户界面检出的文档检出的文档用户用户需求需求文本文本提问提问逻辑视图逻辑视图倒排文档倒排文档4 4第4页,本讲稿共52页建立索引的目的建立索引的目的n n对文档或文档集合建立索引,以加

2、快检索速度对文档或文档集合建立索引,以加快检索速度对文档或文档集合建立索引,以加快检索速度对文档或文档集合建立索引,以加快检索速度n n倒排文档(或倒排索引)是一种最常用的索引机制倒排文档(或倒排索引)是一种最常用的索引机制倒排文档(或倒排索引)是一种最常用的索引机制倒排文档(或倒排索引)是一种最常用的索引机制n n倒排文档的索引对象是文档或文档集合中的单词等。倒排文档的索引对象是文档或文档集合中的单词等。倒排文档的索引对象是文档或文档集合中的单词等。倒排文档的索引对象是文档或文档集合中的单词等。5 5第5页,本讲稿共52页在关系数据库上建索引在关系数据库上建索引n n这种想法也被应用于数据库

3、技术中,即对数据库中需要经这种想法也被应用于数据库技术中,即对数据库中需要经这种想法也被应用于数据库技术中,即对数据库中需要经这种想法也被应用于数据库技术中,即对数据库中需要经常进行检索的域建立索引结构,进行快速的查询。常进行检索的域建立索引结构,进行快速的查询。常进行检索的域建立索引结构,进行快速的查询。常进行检索的域建立索引结构,进行快速的查询。n n索引结构索引结构索引结构索引结构:hashing,B+-tree:hashing,B+-tree:hashing,B+-tree:hashing,B+-treen n可以索引全部记录,在全部记录上进行搜索可以索引全部记录,在全部记录上进行搜索

4、可以索引全部记录,在全部记录上进行搜索可以索引全部记录,在全部记录上进行搜索n n精确地快速地查找精确地快速地查找精确地快速地查找精确地快速地查找地址地址姓名姓名姓名索引姓名索引查询式查询式:姓名姓名 =“张三张三”张三张三哈尔滨工业大学哈尔滨工业大学哈尔滨工业大学哈尔滨工业大学张三张三张三张三6 6第6页,本讲稿共52页对文档进行索引对文档进行索引n n索引结构索引结构索引结构索引结构:hashing,B+-trees,trieshashing,B+-trees,trieshashing,B+-trees,trieshashing,B+-trees,tries.n n可以进行部分匹配可以进行

5、部分匹配可以进行部分匹配可以进行部分匹配:%computcomputcomputcomput%n n可以进行短语搜索可以进行短语搜索可以进行短语搜索可以进行短语搜索:查找包含查找包含查找包含查找包含“computer computer computer computer graphgraphgraphgraphicsicsicsics”的文档的文档的文档的文档文档索引文档索引D1D1D2D2D3D3computercomputerD1,23,97,104D1,23,97,104D3,43D3,43graphicsgraphicsD2,5D2,5D3,44D3,44“computer”“comp

6、uter”在在D1D1中出现的位置中出现的位置7 7第7页,本讲稿共52页倒排文档组成倒排文档组成n n倒排文档一般由两部分组成:词汇表倒排文档一般由两部分组成:词汇表(vocabularyvocabulary)和记录表()和记录表(posting listposting list)n n词汇表词汇表是文本或文本集合中所包含的所有不是文本或文本集合中所包含的所有不同单词的集合。同单词的集合。n n对于词汇表中的每一个单词,其在文本中出对于词汇表中的每一个单词,其在文本中出现的位置或者其出现的文本编号构成一个列现的位置或者其出现的文本编号构成一个列表,所有这些列表的集合就称为表,所有这些列表的集

7、合就称为记录表记录表8 8第8页,本讲稿共52页一般的倒排索引一般的倒排索引n n索引文件可以用任何文件结构来实现索引文件可以用任何文件结构来实现索引文件可以用任何文件结构来实现索引文件可以用任何文件结构来实现n n索引文件中的词项是文档集合中的词表索引文件中的词项是文档集合中的词表索引文件中的词项是文档集合中的词表索引文件中的词项是文档集合中的词表architecturearchitecturecomputercomputerdatabasedatabaseretrievalretrieval.D D1 1,a,a1 1D D1 1,a,a2 2D D1 1,a,a3 3索引项索引项索引项索

8、引项/词表词表词表词表索引索引索引索引/索引文件索引文件索引文件索引文件/索引数据库索引数据库索引数据库索引数据库Postings Postings 列表列表列表列表Q=term1,term2,term3,.Q=term1,term2,term3,.附加信息附加信息附加信息附加信息例如:词位置,出现例如:词位置,出现例如:词位置,出现例如:词位置,出现次数次数次数次数9 9第9页,本讲稿共52页例子例子1 12 23 34 45 56 67 78 89 91010111112121313141415151616这这这这是是是是一本一本一本一本 关于关于关于关于 信息信息信息信息 检检检检索索索

9、索的的的的教材教材教材教材。介介介介绍绍绍绍了了了了检检检检索索索索的的的的基本基本基本基本 技技技技术术术术。技术技术教材教材检索检索信息信息 15,15,8,8,6,12,6,12,5,5,词汇表词汇表Posting listPosting list文本文本倒排文件倒排文件1010第10页,本讲稿共52页以文本为记录表以文本为记录表 记录表既可以存储文本中记录表既可以存储文本中记录表既可以存储文本中记录表既可以存储文本中单词的编号位置单词的编号位置单词的编号位置单词的编号位置,也可以指向,也可以指向,也可以指向,也可以指向单词首字单词首字单词首字单词首字母的字符位置母的字符位置母的字符位置

10、母的字符位置,还可以是其,还可以是其,还可以是其,还可以是其所在的文本编号所在的文本编号所在的文本编号所在的文本编号,下图是一个以文本为记,下图是一个以文本为记,下图是一个以文本为记,下图是一个以文本为记录表的情况录表的情况录表的情况录表的情况1111第11页,本讲稿共52页距离约束:需要位置信息为记录表距离约束:需要位置信息为记录表n n常常需要知道邻接条件,例如:常常需要知道邻接条件,例如:常常需要知道邻接条件,例如:常常需要知道邻接条件,例如:“databasedatabasedatabasedatabase”后面紧跟着后面紧跟着后面紧跟着后面紧跟着“systemssystemssyst

11、emssystems”n n例如:短语搜索例如:短语搜索例如:短语搜索例如:短语搜索 “database systemsdatabase systemsdatabase systemsdatabase systems”“databasedatabasedatabasedatabase”和和和和“systemssystemssystemssystems”之间不能间隔超过之间不能间隔超过之间不能间隔超过之间不能间隔超过3 3 3 3个词个词个词个词“databasedatabasedatabasedatabase”和和和和“architecturearchitecturearchitecturea

12、rchitecture”在同一个句子里在同一个句子里在同一个句子里在同一个句子里n n需求扩展需求扩展需求扩展需求扩展:倒排索引中保存着关键词在文档中的位置,文档的组成单元倒排索引中保存着关键词在文档中的位置,文档的组成单元倒排索引中保存着关键词在文档中的位置,文档的组成单元倒排索引中保存着关键词在文档中的位置,文档的组成单元(标题标题标题标题,小标题小标题小标题小标题,句子分割标记等句子分割标记等句子分割标记等句子分割标记等)检索算法和位置信息相关联,并需检查文档的组成单元检索算法和位置信息相关联,并需检查文档的组成单元检索算法和位置信息相关联,并需检查文档的组成单元检索算法和位置信息相关联

13、,并需检查文档的组成单元1212第12页,本讲稿共52页以位置信息为记录表以位置信息为记录表 保存段落、句子和词的位置:保存段落、句子和词的位置:保存段落、句子和词的位置:保存段落、句子和词的位置:databasedatabasefilefilesystemssystems.D D345345,25,25D D348348,37,37D D350350,8,8D D123123,5,5D D128128,25,25D D345345,25,25n n保存倒排表中的位置信息保存倒排表中的位置信息保存倒排表中的位置信息保存倒排表中的位置信息:保存句子位置保存句子位置保存句子位置保存句子位置:文档文

14、档文档文档D D350350第第第第8 8句句句句databasedatabasefilefilesystemssystems.D D345345,2,3,5,2,3,5D D348348,37,5,9,37,5,9D D350350,8,12,1,8,12,1D D123123,5,4,3,5,4,3D D128128,25,1,12,25,1,12D D345345,2,3,6,2,3,6文档文档文档文档D D350350第第第第8 8段,第段,第段,第段,第1212句句句句第第第第1 1个词个词个词个词1313第13页,本讲稿共52页以权重信息为记录表以权重信息为记录表n n可保存出现频

15、率,以便支持基于统计的检索可保存出现频率,以便支持基于统计的检索可保存出现频率,以便支持基于统计的检索可保存出现频率,以便支持基于统计的检索:databasedatabasefilefilesystemssystems.D D345345,10,10D D348348,20,20D D350350,1,1D D123123,82,82D D128128,8,8D D345345,12,12在在在在DD345345中中中中“systems”“systems”比比比比“database”“database”重要重要重要重要1.21.2倍倍倍倍n nPostingsPostingsPostingsP

16、ostings中的第二个单元可以是该中的第二个单元可以是该中的第二个单元可以是该中的第二个单元可以是该termtermtermterm的权重的权重的权重的权重(例如例如例如例如,可以被可以被可以被可以被归一化在归一化在归一化在归一化在0 0 0 0和和和和1 1 1 1之间之间之间之间),或者是该,或者是该,或者是该,或者是该termtermtermterm的出现频率的出现频率的出现频率的出现频率1414第14页,本讲稿共52页同义词扩展词汇表同义词扩展词汇表n n同义词对于提高召回率很有意义同义词对于提高召回率很有意义同义词对于提高召回率很有意义同义词对于提高召回率很有意义n n同义词可以通

17、过指针指向同一个同义词可以通过指针指向同一个同义词可以通过指针指向同一个同义词可以通过指针指向同一个postings list.postings list.postings list.postings list.databasedatabasedatabasesdatabasessystemssystemsD D345345,2,3,5,2,3,5D D348348,37,5,9,37,5,9D D350350,8,12,1,8,12,1D D123123,5,4,3,5,4,3D D128128,25,1,12,25,1,12D D345345,2,3,6,2,3,6datasetdatas

18、et1515第15页,本讲稿共52页建立索引的过程建立索引的过程1616第16页,本讲稿共52页建立索引的过程建立索引的过程n n识别文档中的词识别文档中的词识别文档中的词识别文档中的词n n删除停用词删除停用词删除停用词删除停用词(stop wordsstop wordsstop wordsstop words)n n提取词干提取词干提取词干提取词干(stemmingstemmingstemmingstemming)n n用索引项的标号代替词干用索引项的标号代替词干用索引项的标号代替词干用索引项的标号代替词干(stemsstemsstemsstems)n n统计词干的数量统计词干的数量统计词

19、干的数量统计词干的数量(tf tf tf tf)n n(可选可选可选可选)对低频词项使用同义词词典对低频词项使用同义词词典对低频词项使用同义词词典对低频词项使用同义词词典(thesaurusthesaurusthesaurusthesaurus)n n(可选可选可选可选)对高频词项构成短语对高频词项构成短语对高频词项构成短语对高频词项构成短语n n计算所有单个词项、短语和语义类的权重计算所有单个词项、短语和语义类的权重计算所有单个词项、短语和语义类的权重计算所有单个词项、短语和语义类的权重1717第17页,本讲稿共52页英文词根还原英文词根还原(Stemming)(Stemming)n n进行

20、词根还原:进行词根还原:stop/stops/stopping/stoppedstop/stops/stopping/stopped stopstop好处:减少词典量;坏处:按词形查不到,好处:减少词典量;坏处:按词形查不到,好处:减少词典量;坏处:按词形查不到,好处:减少词典量;坏处:按词形查不到,词根还原还可能出现错误词根还原还可能出现错误词根还原还可能出现错误词根还原还可能出现错误n n不进行词根还原:不进行词根还原:StoppedStoppedStoppedStopped sto+ppe+dsto+ppe+dsto+ppe+dsto+ppe+d好处:支持词形查询;坏处:增加词典量好处:

21、支持词形查询;坏处:增加词典量好处:支持词形查询;坏处:增加词典量好处:支持词形查询;坏处:增加词典量1818第18页,本讲稿共52页停用词消除停用词消除n n停用词(stop words)是指那些出现频率高但是无重要意义,通常不会作为查询词出现的词,如“的”、“地”、“得”、“都”、“是”等等消除:通常是通过查表的方式去除,去除消除:通常是通过查表的方式去除,去除的好处的好处-大大较少索引量,坏处大大较少索引量,坏处-有些平有些平时的停用词在某些上下文可能有意义时的停用词在某些上下文可能有意义保留:索引空间很大保留:索引空间很大1919第19页,本讲稿共52页建立索引的过程建立索引的过程 举

22、例举例n n输入文本输入文本输入文本输入文本 The analysis of 25 indexing algorithms has not produced consistent retrieval The analysis of 25 indexing algorithms has not produced consistent retrieval performance.The best indexing technique for retrieving documents is not knownperformance.The best indexing technique for re

23、trieving documents is not knownn n删除删除删除删除stopwordsstopwordsstopwordsstopwords analysis indexing algorithms produced consistent retrieval performance best analysis indexing algorithms produced consistent retrieval performance best indexing technique retrieving documents knownindexing technique retri

24、eving documents knownn nStemmingStemming analysis index algorithm produc consistent retriev perform best index technique retriev analysis index algorithm produc consistent retriev perform best index technique retriev document knowndocument knownn n转换为索引编号转换为索引编号转换为索引编号转换为索引编号 123 345 110 2234 432 35

25、65 2302 566 345 4321 3565 755 1128123 345 110 2234 432 3565 2302 566 345 4321 3565 755 1128n n计算计算计算计算tf tf tf tf 110 1 123 1 345 2 1 432 1 566 1 755 1 1128 1 2302 1 2344 1 3565 2 110 1 123 1 345 2 1 432 1 566 1 755 1 1128 1 2302 1 2344 1 3565 2 4321 14321 1n n计算词项的权值计算词项的权值计算词项的权值计算词项的权值(依赖于使用的模型依赖

26、于使用的模型依赖于使用的模型依赖于使用的模型)2020第20页,本讲稿共52页检索过程检索过程n n给定给定给定给定queryqueryqueryqueryn n对对对对queryqueryqueryquery进行进行进行进行stemmingstemmingstemmingstemming,算法与对文档的处理相同,算法与对文档的处理相同,算法与对文档的处理相同,算法与对文档的处理相同n n用索引编号代替用索引编号代替用索引编号代替用索引编号代替stemsstemsstemsstemsn n计算所有计算所有计算所有计算所有query termsquery termsquery termsquer

27、y terms的权重的权重的权重的权重n n形成形成形成形成queryqueryqueryquery向量(对向量(对向量(对向量(对VSMVSMVSMVSM模型而言)模型而言)模型而言)模型而言)n n计算计算计算计算queryqueryqueryquery向量和文档向量之间的相似度向量和文档向量之间的相似度向量和文档向量之间的相似度向量和文档向量之间的相似度n n返回排序后的文档集合返回排序后的文档集合返回排序后的文档集合返回排序后的文档集合2121第21页,本讲稿共52页倒排索引上的布尔检索倒排索引上的布尔检索n n一个布尔检索包含一个布尔检索包含一个布尔检索包含一个布尔检索包含n n n

28、 n个用布尔操作连接的词项个用布尔操作连接的词项个用布尔操作连接的词项个用布尔操作连接的词项 ,例如:,例如:,例如:,例如:“computer AND news computer AND news computer AND news computer AND news AND NOT newsgroupAND NOT newsgroupAND NOT newsgroupAND NOT newsgroup”可以用括号来调整逻辑运算次序可以用括号来调整逻辑运算次序可以用括号来调整逻辑运算次序可以用括号来调整逻辑运算次序n n每个每个每个每个termtermtermterm从倒排索引中返回一个从倒

29、排索引中返回一个从倒排索引中返回一个从倒排索引中返回一个postingpostingpostingpostings s s s list list list list 如果如果如果如果termtermtermterm不在任何文档中出现,则不在任何文档中出现,则不在任何文档中出现,则不在任何文档中出现,则postings listpostings listpostings listpostings list为为为为空空空空n n检索结果根据逻辑关系相结合:检索结果根据逻辑关系相结合:检索结果根据逻辑关系相结合:检索结果根据逻辑关系相结合:AND:AND:AND:AND:集合做交运算集合做交运算集

30、合做交运算集合做交运算 OR:OR:OR:OR:集合做并运算集合做并运算集合做并运算集合做并运算 NOT:NOT:NOT:NOT:集合做差运算集合做差运算集合做差运算集合做差运算A AB BA and BA and B2222第22页,本讲稿共52页倒排索引上的布尔检索倒排索引上的布尔检索n n查询查询:中国中国 ANDAND 文化文化查找查找查找查找DictionaryDictionaryDictionaryDictionary,定位,定位,定位,定位中国中国中国中国;n n读取对应的读取对应的读取对应的读取对应的postings.postings.postings.postings.查找查

31、找查找查找DictionaryDictionaryDictionaryDictionary,定位,定位,定位,定位文化文化文化文化;n n读取对应的读取对应的读取对应的读取对应的postings.postings.postings.postings.“MergeMergeMergeMerge”合并合并合并合并(AND)(AND)(AND)(AND)两个两个两个两个postings:postings:postings:postings:12834248163264123581321中国中国文化文化2323第23页,本讲稿共52页34128248163264123581321合并合并n nList

32、sListsListsLists的合并算法的合并算法的合并算法的合并算法34248163264123581321中国中国文化文化28If the list lengths are x and y,the merge takes O(x+y)operations.Crucial:postings sorted by docID.2424第24页,本讲稿共52页倒排索引上的布尔检索倒排索引上的布尔检索n n标准的优化技术应用:标准的优化技术应用:从最短的从最短的从最短的从最短的posting listposting listposting listposting list开始做开始做开始做开始做“

33、与与与与”操作,保操作,保操作,保操作,保证中间结果越小越好证中间结果越小越好证中间结果越小越好证中间结果越小越好“网络网络网络网络”AND AND AND AND“病毒病毒病毒病毒”AND AND AND AND“蠕虫蠕虫蠕虫蠕虫”从哪个词项开始做交运算呢?从哪个词项开始做交运算呢?从哪个词项开始做交运算呢?从哪个词项开始做交运算呢?显然是:“病毒”和“蠕虫”2525第25页,本讲稿共52页倒排索引的优点倒排索引的优点n n快速索引快速索引 (长长queryquery需要更多时间需要更多时间)n n灵活性灵活性:不同类型的信息都可以存储在不同类型的信息都可以存储在postings listp

34、ostings list中中n n如果存储了足够多的信息,则可以如果存储了足够多的信息,则可以支持支持复杂的检索操作复杂的检索操作例如:如果记录了词在文档中的准确例如:如果记录了词在文档中的准确位置,就可以支持短语检索,或模糊位置,就可以支持短语检索,或模糊检索检索2626第26页,本讲稿共52页倒排索引的缺点倒排索引的缺点n n很大的存储开销很大的存储开销很大的存储开销很大的存储开销 50%-150%-300%50%-150%-300%50%-150%-300%50%-150%-300%n n更新、插入和删除都需要很高的维护开销,倒排索更新、插入和删除都需要很高的维护开销,倒排索更新、插入和

35、删除都需要很高的维护开销,倒排索更新、插入和删除都需要很高的维护开销,倒排索引相对静态的环境引相对静态的环境引相对静态的环境引相对静态的环境(很少插入和更新很少插入和更新很少插入和更新很少插入和更新)中使用比较好中使用比较好中使用比较好中使用比较好n n处理开销随着布尔操作的增加而增长处理开销随着布尔操作的增加而增长处理开销随着布尔操作的增加而增长处理开销随着布尔操作的增加而增长n n由于由于由于由于postingspostingspostingspostings越来越多越来越多越来越多越来越多(例如引入同义词例如引入同义词例如引入同义词例如引入同义词),导致索,导致索,导致索,导致索引检索的

36、代价越来越大,需要对位置进行很多处引检索的代价越来越大,需要对位置进行很多处引检索的代价越来越大,需要对位置进行很多处引检索的代价越来越大,需要对位置进行很多处理理理理(例如短语匹配例如短语匹配例如短语匹配例如短语匹配)2727第27页,本讲稿共52页倒排文档中研究的问题倒排文档中研究的问题n n倒排文档的压缩倒排文档的压缩n n倒排文档的删除倒排文档的删除n n倒排文档的插入倒排文档的插入2828第28页,本讲稿共52页索引压缩索引压缩n n理论上,(全文)索引的大小和原始文件相当,因为每个词的每次出现都必须在posting list中记录。n n需不需要压缩?要压缩:索引大小通常和原始文本

37、大小相要压缩:索引大小通常和原始文本大小相当,不压缩可能会耗费大量存储开销当,不压缩可能会耗费大量存储开销不压缩:硬盘很便宜,数据量不是特别大,不压缩:硬盘很便宜,数据量不是特别大,而且不需要解压缩的消耗而且不需要解压缩的消耗2929第29页,本讲稿共52页倒排索引的更新倒排索引的更新n n情况一:情况一:出现了新的词,则需要修改词出现了新的词,则需要修改词典结构,在词典中增加词条。典结构,在词典中增加词条。n n情况二:情况二:出现了新的文档,则在相应的出现了新的文档,则在相应的词条下增加词条下增加posting listposting list。n n情况三:情况三:某些文档不复存在,则在

38、相应某些文档不复存在,则在相应的位置进行标记,等积累到一定时期进的位置进行标记,等积累到一定时期进行一次性操作。行一次性操作。3030第30页,本讲稿共52页词汇表的组织词汇表的组织n n顺序排序数组:顺序排序数组:采用字典序,查找采用采用字典序,查找采用二分法。空间消耗小,查找较快,但是二分法。空间消耗小,查找较快,但是插入删除麻烦。插入删除麻烦。n n二叉搜索树、二叉搜索树、B B树、树、TrieTrie树树等。等。n nHashHash表:表:通过通过HashHash函数直接把词映射函数直接把词映射到地址,空间消耗和到地址,空间消耗和HashHash函数设计有关。函数设计有关。较快,插入

39、删除容易。较快,插入删除容易。3131第31页,本讲稿共52页4.2 4.2 加权检索加权检索n n加权检索根据每个词在检索要求中的加权检索根据每个词在检索要求中的重要程重要程度度不同,分别给予一定的数值(不同,分别给予一定的数值(权值权值)加以)加以区别,同时利用给出的检索命中界限值(阈区别,同时利用给出的检索命中界限值(阈值,值,ThresholdThreshold)限定检索结果的输出。)限定检索结果的输出。n n加权检索是布尔逻辑检索的一种扩充,把加权检索是布尔逻辑检索的一种扩充,把量量化思想化思想引入定性检索中。引入定性检索中。n n加权检索分为加权检索分为标引加权标引加权和和检索加权

40、检索加权两种类型。两种类型。3232第32页,本讲稿共52页4.2.1 4.2.1 检索词赋权检索检索词赋权检索n n对每一检索词给定一权值,代表其重要性。检对每一检索词给定一权值,代表其重要性。检对每一检索词给定一权值,代表其重要性。检对每一检索词给定一权值,代表其重要性。检索时,对存在的检索词的记录计算其权值总和。索时,对存在的检索词的记录计算其权值总和。索时,对存在的检索词的记录计算其权值总和。索时,对存在的检索词的记录计算其权值总和。当权值总和大于阈值时,则认为命中。当权值总和大于阈值时,则认为命中。当权值总和大于阈值时,则认为命中。当权值总和大于阈值时,则认为命中。n n最简单、最容

41、易实现的加权检索系统。最简单、最容易实现的加权检索系统。最简单、最容易实现的加权检索系统。最简单、最容易实现的加权检索系统。3333第33页,本讲稿共52页n n举例n n一个企业管理者为了改进企业管理模式,接受新的管理理念,一个企业管理者为了改进企业管理模式,接受新的管理理念,一个企业管理者为了改进企业管理模式,接受新的管理理念,一个企业管理者为了改进企业管理模式,接受新的管理理念,提高企业的竞争力,希望获取知识管理、竞争情报、企业文提高企业的竞争力,希望获取知识管理、竞争情报、企业文提高企业的竞争力,希望获取知识管理、竞争情报、企业文提高企业的竞争力,希望获取知识管理、竞争情报、企业文化方

42、面的文献资料,用加权法列出的提问式如下:化方面的文献资料,用加权法列出的提问式如下:化方面的文献资料,用加权法列出的提问式如下:化方面的文献资料,用加权法列出的提问式如下:W=W=W=W=知识管理(知识管理(知识管理(知识管理(4 4 4 4)竞争情报()竞争情报()竞争情报()竞争情报(2 2 2 2)企业文化()企业文化()企业文化()企业文化(1 1 1 1)表中表中“”表示相应检索词与文献中主题词匹配,若设定阈值为表示相应检索词与文献中主题词匹配,若设定阈值为4 4,由上表可知,组合由上表可知,组合1 1至至4 4为命中文献。为命中文献。3434第34页,本讲稿共52页检索词赋权检索的

43、优缺点n n检索词赋权检索的优点:检索词赋权检索的优点:明确了检索词在检索中的重要程度;明确了检索词在检索中的重要程度;明确了检索词在检索中的重要程度;明确了检索词在检索中的重要程度;通过提高或降低阈值来扩大和缩小检索输出的范围;通过提高或降低阈值来扩大和缩小检索输出的范围;通过提高或降低阈值来扩大和缩小检索输出的范围;通过提高或降低阈值来扩大和缩小检索输出的范围;检索结果按符合检索需求的重要程度顺序排列。检索结果按符合检索需求的重要程度顺序排列。检索结果按符合检索需求的重要程度顺序排列。检索结果按符合检索需求的重要程度顺序排列。n n检索词赋权检索的缺点:检索词赋权检索的缺点:加权法提问式表

44、达不如逻辑式直观;加权法提问式表达不如逻辑式直观;加权法提问式表达不如逻辑式直观;加权法提问式表达不如逻辑式直观;权值的确定较为困难。权值的确定较为困难。权值的确定较为困难。权值的确定较为困难。3535第35页,本讲稿共52页4.2.2 4.2.2 加权标引加权标引n n加权标引是指在对文献进行标引时,根加权标引是指在对文献进行标引时,根据每个据每个标引词在文献中的重要程度标引词在文献中的重要程度不同,不同,为它们附上为它们附上不同的权值不同的权值,检索时通过对,检索时通过对检索词的检索词的标引权值相加标引权值相加来来筛选筛选命中记录。命中记录。3636第36页,本讲稿共52页加权标引加权标引

45、n n在进行加权标引时,对反映文献在进行加权标引时,对反映文献主要内主要内容的标引词给予高权值容的标引词给予高权值,反映文献,反映文献次要次要内容的标引词给予较低的权值内容的标引词给予较低的权值。n n词频加权检索方法应建立在对全文数据词频加权检索方法应建立在对全文数据库和文摘数据库基础之上,否则词频加库和文摘数据库基础之上,否则词频加权将失去意义。权将失去意义。3737第37页,本讲稿共52页简单词频加权简单词频加权n n简单词频加权检索:指检索时简单词频加权检索:指检索时累计累计检索检索词在记录中出现的词在记录中出现的次数次数来决定记录的权来决定记录的权值。值。n n最大缺点就是不论文章长

46、短、词频高低最大缺点就是不论文章长短、词频高低都采用的是统一的词频标准。都采用的是统一的词频标准。3838第38页,本讲稿共52页相对词频加权检索相对词频加权检索n n将每将每将每将每一个检索词在本文中频率一个检索词在本文中频率一个检索词在本文中频率一个检索词在本文中频率和在和在和在和在整个数据库中整个数据库中整个数据库中整个数据库中的频率的频率的频率的频率综合考虑,进行加权检索的方法。综合考虑,进行加权检索的方法。综合考虑,进行加权检索的方法。综合考虑,进行加权检索的方法。n n文内频率文内频率文内频率文内频率=指定词在本文中的频次指定词在本文中的频次指定词在本文中的频次指定词在本文中的频次

47、/该文本词汇该文本词汇该文本词汇该文本词汇总频次总频次总频次总频次n n文外频率文外频率文外频率文外频率=指定词在本文中的频次指定词在本文中的频次指定词在本文中的频次指定词在本文中的频次/该词在整个数该词在整个数该词在整个数该词在整个数据库据库据库据库(所有文献所有文献所有文献所有文献)中总次数中总次数中总次数中总次数n n文内频率解决了文内频率解决了文内频率解决了文内频率解决了短文章中词频过低短文章中词频过低短文章中词频过低短文章中词频过低的问题,文外的问题,文外的问题,文外的问题,文外频率解决了频率解决了频率解决了频率解决了新词、专用词的低频新词、专用词的低频新词、专用词的低频新词、专用词

48、的低频问题。问题。问题。问题。3939第39页,本讲稿共52页4.2.3 4.2.3 标引加权的检索过程标引加权的检索过程n n检索时给出检索词和检索阈值,对满足检索时给出检索词和检索阈值,对满足检索阈值的检索结果按其权值之和从大检索阈值的检索结果按其权值之和从大到小输出来筛选命中记录。到小输出来筛选命中记录。n n在实际的人工标引中尚未见有加权标引在实际的人工标引中尚未见有加权标引的系统。的系统。n n在计算机自动标引的系统中,可以方便在计算机自动标引的系统中,可以方便而有效的采用加权标引技术。而有效的采用加权标引技术。4040第40页,本讲稿共52页标引加权检索阈值的设定标引加权检索阈值的

49、设定n n在检索中,阈值有两种设置方法:在检索中,阈值有两种设置方法:为每个检索词制定一个阈值,避免了次要为每个检索词制定一个阈值,避免了次要为每个检索词制定一个阈值,避免了次要为每个检索词制定一个阈值,避免了次要内容被检出;内容被检出;内容被检出;内容被检出;给总的检索结果指定一个阈值,保证了命给总的检索结果指定一个阈值,保证了命给总的检索结果指定一个阈值,保证了命给总的检索结果指定一个阈值,保证了命中文献的综合相关度。中文献的综合相关度。中文献的综合相关度。中文献的综合相关度。4141第41页,本讲稿共52页4.3 4.3 全文检索技术全文检索技术n n全文检索,即检索的数据源、检索的对全

50、文检索,即检索的数据源、检索的对象、检索匹配技术、检索结果都是全文象、检索匹配技术、检索结果都是全文信息的检索。信息的检索。n n全文检索有两种实现方式:全文检索有两种实现方式:对全文编索引;对全文编索引;对全文编索引;对全文编索引;不对全文进行任何加工处理,只是从前至不对全文进行任何加工处理,只是从前至不对全文进行任何加工处理,只是从前至不对全文进行任何加工处理,只是从前至后的逐字匹配。后的逐字匹配。后的逐字匹配。后的逐字匹配。4242第42页,本讲稿共52页4.3.1 4.3.1 全文检索的技术指标全文检索的技术指标(1 1 1 1)索引膨胀系数)索引膨胀系数)索引膨胀系数)索引膨胀系数n

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 资格考试

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁