信息检索模型ppt课件.ppt

上传人:飞****2 文档编号:29999517 上传时间:2022-08-04 格式:PPT 页数:112 大小:2.47MB
返回 下载 相关 举报
信息检索模型ppt课件.ppt_第1页
第1页 / 共112页
信息检索模型ppt课件.ppt_第2页
第2页 / 共112页
点击查看更多>>
资源描述

《信息检索模型ppt课件.ppt》由会员分享,可在线阅读,更多相关《信息检索模型ppt课件.ppt(112页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、2022-8-4信息存储与检索信息存储与检索12022-8-4 信息存储与检索信息存储与检索2第七章 信息检索模型 7.1 信息检索模型概述 7.2 经典的信息检索模型 7.3 集合论检索模型 7.4 代数检索模型 7.5 概率检索模型 7.6 结构化文本检索模型 7.7 超文本检索模型2022-8-4 信息存储与检索信息存储与检索37.1 信息检索模型概述7.1.1 信息检索概述 信息检索是一门研究从一定规模的文档库中找出满足用户需求的信息的学问,它指的是对非结构化或半结构化信息的检索,半结构化信息检索人们通常称为文本信息检索,而非结构化信息检索多指多媒体信息检索。 信息检索是对信息集合与需

2、求集合的匹配和选择。 信息检索基本原理:用户通过一些列关键词来阐明自己的信息需求,信息检索系统则检索与用户查询最为匹配的文献,同时借助某种相关性指标对检索出的文献进行排序。2022-8-4 信息存储与检索信息存储与检索47.1.2 信息检索模型1、定义 信息检索模型的核心问题是检测哪些文献相关,哪些文献不相关,即判断一篇文献是否与用户的查询条件相关,以及相关的程度。 信息检索的模型,就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实际检验,反过来指导信息检索实践。2022-8-4 信息存储与检索信息存储与检索52、信息检索

3、模型的组成(1)用户的需求表示:包括用户查询信息的获取与表示。(2)文档的表示:文档内容的识别与表示。(3)匹配机制:用户需求表示与文档表示之间的查询机制,以及它们之间相关性排序的准则和函数表示。(4)反馈修正:对检索结果进行优化。7.1.2 信息检索模型2022-8-4 信息存储与检索信息存储与检索6结构化文本模型结构化文本模型集合论模型集合论模型文文本本检检索索模模型型非重叠链表模型非重叠链表模型邻近节点模型邻近节点模型布尔模型布尔模型向量模型向量模型概率模型概率模型浏览模型浏览模型超文本模型超文本模型基于本体的模型基于本体的模型经典模型经典模型超文本模型超文本模型知识检索模型知识检索模型

4、扩展布尔模型扩展布尔模型模糊集合模型模糊集合模型广义向量模型广义向量模型潜语义标引模型潜语义标引模型神经网络模型神经网络模型推理网络模型推理网络模型信任度网络模型信任度网络模型代数模型代数模型概率模型概率模型3、信息检索模型的类型7.1.2 信息检索模型2022-8-4 信息存储与检索信息存储与检索77.2 经典的信息检索模型7.2.1 定义及假设 定义:令 t 表示文档集里所用不同标引词的数目,Ki表示一个标引词,K=K1,K2K3,Kt表示所有标引词的集合,对于文档Dj中存在的标引词Ki,其权重Wij0;对于文档Dj中没有的标引词Ki,其权重Wij=0。这样就可以将文档Dj表示成一个向量D

5、j=(W1j,W2j,W3jWtj),向量Dj的第i维就对应项Ki在文档Dj中的权重。2022-8-4 信息存储与检索信息存储与检索87.2.1 定义及假设 在经典的信息检索模型中,还存在以下一些普遍性假设:(1)被检索对象主要为文档对象。(2)标引词是相互独立的。(3)用户检索是根据文档内容的表示及所需信息的表示进行的。(4)所有文档的内容和所需信息的表示都是非精确的。2022-8-4 信息存储与检索信息存储与检索97.2 经典的信息检索模型7.2.2 布尔检索模型 布尔(Boolean)模型是基于集合论和布尔代数的一种简单检索模型。用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算

6、来检索文献。 在传统的布尔模型中,每一文献用一组标引词表示。Dj = ( K1, K2, K3, , Km )表示文献Dj,式中K1, K2, K3, , Km表示文献Dj中的所有标引词集合。2022-8-4 信息存储与检索信息存储与检索107.2.2 布尔检索模型 文档与标引词建立一个布尔关系。用若干标引词的布尔表达式来表达和解释查询Q。 对于一个表示为Q= ( K1 AND K2 ) OR ( K3 AND ( NOT K4 )的提问式,系统的响应必须是这样一组文献集合:这些文献中都含有标引词K1和K2,或者含有标引词K3但不含有标引词K4。 常用的布尔逻辑组配运算符有:逻辑“与”(AND

7、,常用符号“”表示)、逻辑“或”(OR,常用符号“”表示)、逻辑“非”(NOT,常用符号“”表示)。 2022-8-4 信息存储与检索信息存储与检索11布尔检索模型 在布尔检索模型中标引词在文献中要么出现、要么不出现,因此标引词Ki在文档Dj中的权重全部被设为二值数据,即Wij (0,1)。 用户提交的查询条件由若干个标引词用与、或、非等逻辑符号相联结,在布尔检索模型中被表示成了布尔表达式Q=(K1,K2,),其本质可以表示为多个标引词权值的合取向量的析取Qi(Qi为表达式Q的任意合取向量),则文献Dj和查询Q的相关度表示为不相关和查询,表示文献,此时相关和查询,表示文献,此时QDQQQDQQ

8、QDSimjijij01),(2022-8-4 信息存储与检索信息存储与检索12布尔检索模型 如要检索“布尔检索或概率检索但不包括向量检索”方面的文档,其相应的查询表达式为:Q=检索 and (布尔or 概率 not 向量),那么Q可以在其相应的(检索,布尔,概率,向量)标引词向量上取(1,1,0,0) (1,0,1,0) (1,1,1,0),那么文档Dj的向量如果与这中间一个相等,那么即可认为他们之间存在相似关系,而这种相互关系也是布尔值,即sim(Q, Dj)只能为0或1。 这也就是布尔模型的局限性所在,描述所有关系都是布尔值,而现实中文档与标引字或者标引字与查询语句之间的关系都不可能只是

9、有关系或者没关系,换句话说布尔模型中无法描述关系的密切程度。 2022-8-4 信息存储与检索信息存储与检索13简单实例: Q = 病毒 AND (计算机 OR 电脑)AND NOT医 D1: 据报道,计算机病毒近日猖獗 D2: 小王虽然是学医的,但对研究电脑病毒也很感兴趣,最近发明了一种 D3: 计算机程序发现了爱滋病病毒的传播途径 D4:最近我的电脑中病毒了请问:哪些文档会被检索出来? 2022-8-4 信息存储与检索信息存储与检索14布尔检索模型 Boolean模型存在着一些缺陷: 第一, 它的检索策略是基于二元判定标准(例如,对于检索来说一篇文档只有相关和不相关两种状态),缺乏文档分级

10、(rank)的概念,限制了检索功能。 第二, 虽然布尔表达式具有精确的语义,但常常很难将用户的信息需求转换为布尔表达式,实际上大多数检索用户发现在把他们所需的查询信息转换为布尔时并不是那么容易。2022-8-4 信息存储与检索信息存储与检索157.2 经典的信息检索模型7.2.3 向量空间模型 向量模型通过分派非二值权重给查询和文档中的标引词来实现检索目标。这些权重用于计算系统中的每个文档与用户的查询请求的相似程度,向量模型通过对文档按照相似程度降序排列的方式,来实现文档与查询项的部分匹配。这样做的结果中的文档排列顺序比通过布尔模型得到的结果要合理得多。2022-8-4 信息存储与检索信息存储

11、与检索167.2.3 向量空间模型 定义: 在向量空间模型中,标引词Ki在文档Dj中的权重Wij是一个大于0的非二值数。文档Dj可以看做是一个向量: Dj=(W1j,W2j,W3jWtj) 其中,t是文档集中所有标引词的数目。 用户查询中的标引词也是有权重的,设Wiq是用户检索提问式(查询) Q的标引词Ki的权重,且Wiq0,则查询向量Q被定义成: Q=(W1q,W2q,W3qWtq)。 衡量文档和查询的相关度转化成计算文档向量和查询向量之间的相似度。一般使用文档向量和查询向量之间的夹角余弦值来计算它们之间的相似度。2022-8-4 信息存储与检索信息存储与检索177.2.3 向量空间模型Wi

12、jK1k2KnD1010D210.80.5Dn0.201文档向量空间的表示:文档文档D1(W11,W21,Wn1)查询查询Q(W1q,W2q,Wnq)文档文档D2(W12,W22,Wn2)特征项特征项1特征项特征项2特征项特征项3文档向量空间模型:2022-8-4 信息存储与检索信息存储与检索18 文档和文档之间的相似度Sim可以表示如下:nknkjkiknkjkikjiDWDWDWDWDDSim11221) )()()()(cos),(titiiqijtiiqijjWWWWQDSim11221) )(cos),(文档和查询之间的相似度Sim可以表示如下:7.2.3 向量空间模型2022-8-

13、4 信息存储与检索信息存储与检索19例子D1 = 2K1 + 3K2 + 5K3D2 = 3K1 + 7K2 + K3Q = 0K1 + 0K2 + 2K3文档文档D1=2K1+3K2+5K3查询查询Q=0K1+0K2+2K3文档文档D2=3K1+7K2+K3特征项特征项1特征项特征项2特征项特征项313. 0591)2()173(210703),(81. 0385)2()532(250302),(2222122221QDSimQDSim2022-8-4 信息存储与检索信息存储与检索20 标引词的权重计算(TF-IDF) N为文档集合,ni为包含标引词Ki的文档篇数,TFij表示标引词Ki在文

14、档Dj中出现的频数,则文档Dj中标引词Ki的标准化频率Fij为 Fij= TFij / maxj TFij 最大值是通过计算文档Dj中出现的所有标引词来获得的。如果标引词Ki没有出现在文档Dj中,则Fij= 0。 标引词Ki的IDF为IDFi=log(N/ni) 标引词Ki在文档Dj中的权重Wij=Fij*IDFi7.2.3 向量空间模型2022-8-4 信息存储与检索信息存储与检索21TF-IDF举例说明 文本:“俄罗斯频繁发生恐怖事件,俄罗斯的安全部门加大打击恐怖主义的力度。”TFIDFTF-IDFTFIDFTF-IDF俄罗斯2较高高安全1中等高恐怖的2较高高部门1较低低的2非常低很低加大

15、1较低低频繁1较低低打击1中等高发生1较低低主义1较低低事件1较低低力度1中等高2022-8-4 信息存储与检索信息存储与检索227.2.3 向量空间模型 向量空间模型的主要优点: 对标引词的权重进行了改进,其权重的计算可以通过统计的办法自动完成,使问题的繁杂性大为降低,从而改进了检索效率。 把文档和查询本身简化为标引词及其权重集合的向量表示,把对文档内容和查询要求的处理简化为向量空间中向量的运算。 根据文档和查询之间的相似度对文献进行排序,有效地提高了检索效率。 可以实现文档自动分类。2022-8-4 信息存储与检索信息存储与检索23 向量空间模型的主要缺点:(1)标引词仍然被认为是相互独立

16、,会丢掉大量的文本结构信息,降低语义准确性。(2)相似度的计算量大,当有新文档加入时,必须重新计算词的权值。7.2.3 向量空间模型2022-8-4 信息存储与检索信息存储与检索247.2 经典的信息检索模型7.2.4 概率模型1、基本思想 用户提出了查询,就有一个由相关文档构成的集合,该集合只包括与查询完全相关的文档而不包括其他不相关的文档,称该集合为理想结果集合,记为R。如果知道R的特征,就可以找到所有的相关文档,排除所有的无关文档。因此,可以把查询看成一个寻找R的特征的过程。2022-8-4 信息存储与检索信息存储与检索257.2.4 概率模型 在第一次查询时并不知道R的特征,只能去估计

17、R的特征来进行查询。第一次查询完成后,可以让用户判断一下检索到的文档哪些是相关文档,根据用户的判断,可以更精确地估计R的特征。然后系统利用该信息重新定义理想结果集合的概率描述;重复以上操作,就会越来越接近真正的结果文档集。 估计估计R的特征的特征进行检索进行检索用户判断用户判断2022-8-4 信息存储与检索信息存储与检索267.2.4 概率模型2、相关概念 贝叶斯定理: 词条的独立假设:P(AB)= P(A) P(B) 当且仅当 A 与 B 相互独立. 若文档中的各个索引词相互独立,则有 P(Dj)=P(k1)P(kt) )()()|()|(BPAPABPBAP2022-8-4 信息存储与检

18、索信息存储与检索277.2.4 概率模型3、定义: 对于概率检索模型而言,标引词Ki在文档Dj中的权重Wij0,1,同时用户查询中的标引词Wiq0,1,查询Q是标引词空间的一个子集,用R表示已知的相关文献集,用 表示R的补集,条件概率P(R Dj)表示文档Dj与查询Q相关的概率,条件概率P( Dj)表示文档Dj与查询Q不相关的概率。文献Dj与查询Q的相似度Sim(Dj,Q)可以定义为两者的比值,即:RR)()|()()|()|()|(),(RPRDPRPRDPDRPDRPQDSimjjjjj2022-8-4 信息存储与检索信息存储与检索287.2.4 概率模型 Sim(Dj,Q)可以近似的表示

19、为: 因为经典的信息检索模型中假设标引词之间无相关关系,是独立的,则Sim(Dj,Q) 可以表示为: 取对数,在相同背景下,忽略对所有因子保持恒定不变的因子,则有 这是概率模型中排序计算的主要表达式。 )|()|(),(RDPRDPQDSimjjj)|()|()|()|(),(0)(1)(0)(1)(RKPRKPRKPRKPQDSimiDgiDgiDgiDgjjijijiji)|()|(1log)|(1)|(log),(1RKPRKPRKPRKPWWQDSimiiiitiijiqj2022-8-4 信息存储与检索信息存储与检索297.2.4 概率模型 对我们的初始估计R集合相关的概率赋予初始值

20、: ni为包含标引词Ki的文献数目;N为集合中的文献总数。 初始值确定后,根据与查询Q相关的大小进行初步排序,取前若干个文档作为相关查询集合。之后通过如下方法进行改进。NnRKPRKPiii)|(5 . 0)|(2022-8-4 信息存储与检索信息存储与检索307.2.4 概率模型 用V表示概率模型初步检出并经过排序的文档子集, Vi表示V中包含索引词ki 的文档集合。根据V和Vi中包含标引词Ki的文献数目来改进初始值,通过如下假设完成: 根据已检索出的文献中标引词Ki的分布来估计的 根据未检索出的文献都是不相关的来估计 这样就形成了一个检索和学习的迭代过程,也就是概率检索模型。 )|(RKP

21、i)|(RKPiVNVnRKPVVRKPiiiii)|()|(2022-8-4 信息存储与检索信息存储与检索31 对较小的V和Vi,如V=1,Vi=0,上述计算会出现问题,所以做以下改进: 也可以为:15 . 0)|(15 . 0)|(VNVnRKPVVRKPiiiii1)|(1)|(VNNnVnRKPVNnVRKPiiiiiii7.2.4 概率模型2022-8-4 信息存储与检索信息存储与检索327.3 集合论检索模型7.3.1 模糊集合检索模型 从信息检索的本质上讲,文档和提问之间的匹配处理是一个近似过程,系统中的每一个标引词都对应着一个模糊的命中文档集合,而每一篇文档对于这个命中集合来说

22、,又都具有各自不同的隶属度值(通常是小于1的)。隶属度用词频加权法、反文献频率加权法、词频-反文献频率加权法等方法确定。将标引词和它在对应文献中的隶属度一起作为集合论标引的一个有序对。检索时通过匹配运算,得到检索提问词在每篇文献中的隶属度,根据隶属度的大小对文献排序。 2022-8-4 信息存储与检索信息存储与检索337.3 集合论检索模型 模糊集合论对经典集合论的推广,主要表现在它把元素属于集合的概念模糊化,承认论域上存在既不完全属于某集合、又不完全不属于某集合的元素,即变经典集合论“绝对的”属于概念为“相对的”属于概念;同时,又进一步把属于概念数量化,承认论域上的不同元素对于同一集合具有不

23、同的隶属程度,引入了隶属度(membership)的概念。 模糊集合的严格定义可以表述如下: 论域U到实区间0,1的任一映射A:U0,1,对于任意xU,xA(x)都确定U上的一个模糊集合A,A称做A的隶属函数,A(x)为元素x对A的隶属度。2022-8-4 信息存储与检索信息存储与检索34 假设U =0,1,2,.,9 为代表一个家庭中,所可能拥有子女个数的集合,令三个模糊集合定义为A:子女数众多,B:子女数适中,C:子女数很少,其归属函数的定义如表所示。 子女数子女众多(A)子女适中(B)子女很少(C)00011001200.20.8300.70.24010.150.10.7060.30.2

24、070.800810091002022-8-4 信息存储与检索信息存储与检索35 模糊集合理论对于表示和解决现实社会中存在的许多模糊和不精确问题非常有效,并已在许多领域取得广泛应用,其中就包括在信息检索领域中的成功应用。以下选择奥加娃(Y.Ogawa)等人提出的模糊检索模型,对其基本原理进行介绍。 (1)标引词关联矩阵 (2)文档的隶属度 (3)用户提问及表示7.3.1 模糊集合检索模型2022-8-4 信息存储与检索信息存储与检索36(1)标引词关联矩阵 所谓标引词关联矩阵,是指以标引词集合K中的元素作为行、列,标引词之间语义关系作为元素值的一个词-词矩阵。假设关联矩阵用Ct*t表示,矩阵元

25、素cil表示标引词ki、kl之间的关联因子,其值用如下公式计算: Cil = nil/ (ni + nl nil) 式中,ni、nl分别表示文档集合D中含有索引词ki和kl的文档数,而nil表示D中同时含有索引词ki、kl的文档数。7.3.1 模糊集合检索模型2022-8-4 信息存储与检索信息存储与检索377.3.1 模糊集合检索模型(2)文档的隶属度 在信息检索处理中,对于每一个标引词来说,都存在一个模糊的文档集合与之相关。定义与标引词ki相关的模糊文档集合为Di,对于任一文档dj,其隶属于集合Di的隶属度值可以通过下式计算: ij = 1 - (1- cil ) 如果文档dj的词与Ki有

26、联系,那么该文档属于与Ki相关联的模糊集。无论何时,文档dj中只要存在一个索引词Kl与索引词Ki有强联系(如cil=1),那么ij=1,并且我们说索引Ki对于文档dj来说是一个好的模糊索引。相反,当dj中的所有索引词都与Ki几乎都没有联系时,我们说索引Ki对于文档dj来说不是一个好的模糊索引。2022-8-4 信息存储与检索信息存储与检索38(3)用户提问及表示 在模糊检索模型中,用户的检索提问仍像布尔模型一样,用布尔逻辑式表达。进一步地,布尔表达式还要转换为等价的析取范式形式。 举例来说,查询 写成 这样的离散的标准形式,其中每一组都是关联于三元组 (ka,kb,kc)的一个(0,1)权重向

27、量。这些(0,1)权重向量都是 的 连续组件。设 cci为第i个连续组件的一个引用。那么, 其中p是 中连续组件的个数。)(cbaKKKQdnfq)0 , 0 , 1 ()0 , 1 , 1 () 1 , 1 , 1 (dnfqdnfqpdnfccccccq212022-8-4 信息存储与检索信息存储与检索39集合论检索模型 考虑查询 ,设 为关联于索引 的文档模糊集。作为示例,我们不妨设该集合由所有隶属度值大于某一阈值K的文档组成。进而,设 是 的补集。模糊集 与 (非 )相关联。相似地,我们可以定义与 、 相关联的模糊集 、 。由于所有的集合都是模糊集,因此一个文档dj属于集合 ,即使其文

28、本中根本没有提到 。 )(cbaKKKQaDaKaDaKbKcKbDcDaDaDaKaKaD2022-8-4 信息存储与检索信息存储与检索40 查询模糊集合 是所有与查询组件相关联的模糊集的并集。文档dj关于模糊查询集 的隶属度 计算如下:qDjq,qD)1)(1 (1 ()1 (1 ()1 (1)1 (1,31,321jcjbjajcjbjajcjbjaijccjccccccjqi2022-8-4 信息存储与检索信息存储与检索417.3 集合论检索模型7.3.2 扩展布尔模型 布尔模型和向量空间模型相结合,先做布尔过滤,然后进行排序: 首先进行布尔查询 将全部满足布尔查询的文档汇集成一个文档

29、 用向量空间法对布尔检索结果进行排序布尔过滤布尔过滤排序排序布尔查询式布尔查询式向量空间模型向量空间模型查询式查询式文档文档结果结果2022-8-4 信息存储与检索信息存储与检索42扩展布尔模型 假定文献集合中的文献Dj仅用两个标引词Kx和Ky标引,并且Kx和Ky允许被赋予一定的权值,其权值分别为Wx,j、Wy,j,权值的取值范围为0, 1,权值越接近于1,说明该词越能反映文本的内容,反之,反映文本的内容差一些。 为了简单起见,用x,y分别表示权值Wx,j、Wy,j。我们采用二维图来表示文献的提问,用距离的概念表示文献与提问的相似度。(0,0)B(1,0)A(0,1)C(1,1)D(x,y)2

30、022-8-4 信息存储与检索信息存储与检索43扩展布尔模型中的“或”关系 对于析取提问Q=KxKy,只有A、B、C三点所代表的文献才是最理想的,对于任一文献Dj而言当它离A、B、C三点越接近时说明相似度越大,因而Dj到点(0, 0)的矢量距离可以用来度量与提问Q的相似度,为了使相似度控制在0和1之间,相似度可以规范化为:2)(),(22yxDQSimjor最不期望的点(0,0)B(1,0)A(0,1)C(1,1)D(x,y)xy2022-8-4 信息存储与检索信息存储与检索44扩展布尔模型中“与”关系 对于合取提问Q=KxKy,只有C点才是最理想的文献,则Dj到C点的矢量距离为: 它可以作为

31、衡量文献与提问之间相似度的一个尺度,则相似度可以规范化为: 2)1 ()1 (1),(22yxDQSimjand(0,0)B(1,0)A(0,1)C(1,1)D(x,y)xy最期望的点2022-8-4 信息存储与检索信息存储与检索45观 察 如果x出现在文档Dj中,则x在文档Dj中具有权重1,否则为0。 当Dj包含x和y时,Sim(Qand, Dj) = sim(Qor, Dj) = 1 当Dj既不包含x 也不包含y时, Sim(Qand, Dj) = Sim(Qor, Dj) = 0 当Dj包含x 和y二者之一时, Sim(Qand, Dj) = 1 0.51/2= 0.293 Sim(Qo

32、r, Dj) = 0.51/2 = 0.7072022-8-4 信息存储与检索信息存储与检索467.4 代数检索模型7.4.1 广义向量空间模型 广义向量空间模型以标引词向量是线性独立而不是两两正交的为基础,提出了标引词间的相互依赖性,该依赖性由标引词同时出现的模式导出。 在广义向量空间模型中,标引词向量由一组更小分量组成的正交基向量来表示,词与词之间的关系直接由基向量表示。2022-8-4 信息存储与检索信息存储与检索477.4.1 广义向量空间模型 假定集合中的标引词的集合为k1,k2,kt,wi,j是标引词Ki在文献Dj中的权值,如果所有的权值wi,j都是二值的,t个标引词生成2t个互不

33、相同的最小项,每个最小项中只能出现一个标引词Ki,则在文档内部同时出现的所有可能的模式可以用2t最小项的集合来表示。其中m1=(0,0,0),m2=(1,0,0), m2t=(1,1,1),函数gi(mj)返回最小项mj中的索引词ki的权值0,1。因此最小项m2(i=1,g1(m2)=1;i1,gi(m2)=0)指出了包含唯一标引词K1的文献。最小项m2t=(1,1,1)指出了包含所有标引词的文献。2022-8-4 信息存储与检索信息存储与检索48广义向量空间模型 对于所有的ij,有mimj=0,因此,根据定义,mi向量集合是两两正交的,所以mi向量集合可以作为广义向量空间模型的正交基。 广义

34、向量空间模型的中心思想是引入了与最小项集合相关联的两两正交向量mi的集合,并采用该向量集合作为目标子空间的基。也可以说,当标引词在文档集合内部同时出现时,就可以推导出这些标引词之间的相互依赖关系。2022-8-4 信息存储与检索信息存储与检索49广义向量空间模型 为了确定标引词ki的标引向量ki,我们对最小项mr的向量相加求和,则: 公式中索引词ki的值为1并且已经标准化。对于每一个mr向量,可以定义一个关联因子ci,r用于计算此索引词ki在文档Dj中的权值wi,j之和。1)(,2,1)(,rirrirmgrimgrriiccmk1)()(|,allformgdgdjiririjijwc202

35、2-8-4 信息存储与检索信息存储与检索507.4.2 潜语义标引模型 问题引入 自然语言文本中的词汇(术语)具有一词多义和一义多词的特点。 由于一词多义, 基于精确匹配的检索算法会报告许多用户不要的东西: 处理 什么地方处理旧家具? 你去把那个叛徒处理了 处理自然语言很难 由于一义多词, 基于精确匹配的检索算法又会遗漏许多用户想要的东西。 “互联网”,“万维网”,“因特网”,“国际互联网”等2022-8-4 信息存储与检索信息存储与检索51 设Doc1, Doc2, Doc3是三个文件,一些标引词在这三个文件中的出现情况如下表: Doc1 Doc2 Doc3-Access Xdocument

36、 Xretrieval X Xinformation X* X*theory Xdatabase XIndexing Xcomputer X* X*- 假定用information 和“computer”作为主题词进行检索, 那么Doc2和Doc3与之精确匹配, 因而中选. 然而,Doc2是用户并不想要的文件,Doc1才是想要的查不出来, 不想要的倒查了出来. 这说明精确匹配不能很好地反映用户的意图。2022-8-4 信息存储与检索信息存储与检索52LSA的提出 如果能基于自然语言理解来做这件事, 那一切问题就都没有了。问题是: 自然语言理解的目前水平还是有限度的; 即使用自然语言理解, 效率

37、也会很低 我们希望找到一种办法, 既能反映术语之间内在的相关性, 又具有较高的效率。 1990年,来自University of Chicago、BellCommunications Research和University of Western Ontario的Scott Deerwester、Thomas K. Landauer等五位学者共同提出了潜在语义分析(Latent Semantic Analysis,缩写为LSA)这一自然语言处理的方法。2022-8-4 信息存储与检索信息存储与检索53词汇文档 LSA将自然语言中的每个文档视为以词汇为维度的空间中的一个点,认为一个包含语义的文档出

38、现在这种空间中,它的分布绝对不是随机的,而是服从某种语义结构。 同样地,也将每个词汇视为以文档为维度的空间中的一个点。文档是由词汇组成的,而词汇又要放到文档中去理解,体现了一种“词汇文档”双重概率关系。2022-8-4 信息存储与检索信息存储与检索54潜在语义标引模型 LSA假设文本中存在某种潜在的语义结构,这种潜在的语义结构隐含在文本中词语的上下文使用模式中,可通过利用统计方法获得。其核心思想是通过奇异值分解,将文档向量和词向量投影到一个低维空间,使得相互之间有关联的文献即使没有相同的词时也能获得相同的向量表示。 LSA技术主要包括以下几个步骤: (1)词文档矩阵的构建与优化。 (2)奇异值

39、分解SVD降维 (3)基于潜在语义空间模型的查询2022-8-4 信息存储与检索信息存储与检索55(1)词文档矩阵的构建 LSA模型中,文档库是用词文档矩阵Amn来表示的。m为文档库中不同词的个数,一个词对应矩阵A中的一行;n表示文档库中的文档数,每个文档对应矩阵A中的一列;aij表示第i个词在第j个文档中出现的频率TF。mnmmnnmnaaaaaaaaaA212222111211第一个词在各个文档中出现的频率第一个词在各个文档中出现的频率第一文档中各个词出现的频率第一文档中各个词出现的频率2022-8-4 信息存储与检索信息存储与检索56(2)奇异值分解SVD降维矩阵的奇异值分解(SVD)计

40、算是矩阵的一种重要计算,其SVD原理说明如下:设URm*n和VRm*n,使得其中,UT为矩阵U的转置,U为mr 矩阵,UTU=I(I表示单位矩阵),V为rn矩阵,VTV=I,r为矩阵A的秩。r为对角矩阵,表示为且有123r0。这里, i称为矩阵A的奇异值,U的列向量和V的列向量分别称为A的左、右奇异向量。rrmTorAVU00TrrmVorUA00即:即:rr212022-8-4 信息存储与检索信息存储与检索57(2)奇异值分解SVD降维 取U和V的前k(kmin(m,n))列,使得: Ak是词文档矩阵A的近似表示,实际上是一个低维的语义空间,一方面消减了原词文档矩阵中包含的“噪声”因素,凸显

41、了词与文档之间的语义关系,另一方面缩减了词、文档向量维数,使得文档检索效率得以大大提高。Uk 和Vk的行向量分别表示词向量和文档向量。k是语义空间的维数,其大小直接关系到检索质量和检索效率的高低,过小会丢失有用信息,达不到区分文献或标引词的目的;过大则捕获不了词与词之间的关联性,达不到语义检索的目的,同时也提高不了检索速度。TkkkmkkVokUA002022-8-4 信息存储与检索信息存储与检索58例 子 44. 192. 108. 144. 16 . 08 . 038 . 06 . 08 . 06 . 06 . 08 . 000036 . 08 . 08 . 06 . 096. 028.

42、272. 196. 0降维:TTVrUASVDSVD:2022-8-4 信息存储与检索信息存储与检索59(3)基于潜在语义空间模型的查询 对查询式的要求 潜语义检索允许用户提交类似于自然语言的查询条件,而不一定必须是几个分离的词汇。查询式越长,提供的信息需求越充分,越明确。 对查询式的处理 同对文档的处理一样,根据用户查询语句中各词语的出现频率生成查询矢量q,其中,第i个元素qi的数值表示了第i个词语在查询语句中出现的频率。 对q进行截断奇异值分解,使其可以和文本矩阵V进行比较。得到: Vq=q*U* 得出的Vq即为提问式q在k维语义空间内的坐标向量。这样,词汇、文本、提问式三者的坐标向量,构

43、成了我们所需的隐含语义空间。 检索过程 检索过程就是把查询式的集合视为是一个虚拟的文件,检索的任务是把这个虚拟的文件和其他文件做相似性比较, 挑选最相似的出来。2022-8-4 信息存储与检索信息存储与检索60小结 潜在语义标引方法利用统计计算的方法来寻找并导出概念索引,克服因文档词语多义性和同义性困扰而带来的棘手难题,从而进行更有效的信息检索。 通过奇异值分解计算和取k-秩近似矩阵,一方面,消减了原始索引词-文档矩阵中包含的索引词之间的“斜交”噪声,更加凸现出词和文档之间隐含的语义结构;另一方面,在与原始矩阵所体现的特征信息尽量保持一致的基础上,又使得索引词、文档向量空间大大缩减,简化了计算

44、复杂性。 初步的理论分析和研究试验表明,作为一种自动的语义索引方法,LSA所得到的处理结果是令人鼓舞的。2022-8-4 信息存储与检索信息存储与检索617.4.3 神经网络模型 神经网络模型被描绘成一个三层结构: 第一层为用户提问词语结点; 第二层为文档词语结点: 第三层为文档结点。 每一个节点表示一个处理单元,相当于神经元;节点间连线起到神经元突触的作用;而连线的权值则用来模拟神经元之间的连接强度。 1、神经网络模型结构2022-8-4 信息存储与检索信息存储与检索622、信息检索处理过程 首先由第一层的提问词语结点启动,提问词语结点ka、kb和kc分别向对应的第二层文档词语结点发出信息。

45、 紧跟着文档词语结点ka、kb和kc又产生信息并向第三层的相关文档结点传送。 文档结点会在收到文档词语结点发送的信号后产生新的信号并返回到文档词语结点,而且这种相互作用的信号传递过程将会重复进行直到信号不断衰减而终止。2022-8-4 信息存储与检索信息存储与检索63神经网络模型 提问结点向文档词语结点发送信号,其作用强度分量由向量模型中提问词的权值派生出来: 文档词语结点向文档结点传递信号,其作用分量由向量模型中文档词语的权值派生出来: tiqiqiqiwww12,tijijijiwww12,2022-8-4 信息存储与检索信息存储与检索647.5 概率检索模型7.5.1 推理网络检索模型

46、推理网络模型(Inference Network Model)建立在Bayesian可信度网络理论基础之上,1990年由美国学者H.R.Turtle和W.B.Croft最早提出。 贝叶斯(Bayesian)网络是概率理论的一个主要研究分支。通常,贝叶斯网络可以看作是一个有向无环图(Directed Acyclic Graph,DAG)。2022-8-4 信息存储与检索信息存储与检索65贝叶斯网络 图中的结点一般用来表示随机变量,有向边用于描述随机变量之间的因果关系,它由表示原因的随机变量(父结点)指向代表结果的随机变量(子结点),而因果关系影响力的大小(或权值)则用条件概率来表示。 图中没有父

47、结点的结点称为根(Root)。 2022-8-4 信息存储与检索信息存储与检索66贝叶斯网络)|(),|()|()|()(),(353241312154321xxPxxxPxxPxxPxPxxxxxP 贝叶斯网络可以用联合概率分布的方式表达结点之间的依赖关系。 式中P(x1)称为网络的先验概率,它由具体应用系统的已有知识和语义来定义或决定;其余各项则称为条件概率;2022-8-4 信息存储与检索信息存储与检索67推理网络模型 推理网络模型是这样来理解和处理信息检索问题的: 首先把文档、索引词和用户提问等信息项都看作是随机变量,并分别对应到Bayesian网络中的不同节点,不同节点之间的关联关系

48、通过有向边来表示。 在此基础上,把文档内容和用户提问的匹配过程转化为一个从文档节点到提问节点的推理过程,以文档节点作为推理的起点,给定文档节点的先验概率、索引词节点的条件概率,通过一系列中间环节的概率计算,最后即可计算出用户提问被满足的后验概率。将这个概率值作为文档与用户查询提问的匹配程度,并根据匹配程度的大小对文档进行排序。2022-8-4 信息存储与检索信息存储与检索68文献文献DjK1K2KiKtQQ2Q1文献文献DjandOROR2022-8-4 信息存储与检索信息存储与检索697.5、概率检索模型7.5.2 信任度网络检索模型 信任度网络模型(Belief Network Model

49、)和推理网络模型具有共同的理论基础,是基于Bayesian网络理论的另一个概率论检索模型,1996年由B.A.Ribeiro-Neto和R.Muntz共同提出。 信任度网络模型与推理网络模型具有不同的网络拓扑结构。在信任网络模型中,文档部分和用户提问部分在网络中是被分离开的。这样的设计一方面简化了信任度网络的建模任务,另一方面也导致了两个模型在性能上的一些差异。 目前,尚未有基于信任度网络模型开发的试验或实用系统。理论上的分析结论是,信任度网络模型具有更强的通用和扩展性能。2022-8-4 信息存储与检索信息存储与检索70信任度网络模型文献文献D1K1K2KiKt查询查询Q文献文献Dj文献文献

50、Dt 用户查询和文献都被用户查询和文献都被模型化为标引词的子集。模型化为标引词的子集。2022-8-4 信息存储与检索信息存储与检索717.6 结构化文本检索模型 结构化文本 指和表达的思想内容相对应,在物理形式上有明显的组织结构和层次关系的文本,一般在文本信息中按照元素的包含关系加入文本的结构信息。 结构化文本检索 将文本中的内容信息与文献结构信息相结合的检索模型。 文本的结构化分析 标记语言方法 非重叠链表方法 基于邻接节点的方法2022-8-4 信息存储与检索信息存储与检索727.6.1 标记语言结构化文本方法 基本思想 用语言来定义和说明文本的结构,这些语言对文本结构化的基本手段是设置

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁