《信息检索课件-4信息检索模型及技术.ppt》由会员分享,可在线阅读,更多相关《信息检索课件-4信息检索模型及技术.ppt(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、4.1 信息检索模型信息检索模型4.2 计算机检索技术介绍计算机检索技术介绍经典检索模型主要包括布尔检索模型、经典检索模型主要包括布尔检索模型、向量模型和概率模型。向量模型和概率模型。4.1.1 4.1.1 布尔检索模型布尔检索模型(1)概念及原理在布尔模型中,每个文献用一组标引词表示,每个提问则表示为标引词的布尔组配。布尔检索实际上就是集合之间的并、交、补运算。例如,对于某一特定文献i,可表示为:Di=(T1,T2,T3,Tm)对于特定提问J可表示为:Qj=(T1andT2)OR(T3and(notT4)(2)特点1)优点2)缺点(3)扩展布尔检索模型4.1.2 4.1.2 向量模型向量模型
2、(1)向量模型的描述)向量模型的描述文档文档D(Document)特征项特征项t(Term)文献向量的表示:文献向量的表示:D(t1,t2,tn)特征项权重特征项权重Wk(Term Weight):):词条权值计算方法为词条权值计算方法为 TF-IDF 函数函数(见下页)提问向量:提问向量:Q=(q1,q2,qm)相似度相似度S(Similarity)(见后)(见后)特征项权重Wk(Term Weight)词条权值计算方法为TF-IDF函数常用的TF-IDF公式:文档相似度表示文档相似度表示4.1.3 4.1.3 概率模型概率模型概率检索理论认为给定检索文献与给定提问之间存在某种相关概率。概率
3、检索模型就是利用概率论的原理,通过赋予标引词概率值来表示这些词在相关文献集合或无关文献集合中的出现概率,然后计算某一给定文献与某给定提问相关的概率。最后系统据此做出检索决策。概率标引理论的基础是对标引词加权并利用权值来计算文献的相关值,即满足给定提问的概率值。概率检索模型有多种形式,常见的为第二概率检索模型。词的权值设计为:文档d与用户查询Q相关概率可定义为:4.1.4 4.1.4 结构化文本检索模型结构化文本检索模型结构化文本检索模型描述一般方法在树状结构中,节点代表文献内容,如章节、段落等,边线代表各内容之间的关系,如章节包含几个段落。根节点用来标识整个文献,叶节点由文献内容构成,如文本、
4、图像等。叶节点可以以任意粒度表述,如单个词汇、短语、句子等。把有根节点没有叶节点的结构作为集合内容看待,其信息内容由其各构成部分决定。常见的结构化文本模型基于非重叠链表的模型基于邻接节点的模型4.1.5 4.1.5 浏览模型浏览模型(1)有效的浏览系统数据库应具备几个条件能使用户把特定的信息需求定位在数据库感兴趣的文献集合中。能使用户在做进一步检索时意识到用合适的方法进行查找。能确保用户快速有效地浏览数据库。(2)对静态数据库的浏览:如中国知网(3)浏览式检索系统接口设计要遵循的原则可视化原则,要具备扩展人类空间能力的思维,人们检索时输入选择的是词汇而不是整篇文献,检索用户与系统交互时间要迅速
5、,要能反映人们认知上的区别要反映浏览检索模型在系统的应用。(4)常见的浏览模型常见的浏览模型平坦浏览模型结构向导浏览模型超文本浏览模型4.1 信息检索模型信息检索模型4.2 计算机检索技术介绍计算机检索技术介绍布尔检索技术布尔检索技术(1)逆波兰变换法(a+b)*c-(a+b)/e的后缀表达式为:(a+b)*c-(a+b)/e(a+b)*c)(a+b)/e)-(a+b)c*)(a+b)e/)-(ab+c*)(ab+e/)-ab+c*ab+e/-普通的中序表达式转换为逆波兰表达式的一般算法-/*/+c+e/abab4.2.2 4.2.2 聚类检索技术聚类检索技术计算出文献与文献之间的相似度,并把
6、相似度较高的文献集中在一起,形成一个个的文献类的检索技术。聚类检索技术实现的算法思想文档聚类4.2.3 4.2.3 基于内容的多媒体检索概述基于内容的多媒体检索概述现有基于内容检索系统列表IBM公司的QBIC:http:/哥伦比亚大学的WebSwwk:http:/Virage公司的Virage:http:/波士顿大学的ImageRover:麻省理工学院的PhotoBook:http:/vismod.www.mediao.mit.edu/tpminka/photobook4.2.4 4.2.4 基于内容的图像检索技术基于内容的图像检索技术(1)四种类型.基于颜色特征的检索.基于纹理特征的检索.基
7、于形状及区域的检索.基于空间约束关系的检索(2)图像信息及其检索特征分析著录特征视觉特征逻辑特征语义特征(3)主要查询方式1)示例2)描绘3)属性和特征说明(领域特定特征)4)浏览(4)图像检索系统的构成4.2.5 4.2.5 基于内容的音频检索技术基于内容的音频检索技术所谓音频检索,是指通过音频特征分析,对不同音频数据赋予不同的语义,使具有相同语义的音频在听觉上保持相似音频信息的类型波形声音语音音乐音频信息检索特征外部特征文本著录特征物理特征声学特征语义特征语音检索技术语音检索技术 大词汇语音识别技术检索大词汇语音识别技术检索 子词单元检索子词单元检索 关键词识别检索关键词识别检索 对说话人
8、的辨认进行分割对说话人的辨认进行分割 音乐检索技术音乐检索利用的是诸如节奏、音符、乐器特征。音乐的乐谱典型地以事件形式描述。人的音乐认知可以基于时间和频率模式。示例,或者可以唱或哼出要查找的曲调。结构化音乐检索(例如MIDI)。音频信息特征提取方法音频信息特征提取的技术路线主要两种从叠加音频帧中提取特征从音频片断中提取具体方法首先对音频数据进行加窗处理形成帧然后,对每一帧作离散傅立叶变换最后应用不同算法计算相应的帧特征再计算帧特征的标准偏差、数学期望值和方差把帧特征推广成片段特征音频信息的主要查询方式示列直喻拟声浏览文本4.2.6 4.2.6 基于内容的视频检索技术基于内容的视频检索技术基于内容的视频检索就是指根据视频的内容及上下文关系,对大规模视频数据库中的视频数据进行检索。它提供这样一种算法:在没有人工参与的情况下,自动提取并描述视频的特征和内容。视频可分为两类动画若每帧图像是由人工、计算机产生的图像、图形,则称之为动画;影像若每帧图像为实时获取的自然景物图像,称之为影像。视觉信息的检索特征著录特征帧镜头和场景视频语义基于内容的视频检索方式基于关键帧的检索基于运动特征的检索基于视频语义特征的检索基于内容的视频检索系统结构