信息检索-试题.doc

上传人:豆**** 文档编号:24006861 上传时间:2022-07-03 格式:DOC 页数:15 大小:207KB
返回 下载 相关 举报
信息检索-试题.doc_第1页
第1页 / 共15页
信息检索-试题.doc_第2页
第2页 / 共15页
点击查看更多>>
资源描述

《信息检索-试题.doc》由会员分享,可在线阅读,更多相关《信息检索-试题.doc(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-date信息检索-试题总共5题,1-4简答题(60分),5综述题(40分),考试时请自备答案,材料多点1内容安全概念模型2 Jaccard系数的缺陷,tf-idf要考虑哪些因素3 产生式与判别式的区别4索引的建立,倒排索引5检索评价指标计算6 极大似然估计,使用加1平滑答案:1. 信息安全的框架包括内容安全(信息利用的安全)、数据安全(信息自身的安全)、运行安全(信息系统的安

2、全)、物理安全(信息系统的安全)。如图所示:内容安全涉及的是对流动的数据进行限制,包括可以对指定的数据进行选择性的阻断、修改、转发等特定的行为以及信息对抗,即针对信息中的信息熵而进行的隐藏、掩盖,或发现、分析的行为。它是指对信息真实内容的隐藏、发现、选择性阻断。主要的处置手段是信息识别与挖掘技术、过滤技术、隐藏技术等。2. Jaccard系数的缺陷:(1)不考虑词项频率,即词项在文档中的出现次数;(2)罕见词比高频词的信息量更大,Jaccard系数没有考虑这个信息;(3)没有仔细考虑文档的长度因素。tf-idf要考虑的因素:(1)词项频率,即词t在文档d中出现的次数;(2)文档频率,指出现词项

3、t的文档数。(3)归一化向量3.判别式模型( discriminative model )产生式模型( generative model ) 特点寻找不同类别之间的最优分类面,反映的是异类数据之间的差异对后验概率建模,从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度区别 ( 假定输入 x,类别标签 y)估计的是条件概率分布 (conditional distribution) : P(y|x)估计的是联合概率分布( joint probability distribution: P(x, y),联系由产生式模型可以得到判别式模型,但由判别式模型得不到产生式模型。 常见模型 logi

4、stic regression SVMs traditional neural networks Nearest neighborGaussians, Naive Bayes Mixtures of Gaussians, Mixtures of experts, HMMsSigmoidal belief networks, Bayesian networks Markov random fields 优点1 )分类边界更灵活,比使用纯概率方法或产生式模型更高级;2 )能清晰的分辨出多类或某一类与其他类之间的差异特征;3 )在聚类、 viewpoint changes, partial occl

5、usion and scale variations 中的效果较好;4 )适用于较多类别的识别;5 )判别模型的性能比产生式模型要简单,比较容易学习。1 )实际上带的信息要比判别模型丰富;2 )研究单类问题比判别模型灵活性强;3 )模型可以通过增量学习得到;4 )能用于数据不完整( missing data)情况。 缺点1 )不能反映训练数据本身的特性。能力有限,可以告诉你的是 1 还是 2,但没有办法把整个场景描述出来;2 ) Lack elegance of generative: Priors, 结构 , 不确定性; 3 ) Alternative notions of penalty

6、functions, regularization, 核函数; 4 )黑盒操作 : 变量间的关系不清楚,不可视。1) Tend to produce a significant number of false positives. This is particularly true for object classes which share a high visual similarity such as horses and cows; 2) 学习和计算过程比较复杂。 性能较好(性能比生成模型稍好些,因为利用了训练数据的类别标识信息,缺点是不能反映训练数据本身的特性)较差 主要应用Imag

7、e and document classificationBiosequence analysisTime series predictionNLPMedical Diagnosis4. 设有两个文档D1,D2其文本内容分别如下:D1=abfcdgecfcdeagD2=dacfggfcbbaafc对文档D1,D2建立倒排索引,并写出倒排索引结构。用伪代码写出上述建立倒排索引的建立过程。给定查询Q=fc如果采用向量u 空间模型检索,请写出检索过程。-(3)对于查询Q:(, )文档D1:(, , , , , )文档D2:(, , , , , )所以可得到,文档向量为D1: D2: Q:查询文档相似度计算:采用内积计算:文档D1和Q的内积:3*1 + 2*1 = 5;文档D2和Q的内积:3*1 + 3*1 = 6;采用夹角余弦:文档D1和Q的夹角余弦:文档D2和Q的夹角余弦:综上所述,根据两个文档的相似度进行排序,文档D1的相似度高于文档D2,所以文档D1的结果更优,输出结果为D1,D25.6 极大似然就是ppt上的例子

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 小学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁