信息检索-试题.doc-淘文阁

资源描述

《信息检索-试题.doc》由会员分享，可在线阅读，更多相关《信息检索-试题.doc（15页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-date信息检索-试题总共5题，1-4简答题（60分），5综述题（40分），考试时请自备答案，材料多点1内容安全概念模型2 Jaccard系数的缺陷，tf-idf要考虑哪些因素3 产生式与判别式的区别4索引的建立，倒排索引5检索评价指标计算6 极大似然估计，使用加1平滑答案：1. 信息安全的框架包括内容安全（信息利用的安全）、数据安全（信息自身的安全）、运行安全（信息系统的安

2、全）、物理安全（信息系统的安全）。如图所示：内容安全涉及的是对流动的数据进行限制，包括可以对指定的数据进行选择性的阻断、修改、转发等特定的行为以及信息对抗，即针对信息中的信息熵而进行的隐藏、掩盖，或发现、分析的行为。它是指对信息真实内容的隐藏、发现、选择性阻断。主要的处置手段是信息识别与挖掘技术、过滤技术、隐藏技术等。2. Jaccard系数的缺陷：（1）不考虑词项频率，即词项在文档中的出现次数；（2）罕见词比高频词的信息量更大，Jaccard系数没有考虑这个信息；（3）没有仔细考虑文档的长度因素。tf-idf要考虑的因素：（1）词项频率，即词t在文档d中出现的次数；（2）文档频率，指出现词项

3、t的文档数。（3）归一化向量3.判别式模型（ discriminative model ）产生式模型（ generative model ）特点寻找不同类别之间的最优分类面，反映的是异类数据之间的差异对后验概率建模，从统计的角度表示数据的分布情况，能够反映同类数据本身的相似度区别 ( 假定输入 x,类别标签 y)估计的是条件概率分布 (conditional distribution) : P(y|x)估计的是联合概率分布（ joint probability distribution: P(x, y),联系由产生式模型可以得到判别式模型，但由判别式模型得不到产生式模型。常见模型 logi

4、stic regression SVMs traditional neural networks Nearest neighborGaussians, Naive Bayes Mixtures of Gaussians, Mixtures of experts, HMMsSigmoidal belief networks, Bayesian networks Markov random fields 优点1 ）分类边界更灵活，比使用纯概率方法或产生式模型更高级；2 ）能清晰的分辨出多类或某一类与其他类之间的差异特征；3 ）在聚类、 viewpoint changes, partial occl

5、usion and scale variations 中的效果较好；4 ）适用于较多类别的识别；5 ）判别模型的性能比产生式模型要简单，比较容易学习。1 ）实际上带的信息要比判别模型丰富；2 ）研究单类问题比判别模型灵活性强；3 ）模型可以通过增量学习得到；4 ）能用于数据不完整（ missing data）情况。缺点1 ）不能反映训练数据本身的特性。能力有限，可以告诉你的是 1 还是 2，但没有办法把整个场景描述出来；2 ） Lack elegance of generative: Priors, 结构 , 不确定性； 3 ） Alternative notions of penalty

6、functions, regularization, 核函数； 4 ）黑盒操作 : 变量间的关系不清楚，不可视。1) Tend to produce a significant number of false positives. This is particularly true for object classes which share a high visual similarity such as horses and cows； 2) 学习和计算过程比较复杂。性能较好（性能比生成模型稍好些，因为利用了训练数据的类别标识信息，缺点是不能反映训练数据本身的特性）较差主要应用Imag

7、e and document classificationBiosequence analysisTime series predictionNLPMedical Diagnosis4. 设有两个文档D1,D2其文本内容分别如下：D1=abfcdgecfcdeagD2=dacfggfcbbaafc对文档D1,D2建立倒排索引，并写出倒排索引结构。用伪代码写出上述建立倒排索引的建立过程。给定查询Q=fc如果采用向量u 空间模型检索，请写出检索过程。-（3）对于查询Q：（, ）文档D1：（, , , , , ）文档D2：（, , , , , ）所以可得到，文档向量为D1： D2: Q：查询文档相似度计算：采用内积计算：文档D1和Q的内积：3*1 + 2*1 = 5；文档D2和Q的内积：3*1 + 3*1 = 6；采用夹角余弦：文档D1和Q的夹角余弦：文档D2和Q的夹角余弦：综上所述，根据两个文档的相似度进行排序，文档D1的相似度高于文档D2，所以文档D1的结果更优，输出结果为D1，D25.6 极大似然就是ppt上的例子

展开阅读全文