《信息检索-试题.doc》由会员分享,可在线阅读,更多相关《信息检索-试题.doc(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-date信息检索-试题总共5题,1-4简答题(60分),5综述题(40分),考试时请自备答案,材料多点1内容安全概念模型2 Jaccard系数的缺陷,tf-idf要考虑哪些因素3 产生式与判别式的区别4索引的建立,倒排索引5检索评价指标计算6 极大似然估计,使用加1平滑答案:1. 信息安全的框架包括内容安全(信息利用的安全)、数据安全(信息自身的安全)、运行安全(信息系统的安
2、全)、物理安全(信息系统的安全)。如图所示:内容安全涉及的是对流动的数据进行限制,包括可以对指定的数据进行选择性的阻断、修改、转发等特定的行为以及信息对抗,即针对信息中的信息熵而进行的隐藏、掩盖,或发现、分析的行为。它是指对信息真实内容的隐藏、发现、选择性阻断。主要的处置手段是信息识别与挖掘技术、过滤技术、隐藏技术等。2. Jaccard系数的缺陷:(1)不考虑词项频率,即词项在文档中的出现次数;(2)罕见词比高频词的信息量更大,Jaccard系数没有考虑这个信息;(3)没有仔细考虑文档的长度因素。tf-idf要考虑的因素:(1)词项频率,即词t在文档d中出现的次数;(2)文档频率,指出现词项
3、t的文档数。(3)归一化向量3.判别式模型( discriminative model )产生式模型( generative model ) 特点寻找不同类别之间的最优分类面,反映的是异类数据之间的差异对后验概率建模,从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度区别 ( 假定输入 x,类别标签 y)估计的是条件概率分布 (conditional distribution) : P(y|x)估计的是联合概率分布( joint probability distribution: P(x, y),联系由产生式模型可以得到判别式模型,但由判别式模型得不到产生式模型。 常见模型 logi
4、stic regression SVMs traditional neural networks Nearest neighborGaussians, Naive Bayes Mixtures of Gaussians, Mixtures of experts, HMMsSigmoidal belief networks, Bayesian networks Markov random fields 优点1 )分类边界更灵活,比使用纯概率方法或产生式模型更高级;2 )能清晰的分辨出多类或某一类与其他类之间的差异特征;3 )在聚类、 viewpoint changes, partial occl
5、usion and scale variations 中的效果较好;4 )适用于较多类别的识别;5 )判别模型的性能比产生式模型要简单,比较容易学习。1 )实际上带的信息要比判别模型丰富;2 )研究单类问题比判别模型灵活性强;3 )模型可以通过增量学习得到;4 )能用于数据不完整( missing data)情况。 缺点1 )不能反映训练数据本身的特性。能力有限,可以告诉你的是 1 还是 2,但没有办法把整个场景描述出来;2 ) Lack elegance of generative: Priors, 结构 , 不确定性; 3 ) Alternative notions of penalty
6、functions, regularization, 核函数; 4 )黑盒操作 : 变量间的关系不清楚,不可视。1) Tend to produce a significant number of false positives. This is particularly true for object classes which share a high visual similarity such as horses and cows; 2) 学习和计算过程比较复杂。 性能较好(性能比生成模型稍好些,因为利用了训练数据的类别标识信息,缺点是不能反映训练数据本身的特性)较差 主要应用Imag
7、e and document classificationBiosequence analysisTime series predictionNLPMedical Diagnosis4. 设有两个文档D1,D2其文本内容分别如下:D1=abfcdgecfcdeagD2=dacfggfcbbaafc对文档D1,D2建立倒排索引,并写出倒排索引结构。用伪代码写出上述建立倒排索引的建立过程。给定查询Q=fc如果采用向量u 空间模型检索,请写出检索过程。-(3)对于查询Q:(, )文档D1:(, , , , , )文档D2:(, , , , , )所以可得到,文档向量为D1: D2: Q:查询文档相似度计算:采用内积计算:文档D1和Q的内积:3*1 + 2*1 = 5;文档D2和Q的内积:3*1 + 3*1 = 6;采用夹角余弦:文档D1和Q的夹角余弦:文档D2和Q的夹角余弦:综上所述,根据两个文档的相似度进行排序,文档D1的相似度高于文档D2,所以文档D1的结果更优,输出结果为D1,D25.6 极大似然就是ppt上的例子