2022年信息检索检索向量空间模型整理 .pdf

上传人:Che****ry 文档编号:30534850 上传时间:2022-08-06 格式:PDF 页数:3 大小:91.75KB
返回 下载 相关 举报
2022年信息检索检索向量空间模型整理 .pdf_第1页
第1页 / 共3页
2022年信息检索检索向量空间模型整理 .pdf_第2页
第2页 / 共3页
点击查看更多>>
资源描述

《2022年信息检索检索向量空间模型整理 .pdf》由会员分享,可在线阅读,更多相关《2022年信息检索检索向量空间模型整理 .pdf(3页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、信息检索检索向量空间模型一:算法描述在文本挖掘、 搜索引擎应用中 ,文本的特征表示是挖掘工作的基础,它对文本进行预处理 ,抽取代表其特征的元数据,这些特征可以用结构化的形式保存,作为文档的中间表示形式。向量空间模型 (VectorSpaceModel) 是近年来应用较多的文本特征表示方法之一 ,它是由 GerardSlaton等人在 1958 年提出并发展起来的 ,是一个关于文献表示的统计模型 ,具有较强的可计算性和可操作性,已经被广泛地应用于文本检索、自动文摘、关键词自动提取、文本分类和搜索引擎等信息检索领域的各项应用中 ,并且取得了较好的效果 。文献 (document):泛指各种机器可读

2、的记录,可指一篇文章或一个网页,也称为文档。项(term):亦称索引项 ,是用来标引被检索内容的关键词等。项的权重 (termweight):对于有 n 个不同的项的系统 ,文献 D=(t1,t2,tn),项tk(1kn)常常被赋予一个数值Wk,表示它在文献中的重要程度,称为项 tk 的权重。相似度( Similarity) :指两个文档内容相关程度的大小。确定权重的方法是运用TF-IDF 公式,即 Wik=tfik/dfk=tfik*idfk, 其中 tf ik 为特征项 Tk在文档 Di 中的出现频率 ,称为项频率 ; dfk 则是文档集 D 中出现特征项 Tk的文档的数量 ,称为文档频率

3、 ; idfk 为 dfk 的倒数,称为反转文档频率。姓名陈严学号2220122685 班级智能科学与技术 1 班名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 3 页 - - - - - - - - - 相似度是一个函数,它给出两个向量之间的相似程度。常用的方法有:内积(Inner Product)、余弦(Cosine) 。对于二值向量 , 内积是查询式中的词项和文档中的词项相互匹配的数量;对于加权向量 , 内积是查询式和文档中相互匹配的词项的权重乘积之和。余弦相似度计

4、算两个向量的夹角,余弦相似度是利用向量长度对内积进行归一化的结果。二:数据描述建立 10 至 15 个文件,输入文档集,以供检索。三:算法参数文件、项的权重、 tf ik、dfk、idfk、相似度四:实验流程1.输入文档集;2.计算词项的特征权重;3.输入要查询的内容;4.计算余弦相似度;5.根据相似度排序,找出相似的文档。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 3 页 - - - - - - - - - 五:实验结果实验生成 result 文件甲中的 resul

5、t.txt 文件。六:实验总结向量模型是以假设向量空间的各维之间相互正交(即各关键字之间相互独立)为前提的 ,因而不可避免地存在由此带来的损失关键字间的相关性的缺点,可它把对文档内容和查询要求的处理简化为向量空间中向量的运算,克服了布尔模型的二值评价的缺点 ,可以计算出文档与查询式的相关程度,因而可以很容易地进行输出结果的排序 ,用户相关性反馈机制也很容易实现,尤其是具有对处理海量数据的适应性等种种优点使得它自诞生以来,至今都有很强的生命力。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 3 页 - - - - - - - - -

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高考资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁