文化交流-淘文阁

资源描述

《信息检索中语义分析算法的运用,文献检索论文.docx》由会员分享，可在线阅读，更多相关《信息检索中语义分析算法的运用,文献检索论文.docx（8页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、信息检索中语义分析算法的运用,文献检索论文自本世纪初互联网普及以来，人们在互联网上的行为广义上可分为两类：获取信息和共享信息。华而不实，获取信息往往是每一位接触互联网用户的最初诉求。然而，面对数量庞大的互联网信息，要在华而不实获取到自个想要的内容，这在上世纪90年代搜索引擎问世之前并非易事。1998年9月，美国google谷歌公司成立，并于同年推出一款功能强大的信息检索工具；2000年1月，百度公司率先推出了全球最大的中文搜索引擎。在这里之后，各类互联网搜索工具大量涌现，用户在互联网中的搜索体验也得到显着改善。优秀的搜索引擎通常都是基于高效的语义分析算法构建，通过

2、对语言的合理建模和分词，搜索引擎往往只需相当小的系统开销就能获得大量信息回馈。因而，搜索引擎在互联网信息检索中有着重要意义。 2基于语言分析的搜索引擎文本处理方式方法文本处理通俗地讲是告诉计算机怎样认识人类的单词。高质量的语义分析算法通常在一套好的文本处理机制之上完成建模，华而不实最重要的两个方式方法是：中文分词以及分词权重Term Weighting。当获取一段文本时，计算机该怎样知道它的语法和词语构成？参考人脑对语言的反响，一般情况下应先做分词。分词即是将一段文字合理地拆分成若干词根以匹配参照词库。 2.1局部切分屡次匹配方式方法分别根据顺词序最大匹配、逆词序最大匹配、双词序最大匹配及

3、最短途径拆分的方式逐一查找词库，只要能命中词库词根即切分，在设立编号后写入索引表。 2.2应用统计模型的切分方式方法按局部切分屡次匹配的方式方法进行分词后，对结果一般使用双数组Trie树进行存储，然后运用N元文法模型n-gram1统计模型找出最优途径，并在结果中遴选出最优切分方式方法。一个解决分词歧义的例子，如湖北省长江学者 ,根据词库的匹配情况切分出如下词根湖北、省、长江、学者、湖北省、长江学者、省长、江学、江学者 ,使用n-gram模型测算出语言模型得分，选出得分最高的模型作为最终切分方式方法。测算结果如表1所示，显然模型得分最高的C组同时也是最佳的分词方案。 2.3基于条件随机场C

4、RF算法的由字组词切词方式方法很多时候用户搜索的本文关键词语句字与字中间的逻辑关系并非特别明显，如早期白话文、文言文、专业术语等。与基于隐马尔可夫模型的最短途径分词、N-最短途径分词相比，基于条件随机场CRF1的分词对未登录词库的词根有更好的支持。使用CRF预测串中每个字的标注tag，如以B、I、E、S 4个tag表示：开场beginning、包含inside、结束ending、单独single，则湖北省长江学者的标注应为：湖B北I省E长B江E学B者E .CRF算法是当前分词效果相对较好的一种算法，它既能够像最大熵模型一样广泛参加各类特征feature，又能

5、够避免HMM的齐次马尔科夫假设。当前市面上包括谷歌和百度在内的多数搜索引擎都采用CRF算法构建语言模型2. 2.4语言模型构建语言模型狭义地讲是一种概率模型，主要用来计算句子产生的组合。在公式Pm1,m2,m3 mn中，n表示词的总数，根据条件概率Bayes Rule,则有：Pm1,m2,m3 mn= Pm1Pm2|m1Pm3|m1,m2 Pmn|m1,m2 mn-1。对于N-gram统计模型得到的语言模型通常也是最简单的语言模型。根据马尔科夫假设，句中每个单词与其前n-1个单词有关，则单词mn的条件概率仅仅依靠于它之前的n-1个词，显然有Pmn|m1,m2 mn-1=Pmn|mn-k+1，

6、mn-k+2 mn-1。n取值越大，模型值域越大，n值越小，模型可靠性越高。然而N-gram语言模型固然简单有效，但也有局限性。由于仅考虑了词之间的位置关系，在词间类似度、语法语义等方面还存在明显缺乏，更为复杂的神经网络语言模型正好填补了这片空白。神经网络语言模型在N-gram上将每个单词mn-k+1，mn-k+2 mn-1映射到词向量，再将每个词的向量组合构成更大向量作为神经网络输入，输出则是Pmn，词语间的类似性最终通过词向量来表现。映射构造如此图1所示。 3分词权重设置 Term Weighting,即分词权重。对于信息检索结果，用户通常更愿意看到匹配度最高、最贴近搜索条件的结果列于高

7、位显示。在对文本分词后，紧接着需要对每个term计算权重，重要的term应给予高权重。比方湖北省长江学者的Term Weighting结果中，长江的权重很可能是0.8,而湖北省的权重可能是0.5,而省长的权重可能缺乏0.1. Term Weighting结果在文本检索中对于文本相关性、核心词提取等经过都有非常重要的参考价值。采用合理的Term Weighting计算方式方法会得出较为理想的分词权重值，常见的算法有Tf-Idf3算法和Okapi、MI、LTU、ATC、TF-ICF等算法。 4主题模型Topic Model应用于信息检索的方式方法上文

8、提到了语义分析中的一些文本处理方式方法，对于一条文本信息，在对其进行分词和Term Weighting打分后便要开场执行更高层次层的语义分析任务，当下业界使用较多的主体模型是LDA,其算法执行效率高，能够较好地解决本文关键词语的主题关联问题。 4.1 LDA训练算法 LDA4的推演方式方法能够参考有关文献，本文主要讨论怎样训练LDA.目前通常的做法是基于吉布斯采样gibbs sampling5的工序。算法如下： Step1:任意初始化每个词的主题Topic，并计算两个频率计数的矩阵。 D-T矩阵Nt,d，用于描绘叙述文档的主题频率分布情况；W-T计数矩阵Nw,t

9、，用于描绘叙述每个主题下词的频率分布情况。 Step2:顺序遍历训练语料，根据概率公式重新采样Topic,并更新两个矩阵的计数。 Step3:重复Step2,直到模型收敛。 4.2主题模型应用领域主题模型已经能够广泛应用于文本分类、主题词归类、信息相关性检索、精到准确广告投放等。详细而言，基于主题模型能够很方便地计算出文本或用户的主题分布，并将其当作用户特征充分利用。 4.3文本分类文本分类是最常见的文本语义分析任务，好的文本分类能够有效提高资源耦合度，在执行检索时有效提高命中率。文本分类方式方法通常比拟简单，但工作量较大，内容复杂。基本上所有的机器学习方式方法都能够用来作文本分类，常用的

10、有lR、MAXENT、SVM等算法。 5图片语义分析法在图片搜索中的应用图片搜索是当代搜索引擎提供的一个重要功能，然而对于图片本身而言，并没有相关的本文关键词语信息。怎样根据文字检索出图片，是搜索引擎设计开发必须考虑的难点问题。采用基于图片的语义分析方式方法是一种较为良好的解决方案。 5.1卷积的作用计算机在处理图像时经常使用卷积算法，如高斯变换即是对图像进行卷积。计算机对图像用一个卷积核进行卷积运算，其实际是一个滤波的经过，并藉此能够得到一个图像的权重模板。 5.2卷积神经网络卷积神经网络是一种特殊简化的深层神经网络模型，每个卷积层都是由多个卷积滤波器组成。在卷积神经网络中，图像的局

11、部感受区域被作为层级构造的最底层输入，信息逐层上导，每层均通太多个卷积滤波器来获取图片特征。 5.3一种基于卷积神经网络的图片主题提取方式方法首先对图片使用深度卷积神经网络和深度自动编码器提取图片的多层特征，并据此提取图片的虚拟本文关键词语visual word，建立索引。然后对大量种子图片作语义分析，根据类似种子图片的语义推导出新图片的语义。 6结束语在互联网项目开发经过中，信息检索通常是项目开发计划中的早期任务，关联到全系统的各级功能，因而是在系统架构设计经过中应充分考虑的因素。本文主要从文本处理、主题模型及图片卷积分类抽取特征信息3个方面讨论了语义分析算法在施行互联网信息检索工程中的一些方式方法，希望本文能给使用语义分析算法进行互联网项目尤其是搜索引擎项目开发的同行提供参考。以下为参考文献： 1宗成庆。统计自然语言处理M.北京：清华大学出版社，2008. 2冯志伟。自然语言处理的形式模型M.合肥：中国科学技术大学出版社，2018. 3刁倩，张惠惠。文本自动分类中的词权重与分类算法J.中文信息学报，20003：25-29. 4李文波，孙乐，张大鲲。基于Labeled-LDA模型的文本分类新算法J.计算机学报，20084：620-627. 5刘知远。基于文档主题构造的本文关键词语抽取方式方法研究D.北京：清华大学，2018.

展开阅读全文