自然语言处理现状与未来课件.ppt-淘文阁

资源描述

《自然语言处理现状与未来课件.ppt》由会员分享，可在线阅读，更多相关《自然语言处理现状与未来课件.ppt（104页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、自然语言处理的现状与未来李生哈尔滨工业大学2019.5.21一.信息与自然语言处理二.自然语言处理的主要研究方向三.下一代信息检索研究四.自然语言处理的未来思考一.信息与自然语言处理（一）语言是信息的载体（二）自然语言处理的概念及其研究方法（三）中文信息处理的特殊问题及所做工作（四）当前研究的特点一.信息与自然语言处理（一）语言是信息的载体（一）语言是信息的载体信息同能源、材料一起构成经济发展与社会进信息同能源、材料一起构成经济发展与社会进步的三大战略资源。信息技术正在推动和改变人步的三大战略资源。信息技术正在推动和改变人类的生产、生活甚至是思维方式。类的生产、生活甚至是思维方式。信息是无

2、形的，但它可以用语言来表达。语言信息是无形的，但它可以用语言来表达。语言是信息的载体，语言是文化的支柱，语言是人类是信息的载体，语言是文化的支柱，语言是人类思维、沟通与交流的工具。语言技能是一种人力思维、沟通与交流的工具。语言技能是一种人力资本。语言与经济、文化、教育，与社会发展和资本。语言与经济、文化、教育，与社会发展和人类进步有着紧密的关系。人类进步有着紧密的关系。一.信息与自然语言处理中国中文信息学会是一个学术性的群众组织。中国中文信息学会是一个学术性的群众组织。学会的学术研究内容是利用计算机对中文的音、学会的学术研究内容是利用计算机对中文的音、形、义等语言文字信息进行加工和操作，包括

3、对形、义等语言文字信息进行加工和操作，包括对字、词、短语、句子、篇章进行输入、输出、识字、词、短语、句子、篇章进行输入、输出、识别、转换、压缩、存储、检索、分析、理解和生别、转换、压缩、存储、检索、分析、理解和生成等。它是语言学、计算机科学、认知科学、数成等。它是语言学、计算机科学、认知科学、数学等多学科交叉的边缘学科。学等多学科交叉的边缘学科。自然语言处理是计算机应用的一个分支，是人自然语言处理是计算机应用的一个分支，是人工智能的一部分，但计算机技术和人工智能技术工智能的一部分，但计算机技术和人工智能技术又都从属于信息技术。又都从属于信息技术。一.信息与自然语言处理（二）自然语言处理的概念及

4、其研究方法（二）自然语言处理的概念及其研究方法 1.1.概念概念自然语言处理通常是指用计算机对人类自然语自然语言处理通常是指用计算机对人类自然语言进行的有意义的分析与操作。言进行的有意义的分析与操作。字字编码（机内码、输入码）编码（机内码、输入码）词词分词、词性标注、词义消岐分词、词性标注、词义消岐自然语言自然语言句法分析句法分析处理处理句子句子语义分析语义分析语用分析语用分析段落与篇章段落与篇章话语结构分析话语结构分析一.信息与自然语言处理 2.2.研究方法研究方法基于规则基于规则人工获取语言规则人工获取语言规则基于统计基于统计通过对大规模语料库的统计分析，实

5、现对自通过对大规模语料库的统计分析，实现对自然语言的处理然语言的处理 3.3.处理过程处理过程语言问题语言问题形式化表示（模型）形式化表示（模型）算法转换算法转换程序编制程序编制机器运行机器运行结果输出结果输出系统评测系统评测一.信息与自然语言处理（三）中文信息处理的特殊问题及所做工作 1.特殊问题句子中单词的切分；时态、语态、语气等没有严格的形式标记；句子成分的省缺及指示代词的频繁出现；语言资源的缺乏及其规范化问题。一.信息与自然语言处理2.2.所做工作所做工作理论、方法与技术研究理论、方法与技术研究结合汉语特点，引进国外技术结合汉语特点，引进国外技术实验和应用系统的研制开发实验和应用

6、系统的研制开发包括汉字处理、中文文本处理、中文语音处理、少数民族语言处理等包括汉字处理、中文文本处理、中文语音处理、少数民族语言处理等资源建设资源建设词典和语料库等词典和语料库等评测评测国内：国内：863863 国际：国际：SIGHANSIGHAN（分词）、（分词）、NISTNIST（机器翻译）、（机器翻译）、TRECTREC（信息检索）（信息检索）等等一.信息与自然语言处理（四）当前研究的特点使用语料库处理大规模真实文本；使用机器学习的方法自动获取语言知识；使用统计数学（概率统计）的方法来分析语言数据；以语言知识为核心的多种方法融合。二.自然语言处理的主要研究方向（一）基础与共性技术

7、（二）机器翻译（三）信息检索（四）社会计算二.自然语言处理的主要研究方向（一）基础与共性技术（一）基础与共性技术 1.1.汉字处理技术汉字处理技术汉字编码汉字编码汉字输入汉字输入汉字输出汉字输出 2.2.词法分析词法分析词是组成句子的基本单元。词法分析是要先将词是组成句子的基本单元。词法分析是要先将构成句子的字符串变成词串；然后再给句子中的构成句子的字符串变成词串；然后再给句子中的每个词加上句法范畴标记（有时还需加上语义范每个词加上句法范畴标记（有时还需加上语义范畴标记）。畴标记）。二.自然语言处理的主要研究方向汉语自动分词汉语自动分词最大匹配法最大匹配法最大概率法最大概率法英语的

8、词形还原英语的词形还原词性标注词性标注词性（词性（part-of-speech)part-of-speech)是词汇基本的语法属性是词汇基本的语法属性，也称之为词类。词性标注就是在给定句子中判定也称之为词类。词性标注就是在给定句子中判定每个词的语法范畴，确定其词性并加以标注的过每个词的语法范畴，确定其词性并加以标注的过程。标注的重点是解决兼类词和确定未登录词的程。标注的重点是解决兼类词和确定未登录词的词性问题。词性问题。二.自然语言处理的主要研究方向词义标注（Word Sence Disambiguation，WSD）重点是解决如何确定多义词在具体语境中的义项问题。对于多义词来说，一个词可以

9、表达一个以上的意义，但它在具体的语境当中，意思往往是确定的。标注过程中，通常是先确定语境，再明确词义。二.自然语言处理的主要研究方向 3.句法分析句子的结构分析，即找出句子所包含的句法单位以及这些单位之间的句法关系。有浅层句法分析和完全句法分析之分。词的构成和变化规律称为词法；句子和短语的构成规则成为句法；语法研究的是语言结构的规律。狭义的语法等同于句法，广义的语法应为词法、句法、语义与语用的总称。二.自然语言处理的主要研究方向句法结构的形式化描述方法通常有两种：句法句法结构的形式化描述方法通常有两种：句法结构树、依存关系图。前者描述了句子的组成成结构树、依存关系图。前者描述了句子的组成成

10、分及各个成分之间的结构关系，后者则描述了句分及各个成分之间的结构关系，后者则描述了句子中词与词的依存关系。子中词与词的依存关系。任何句子都由关键成分（主、谓、宾）和修饰任何句子都由关键成分（主、谓、宾）和修饰成分（定、状、补）构成，关键成分为主，修饰成分（定、状、补）构成，关键成分为主，修饰成分为辅。通常主语和宾语为名词或代词，谓语成分为辅。通常主语和宾语为名词或代词，谓语则为动词。谓语动词在句子中处于中心地位。则为动词。谓语动词在句子中处于中心地位。二.自然语言处理的主要研究方向完全句法分析是要通过一系列的句法分析过程，最终得到一个句子的完整的句法树或依存树。浅层句法分析也叫部分句法分析或

11、语块分析，它只是要求识别出句子中某些结构相对简单的成分，如非递归的名词短语、动词短语等。这些被识别出来的结构称之为语块（chunk），语块是一种介于词汇和句子之间的具有非传递特征的句子的重要成分，有时也可能就是通常的短语。二.自然语言处理的主要研究方向语义分析根据句法结构和句子中每个实词的词义推导出能够反映这个句子意义的形式表示。语义分析也可以由浅入深地进行，浅层语义分析又称语义角色标注，他的任务是将句子中各单元成分（短语或词汇）所扮演的语义角色（基于目标谓语的关系）标注出来。二.自然语言处理的主要研究方向语用、语境与篇章分析语用是指人对语言的具体运用，研究和分析语言使用者的真正用意，

12、他与语境、语言使用者的知识状态、言语行为、想法和意图有关联，是对自然语言的深层理解。语境分析主要涉及的是情景语境和文化语境。篇章分析是将研究扩展到句子界限之外，对段落和整篇文章进行理解和分析。二.自然语言处理的主要研究方向词义消岐词义消岐确定在给定上下文语境中多义词的义。确定在给定上下文语境中多义词的义。指代消解指代消解确定指代词的先行语（指代词所指的对象或内容）确定指代词的先行语（指代词所指的对象或内容）的过程叫做指代消解，指代消解是建立概念关联的过程叫做指代消解，指代消解是建立概念关联的过程。的过程。命名实体识别命名实体识别命名实体基本类型包括：人名、地名、组织机构命名实体基本类型包

13、括：人名、地名、组织机构名、数量表达式、时间短语、货币短语和百分比名、数量表达式、时间短语、货币短语和百分比等等7 7种。种。二.自然语言处理的主要研究方向信息抽取是指从文本中抽取核心内容（包括实体、关系、事件等）并将其转换成结构化形式的过程。文本挖掘从大量文本集合中获取用户感兴趣或者有用的模式的过程。二.自然语言处理的主要研究方向文本分类与聚类文本分类与聚类文本分类文本分类文本分类是一个有指导的学习过程。它根据一文本分类是一个有指导的学习过程。它根据一个已经被标注的训练文本样本集合，找到文本属个已经被标注的训练文本样本集合，找到文本属性和文本类别之间的关系模型，然后利用这种学性和文

14、本类别之间的关系模型，然后利用这种学习得到的关系模型对新的文本进行类别判断。习得到的关系模型对新的文本进行类别判断。文本聚类文本聚类文本聚类是一个无指导的学过程。它是根据文文本聚类是一个无指导的学过程。它是根据文本数据的不同特征，将其划分为不同数据类的过本数据的不同特征，将其划分为不同数据类的过程，其目的是使同一类别的文本间的距离尽可能程，其目的是使同一类别的文本间的距离尽可能小，而不同类别的文本间的距离尽可能的大。小，而不同类别的文本间的距离尽可能的大。二.自然语言处理的主要研究方向自动文摘文摘是依据用户需求从源文本中提取最重要的信息内容，生成一个精简版本的过程。文摘应具有压缩性、内容

15、完整性和可读性。文摘可分为单文档文摘和多文档文摘。自动文摘的生成有浅层方法和深层方法。二.自然语言处理的主要研究方向复述与文本生成复述与文本生成复述复述复述研究的是短语或句子的同义现象，任务有复述研究的是短语或句子的同义现象，任务有两条：一是识别两个短语或句子是否互为复述两条：一是识别两个短语或句子是否互为复述-抽抽取，二是将给定的短语或句子复述成另外一个短取，二是将给定的短语或句子复述成另外一个短语或句子语或句子-生成。复述保留了生成。复述保留了“概念上的近似等价概念上的近似等价”，而结构却不一定相似。，而结构却不一定相似。文本生成文本生成文本生成是研究计算机如何根据信息在机器内文本

16、生成是研究计算机如何根据信息在机器内部的表达形式生成一段高质量的自然语言文本。部的表达形式生成一段高质量的自然语言文本。二.自然语言处理的主要研究方向话题检测与跟踪在海量数据流中自动发现话题，并将与话题相关的内容联系在一起。时间是话题的一个重要特征，从时间概念出发，话题又可以分成“突发性话题”和“持久性话题”。话题具有“语义”和“时间”两个主要特征。除了事件内容之外，话题还通常包涵人物、时间、地点等命名实体。二.自然语言处理的主要研究方向情感分析情感分析识别出文本中所包含的主观性句子，并对其情识别出文本中所包含的主观性句子，并对其情感趋势进行分析与判断。感趋势进行分析与判断。例：我前几

17、天买了一台汽车，它不仅外观漂亮，例：我前几天买了一台汽车，它不仅外观漂亮，而且性能很好。而且性能很好。这里的第一个句子为客观句，二、三两句诗主这里的第一个句子为客观句，二、三两句诗主观句，主体是观句，主体是“我我”，主题（评价对象）分别是，主题（评价对象）分别是“外观外观”和和“性能性能”，他们都是汽车的属性，而，他们都是汽车的属性，而情感词（评价词）分别为情感词（评价词）分别为“漂亮漂亮”和和“很好很好”。二.自然语言处理的主要研究方向处理过程大致如下：1.识别出主观句；2.找出主题词；3.识别出情感词；4.判断出情感词的极性；5.句子倾向性分析；6.确定主体。二.自然语言处理的主要研究方向

18、（二）机器翻译（二）机器翻译机器翻译的概念机器翻译的概念机器翻译（机器翻译（Machine Translation,MTMachine Translation,MT）是运用）是运用计算机来实现不同语言之间的自动翻译。通常，计算机来实现不同语言之间的自动翻译。通常，被翻译的语言称之为源语言（被翻译的语言称之为源语言（source source languagelanguage），翻译结果的语言称之为目标语言），翻译结果的语言称之为目标语言（targer languagetarger language）。机器翻译就是从源语言）。机器翻译就是从源语言到目标语言的转换过程。从形式上看，机器翻译到

19、目标语言的转换过程。从形式上看，机器翻译是一个符号序列的变换过程。是一个符号序列的变换过程。二.自然语言处理的主要研究方向机器翻译的方法机器翻译的方法机器翻译方法总体上可以分成基于规则的和基机器翻译方法总体上可以分成基于规则的和基于语料库的两大类。于语料库的两大类。.基于规则的机器翻译方法基于规则的机器翻译方法（RBMTRBMT，Rule-Based MTRule-Based MT）主要资源是词典与知识库（存放规则与常识性主要资源是词典与知识库（存放规则与常识性知识）。知识）。基于转换的方法基于转换的方法通常由分析、转换、生成三个步骤构成。通常由分析、转换、生成三个步骤构成。二.自然语

20、言处理的主要研究方向这里的分析是指对源语言句子的分析，包括词法分析、句法分析、语义分析、语境分析等等，重点在句子的结构分析，经过分析之后生成源语言的句法结构树（往往附有一定的语义信息）；转换阶段要依据翻译规则实现将源语言的句法结构树转换成等价的目标语言的句法结构树；再运用词典和常识性知识等完成目标语言的生成。在实际翻译中往往是一个由词到短语再到句子的分层次转换的过程二.自然语言处理的主要研究方向基于中间语言的方法基于中间语言的方法这种方法首先将源语言句子转换成一种与具体这种方法首先将源语言句子转换成一种与具体语种无关的通用语言或中间语言，然后再将这种语种无关的通用语言或中间语言，然后再将

21、这种语言的句子转换成目标语言的句子。整个翻译过语言的句子转换成目标语言的句子。整个翻译过程包含了两个独立转换的过程。程包含了两个独立转换的过程。这种方法适用于一对多的翻译。这种方法适用于一对多的翻译。基于枢轴语翻译。基于语料库的机器翻译方法基于语料库的机器翻译方法主要资源是经过标注的语料库，语料库是按照主要资源是经过标注的语料库，语料库是按照一定原则组织在一起的大规模真实自然语言数据一定原则组织在一起的大规模真实自然语言数据的集合。的集合。二.自然语言处理的主要研究方向基于实例的方法（EBMT，Example-Based MT）该方法需要对已有的语料进行词法、句法甚至语义等分析，建立存放

22、翻译实例的实例库。系统在执行翻译的过程中，将翻译句子与实例库中的翻译实例进行相似性分析，其中最相似的句子的译文便为翻译句子的译文。二.自然语言处理的主要研究方向基于统计的方法基于统计的方法（SMTSMT，Statistical MTStatistical MT）运用概率统计等机器学习方法来获取知识，解运用概率统计等机器学习方法来获取知识，解决机器翻译中的问题。以双语对齐语料库为基础，决机器翻译中的问题。以双语对齐语料库为基础，对源语言和目标语言的词汇（或短语）的对应关对源语言和目标语言的词汇（或短语）的对应关系进行统计，通过同现的可能性计算两种语言映系进行统计，通过同现的可能性计算两种语言

23、映射的概率。射的概率。统计机器翻译又称之为数据驱动（统计机器翻译又称之为数据驱动（data-data-driverdriver）方法，它是通过数学模型来描述翻译过）方法，它是通过数学模型来描述翻译过程，利用双语语料库来估计模型参数，再用已获程，利用双语语料库来估计模型参数，再用已获得的模型和参数进行解码（搜索），得到目标语得的模型和参数进行解码（搜索），得到目标语言的译文。言的译文。二.自然语言处理的主要研究方向通常使用的方法有基于规则的（实际上是指基于转换的），基于实例的和基于统计的三种。基于规则的方法通过计算机程序最好地反映了人们对于语言翻译的认知和理解，基于实例的方法有效地发挥了计算机

24、的存储能力，而基于统计的方法充分发挥了计算机的数学建模能力。二.自然语言处理的主要研究方向目前市场上应用的机器翻译系统多半是基于规目前市场上应用的机器翻译系统多半是基于规则的和基于实例的，但由于基于规则的机器翻译则的和基于实例的，但由于基于规则的机器翻译系统人工编写规则的工作量太大，知识库的规模系统人工编写规则的工作量太大，知识库的规模和一致性都难以把握。基于实例的机器翻译系统和一致性都难以把握。基于实例的机器翻译系统的不足在于翻译实例的泛化、覆盖率以及实例的的不足在于翻译实例的泛化、覆盖率以及实例的匹配等问题。基于统计的机器翻译大规模细粒度匹配等问题。基于统计的机器翻译大规模细粒度知识的自

25、动获取能力较强，可以弥补前面两者的知识的自动获取能力较强，可以弥补前面两者的一些不足。基于统计的机器翻译方法已成为当前一些不足。基于统计的机器翻译方法已成为当前的主流研究方向。的主流研究方向。影响机器翻译系统质量的主要障碍：歧义问题影响机器翻译系统质量的主要障碍：歧义问题的处理，常识性知识的使用。的处理，常识性知识的使用。二.自然语言处理的主要研究方向（三）信息检索（三）信息检索 1.1.概念概念信息检索就是指从有关文档集合中查找用户所信息检索就是指从有关文档集合中查找用户所需信息的过程。广义的信息检索是指先将信息按需信息的过程。广义的信息检索是指先将信息按一定的方式组织和存储起来，然后再

26、根据用户的一定的方式组织和存储起来，然后再根据用户的需求从已经存储的文档集合当中找出相关的信息。需求从已经存储的文档集合当中找出相关的信息。其中包括其中包括“存存”与与“取取”两个方面，两个方面，“存存”即信即信息存储，是对信息进行收集、标引、描述、组织，息存储，是对信息进行收集、标引、描述、组织，进行有序的存放。进行有序的存放。“取取”即信息查找，是按照某即信息查找，是按照某种查询机制从有序存放的信息集合（数据库）中种查询机制从有序存放的信息集合（数据库）中找出用户所需信息或获取其线索的过程。找出用户所需信息或获取其线索的过程。二.自然语言处理的主要研究方向基本原理基本原理是将用户的检索

27、提问词（关键词）与数据库文是将用户的检索提问词（关键词）与数据库文献纪录中的标引词进行对比，二者匹配一致时，献纪录中的标引词进行对比，二者匹配一致时，即为命中，检索成功。这里即为命中，检索成功。这里“存存”和和“取取”的联的联系一致是通过检索标识来实现的，检索标识是为系一致是通过检索标识来实现的，检索标识是为沟通文献标引和检索提问而编制的人工语言。沟通文献标引和检索提问而编制的人工语言。检索结果按与提问词的关联度输出，供用户选检索结果按与提问词的关联度输出，供用户选择。用户通常是采用择。用户通常是采用“关键词查询关键词查询+选择性浏览选择性浏览”的与机器交互方式获取信息。的与机器交互方式获取信

28、息。二.自然语言处理的主要研究方向搜索引擎搜索引擎信息检索最早是在上个世纪信息检索最早是在上个世纪5050年代提出的。年代提出的。9090年代互联网出现以后，其导航工具年代互联网出现以后，其导航工具-搜索引擎搜索引擎可以看成是一种特殊的信息检索系统，如果说二可以看成是一种特殊的信息检索系统，如果说二者有区别的话，那就是语料库集合和用户群体有者有区别的话，那就是语料库集合和用户群体有所不同，搜索引擎面临的语料库是规模浩大、内所不同，搜索引擎面临的语料库是规模浩大、内容繁杂、动态变化的互联网，用户群体不再是具容繁杂、动态变化的互联网，用户群体不再是具有一定知识水平的科技工作者，而是兴趣爱好、有

29、一定知识水平的科技工作者，而是兴趣爱好、知识背景、年龄结构差异很大的网民群体。目前知识背景、年龄结构差异很大的网民群体。目前多数人习惯于二者通用。多数人习惯于二者通用。二.自然语言处理的主要研究方向以谷歌为代表的以谷歌为代表的“关键词查询关键词查询+选择性浏览选择性浏览”的交互方式的特点是：用户用简单的关键词作为的交互方式的特点是：用户用简单的关键词作为查询提交给搜索引擎，搜索引擎并非直接把检索查询提交给搜索引擎，搜索引擎并非直接把检索目标页面反馈给用户，而是提供给用户一个可能目标页面反馈给用户，而是提供给用户一个可能的检索目标页面列表，用户浏览该列表并从中选的检索目标页面列表，用户浏览该列

30、表并从中选择出能够满足其信息需求的页面加以浏览。择出能够满足其信息需求的页面加以浏览。这种交互方式对于用户来说查询输入简单了，这种交互方式对于用户来说查询输入简单了，但机器却难以通过简单的关键词准确的理解用户但机器却难以通过简单的关键词准确的理解用户的真正查询意图，因此只能将有可能满足用户需的真正查询意图，因此只能将有可能满足用户需求的结果集合以列表的形式提供给用户。求的结果集合以列表的形式提供给用户。二.自然语言处理的主要研究方向问答系统问答系统是要机器自动地从互联网上找出问题的答案。这里的是要机器自动地从互联网上找出问题的答案。这里的用户查询（提问）是自然语言，而返回的结果是直接答案用

31、户查询（提问）是自然语言，而返回的结果是直接答案（不是网页）。（不是网页）。信息过滤信息过滤信息检索是针对动态变化的信息需求从固定的信息集信息检索是针对动态变化的信息需求从固定的信息集合中获取相关知识，信息过滤则是针对固定的信息需求从合中获取相关知识，信息过滤则是针对固定的信息需求从动态变化的信息流中获取相关知识。二者都是依靠信息的动态变化的信息流中获取相关知识。二者都是依靠信息的相关性进行判断。相关性进行判断。衡量信息过滤效果的依据在于系统要尽可能多地获取衡量信息过滤效果的依据在于系统要尽可能多地获取相关信息，而同时也要尽可能多地屏蔽掉不相关信息。这相关信息，而同时也要尽可能多地屏蔽掉不相

32、关信息。这里的关键技术在于去噪声能力要强。噪声即来源于不相关里的关键技术在于去噪声能力要强。噪声即来源于不相关文本，也来源于相关文本中的不相关信息。文本，也来源于相关文本中的不相关信息。二.自然语言处理的主要研究方向（四）社会计算（四）社会计算概念概念也称计算社会学，是指在互联网的环境下，以也称计算社会学，是指在互联网的环境下，以现代信息技术为手段，以社会科学理论为指导，现代信息技术为手段，以社会科学理论为指导，帮助人们分析社会关系，挖掘社会知识，协助社帮助人们分析社会关系，挖掘社会知识，协助社会沟通，研究社会规律，破解社会难题的学科。会沟通，研究社会规律，破解社会难题的学科。社会行为与计

33、算系统交互融合，计算机科学、社会行为与计算系统交互融合，计算机科学、社会科学、管理科学等多学科交叉所形成的研究社会科学、管理科学等多学科交叉所形成的研究领域。领域。用社会的方法计算社会。用社会的方法计算社会。基于社会的计算，面向社会的计算。基于社会的计算，面向社会的计算。二.自然语言处理的主要研究方向社会媒体社会媒体社会媒体（社会媒体（Social MediaSocial Media）是社会计算的主要）是社会计算的主要工具和手段工具和手段，它是一种在线交互媒体，有着广泛，它是一种在线交互媒体，有着广泛的用户参与性，允许用户在线交流、协作、发布、的用户参与性，允许用户在线交流、协作、发布、分

34、享、传递信息，组成虚拟的网络社区等等。近分享、传递信息，组成虚拟的网络社区等等。近年来，社会媒体呈现多样化的发展趋势，从早期年来，社会媒体呈现多样化的发展趋势，从早期的论坛、博客、维基到风头正劲的社交网站、微的论坛、博客、维基到风头正劲的社交网站、微博，正在成为网络技术发展的热点和趋势。博，正在成为网络技术发展的热点和趋势。二.自然语言处理的主要研究方向社会媒体的文本属性特点是其具有草根性，字数少、噪声大、书写随意；社会属性特点是其具有社交性，在线、交互。它赋予了每个用户创造并传播内容的能力，实施个性化发布，社会化传播，将用户群体组织成社会化网络，目前典型的社会媒体是Twitter和Face

35、book，在我国则是微博，用户已经超过了3亿。微博即微博客（Micro Blog）的简称，是一个基于用户关系的信息分享、传播以及获取的平台。二.自然语言处理的主要研究方向社会网络分析社会媒体是允许用户广泛参与的新型在线媒体，通过社会媒体用户之间可以彼此之间在线交流，形成虚拟的网络社区，构成了社会网络。社会网络是一种关系网络，通过个人与群体及其相互之间的关系和交互，发现它们的组织特点，行为方式等特征，进而研究人群的社会结构，以利于他们之间的进一步共享、交流与协作。三.下一代信息检索研究（一）互联网及其相关技术（二）当前搜索引擎存在的问题（三）垂直搜索（四）智能搜索（五）个性化搜索（六）跨语言

36、信息检索（七）多媒体信息检索三.下一代信息检索研究（一）互联网及其相关技术（一）互联网及其相关技术互联网互联网互联网是一个具有开放性、动态性、异构性的互联网是一个具有开放性、动态性、异构性的全球分布式网络。通常，搜索引擎要从互联网上全球分布式网络。通常，搜索引擎要从互联网上抓取几千万甚至是几十亿个网页并按关键词构建抓取几千万甚至是几十亿个网页并按关键词构建索引，当用户提出查询请求的时候，所有在页面索引，当用户提出查询请求的时候，所有在页面内容中包含有查询关键词的网页都被作为搜索结内容中包含有查询关键词的网页都被作为搜索结果查找出来，然后再按与查询关键词的相关程度果查找出来，然后再按与查询

37、关键词的相关程度将结果排序输出。将结果排序输出。三.下一代信息检索研究网络资源的特点（1）海量数据；（2）分散无序，信息存在于各服务器上，而数以千万计的网络服务器则散布世界的各个角落；（3）动态更新（不稳定性）；（4）种类/形式多种多样，文字、图形、图像、音频和视频等，多种语言；三.下一代信息检索研究（5）非结构化与半结构化；（6）语义冗余和质量难以控制；（7）需求与使用方式个性化。海量、分布、无序、动态、多样、异构、冗余、质杂、需求各异三.下一代信息检索研究相关技术相关技术（1 1）自动搜索技术）自动搜索技术搜索引擎利用爬虫技术（搜索引擎利用爬虫技术（CrawlerCrawler），根

38、据网），根据网页链接抓取互联网上相关页面并建立起它们之间页链接抓取互联网上相关页面并建立起它们之间的超链接关系。的超链接关系。（2 2）自动标引技术）自动标引技术对搜索到的信息进行标引，然后建立倒排索引对搜索到的信息进行标引，然后建立倒排索引(Inverted Index)(Inverted Index)，并形成索引数据库。，并形成索引数据库。三.下一代信息检索研究（3 3）自动匹配技术）自动匹配技术用户输入检索项后，系统将检索项与索引数用户输入检索项后，系统将检索项与索引数据库中的索引项匹配，再按相关度大小将结果据库中的索引项匹配，再按相关度大小将结果排序输出。排序输出。根据以下两

39、项因素对结果进行排序：根据以下两项因素对结果进行排序：检检索项与文档的匹配程度，主要是通过索项与文档的匹配程度，主要是通过TF-IDFTF-IDF反反映；映；网页的质量，通过是预先算好的基于链接网页的质量，通过是预先算好的基于链接分析（分析（PagerankPagerank）反映。）反映。三.下一代信息检索研究检索效果评价检索效果评价准：相关性好；准：相关性好；全：覆盖面宽；全：覆盖面宽；快：查找速度快；快：查找速度快；新：实时性强（内容更新迅速）；新：实时性强（内容更新迅速）；界面友好，使用方便。界面友好，使用方便。这里重点是这里重点是“准准”和和“全全”。“准准”通常用通常用“准确

40、率准确率”来表述，来表述，“全全”通常用通常用“召回率召回率”来表来表述。述。准确率准确率=检出的相关文档数检出的相关文档数/检出文档总数检出文档总数召回率召回率=检出的相关文档数检出的相关文档数/相关文档总数相关文档总数三.下一代信息检索研究对于信息检索的评价应该包括效果（对于信息检索的评价应该包括效果（Eff-Eff-ectivenessectiveness）和效率（）和效率（EfficiencyEfficiency）两部分，效）两部分，效果主要是指查准率（准确率）与查全率（召回率）果主要是指查准率（准确率）与查全率（召回率），而效率应该是指响应时间的快慢和耗费软硬件，而效率应该是指响

41、应时间的快慢和耗费软硬件资源的多少。目前多数的评价主要针对的是效果资源的多少。目前多数的评价主要针对的是效果而不是效率。而不是效率。目前国际上对信息检索评价最有权威的应该是目前国际上对信息检索评价最有权威的应该是TRECTREC（文本检索会议，（文本检索会议，Text REtrieval Text REtrieval Conferen-ceConferen-ce）。）。三.下一代信息检索研究（二）当前搜索引擎存在的问题查询手段单一，采用关键词；查询结果粗糙，返回的是大量网页，粒度太粗，而且只有少数有用；不能满足用户的个性化需求，同一用户的不同次查询相互独立，不同用户的相同查询返回的是同一结

42、果，即查询结果只与查询词有关，而与用户无关。三.下一代信息检索研究下一代搜索将把个性化信息及人际推荐关系叠加到链接分析上，大大改善搜索结果排序效果；同时，跨媒体搜索将实现诸如用图片搜索图片等功能，打通文字，图片，视频，声音的界限，颠覆现在全部基于关键字的搜索方法，为用户带来更加直观的搜索体验。三.下一代信息检索研究（三）垂直搜索垂直搜索是针对某一行业的专业搜索引擎。它和普通搜索引擎的最大区别一是抓取专业网页，二是对网页信息进行了结构化信息抽取，也就是将专业网页的非结构化数据抽取成特定的结构化数据，将这些数据进行去重、分类，再分词、索引，然后存储起来，以备专业用户进行查询。三.下一代信息检

43、索研究垂直搜索是根据专业用户定制的主题，在互联垂直搜索是根据专业用户定制的主题，在互联网和内部网上搜索专业用户感兴趣的信息，对于网和内部网上搜索专业用户感兴趣的信息，对于搜索到的网页还要依据与专业主题的相关度进行搜索到的网页还要依据与专业主题的相关度进行主题过滤。主题过滤。垂直搜索的信息源除了互联网上的信息之外，垂直搜索的信息源除了互联网上的信息之外，还可能包括区域信息（局部网）和本单位所存有还可能包括区域信息（局部网）和本单位所存有的电子信息。的电子信息。垂直搜索引擎具有社区化特征，它定位于一个垂直搜索引擎具有社区化特征，它定位于一个行业，服务于一群特定需求的人群，本质上是对行业，服务于一

44、群特定需求的人群，本质上是对垂直门户信息提供方式的一次简化性整合。垂直门户信息提供方式的一次简化性整合。三.下一代信息检索研究（四）智能搜索（四）智能搜索传统的搜索引擎存在着传统的搜索引擎存在着“信息丢失信息丢失”和和“文海文海捞针捞针”等问题，原因在于一是对查询请求的深度等问题，原因在于一是对查询请求的深度理解不够，二是对输出结果的深度加工不够，三理解不够，二是对输出结果的深度加工不够，三是检索过程缺乏适应与学习能力。解决的办法除是检索过程缺乏适应与学习能力。解决的办法除了采用查询扩展等方法之外，还需把自然语言理了采用查询扩展等方法之外，还需把自然语言理解与处理的相关技术，如词法分析、句

45、法分析、解与处理的相关技术，如词法分析、句法分析、语义分析、词义消岐、信息抽取、分类、聚类、语义分析、词义消岐、信息抽取、分类、聚类、自动文摘以及机器学习等方法用在搜索引擎上，自动文摘以及机器学习等方法用在搜索引擎上，使得搜索引擎可能插上智能化的翅膀。使得搜索引擎可能插上智能化的翅膀。三.下一代信息检索研究工作可以从两方面入手，一是用户检索接口的友好性，二是检索过程的可学习性。用户可以使用自然语言或跨语言查询，系统了解用户的兴趣，有针对性的查询并输出满足用户需求的排序结果或直接提供给用户所需信息与知识，人机对话简捷方便。利用语法分析、语义分析等技术使系统尽量理解人类的自然语言，运用语义网络，

46、采用机器学习方法，建立深层次、高品质的检索模型，满足人类更高的检索需求。三.下一代信息检索研究（五）个性化搜索思路通过跟踪分析用户的搜索行为（包括个人兴趣及群体行为），来提高有针对性的检索效率。个性化在于针对性，针对不同用户的不同需求采取不同的服务策略，提供不同的服务内容。采用兴趣制导或人机交互等灵活手段搜集互联网上的信息，以满足用户的个性化需求。三.下一代信息检索研究传统的搜索引擎查询结果只取决于查询词，而与用户无关。个性化信息检索的查询结果要满足不同用户的个性化要求，既要做到与用户相关。即使是提交的查询词相同，但对于不同的用户或者同一用户的不同时期或不同背景，机器提供的查询结果也是

47、不尽相同的。三.下一代信息检索研究问题的解决：一是获取以多种形式表达的用户兴趣信息，包括显式、隐式以及相关用户（用户群体）的需求，构建用户兴趣模型；二是结合用户查询，全面、准确地描述用户的检索意图，创建以用户为中心的信息检索模型，以满足不同用户的个性化需求。三.下一代信息检索研究用户兴趣模型用户兴趣模型查询结果与用户相关查询结果与用户相关准确理解用户的查询意准确理解用户的查询意图图把握用户的兴趣偏好（同时要尽量减少用户把握用户的兴趣偏好（同时要尽量减少用户直接参与的程度）直接参与的程度）挖掘用户兴趣，构建用户兴挖掘用户兴趣，构建用户兴趣模型。趣模型。兴趣采集，显式：用户的明确表达，包括注

48、册兴趣采集，显式：用户的明确表达，包括注册信息（背景），评价与反馈信息（标定）；隐式：信息（背景），评价与反馈信息（标定）；隐式：对用户浏览行为的跟踪，通过分析用户日志总结对用户浏览行为的跟踪，通过分析用户日志总结出用户兴趣偏好的特征。出用户兴趣偏好的特征。三.下一代信息检索研究信息表达，建立用户描述文件，用以定义用户信息在机器中的表达和存储形式。分析与建模，将用户兴趣转换成可计算资源，结合内容分析和行为分析构建用户兴趣模型。学习与更新，用户兴趣模型应具备学习与更新功能，自适应，增量式，支持主动学习和在线学习。三.下一代信息检索研究模型的数学表达：U=M(c,d,v)c用户兴趣类别；d兴趣

49、度；v加权关键词，采用层次类别表示法信息检索模型运用相关反馈技术提高检索性能，创建以用户为中心的信息检索模型。传统模型：M=R（Q，D）三.下一代信息检索研究当前个性化模型:M=R(R(Q,D),U)基于用户参考文档模型:M=R(Q,D,U)=R(MQ,MD)其中:MQ=F(Q,U)MD=F(D,U,V)三.下一代信息检索研究式中 MQ:针对特定用户重估后的查询模型 MD:针对特定用户重估后的文档模型 Q:查询，D：文档，U：用户 V：网页（文档）价值 R：相关度计算 R:重排序 F：反馈三.下一代信息检索研究三.下一代信息检索研究用户参考文档：用户参考文档：由用户（或具有相似性兴趣的

50、用户群）在检索过程中浏览的内容及点击等行为记录所组成，能够反映特定用户检索兴趣和偏好的文档信息集合基于用户参考文档的基于用户参考文档的个性化检索模型个性化检索模型总体框架基于用户参考文档的个性化检索模型三.下一代信息检索研究参考文档是指能够反映特定用户检索兴趣和偏好的文档集合，它在一定程度上反映用户的检索意图，与用户的检索内容和检索行为有关。用户可以依据查询结果重构查询模型和文档模型。这里也是利用反馈技术来提高检索性能，创建以用户为中心的信息检索模型。三.下一代信息检索研究个性化检索就是要做到以用户为中心，让机器了解用户用户兴趣的挖掘分析与跟踪；让机器满足用户用户需求信息的过滤与推送；让机

展开阅读全文