概述语言信息处理自然语言理解.ppt

上传人:豆**** 文档编号:65326621 上传时间:2022-12-04 格式:PPT 页数:41 大小:405.50KB
返回 下载 相关 举报
概述语言信息处理自然语言理解.ppt_第1页
第1页 / 共41页
概述语言信息处理自然语言理解.ppt_第2页
第2页 / 共41页
点击查看更多>>
资源描述

《概述语言信息处理自然语言理解.ppt》由会员分享,可在线阅读,更多相关《概述语言信息处理自然语言理解.ppt(41页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、概述(语言信息处理&自然语言理解)2009-2010学年For 对外汉语方向本科生n甲:听说吴妈打赢了阿Q。n乙:不错,阿Q确实被吴妈打败了。n甲:这个结果有些出人意料。n乙:阿Q是大意失荆州,怪不得别人。n昆仑军分区歌舞团长途跋涉来我部慰问演出n这像是方红画的n人用来交际的人用来交际的“语言语言”具有什么样的性质?具有什么样的性质?n人用来交际的人用来交际的“语言语言”和机器可以理解的语言有什么样的关系?和机器可以理解的语言有什么样的关系?n人是如何运用人是如何运用“语言语言”进行交际的?进行交际的?n人运用人运用“语言语言”进行交际的进行交际的“过程过程”是否可以描述为一个是否可以描述为一

2、个“机械的过程机械的过程”?n什么叫做什么叫做“理解理解”一种语言?一种语言?n如何从如何从“内在的交际意图内在的交际意图”到到“外显的语言表达外显的语言表达”?n对外经贸大学中文学院.对外汉语释名n自然语言自然语言(NaturalLanguage)一种语言,其规则是根据当前流行的用法而不是用明确的形式规定的。自然语言是没有经过加工的或人为干预的语言。n人造语言人造语言(Ruledlanguage)一种语言,其规则在使用前已经明确地规定了。是一种由人为某些特定目的而创造的语言。n语言信息处理语言信息处理自然语言理解自然语言理解自然语言处理自然语言处理人类人类语言技术语言技术计算语言学计算语言学

3、对外经贸大学中文学院.对外汉语释名n计算语言学计算语言学(ComputationalLinguistics)计算语言学是利用电子数字计算机进行的语言分析。虽然许多其他类型的语言分析也可以运用计算机,计算分析最常用于处理基本的语言数据例如建立语音、词、词元素的搭配以及统计它们的频率。(大不列颠百科全书)计算语言学指的是这样一门学科,它通过建立形式化的数学模型来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的全部或者部分语言能力的目的。n人类语言技术人类语言技术(HumanLanguageTechnology,HLT)所有围绕人类语言(而非动物语言或形式语言)

4、所开展的处理技术的研究。对外经贸大学中文学院.对外汉语释名n自然语言理解自然语言理解(NaturalLanguageUnderstanding,NLU)人工智能的分支学科。研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。n自然语言处理自然语言处理(NaturalLanguageProcessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。实现

5、人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。对外经贸大学中文学院.对外汉语释名n语言信息处理语言信息处理(LanguageInformationProcessing,LIP)是指用计算机对自然语言的音、形、义等信息进行处理。即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作与加工。语言信息处理是一门边缘学科,也是一门交叉学科。它综合了语言学、逻辑学、心理语言学、计算机科学、哲学、人工智能、数学和统计学的研究成果,将它们运用于计算机的语言分析和处理。对外经贸大学中文学院.对外汉

6、语参考文献n自然语言的计算机处理冯志伟上海外语教育出版社n应用语言学刘涌泉湖南教育出版社n汉语计算语言学吴蔚天罗建林电子工业出版社n人工智能原理石纯一清华大学出版社n现代汉语语法信息详解词典俞士汶清华大学出版社n自然语言理解姚天顺清华大学出版社n信息处理用现代汉语分词规范及自动分词方法刘源等,清华大学出版社n计算语言学概论翁富良等中国社会科学出版社n当代西方语法理论俞如珍上海外语教育出版社n语言文字应用,1992年至今各期对外经贸大学中文学院.对外汉语n中文信息处理,傅永和,广东教育出版社n应用语言学综论,冯志伟,广东教育出版社n语料库语言学,黄昌宁,商务印书馆n计算语言学探索,冯志伟,黑龙江

7、教育出版社n计算语言学基础,刘颖,清华大学出版社n计算语言概论,俞士汶主编,商务印书馆n语言文字的信息处理,盛炎n中文信息处理若干重要问题,徐波等,科学出版社nNaturalLanguageUnderstanding,JamesAllen,nFoundationsofStatisticalNaturalLanguageProcessing,ChristopherD.Manning,HinrichSchutze对外经贸大学中文学院.对外汉语n语言信息处理领域主要学术会议及活动语言信息处理领域主要学术会议及活动ACL(AssociationforComputationalLinguistics)美

8、国计算语言学会COLING(InternationalConferenceonComputationalLinguistics)国际计算语言学会议TREC(TextREtrievalConference)CNCCL(全国计算语言学联合学术会议)附件:HLTwebs.html对外经贸大学中文学院.对外汉语考试方式n平时成绩(30%)=课堂作业+课下作业+出勤n期中考试(20%):课程报告(研究报告或读书报告)n期末考试(50%):以填空、名词解释、简答和论述为主对外经贸大学中文学院.对外汉语对外经贸大学中文学院.对外汉语本章内容n语言信息处理的方向n语言信息处理的对象n语言信息处理的学科定位n语

9、言信息处理的目标n语言信息的理解处理所需的知识n自然语言处理的根本问题n语言理解处理系统的评价n自然语言处理的研究方法n自然语言处理的发展历史n自然语言处理系统的总体构成对外经贸大学中文学院.对外汉语语言信息处理的方向n分析(理解)analyze,understandn生成(表达)generateorproduce,express实现人机交互意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等。后者称为自然语言生成。“矮墙和低墙”对外经贸大学中文学院.对外汉语语言信息处理的对象n文本(文字流)text书面理解用文字输入,使计算机“看懂”文字符号,也用文字输出应

10、答。将文字输入计算机计算机识别和理解文字、词、短语、句子、段落和篇章按指定的目标作出相应的回答或反映n话语(语音流)speech语音理解用口语语音输入,使计算机“听懂”语音信号,用文字或语音合成输出应答。用口语对计算机讲话计算机识别语音输入,把语音流变换为文字流然后按书面语理解最后利用语音合成将回答转换成声音输出对外经贸大学中文学院.对外汉语语言信息处理的学科定位n交叉学科:语言学、计算机科学、认知科学、数学、哲学和逻辑学计算机对自然语言的处理一般应经过三个方面:形式化编写算法程序实现对外经贸大学中文学院.对外汉语n人工智能的分支AI,ArtificialIntelligenceNLU是人工智

11、能的重要内容。自然语言的信息处理是跟计算机的诞生几乎同时开始的一个多学科交叉研究领域。来自计算机科学、语言学、数学等不同学科的研究人员构成了目前这一领域的主要研究力量。随着计算机应用的日益普及,其功能也从主要是数值计算发展到以非数值信息处理为主。因此,语言信息处理处于文科、理科和工科的交叉点上,是建立在语言学、数学和计算机科学这三门学科基础上的边缘性学科。对外经贸大学中文学院.对外汉语语言信息处理的目标语言信息处理的目标-理解的定理解的定义义n最终目标:让电脑像人一样理解语言n“目前学界对于理解的理解、有关概念的概念、赋予语义的语义、界定知识的知识都可能是各不相同甚或互不搭界的。”(张普)符号

12、学人工智能认为:“理解”即是表示,理解的过程关注的是表示的构造和使用Fillmore(格语法)认为:理解一个概念决定于我们拥有的背景环境和这个概念本身的背景框架原型匹配的程度Schank(概念依存理论)认为:“理解”是在概念空间中,但不仅仅是一个被动的操作过程,而部分的受我们预期的驱使。对外经贸大学中文学院.对外汉语关于理解的不同定义n关于自然语言理解,至今尚无一致的、各方可以接受的定义自然语言的复杂性n多义性、上下文有关性、模糊性、非系统性和环境密切相关性、涉及的知识面广与应用目标相关微观与宏观角度不一n从微观上讲,自然语言理解是指从自然语言到机器内部的一个映射n从宏观上看,自然语言是指机器

13、能够执行人类所期望的某些语言功能对外经贸大学中文学院.对外汉语语言信息处理的目标语言信息处理的目标-理解的标理解的标准准n聊天机器人是否具有聊天机器人是否具有AI?接收信息分析特征字检索数据库反馈相应信息n图灵测验图灵测验让一个正常人和电脑分别回答实验者的问题,如果实验者无法分辨出来哪个是人的回答,哪个是机器的回答,那么这台电脑就具有AI。对外经贸大学中文学院.对外汉语语言信息处理的目标语言信息处理的目标-理解的标理解的标准准n对图灵测验的质疑中国屋试验美国哲学家约翰塞尔n语言理解能力的功能定义美国认知心理学家G.M.Olson提出语言理解的四条标志:(1)能成功地回答输入语料中的有关问题:答

14、问(2)在接受一批语料之后,有就此给出摘要的能力:摘要(3)能用不同的词语复述所输入的语料:复述(4)有从一种语言转译成另一种语言的能力:翻译对外经贸大学中文学院.对外汉语语言信息处理的目标语言信息处理的目标-理解的标理解的标准准n理解能力的判定让计算机具有针对自然语言的分析理解与生成表达分析理解与生成表达能力,是自然语言理解/处理的目标。n判定一个自然语言处理系统是否具有理解能力,主要依据两点是否从意义上去处理自然语言处理结果是否正确无误。对外经贸大学中文学院.对外汉语语言信息的理解处理所需的知识语言信息的理解处理所需的知识n要让计算机具有这种能力,就需要从语言学知识角度出发构造关于语言理解

15、和生成的计算模型,并且这些模型还要在特定领域背景下表现良好。n语言学知识:从语言构成角度:词汇、短语、句子、段落、篇章等从语言特征角度:对外经贸大学中文学院.对外汉语语言信息的理解处理所需的知识语言信息的理解处理所需的知识n语音知识语音知识(Phoneticandphonologicalknowledge):研究词语与其发音如何关联。这种知识对于基于语音的系统是至关重要的。n词法知识词法知识(Morphologicalknowledge):包括词语形态学知识,研究词语如何由被称为词素的更基本的意义单位构成。n句法知识句法知识(Syntacticknowledge):研究词语是如何排列以组成正确

16、的句子,并决定每个单词在句子中所充当的结构角色,以及短语之间的构成关系。n语义知识语义知识(Semanticknowledge):词义,及其如何组合成句义,不依赖上下文和客观语境。即研究词语的意义以及在句子中词语意义是如何相互结合以形成句子意义的。这是上下文无关的意义研究,即一个句子在不考虑其上下文的情况下所具有的意义。n语用知识语用知识(Pragmaticknowledge):研究句子如何在不同语境中的使用,以及这种使用如何影响句子的解释。n篇章知识篇章知识(Discourseknowledge):研究在前面句子的影响下,下面的句子该如何解释,即句间意义关联,主要包括代词指代的解释和信息中所

17、包含的时态解释等。n世界知识世界知识(Worldknowledge):常识及交流双方的背景知识,这种知识对于语言的理解和使用时必需的。对外经贸大学中文学院.对外汉语语言信息的理解处理所需的知识语言信息的理解处理所需的知识n几十年来,自然语言处理研究的重点是分析。自然语言分析的关键就是识别与消解自然语言的歧义。在每个层面的语言表示和解释中都涉及歧义消解,因此,歧义消解是自然语言理解中的一个基本问题。n基于句法的分析方法往往对语义不通的句子无能为力。语义不通的句子有两种类型:n一是内部自相矛盾:满脸胡子的张三没长胡子一树红桃个个青,满天下雨半天星,三个和尚四面坐,不言不语唱真经n二是不符合概念意义

18、常识知识:所有的石头都死了。(邢公畹)Colorlessgreenideassleepfuriously.(Chomsky)(无色的绿色在猛烈地睡觉)对外经贸大学中文学院.对外汉语自然语言处理的根本问题自然语言处理的根本问题n理解语言的关键之一是对意义的表示(Representation),NLU的过程实际上是信息表达方式的转换,之后再输出,效果力求同人一样。n为什么不能直接用自然语言来表示?为什么不能直接用自然语言来表示?根本问题在于语言的歧义性(ambiguity):同一形式表达不同意义;同一意义用不同形式表达。TheSeniorsweretoldtostopdemonstratingon

19、campus.Wesawhimswimacrosstheriver.对外经贸大学中文学院.对外汉语自然语言处理的根本问题自然语言处理的根本问题n对意义的“精确”表达要用数学、逻辑及形式语言。一种合用的表达语言(representationlanguage)具备以下两个特征:(1)区别性:精确、无歧义(preciseandunambiguous)。对同一句子的不同意义有不同的表达形式。(2)同一性:能表达句子的直观结构。结构类似的句子应具有类似的结构表达,结构不同但意义相同的句子应能紧密关联。nNLU的根本问题是,如何表达自然语言的意义?如何消解自然语言的歧义?对外经贸大学中文学院.对外汉语语言

20、信息处理的应用语言信息处理的应用n面向文本(Text-based):自动索引(Index)智能查询(Querying)机器翻译(MachineTranslation)和机助翻译文本分类(TextClassification)文本校错(SpellingCheck)信息检索(InformationRetrieval)信息提取(InformationExtraction)自动文摘(automaticsummarizing)人机接口(Human-MachineInterface)故事理解对外经贸大学中文学院.对外汉语语言信息处理应用语言信息处理应用n面向语音(Dialogue-based):语音识别(

21、SpeechRecognition)语音合成(SpeechSynthesis)问答系统(QuestioningandAnswering)人机对话(Human-machinecommunication)电话服务教学辅导系统语言控制机器对外经贸大学中文学院.对外汉语应用举例n自然语言人机接口请给出来自湖北的学生名单。(祈使句)哪些学生来自湖北?(疑问句)请问来自湖北的学生有哪些?(祈使疑问句)来自湖北的学生名单。(省略句)找出所有这样的学生:他们来自湖北。(复合句)对外经贸大学中文学院.对外汉语应用举例-自动文摘n自动摘录:计算词频和句子的权重,确定权重最高的若干句子作为文摘内容,并按顺序输出。(

22、最简单)n基于理解的自动文摘:利用语言学知识获取语言结构,利用领域知识进行判断、推理,得到文摘的意义表示,最后从意义表示中生成摘要。(理想情况)n信息抽取:(1)定义文摘框架,它以空槽的形式提出应从原文中获取的各项内容。(2)利用特征词从文本中抽取相关的短语或句子填充文摘框架。信息抽取与基于理解的自动文摘相比只对有用的文本片段进行有限深度的分析,其效率和灵活性显著提高。对外经贸大学中文学院.对外汉语应用举例-Web上的智能搜索引擎对外经贸大学中文学院.对外汉语语言理解处理系统的评价语言理解处理系统的评价ELIZA系统系统UserELIZA-Menareallalike.-Inwhatway?-

23、Theyrealwaysbuggingusabout-Canyouthinkofaspecificexample?somethingorother.-Well,myboyfriendmademecomehere.-Yourboyfriendmadeyoucomehere.-HesaysImdepressedmuchofthetime.-Imsorrytohearyouaredepressed.-Itstrue,Iamunhappy.-Doyouthinkcomingherewillhelpyounottobeunhappy?-Ineedsomehelp;thatmuchseemscertain

24、.-Whatwoulditmeantoyouifyougotsomehelp?-PerhapsIcouldlearntogetalongwith-Tellmemoreaboutyourfamily.mymother.-Mymothertakescareofme.-Whoelseinyourfamilytakescareofyou?-Myfather.-Yourfather.-Youarelikemyfatherinsomeways.-Whatresemblancedoyousee?-Necessityisthemotherofinvention.-Tellmemoreaboutyourfami

25、ly.(需求是发明之母)对外经贸大学中文学院.对外汉语语言理解处理系统的评价语言理解处理系统的评价n暗箱与明箱blackbox&glassbox暗箱:运行该程序并观察它在完成设定任务时表现如何。明箱:确定一个系统的各个组成部分,然后用合适的测试方法来评价每一个部分n表现与潜力n用户与专家对外经贸大学中文学院.对外汉语自然语言处理的研究方法自然语言处理的研究方法n理性主义与经验主义是自然语言处理研究方法的哲学分野。理性主义的研究方法与经验主义的研究方法是自然语言理解领域两大主流。n理性主义认为:人的很大一部分语言知识是生来具有,由遗传决定的。理性主义主要研究人的语言知识结构(语言能力,Langu

26、ageCompetence),认为实际的语言数据(语言行为,LanguagePerformance)只提供了这种内在知识的间接证据。因此它通过语言所必须遵守的一系列原则来描述语言,通过这些原则来判定一个语句是正确的还是错误的。理性主义通常是通过对一些特殊的语句或语言现象的研究来得到对人的语言能力的认识,而这些语句或现象在语言的实际应用中并一定是常见的。对外经贸大学中文学院.对外汉语自然语言处理的研究方法自然语言处理的研究方法经验主义经验主义n经验主义认为:人的知识通过感官输入,经过一些简单的联想(association)与通用化的操作而得到的。人并不是与生俱来有一套有关语言的原则和处理方法。经

27、验主义的研究对象是实际出现的语言数据。经验主义的方法通常是基于信息论的思想。表现在NLU中,许多研究将语言事件赋予概率,试图从大量的语言数据中获取语言的结构知识,由此来一个语句是常见的还是罕见的。经验主义偏重于对语料库中人们所实际使用的普通语句的统计表述。对外经贸大学中文学院.对外汉语自然语言处理的研究方法自然语言处理的研究方法经验主义经验主义n经验主义研究方法示例:噪声信道模型:信号传输中,输入端有一个信号序列I,通过一条信道传输到输出端,成为信号序列O,由于信道有噪声,通常O有一定程度的讹误或失真而不等于I,如何恢复?如词性标注中的应用互信息:是信息论中的一个概念(Fano,1961),它

28、用来度量一个消息中两个信号之间的相互依赖程度。在计算语言学上可以计算两个字或词之间的结合力。可以用来进行词义或词性消歧。如文本中“bank”的消歧:堤岸;银行n元语法:当前符号的条件概率取决于从前面N-1个符号到它的转移概率。如马尔科夫模型,计算相邻的n个字词的同现概率。对外经贸大学中文学院.对外汉语自然语言处理的发展历史自然语言处理的发展历史四度风云四度风云n50年代的机器翻译畅想n70年代的专家系统浪花n80年代的智能计算机计划n90年代的语料库浪潮这是在NLU的发展过程不同阶段上的重点。对外经贸大学中文学院.对外汉语自然语言处理的发展历史自然语言处理的发展历史五个阶段五个阶段n第一阶段:

29、第一阶段:1940s1950s自动机的研究概率或信息论模型语音识别技术n19571970 两个阵营两个阵营五十年代末六十年代初,自然语言理解处理分成符号的、随机的两种处理方法n19701983 四个范性四个范性随机的方法在这一时期的语音识别方面起了巨大的作用,尤其是隐马尔科夫模型的使用。基于逻辑的方法开始使用。自然语言理解领域开始起飞。基于逻辑的方法和自然语言理解不可分割,LUNAR的问答机综合了两种方法的研究。篇章模型的研究n19831993 经验主义和有限状态模型的回归n19941999概率统计和数据驱动模型在自然语言处理领域已经相当权威。算法分析、词性标注、篇章处理等都与概率统计结合。计

30、算机运算速度和内存的增加使许多语音和语言处理可用于商业开发,尤其是语音识别、拼写和语法检查网络的发展对基于语言的信息获取和信息抽取的需要。对外经贸大学中文学院.对外汉语自然语言理解处理系统总体构成自然语言理解处理系统总体构成n语料库建立在计算机中的语言资料库的简称,是真实文本的有序集合。可以根据语料库文本的属性和语料库的用途分为生语料库和熟语料库,或共时语料库和历时语料库等。n语言自动处理软件系统n语言知识库语音、词汇、文字、句法、语义、语用知识n语言数据库依据语言知识库中的知识对语言资料库中的资料进行加工处理后所得到的数据库。n背景知识库对外经贸大学中文学院.对外汉语本章内容参见:n冯志伟自

31、然语言处理的历史与现状nJamesAllenNaturalLanguageUnderstandingn冯志伟,孙乐译自然语言处理综论n苗夺谦中文文本信息处理的原理与应用n翁富良计算语言学导论n俞士汶计算语言学概论n百度百科:自然语言理解、自然语言处理、计算语言学对外经贸大学中文学院.对外汉语思考题n名词解释:自然语言n名词解释:人造语言n名词解释:计算语言学n名词解释:自然语言理解n名词解释:自然语言处理n名词解释:图灵测验n计算语言学、自然语言理解和自然语言处理三个术语有什么区别?n简介语言信息处理的两个方向。n简述语言信息处理的学科定位。n语言信息处理需要哪些知识?n自然语言处理的根本问题是什么?n简介自然语言处理的应用。n简介自然语言处理的研究方法。n简介自然语言处理的发展历史。n简介自然语言理解处理系统的总体构成。n论述:对自然语言理解系统的评价应该注意哪些方面?n论述:语言信息处理的目标。n论述:聊天机器人是否具有智能?对外经贸大学中文学院.对外汉语

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 小学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁