《基于混合模型的中文问题分类与解析研究.pdf》由会员分享,可在线阅读,更多相关《基于混合模型的中文问题分类与解析研究.pdf(52页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 基于混合模型的问题分类与解析研究 基于混合模型的中文问题分类与解析研究基于混合模型的中文问题分类与解析研究 摘要 本文首先分析了当前问答系统及问题分类领域的研究现状,总结一些存在的问题。然后,在语法、语义和领域三个层面以及分类信息应用的方面,对中文问题分类方法进行了讨论。在语法分类层面,汇总了语言学家的一些成果,对分类学的制定进行了讨论,并用 ID3 决策树算法实现了问题疑惑程度的分类;在语义分类层面,通过改进朴素贝叶斯分类方法以及加入语言学特征和对特征的筛选排序,实现了两个层次的分类;在领域分类层面,本文作为首先的尝试者,沿用语义分类的方法,利用维基百科的分类学和知网本体扩展词集实现了过去
2、只在文本分类上进行的领域分类;在应用方面,主要探讨了各个分类信息的应用以及问题复杂度的制定。接着,针对上面三个层面的分类方法,本文开发了测试系统,做了具有一定规模的实验,并做了详细的分析。最后,通过总结以上的工作,得出如下结论:语法分类信息有助于开发人性化问答系统;混合模型进行语义分类效果可以得到明显提升;领域分类的效果欠佳,方法有待进一步改进;人类认知过程与计算机处理自然语言信息存在矛盾,多层信息综合也许是解决方法之一。关键字:问答系统,分类学,语发分类,语义分类,领域分类,多层信息综合 基于混合模型的问题分类与解析研究 RESEARCH ON CHINESE QUESTION CLASSI
3、FICATION AND ANALYSIS BASED ON A HYBRID MODEL ABSTRACT The paper firstly analyzes the state of the art on Question Answering and Question Classification,and summarizes some existent problems.After that,methods of Chinese Question Classification are discussed in several aspects,including syntactic la
4、yer,semantic layer,domain layer,and application layer.In the syntactic layer,it collects some fruits from linguisticians,talks over the establishment of the question typology,and implements the classification of doubtfulness of the questions using ID3 Decision Tree algorithm;in the semantic layer,th
5、rough the improvement of Naive Bayes Classification and the affiliation of linguistic properties,and the selection,filter and sort of the properties,the paper implements the classification on two sub-layers;in the domain layer,qua the first one to do the experiments,with the same model using in the
6、semantic layer,the domain classification is accomplished in virtue of the typology of Wikipedia and HowNet to extend the word set;in application layer,the application of the result of the classification on each layer and the formulation of Question Complexity are discussed.After then,aiming at the t
7、hree layers talked above,the author develops a system for the experiments,conducts several experiments on a fairly big scale,and also does lots of analysis in detail.At last,after summarizing the work above,the paper concludes:the classification on syntactic layer can help developing a question answ
8、ering system with human nature;hybrid model can upgrade the classification on semantic layer greatly;the classification on domain layer is not very satisfactory,and the methods need to be improved;the process of human cognizance contradicts with the natural language processing by the computer,and mu
9、lti-layer information synthesis may be the way out.Key words:Question Answering,Typology,Syntactic Classification,Semantic Classification,Domain Classification,Multi-Layer Information Synthesis 基于混合模型的问题分类与解析研究 目 录 第一章 引言.1第一章 引言.1 1.1 研究目的.1 1.2 研究现状.1 1.2.1 问答系统研究现状.1 1.2.2 问题分类学的研究现状.2 1.2.3 问题分类
10、的研究现状.2 1.3 存在的问题.3 1.3.1 一个例子17.3 1.3.2 中文问题分类特有的问题.3 1.3.3 需要解决的相关子任务.3 1.4 本文的贡献.4 1.5 后续章节简介.4 第二章 相关系统与资料介绍.5第二章 相关系统与资料介绍.5 2.1 中科院分词系统 ICTCLAS 介绍.5 2.2 知网(HowNet)介绍.6 2.3 哈工大信息检索研究室(HIT-IRLab)问答系统问题集介绍.7 2.4 分类学(Typology).7 2.4.1 Webclopedia 系统问题分类学.7 2.4.2 哈工大信息检索研究室(HIT-IRLab)问答系统问题集分类学.8 2
11、.4.3 维基百科(Wikipedia)的领域分类学.9 第三章 中文问题分类.10第三章 中文问题分类.10 3.1 概述.10 3.2 语法分类.10 3.2.1 原理综述(ID3 决策树算法).10 3.2.1.1 决策树简介.10 3.2.1.2 一般决策树分类流程.11 3.2.1.3 分支指标 ID3.11 3.2.2 分类学.12 3.2.3 属性抽取.13 3.2.4 训练(建树)与测试.13 3.2.5 小结.14 3.3 语义分类.14 3.3.1 方法综述(改进的贝叶斯分类方法).14 3.3.1.2 朴素贝叶斯分类方法36.14 3.3.1.3 改进的贝叶斯分类方法.1
12、5 3.3.2 分类学.16 3.3.3 特征选取.16 3.3.4 训练.17 基于混合模型的问题分类与解析研究 3.3.4.1 训练过程.17 3.3.4.2 一个简单的例子.18 3.3.5 测试.19 3.3.6 小结.19 3.4 领域分类.19 3.4.1 方法综述(同 3.3.1).19 3.4.2 分类学.19 3.4.3 特征选取.19 3.4.3.1 一个例子.20 3.4.3.2 利用本体(Ontology)进行词集扩展39.20 3.4.3.3 利用搜索引擎进行词集扩展.21 3.4.4 训练与测试.21 3.4.5 小结.22 3.5 分类信息的应用.22 3.5.1
13、 多层信息综合(Multi-Layer Information Synthesis).22 3.5.1.1 语法分类信息与语义分类信息综合.22 3.5.1.2 语法、语义分类信息与领域分类信息综合.23 3.5.2 问题复杂度(Question Complexity).24 3.5.2.1 一个例子.24 3.5.2.2 各个分类层面的问题复杂度.24 3.5.2.3 问题复杂度的计算.25 3.5.3 小结.25 第四章 测试系统介绍.26第四章 测试系统介绍.26 4.1 概述.26 4.2 系统流程.26 4.2.1 训练部分.26 4.2.2 测试部分.28 4.3 系统实现.29
14、4.5 界面演示.29 第五章 实验结果分析.33第五章 实验结果分析.33 5.1 概述.33 5.2 评价指标.33 5.2.1 精确度.33 5.2.2 召回率.33 5.2.3 F 指数(F-Measure).34 5.3 语法分类实验结果分析.34 5.4 语义分类实验结果分析.35 5.4.1 语义分类训练结果与分析.35 5.4.2 语义分类测试结果与分析.37 5.4.3 进一步讨论.40 5.4.3.1 分类学的问题.40 5.4.3.2“兼类”的问题.40 5.4.4 小结.41 5.5 领域分类实验结果分析.41 基于混合模型的问题分类与解析研究 5.5.1 领域分类训练
15、结果与分析.41 5.5.2 领域分类测试结果与分析.42 5.5.3 小结.42 第六章 结论与未来的工作.43第六章 结论与未来的工作.43 6.1 结论.43 6.2 未来的工作.43 6.3 结语.44 参考文献.45参考文献.45 基于混合模型的问题分类与解析研究 第 1 页 共 47 页 第一章 引言 第一章 引言 1.1 研究目的 当今社会,网络技术飞速发展,我们已经到了信息爆炸的时代。如何从海量的自由文本(非结构化)信息中,快速准确地找到我们需要的信息越来越受到人们的关注1。英国莫里(MORI)调查公司的民意调查结果显示,只有 18%的用户表示总能在网上搜索到需要的信息,68%
16、的用户说他们对搜索引擎很失望,28%表示还可以,其余 5%为不知道2。从这些调查数据中不难看出,尽管一些优秀的搜索服务提供商(Google1、Yahoo2、百度3等)在研究搜索技术方面已经花费了大量的时间和精力,但目前的搜索引擎仍然存在不少的局限性:比如信息丢失、返回信息太多、信息无关等。这使得网络用户对于现有的搜索技术仍然不满,期盼更完美的搜索技术的出现。为了克服传统搜索引擎的弊端,研究人员正尝试探索一种更高效、更人性化的搜索引擎技术回答系统(Question Answering)。我们知道,传统的搜索技术是依赖关键字检索,通过关键字检索来寻找所需的资料及文件。但是,关键字检索并不能真正立即
17、获取所需要的知识或者立即回答使用者的问题。而此类问答系统的目标是允许用户以自然语言形式向系统提问,系统也能以自然语言形式给予用户的快速、准确的回答允许用户以自然语言形式向系统提问,系统也能以自然语言形式给予用户的快速、准确的回答。由于中文检索技术发展得较晚,以及中文本身所具有的各种特性,与西方研究者所提出的技术仍存在着不少的差异,其技术方法可能无法完全移植到中文环境下来使用。因此,为了最终开发出强大的中文问答系统,本文将重点放在问句分类与解析这一部分。这是由于:?问句是用户给予的唯一信息?问句不会太长,深入分析也不会降低整个问答系统的效率?对后续步骤至关重要;反之,如果出现错误将直接影响到系统
18、最终的效果?减少候选答案的空间?便于制定答案选择策略3 可见,问题分类与解析是任何问答系统的首要部分,对其研究将为后续步骤奠定基础。1.2 研究现状 1.2.1 问答系统研究现状 自 1999 年文本检索会议(Text Retrieval Conference,简称 TREC)引入问答系统评测专项(Question Answering Track,简称 QA Track)后,人们对基于自然语言的问答系统再次产生了浓厚的兴趣,在近些年的 TREC 比赛中,QA Track 是最受关注的评测项目之一。从第一个英文问答系统 STUDENT4,到早期著名的 LUNAR 系统5,MURAX 系统6,DA
19、RPA支持的 HPKB 工程7和现今由美国 NIST 组织的 TREC QA Track8-12,英文问答技术已经获得长足的发展,研究领域也从初期的限定领域(Moon Rock,Crisis Management)拓展到如 1 http:/ 2 http:/ 3 http:/ 基于混合模型的问题分类与解析研究 第 2 页 共 47 页 今的开放领域;研究对象从当初的固定语料库拓展到互联网。目前,比较成功的英文问答式检索系统有 Ask Jeeves4,AnswerBus5和 STARTIV6等等。而中文问答式系统基本上处于空白,成型的很少,基本上都是在搜索引擎上的一些改进,比如:尤里卡搜索引擎、
20、问一问搜索引擎等。这些系统都不具有或不完全具有问答式系统的特点,一般只能提供相关信息,但问题与答案的匹配以及最后答案的给出形式(应该是自然语言形式)都没能满足人们的需求。近年来,国内从事问答系统的研究机构也在不断地增加。在往届的 TREC QA Track 评测中,复旦大学13、中科院计算所14都获得了良好的成绩。此外,中科院计算所7、哈尔滨工业大学15、复旦大学等在汉语问答技术的研究中也作了有益的探索。但是,和国际研究相比,国内从事问答系统尤其是汉语自动问答技术研究的科研机构还是很少,而且基本没有成型的汉语自动问答系统问世。一个很重要的原因是:缺乏一个公认的、相对成熟的汉语问答系统评测平台1
21、6。1.2.2 问题分类学的研究现状 所有的问答系统理论都包含特殊的问题分类方法。Wendy Lehnert 开发的 QUALM 系统是基于十三种概念种类以及利用推理分析过程将问题映射过去的而建立的。Lehnert 提出的分类学主要是基于一种存储表示方法称为概念依存。DAndrade 和 Wish 开发的基于定量的人与人之间的行为研究的语音行为理论提出八个主要的语音行为来实质地将所有语音行为归类:问题(相当于提问)、断言、请求/指示、反应、表达评估、承诺和声明。这八大类是从哲学、语言学和社会学中的行为理论抽象出来的。Graesser 和 al.提出的问题分类学包括了问题、断言和请求/指示,因为
22、只有这些是提出真正询问要求的17。Eduard Hovy的Webclopedia系统18也包含有自己的分类学19,在后面的部分(见2.4.1)会介绍到。中文方面的问题分类学大多参照国外分类学制定几个大类。哈尔滨工业大学的问答系统问题集具有自己的一套分类学,后面部分(见 2.4.2)会详细介绍。然而,这些分类学都是一家之言,更大范围的统一的开放领域问答系统应用的分类学仍然需要很多工作去完成。1.2.3 问题分类的研究现状 分类学制定好以后,如何将确定每个问句的类别便是问题分类系统的任务。要确定一个问题问的是什么并不是一件简单的事情。在一些语言中,比如英语和德语,疑问句的第一个词便是疑问词(Wha
23、t,When,Where,Who 等);而在汉语中,疑问词的位置相对来说就自由许多。因此,英文的问答系统中的问题分类子系统往往与问题解析器结合成为一个模块,并能够取得较好的解析和分类效果。中文由于其特殊性,从分词到命名实体的抽取到问题分类都不是一帆风顺的,而这些步骤之间又息息相关,加上中文自然语言技术研究起步比较晚,中文问题分类器的效果并不是非常好。由于汉语句法分析器效果很差(大约只有 50%60%),而统计学方法在文本分类领域取得了很好的效果,因此现行的问题分类器大都使用回避分词、语法分析、语义分析等语言学技术的基于词频的统计学方法20,并没有考虑汉语语言学的特征。这正是本文提出混合模型作为
24、尝试的原因。4 http:/ 5 http:/ 6 http:/www.ai.mit.edu/projects/infolab 7 http:/ 基于混合模型的问题分类与解析研究 第 3 页 共 47 页 1.3 存在的问题 Wendy Lehnert 在她的书中提到的“自然语言问答系统的困难并不简单。人们对于回答一个问题当中的认知过程大多不太了解,因此也就对于这些过程的复杂性没有感觉”。问答系统的难点在于问题被回答之前必须被理解。解释过程的一个层面就是问题的分类。1.3.1 一个例子17 问:为什么昨天晚上约翰滑旱冰去麦当劳?如果某人将提出答案为:答:因为他饿。那么也许提问者并不满意,因为实
25、际上他(她)想知道的是:问:为什么约翰是滑旱冰而不是走着或者开车或者利用其他合理的交通工具去?这种情况下,很清楚问题是针对滑旱冰这一行为的,而不是目的。因此,问答系统必须引入世界知识(World Knowledge)和常识性的推理能力(Reasoning)。另外,世界知识和侧面信息是相互影响的。对于更多成人来说,滑旱冰比去麦当劳更不同寻常;任何不同寻常的事物都需要解释,因此这将成为问题的焦点。然而,如果人人都知道约翰是一个古怪的人,不吃健康食品,但到哪里都是滑旱冰去的,这个问题:问:为什么昨天晚上 John 滑旱冰去麦当劳?就会被合理地解释为询问关于麦当劳或者 John 在麦当劳发生的活动,而
26、不是滑旱冰。显然这是一个基于现有世界知识、问题概念信息以及他们之间的交互而造成的对问题焦点解释的转移。由此可见,对问题的把握远不是词频、语法、语义层面可以完全解决的问题;必须引入背景知识、领域知识甚至世界知识才能正确地进行问题的分类。1.3.2 中文问题分类特有的问题 上面的例子是针对所有的问题分类而言,而对于中文问题分类,我们还有一些特殊的棘手的问题要解决:?分词的问题,任何中文信息处理都要面对的问题?命名实体抽取,组织机构名尤其难抽取?疑问词的捕捉,形式多而位置不定 可以看出,以上三点都是汉语语言学应用计算机去处理遇到的问题。既然解决不了,避开的方法只有不去利用任何语言学的信息来处理问句,
27、也是中文问题分类器大都基于统计学方法的原因。然而,本文认为,要想让计算机彻底“理解”自然语言,语言学方面的信息是必须用到的,同时,即使这三个问题存在,我们也还是可以找到一些折中的办法的。1.3.3 需要解决的相关子任务 总结一下问题分类需要解决的相关子任务17:1)确定问题分类学形式规范 2)将问题种类与问题复杂程度联系起来。研究每种问题的复杂程度。例如,从研究一些琐碎的事实性问题出发,同时问题处理要包含有答案抽取的机制。此外,每个层面确定所有问题种类以及他们的分类标准。3)确定问题复杂程度的标准 4)研究基于本体(Ontology)和知识库(Knowledge Base)的问题处理模型。这些
28、模型应该填平现行基于事实数据的问题处理(强调命名实体的抽取)和复杂领域内的问题处理(比如类似于 HPKB 项目中的危机管理任务)之间的差距。基于混合模型的问题分类与解析研究 第 4 页 共 47 页 1.4 本文的贡献 在自然语言处理的发展史上,语言学派和统计学派从两个独立的角度(也是分别代表了构成计算语言学的两个学科)对自然语言进行了各种方法的处理21。前者一般是基于规则(Rule-based)的,利用语法、语义知识、上下文信息进行命名实体的识别;后者则根据人们用词的频率或语境中出现的概率做大量的统计,总结出规律,给出最有可能的结论。虽然,两种方法获得的成果大致相当,但在计算语言学发展的过程
29、中是交替上升的。而且对于不同的自然语言,两种方法所取得的效果是有所区别的。然而人类对周围世界的认识是综合应用各种方法的,包括图象、声音、气味等。就算局限在对文本的认识,人类对语言的理解也不拘泥于一种方法,而往往是综合应用词汇、上下文信息、生活经验、别人的建议等各方面信息和知识,才最终在脑中形成一个概念或认识。由此,我们应该考虑将不同的方法进行融合,以测试是否可以取得更好的效果,而不是寄希望于一种方法解决所有的问题。由此,本文将题目定为“基于混合模型混合模型的中文问题分类与解析研究”。文章取得的主要成果如下:?在语法分类层面,通过查阅和学习汉语语法方面的知识,总结了汉语学家对疑问句研究所取得的一
30、些成果,包括句式分类22、句末语气词23、疑问词24、疑惑程度25等方面。进而以疑问句疑惑程度为分类学,利用 ID3 决策树算法26实现了汉语疑问句的语法分类。最后还讨论了分类信息将来的应用构筑人性化问答系统。?在语义分类层面,对一般用于文本分类的朴素贝叶斯分类20方法做了改进,加入语言学方面的特征,比如疑问词特点、词性排序等,并且对所有特征进行筛选和排序。经过半指导性的机器学习训练了 3000 多问句,然后用 1000 多问句进行测试,分别试验了分 6 个大类和 64 个小类,最终的 F 指数分别为 0.86 和 0.79。?在领域分类层面,沿用语义分类的改进贝叶斯分类方法,并将其中统计学相
31、关的特征权重加大,再利用本体进行特征词集的扩展。经过约 400 句的训练,约 100句的测试,最终 F 指数为 0.66。?在分类信息应用方面,举例说明了三个层面分类信息的综合有助于对问题的深入理解,有助于答案检索范围的减少以及有助于制定答案搜索的策略。另外,分类信息可以作为问题复杂度17制定的标准之一,本文最后也给出了一种问题复杂度的形式。1.5 后续章节简介 本文结构如下:第二章介绍本文研究需要用到的现行系统与相关资料;第三章、第四章和第五章为文章的主要内容,分别讨论了具体的分类方法、测试系统的实现和实验结果的分析,这三部分的讨论均在语法、语义和领域三种分类下展开的;第六章是本文的结论以及
32、未来需要做的工作。基于混合模型的问题分类与解析研究 第 5 页 共 47 页 第二章 相关系统与资料介绍 第二章 相关系统与资料介绍 2.1 中科院分词系统 ICTCLAS 介绍 中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马尔可夫模型(multi-layer Hidden Markov Model)的汉语词法分析系统 ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)27,该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达 97.58%(最近的 973 专家
33、组评测结果),基于角色标注的未登录词识别能取得高于 90%召回率,其中中国人名的识别召回率接近 98%,分词和词性标注处理速度为 31.5KB/s。本 文 将 此 系 统 作 为 自 动 分 词 的 基 本 系 统,同 时 我 们 使 用 了 该 系 统 的 词 性(part-of-speech)标注功能。最终的标记格式为如下:电影/n /w 王子/n 复仇/v 记/ng /w 改编/v 自/p 莎士比亚/nr 的/u 什么/r 作品/n 其中,标记符号的意义如下表:表 2-1 汉语文本词性标注标记集表 2-1 汉语文本词性标注标记集8 8 代码 名称 注释 Ag 形语素 形容词性语素。形容词
34、代码为 a,语素代码前面置以 A。a 形容词 取英语形容词 adjective 的第 1 个字母。ad 副形词 直接作状语的形容词。形容词代码 a 和副词代码 d 并在一起。an 名形词 具有名词功能的形容词。形容词代码 a 和名词代码 n 并在一起。b 区别词 取汉字“别”的声母。c 连词 取英语连词 conjunction 的第 1 个字母。Dg 副语素 副词性语素。副词代码为 d,语素代码前面置以 D。d 副词 取 adverb 的第 2 个字母,因其第 1 个字母已用于形容词。e 叹词 取英语叹词 exclamation 的第 1 个字母。f 方位词 取汉字“方”g 语素 绝大多数语素
35、都能作为合成词的“词根”,取汉字“根”的声母。h 前接成分 取英语 head 的第 1 个字母。i 成语 取英语成语 idiom 的第 1 个字母。j 简称略语 取汉字“简”的声母。k 后接成分 l 习用语 习用语尚未成为成语,有点“临时性”,取“临”的声母。m 数词 取英语 numeral 的第 3 个字母,n,u 已有他用。Ng 名语素 名词性语素。名词代码为 n,语素代码前面置以 N。n 名词 取英语名词 noun 的第 1 个字母。nr 人名 名词代码 n 和“人(ren)”的声母并在一起。8 http:/ 基于混合模型的问题分类与解析研究 第 6 页 共 47 页 代码 名称 注释
36、ns 地名 名词代码 n 和处所词代码 s 并在一起。nt 机构团体 “团”的声母为 t,名词代码 n 和 t 并在一起。nz 其他专名 “专”的声母的第 1 个字母为 z,名词代码 n 和 z 并在一起。o 拟声词 取英语拟声词 onomatopoeia 的第 1 个字母。p 介词 取英语介词 prepositional 的第 1 个字母。q 量词 取英语 quantity 的第 1 个字母。r 代词 取英语代词 pronoun 的第 2 个字母,因 p 已用于介词。s 处所词 取英语 space 的第 1 个字母。Tg 时语素 时间词性语素。时间词代码为 t,在语素的代码 g 前面置以 T
37、。t 时间词 取英语 time 的第 1 个字母。u 助词 取英语助词 auxiliary Vg 动语素 动词性语素。动词代码为 v。在语素的代码 g 前面置以 V。v 动词 取英语动词 verb 的第一个字母。vd 副动词 直接作状语的动词。动词和副词的代码并在一起。vn 名动词 指具有名词功能的动词。动词和名词的代码并在一起。w 标点符号 x 非语素字 非语素字只是一个符号,字母 x 通常用于代表未知数、符号。y 语气词 取汉字“语”的声母。z 状态词 取汉字“状”的声母的前一个字母。2.2 知网(HowNet)9介绍 知网(英文名称为 HowNet)是一个以汉语和英语的词语所代表的概念为
38、描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。知网作为一个知识系统,实副其名是一个网而不是树。它所着力要反映的是概念的共性和个性,例如:对于“医生”和“患者”,“人”是它们的共性。知网在主要特性文件中描述了“人”所具有的共性,那么“医生”的个性是他是“医治”的施事,而“患者”的个性是他是“患病”的经验者。对于“富翁”和“穷人”,“美女”和“丑八怪”而言,“人”是它们的共性。而它们的个性,即:“贫”、“富”与“美”、“丑”等不同的属性值,则是它们的个性。计算机化是知网的重要特色。知网是面向计算机的,是借助于计算机建立的,将来可能是计算机的智能构件。同时,知网
39、还着力要反映概念之间和概念的属性之间的各种关系。知网把一种知识网络体系明确的教给了计算机进而使知识对计算机而言是可操作的。知识词典知识词典是知网系统的基础文件。在这个文件中每一个词语的概念及其描述形成一个记录。每一种语言的每一个记录都主要包含 4 项内容。其中每一项都由两部分组成,中间以“=”分隔。每一个“=”的左侧是数据的域名,右侧是数据的值。它们排列如下:W_X=词语 E_X=词语例子 G_X=词语词性 DEF=概念定义 其中,X 为 C 时表示中文,X 为 E 时表示英文。具体举例如下:9 http:/ 基于混合模型的问题分类与解析研究 第 7 页 共 47 页 NO.=000001 W
40、_C=打 G_C=V E_C=酱油,张票,饭,去瓶酒,醋来了 W_E=buy G_E=V E_E=DEF=buy|买 NO.=015492 W_C=打 G_C=V E_C=毛衣,毛裤,双毛袜子,草鞋,一条围巾,麻绳,条辫子 W_E=knit G_E=V E_E=DEF=weave|辫编 另外,知网还总结了实体、实体属性以及事件的层次结构实体、实体属性以及事件的层次结构,以辅助词典文件。本文中用到知网主要是利用了其词典的功能和实体之间上下位关系、同义关系、局部-整体关系、相关关系等。2.3 哈工大信息检索研究室(HIT-IRLab)10问答系统问题集介绍 此问题集是哈尔滨工业大学信息检索研究室问
41、答系统所使用的训练语料库,共计 6 个大类、63 个小类、4395 个问题实例,举例如下:OBJ_VEHICLE 孩子最喜欢搭乘交通工具包括哪些 NUM_AREA 现在每年美国因表土侵蚀而损失的耕地有多少 TIME_YEAR 朝鲜战争宣告结束在哪一年 其分类学标准将在下一部分(见 2.4.2)中介绍。此问题集作为本文训练系统和测试的语料,不仅应用在语义分类(见 3.3)中,重新标注了领域分类以后,问句实例还应用在领域分类(见 3.4)中。2.4 分类学(Typology)2.4.1 Webclopedia 系统问题分类学 Webclopedia 是由南加州大学(University of So
42、uthern California)信息科学学院 10 http:/ 基于混合模型的问题分类与解析研究 第 8 页 共 47 页(Information Sciences Institute)的自然语言小组(Natural Language Group)11研究开发的多语言问答系统。它可以从多语言的文本或者网络上抽取出有用信息,来回答用户用多种自然语言提出的问题。问题的类别(Type)在 Webclopedia 中被称为“问题目标(Qtarget)”,主要分为关系(Relational)、抽象(Abstract)、语义(Semantic)、语法(Syntactic)、角色(Role)、插槽(S
43、lot)、词典(Lexical)七个大类的问题目标。本文中主要参考的是语义(Semantic)类别,下表中列出了其中的一级类别:表 2-2 Webclopedia 系统问题分类学表 2-2 Webclopedia 系统问题分类学 编号 类别 编号 类别 编号 类别 1 C-TEMP-LOC 9 C-UNIVERSITY-AGENCY 17 C-INSTRUMENT 2 C-AT-LOCATION 10 C-SPIRITUAL-BEING 18 C-MUSICAL-INSTRUMENT 3 C-PROPER-NAMED-ENTITY 11 C-OCCUPATION-PERSON 19 C-SPO
44、RT 4 C-PLANT-FLORA 12 C-ANIMAL 20 C-LEFT-OR-RIGHT 5 C-SUBSTANCE 13 C-HUMAN-FOOD 21 C-COLOR 6 C-QUANTITY 14 C-BODY-PART 22 C-NATIONALITY 7 C-UNIT 15 C-TEMPORAL-INTERVAL 8 C-LOCATOR 16 C-DISEASE 本文为了建立分类,参考了此分类学,实际测试系统中并没有用到,因此不再详细描述其分类细节。2.4.2 哈工大信息检索研究室(HIT-IRLab)问答系统问题集分类学 此问题集在前一部分(见 2.3)中已经介绍过,这里
45、详细列出其 6 个大类和 63 个小类,如下表:表 2-3 哈工大信息检索研究室(HIT-IRLab)问答系统问题集分类学 表 2-3 哈工大信息检索研究室(HIT-IRLab)问答系统问题集分类学 大类 编号 小类 大类编号 小类 大类 编号 小类 1 OBJ_VEHICLE 23 NUM_PHONENUMBER 45 LOC_LAKE 2 OBJ_ENTERTAIN 24 NUM_POSTCODE 46 LOC_RIVER 3 OBJ_LIST 25 NUM_DISTANCE 47 LOC_CONTINENT 4 OBJ_RELIGION 26 NUM_PRICE 48 LOC_COUNT
46、RY 5 OBJ_LANGUAGE 27 NUM_TELCODE 49 LOC_ADDRESS 6 OBJ_SUBSTANCE 28 NUM_TEMPERATURE 50 LOC_CITY 7 OBJ_INSTRUMENT 29 NUM_WEIGHT 51 LOC_ISLAND 8 OBJ_FOOD 30 NUM_OTHER 52 LOC_LIST 9 OBJ_PLANT NUM31 NUM_CODE 53 LOC_MOUNTAIN 10 OBJ_COLOR 32 DES_ABBR 54 LOC_OCEAN 11 OBJ_CURRENCY 33 DES_DEFINITION 55 LOC_PL
47、ANET 12 OBJ_ANIMAL 34 DES_MANNER 56 LOC_PROVINCE OBJ 13 OBJ_OTHER DES35 DES_MEANING LOC57 LOC_COUNTY 11 http:/www.isi.edu/natural-language/nlp-at-isi.html 基于混合模型的问题分类与解析研究 第 9 页 共 47 页 14 NUM_AREA 36 DES_REASON 58 LOC_OTHER 15 NUM_AGE 37 DES_OTHER 59 HUM_ALIAS 16 NUM_RANGE 38 TIME_TIME 60 HUM_DESCRI
48、PTION 17 NUM_ORDER 39 TIME_DAY 61 HUM_LIST 18 NUM_FREQUENCY 40 TIME_MONTH 62 HUM_ORGANIZATION19 NUM_SPEED 41 TIME_YEAR 63 HUM_PERSON 20 NUM_LIST 42 TIME_LIST HUM64 HUM_OTHER 21 NUM_COUNT 43 TIME_RANGE NUM 22 NUM_PERCENT TIME44 TIME_OTHER 本文的语义分类(见 3.3)便是建立在此分类学上的,测试系统的训练和测试也都是先进行大类的分类再进行小类的分类。2.4.3
49、维基百科(Wikipedia)12的领域分类学 维基百科(Wikipedia,WP),是一个国际性的内容开放的百科全书协作计划,其目标是包含人类所有领域的知识。中文维基百科开始于 2002 年 10 月,目前已有 30324 个条目,并且还在不断增加之中。同时维基百科全书也是一部用不同语言写成的百科全书。该计划的英文版本13最初开始于 2001 年 1 月 15 日,截止到 2005 年 5 月,英文版维基百科已拥有 57 万个条目,而所有100 多种语言的版本共有大约 150 万条条目。维基百科将人类的知识分为 9 个领域,如下表:表 2-4 Wikipedia 百科全书的领域分类学 表 2
50、-4 Wikipedia 百科全书的领域分类学 类别编号 类别内容 1 人文科学(民族学、语言学等)2 个人生活(人际关系、健康、医学、嗜好、娱乐、饮食等)3 参考(分类方式、参考目录、地理、度量衡等)4 图象(地图等)5 地理(地名索引、人口、国家、方位、地形、气候等)6 文化(体育、军事学、博物馆、历史、宗教、文学、时尚、电视、电影、旅游等)7 社会科学(人类学、心理学、政治学、法学、管理学等)8 自然科学(力学、化学、天文学、数学、物理学、生物学等)9 艺术(动画、建筑、绘画、设计、雕塑等)本文的领域分类(见 3.4)就利用了此分类学。由于领域分类十分困难,这里只分了大类(表格中的类别内