你已经是个成熟的表格该学会NLP了.docx

上传人:安*** 文档编号:73275069 上传时间:2023-02-17 格式:DOCX 页数:10 大小:20.15KB
返回 下载 相关 举报
你已经是个成熟的表格该学会NLP了.docx_第1页
第1页 / 共10页
你已经是个成熟的表格该学会NLP了.docx_第2页
第2页 / 共10页
点击查看更多>>
资源描述

《你已经是个成熟的表格该学会NLP了.docx》由会员分享,可在线阅读,更多相关《你已经是个成熟的表格该学会NLP了.docx(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、你已经是个成熟的表格,该学会NLP了|唐都钰、孙一博来源|微软亚洲研究院AI头条编者按在我们的生活中用语音查询天气用必应搜索信息这些常见的场景都离不开一种应用广泛的数据存储方式表格table。假如让表格更智能一些将是怎么样的呢在这篇文章中微软亚洲研究院自然语言计算组将为我们介绍基于表格的自然语言理解与生成方向的一系列工作。表格table是一种应用广泛的数据存储方式被广泛用于存储以及展示构造化数据。由于表格数据构造明晰、易于维护、时效性强它们通常是搜索引擎以及智能对话系统的重要答案来源。例如当代搜索引擎如必应搜索引擎基于互联网表格直接生成问题对应的答案虚拟语音助手如微软Cortana、亚马逊Al

2、exa等结合表格以及自然语言理解技术答复人们的语音恳求例如查询天气、预定日程等。我们将在本文中介绍我们在基于表格的自然语言理解与生成方向的一系列工作包括检索retrieval、语义解析semanticparsing、问题生成questiongeneration、对话conversation以及文本生成textgeneration等五个局部。除了检索任务其余四个任务的目的均是在给定表格的根底上进展自然语言理解以及生成检索从表格集合中找到与输入问题最相关的表格义解析将自然语言问题转换成可被机器理解的语义表示meaningrepresentation在本文中是SQL语句在表格中执行该表示即可获得答案

3、问题生成可看作语义解析的逆经过能减轻语义解析器对大量标注训练数据的依赖对话主要用于多轮对话场景的语义解析任务需有效解决上下文中的省略以及指代现象文本生成使用自然语言描绘表格中如给定的一行的内容。让我们用一张图概括本文接下来所要涉及的内容。检索Retrieval对于给定的自然语言q以及给定的表格全集TT1,T2,.,Tn表格检索任务的目的是从T中找到与q内容最相关的表格如下列图所示。每个表格通常由三局部构成表头/列名tableheader、表格单元tablecell以及表格标题tablecaption。表格检索的关键在于衡量自然语言问题以及表格之间的语义相关程度。一个根本的做法是把表格看做文档使

4、用文本检索中常用的字符串相似度计算方法如BM25计算自然语言问题以及表格之间的相似度。也有学者使用更多样的特征如表格的行数、列数、问题以及表格标题的匹配程度等。为了更好地融入表格的构造信息我们提出了一个基于神经网络的表格检索模型在语义向量空间内分别计算问题以及表头、问题以及列名、问题以及表格单元的匹配程度如下列图所示。由于问题以及表格标题都是词序列我们均使用双向GRU把二者分别表示为向量表示最终使用线性层计算二者的相关度。由于表头以及表格单元不存在序列关系任意交换表格的两列或者两行应保证具有一样的语义表示所以我们使用Attention计算问题以及表头和问题以及表格单元的相关度。由于目前表格检索

5、的公开数据集有限因此我们构建了一个包含21,113个自然语言问题以及273,816个表格的数据集。在该数据集上我们比照了基于BM25的系统、基于手工定义特征的系统和基于神经网络的系统结果如下表所示。可以看出基于神经网络的算法与手工设计的特征性能相近二者相结合可以进一步进步系统的性能。更多细节请参照论文YiboSun,ZhaoYan,DuyuTang,NanDuan,BingQin.Content-BasedTableRetrievalforWebQueries.2018.Neurocomputing.语义解析SemanticParsing给定一张网络表格或者一个关系数据库表或者一个关于表的自然

6、语言问句语义解析的输出是机器可以理解并执行的标准语义表示formalmeaningrepresentation在本小节我们使用SQL语句作为标准语义表示执行该SQL语句即可从表中得到问题的答案。目前生成任务比拟流行的方法是基于序列到序列sequencetosequence架构的神经模型一般由一个编码器encoder以及一个解码器decoder组成。编码器负责建模句子表示解码器那么根据编码器得到的问句表示来逐个从词表中挑选出一个个符号进展生成。然而SQL语句遵循一定的语法规那么一条SQL查询语句通常由3种类型的元素组成即SQL关键词如SELECT,WHERE,等、表格的列名以及WHERE语句中的

7、条件值通常为数字或者表格单元。因此我们在解码器端融入SQL的语法信息详细由一个门单元以及三个频道组成。门单元负责判断该时刻即将输出符号的类型三个频道分别为Column、value、SQL频道在每个频道中分别预测表中列名称、表中单元格名称以及SQL语法关键字。该算法在WikiSQL数据集上性能优于多个强比照算法。更多细节可以参考论文YiboSun,DuyuTang,NanDuan,JianshuJi,GuihongCao,XiaochengFeng,BingQin,TingLiuandMingZhou.SemanticParsingwithSyntax-andTable-AwareSQLGene

8、ration.2018.ACL.问题生成QuestionGeneration统计机器学习算法的性能通常受有指导训练数据量的影响。例如我们使用上一小节提出的语义解析算法在有不同指导训练数据的条件下观察模型的性能这里的有指导训练数据指的是人工标注的“问题-SQL对。下表中x轴是logscale的训练数据量可以发现语义解析的准确率与训练数据量之间存在Log的关系。基于上述观察我们祈望使用少量的有指导训练数据到达同样的语义分析准确率。为此我们提出了一个基于问题生成的语义分析训练框架如下列图所示。给定一个表格我们首先使用一个基于规那么的SQL采样器生成SQL语句随后用一个在小规模有指导数据上训练的问题生

9、成模型生成多个高置信度的问题将新生成的数据与小规模的有指导数据结合共同训练语义分析模型。另外问题生成模型是基于Seq2Seq模型为了增加生成问题的多样性我们在解码器端参加了隐含变量。更多细节可以参考论文DayaGuo,YiboSun,DuyuTang,NanDuan,JianYin,HongChi,JamesCao,PengChenandMingZhou.QuestionGenerationfromSQLQueriesImprovesNeuralSemanticParsing.2018.EMNLP.我们在WikiSQL数据集上进展实验使用上一章中所介绍的算法STAMP作为根本模型。从下表可以看

10、出交融问题生成模型的训练算法可以在30%训练数据的条件下到达传统训练算法100%训练数据的性能。使用该算法在100%训练数据的条件下会进一步提升模型的性能。对话ConversationalSemanticParsing前面我们介绍的语义解析算法针对的都是单轮问答场景即用户针对一个表格每次问一个独立的问题。而在对话场景下人们会在前一个问题的根底上继续提问通常人们会使用指代或者省略使对话更加简洁以及连接。例如在下列图的例子中第2个问句中的thatyear指代第一个问句中提及的年度份第3个问题更是直接省略了问题的意图。针对多轮对话场景下的语义分析我们以Sequence-to-Action的形式生成问

11、题的语义表示在该形式下生成一个语义表示等价于一个动作序列Sequence-to-Action在单轮以及多轮语义分析任务中均被验证是非常有效的方法。详细地我们在MohitIyyer等人发表在ACL2017上的研究Search-basedNeuralStructuredLearningforSequentialQuestionAnswering的根底上定义了如下表的动作集合作为我们Sequence-to-Action模型的语法根底。A1-A4的目的是根据当前语句的内容预测SELECT语句中的列名、WHERE语句中的列名、WHERE语句中的操作符(如,)以及WHERE语句中的条件值A5-A7的目的是

12、从上一句的历史语义表示中复制局部内容到当前语句的语义表示中。我们以下列图为例介绍模型的工作原理。输入历史问题以及当前问题该模型首先使用Controller模块预测当前问句的动作序列骨架即未实例化的动作序列随后使用特定的模型如基于Attention的columnprediction模块去实例化骨架中的每个单元。当模型预测A5-A7如下列图中所展示的A6模型实现了复制历史语义表示的功能。更多细节请参考论文YiboSun,DuyuTang,NanDuan,JingjingXu,XiaochengFeng,BingQin.Knowledge-AwareConversationalSemanticPar

13、singOverWebTables.2018.Arxiv.自然语言生成Table-to-TextGeneration很多场景都需要用自然语言形式呈现答案。因此我们基于表格的文本生成工作目的是用自然语言描绘表格中如给定的一行的内容。以下列图为例给定表格中的一行输出一句完好的描绘内容。我们的模型基于Sequence-to-Sequence框架如下列图所示。为了考虑表格的构造性如打乱表格的各列不改变其表示我们在编码器模块没有使用序列化的形式去建模各个列的表示为了有效从表格中复制低频词到输出序列我们设计了基于表格构造的复制机制。详细内容请参考论文JunweiBao,DuyuTang,NanDuan,Z

14、haoYan,YuanhuaLv,MingZhou,TiejunZhao.Table-to-Text:DescribingTableRegionwithNaturalLanguage.2018.AAAI.本文介绍了我们在基于表格的自然语言理解与生成相关的5项工作。目前与表格相关的自然语言处理研究刚刚起步方法尚未成熟对应的标注数据集也相对有限我们祈望与业界研究者们一起共同探究新的方法以及模型推动该领域的进一步开展。简介唐都钰微软亚洲研究院自然语言计算组研究员主要从事包括智能问答、语义理解、常识推理等在内的自然语言处理根底研究。孙一博微软亚洲研究院自然语言计算组的实习生目前就读于哈尔滨工业大学。研究兴趣包括问答系统、语义分析以及深度学习等。*本文为AI科技大本营转载文章转载请联络原公开课预告全双工语音对话本期公开课中微软小冰全球首席架构师及研发总监周力博士将介绍微软小冰在全双工语音对话方面的最新成果及其在智能硬件上的应用以及将来将面临的更多技术产品挑战。添加小助手微信csdnai2回复全双工语音对话参加课程沟通群课程回放和PPT将在群内共享。推荐浏览技术流|手把手教你用Python设计一个命令行界面

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 工程图纸

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁