《专访王威廉:NLP哪些研究方向更容易取得突破?.docx》由会员分享,可在线阅读,更多相关《专访王威廉:NLP哪些研究方向更容易取得突破?.docx(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、专访王威廉:NLP哪些研究方向更容易取得突破?参加2018AI开发者大会请点击自然语言处理NLP是一门集语言学、计算机科学、人工智能于一体的科学解决的是“让机器可以理解自然语言这一到目前为止都还只是人类独有的特权因此被誉为人工智能皇冠上的明珠。近日AI科技大本营采访到了NLP领域的华人新星加州大学圣巴巴拉分校助理教授王威廉向他请教了NLP领域最前沿的研究问题和NLP研究方向的一些建议。关于王威廉2020年度毕业于深圳大学随后赴美留学并先后在哥伦比亚大学以及卡耐基梅隆大学获得硕士以及博士学位。他的研究范围包括统计关系学习、信息提取、社交媒体、语音以及视觉等等。2016年度博士毕业之后王威廉加盟加
2、州大学圣巴巴拉分校。如今王威廉已经是该校NLP小组的负责人同时也是计算机科学系的助理教授。近几年度来王威廉在一些重要的NLP/AI/ML等会议以及期刊上发表了60多篇论文并屡次获得知名学术会议的最正确论文奖及提名。1您如今的主要研究领域是什么有哪些最新进展王威廉我的主要研究领域如今有三个自然语言处理、机器学习、人工智能。在自然语言处理领域我们实验室主要关注的方向是信息抽取社交媒体语音、语言处理和语言与视觉方面的研究在机器学习领域我们比拟关注的是强化学习、对抗学习和深度学习技术的打破在人工智能总体领域我们对知识的表示、推理、知识图谱非常关注。我们最近的一些打破比方发表在EMNLP2017上Dee
3、pPath首先提出了用强化学习的方法去做知识图谱上的推断这项工作获得了很大的关注。我们还有一些相关的工作比方用变分推理的方法去进一步进步知识图谱途径找寻的效率。此外我们还有不少在语言与视觉方面的尝试包括videocaptioningvideostorytelling和怎样把深度强化学习技术与这些复杂的语言与视觉的技术相结合。我们尝试了逆向的强化学习去学习生成文本描绘的多样性主动学习它的一些奖励函数。我们最近也做了一些languagegrounding的工作比方教机器人根据语言与视觉的信息来完成途径的找寻到达目的地。同时我们也在社交媒体领域做了不少关于假新闻、仇恨言论检测的工作。2NLP领域目前
4、有哪些打破将来的研究难点有哪些王威廉在NLP领域实体标注等工作的结果都非常好了根本上都超过90%的准确率。如今的一些工作包括大众很关心的浏览理解在SQuAD上面第一版的结果已经非常好了。在将来我认为语言的生成还是一个很难的问题就是怎样去做一些可以控制的生成怎样保证语义的连接性和语法的正确性这些都是在神经网络框架下难以做到的。还有一个是推理的问题。我们怎样进一步地在分类、在序列标注等任务的根底上设计一些算法和机器学习的模型然后让机器可以在一些复杂的任务上尤其是一些推理的相关的任务上获得一些打破这些还是相当难的问题。3NLP领域里比拟流行的SQuAD数据集的局限性在哪NLP领域需要如何的数据集和如
5、何的评价标准王威廉它的局限性有几个第一是数据量还不大第二是机器做浏览理解的时候其实并不需要完全理解这个问题也不需要完全理解这个篇章它可以用很简单的形式识别的方法去找pattern。比方讲这个问题里面的哪个词以及篇章里面的哪个词比拟匹配然后来答复答案。所以它并不能真正地理解语言不能很好地理解问题遇到复杂的问题就答复不了。NLP领域需要更加复杂的数据集比方讲多个文本需要在知识图谱里做一些推断需要根据上下文不同的假设去做一些推测这样的数据集可能会有更多的帮助。评价标准是很多人在讨论的一个话题像BLEU等已经用了一二十年度了它局限性非常大比方讲它不是通过语义的方法来做评价而是是通过词之间的overla
6、p重叠做的一个评价标准所以它不能代替人类的评价。4王威廉个人认为多任务学习、是非常有意思的一个方向。你可以看一下decaNLP的单项结果确实是比各个单项的SOTA还是有一些间隔的。总体来讲这是非常有意思的一个研究方向但是在实际应用中每一个单项的成绩比单项的SOTA还是有不小的间隔。5王威廉不一定。RNN及其变种确实有一些优势比方它可以把握非常准确的本地语义关系像LSTM在sequencetagging等任务上还是能获得非常不错的结果。总体来讲Transformer还是很有意思的研究角度但是实际情况是它并没有在除了机器翻译之外的NLP任务上面获得最好的结果。6强化学习以及GAN如今非常热门但在N
7、LP任务中又有很多限制面对这种现状科研人员应该怎么做王威廉我觉得首先你要搞清楚为什么要用强化学习。在我看来强化学习在NLP中可以做三件事情。第一件事情你可以用它去做learningtosearchlearningtorank然后用强化学习作为解决传统方法解决不了的问题的一种手段。第二件我们发如今reinforcedco-training这个工作中强化学习可以学习选择数据然后我们可以用强化学习去做denoiser去噪。此外还可以用强化学习去优化BLEUScoreROUGEScore我们最近发表在ACL2018上的工作也有用逆向强化学习去学它的评价标准。总之还是有不少值得研究的空间。GAN更是一个
8、很有意思的方向。GAN在CV领域获得了很好的结果在NLP领域由于语言是离散的所以大众还在研究怎样通过更好地设计对抗网络让判别器可以去反向传播错误进而更好地更新生成器。我们在负例生成与远程监视去噪上也做了一些尝试包括今年度的KBGAN以及DSGAN。总体来讲首先要搞清楚你为什么要做这个事情你到底要做什么事情强化学习跟GAN适不合适这个任务搞清楚了这几点然后才有可能使得你的NLP的结果得到提升。假如搞不清楚就盲目应用GAN以及强化学习是是很难在你的任务中获得很好的结果的。7对于科研人员来讲NLP里哪些研究方向更容易获得打破王威廉自然语言研究有两块一个是生成一个是理解。生成以及理解这两块其实都非常重
9、要比拟难讲哪一块更容易获得打破。但是生成的任务肯定是非常难的因为首先词汇量是无穷无尽的然后latentspace以及词的映射关系也是非常难做的所以生成会是比拟难一点。至于理解任务要看你做到哪一步了。假如你是做文本分类这些简单一点的任务当然也有难一点的比方讲构造化预测sequencetagging会更难一点那最难的可能就是比方讲句法树的生成比方依存句法分析或是语义分析。8面对目前NLP领域的研究困境以往我们会在数据、ML或者DL等方法上做创新或者改变如今是否仍然是这个思路是否需要懂得语言学知识或交融其他学科知识王威廉在早些年度大众做NLP研究可能是研究计算语言学就是如何用计算的方法去更好地理解语
10、言学。如今根本上已经变了过去10-15年度NLP根本上是计算机科学家为主他们可能会关心一些更加实用的任务比方讲机器翻译对话系统。大众可以看到很多的NAACL、EMNLP论文往往是在数据、任务或是机器学习的方法上做一些创新。这其实也跟计算机学科有关因为计算机学科本身喜欢在算法层面上做创新。至于需不需要语言学知识在深度学习之前大众觉得是需要的有了深度学习之后大众觉得可能不需要。但是如今大众又发现像Seq2Seq模型的结果非常差语义连接性、语法正确性也都没有保证而大众又想把构造交融到深度学习模型里。所以我个人认为还是需要掌握一些语言学知识至少对你学习以及研究的语言要有一些根本的知识而其他学科的知识根
11、据你不同的应用也是非常重要的。比方讲你做计算社会科学你当然是需要知道一些社会科学包括心理学、社会学一些相关的知识然后才能更好地让你的研究获得打破。9近几年度中国在NLP领域的开展状况王威廉最近几年度中国在NLP领域的开展是非常迅猛的主要表达在下以下几个方面。第一大众可以看到在NLP领域的ACL、NAACL、EMNLP这三大会议上中国人根本上已经撑起了半边天。如今有一半的论文至少都是来自于国内的高校然假如看第一华人的比例可能会更高。国内工业界的开展也非常迅猛尤其在自然语言处理领域。另外如今国内是百花齐放不光是传统的清华、北大、中科院、哈工大很多其他的学校都陆陆续续有很多的优秀的教授和一些非常优秀
12、的研究。相比美国中国的增速肯定是快很多的。总体来讲中美已经是NLP领域的两个强国了接下来就祈望更多的中国论文可以获得最正确论文奖。10中文NLP以及英文NLP的区别在哪王威廉中文NLP难点在于它的处理单元不是词而是字符。不管是做强化学习还是做Seq2Seq在词级别来做以及字符级别还是差很远的。假如是做字符级别的话你的sequence可能会变得非常长并不太容易做。所以中文的挑战在于语言本身比拟难。除了汉语也有其他少数民族的语言非常值得关注以及留意。【完】2018AI开发者大会只讲技术回绝空谈2018AI开发者大会是一场由中美人工智能技术高手联袂打造的AI技术与产业的年度度盛会是一场以技术落地为导向的干货会议大会设置了10场技术专题论坛力邀15硅谷实力讲师团以及80AI领军企业技术核心人物多位一线经历大咖带你将AI从云端落地。即刻点击浏览原文或识别海报二维码报名参会立享7折优惠票价更有定量学生票!大会日程和嘉宾议题请查看下方海报点击查看大图2018AI开发者大会摆脱焦虑拥抱技术前沿。