新一届最强预训练模型上榜出于BERT而胜于BERT.docx

上传人:安*** 文档编号:73266561 上传时间:2023-02-17 格式:DOCX 页数:9 大小:21.18KB
返回 下载 相关 举报
新一届最强预训练模型上榜出于BERT而胜于BERT.docx_第1页
第1页 / 共9页
新一届最强预训练模型上榜出于BERT而胜于BERT.docx_第2页
第2页 / 共9页
点击查看更多>>
资源描述

《新一届最强预训练模型上榜出于BERT而胜于BERT.docx》由会员分享,可在线阅读,更多相关《新一届最强预训练模型上榜出于BERT而胜于BERT.docx(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、新一届最强预训练模型上榜,出于BERT而胜于BERT|FacebookAI译者|Lucy编辑|Jane出品|AI科技大本营ID:rgznai100【导读】预训练方法设计有不同的训练目的包括语言建模、机器翻译和遮蔽语言建模等。最近发表的许多论文都使用了微调模型并预先训练了一些遮蔽语言模型的变体。然而还有一些较新的方法是通过对多任务微调进步性能结合实体嵌入跨度预测以及自回归预训练的多种变体。它们通常在更大数据上训练更大的模型来进步性能。本文的目的是通过复制、简化以及更好地微调训练BERT以作为更好理解上述方法的相对性能的参考值。论文地址s:/arxiv.org/abs/1907.11692语言模型

2、预训练能获得显著的性能提升但是不同方法之间很难进展详细的比拟。训练模型计算本钱高通常在各自的数据集上完成并且将展示超参数对最终结果的显著影响。提出了BERT预训练的复制研究该研究测量了关键超参数以及训练数据量对结果的影响。发现BERT可以超过其后发布的每个模型的性能。该模型在GLUERACE以及SQuAD上实现了目前最好的结果。这些结果强调了先前被无视的设计选择的重要性然后提出了有关最近报告的改良的来源的问题并发布了模型以及公开了程序代码。1、介绍自训练方法如ELMo、GPT、BERT、XLM以及XLNet得到了显著的性能提升但很难确定每种方法的哪些方面奉献最大。训练计算本钱很高限制了微调的数

3、据量并且通常使用不同大小的私人训练数据来完成这限制了测量模型效果的才能。提出了BERT预训练的复制研究其中包括评估超参数以及训练数据量对结果的影响。提出了一个改良的训练BERT模型的方法称之为RoBERTa该方法可以超过所有post-BERT方法的性能。修改的局部包括1训练模型时间更长batch更大数据更多;2删除下一句预测目的;3对较长序列进展训练;4动态改变应用于训练数据的遮蔽形式。为了更好地控制训练集大小对结果的影响采集了与其他私人使用的数据集大小相当的大型新数据集CC-NEWS。在控制训练数据时改良的训练程序比在GLUE以及SQUAD上公布的BERT结果有所进步。经过长时间训练该模型在

4、公共GLUE排行榜上得分为88.5与Yang等人报道的88.4相当。该模型建立了一个最新的4/9GLUE任务MNLIQNLIRTE以及STS-B。在SQuAD以及RACE上获得最好的实验结果。总的来讲重新确定BERT的遮蔽语言模型训练目的是与其他最近提出的训练目的竞争例如扰动自回归语言模型。总之本文的奉献是1提出了一套重要的BERT设计选择以及培训策略并介绍了可以带来更好的下游任务绩效的替代方案;2使用一种新的数据集CCNEWS确认使用更多数据进展预训练可以进一步进步下游任务的性能;3训练结果说明在配置正确的情况下预训练的遮蔽语言模型比其他最近发布的模型效果更好。发布了模型上传了基于PyTor

5、ch的预训练以及微调代码。2、背景2.1设置BERT将两个段令牌序列x1.xN以及y1.yM的串联作为输入。该模型首先在大的未标记文本语料库上预先训练然后使用最终任务标记数据进展网络化。2.2构造本文使用具有L层的变压器架构每个块使用A自注意头以及H层隐藏层.2.3训练目的在预训练期间BERT的两个目的遮蔽语言模型以及下一句话预测。遮蔽语言模型MLM使用已标记的随机样本作为输入序列并用特殊标记MASK交换。MLM的目的是预测被遮蔽标记的穿插熵损失。下一句话预测NSPNSP是一种二元分类损失用于预测原始文本中两个段落是否相连。2.4优化BERT使用以下参数对Adam进展优化10.920.9991

6、e-6L2权重衰减为0.01。学习率在最初的10,000次迭代中峰值为1e-4然后线性衰减。BERT每层Dropout为0.9和一个GELU激活函数。模型预训练在S1,000,000时更新最小的batch包含序列最大长度B256以及标记T512。2.5数据BERT的训练数据包含BOOKCORPUS以及英语WIKIPEDIA压缩前共16GB。3、实验设置3.1配置在FAIRSEQ中重新实现了BERT。主要遵循第2节中给出的初始BERT优化超参数除了峰值学习速率以及预热步数这些步骤针对每个设置单独调整。Adam在训练中非常敏感在某些情况下调整后能进步性能。并设置20.98以进步大批量训练时的稳定性

7、。预先训练了最多T512标记序列。不会随机注入短序列并且不会针对前90的更新以减少的序列长度进展训练只训练全长序列。在DGX-1机器上进展混合精细浮点运算每个机器都有832GBNvidiaV100GPU并由Infiniband互连。3.2数据BERT式预训练依赖于大量的文本。本文考虑了不同大小以及域的五种英语语料库总共超过160GB的未压缩文本。使用的文本语料库如下BOOKCORPUS以及英语WIKIPEDIA这是用于训练BERT的原始数据16GB。CC-NEWS采集的CommonCrawl新闻数据集的英文局部。该数据包含2016年度9月至2019年度2月期间6300万份英文新闻过滤后为76G

8、B。OPENWEBTEXTRadford等人的WebText语料库的开源数据。该文本是从Reddit上分享的URL中提取的网页内容爬取的每个内容都至少有三个人点赞38GB。STORIES是Trinh以及Le引入的数据集其中包含一局部CommonCrawl数据用于匹配Winograd形式的故事风格31GB。3.3评估使用以下三个基准评估下游任务的预训练模型。GLUE通用语言理解评估GLUE基准是用于评估自然语言理解系统的9个数据集的集合。SQuAD斯坦福问题答疑数据集SQuAD提供了一段背景以及一个问题。任务是通过从上下文中提取相关跨度来回答下列问题。RACE考试的重新理解RACE任务是一个大型

9、浏览理解数据集有超过28000个段落以及近100000个问题。该数据集来自中国的英语考试专为中学生以及高中生设计。4、训练程序分析本节讨论在保持模型架构不变的情况下哪些量化指标对预训练BERT模型有影响。首先训练BERT模型其配置与BERTBASE一样L12H768A12,110M参数。4.1静态与动态掩蔽可以发现使用静态遮蔽重新实现的功能与原始BERT模型类似动态遮蔽与静态遮蔽效果差距不大。表1BERTBASE的静态遮蔽以及动态遮蔽之间的比拟。4.2模型输入格式以及下一句预测本文比拟了几种可选择训练形式SEGMENT-PAIRNSPBERT中使用带NSP损失的原始输入格式。每个输入都有两个段

10、落每个段可以包含多句话但总组合长度必须小于512个tokens。SENTENCE-PAIRNSP每个输入包含两句话从一个文档的连续局部或者从单独的文档中采样。由于这些输入明显少于512个tokens因此我们增加batch的大小以使tokens总数保持与SEGMENT-PAIRNSP相似同时保存了NSP损失。FULL-SENTENCES每个输入都包含从一个或者多个文档连续采样的完好句子使得总长度最多为512个tokens。输入可能跨越文档边界。当到达一个文档的末尾时从下一个文档开场对句子进展抽样并在文档之间添加一个额外的分隔符号这里不使用NSP损失。DOC-SENTENCES输入的构造类似于FU

11、LL-SENTENCES除了它们可能不需要跨越文档边界。在文档末尾附近采样的输入可以短于512个tokens因此在这些情况下动态增加batch大小以到达与FULLSENTENCES一样的tokens总数这里不使用NSP损失。表2在BOOKCORPUS以及WIKIPEDIA上预训练的根底模型的开发集结果。首先比拟Devlin等人的原始SEGMENT-PAIR输入格式。采用SENTENCE-PAIR格式两种格式都保存了NSP损失但后者使用单句。发现单个句子会损害下游任务的性能认为这是因为模型无法学习远程依赖。4.3大批量训练在神经网络机器翻译模型中当学习率适当增加时使用非常大的mini-batch

12、训练可以进步优化速度以及终端任务性能。研究结果说明BERT也适用于大批量训练。表3在不同batchsbsz下BOOKCORPUS以及WIKIPEDIA作为训练数据模型的持续训练数据ppl以及开发集准确率。比拟了BERTBASE的性能因为增加了batch的大小控制了通过训练数据的次数。观察到大批量训练可以改善遮蔽语言模型目的的困惑度和最终任务的准确性。通过分布式数据并行训练大批量也更容易并行化后续的实验中使用8K序列进展训练。4.4文本编码字节对编码BPE是字符以及单词级表示之间的混合允许处理自然语言语料库中常见的大词汇表。BPE不依赖于完好的单词而是依赖于子词单元这些子单元是通过对训练语料库进

13、展统计分析而提取的。5、RoBERTa表4RoBERTa的开发集结果因为预先训练了更多数据16GB160GB的文本以及预训练更长时间100K300K500K步每行累积上述行的改良。RoBERTa符合BERTLARGE的架构以及训练目的。当控制训练数据时观察到RoBERTa比最初报告的BERTLARGE结果有了明显的改良。5.1GLUE结果表5GLUE的结果。所有结果均基于24层架构。开发集上的RoBERTa结果是五次运行的中位数。测试集上RoBERTa的结果是单任务模型的集合。对于RTESTS以及MRPC从MNLI模型开场而不是基线预训练模型。平均值可以从GLUE排行榜获得。5.2SQuAD结

14、果表6SQuAD的结果。表示取决于其他外部训练数据的结果。RoBERTa仅在开发以及测试设置中使用提供的SQuAD数据。5.3RACE结果表7RACE测试集的结果RoBERT在中学以及高中设置上都能获得最好的实验结果。6、结论在预训练BERT模型时会仔细评估一些设计决策。通过更长时间地训练模型处理更多数据可以显著进步模型性能删除下一句预测目的;培训更长的序列;并动态地改变应用于训练数据的遮蔽形式。改良的预训练程序称之为RoBERTa在GLUERACE以及SQuAD上实现了目前最好的结果没有GLUE的多任务网络化或者SQuAD的附加数据。这些结果讲明这些先前被无视的设计决策的重要性并说明BERT

15、的预训练目的仍与最近提出的替代方案不相上下。还使用了一个新的数据集CC-NEWS并发布了用于预训练以及网络训练的模型以及代码。Github地址s:/github/pytorch/fairseq (*本文为AI科技大本营编译文章转载请联络微信1092722531)社群福利扫码添加小助手回复大会参加2019AI开发者大会福利群每周一、三、五更新技术福利还有不定期的抽奖活动精彩推荐60技术大咖与你相约2019AIProCon大会早鸟票已售罄优惠票速抢进展中.2019AI开发者大会将于9月6日-7日在北京举行这一届AI开发者大会有哪些亮点一线公司的大牛们都在关注什么AI行业的风向是什么2019AI开发者大会倾听大牛共享聚焦技术理论以及万千开发者共成长。推荐浏览认知智能的突围你点的每个“在看我都认真当成了喜欢

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 工程图纸

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁