2021自然语言处理汇报大纲.pdf-淘文阁

资源描述

《2021自然语言处理汇报大纲.pdf》由会员分享，可在线阅读，更多相关《2021自然语言处理汇报大纲.pdf（20页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、自然语言处理统计自然语言处理O笳司-最大长度分词-双向最大长度分词-细粒度分词搜索引擎分词输出一句话中所有的词-嵌套分词有词典的 jieba词典 hanlp 输入法的词典o数据结构字符匹配树 trie*ac自动机o尚正,字词短语 ngram两个连续的信息n 个连续的信息算法tfidf。textranko垂直领域词典O通用领域词典。卡方算法 skip gram word pieceo统计翻译模型 nmt。词性识别 pos-数据集人民日报数据集。命名实体识别-模型 hmmerfo crf+标注模式B IO BIOS BIOES 任务形式单粒度命名实体识别嵌套实体识别nest nero关键词

2、抽取 tfidf*textranko文本摘要text ranko文本分类-朴素贝叶斯文本分类-支持向量机文本分类深度学习自然语言处理O深度学习模型 cnn textcnn文本分类 cnn erf attention轻量级文本深度学习命名实体识别模型 Istm 字词混合编码语言模型elm。seq2seq 常用 encode 方案命名实体识别bilstm erf 文本匹配模型dssm gru更新门和重置门o深度学习中文本编码 tfidf tfo词频 idfo逆文档词频 bow词袋模型 nnlm Nerual Network Language Model通过一个神经网络结构对n元条件概率进行评估o

3、nehot,缺点矩阵特别的大 fast text*word2vec 2013年模式o skip gram衍生任务 graph embeddingo deepwalko node2veco cbow变种o glove共现概率矩阵 elmo字词混合Istm编码。深度学习中自然语言处理任务文本分类类别。多分类o多标签分类。层次分类-命名实体识别任务类型O单粒度非重叠命名实体识别。多粒度重叠命名实体识别模型o cnn erfo bilstm erfo bigru erf任务o在一段话中找到我们所需要的实体标注过程o BIO。BIOS-单独一个字是一个实体的场景比较多的情况下我们会采用此方法作为标注手

4、段-关系抽取任务o找到一段文本中存在的实体与实体之间的关系数据集o duie-dataset模型。指针半指针模型事理图谱O寻找事件与事件之间的关系处理模式O事理图谱的上下为推理数据效果O事理图谱阅读理解是否类型阅读理解。数据集 squad dureader答案在原文连续序列形阅读理解O抽取式阅读理解 webqa sougouqa。多文档阅读理解数据集 dureader squad 答案在原文多段式阅读理解。基于滑动窗口预测一对多问答关系能力生成式阅读理解O司法考试阅读理解的应用。文档问答。命名实体翊II。关系抽取文本翻译有监督文本翻译无监督文本翻译小语种翻译O地区语

5、言迁移学习文本纠错 seq2seq skip gramo错误信息的概率-文本转编程语言missiono text2cyphero text2sql实现方案o 宽表o预测文本那一列 modelo IGSQLo RAT-SQL 问答对话状态跟踪o dmo基于关键词的对话跟踪模型o基于任务的对话跟踪模型生成式问答能力词槽式问答能力o nero 尚正 skip gram 知识图谱问答o文本分类o nl2cypher预训练语言模型自然语言处理o transform Encoder-Decoder 的结构o attention Multi Head self Attention Scaled Do

6、t Product Attentiono 公式Multi Head Attentiono Multi Head Attention是使用多组Attention得到相应的结果并拼接o head Positional Head这个Head在90%的情况下都会把最大的权值分配给左边或者右边的一个词。计算的权值通常指向临近的词 Syntactic Head将词语之间的关系联系起来 caseO名词和动词的指向关系 Rare Head大的权值分配给稀有词 Convolution Attention Cross Attention Query和Support Set里面的每一张图像都经过一个网络提取特征，得

7、到相应的的特征，然后互相Attend得到重组的特征，再计算相似度进行Meta Train Cross Attention 示意图 Global vs.Local Attention Global Attentiono 全局的 Attentiono global attention 模型示意图 Local Attentiono 介于Soft和Hard Attention的一种机制o local attention 示意图 Compositional Attention Pairwise Affinityo Pairwise Affinity 公式 Distance Dissimilarityo

8、 Distance Dissimilarity 公式最终attention计算o Compositional Attention 合并 E 和 N 的权重-总结Attention的本质就是加权，权值可以反应模型关注的点o bert pretrain mission mlm(Masked Language Modeling)o input sequence 中的每个 token 有 15%的概率 masked,并且用最后一层hidden states映射到词表上进行预测。由于fine-tune阶段并没有mask符号，在预训练阶段，被masked的token只有80%的情况被替换为 mask符

9、号,10%的情况下呗替换为词表中其他任意符号，10%的情况下不做替换。wwmo连续token nsp(Next Sentence Prediction)o句子级别二分类任务o补充建模句子之间的关系。input sequence包括两个句子，50%的概率两个句子有前后顺序关系，50%的概率是随机挑选的两个句子。用句首对应的hidden states映射到而分类任务上进行预测。o训练的前几轮表现就会非常的好*输入 embedding bpe token embeddingo分词O特征转到id position embedding segment embedding pretake token BP

10、Eo前缀分词o后缀分词 sub wordo词元词根构造CLS Sentence.A SEP Sentence.B SEP的形式，然后截断到512token长度，使用BPE分词,每个token有15%的概率进行mask操作。Fine-tune mission sentence pair cis single sentence cis question answer task single sentence tagging tasko bert家族 bert wwm 实体mask xlnet albert 2019 electra roberta word bert word bert e

11、rnie tinyo sub word-词元词根 t5 ngram bert ernie ernie tiny。gpt gpt用Transformer的Decoder来做单向语言模型的预训练。fine-tuneo task-specific input adaptations*gpt2预训练阶段o BPE:直接在byte序列上进行bpe,减小base vocab.为了避免陷入局部最优解，除空格之外，禁止将不同类别的字节进行合并。o Layer Normalization:?各 layer normalization 放至!每个 subblock 之前，并在最后一个Self-attentio

12、n后再增加一个layer normalization。,gpt3 Generative Pre-Training对比学习o基础概念-对比学习在做特征表示相似性计算时，要先对表示向量做L2正则，之后再做点积计算，或者直接采用Cosine相似性。计算机视觉基于负例的对比学习Moco VI SimCLR。子主题自然语言处理的应用o法律法律文书解析实体o文字类型实体-法律法规法条O数字类型实体处罚金额涉案金额关系O线索链接事件O围绕论元展开关系O时间为事件重要因素相似度O文本相似度O事件相似度-时序图表示学习相似度O 医疗电子病历解析合理用药推理O用药潜在风险推理药品说明书解析药

13、物知识图谱-公网医疗信息解析医疗文章信息医疗问答信息O导诊。在线OTA药品症状热词o地区流行病预测药物热词o药物市场预估。药物销量周期性预测O教育文科改写O分级阅读纠错作文生成式推荐。金融舆情量化风控轻量化预训练语言模型O 方法模型蒸储常见方案teacher-student模型模型剪枝模型量化。模型 ernie tiny特征o 更浅（12 层-3 层 transformer block）o更短（字粒度-subword粒度缩短输入长度）o 力口大宽度（768-1024 hidden size）优势。4倍提速的同时模型效果只有少量下降 albert tiny特征o

14、 sop 句子顺序预测。减少参数-矩阵分解参数共享*Electra tiny特征。生成式决策架构实验细节。参数共享o更小的生成器O训练策略,摒弃掉了 dropout auto tiny bert结合了自动参数学习的预训练语言模型 openvino基于cpu部署轻量化语言模型及下游任务O自然语言处理在边缘计算中的应用O例如12层的bert算力要求很高，但是我们用三层的就可以在边缘部署我们的自然语言处理模型o基于ernie tiny预训练语言模型-文本分类模型命名实体识别模型关系抽取模型-基于。penvin。框架进行模型推理部署事理图谱的上下为推理local attention 示意图UtDistance Dissimilarity 公式Nij=一例外(四)一 FN(%)|IICompositional Attention 合并 E 和 N 的权重M=Tanh(E)o Sigmoid(TV)global attention模型示意图Pairwise Affinity 公式E,j=a F E(a，)FE(QJ)事理图谱Multi Head Attention是使用多组Attention得到相应的结果并拼接headi=A ttn(Q W K W VW)MultiHead=concat(headi,head2,headn)

展开阅读全文