《2021自然语言处理汇报大纲.docx》由会员分享,可在线阅读,更多相关《2021自然语言处理汇报大纲.docx(24页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、自然语言处理统计自然语言处理司最大长度分词双向最大长度分词细粒度分词 搜索引擎分词 输出一句话中所有的词嵌套分词有词典的 jieba词典 hanlp输入法的词典数据结构字符匹配树 trie, ac自动机特征字词短语, ngram 两个连续的信息 n个连续的信息 算法 tfidfo text rank垂直领域词典通用领域词典卡方算法, skip gram word piece统计翻译模型 nmt词性识别, pos 数据集人民日报数据集命名实体识别模型 hmm erf crf+标注模式 BIO BIOS BIOES 任务形式单粒度命名实体识S嵌套实体识别nest ner关键词抽取 tfidf te
2、xtrank文本摘要text rank文本分类 朴素贝叶斯文本分类 支持向量机文本分类深度学习自然语言处理深度学习模型, cnn textcnn文本分类cnn erf attention轻量级文本深度学习命名实体识别模型 Istm字词混合编码语言模型elm。 seq2seq 常用 encode 方案 命名实体识别bilstm erf 文本匹配模型dssm, gru更新门和重置门深度学习中文本编码 tfidf tf词频 idf逆文档词频, bow 词袋模型, nnlm Nerual Network Language Model 通过一个神经网络结构对n元条件概率进行评估onehot 缺点 矩阵特
3、别的大 fast text word2vec2013年模式 skip gram-衍生任务 graph embedding deepwalk node2vec cbow变种 glove-共现概率矩阵 elmo字词混合Istm编码深度学习中自然语言处理王务-文本分类类别多分类多标签分类层次分类命名实体识别任务类型单粒度非重叠命名实体识别多粒度重叠命名实体识别模型 o cnn erfo bilstm erf bigru erf在一段话中找到我们所需要的实体标注过程 BIO BIOS单独个字是个实体的场景比较多的情况下我们会采 用此方法作为标注手段关系抽取找到一段文本中存在的实体与实体之间的关系数据集
4、 duie-dataset模型指针半指针模型- 事理图谱 任务寻找事件与事件之间的关系 处理模式事理图谱的上下为推理 数据效果事理图谱阅读理解是否类型阅读理解数据集, squad dureader答案在原文连续序列形阅读理解抽取式阅读理解 webqa, sougouqa多文档阅读理解数据集 dureader squad答案在原文多段式阅读理解基于滑动窗口预测对多问答关系能力生成式阅读理解司法考试阅读理解的应用文档问答命名实体识5关系抽取,文本翻译有监督文本翻译无监督文本翻译小语种翻译地区语言迁移学习文本纠错 seq2seq skip gram错误信息的概率文本转编程语言missiono tex
5、t2 cyphero text2sql实现方案 宽表预测文本那一列 model IGSQL RAT-SQL问答 对话状态跟踪 dm基于关键词的对话跟踪模型基于任务的对话跟踪模型 生成式问答能力词槽式问答能力 ner 特征 skip gram 知识图谱问答文本分类 nl2cypher预训练语言模型自然语言处理 transform Encoder-Decoder 的结构 attention Multi Head self Attention Scaled Dot Product Attention公式Multi Head Attention Multi Head Attention是使用多组Att
6、ention得到相应的结果 并拼接 head Positional Head这个Head在90%的情况下都会把最大的权值 分配给左边或者右边的个词。计算的权值通常指向临近的词 Syntactic Head 将词语之间的关系联系起来 case名词和动词的指向关系, Rare Head 大的权值分配给稀有词 Convolution Attention Cross Attention Query和Support Set里面的每一张图像都经过个网络提取特征, 得到相应的 的特征,然后互相Attend得到重组的特征,再计算相 似度进行Meta Train Cross Attention 示意图 Glob
7、al vs. Local Attention Global Attention 全局的 Attention global attention 模型示意图 Local Attention 介于Soft和Hard Attention的一种机制 local attention 示意图 Compositional Attention Pairwise Affinityo Pairwise Affinity 公式 Distance Dissimilarity Distance Dissimilarity 公式 最终attention计算o Compositional Attention 合并 E 和 N
8、 的权重-总结 Attention的本质就是加权,权值可以反应模型关注的点 bert pretrain mission mlm ( Masked Language Modeling )input sequence中的每个token有15%的概率masked ,并 且用最后层hidden states映射到词表上逬行预测。由于 fine-tune阶段并没有mask符号,在预训练阶段,被 masked的token只有80%的情况被替换为mask符号, 10%的情况下呗替换为词表中其他任意符号,10%的情况下不 做替换。 wwm 连续token nsp (Next Sentence Predicti
9、on)句子级别二分类任务补充建模句子之间的关系。input sequence包括两个句子, 50%的概率两个句子有前后顺序关系,50%的概率是随机挑选 的两个句子。用句首对应的hidden states映射到而分类任务 上进行预测。训练的前几轮表现就会非常的好输入 embedding bpe token embedding分词特征转到id position embedding segment embedding pretake token BPE前缀分词后缀分词 sub word词元词根- 构造CLS Sentence.A SEP Sentence.B SEP的形式,然后截断到 512toke
10、n长度,使用BPE分词,每个token有15%的概率进行mask操 作。 Fine-tune mission sentence pair cis single sentence cis question answer task single sentence tagging tasko bert家族 bert wwm 实体mask xlnet albert 2019 electra roberta word bert word berto sub word-词元词根 t5 ngram bert ernie ernie tinygpt gpt用Transformer的Decoder来做单向语言模
11、型的预训练。 fine-tune taskspecific input adaptations, gpt2预训练阶段 BPE:直接在byte序列上逬行bpe ,减小base vocab。为了 避免陷入局部最优解,除空格之外,禁止将不同类别的字节逬 行合并。 Layer Normalization:将 !ayer normalization 放至每个 subblock 之前,并在最后一个Self-attention后再增加一个 layer normalization. gpt3 Generative Pre-Training对比学习基础概念对比学习在做特征表示相似性计算时,要先对表示向量做L2正
12、则,之后再做 点积计算,或者直接采用Cosine相似性计算机视觉基于负例的对比学习Moco VI SimCLR子主题自然语言处理的应用。法律-法律文书解析实体文字类型实体法律 法规 法条数字类型实体,处罚金额 涉案金额 关系。线索链接 事件围绕论元展开关系。时间为事件重要因素 相似度文本相似度事件相似度-时序图表示学习相以度医疗电子病历解析合理用药推理。用药潜在风险推理药品说明书解析药物知识图谱公网医疗信息解析 医疗文章信息 医疗问答信息导诊在线TA药品 症状热词地区流行病预测 药物热词药物市场预估药物销量周期性预测教育文科改写分级阅读纠错作文生成式推荐金融- 舆情- 量化- 风控轻量化预训练
13、语言模型方法 模型蒸储 常见方案teacher-student模型 模型剪枝 模型量化模型 更浅(12 层-3 层 transformer block )更短(字粒度。subword粒度缩短输入长度) 加大宽度(768-1024 hidden size )优势 4倍提速的同时模型效果只有少量下降, albert tiny特征 sop 句子顺序预测减少参数 矩阵分解 参数共享 Electra tiny特征生成式决策架构实验细节参数共享更小的生成器训练策略摒弃掉了 dropout auto tiny bert结合了自动参数学习的预训练语言模型 openvin。基于cpu部署轻量化语言模型及下游任务
14、自然语言处理在边缘计算中的应用例如12层的bert算要求很高,但是我们用三层的就可以在边缘部署我们的自然语 言处理模型基于ernie tiny预训练语言模型文本分类模型 命名实体识别模型 关系抽取模型 基于。penvin。框架进行模型推理部署事理图谱的上下为推理local attention 示意图Distance Dissimilarity 公式Nij =刚 Fn(%)|IiCompositional Attention 合并 E 和 N 的权重M = Tanh(E) Sigmoid(N)global attention模型示意图公式ytAttn(Q, K, V) = softmaxCross Attention 示意图Mm二 -IztRr誉舒斤百 (b) The Fusion Layer in CAMPairwise Affinity 公式Eij = aFE(ai),FE(aj)事理图谱点击该事件可查看更多形成原因点击该事件可査看造成结果Multi Head Attention是使用多组Attention得到相应的结果并拼接headi = AttnQWKW,VW)MultiHead = concat (headi, head2, , headn)