《深度学习基础Mchapter1ALL (5).pdf》由会员分享,可在线阅读,更多相关《深度学习基础Mchapter1ALL (5).pdf(27页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、(Recurrent Neural Network)循环神经网络循环神经网络1序列数据2曾经有一份真挚的感情,摆在我面前,我没有去()输入层(Input Layer)隐藏层(Hidden Layer)输出层(Output Layer)隐藏层(Hidden Layer)什么是循环神经网络?传统的神经网络模型,隐藏层的节点之间是无连接的。循环神经网络(RecurrentNeuralNetwork,RNN):隐藏层的节点之间有连接,是主要用于对序列数据进行分类、预测等处理的神经网络。3输入层(Input Layer)隐藏层(Hidden Layer)输出层(Output Layer)隐藏层(Hidd
2、en Layer)RNN序列处理many to manymany to onemany to manyone to many4最基本的RNN结构fold 输入单元(inputunits)为?0,1,?,?,?,?输出单元(outputunits)为?0,1,?,?,?隐藏单元(Hiddenunits)的输出标记为0,1,?,?,5 输入层:表示时刻 的输入.隐藏层:?.其中是非线性激活函数,如tanh。输出层:?.其中函数的形式?。基本RNN的计算过程6RNN的参数共享 传统神经网络中,每一层的参数是不共享的;而在RNNs中,每一步(每一层)都共享参数U,V,W。7Thanks!8(Long
3、Short-Term Memory)长短时记忆网络长短时记忆网络9标准标准RNNRNN可以处理短期依赖可以处理短期依赖标准RNN可以处理不太长的相关信息间隔:例如,预测“thecloudsareinthe”空格中的词。22233344411155500010标准标准RNNRNN难以应对长期依赖难以应对长期依赖但标准RNN无法处理更长的上下文间隔,即长期依赖问题。例如,预测“IgrewupinFrance.Ispeakfluent”最后的词。.11222333444111000tt2t2t1t1t2t14LSTM的基本思路LSTM的基本思路h标准RNNchLSTMc?上一时刻的长期状态当前时刻的
4、隐藏层状态当前时刻的即时状态?当前时刻的长期状态12忘记门输入门输出门 LSTM(Long Short-Term Memory),即长短期记忆网络,是RNN的扩展,其通过特殊的结构设计来避免长期依赖问题。Hochreiter S,Schmidhuber J.Long short-term memory.J.Neural Computation,1997,9(8):1735-1780.神经网络中的门神经网络中的门13Sigmoid层输入输出乘法门:乘法门:为了让信息选择性通过;sigmoid层的输出矩阵中每个元素的范围是0,1输入1输出+输入2加法门:加法门:在输入1基础上更新输入2的信息因此,
5、LSTM中忘记门和输出门要用到乘法门。输入门要用到加法门。LSTMLSTM的整体框架图的整体框架图tanhtanh1tC1thtftitCtothtCtxth 向量的连接 神经网络层 逐点操作 传输向量 向量被复制LSTMLSTM的计算过程的计算过程(1)(1)忘记信息:从长期状态中丢弃某些信息。1tCtx1thtf),(1fttftbxhWf 忘记门层?的输入为?和?,输出的矩阵中每个元素为 0 到 1 之间的数值,并与细胞状态矩阵?中的每个对应位置元素相乘。语言模型例子:.Germany.I grew up in France.I speak fluent。15LSTMLSTM的计算过程的
6、计算过程(2)(2)tanh1tC1thtftitC包含三个部分:1)首先,一个 tanh层创建一个新的候选值向量;2)然后,sigmoid层即输入门层?控制候选向量的哪些元素被更新;3)新的信息被加入到状态中。语言模型例子:.Germay.IgrewupinFrance.Ispeakfluent。),tanh(1cttctbxhWC),(1ittitbxhWitx新记忆信息:将新信息存放在长期状态中。1tttttCiCfC16tCLSTMLSTM的计算过程的计算过程(3)(3)通过 sigmoid层,来确定将输出哪些信息,即得到输出门?。然后把长期状态通过 tanh层进行处理,然后将其与经输
7、出门过滤后的信息相乘,得到要输出的?。)tanh(tttCoh),(1ottotbxhWotanhtanh1tC1thtftithtCthtotCtx输出信息17LSTMLSTM的变体的变体(1)(1)由 Gers&Schmidhuber(2000)提出,增加了“peepholeconnection”。门层也接受长期状态的输入。tanhtanh1tC1thtftithtCthtotCtx),(11ftttftbxhCWf),(11itttitbxhCWi),(1otttotbxhCWoGers,F.A.,&Schmidhuber,J.(2000).Recurrent Nets that Tim
8、e and Count.Ieee-Inns-Enns International Joint Conference on Neural Networks(Vol.3,pp.189-194 vol.3).IEEE.18LSTMLSTM的变体的变体(2)(2)耦合(coupled)遗忘和输入单元:将遗忘和新记忆两个过程耦合,即只遗忘那些有新元素来填充的元素。tanhtanh1tC1thtftithtCthtotitx1)1(tttttCfCfC1tttttCiCfC119LSTMLSTM的变体的变体(3)GRU(3)GRUCho K,Van Merrienboer B,Gulcehre C,et
9、al.Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine TranslationJ.Eprint Arxiv,2014.GRU只有两个门:重置(reset)门r和更新(update)门z,取消了LSTM中的output门。r和z共同控制了如何从之前的隐藏状态(?)计算获得新的隐藏状态(?)。),(1ttztxhWz),(1ttrtxhWr),tanh(1ttttxhrWh1)1(ttttthzhzh20即Gated Recurrent Unit Cho,et al.(2014),混合
10、了长期状态和隐藏状态。tanh1ththtx1tztrththThanks!21(Bidirectional RNN and Attention Mechanism)双向循环神经网络和注意力机制双向循环神经网络和注意力机制22双向RNN(BidirectionalRNNs)Schuster M,Paliwal K K.Bidirectional recurrent neural networksJ.Signal Processing,IEEE Transactions on,1997,45(11):2673-2681.23 在很多应用中,当前步,即第在很多应用中,当前步,即第t步的输出与前面的
11、序列和后面的序列都有关。步的输出与前面的序列和后面的序列都有关。例如:“我喜欢宠物,家里养了一(zhi)可爱的小花猫。”,则括号内填“只”还是“支”?深层双向RNN(DeepBidirectionalRNNs)Graves A,Mohamed A R,Hinton G.Speech Recognition with Deep Recurrent Neural NetworksJ.Acoustics Speech&Signal Processing.icassp.international Conference on,2013:6645-6649.Wt-2Wt-1WtWt+1Wt+2senten
12、ce:24注意力模型(注意力模型(Attentionmodel)Googlemind团队1在RNN模型上使用了attention机制进行图像分类。后来Bahdanau等人2将attention机制应用到NLP领域中。如问答系统、自动文摘、文本分类等。1.Mnih,V.,Heess,N.,Graves,A.,et al.Recurrent models of visual attention.NIPS 20142.Bahdanau,D.,Cho,K.,&Bengio,Y.Neural machine translation by jointly learning to align and translate.NIPS 201425注意力模型(机制)是受到了人类注意力机制的启发。注意力模型基本原理1)?其中?,?,?,?为权重参数和偏置参数2)?其中?为上下文向量?为不同词的注意力概率分布3)?其中 C为带有注意分布的语义编码26https:/ Z,Yang D,Dyer C,et al.Hierarchical attention networks for document classificationC/Proceedings of NAACL-HLT.2016:1480-1489.Thanks!27