《深度学习基础Mchapter1ALL (8).pdf》由会员分享,可在线阅读,更多相关《深度学习基础Mchapter1ALL (8).pdf(33页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、(Autoencoder)(Autoencoder)自动编码器自动编码器1有监督学习 数据:(x,y),其中x是数据特征,y是标签 目的:学习映射:xy 例子:例子:分类问题 回归问题 图像标题生成等分类自行车自行车汽车汽车汽车自行车自行车无监督学习 其特点是训练样本数据的标记信息未知,因此其目标往往是要通过对无标签训练样本的学习来揭示出数据的内在及规律。数据:x 只有数据,没有标签 目标:学习数据的结构 例子:聚类、密度估计、异常检测等生成式模型(GenerativeModels)从训练数据中学习?,其与训练数据中的分布?尽可能接近;然后从?中生成新的样本训练数据?生成的样本数据?自动编码器
2、(Autoencoder)自动编码器是一种无监督的神经网络模型,其目标是通过训练网络忽略信号“噪声”,从而学习得到数据的低维度表示(编码)。通常分为两步:1)学习到输入数据的隐含特征,即编码(coder):;2)用隐含特征重构原始的输入数据,即解码(decoder):?输入中间的表示输出(近似等于输入)编码器解码器只有一个隐藏层的自动编码器 编码:编码:将 映射为,例如采用单层感知机:?这里为激活函数,如sigmoid或 ReLU等;为权重矩阵,为偏差向量。通常被称为代码(code)、潜在变量(latent variables)或潜在表示(latent representation)。解码:解
3、码:将 映射到与形状相同的重构?,例如采用单层感知机:?解码器中的,?、?、?也可以和编码器中的、不同。自动编码器的损失函数 自动编码器也需要通过训练来减少数据重建的误差(如平方误差):,?,|?|例如对于单层的感知机,则损失函数通常为,?|?|?|?|?输入中间的表示输出(近似等于输入)编码器解码器堆栈自动编码器 堆栈自动编码器本质上就是增加中间特征层数。输入隐藏层1隐藏层2隐藏层3输出层28*28=784维300 units150 units300 units784 units编码重构对MNIST构造自动编码器(两个隐含层)用自动编码得到新特征 模型训练完成后,可以将解码器去掉,仅仅使用编
4、码器得到重构的特征。得到的特征可应用在有监督的模型中,如分类模型。这样做的好处是,可以用许多无标签的数据学习得到通用的特征表示。因为,监督学习通常的标注数据较少。输入隐藏层1隐藏层2隐藏层3输出层编码重构?分类模型Loss function与分类器联合微调(Fine-tune)编码器基于自动编码器的图像聚类可视化 MNIST数据:从784维12864102维。MNIST数据的二维平面聚类(不同颜色表示不同的数字)Thanks!哈尔滨工业大学计算机学院 刘远超11(VariationalAutoencoders)刘远超哈尔滨工业大学计算机科学与技术学院变分自动编码器变分自动编码器哈尔滨工业大学计
5、算机学院 刘远超12变分自动编码器图像生成 问题:问题:既然自动编码器可以重构原始的输入图像,那么如何生成新的图像呢?Diederik P Kingma,Max Welling(2013).Auto-Encoding Variational Bayes.ICLR 2014 变分自动编码器变分自动编码器(Variational Autoencoders,VAE):假设潜在变量 服从某种先验分布(高斯分布)。模型训练完毕后,可以从这种先验分布中采样得到潜在变量,然后在解码器中得到新的样本。在自动编码器基础上加入了随机因子。变分自动编码器的原理 需要估计得到上述模型中的优化参数。一种常见策略是最大化
6、训练数据的似然函数,即p?。办法:找出该似然函数的一个下界,对该下界进行优化。?:即在给定的条件下,从条件分布 中采样生成样本。从?中采样:这个分布可以采用高斯分布,因为其是对中的每个元素的一种自然的先验(prior)假设。Diederik P Kingma,Max Welling(2013).Auto-Encoding Variational Bayes.ICLR 2014变分自动编码器中的分布及采样 由于是在建模数据的概率生成,所以编码器和解码器都是概率的?|?|?|?|?均值编码器?解码器?|?协方差矩阵均值协方差矩阵z从分布中采样:|?|?,?|?|从分布中采样:|?|?,?|?Die
7、derik P Kingma,Max Welling(2013).Auto-Encoding Variational Bayes.ICLR 2014变分自动编码器的对数似然函数?|?=?|?|?=?|?|?|?|?|?|?|?|?|?|?|?|?现在,(最大化)训练数据的似然函数,以找到模型的参数变分自动编码器的对数似然函数?|?|?|?|?|?可见:?,?,即前两项的和?,?是一个可以处理的下界。可以对其求梯度,并进行优化。因此变分编码器实际上是在优化数据的对数似然的下界,并求解参数:,?arg max?,?,?,?0重构输入数据使近似后验分布?接近先验分布?变分自动编码器的训练过程,=?|
8、?|?现在,我们已经知道要优化似然函数的下界:?|?|?编码器?|?|?解码器?|?z从分布中采样:|?|?,?|?输入数据|从分布中采样:|?|?,?|?最大化原始输入据被重构的对数似然使近似后验分布?接近先验分布?生成新的样本?|?|?Decoder network?|?|的采样分布为:|?|?,?|?z的采样分布为:的采样分布为:|?,?生成数据只需要解码器:生成阶段先对z进行采样。从先验标准正态分布?,?中采样,而不再从训练过程中的后验概率分布中采样。然后,再采样得到生成的数据?。VAE生成的图像举例Thanks!哈尔滨工业大学计算机学院 刘远超21(GenerativeAdversa
9、rialNetworks)刘远超哈尔滨工业大学计算机科学与技术学院生成对抗网络生成对抗网络哈尔滨工业大学计算机学院 刘远超22判别式模型和生成式模型判别式模型和生成式模型假设研究对象的观测变量为 ,类别变量为,则 判别式模型(判别式模型(Discriminative models,或或conditional models):):按照一定的判别准则,从数据中直接学习决策函数?或者条件概率分布?|;?作为预测的模型。典型的判别模型包括:k近邻法、决策树、最大熵模型、支持向量机近邻法、决策树、最大熵模型、支持向量机等;生成式模型(生成式模型(Generative models):):从数据中学习联合
10、概率分布(,),其之后可以转变为(|)作为预测的模型,例如利用条件概率分布(|)=(,)/()。典型的生成模型有:朴素贝叶斯法、高斯混合模型、马尔科夫模型朴素贝叶斯法、高斯混合模型、马尔科夫模型等。判别式模型和生成式模型的区别判别式模型和生成式模型的区别判别式模型:判别式模型:只是对给定的样本进行分类。不关心数据如何生成。生成式模型:生成式模型:根据生成假设,哪个类别最有可能生成这个样本?决策边界简单举例 假设输入数据是?1,2?,的标签?0,1?,且有如下 4个数据点?,?1,0?,?1,0?,?2,0?,?2,1?。则对于上述数据,根据经验测量估计联合概率分布联合概率分布?,?如下:条件条
11、件概率分布?|?则为:生成对抗网络生成对抗网络现实世界的启发现实世界的启发prior生成对抗网络生成对抗网络GAN的基本原理的基本原理GAN(GenerativeAdversarialNetworks)包括两部分:生成器和判别器。生成器生成器:从随机噪声中生成图像(随机噪声通常从均匀分布或高斯分布中获取)判别器判别器:其输入为生成器生成的图像和来自训练集中的真实图像,并对其进行判别。得到输出值为一个0到1之间的数,表示图像为真实图像的概率,real为1,fake为0。Goodfellow,Ian;Pouget-Abadie,Jean;Mirza,Mehdi;Xu,Bing;Warde-Farl
12、ey,David;Ozair,Sherjil;Courville,Aaron;Bengio,Yoshua(2014).Generative Adversarial Networks(PDF).Proceedings of the International Conference on Neural InformationProcessing Systems(NIPS 2014).pp.26722680.RealImageDiscriminatorNetwork?GeneratorNetwork?GeneratedImageReal/Fake?Trainingset判别模型的目标函数判别模型的目
13、标函数min?max?,?log?1?当对判别器判别器D进行优化进行优化时,要让总数值最大,即,?等号右边第一项,?表示 来自真实数据而不是生成数据的概率,所以损失函数为 ,因为其判别结果越接近于1越好;等号右边第二项,是随机的输入,?表示生成的样本,因此我们希望判别结果?越接近于0越好。priorRealImageDiscriminatorNetwork?GeneratorNetwork?GeneratedImageReal/Fake?Trainingset生成模型的目标函数生成模型的目标函数 生成模型得到的图像肯定是假的,所以其损失函数是上述损失函数的第二部分。好的生成器应该使得判别结果?
14、尽量接近1,即让判别器以为是真实的图片。所以G的训练目标是将D错误的概率最大化。min?max?,?log?1?当对生成器生成器G进行优化进行优化时,要让函数取值最小,因此有,?priorRealImageDiscriminatorNetwork?GeneratorNetwork?GeneratedImageReal/Fake?TrainingsetGAN的训练算法Goodfellow,Ian;Pouget-Abadie,Jean;Mirza,Mehdi;Xu,Bing;Warde-Farley,David;Ozair,Sherjil;Courville,Aaron;Bengio,Yoshua
15、(2014).Generative Adversarial Networks(PDF).Proceedings of the International Conference on Neural InformationProcessing Systems(NIPS 2014).pp.26722680.固定生成器G,更新判别器D;固定判别器D,更新生成器G。GAN训练中的参数更新priorTrainingSetRealImageDiscriminatorNetwork?GeneratorNetwork?GeneratedImage?当训练生成模型时:此时,判别器参数不更新此时,判别器参数不更新prior当训练判别模型时:TrainingSetRealImageDiscriminatorNetwork?GeneratorNetwork?GeneratedImage?此时,生成器参数不更新此时,生成器参数不更新GAN在MNIST上的运行效果 https:/ TensorFlow1.0 Python3Thanks!33