《TensorFlow 深度学习笔记 从线性分类器到深度神经网络.docx》由会员分享,可在线阅读,更多相关《TensorFlow 深度学习笔记 从线性分类器到深度神经网络.docx(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Limit of Linear Model实际要调整的参数很多LideaR HoTGl cofiplcx”2SAf=bi_ . .中0丁NU16印51,好ReneT碎 s?管5。二 Z 京28x1K1。如果有N个Class , K个Label z需要调整的参数就有(N + 1)K个 Linear Model不能应对非线性的问题lMerr models rhe .二w /y 二 x 内 x Linear Model 的好处GPU就是设计用于大矩阵相乘的,因此它们用来计算LinearModel 常 efficientStable : input的微小改变不会很大地影响outputy 二京 X y
2、I w|ax,仅UVPED 7 求导方便:线性求导是常数A7AXA7AXGOUST4UJTS41 J /二 Aw我们希望参数函数是线性的,但整个model是非线性的 所以需要对各个线性模型做非线性组合最简单的非线性组合:分段线性函数(RELU )RICriFiED l/rEAR 0Mi-T5(REL。)Neural network用一个RELU作为中介,一个Linear Model的输出作为其输入,其输出作为另一个Linear Model的输入,使其能够解决非线性问题NEURAL神经网络并不一定要完全像神经元那样工作神经网络并不一定要完全像神经元那样工作 Chain Rule :复合函数求导规
3、律PRODUCT计算trainjoss时,数据正向流入,计算梯度时,逆向计算DERIVATIVELots of data reuse and easy to implement ( a simple datapipeline )Back propagation3ack - PRoPRGflmoQFOR 3出介 计算梯度需要的内存和计算时间是计算trainjoss的两倍Deep Neural NetworkCurrent two layer neural network:2-LAW& ZEURRL MET20&K优化: 优化RELU(隐藏层),wider增加 linear 层 z layer d
4、eeperDEEP MZ=VbJoPvK5X /口,口X 口口3 口卜 Performance: few parameters by deeper随层级变高,获得的信息越综合,越符合目标DEEP MZSTbJoPvKS,口口T同About t-model t-model只有在有大量数据时有效今天我们才有高效的大数据训练方法:Better Regularization 难以决定适应问题的神经网络的规模,因此通常选择更大的规模,并防止过拟合Avoid OverfitEarly Termination 当训练结果与验证集符合度下降时,就停止训练E 仔RI ?TERRiuATiOURegulation
5、给神经网络里加一些常量,做一些限制,减少自由的参数 L2 regularization上 REGULRRBffTioB在计算train loss时,增加一个12 norm作为新的损失,这里需要乘一个0(Hyper parameter) z调整这个新的项的值Hyper parameter :拍脑袋参数一二 12模的导数容易计算,即W本身DropOut最近才出现,效果极 其好从一个 layer 到另一於 layer 的 value 被称为 activation 将一个layer到另一个layer的value的中,随机地取一半的数据 变为0 ,这其实是将一半的数据直接丢掉由于数据缺失,所以就强迫了神经网络学习redundant的知识, 以作为损失局部的补充.由于神经网络中总有其他局部作为损失局部的补充,所以最后的结 果还是0K的More robust and prevent overfit.如果这种方法不能生效,那可能就要使用更大的神经网络了评估神经网络时,就不需要DropOut,因为需要确切的结果 可以将所有Activation做平均,作为评估的依据因为我们在训练时去掉了一半的随机数据,如果要让得到Activation正确量级的平均值,就需要将没去掉的数据翻倍“aG。一 2 0 c 2。(囚3义(。乐。1poijyoW2委 g。- G。W G。-尔飞Q& N。够y 0|