《人工神经网络ppt课件.ppt》由会员分享,可在线阅读,更多相关《人工神经网络ppt课件.ppt(80页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、人工神经网络ppt课件 Still waters run deep.流静水深流静水深,人静心深人静心深 Where there is life,there is hope。有生命必有希望。有生命必有希望概述人工神经网络提供了一种普遍且实用的方法从样例中学习值为实数、离散值或向量的函数反向传播算法,使用梯度下降来调节网络参数以最佳拟合由输入-输出对组成的训练集合人工神经网络对于训练数据中的错误健壮性很好人工神经网络已被成功应用到很多领域,例如视觉场景分析,语音识别,机器人控制2003.12.182机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏简介神经网络学习对于逼近
2、实数值、离散值或向量值的目标函数提供了一种健壮性很强的方法对于某些类型的问题,如学习解释复杂的现实世界中的传感器数据,人工神经网络是目前知道的最有效的学习方法反向传播算法成功例子,学习识别手写字符,学习识别口语,学习识别人脸2003.12.183机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏生物学动机ANN受到生物学的启发,生物的学习系统是由相互连接的神经元组成的异常复杂的网络。ANN由一系列简单的单元相互密集连接构成的,其中每一个单元有一定数量的实值输入,并产生单一的实数值输出人脑的构成,大约有1011个神经元,平均每一个与其他104个相连神经元的活性通常被通向
3、其他神经元的连接激活或抑制最快的神经元转换时间比计算机慢很多,然而人脑能够以惊人的速度做出复杂度惊人的决策很多人推测,生物神经系统的信息处理能力一定得益于对分布在大量神经元上的信息表示的高度并行处理2003.12.184机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏生物学动机(2)ANN系统的一个动机就是获得这种基于分布表示的高度并行算法ANN并未模拟生物神经系统中的很多复杂特征ANN的研究分为两个团体使用ANN研究和模拟生物学习过程获得高效的机器学习算法,不管这种算法是否反映了生物过程本书属于后一个研究团体2003.12.185机器学习-人工神经网络 作者:Mi
4、tchell 译者:曾华军等 讲者:陶晓鹏神经网络表示ALVINN系统Pomerleau 1993使用一个学习到的ANN以正常的速度在高速公路上驾驶汽车ANN的输入是一个30 x32像素的网格,输出是车辆行进的方向每个节点对应一个网络单元的输出,而从下方进入节点的实线为其输入隐藏单元,输出仅在网络内部,不是整个网络输出的一部分每个输出单元对应一个特定的驾驶方向,这些单元的输出决定哪一个方向是被最强烈推荐的2003.12.186机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏神经网络表示(2)ALVINN是很多ANN的典型结构,所有单元分层互连形成一个有向无环图通常,
5、ANN图结构可以有很多种类型无环或有环有向或无向本章讨论以反向传播算法为基础的ANN方法反向传播算法假定网络是一个固定结构,对应一个有向图,可能包含环ANN学习就是为图中每一条边选取权值大多数实际应用与ALVINN相似2003.12.187机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏适合神经网络学习的问题训练集合为含有噪声的复杂传感器数据,例如来自摄像机和麦克风需要较多符号表示的问题,例如决策树学习的任务,能够取得和决策树学习大体相当的结果反向传播算法是最常用的ANN学习技术2003.12.188机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲
6、者:陶晓鹏反向传播算法适合问题的特征实例是用很多“属性-值”对表示的目标函数的输出可能是离散值、实数值或者由若干实数属性或离散属性组成的向量训练数据可能包含错误可容忍长时间的训练可能需要快速求出目标函数值人类能否理解学到的目标函数是不重要的2003.12.189机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏本章余后部分提纲讨论训练单个单元的学习算法介绍组成神经网络的几种主要单元感知器(perceptron)线性单元(liner unit)sigmoid单元(sigmoid unit)给出训练多层网络的反向传播算法考虑几个一般性问题ANN的表征能力假设空间搜索的本质
7、特征过度拟合问题反向传播算法的变体例子,利用反向传播算法训练识别人脸的ANN2003.12.1810机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏感知器一种类型的ANN系统是以感知器为基础感知器以一个实数值向量作为输入,计算这些输入的线性组合,如果结果大于某个阈值,就输出1,否则输出-1其中每个wi是一个实数常量,或叫做权值,用来决定输入xi对感知器输出的贡献率。特别地,-w0是阈值。2003.12.1811机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏感知器(2)两种简化形式,附加一个常量输入x0=1,前面的不等式写成 或写成向量形
8、式 为了简短起见,把感知器函数写为其中,2003.12.1812机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏感知器(3)学习一个感知器意味着选择权w0,wn的值。所以感知器学习要考虑的候选假设空间H就是所有可能的实数值权向量的集合 2003.12.1813机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏感知器的表征能力可以把感知器看作是n维实例空间(即点空间)中的超平面决策面对于超平面一侧的实例,感知器输出1,对于另一侧的实例,输出-1这个决策超平面方程是可以被某个超平面分割的样例集合,称为线性可分样例集合2003.12.1814机器
9、学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏感知器的表征能力(2)单独的感知器可以用来表示很多布尔函数表示m-of-n函数感知器可以表示所有的原子布尔函数:与、或、与非、或非然而,一些布尔函数无法用单一的感知器表示,例如异或2003.12.1815机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏感知器的表征能力(3)因为所有的布尔函数都可表示为基于原子函数的互连单元的某个网络,因此感知器网络可以表示所有的布尔函数。事实上,只需要两层深度的网络,比如表示析取范式注意,要把一个AND感知器的输入求反只要简单地改变相应输入权的符号因为感知器网络
10、可以表示大量的函数,而单独的单元不能做到这一点,所以我们感兴趣的是学习感知器组成的多层网络2003.12.1816机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏感知器训练法则虽然我们的目的是学习由多个单元互连的网络,但我们还是要从如何学习单个感知器的权值开始单个感知器的学习任务,决定一个权向量,它可以使感知器对于给定的训练样例输出正确的1或-1我们主要考虑两种算法感知器法则delta法则这两种算法保证收敛到可接受的假设,在不同的条件下收敛到的假设略有不同这两种算法提供了学习多个单元构成的网络的基础2003.12.1817机器学习-人工神经网络 作者:Mitchel
11、l 译者:曾华军等 讲者:陶晓鹏感知器法则算法过程从随机的权值开始反复应用这个感知器到每个训练样例,只要它误分类样例就修改感知器的权值重复这个过程,直到感知器正确分类所有的训练样例感知器训练法则 其中 2003.12.1818机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏感知器法则(2)为什么这个更新法则会成功收敛到正确的权值呢?一些例子可以证明(Minskey&Papert 1969)如果训练样例线性可分,并且使用了充分小的否则,不能保证2003.12.1819机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏梯度下降和delta法则d
12、elta法则克服感应器法则的不足,在线性不可分的训练样本上,收敛到目标概念的最佳近似delta法则的关键思想是,使用梯度下降来搜索可能的权向量的假设空间,以找到最佳拟合训练样例的权向量delta法则为反向传播算法提供了基础,而反向传播算法能够学习多个单元的互连网络对于包含多种不同类型的连续参数化假设的假设空间,梯度下降是必须遍历这样的空间的所有算法的基础2003.12.1820机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏梯度下降和delta法则(2)把delta训练法则理解为训练一个无阈值的感知器 指定一个度量标准来衡量假设相对于训练样例的训练误差 第6章给出了
13、选择这种E定义的一种贝叶斯论证,在一定条件下,使E最小化的假设就是H中最可能的假设2003.12.1821机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏可视化假设空间图4-4根据E的定义,误差曲面是一个抛物面,存在一个单一全局最小值梯度下降搜索从一个任意的初始权向量开始,然后沿误差曲面最陡峭下降的方向,以很小的步伐反复修改这个向量,直到得到全局的最小误差点2003.12.1822机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏梯度下降法则的推导如何发现沿误差曲面最陡峭下降的方向?通过计算E相对向量 的每个分量的导数,这个向量导数被称为E
14、对于 的梯度,记作当梯度被解释为权空间的一个向量时,它确定了使E最陡峭上升的方向,所以这个向量的反方向给出了最陡峭下降的方向梯度训练法则 其中,2003.12.1823机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏梯度下降法则的推导(2)需要一个高效的方法在每一步都计算这个梯度 梯度下降权值更新法则 2003.12.1824机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏梯度下降法则的推导(3)表4-1,训练线性单元的梯度下降算法Gradient-Descent(training_examples,)training_examples中
15、每个训练样例形式为序偶,是输入值向量,t是目标输出值,是学习速率初始化每个wi为某个小的随机值遇到终止条件之前,做以下操作初始化每个wi为0对于训练样例training_examples中的每个,做把实例 输入到此单元,计算输出o对于线性单元的每个权增量wi,做wiwi+(t-o)xi对于线性单元的每个权wi,做wiwi+wi2003.12.1825机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏梯度下降法则的推导(4)梯度下降算法如下选取一个初始的随机权向量应用线性单元到所有的训练样例,根据公式4.7计算每个权值的 更新权值因为误差曲面仅包含一个全局的最小值,所以
16、无论训练样例是否线性可分,算法都会收敛到具有最小误差的权向量,条件是使用足够小的学习速率算法的一种常用改进方法是随着梯度下降步数的增加逐渐减小学习速率2003.12.1826机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏梯度下降的随机近似梯度下降是一种重要的通用学习范型,它是搜索庞大假设空间或无限假设空间一种策略梯度下降应用于满足以下条件的任何情况假设空间包含连续参数化的假设误差对于这些假设参数可微梯度下降的主要实践问题有时收敛过程可能非常慢如果在误差曲面上有多个局部极小值,那么不能保证找到全局最小值2003.12.1827机器学习-人工神经网络 作者:Mitch
17、ell 译者:曾华军等 讲者:陶晓鹏梯度下降的随机近似(2)随机梯度下降(或称增量梯度下降)根据某个单独样例的误差增量计算权值更新,得到近似的梯度下降搜索(随机取一个样例)对表4-1算法的修改可以看作为每个单独的训练样例定义不同的误差函数在迭代所有训练样例时,这些权值更新的序列给出了对于原来误差函数的梯度下降的一个合理近似通过使下降速率的值足够小,可以使随机梯度下降以任意程度接近于真实梯度下降2003.12.1828机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏梯度下降的随机近似(2)标准梯度下降和随机梯度下降之间的关键区别标准梯度下降是在权值更新前对所有样例汇总
18、误差,而随机梯度下降的权值是通过考查每个训练样例来更新的在标准梯度下降中,权值更新的每一步对多个样例求和,需要更多的计算(?)标准梯度下降,由于使用真正的梯度,标准梯度下降对于每一次权值更新经常使用比随机梯度下降大的步长如果标准误差曲面有多个局部极小值,随机梯度下降有时可能避免陷入这些局部极小值中实践中,标准和随机梯度下降方法都被广泛应用2003.12.1829机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏梯度下降的随机近似(3)delta法则(增量法则),又称LMS法则、Adaline法则、Windrow-Hoff法则公式4.10与4.4.2节的感知器法则的相似
19、和区别delta法则可以学习非阈值线性单元的权,也可以用来训练有阈值的感知器单元。如果非阈值输出能够被训练到完美拟合这些值,那么阈值输出也会完美拟合它们即使不能完美地拟合目标值,只要线性单元的输出具有正确的符号,阈值输出就会正确拟合目标值尽管这个过程会得到使线性单元输出的误差最小化的权值,但这些权值不能保证阈值输出的误差最小化(?)2003.12.1830机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏感知器学习小结感知器法则和delta法则的关键差异前者根据阈值化的感知器输出的误差更新权值后者根据输入的非阈值化线性组合的误差来更新权值这个差异带来不同的收敛特性前者
20、经过有限次的迭代收敛到一个能理想分类训练数据的假设,条件是训练样例线性可分后者可能经过极长的时间,渐近收敛到最小误差假设,但无论训练样例是否线性可分都会收敛2003.12.1831机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏感知器学习小结(2)学习权向量的第3种方法是线性规划线性规划是解线性不等式方程组的一种通用的有效方法这种方法仅当训练样例线性可分时有解Duda和Hart给出了一种更巧妙的适合非线性可分的情况的方法更大的问题是,无法扩展到训练多层网络,而delta法则可以很容易扩展到多层网络2003.12.1832机器学习-人工神经网络 作者:Mitchell
21、 译者:曾华军等 讲者:陶晓鹏多层网络和反向传播算法多层网络能够表示种类繁多的非线性曲面图4-5描述了一个典型的多层网络和它的决策曲面2003.12.1833机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏可微阈值单元使用什么类型的单元来构建多层网络?多个线性单元的连接仍产生线性函数,而我们希望构建表征非线性函数的网络感知器单元可以构建非线性函数,但它的不连续阈值使它不可微,不适合梯度下降算法我们需要的单元满足的条件输出是输入的非线性函数输出是输入的可微函数Sigmoid单元,类似于感知器单元,但基于一个平滑的可微阈值函数2003.12.1834机器学习-人工神经网
22、络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏可微阈值单元(2)图4-6sigmoid单元先计算它的输入的线性组合,然后应用到一个阈值上,阈值输出是输入的连续函数 其中 2003.12.1835机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏可微阈值单元(3)sigmoid函数也称logistic函数挤压函数输出范围是0到1单调递增导数很容易用函数本身表示sigmoid函数的变型其他易计算导数的可微函数增加陡峭性双曲正切函数2003.12.1836机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏反向传播算法用来学习多层网络的权值
23、采用梯度下降方法试图最小化网络输出值和目标值之间的误差平方网络的误差定义公式,对所有网络输出的误差求和 2003.12.1837机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏反向传播算法(2)反向传播算法面临的学习任务搜索一个巨大的假设空间,这个空间由网络中所有的单元的所有可能的权值定义,得到类似图4-4的误差曲面在多层网络中,误差曲面可能有多个局部极小值,梯度下降仅能保证收敛到局部极小值尽管有这个障碍,已经发现对于实践中很多应用,反向传播算法都产生了出色的结果2003.12.1838机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏反向
24、传播算法(3)表4-2包含两层sigmoid单元的前馈网络的反向传播算法BackPropagation(training_examples,nin,nout,nhidden)training_examples是序偶的集合,是网络输入值向量,是目标输出值。是学习速率,nin是网络输入的数量,nhidden是隐藏层单元数,nout是输出单元数,从单元i到单元j的输入表示为xji,单元i到单元j的权值表示为wji。创建具有nin个输入,nhidden个隐藏,nout个输出单元的网络初始化所有的网络权值为小的随机值在遇到终止条件前对于训练样例training_examples中的每个:把输入沿网络前向
25、传播把实例 输入网络,并计算网络中每个单元u的输出ou使误差沿网络反向传播对于网络的每个输出单元k,计算它的误差项kok(1-ok)(tk-ok)对于网络的每个隐藏单元h,计算它的误差项hoh(1-oh)更新每个网络权值wjiwji+wji,其中wji=jxji2003.12.1839机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏反向传播算法(4)表4-2给出的反向传播算法适用于包含两层sigmoid单元的分层前馈网络,并且每一层的单元与前一层的所有单元相连。表4-2是反向传播算法的增量梯度下降(或随机梯度下降)版本使用的符号做了如下扩展网络中每个节点被赋予一个序
26、号,这里的节点要么是网络的输入,要么是网络中某个单元的输出xji表示节点i到单元j的输入,wji表示对应的权值n表示与单元n相关联的误差项。2003.12.1840机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏表4-2的算法解释从建立一个具有期望数量的隐藏单元和输出单元的网络并初始化所有的网络的权值为小的随机数开始给定一个固定的网络结构,算法的主循环就对训练样例进行反复的迭代对于每一个训练样例,它应用目前的网络到这个样例,计算出对这个样例网络输出的误差,然后更新网络中所有的权值对这样的梯度下降步骤进行迭代,直到网络的性能达到可接受的精度为止2003.12.1841
27、机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏反向传播算法的梯度下降法则表4-2的梯度下降权更新法则与delta训练法则相似类似delta法则,依照以下三者来更新每一个权学习速率该权值涉及的输入值xji该单元的输出误差不同于delta法则的地方delta法则中的误差项被替换成一个更复杂的误差项j2003.12.1842机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏反向传播算法的误差项输出单元k的误差项k与delta法则中的(tk-ok)相似,但乘上了sigmoid挤压函数的导数ok(1-ok)。隐藏单元h的误差项因为训练样例仅对网络的
28、输出提供了目标值tk,所以缺少直接的目标值来计算隐藏单元的误差值采取以下的间接方法计算隐藏单元的误差项:对受隐藏单元h影响的每一个单元的误差k进行加权求和,每个误差k权值为wkh,wkh就是从隐藏单元h到输出单元k的权值。这个权值刻画了隐藏单元h对于输出单元k的误差应负责的程度。2003.12.1843机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏表4-2的算法解释(2)表4-2的算法随着每个训练样例的出现而递增地更新权,这一点与梯度下降的随机近似算法一致要取得误差E的真实梯度,需要在修改权值之前对所有训练样例的jxji值求和在典型的应用中,权值的更新迭代会被重复
29、上千次有很多终止条件可以用来停止这个过程迭代的次数到了一个固定值时停止当在训练样例上的误差降到某个阈值以下在分离的验证样例集合上的误差符合某个标准终止条件很重要,太少的迭代无法有效地降低误差,太多的迭代会导致对训练数据的过度拟合2003.12.1844机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏增加冲量项因为反向传播算法的应用如此广泛,所以已经开发出了很多反向传播算法的变体修改权值更新法则,使第n次迭代时的权值的更新部分地依赖于发生在第n-1次迭代时的更新,比如wji(n)=jxji+wji(n-1)右侧第一项就是表4-2中的权值更新法则,第二项被称为冲量项梯度
30、下降的搜索轨迹就像一个球沿误差曲面滚下,冲量使球从一次迭代到下一次迭代时以同样的方向滚动冲量有时会使这个球滚过误差曲面的局部极小值或平坦区域冲量也具有在梯度不变的区域逐渐增大搜索步长的效果,从而加快收敛2003.12.1845机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏学习任意的无环网络表4-2的算法可以简单地推广到任意深度的前馈网络第m层的单元r的r值由更深的第m+1层值根据下式计算将这个算法推广到任何有向无环结构也同样简单,而不论网络中的单元是否被排列在统一的层上,计算任意内部单元的的法则是:,Downstream(r)是在网络中单元r的直接下游单元的集合,
31、即输入中包括r的输出的所有单元2003.12.1846机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏反向传播法则的推导随机梯度下降算法迭代处理训练样例,每次处理一个,对于每个训练样例d,利用关于这个样例的误差Ed的梯度修改权值2003.12.1847机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏符号说明xji,单元j的第i个输入wji,与xji相关联的权值netj,单元j的输入的加权和oj,单元j计算出的输出tj,单元j的目标输出,sigmoid函数outputs,网络最后一层的输出单元的集合Downstream(j),单元j的输出到
32、达的单元的集合2003.12.1848机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏随机梯度下降法则的推导,分情况讨论的推导输出单元2003.12.1849机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏随机梯度下降法则的推导()隐藏单元2003.12.1850机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏收敛性和局部极小值对于多层网络,误差曲面可能含有多个不同的局部极小值,梯度下降可能陷入这些局部极小值中的任何一个对于多层网络,反向传播算法仅能保证收敛到误差E的某个局部极小值,不一定收敛到全局最小误差尽管
33、缺乏对收敛到全局最小误差的保证,反向传播算法在实践中仍是非常有效的函数逼近算法2003.12.1851机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏收敛性和局部极小值()网络的权越多,误差曲面的维数越多,也就越可能为梯度下降提供更多的逃逸路线考虑随着训练中迭代次数的增加网络权值的演化方式如果把网络的权值初始化为接近于0的值,那么在早期的梯度下降步骤中,网络将表现为一个非常平滑的函数,近似为输入的线性函数,这是因为sigmoid函数本身在权值靠近0时接近线性仅当权值增长一定时间后,它们才会到达可以表示高度非线性网络函数的程度,可以预期在这个能表示更复杂函数的权空间区
34、域存在更多的局部极小值但是当权到达这一点时,它们已经足够靠近全局最小值,即便它是这个区域的局部最小值也是可以接受的2003.12.1852机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏收敛性和局部极小值(3)用来缓解局部极小值问题的启发式规则为梯度更新法则加一个冲量,可以带动梯度下降过程,冲过狭窄的局部极小值(原则上,也可能冲过狭窄的全局最小值)使用随机的梯度下降而不是真正的梯度下降。随机近似对于每个训练样例沿一个不同的误差曲面有效下降,这些不同的误差曲面通常有不同的局部极小值,这使得下降过程不太可能陷入一个局部极小值使用同样的数据训练多个网络,但用不同的随机权值
35、初始化每个网络。如果不同的训练产生不同的局部极小值,那么对分离的验证集合性能最好的那个网络将被选中,或者保留所有的网络,输出是所有网络输出的平均值2003.12.1853机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏前馈网络的表征能力布尔函数:任何布尔函数可以被具有两层单元的网络准确表示,尽管在最坏情况下所需隐藏单元的数量随着网络输入数量的增加成指数级增长。考虑下面的通用方案:对于每一个可能的输入向量,创建不同的隐藏单元,并设置它的权值使当且仅当这个特定的向量输入到网络时该单元被激活,这样就产生了一个对于任意输入仅有一个单元被激活的隐藏层,然后把输出单元实现为一个
36、仅由所希望的输入模式激活的或门。2003.12.1854机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏前馈网络的表征能力(2)连续函数:每个有界的连续函数可以由一个两层的网络以任意小的误差逼近。这个结论适用于在隐藏层使用sigmoid单元、在输出层使用(非阈值)线性单元的网络。所需的隐藏单元数量依赖于要逼近的函数。任意函数:任意函数可以被一个有三层单元的网络以任意精度逼近。两个隐藏层使用sigmoid单元,输出层使用线性单元,每层所需单元数不确定。证明方法:首先说明任意函数可以被许多局部化函数的线性组合逼近,这些局部化函数的值除了某个小范围外都为0;然后说明两层的
37、sigmoid单元足以产生良好的局部逼近注意:梯度下降从一个初始值开始,因此搜索范围里的网络权向量可能不包含所有的权向量2003.12.1855机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏假设空间搜索和归纳偏置反向传播算法的假设空间是n个网络权值形成的n维欧氏空间。这个空间是连续的,与决策树学习和其他基于离散表示的方法的假设空间不同假设空间的连续性以及误差E关于假设的连续参数可微,导致了一个定义良好的误差梯度,为最佳假设的搜索提供了一个非常有用的结构。精确地刻画出反向传播学习的归纳偏置是有难度的,它依赖于梯度下降搜索和权空间覆盖可表征函数空间的方式的相互作用性把
38、这一偏置粗略地刻画为在数据点之间平滑插值。如果给定两个正例,它们之间没有反例,反向传播算法会倾向于把这两点之间的点也标记为正例2003.12.1856机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏隐藏层表示反向传播算法的一个迷人特性是:它能够在网络内部的隐藏层发现有用的中间表示训练样例仅包含网络输入和输出,权值调节的过程可以自由地设置权值,来定义任何隐藏单元表示,这些隐藏单元表示在使误差E达到最小时最有效。引导反向传播算法定义新的隐藏层特征,这些特征在输入中没有明确表示出来,但能捕捉输入实例中与学习目标函数最相关的特征多层网络在隐藏层自动发现有用表示的能力是ANN
39、学习的一个关键特性。允许学习器创造出设计者没有明确引入的特征。网络中使用的单元层越多,就可以创造出越复杂的特征2003.12.1857机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏泛化、过度拟合和停止判据权值更新算法的终止条件一种选择是,对训练样例的误差降低至某个预先定义的阈值之下这不是一个好的策略,因为反向传播算法容易过度拟合训练样例,降低对于其他未见实例的泛化精度泛化精度:网络拟合训练数据外的实例的精度图4-9,尽管在训练样例上的误差持续下降,但在验证样例上测量到的误差先下降,后上升。因为这些权值拟合了训练样例的“特异性”,而这个特异性对于样例的一般分布没有代
40、表性。ANN中大量的权值参数为拟合这样的“特异性”提供了很大的自由度2003.12.1858机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏过度拟合为什么过度拟合发生在迭代的后期,而不是早期?设想网络的权值是被初始化为小随机值的,使用这些几乎一样的权值仅能描述非常平滑的决策面随着训练的进行,一些权值开始增长,以降低在训练数据上的误差,同时学习到的决策面的复杂度也在增加如果权值调整迭代次数足够多,反向传播算法可能会产生过度复杂的决策面,拟合了训练数据中的噪声和训练样例中没有代表性的特征2003.12.1859机器学习-人工神经网络 作者:Mitchell 译者:曾华军
41、等 讲者:陶晓鹏过度拟合解决方法权值衰减它在每次迭代过程中以某个小因子降低每个权值,这等效于修改E的定义,加入一个与网络权值的总量相应的惩罚项,此方法的动机是保持权值较小,从而使学习过程向着复杂决策面的反方向偏置验证数据一个最成功的方法是在训练数据外再为算法提供一套验证数据,应该使用在验证集合上产生最小误差的迭代次数,不是总能明显地确定验证集合何时达到最小误差2003.12.1860机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏过度拟合解决方法(2)一般而言,过度拟合是一个棘手的问题交叉验证方法在可获得额外的数据提供验证集合时工作得很好,但是小训练集合的过度拟合问
42、题更为严重k-fold交叉方法把训练样例分成k份,然后进行k次交叉验证过程,每次使用不同的一份作为验证集合,其余k-1份合并作为训练集合。每个样例会在一次实验中被用作验证样例,在k-1次实验中被用作训练样例每次实验中,使用上面讨论的交叉验证过程来决定在验证集合上取得最佳性能的迭代次数,然后计算这些迭代次数的均值最后,运行一次反向传播算法,训练所有m个实例并迭代 次2003.12.1861机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏举例:人脸识别训练样例20个不同人的摄影图像每个人大约32张图像不同的表情快乐、沮丧、愤怒、中性不同的方向左、右、正前、上不同的穿戴是
43、否带眼镜共624幅灰度图像分辨率为120 x128,每个像素使用0(黑)到255(白)的灰度值描述任务:学习图像中人脸的朝向2003.12.1862机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏人脸识别设计要素输入编码ANN的输入必然是图像的某种表示,那么设计的关键是如何编码这幅图像例如,可以对图像进行预处理,分解出边缘、亮度一致的区域或其他局部图像特征,然后把这些特征输入网络,问题是导致每幅图像有不同数量的特征参数,而ANN具有固定数量的输入单元把图像编码成固定的30 x32像素的亮度值,每个像素对应一个网络输入,把范围是0到255的亮度值按比例线性缩放到0到1
44、的区间内,以使网络输入和隐藏单元、输出单元在同样的区间取值。2003.12.1863机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏人脸识别设计要素(2)输出编码ANN必须输出4个值中的一个来表示输入图像中人脸的朝向可以使用单一的输出单元来编码这4种情况这里使用4个不同的输出单元,每一个对应4种可能朝向中的一种,取具有最高值的输出作为网络的预测值。称为1-of-n输出编码选择1-of-n的原因为网络表示目标函数提供了更大的自由度最高值输出和次高值输出间的差异可以作为对网络预测的置信度2003.12.1864机器学习-人工神经网络 作者:Mitchell 译者:曾华军
45、等 讲者:陶晓鹏人脸识别设计要素(3)输出单元的目标值一个显而易见的方法,.这里使用的方法,.避免使用0和1作为目标值的原因sigmoid单元对于有限权值不能产生这样的输出如果企图训练网络来准确匹配目标值0和1,梯度下降将会迫使权值无限增长0.1和0.9是sigmoid单元在有限权值情况下可以完成的2003.12.1865机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏人脸识别设计要素(4)网络结构图网络包含多少个单元以及如何互连?最普遍的结构是分层网络,一层的每个单元向前连接到下一层的每一个单元目前采用了包含两层sigmoid单元的标准结构隐藏单元的数量3个,达到
46、90%的精度,训练时间约5分钟30个,提高12个百分点,训练时间约1个小时实践发现,需要某个最小数量的隐藏单元来精确地学习目标函数,并且超过这个数量的多余的隐藏单元不会显著地提高泛化精度如果没有使用交叉验证,那么增加隐藏单元数量经常会增加过度拟合训练数据的倾向,从而降低泛化精度2003.12.1866机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏人脸识别设计要素(5)学习算法的其他参数学习速率设定为0.3,冲量设定为0.3赋予这两个参数更低的值会产生大体相当的泛化精度,但需要更长的训练时间如果赋予更高的值,训练将不能收敛到一个具有可接受误差的网络适用完全的梯度下降
47、输出单元的权值被初始化为小的随机值输入单元的权值被初始化为0训练的迭代次数的选择可以通过分割可用的数据为训练集合和验证集合来实现最终选择的网络是对验证集合精度最高的网络最终报告的精度是在没有对训练产生任何影响的第三个集合测试集合上测量得到的2003.12.1867机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏学习到的隐藏层表示图中紧挨人脸图像下的4个矩形,每个矩形描绘了网络中4个输出单元中的一个权值,每个矩形中的4个小方形表示和这个输出单元关联的4个权值隐藏单元的权值显示在输出单元的下边,每个隐藏单元接受所有30 x32个像素输入。与这些输入关联的30 x32个权
48、值被显示在它们对应的像素的位置针对每一个训练样例,梯度下降迭代100次后的网络权值显示在图的下部。如果一个人的脸是转向他的右面,那么他的亮度高的皮肤会大致与这个隐藏单元中的较大正值对齐,同时他的亮度低的头发会大致与负权值对齐,这导致此单元输出一个较大的值,同样的图像会使第3个隐藏单元输出一个接近0的值。2003.12.1868机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏其他可选的误差函数为权值增加一个惩罚项把一个随着权向量幅度增长的项加入到E中,这导致梯度下降搜寻较小的权值向量,从而减小过度拟合的风险,等价于使用权衰减策略 对误差增加一项目标函数的斜率或导数某些
49、情况下,训练信息中不仅有目标值,而且还有关于目标函数的导数 2003.12.1869机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏其他可选的误差函数(2)使网络对目标值的交叉熵最小化比如根据借贷申请者的年龄和存款余额,预测他是否会还贷,目标函数最好以申请者还贷的概率的形式输出,而不是输出明确的0和1。在这种情况下,可以证明最小化交叉熵的网络可以给出最好的概率估计。交叉熵定义如下:第6章讨论了何时及为什么最可能的网络假设就是使交叉熵最小化的假设,并推导了相应的sigmoid单元的梯度下降权值调整法则,还描述了在什么条件下最可能的假设就是使误差平方和最小化的假设。20
50、03.12.1870机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏其他可选的误差函数(3)通过权值共享改变有效误差函数把与不同单元或输入相关联的权“捆绑在一起”,强迫不同的网络权值取一致的值,通常是为了实施人类设计者事先知道的某个约束约束了假设的潜在空间,减小了过度拟合的风险实现方法,首先在共享权值的每个单元分别更新各个权值,然后取这些权值的平均,再用这个平均值替换每个需要共享的权值。被共享的权值比没有共享的权值更有效地适应一个不同的误差函数2003.12.1871机器学习-人工神经网络 作者:Mitchell 译者:曾华军等 讲者:陶晓鹏其他可选的误差最小化过程