《机器学习.pptx》由会员分享,可在线阅读,更多相关《机器学习.pptx(92页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1机器学习学习 学习是人类获取知识的重要途径和自然智能 是人类获取知识的重要途径和自然智能的重要标志,机器学习则是机器获取知识的 的重要标志,机器学习则是机器获取知识的重要途径和人工智能的重要标志。重要途径和人工智能的重要标志。什么是机器学习 是寻找一种对自然/人工主题、现象或活动可预测且/或可执行的机器理解方法2什么是机器学习 研究计算机怎样模拟或实现人类(动物)的学习行为,以获取新的知识或技能 重新组织已有的知识结构使之不断改善自身的性能 是人工智能的核心,是使计算机具有智能的根本途径 其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎3机器学习的一个形象描述4机器学习的一般泛型
2、 监督学习 监督学习 必须预先知道学习的期望结果,并依此按照某一学习规则来修正权值。知道输入数据,知道结果,用函数预测个例无监督学习,不知道结果,根据数据特征分类 半监督学习 半监督学习 是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。输入数据不可靠,依据权重的调整进行训练。强化学习 强化学习 利用某一表示“奖惩”的全局信号,衡量与强化输入相关的局部决策如何。(输入输出之间没有固定的函数)5监督学习决策树(简单问题)人工神经网络(大量样本)支持向量机(小样本)决策树学习 决策树学习1什么是决策树决策树(decision tre
3、e)也称判定树,它是由对象的若干属性、属性值和有关决策组成的一棵树。其中的节点为属性(一般为语言变量),分枝为相应的属性值(一般为语言值)。从同一节点出发的各个分枝之间是逻辑“或”关系;根节点为对象的某一个属性;从根节点到每一个叶子节点的所有节点和边,按顺序串连成一条分枝路径,位于同一条分枝路径上的各个“属性-值”对之间是逻辑“与”关系,叶子节点为这个与关系的对应结果,即决策。例如图1就是一棵决策树。其中,A,B,C代表属性,ai,bj,ck代表属性值,dl代表对应的决策。处于同一层的属性(如图中的B,C)可能相同,也可能不相同,所有叶子节点(如图中的dl,l=1,2,6)所表示的决策中也可能
4、有相同者。由图1不难看出,一棵决策树上从根节点到每一个叶子节点的分枝路径上的诸“属性-值”对和对应叶子节点的决策,刚好就构成一个产生式规则:诸“属性-值”对的合取构成规则的前提,叶子节点的决策就是规则的结论。例如,图1中从根节点A到叶子节点d2的这一条分枝路径就构成规则:(A=a1)(B=b2)=d2而不同分枝路径所表示的规则之间为析取关系。图1 决策树示意图 图 2 飞机起飞的简单决策树 例1 图3所示是一个描述“兔子”概念的决策树。图 3“兔子”概念的决策树 2.怎样学习决策树 决策树是一种知识表示形式,构造决策树可以由人来完成,但也可以由机器从一些实例中总结、归纳出来,即由机器学习而得。
5、机器学习决策树也就是所说的决策树学习。决策树学习是一种归纳学习。由于一棵决策树就表示了一组产生式规则,因此决策树学习也是一种规则学习。特别地,当规则是某概念的判定规则时,这种决策树学习也就是一种概念学习。决策树学习的基本方法和步骤是:首先,选取一个属性,按这个属性的不同取值对实例集进行分类;并以该属性作为根节点,以这个属性的诸取值作为根节点的分枝,进行画树。然后,考察所得的每一个子类,看其中的实例的结论是否完全相同。如果完全相同,则以这个相同的结论作为相应分枝路径末端的叶子节点;否则,选取一个非父节点的属性,按这个属性的不同取值对该子集进行分类,并以该属性作为节点,以这个属性的诸取值作为节点的
6、分枝,继续进行画树。如此继续,直到所分的子集全都满足:实例结论完全相同,而得到所有的叶子节点为止。这样,一棵决策树就被生成。下面我们进一步举例说明。表1 汽车驾驶保险类别划分实例集 可以看出,该实例集中共有12个实例,实例中的性别、年龄段和婚状为3个属性,保险类别就是相应的决策项。为表述方便起见,我们将这个实例集简记为 S=(1,C),(2,C),(3,C),(4,B),(5,A),(6,A),(7,C),(8,B),(9,A),(10,A),(11,B),(12,B)其中每个元组表示一个实例,前面的数字为实例序号,后面的字母为实例的决策项保险类别(下同)。另外,为了简洁,在下面的决策树中我们
7、用“小”、“中”、“大”分别代表“21”、“21且25”、“25”这三个年龄段。显然,S中各实例的保险类别取值不完全一样,所以需要将 S分类。对于 S,我们按属性“性别”的不同取值将其分类。由表1可见,这时S应被分类为两个子集:S1=(3,C),(4,B),(7,C),(8,B),(11,B),(12,B)S2=(1,C),(2,C),(5,A),(6,A),(9,A),(10,A)于是,我们得到以性别作为根节点的部分决策树(见图4(a)。考察S1和S2,可以看出,在这两个子集中,各实例的保险类别也不完全相同。这就是说,还需要对S1和S2进行分类。对于子集S1,我们按“年龄段”将其分类;同样,
8、对于子集S2,也按“年龄段”对其进行分类(注意:对于子集S2,也可按属性“婚状”分类)。分别得到子集S11,S12,S13和S21,S22,S23。于是,我们进一步得到含有两层节点的部分决策树(如图4(b)所示)。注意到,这时除了S12和S13外,其余子集中各实例的保险类别已完全相同。所以,不需再对其进行分类,而每一个子集中那个相同的保险类别值就可作为相应分枝的叶子节点。添上这些叶子节点,我们又进一步得到发展了的部分决策树(如图4(c)所示)。接着对S12和S13,按属性“婚状”进行分类(也只能按“婚状”进行分类)。由于所得子集S121,S121和S131,S132中再都只含有一个实例,因此无
9、需对它们再进行分类。这时这4个子集中各自唯一的保险类别值也就是相应分枝的叶子节点。添上这两个叶子节点,就得到如图4(d)所示的决策树。图4 决策树生成过程 图4 决策树生成过程 图4 决策树生成过程 图4 决策树生成过程 由这个决策树即得下面的规则集:女性且年龄在25岁以上,则给予A类保险.女性且年龄在21岁到25岁之间,则给予A类保险。女性且年龄在21岁以下,则给予C类保险。男性且年龄在25岁以上,则给予B类保险。男性且年龄在21岁到25岁之间且未婚,则给予C类保险。男性且年龄在21岁到25岁之间且已婚,则给予B类保险。男性且年龄在21岁以下且未婚,则给予C类保险。男性且年龄在21岁以下且已
10、婚,则给予B类保险。人工神经网络人工神经网络1 生物神经元及人工神经元的组成2 人工神经网络的模型 2.1 人工神经元的模型 2.2 常用的激活转移函数 2.3 MP模型神经元1、生物神经元及人工神经元的组成神经元也称神经细胞,它是生物神经系统的最基本单元,它和人体中其他细胞的关键区别在于具有产生、处理和传递信号的功能。每个神经元都包括三个主要部分:细胞体、树突和轴突,见图5(a)。(a)简单神经元网络图(b)简化后的网络示意图(1)细胞体;(2)树突;(3)轴突;(4)突触图5 简单神经元网络及其简化结构图目前目前多数人工神经网络的多数人工神经网络的构造大体构造大体上上都采用如下的一些原则:
11、都采用如下的一些原则:v 由一定数量的基本神经元分层联接;v 每个神经元的输入、输出信号以及综合处理内容都比较简单;v 网络的学习和知识存储体现在各神经元之间的联接强度上。2、人工神经网络的模型 2.1人工神经元的模型 神经元是人工神经网络的基本处理单元,它一般是一个多输入/单输出的非线性元件。神经元输出除受输入信号的影响外,同时也受到神经元内部因素的影响,所以在人工神经元的建模中,常常还加有一个额外输入信号,称为偏差,有时也称为阈值或门限值。神经元的输出矢量可以表示为:A=f(W*P+b)=f(wj pj+b)可以看出偏差被简单地加在W*P上作为激活函数的另一个输入分量。实际上偏差也是一个权
12、值,只是它具有固定常数为1的权值。在网络的设计中,偏差起着重要的作用,它使得激活函数的图形可以左右移动,从而增加了解决问题的可能性。人工神经网络的学习就是过程就是对它的训练过程2.2 激活转移函数激活转移函数f(Activation transfer function)简称激活函数,它是一个神经元及神经网络的核心之一。神经网络解决问题的能力与功效除了与网络结构有关外,在很大程度上取决于网络激活函数。线性函数、非线性斜面函数、阈值函数、S形函数人工神经网络人工神经网络 人工神经网络是对人类神经系统的一种模拟。尽管人类神经系统规模宏大、结构复杂、功能神奇,但其最基本的处理单元却只有神经元。人工神经
13、系统的功能实际上是通过大量神经元的广泛互连,以规模宏伟的并行运算来实现的。基于对人类生物系统的这一认识,人们也试图通过对人工神经元的广泛互连来模拟生物神经系统的结构和功能。人工神经元之间通过互连形成的网络称为人工神经网络。在人工神经网络中,神经元之间互连的方式称为连接模式或连接模型。它不仅决定了神经元网络的互连结构,同时也决定了神经网络的信号处理方式。人工神经网络的分类 目前,已有的人工神经网络模型至少有几十种,其分类方法也有多种。例如,若按网络拓扑结构,可分为无反馈网络与有反馈网络;若按网络的学习方法,可分为有导师学习网络和无导师学习网络;若按网络的性能,可分为连续型网络与离散型网络,或分为
14、确定性网络与随机型网络;若按突触连接的性质,可分为一阶线性关联网络与高阶非线性关联网络。无导师学习:当两个神经元同时处于激发状态时被加强,否则被减弱。它学习的是神经元之间的连接强度。有导师学习:输入向量与其输出向量构成一个训练对,不断调整权值,使输入与输出向量在一个误差范围内。人工神经网络的局限性人工神经网络是一个新兴学科,因此还存在许多问题。其主要表现有:1.受到脑科学研究的限制:由于生理实验的困难性,因此目前人类对思维和记忆机制的认识还很肤浅,还有很多问题需要解决;2.还没有完整成熟的理论体系;3.还带有浓厚的策略和经验色彩;4.与传统技术的接口不成熟。上述问题的存在,制约了人工神经网络研
15、究的发展。2.3 MP神经元模型 MP神经元模型是由美国心理学家McClloch和数学家Pitts共同提出的,因此,常称为MP模型。MP神经元模型是典型的阈值型神经元,见图7,它相当于一个多输入单输出的阈值器件。w1w2wrp1p2pr b 图7 MP模型神经元 如图7所示,假定p1,p2,pn表示神经元的n个输入;wi表示神经元的突触连接强度,其值称为权值;n 表示神经元的输入总和,f(n)即为激活函数;a 表示神经元的输出,b 表示神经元的阈值,那么MP模型神经元的输出可描述为(1)式所示:w1w2wrp1p2pr b图7 MP模型神经元(1)MP模型神经元是二值型神经元,其输出状态取值为
16、1或0,分别代表神经元的兴奋和抑制状态。如果 N 0,即神经元输入加权总和超过某个阈值,那么该神经元兴奋,状态为1;如果N 0,那么该神经元受到抑制,状态为0。通常,将这个规定称为MP模型神经元的点火规则。用一数学表达式表示为:对于 MP模型神经元,权值w在(1,1)区间连续取值。取负值表示抑制两神经元间的连接强度,正值表示加强。(2)MP模型神经元具有什么特性?能完成什么功能?为了回答这个问题,我们以简单的逻辑代数运算为例来说明。例1 假设一个MP模型神经元有2个输入:P1和P2,其目标输出记为T,试问它能否完成下列真值表功能?解:根据要求,神经元的权值和阈值必须满足如下不等式组:若取b值为
17、0.5,W1和W2取0.7。可以验证用这组权值和阈值构成的2输入MP模型神经元能够完成该逻辑“或”运算。(1)(2)(3)(4)不 等 式 组真 值 表 p1 p2 t 1 1 1 1 0 10 1 1 0 0 0如同许多代数方程一样,由MP模型激活函数得出的不等式具有一定的几何意义,所有输入样本构成样本输入空间。对于任意特定W和P的值都规定了一个超平面(决策平面),其方程为:它把超平面 Rn(X Rn)分成了两部分:WX-b0 部分和 WX-b0 部分。3、人工神经网络的结构与学习 3.1人工神经网络的结构 如果将大量功能简单的形式神经元通过一定的拓扑结构组织起来,构成群体并行分布式处理的计
18、算结构,那么这种结构就是人工神经网络,统称为神经网络。根据神经元之间连接的拓扑结构上的不同,可将神经网络结构分为两大类:分层网络相互连接型网络1、分层结构 分层网络将一个神经网络模型中的所有神经元按功能分成若干层,一般有输入层、隐层(又称中间层)和输出层各层顺序连接,如图所示。输 出 层 中 间 层 输 入 层输入输出分层网络的功能层次简单的前向网络具有反馈的前向网络层内有相互连接的前向网络分层网络可以细分为三种互连形式:图(a)简单的前向网络形状;图(b)输出层到输入层具有反馈的前向网络;图(c)层内有相互连接的前向网络。所谓相互连接型网络是指网络中任意两个神经元之间是可达的,即存在连接路径
19、,如图7.8(d)所示。2、相互连接型结构 权值修正学派认为:神经网络的学习过程就是不断调整网络的连接权,以获得期望的输出的过程。3.2人工神经网络的学习v 相关学习法v 误差修正学习法 典型的权值修正方法有两类:式中,wji(t+1)表示修正一次后的某一权值;称为学习因子,决定每次权值的修正量,x i(t)、xj(t)分别表示 t 时刻第i、第j个神经元的状态。如果神经网络中某一神经元与另一直接与其相连的神经元同时处于兴奋状态,那么这两个神经元间的连接强度应该加强。相关学习法是根据连接间的激活水平改变权值的,相关学习法也称HEBB学习规则,可用一数学表达式表示为:相关学习法 根据期望输出与实
20、际输出之间的误差大小来修正权值。误差修正学习法也称学习规则,可由如下四步来描述;误差修正学习法 1.选择一组初始权值和偏差值;2.计算某一输入模式对应的实际输出与期望输出的误差3.更新权值(偏差值可视为输入恒为-1的一个权值)4.返回步骤(2),直到对所有训练模式,网络输出均能满足要求。式中,为学习因子;yje(t)、yj(t)分别表示第j个神经元 的期望输出与实际输出;xi为第i个神经元的输入;一些著名的神经网络模型SVM(支持向量机,SUPPORT VECTOR MACHINE)小样本根据统计学习理论,学习机器的实际风险由经验风险值和置信范围值两部分组成。而基于经验风险最小化准则的学习方法
21、只强调了训练样本的经验风险最小误差,没有最小化置信范围值,因此其推广能力较差。Vapnik 提出的支持向量机(Support Vector Machine,SVM)以训练误差作为优化问题的约束条件,以置信范围值最小化作为优化目标,即SVM是一种基于结构风险最小化准则的学习方法,其推广能力明显优于一些传统的学习方法。形成时期在19921995年。54支持向量()=+0判别函数:是特征空间中某点x到超平面的距离的一种代数度量支持向量图解判别函数的形式 判别函数的作用 根据判别函数的值进行分类,并且函数值只与1和-1进行比较支持向量的条件向量与超平面的关系总之:线性判别函数利用一个超平面把特征空间分
22、隔成两个区域。超平面的方向由法向量W确定,它的位置由阈值 确定。判别函数G(X)正比于X点到超平面的代数距离(带正负号)。当X点在超平面的正侧时,G(X)0;当X点在超平面的负侧时,G(X)0 支持向量机的应用现状 VM人脸检测、验证和识别 Osuna最早将SVM应用于人脸检测,并取得了较好的效果。其方法是直接训练非线性分类器完成人脸与非人脸的SVM分类。由于SVM的训练需要大量的存储空间,并且非线性SVM 分类器需要较多的支持向量,速度很慢。所以在实际中广泛实用层次结构分类器,它由一个线性组合和一个非线性组成。检测时,由前者快速排除掉图像SVM 中绝大部分背景窗口,而后者只需对少量的候选区域
23、做出确认。人脸检测研究中更复杂的情况是姿态的变化。基于支持向量机姿态分类器,分类错误率降低到1.67%,明显优于在传统方法中效果最好的人工神经元网络方法。人脸姿态可以划分为多个类别,在训练过程中,面部特征的提取和识别可看作是对3D物体的投影图像进行匹配的问题。很多研究利用了SVM利于处理小样本问题以及泛化能力强的优势,取得了比传统最近邻分类器和BP网络分类器更高的识别率。支持向量机的应用现状 贝尔实验室对美国邮政手写数字库进行的实验,人工识别平均错误率是2.5%,专门针对该特定问题设计的层神经网络错误率为5.1%(其中利用了大量先验知识),而用种方法采用3种SVM核函数得到的错误率分别为4.0
24、%、4.1%和4.2%,且是直接采用1616的字符点阵作为输入,表明了SVM的优越性能。手写体数字09的特征可以分为结构特征、统计特征等。在一些实验中,SVM表明了对手写汉字识别的有效性。无监督机器学习无监督分类聚类关联规则聚类(CLUSTER)聚类目的在将相似的事物归类。聚类分析又称为“同质分组”或者“无监督的分类”,指把一组数据分成不同的“簇”,每簇中的数据相似而不同簇间的数据则距离较远。相似性可以由用户或者专家定义的距离函数加以度量。好的聚类方法应保证不同类间数据的相似性尽可能地小,而类内数据的相似性尽可能地大。61 聚类分析的基本思想是认为所研究的数据集中的数据或者属性之间存在着程度不
25、同的相似性。于是从数据集中取出一批数据,具体找出一些能够度量数据值之间或者属性之间相似程度的量,以这些量为中心作为划分类型的依据,把一些相似程度较大的数据或属性聚合为一类,把另外一些彼此之间相似程度较大的样品又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有数据或属性都聚合完毕,把不同的类型一一划分出来。比较常用的距离:绝对值距离 欧氏距离 明斯基距离64HIERARCHICAL CLUSTERING层次聚类法 该方法是利用距离矩阵作为分类标准,将n个样品各作为一类;计算n个样品两两之间的距离,构成距离矩阵;合并距离最近的两类为一新类;计算新类与当前各
26、类的距离;再合并、计算,直至只有一类为止。Step 0Step 1 Step 2 Step 3 Step 4bdceaa bd ec d ea b c d eStep 4Step 3 Step 2 Step 1 Step 0agglomerative(AGNES)divisive(DIANA)K均值算法 K均值(k-means)是一种简便、实用的无监督聚类分析算法。这种算法在已知簇的个数时,可很好地实现数据的聚类分析。基本思想:(1)首先,随机选择k个数据点做为聚类中心(2)然后,计算其它点到这些聚类中心点的距离,通过对簇中距离平均值的计算,不断改变这些聚类中心的位置,直到这些聚类中心不再变化
27、为止。K-MEANS CLUSTERING K-均值聚类方法0123456789100 1 2 3 4 5 6 7 8 9 100123456789100 1 2 3 4 5 6 7 8 9 10K=2Arbitrarily choose K object as initial cluster centerAssign each objects to most similar centerUpdate the cluster meansUpdate the cluster meansreassign reassign K均值的流程由流程图可知,k-均值算法是一种基于对数据集进行划分的方法进行聚类的算法。它是不断趋于最优解的试探过程。每一次迭代都试图使簇中心的选择更加接近于数据集的实际簇中心。输出N输入读入标准化归一化初始化簇计算簇平均值更改簇中心重新决定点归何簇Y簇中心是否变化