统计机器学习概论ppt课件.ppt

上传人:飞****2 文档编号:32328593 上传时间:2022-08-08 格式:PPT 页数:121 大小:3.94MB
返回 下载 相关 举报
统计机器学习概论ppt课件.ppt_第1页
第1页 / 共121页
统计机器学习概论ppt课件.ppt_第2页
第2页 / 共121页
点击查看更多>>
资源描述

《统计机器学习概论ppt课件.ppt》由会员分享,可在线阅读,更多相关《统计机器学习概论ppt课件.ppt(121页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、视频编码与理解课程 (Video Coding and Content Understanding)统计机器学习概论 (Introduction to Statistical Machine Learning) 主讲教师:田永鸿北京大学 数字视频编码技术与系统国家工程实验室http:/ 美国航空航天局JPL实验室的科学家在Science(2001年9月)上撰文指出:机器学习对科学研究的整个过程正起到越来越大的支持作用,该领域在今后的若干年内将取得稳定而快速的发展o Machine learning forms the core of may present-day AI application

2、sn Gary Anthes, Future Watch: AI comes of age, , 2009.1.262北京大学视频编码与理解课程(No.04812102)3为什么数字媒体技术中需要机器学习?媒体处理媒体类型单媒体复合媒体应用模式单机应用模式网络应用模式获取(创建)编 辑管 理 传 输检 索描 述展 现说 明编 码统计学习与模式识别北京大学视频编码与理解课程(No.04812102)4机器学习示例SARS RiskAgeGenderBlood PressureChest X-RayPre-Hospital AttributesAlbuminBlood pO2White Count

3、RBC CountIn-Hospital Attributes北京大学视频编码与理解课程(No.04812102)5Books and Referenceso 主要参考书nT. Hastie, R. Tibshirani, J. Friedman, “The Elements of statistical Learning: Data Mining, Inference, and Prediction”, 2001, Springer-Verlag. o 其他参考书nV. N. Vapnik, “The Nature of Statistical Learning Theory”, 2nd e

4、d., Springer, 2000.北京大学视频编码与理解课程(No.04812102)6提 纲o 机器学习方法概述o 贝叶斯决策理论Bayesian Decision Theoryo 常见统计学习方法o 机器学习的难题与挑战o 附录:n 1、参考资料n 2、代表性机器学习开发包介绍北京大学视频编码与理解课程(No.04812102)7一、统计学习方法概述北京大学视频编码与理解课程(No.04812102)8机器学习的发展o机器学习= 神经科学与认知科学+数学+计算北京大学视频编码与理解课程(No.04812102)平凡解问题James(19世纪末):神经元相互连接McCulloch, Pi

5、tts(20世纪中期): “兴奋”和“抑制”Hebb(20世纪中期):学习律神经科学Barlow:功能单细胞假设Hebb:神经集合体假设Rosenblatt:感知机(1956)Rumelhart:BP(1986)PAC (Valiant 1984)Schapire:弱学习定理(1990)Freund:AdaBoost(1996)线性不可分问题(Minsky 1969)Vapnik:SVM(1991)有限样本统计理论线性空间表示?i.i.d问题一致性假设30年Widrow:Madline(1960)Samuel:符号机器学习机器学习研究历程?泛化理论王珏,机器学习研究回顾与趋势,2004.9北京

6、大学视频编码与理解课程(No.04812102)学习系统的一般模型System 1x2xNx1y2yMy12,.,Kh hh12,.,Nx xxx12,.,Kh hhh12,.,Ky yyyInput Variables:Hidden Variables:Output Variables:北京大学视频编码与理解课程(No.04812102)11机器学习的基本问题和方法o 机器学习n根据给定的训练样本求对某系统输入输出之间依赖关系的估计,使它能够对未知输出作出尽可能准确的预测。o 机器学习问题的表示n根据n个独立同分布观测样本确定预测函数f(x,w)。n在一组函数f(x,w)中求一个最优的函数f

7、(x,w0)对依赖关系进行估计,使预测的期望风险最小。环境学习环节知识库执行环节Simon的学习模型北京大学视频编码与理解课程(No.04812102)12学习问题的一般表示o 学习目标nGiven an i.i.d. l-sample z1,zl drawn from a fixed distribution F(z)nFor a function class loss functions Q(z,), with in nWe wish to minimize the risk, finding a function *nIn the case of equal risk, it becom

8、es to minimize the error ratio.o 相关概念n损失函数 loss function (L, Q):the error of a given function on a given examplen风险函数risk functional (R):the expected loss of a given function on an example drawn from F(x,y) L : x,y,faL y,f x,Q: z,aL zy, f zx,* argminR R Q z,dF z 北京大学视频编码与理解课程(No.04812102)13学习问题的一般表示

9、o 学习的目的在于使期望风险最小化。由于可利用的信息只有样本,期望风险往往无法计算。o 经验风险最小化归纳原则 (The Empirical Risk Minimization (ERM) Inductive Principle)n核心思想:用样本定义经验风险。nDefine the empirical risk (sample/training error):nDefine the empirical risk minimizer:nLeast-squares and Maximum-likelihood are realisations of ERMRemp 1lQ zi,i1ll arg

10、minRemp 北京大学视频编码与理解课程(No.04812102)14ERM准则与统计学习理论的发展o 经验风险最小并不意谓着期望风险最小! n例子:神经网络的过学习问题。n训练误差小并不总能导致好的预测效果. 若对有限的样本来说学习能力过强,足以记住每个样本,此时经验风险很快就可以收敛到很小甚至零,但却根本无法保证它对未来样本能给出好的预测. o 需要建立在小样本情况下有效的学习方法n小样本条件下的统计学习理论n支持向量机(SVM)北京大学视频编码与理解课程(No.04812102)Why Learning is Difficult?o Given a finite amount of t

11、raining data, you have to derive a relation for an infinite domaino In fact, there is an infinite number of such relationso . the hidden test points.15北京大学视频编码与理解课程(No.04812102)Learning as a Search Problem16北京大学视频编码与理解课程(No.04812102)17三类基本的机器学习问题(1)o 模式分类问题:输出y是类别标号,两类情况下y=1,-1,预测函数称作指示函数(Indicator

12、Function),损失函数定义见下式,使期望风险最小就是Bayes决策中使错误率最小。),(1),(0),(,(wfywfywfyLxxx北京大学视频编码与理解课程(No.04812102)18三类基本的机器学习问题(2)o 回归问题:输出y是连续变量,它是x的函数,损失函数定义见下式:2),(-),(,(wfywfyLxx北京大学视频编码与理解课程(No.04812102)19三类基本的机器学习问题(3)o 概率密度估计问题:根据训练样本确定x的概率分布p(x,w),则损失函数可定义为:),( -log),(wpwpLxx北京大学视频编码与理解课程(No.04812102)20统计学习的基

13、本方法o有监督/无监督学习n 有监督(Supervised):分类、回归n 无监督(Unsupervised):概率密度估计、聚类、降维n 半监督(Semi-supervised):EM、Co-trainingo其他学习方法n 增强学习(Reinforcement Learning)n 多任务学习(Multi-task learning)北京大学视频编码与理解课程(No.04812102)21有监督学习o 标定的训练数据o 训练过程:根据目标输出与实际输出的误差信号来调节参数o 典型方法n全局:BN, NN,SVM, Decision Treen局部:KNN、CBR(Case-base rea

14、soning)S(x)=0 Class AS(x)1?n Boosting:结合低性能学习模型来产生一个强大的分类器组n Bagging:结合多个不稳定学习模型来产生稳定预测n 主动学习(Active learning):主动选择训练样本北京大学视频编码与理解课程(No.04812102)Boostingo Boosting 是个非常强大的学习方法, 它组合许多“弱”分类器来产生一个强大的分类器组。n 弱分类器:性能只比随机选择好一点,设计简单且计算花费低。n 最常用的弱分类器是决策树。 o 常见的Boosting算法n 离散AdaBoost, 实数AdaBoost, LogitBoost和G

15、entle AdaBoostn 它们有非常类似的总体结构。27北京大学视频编码与理解课程(No.04812102)Boostingo 两类问题的算法:训练(step 13)和估计(step 4) n为每一个样本初始化使它们具有相同的权值(step 2),然后一个弱分类器f(x)在具有权值的训练数据上进行训练,计算错误率和换算系数cm(step 3b),被错分的样本的权重会增加,所有的权重进行归一化,并继续寻找若其他分类器M-1次,最后得到的分类器F(x)是这些独立的弱分类器组合的符号函数(step 4)。28北京大学视频编码与理解课程(No.04812102)Baggingp 基本假设: n

16、Combining many unstable predictors to produce a ensemble (stable) predictor.n Unstable Predictor: 训练数据的微小变化可能使得预测模型产生大的改变p 不稳定模型:Neural Nets, treesp 稳定模型:SVM, KNN.o Each predictor in ensemble is created by taking a bootstrap sample of the data.n引导样本:obtained by drawing N example at random, with repl

17、acement.o Encourages predictors to have uncorrelated errors.北京大学视频编码与理解课程(No.04812102)Unlabeled Data Set主动学习Intermediate SetClustering (K clusters)(Diversity Criterion)BatchSelect centroid of each cluster(Representativeness Criterion)Select M most informative examples(Informativeness Criterion)(1)(2

18、)(3)北京大学视频编码与理解课程(No.04812102)产生式模型 vs 判别式模型o Generative models: n建模(联合)概率分布:n 利用Bayes theoremn 典型方法:BN、HMM、CMFn 问题的可解释性好o Discriminative models: n直接用函数(而非概率)来建模n 典型方法:SVM、LDAn 一般来说,性能更好北京大学视频编码与理解课程(No.04812102)32二、贝叶斯决策理论北京大学视频编码与理解课程(No.04812102)33Bayes决策理论有什么用?o 用不同方法可能得到多个不同的估计,哪个估计更好一些?n统计决策理论

19、:比较统计过程的形式化理论o 决策n是从样本空间S,到决策空间的一个映射,表示为D: S n评价决策有多种标准,对于同一个问题,采用不同的标准会得到不同意义下“最优”的决策。o Bayes决策常用的准则n最小错误率准则n最小风险准则n最小条件错误率准则:在限定一类错误率条件下使另一类错误率为最小n最小最大决策准则:Minimizing the maximum possible loss (or Maximizing the minimum gain)北京大学视频编码与理解课程(No.04812102)Linear Decision Boundary-0.500.5-0.500.5-0.5-0.

20、4-0.3-0.2-0.100.10.20.30.40.5X1X2X3x1x2x3hyperplanex1x2北京大学视频编码与理解课程(No.04812102)Non-linear Decision Boundaryx1x2-0.500.5-0.500.5-0.500.5Hs.128749Hs.234680Hs.7780 x1x2x3北京大学视频编码与理解课程(No.04812102)36问题描述:Classification Problemo 给定:m个类,训练样本和未知数据o 目标:给每个输入数据标记一个类属性o 两个阶段:n建模/学习:基于训练样本学习分类规则.n分类/测试:对输入数据

21、应用分类规则P(f1)f1鹅卵石救命稻草杆Pebbles StrawspebblesStrawsf1f2决策边界北京大学视频编码与理解课程(No.04812102)37最大后验(Maximum A Posterior, MAP)分类o 什么是最优分类器?o 已有:类条件概率密度函数nThis is called the class-conditional probability describing the probability of occurrence of the features on category.o 欲求:后验概率nmake a decision that maximize

22、the conditional probability of the object, given certain feature measurements. nAlso called posterior probability function. )|(iCxp)|(xCpip(x|1)p(x|2)类条件概率密度函数p(1|x)后验概率p(2|x)北京大学视频编码与理解课程(No.04812102)38Bayes最小错误率(MAP)决策o MAP决策:n 以后验概率为判决函数:nChoose category/class that has the maximumnThis produces t

23、he optimal performance: minimum probability of error:o A classifier that achieves this optimal performance is called Bayesian classifier.)|(maxarg iff xCpkCxiik)|(1xCppie)|()(xCpxgii北京大学视频编码与理解课程(No.04812102)39MAP决策的错误率o Bayes决策是一致最优决策。n 使得每个观测值下的条件错误率最小因而保证了(平均)错误率最小。北京大学视频编码与理解课程(No.04812102)40MAP

24、决策的扩展:最小Bayesian风险o 决策的风险:n 做决策要考虑决策可能引起的损失。n 以医生根据白细胞浓度判断一个人是否患血液病为例:p 没病(1)被判为有病(2) ,还可以做进一步检查,损失不大;p 有病(2)被判为无病(1) ,损失严重。o Decision Risk tablen The risk to make a decision : classify x (belong to class i) to class j, so:o Decision Rule:),(jiCcjjjijiixCpCCExR1)|(),(),()|(i)|(minarg iff xRkCxiik北京大

25、学视频编码与理解课程(No.04812102)41Bayes决策:讨论o 基于Bayes决策的最优分类器o Bayes决策的三个前提:n 类别数确定n 各类的先验概率P(Ci)已知n 各类的条件概率密度函数p(x|Ci)已知o 问题的转换:n 基于样本估计P(Ci)和p(x|Ci)n 基于样本直接确定判别函数学习问题( |) ()(| )( |) ()iiijjjpPPpPxxx北京大学视频编码与理解课程(No.04812102)42三、主要统计学习方法简介北京大学视频编码与理解课程(No.04812102)43统计学习方法o 决策树o 统计推理n 用数据的似然度(likelihood)和假设

26、(Hypothesis)的概率去预测新实例的值n 朴素Bayes方法(Nave Bayes, NB)o 基于实例的学习n 最近邻方法(Nearest Neighbor)o 神经网络(Neural Networks)o 支持向量机(Support Vector Machine)o 典型聚类方法:K-Means北京大学视频编码与理解课程(No.04812102)3.1 Decision TreesAt each step, choose the feature that “reduces entropy” most. Work towards “node purity”.All the dataf

27、1f2Choose f2Choose f1北京大学视频编码与理解课程(No.04812102)Decision TreesCART (Breiman, 1984) C4.5 (Quinlan, 1993) J48 北京大学视频编码与理解课程(No.04812102)463.2 Bayesian学习o 基本思想n给定训练数据 ,计算每个假设 的概率n利用此概率来进行预测(注:预测时利用所有的假设,而不仅仅利用最好的一个)o 参数估计问题n若训练数据独立同分布(i.e., i.i.d),则n对分类问题,需要估计两个参数:类的先验概率P(Ci)和类条件概率密度p(x|Ci)iiihPhxPxP)|(

28、)|()|(DD)()|()|()()()|(iiPhPhPihPhPhPiiDDDDNdd,1DHihkikihdPhP)|()|(D对分类问题,假设hi可直接视为类属性Ci北京大学视频编码与理解课程(No.04812102)47Bayesian学习:参数估计的方法o 类的先验概率P(Ci)的估计:n 用训练数据中各类出现的频率估计n 依靠经验o 类条件概率密度p(x|Ci)估计的两种主要方法:n 参数估计:概率密度函数的形式已知,而表征函数的参数未知,通过训练数据来估计p 最大似然估计p Bayes估计(最大后验估计)n 非参数估计:密度函数的形式未知,也不作假设,利用训练数据直接对概率密

29、度进行估计p KN-近邻法p Parzen窗法北京大学视频编码与理解课程(No.04812102)48简化模型:简单贝叶斯Nave Bayeso 简单贝叶斯学习模型(NB )n将训练实例表示成属性(特征)向量A和决策类别变量C。n假定特征向量的各分量间相对于决策变量是相对独立的,也就是说各分量独立地作用于决策变量。n降低了学习的复杂性n在许多领域,表现出相当的健壮性和高效性o NB的特点n结构简单只有两层结构n推理复杂性与网络节点个数呈线性关系Ca1a2an-1anmkikiCaPCAP1)|()|(北京大学视频编码与理解课程(No.04812102)49)|()()()|(1mjikiiCa

30、PAPCPACP)|(ikCaP)(iCPNB用于分类o NB假设:设样本A表示成属性向量,如果属性ak对于给定的类别独立,那么P(A|Ci)可以分解成几个分量的积:o 简单贝叶斯分类 (SBC: Simple Bayesian Classifier)n一般认为,只有在独立性假定成立的时候,SBC才能获得精度最优的分类效率;或者在属性相关性较小的情况下,能获得近似最优的分类效果。mkikiCaPCAP1)|()|(北京大学视频编码与理解课程(No.04812102)50扩展:贝叶斯网(Bayes Network)= P(A) P(S) P(T|A) P(L|S) P(B|S) P(C|T,L)

31、 P(D|T,L,B)P(A, S, T, L, B, C, D) 条件独立性假设有效的表示CPT: T L B D=0 D=10 0 0 0.1 0.90 0 1 0.7 0.30 1 0 0.8 0.20 1 1 0.9 0.1 .Lung CancerSmokingChest X-rayBronchitisDyspnoeaTuberculosisVisit to AsiaP(D|T,L,B)P(B|S)P(S)P(C|T,L)P(L|S)P(A)P(T|A)贝叶斯网络是表示变量间概率依赖关系的有向无环图北京大学视频编码与理解课程(No.04812102)513.3基于实例的学习Insta

32、nce-basedo Bayeis方法的缺陷n 参数估计误差o 不描述概率分布,而直接描述决策规则,如最近邻规则:n 直接从训练数据构造假设n K近邻方法K-NNn 最近邻方法NN: K=1北京大学视频编码与理解课程(No.04812102)52K-NN方法o 对输入样本 x, 从训练样本中找到与x距离最近的K个最近样本,以它们最可能的类标签来分类xxk=1k=6北京大学视频编码与理解课程(No.04812102)53K-NN的性能o 亚优:在训练样本足够的情况下,错误概率小于最优错误率的两倍. n Where: is the probability of error for Bayesian

33、 inference (Optimal) and NN rule;o 不能在有限的样本下获得同样的断言.*2eeepppeepandp *北京大学视频编码与理解课程(No.04812102)54K-NN的关键问题o 距离度量n最常用方法: euclideann更好的距离度量: normalize each variable by standard deviationn离散数据:Hamming distanceo K的选择nIncreasing k reduces variance, increases biaso 高维空间的可区分性差nFor high-dimensional space, p

34、roblem that the nearest neighbor may not be very close at all!o 大数据量时计算开销大nMust make a pass through the data for each classification. This can be prohibitive for large data sets.nIndexing the data can help; for example KD trees北京大学视频编码与理解课程(No.04812102)55Euclidean Distanceo Euclidean Distance betwee

35、n x and pk is: o The decision rule based on this metric is called theminimum Euclidean Distance (MED) classifier.2/12/112)()()(),(kTknikiikEpxpxpxpxd北京大学视频编码与理解课程(No.04812102)56Mahalanobis Distanceo 用方差的倒数来进行加权,相当于使决策界从方差较大的一方朝方差较小一方移动:nLet the distribution be approximated by a multivariate normal d

36、ensity. The Mahalanobis distance from x to m is given by :nWhere is the covariance matrix and is the sample mean of the prototype. )()(1mmxxdTMm北京大学视频编码与理解课程(No.04812102)57胞体胞体(Soma)枝蔓(枝蔓(Dendrite)胞体胞体(Soma) 轴突(轴突(Axon)突触(突触(Synapse) 人工神经元模拟生物神经元的一阶特性。n 输入:X=(x1, x2, , xn)n 联接权:W=(w1, w2, ,wn)Tn 网络输

37、入:net=xiwin 向量形式:net=XWn 激活函数:fn 网络输出:o=f(net)InputsignalSynapticweightsSummingfunctionActivationfunctionLocalFieldvOutputox1x2xnw2wnw1)( fw0 x0 = +14.4神经网络(NN):模拟人脑的学习北京大学视频编码与理解课程(No.04812102)58x1x2xno1o2onwnmw11w1mw2mwn1输出层输入层典型网络结构:简单单级网北京大学视频编码与理解课程(No.04812102)59输出层x1o1w11w1mx2o2w2mxnomwn1输入层V

38、典型网络结构:单级横向反馈网北京大学视频编码与理解课程(No.04812102)60典型网络结构:多级网输出层隐藏层输入层o1o2omx1x2xn北京大学视频编码与理解课程(No.04812102)61典型网络结构:循环网x1o1输出层隐藏层输入层x2o2omxn北京大学视频编码与理解课程(No.04812102)3.5 支持向量机o SVM是一种基于统计学习理论的机器学习方法,是由Boser, Guyon, Vapnik于1992年提出,目前已经取得了广泛的成功应用。o 统计学习理论的主要目标n 专门研究小样本下的机器学习规律n 追求现有信息条件下的最优结果(结构风险最小化)62Vapnik

39、北京大学视频编码与理解课程(No.04812102)63结构风险最小化原则o 实际风险由两部分组成:n 经验风险(训练误差)n VC置信范围(VC confidence):学习机器的VC维及训练样本数有关。 VC维反映了函数集的学习能力,VC维越大则学习机器越复杂(容量越大)o 结构风险最小化(SRM)的基本思想n 在有限训练样本下,学习机器的VC维越高则置信范围越大,真实风险与经验风险之间可能的差别越大.这就是为什么会出现过学习现象的原因。n 机器学习过程不但要使经验风险最小,还要使VC维尽量小以缩小置信范围,才能取得较小的实际风险,即对未来样本有较好的推广性。北京大学视频编码与理解课程(N

40、o.04812102)64结构风险最小化示意图北京大学视频编码与理解课程(No.04812102)65最优分类面o 最优分类面n 分类间隔(Margin).n 分类间隔最大:实际上就是对推广能力的控制,这是SVM的核心思想之一.输入: S=(xi,yi) Rn -1, 1,对应于yi , xi 可表示为两类: xi H1, yi = -1 xi H2, yi = 1目标: 找到一个分类函数(x)=wx+b能够对训练数据 xi 正确分类, 对其他的输入能够正确推广.进一步说:找到一个超平面 H : wx+b=0和两个与H平行且等距离的 H1 : wx+b=1 H2 : wx+b= -1数学模型北

41、京大学视频编码与理解课程(No.04812102)66最优分类面-直观描述(a) 小的分类间隔 (small margin) (b) 大的分类间隔(larger margin). 最优分类面就是要求分类面能将两类正确分开(训练错误率为0),且使分类间隔最大A-A+wx0w = 1x0w = MalignantBenignx0w = + 1x0w = + 1x0w = 1A+A-j j wj j22w= Margin北京大学视频编码与理解课程(No.04812102)67支持向量直观地说,支持向量是两类集合边界上的点。所有非支持向量的数据都可以从训练数据集合中去掉而不影响问题解的结果。对于新的数

42、据点 x,要对其进行分类只需要计算 f(x) = sign (w x + b )其中w 和b是支持向量对应的参数。北京大学视频编码与理解课程(No.04812102)68SVM的分类问题o SVM分类问题大致有三种:线性可分问题、近似线性可分问题、线性不可分问题线性可分问题近似线性可分问题线性不可分问题北京大学视频编码与理解课程(No.04812102)SVM Learningo Finding the Decision Boundaryo Let x1, ., xn be our data set and let yi 1,-1 be the class label of xio The d

43、ecision boundary should classify all points correctly o The decision boundary can be found by solving the following constrained optimization problem69北京大学视频编码与理解课程(No.04812102)The Dual Problemo It is known as the dual problem: if we know w, we know all i; if we know all i, we know wo The original pr

44、oblem is known as the primal problemo The objective function of the dual problem needs to be maximized!o The dual problem is therefore:Properties of i when we introduce the Lagrange multipliersThe result when we differentiate the original Lagrangian w.r.t. b70北京大学视频编码与理解课程(No.04812102)Extension to N

45、on-linear Decision Boundaryo So far, we have only considered large-margin classifier with a linear decision boundaryo How to generalize it to become nonlinear?o Key idea: transform xi to a higher dimensional space to “make life easier”nInput space: the space the point xi are locatednFeature space: t

46、he space of f(xi) after transformationo Why transform?nLinear operation in the feature space is equivalent to non-linear operation in input spacenClassification can become easier with a proper transformation. In the XOR problem, for example, adding a new feature of x1x2 make the problem linearly sep

47、arable71北京大学视频编码与理解课程(No.04812102)Transforming the Datao Computation in the feature space can be costly because it is high dimensionaln The feature space is typically infinite-dimensional!o The kernel trick comes to rescuef( )f( )f( )f( )f( )f( )f( )f( )f(.)f( )f( )f( )f( )f( )f( )f( )f( )f( )f( )Fe

48、ature spaceInput spaceNote: feature space is of higher dimension than the input space in practice72北京大学视频编码与理解课程(No.04812102)The Kernel Tricko Recall the SVM optimization problemo The data points only appear as inner producto As long as we can calculate the inner product in the feature space, we do

49、not need the mapping explicitlyo Many common geometric operations (angles, distances) can be expressed by inner productso Define the kernel function K by73北京大学视频编码与理解课程(No.04812102)Examples of Kernel Functionso Polynomial kernel with degree do Radial basis function kernel with width sn Closely relat

50、ed to radial basis function neural networksn The feature space is infinite-dimensionalo Sigmoid with parameter k and q n It does not satisfy the Mercer condition on all k and q74北京大学视频编码与理解课程(No.04812102)753.6聚类方法:K-Meanso Given a set of examples Dn = z1, z2, , zno Search for K prototypes k of disjo

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁