《(2.1.1)--第二章_机器学习基本概念.pdf》由会员分享,可在线阅读,更多相关《(2.1.1)--第二章_机器学习基本概念.pdf(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据机器学习第二讲:机器学习基本概念 基本术语 监督学习 假设空间 学习三要素 奥卡姆剃刀定理 没有免费的午餐定理 训练误差和测试误差 正则化 泛化能力 生成模型与判别模型提纲 Data set形状=圆形 剥皮=难味道=酸甜形状=扁圆形 剥皮=易 味道=酸形状=长圆形 剥皮=难 味道=甜。Instance/sample Attribute value/feature Attribute/feature space Feature vector基本术语 D=x1,x2,xm m个示例的数据集是d维样本空间X的一个特征向量 training/learning training data trai
2、ning sample Label (形状=长圆形 剥皮=难 味道=甜),橙子)example基本术语 Classification regression binary classification multi-class classification Clustering Multi-labeling annotation 基本术语监督学习 监督学习目的是学习一个由输入到输出的映射,称为模型 模型的集合就是假设空间(hypothesis space)模型:概率模型:条件概率分布P(Y|X),非概率模型:决策函数Y=f(X)联合概率分布:假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y
3、)问题的形式化监督学习假设空间 hypothesis space 学习过程:搜索所有假设空间,与训练集匹配 形状=圆形 剥皮=难味道=酸甜 橙 形状=扁圆形 剥皮=易 味道=酸 橘 形状=长圆形 剥皮=难 味道=甜橙 假设形状,剥皮,味道 分别有3,2,3 种可能取值,加上取任意值*和空集,假设空间规模4x3x4+1=49 Version space:形状=*剥皮=难味道=*橙 形状=扁圆形 剥皮=易 味道=*橘 学习三要素:当假设空间F为决策函数的集合:F实质为参数向量决定的函数族:当假设空间F为条件概率的集合:F实质是参数向量决定的条件概率分布族学习三要素 策略 损失函数和风险函数 0-1
4、损失函数 0-1 loss function 平方损失函数 quadratic loss function 绝对损失函数 absolute loss function 对数损失函数 logarithmic loss function 或对数似然损失函数 loglikelihood loss function 学习三要素 策略 损失函数的期望 风险函数 risk function 期望损失 expected loss 经验风险 empirical risk,经验损失 empirical loss学习三要素 策略:经验风险最小化与结构风险最小化 经验风险最小化最优模型 当样本容量很小时,经验风险最
5、小化学习的效果未必很好,会产生“过拟合over-fitting”为防止过拟合提出的策略,结构风险最小化 structure risk minimization,等价于正则化(regularization),加入正则化项regularizer,或罚项 penalty term:学习三要素 方法:求最优模型就是求解最优化问题:难点:全局最优 高效学习三要素 14世纪逻辑学家、圣方济各会修士奥卡姆的威廉(William of Occam,约1285年至1349年)原理称为“如无必要,勿增实体”奥卡姆剃刀Occams razor 疑问一:哪个更简单?疑问二:奥卡姆剃刀Occams razor 形状=*
6、剥皮=难味道=*橙 形状=长圆形 剥皮=*味道=*橙No free lunch theorem A 好?B 好?随机胡猜好?假设样本空间X和假设空间H都是离散的.P(h|X,Za):产生假设 h 的概率 f(x):真实目标函数“训练集外误差”No free lunch theorem 二分类问题:No free lunch theorem 总误差竟然与学习算法无关 定理前提条件:所有“问题”出现的机会相同,或所有问题同等重要 假设真实函数的均匀分布。寓意:脱离具体问题,空谈“什么方法好”毫无意义。No free lunch theorem 形状=*剥皮=难味道=*橙 形状=长圆形 剥皮=*味道
7、=*橙 训练误差,训练数据集的平均损失 测试误差,测试数据集的平均损失 损失函数是0-1 损失时:测试数据集的准确率:训练误差和测试误差 过拟合与模型选择多项式曲线拟合的例子 假设给定训练数据集 经验风险最小:过拟合过拟合过拟合过拟合过拟合 正则化一般形式:回归问题中:正则化正则化正则化 泛化误差 generalization error 泛化误差上界 比较学习方法的泛化能力-比较泛化误差上界 性质:样本容量增加,泛化误差趋于0假设空间容量越大,泛化误差越大 二分类问题 期望风险和经验风险 假设空间F为有限集合泛化能力 generalization ability 经验风险最小化函数:泛化能力
8、:定理:泛化误差上界,二分类问题,当假设空间是有限个函数的结合,对任意一个函数f,至少以概率1-,以下不等式成立:泛化能力 generalization ability 监督学习的目的就是学习一个模型:决策函数:条件概率分布:生成方法Generative approach 对应生成模型:generative model,朴素贝叶斯法和隐马尔科夫模型 判别方法discriminative approach对应判别模型:discriminative model,K近邻,感知机,决策树,logistic 回归等生成模型与判别模型 二者各有优缺点 生成模型:还原联合概率,而判别模型不能;学习收敛速度快,当样本容量增加时,学到的模型可以更快收敛;当存在隐变量时,可以使用生成模型,而判别模型不行。判别模型:直接学习决策函数或条件概率,学习的准确率更高;可以对数据进行抽象,定义特征和使用特征,可以简化学习问题。生成模型与判别模型Q&A?