《机器学习导论习题解答.docx》由会员分享,可在线阅读,更多相关《机器学习导论习题解答.docx(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、机器学习导论习题解答1.7习题1如何理解机器学习的三个基本要素?机器学习的三个基本要素是模型、学习准则(策略)和优化算法。具体内容请见机器学习导论第1116页。2请阐述人工智能、机器学习、深度学习三者之间的关系。人工智能是在控制论、信息论和系统论的基础上诞生的前沿交叉学科,涉及哲学、心理学、语言学、神经生理学、认知科学、计算机科学、信息科学、系统科学、数学以及各种工程学方法。人工智能的研究领域十分广泛,涉及机器学习、数据挖掘、知识发现、模式识别、计算机视觉、专家系统、自然语言理解、自动定理证明、自动程序设计、智能检索、多智能体、人工神经网络、博弈、机器人学、智能控制、智能决策支持系统等领域,相
2、关研究成果也已广泛应用到生产、生活的各个方面。机器学习是人工智能的核心,也是使机器具有智能的根本途径,是当前人工智能理论研究和实际应用的非常活跃的研究领域。深度学习则是机器学习的一个分支。在很多人工智能问题上,深度学习的方法突破了传统机器学习方法的瓶颈,推动了人工智能领域的快速发展。3什么是监督式机器学习?什么是非监督式机器学习?两者的区别是什么?监督式机器学习,也称监督学习,通过使用带有正确标签(Label)的训练样本数据进行学习得到一个模型,然后用这个训练得到的模型来对输入的未知标签的测试样本进行预测并输出预测的标签。非监督式机器学习又称为无监督学习,它的输入样本并不需要标注,而是自动从样
3、本中学习特征实现预测。两者的区别:监督式机器学习中的训练样本数据是带标签的;而非监督式机器学习中的训练样本数据是不带标签的。4什么是生成式模型?什么是判别式模型?各自的特点是什么?请分别列举生成式模型和判别式模型。假设样本的特征向量为,类别标签为,生成式模型先对它们的联合概率分布或者类条件概率进行建模,然后计算样本属于每一个类别的条件概率,即类后验概率。而判别式模型是直接对类后验概率进行建模,将样本归属到使类后验概率最大的那个类别。在监督式机器学习中,判别式模型和生成式模型各有优缺点,适合于不同条件的学习问题。生成式模型的特点: (1)对联合概率密度分布建模,可以从统计的角度表示数据的分布情况
4、,能够反映同类数据本身的相似度,但它不关心到底划分各类的那个分类边界在哪。(2)生成式模型的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型,而且对于存在隐变量的问题,仍可以使用生成式模型。(3)生成式模型学习和计算过程复杂,需要更多的计算资源。(4)需要的样本数更多,样本较少时学习效果较差。(5)预测时性能较差。(6)一定条件下能转换成判别式。判别式模型特点:(1)对类后验概率建模,寻找不同类别之间的最优分类面,反映的是异类数据之间的差异,不能反映训练数据本身的特性。(2)判别式模型简单易懂,而且可以对数据进行各种抽象、定义特征并使用特征,可以简化学习问题,需要的
5、计算资源较少。(3)需要的样本数可以较少,少样本也能很好学习。(4)预测时拥有较好性能。(5)无法转换成生成式模型。总之,判别式模型和生成式模型都是使类后验概率最大化,判别式是直接对类后验概率建模,而生成式模型通过贝叶斯定理这一“桥梁”使问题转化为求联合概率。常见的生成式模型有朴素贝叶斯模型、隐马尔可夫模型(HMM)、高斯混合模型(GMM)等。常见的判别式模型有逻辑斯谛回归模型、Softmax回归模型、线性回归模型、线性判别分析(LDA)、支持向量机(SVM)、神经网络等。5监督式机器学习涉及的损失函数有哪些?监督式机器学习涉及的损失函数包括0-1损失函数、平方损失函数(损失函数)、均方误差损
6、失函数、绝对损失函数(损失函数)、对数损失函数、交叉熵损失函数、合页损失函数等。6简述损失函数、代价函数和目标函数的区别和联系。请见机器学习导论第12页。7既然代价函数已经可以度量样本集的平均误差,为什么还要设定目标函数?通常情况下,由于训练样本集中的样本数量是有限的,而且训练集中的样本数据包含了各种噪声,因此实际所用的训练集不能很好地反映样本数据的真实分布。在这种情况下,如果以经验风险作为代价函数,当模型过于复杂时,利用经验风险最小化(ERM)准则,有可能对训练集样本数据拟合得很好,但是对测试集样本数据的拟合效果不好,导致模型产生“过拟合”现象,这就出现了所谓的“结构化风险”。结构风险最小化
7、即为了防止过拟合而提出来的策略,结构风险函数就是最终待优化的目标函数。8请解释经验风险和结构风险的含义和异同点。经验风险是模型关于整个训练集中所有样本的平均损失。经验风险越小说明模型对训练集样本数据的拟合效果越好,但是对于未知的样本效果怎么样呢?我们知道未知的样本数据的数量是不容易确定的,所以就没有办法用所有样本损失函数的平均值最小化这个准则,那么怎么来衡量这个模型对所有样本(包含未知的样本和已知的训练样本)的预测能力呢?从概率论的角度很容易就想到了数学期望。期望风险是损失函数的期望,用来度量平均意义下模型预测的性能好坏,表示的是决策函数对所有的样本预测能力的大小。而经验风险仅仅表示决策函数对
8、训练数据集里样本的预测能力。理想的模型(决策)函数应该是让所有的样本的损失函数最小的(也即期望风险最小化),但是,在实际的机器学习问题中,我们无法得知X与Y的联合概率分布函数P(X,Y),因此也没有办法直接计算期望风险。如果只考虑经验风险的话,会出现过拟合的现象,过拟合的极端情况便是模型对训练集中所有的样本数据都有很好的拟合效果,但是对于非训练集中的样本数据,模型的拟合效果非常不好。导致“过拟合”发生的因素有很多,最主要的原因是因为训练样本数量不足以及模型过于复杂。为了解决这一问题,我们需要引入结构风险函数,即对经验风险函数进行矫正,也就是在经验风险函数后面加上一个表示模型复杂度的正则项(惩罚
9、项)。结构风险是对经验风险和期望风险的折中。相比于经验风险,结构风险多了一个正则项(惩罚项),结构风险可以这么理解:经验风险越小,模型决策函数越复杂,其包含的参数越多,当经验风险函数小到一定程度就出现了过拟合现象。也可以理解为模型决策函数的复杂程度是过拟合的必要条件,那么我们要想防止模型产生“过拟合”现象,就要破坏这个必要条件,即降低决策函数的复杂度。也即,让惩罚项最小化,现在出现两个需要最小化的函数了。我们需要同时保证经验风险函数和模型决策函数的复杂度都达到最小化,一个简单的办法把两个式子融合成一个式子得到结构风险函数,然后对这个结构风险函数进行最小化。结构风险小意味着经验风险小、模型复杂度
10、低。结构风险小的模型往往对训练样本以及新的测试样本都有较好的预测性能。结构风险最小化的策略认为结构风险最小的模型是最优的模型。9机器学习中常见的优化算法有哪些?机器学习中常见的优化算法有梯度下降法、随机梯度下降、小批次梯度下降、牛顿法、拟牛顿法、坐标下降法等。10为什么需要对数值类型的特征做归一化?请见机器学习导论第2728页。11什么是过拟合?产生过拟合的原因是什么?防止模型过拟合的常用方法有哪些?“过拟合”是指模型过于复杂,学习能力太强,以至于能捕捉到单个训练样本的特征,并将其认为是“一般规律”,具体表现就是最终模型对已知数据(即训练集中的样本)的预测性能很好,在训练集上的误差很小,而对未
11、知数据(即测试集中的样本)的预测性能不佳,在测试集上的误差远大于训练误差,即模型的泛化能力下降。产生过拟合的主要原因在于训练样本数量较少而样本的特征数量过多,模型参数太多而导致复杂度过高。解决过拟合问题的常用方法有:(1)增加训练样本数量;(2)使用正则化约束;(3)减少特征数;(4)使用丢弃(Dropout)法;(5)提前停止训练。12什么是欠拟合?产生欠拟合的原因是什么?防止模型欠拟合的常用方法有哪些?“欠拟合”是指模型过于简单,学习能力不足,没有很好地捕捉到样本数据特征,无法学习到样本数据中的“一般规律”,不能很好地拟合数据的真实分布,数据点距离拟合曲线较远。欠拟合具体表现就是最终模型在
12、训练集和测试集上的误差都较大,性能较差。欠拟合的现象比较容易克服,常见的解决方法是增加更多的特征,提高模型的表达能力。例如,在线性模型中通过添加二次项或者三次项,使用核SVM、随机森林、深度学习等复杂模型。13请解释机器学习模型的方差和偏差。偏差(Bias)度量了机器学习模型的预测期望与真实标签值的偏离程度,即刻画了模型本身的拟合能力。方差(Variance)度量了同样大小训练集的样本变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响,描述的是预测值作为随机变量的离散程度。一般来说,在一个实际系统中,偏差和方差是有冲突的,偏差随着模型复杂度的增加而降低,而方差随着模型复杂度的增加而增加。
13、14为什么要将样本数据集分为训练集、验证集和测试集三个部分?他们各自的作用是什么?请见机器学习导论第29页。15解释交叉验证的工作原理?如何在-折交叉验证中选择的值?请见机器学习导论第30页。16回归模型和分类模型各有哪些常见的评估指标?请见机器学习导论第31页。17准确率的定义是什么?准确率始终是一个好的度量指标吗?它有什么局限性?请见机器学习导论第33页。18什么是查准率(精确率)?什么是查全率(召回率)?如何权衡查准率(精确率)与查全率(召回率)?请见机器学习导论第3335页。19什么是ROC曲线?如何绘制ROC曲线?ROC曲线相比 P-R 曲线有什么特点?请见机器学习导论第3436页。
14、20什么是AUC?AUC与ROC的关系是什么?什么情形下要使用AUC?请见机器学习导论第36页。21有哪些常见的正则化方法?请解释范数和范数正则化的作用。范数正则化使得模型参数具有稀疏性的原理是什么?常见的正则化方法包括:范数和范数正则化。范数是指向量中每个元素的平方之和,范数是指向量中每个元素的绝对值之和。范数正则化使用的是每个权重值的平方和,其作用是通过使模型的权重值变小,进而使模型变得简单。范数正则化使用的是每个权重值的绝对值之和。使用范数正则化后,模型参数会稀疏,即模型的权重值中有很多0。22为什么加正则化项能防止模型过拟合?过拟合是模型训练当中出现的一种现象,具体表现为模型在训练集上
15、表现很好,误差较小,但在测试集上表现较差,误差较大。其原因通常是:(1)训练样本不足;(2)模型过于复杂;(3)训练集与测试集样本的分布不同;(4)训练集样本里面的噪声数据干扰过大。正则化则是对模型参数添加先验,降低模型的复杂度,对于噪声以及异常样本数据(outliers)的输入扰动相对较小。2.6习题1什么是回归?哪些模型可用于解决回归问题?在统计学中,回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的自变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和
16、非线性回归分析。线性回归模型、多项式回归模型可用于解决回归问题。2什么是线性回归?解决线性回归的模型有哪些?如果因变量(输出变量)与自变量(输入变量)之间的关系可以用线性方程来表示,则我们称因变量与自变量的关系是线性关系。线性回归(Linear Regression)的目标旨在找到可以描述目标值(输出变量)与一个或多个特征(输入变量)之间关系的一个线性方程或函数。解决线性回归的模型有岭回归模型、套索回归模型和弹性网络(Elastic Net)模型。3什么是正规方程?最小二乘法可以将误差方程转化为有确定解的代数方程组(其方程式数目正好等于未知数的个数),从而可求解出这些未知参数。这个有确定解的代
17、数方程组称为最小二乘法估计的正规方程。正规方程是最小二乘法的矩阵形式。4请阐述梯度下降法的工作原理?什么是随机梯度下降?与通常的梯度下降有何不同?请见机器学习导论第5153页。5什么样的正则化技术适用于线性模型?可以使用L1或L2正则化进行特征选择吗?请见机器学习导论第5556页。6什么时候需要对线性模型进行特征归一化?什么情况下可以不做归一化?在以下情况下需要进行特征归一化:(1)涉及或隐含距离计算的算法,比如K-均值、KNN、PCA、SVM等,一般需要进行特征归一化。因为 zero-mean一般可以增加样本间余弦距离或者内积结果的差异,区分力更强,假设数据集集中分布在第一象限遥远的右上角,
18、将其平移到原点处,可以想象样本间余弦距离的差异被放大了。在模版匹配中,zero-mean可以明显提高响应结果的区分度。 就欧式距离而言,增大某个特征的尺度,相当于增加了其在距离计算中的权重,如果有明确的先验知识表明某个特征很重要,那么适当增加其权重可能有正向效果,但如果没有这样的先验,或者目的就是想知道哪些特征更重要,那么就需要先进行特征归一化,对各维特征等而视之。 增大尺度的同时也增大了该特征维度上的方差,PCA算法倾向于关注方差较大的特征所在的坐标轴方向,其他特征可能会被忽视,因此,在PCA前做特征归一化效果可能更好(2)损失函数中含有正则项时,一般需要进行特征归一化。(3)使用梯度下降算
19、法时,需要进行特征归一化(4)对于传统的神经网络,对输入做特征归一化也很重要,因为采用sigmoid等有饱和区的激活函数,如果输入分布范围很广,参数初始化时没有适配好,很容易直接陷入饱和区,导致梯度消失,所以,需要对输入做进行特征归一化或映射到0,1、1,1,配合精心设计的参数初始化方法,对值域进行控制。但自从有了Batch Normalization,每次线性变换改变特征分布后,都会重新进行Normalization,似乎可以不太需要对网络的输入进行特征归一化了,但习惯上还是会做特征归一化。在以下情况下可以不做特征归一化:(1)与距离计算无关的概率模型,比如朴素贝叶斯分类器,不需要进行特征归
20、一化;(2)与距离计算无关的基于树的模型,比如决策树、随机森林等,树中节点的选择只关注当前特征在哪里切分对分类更好,即只在意特征内部的相对大小,而与特征间的相对大小无关,不需要进行特征归一化。7逻辑斯谛回归为什么用Sigmoid函数?这个函数有什么优点和缺点?请见机器学习导论第58页。8逻辑斯谛回归模型是线性模型还是非线性模型?是生成式模型还是判别式模型?为什么?请见机器学习导论第60页。9如果样本标签值为0或1,请推导逻辑斯谛回归的对数似然函数。请见机器学习导论第5960页。10平方误差损失函数和交叉熵损失函数分别适合什么场景?当模型输出预测值与实际观测值之间的误差服从高斯分布的假设成立时,
21、最小化均方误差损失函数与极大似然估计本质上是一致的,在此情形下(比如回归任务),平方误差损失是一个很好的损失函数选择。交叉熵损失函数一般用于多分类任务,常常与Softmax回归是标配。11逻辑斯谛回归为什么使用交叉熵而不使用欧氏距离作为损失函数?如果使用欧氏距离作为损失函数,那么将逻辑斯谛回归模型的决策函数代入均方误差函数后,得到的代价函数是非凸的,而非凸函数的极值点不唯一,因此最终可能会得到一个局部极值点。12逻辑斯谛回归模型和线性回归模型的区别是什么?Softmax回归和逻辑斯谛回归是什么关系?逻辑斯谛回归模型和线性回归模型的区别:(1)逻辑斯谛回归模型适用于分类任务,而线性回归模型适用于
22、回归任务。(2)线性回归模型一般采用均方误差代价函数,而逻辑斯谛回归模型不能使用均方误差代价函数。逻辑斯谛回归只适用于二分类问题。Softmax回归模型是逻辑斯谛回归模型在多分类问题上的推广,类别标签可以取个不同的值。3.4习题1请阐述-最近邻法的基本思想。-最近邻(kNN)法的基本思想:给定一个训练样本集,对于待预测类别标签的新输入测试实例,可以在特征空间中计算它与所有训练样本的距离,然后在训练样本集中找到与该测试实例最邻近的个训练样本(也就是上面所说的个“邻居”),统计这个样本所属的类别,其中样本数最多的那个类就是该测试实例所属的类别。2-最近邻法的三个关键要素是什么?kNN算法涉及以下三
23、个关键要素: 距离度量,特征空间中样本点的距离是样本点间相似程度的反映。 算法超参数的取值。 决策规则,例如,对于分类任务,采取少数服从多数的“投票法”;对于回归任务,采用取平均值的规则。3-最近邻法有什么优点和缺点?请见机器学习导论第69页。4如何选择-最近邻法中的取值?在实际应用中,通常取较小的值,采用交叉验证法来选择一个合适的值。5请列举常见的距离度量。常见的距离度量有:闵可夫斯基距离、曼哈顿距离、欧式距离、切比雪夫距离。6在构建k-d树过程中,如何确定划分维度和划分数据点?请见机器学习导论第71页。7请简述k-d树的构建过程。请见机器学习导论第7273页。4.8习题1什么是“支持向量”
24、?支持向量机的基本原理是什么?支持向量机有什么特点?最大间隔和最优超平面可以只由离最优超平面最近的正例样本和反例样本完全确定,我们称这些能确定最优超平面的训练样本为支持向量(Support Vector)。支持向量机的基本原理是寻找一个分类超平面,不仅能正确地对每一个样本进行分类,并且要使得每一类样本中离超平面最近的样本到超平面的距离尽可能远,即使得间隔(Margin)最大化。对应最大间隔的分类超平面称为最优超平面。支持向量机的优缺点,请见机器学习导论第89页。2简述软间隔SVM和硬间隔SVM的异同点?分类超平面要满足的约束条件不同,硬间隔SVM的分类超平面要满足式(4-25)的约束条件,软间
25、隔SVM的分类超平面要满足式(4-40)的约束条件,“软间隔”相比于“硬间隔”的约束要求降低了。3SVM为什么要求解对偶问题?为什么对偶问题与原问题等价?由于求解最优超平面的优化问题带有大量不等式约束,因此不容易求解,而满足Slater条件的凸优化问题可以根据拉格朗日对偶性将其转化为对偶问题求解,通过解相应的拉格朗日乘子可以得到原约束问题的解。4SVM 如何实现非线性分类?核函数的作用是什么?请见机器学习导论第95页。5常用的核函数有哪些?核函数的选择对支持向量机的性能有何影响?常用的核函数有线性核函数、多项式核函数、径向基核函数、Sigmoid核函数。理论分析与试验结果都表明,支持向量机的性
26、能与核函数的类型、核函数的参数有很大的关系。然而,目前没有足够的理论来指导如何选择有效的核函数及其参数值,只能凭借经验、试验对比、大范围的搜索或利用软件包提供的交叉验证功能进行寻优。6SVM如何解决多分类问题?首先构造若干个二分类器,然后按照某种规则将它们组合起来实现多分类。主要有以下几种经典算法:一对一(One-versus-One,OvO)法、一对余(One-versus-the Rest,OvR)法、决策导向无环图(Decision Directed Acyclic Graph,DDAG)法、决策二叉树法等。7请阐述SVM模型与逻辑斯谛回归模型的异同点。请见机器学习导论第90页。8支持向
27、量机适合解决什么问题?支持向量机常用在哪些领域?支持向量机(SVM)是一种基于统计学习理论和结构风险最小化原则的机器学习方法,能有效地解决小样本分类和回归任务中的“过学习”、“维数灾难”和局部极小点等问题,具有良好的推广能力。SVM不仅可以用于模式分类,还可以用于回归分析。它在解决小样本、非线性及高维模式识别中表现出许多特有的优势。5.5习题1请阐述贝叶斯公式和朴素贝叶斯分类器原理。贝叶斯公式朴素贝叶斯分类器原理,请见机器学习导论第115页。2请解释贝叶斯分类器是生成式模型还是判别式模型。贝叶斯分类器是一种生成式模型。因为使用了类别标签的先验概率分布和类条件概率分布,两者的乘积就是联合概率分布
28、,因此它对联合概率分布进行建模。3在贝叶斯定理的应用过程中,先验概率如何计算?先验概率是指根据以往经验和分析得到的概率,可通过全概率公式计算得到。4朴素贝叶斯分类器有哪些优缺点?请见机器学习导论第118119页。6请阐述朴素贝叶斯分类模型与逻辑斯谛回归模型与的异同点。两者相同之处:朴素贝叶斯分类模型与逻辑斯谛回归模型都应用于分类任务。两者不同之处:朴素贝叶斯分类模型是一个生成式模型,在计算P(y|x)之前,先要从训练数据中计算P(x|y)和P(y)的概率,从而利用贝叶斯公式计算P(y|x)。而逻辑斯谛回归模型是一个判别式模型,它通过在训练数据集上最大化判别函数P(y|x)学习得到,不需要知道P
29、(x|y)和P(y)。7如何构建贝叶斯网络?结合实例,讨论贝叶斯网络的推理过程。贝叶斯网络是一个有向无环图,每个节点都代表一个随机变量,节点间的有向边代表随机变量间的依赖关系。此外,每个节点都关联一个概率分布,根节点所对应的是边缘概率分布,而非根节点所对应的是条件概率分布。请见机器学习导论第120127页。8贝叶斯网络适合解决什么问题?贝叶斯网络可以作为人脑推理过程的一个表达,因为依赖和独立关系是人们日常推理的基本工具,而且人类知识的基本结构也可以用依赖图来表达。另外,贝叶斯网络使用了严谨的数学语言,适合于程序处理。6.10习题1请解释什么是决策树?简述决策树的生成策略。请见机器学习导论第13
30、0、134页。2请阐述决策树的优缺点。请见机器学习导论第150、151页。3如何避免决策树过拟合的问题?决策树本身的特点决定了它比较容易产生过拟合问题,从而导致泛化能力较差。为了避免过拟合的问题,一般需要对决策树进行剪枝(Pruning)处理,同时控制模型的复杂度。4ID3用什么指标作为特征选择的指标?为什么C4.5算法不使用信息增益,而是使用信息增益比作为特征选择的指标?ID3使用信息增益作为特征选择的指标。在ID3算法中,使用信息增益来选择特征(或属性)的一个缺点就是容易倾向于优先选取取值种类较多的特征(或属性),而取值种类较多的特征(或属性)并不一定是最优的特征(或属性)。针对ID3算法
31、容易倾向于优先选取取值种类较多的特征(或属性)的缺点,C4.5算法的解决办法就是用信息增益比来替代信息增益作为特征(或属性)选择的指标。5CART对分类问题和回归问题分别使用什么度量指标作为特征(或属性)选择的指标?基尼指数可以表示数据不确定性,信息熵也可以表示数据的不确定性,为什么CART使用基尼指数作为特征选择的指标?CART算法在用于分类任务时,采用基尼指数作为特征(或属性)选择的指标;CART算法在用于回归任务时,采用均方误差最小化准则进行特征(或属性)选择。因为如果使用信息熵会涉及大量的对数运算,而使用基尼指数可以简化计算,所以,CART使用基尼指数作为特征选择的指标。6为什么要对决
32、策树进行剪枝处理?如何进行剪枝?请见机器学习导论第150页。7什么是预剪枝?什么是后剪枝?请比较预剪枝与后剪枝的优缺点。请见机器学习导论第150页。7.6习题1集成学习的方法大致可分为哪两大类?Bagging模型与Boosting模型有何异同点?分别有哪些典型的算法?请见机器学习导论第155、157页。2集成学习的基本原理是什么?举例说明集成学习的应用。集成学习方法通过训练若干个个体学习器(Individual Learner)或组件学习器(Component Learner)并将它们按照某种策略进行组合,构成一个精度更高、泛化能力更强的强学习器(Strong Learner)。例如,AdaB
33、oost学习算法是一种能有效地将弱分类器联合为强分类器的学习算法,成功地应用于人脸检测系统。3常用的基学习器有哪些?采用集成学习有什么好处?常用的基学习器有逻辑斯谛回归、决策树、SVM、神经网络、贝叶斯分类器、K-近邻分类器。采用集成学习的好处,请见机器学习导论第154页。3请阐述梯度提升决策树(GBDT)的工作原理。GBDT以CART回归树为基学习器,使用基学习器线性组合表示预测函数。训练模型时采用前向分步拟合算法进行迭代,通过构建多棵CART回归树,并将它们的输出结果进行组合得到最终的结果。4什么是随机森林?为什么随机森林能降低方差?随机森林是一种基于装袋法(Bagging)的集成学习模型
34、,将若干棵决策树组合成森林用来预测最终结果。在随机森林模型中,通常默认采用分类与回归树(CART)作为Bagging中的基学习器。随机森林使用装袋法(Bagging)集成策略,采用了一种有放回的自助随机采样方法来生成训练数据。由于存在随机采样,并且随机抽取特征属性,故而训练出来的模型方差小,泛化能力强,具有一定的防过拟合的效果。5可否将随机森林中的基分类器由决策树替换为线性分类器或 K-近邻分类器?随机森林是Bagging算法族中的一种,随机森林是以决策树为基分类器构建Bagging集成的基础上,进一步在决策树的训练过程中引入随机属性选择。具体来说,传统决策树在选择划分属性时是在当前结点的属性
35、集合(假设有d个属性)中选择一个最优属性;而在随机森林中,对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性用于划分。即随机森林中的基学习器的多样性不进来自样本扰动,还来自属性扰动。从方差-偏差角度来说,Bagging算法主要是降低方差,即随机森林测试结果的方差比每一个基学习器的方差要小。Bagging所采用的基分类器,最好是对样本分布比较敏感的分类器(也就是不稳定的分类器)。线性分类器或者K-近邻分类器都是比较稳定的算法,对异常点不敏感,并且本身方差就不大,所以用它们做基分类器使用Bagging并不能在原有基础上获得好的结果,甚至,
36、因为Bagging的采样,而导致它们在训练中难以收敛,从而增大了集成分类的偏差。6从偏差和方差的角度阐述随机森林模型的优缺点。随机森林是基于bagging思想的集成学习模型,对每一组重采样的数据集训练一个基学习器,共K个基学习器。从方差-偏差角度来说,基于bagging思想的集成学习模型的偏差与基学习器的偏差接近,并不能显著降低偏差;但方差比每一个基学习器的方差要小。所以,随机森林的主要作用是降低方差,降低模型的复杂度,解决模型的过拟合问题。7请阐述随机森林模型和梯度提升决策树(GBDT)模型的区别。(1)随机森林将多棵决策树的结果进行投票后得到最终的结果,对不同的树的训练结果也没有做进一步的
37、优化提升,将其称为bagging算法。boosting算法是在迭代的每一步构建弱学习器来弥补原有模型的不足。(2)GBDT用到的是boosting算法,在迭代的每一步构建弱学习器弥补原有模型的不足。GBDT中的Gradient Boost就是通过每次迭代的时候构建一个沿梯度下降最快的方向的学习器,并且通过设置不同的损失函数可以处理各类学习任务(多分类、回归等)。8.6习题1聚类分析的目的是什么?讨论聚类与分类的异同点。请见机器学习导论第169、170页。2聚类分析常用的应用领域有哪些?常见的聚类算法有哪些?这些算法分别适用于什么场合?请见机器学习导论第170页。3请阐述-均值算法的原理和步骤。
38、请见机器学习导论第175页。4-均值算法中的聚类簇数如何确定?讨论初始的个聚类中心(簇中心)对-均值算法的影响。请见机器学习导论第176页。5-均值算法有什么优缺点?针对-均值算法的缺点,人们提出了哪些改进的算法?请见机器学习导论第176、177页。6请阐述-均值算法与-近邻算法的异同点。-均值算法是一种无监督学习算法,用于聚类任务。而-近邻算法是一种有监督学习算法,用于分类任务。7常见的层次聚类算法有哪些?分别阐述它们的基本思想。常见的层次聚类算法有利用层次方法的平衡迭代规约和聚类(BIRCH)算法和CURE算法。BIRCH算法是指利用层次方法来平衡迭代规约和聚类,它利用树形结构对实例集进行
39、划分,叶子节点之间用双向链表进行连接,逐渐对树的结构进行优化获得聚类结果。CURE算法抽选一定数量的代表点表示一个簇,使其能识别非球形类簇,提高了算法的性能。然而CURE算法是一种基于距离的算法,它难以处理非数值类型的数据。8BIRCH算法有哪些优缺点?请见机器学习导论第183页。9DBSCAN算法有哪些优缺点?如何选择DBSCAN算法中的参数和?请见机器学习导论第187页。10简述OPTICS算法的原理以及适用场合。请见机器学习导论第188190页。9.6习题1请画出人工神经元模型,并简述其和人脑神经元是如何类比的?请见机器学习导论第195页图9-2。人工神经元模型是对人脑神经元的功能和结构
40、的模拟,是对生物神经的形式化描述,是对人脑神经元信息处理过程的抽象。人工神经元模型是一个包含输入、输出与计算功能的模型。输入可以类比为人脑神经元的树突,而输出可以类比为人脑神经元的轴突,计算则可以类比为细胞核。2请简述感知机的基本原理。感知机是二分类的线性分类模型,属于监督学习算法。输入为实例的特征向量,输出为实例的类别(取+1和-1)。感知机旨在求出将输入空间中的实例划分为两类的分离超平面。为求得超平面,感知机导入了基于误分类的损失函数,利用梯度下降法对损失函数进行最优化求解。如果训练数据集是线性可分的,则感知机一定能求得分离超平面。如果是非线性可分的数据,则无法获得超平面。3前馈神经网络有
41、哪些特征?前馈神经网络,简称前馈网络,是人工神经网络的一种。前馈神经网络采用一种单向多层结构。其中每一层包含若干个神经元。在此种神经网络中,各神经元可以接收前一层神经元的信号,并产生输出到下一层。第0层叫输入层,最后一层叫输出层,其他中间层叫做隐含层(或隐藏层、隐层)。隐层可以是一层,也可以是多层。整个网络中无反馈,信号从输入层向输出层单向传播,可用一个有向无环图表示。前馈神经网络结构简单,应用广泛,能够以任意精度逼近任意连续函数及平方可积函数,而且可以精确实现任意有限训练样本集。从系统的观点看,前馈网络是一种静态非线性映射通过简单非线性处理单元的复合映射,可获得复杂的非线性处理能力。从计算的
42、观点看缺乏丰富的动力学行为。大部分前馈网络都是学习网络,其分类能力和模式识别能力一般都强于反馈网络。4简述BP算法的基本思想。BP神经网络有哪些常见应用?BP算法的基本思想,请见机器学习导论第201页。BP神经网络可以用于分类、聚类、预测等。5神经网络的激活函数有哪些?它们对神经网络的性能有何影响?画出Sigmoid、Tanh以及ReLU激活函数的曲线。常见的神经网络激活函数有Sigmoid 函数、Tanh 函数、ReLU函数、LReLU函数、PReLU函数、ELU函数。Sigmoid、Tanh以及ReLU激活函数的特性以及曲线,请见机器学习导论第202205页。6请画出CNN的基本结构,并阐
43、述各个模块的作用。CNN的基本结构,请见机器学习导论第211页图9-10。卷积层是一个特征提取层,它往往采用多个不同的卷积核(权重参数不同)对输入的数据进行卷积操作,从输入数据中提取不同的特征。池化层对上一个卷积层提取的特征图进行下采样操作,其作用是使特征图的输出对平移、缩放、旋转等变换的敏感度下降,同时降低特征维数,从而减少模型参数数量和计算开销,也能起到防止过拟合的作用。全连接层的作用则是对提取的特征进行非线性组合以得到输出,即全连接层本身不被期望具有特征提取能力,而是试图利用现有的高阶特征完成学习目标。7请解释卷积神经网络的局部连接和权重共享。请见机器学习导论第217、218页。8如何理
44、解梯度消失与梯度爆炸?为什么 Sigmoid 和 Tanh 激活函数会导致梯度消失?如何解决梯度消失与梯度爆炸问题?梯度消失指的是梯度趋近于零,网络权重无法更新或更新的很微小,网络训练再久也不会有效果。梯度爆炸指的是梯度呈指数级增长,变得非常大,然后导致网络权重的大幅更新,使网络变得不稳定。其实不管是梯度消失还是梯度爆炸本质上都是由于深度神经网络的网络层数太深而引发的反向传播中的梯度连乘效应。反向传播中计算权重更新信息的时候需要计算前层偏导信息,如果激活函数选择不合适,比如使用sigmoid,tanh这种容易饱和的函数,梯度消失就会比较明显。当使用sigmoid激活函数时,其梯度是不可能超过0
45、.25的,这样经过链式求导之后,很容易发生梯度消失。虽然tanh比sigmoid的梯度值要大,但其值也是小于1的,也会引起梯度消失的现象。解决梯度消失与梯度爆炸主要有以下几种方案:(1)采用 ReLU、LReLU、PReLU、ELU等其他激活函数。ReLU函数的导数在正数部分是恒等于1的,因此在深层网络中使用ReLU激活函数就不会导致梯度消失和爆炸的问题。(2)使用批归一化(batch normalization,简称BN)技术。批归一化就是通过对每一层的输出规范为均值和方差一致的方法,消除了输出信号带来的放大缩小的影响,进而解决梯度消失和爆炸的问题,或者可以理解为批归一化将输出从饱和区拉倒了
46、非饱和区,保证网络的稳定性。(3)采用带有残差学习单元的残差网络结构。残差学习单元中有跨层直连结构,其实就是在前向传播的过程中,输出端的值加上输入X再传到下一层网络结构中,这样的结构在反向传播中具有很大的好处。因为旁边的分支结构是直接传递过来的,没有带权重,因此反向传播时该分支的梯度始终为1,这样即使主干梯度值很小,加上分支的梯度再传给上一层网络时,梯度也不会很小,从而很大程度上缓解了梯度消失。所以利用残差结构,可以轻松的构建几百层网络结构,而不用担心梯度消失过快的问题。9常用的池化操作有哪些?池化的作用是什么?常用的池化操作包括最大值池化和均值池化。池化的作用是使特征图的输出对平移、缩放、旋转等变换的敏感度下降,同时降低特征维数,从而减少模型参数数量和计算开销,也能起到防止过拟合的作用。10术语“深度学习”中的“深度”指什么含义?与浅层学习相比,深度学习有哪些不同?“深度学习”中的“深度”是指神经网络的层数很多。区别于传统的浅层学习,深度学习的不同在于:1)强调了模型结构的深度,通常有5层、6层,甚至10多层的隐层节点;2)明确突出了特征学习的重要性,也就是说,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够