《数据科学导论》复习资料.docx-淘文阁

资源描述

《《数据科学导论》复习资料.docx》由会员分享，可在线阅读，更多相关《《数据科学导论》复习资料.docx（39页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、数据科学导论复习资料本页仅作为文档封面，使用时可以删除This document is for reference only-rar21 year.March附（考核知识点解释）：K近邻法是一种基于向量空间的分类方法，输入为实例的特征向量，对应于特征空间中的点。K近邻法简单，直观，不具有显式的学习过程。它的基本思想是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的k个实例，这k个实例的多数属于某个类，就把该输入实例分为这个类。K近邻法的三个基本要素包括：距离度量、k值的选择、分类决策规则。1.距离度量：特征空间中两个实例点的距离是两个实例点的相似程度的反映。K近

2、邻模型的特征空间一般是n维实数向量空间，使用的距离是欧式距离，但也可以是其他距离如更一般的距离（ distance）或 Minkowski 距离（Minkowski distance）。值的选择：选择较小的k值，相当于用较小的邻域中的训练实例进行预测，学习的“近似误差”会减小，“估计误差”会增大，预测结果会对近邻的点实例点非常敏感。k值减小意味着整体模型变得复杂，容易发生过拟合。选择较大的k值，学习的“近似误差”会增大，“估计误差”会减小，与输入实例较远（不相似）的训练实例也会对预测起作用。k值增大意味着整体模型变得简单。在应用中，k值一般取一个比较小的数值，通常采用交叉验证法来

3、选取最优的k值。3.分类决策规则：k近邻法中的分类决策规则往往是多数表决，即由输入实例的k个邻近的训练实例中的多数类决定输入实例的类。7、一元回归参数估计的参数求解方法不包括（D）。A.最大似然法B.距估计法C.最小二乘法D.欧式距离法考核知识点：一元线性回归参见讲稿章节：7-1附（考核知识点解释）：分类问题主要关注于离散型变量，然而在客观世界中普遍存在着连续型变量，因此需要考虑如何对连续型变量之间的关系进行分析。变量之间的关系一般来说可以分为确定性关系与非确定性关系两种。确定性关系是指变量之间的关系可以用函数关系来表达，而另一种非确定性的关系即为所谓的相关关系，例如身高与体重的关

4、系，身高越高通常情况下体重越重，但是同样高度的人，体重却未必相同，与此类似的还有体重、年龄与血压的关系，天气，住房面积，房价与用户用电量的关系等等。这些变量之间的关系是非确定性的，而回归分析就是研究这种相关关系的工具，它可以帮助我们从一个或一组变量取得的值去估计另一个变量的值。一元线性回归中，参数求解方法有以下三种：最大似然法、距估计法和最小二乘法。其中最小二乘法是线性回归问题中常用的参数求解方法，最小二乘法的目标是最小化残差平方和。首先将目标函数分别对0和1求导并令导数等于08、下列选项不是BFR的对象是（B）A.废弃集B.临时集C.压缩集D.留存集考核知识点：BFR聚类参见讲稿

5、章节：9-4附（考核知识点解释）：BFR聚类是用于处理数据集非常大的k-means变体，用于在高维欧氏空间中对数据进行聚类。它对簇的形状做出了非常强烈的假设：必须正态分布在质心周围。BFR算法的步骤流程：1 .簇初始化。随机取k个点，随机抽取一小部分样本并进行聚类，选取一个样本，并随机抽取点，剩下的k-l个点尽可能远离先前选择的点。2 .数据文件读入。数据文件中的点按组块方式读入：分布式文件系统中的组块、传统文件分割成的大小合适的组块、每个组块必须包含足够少的点以便能在内存中进行处理。内存中除了输入组块之外还包括其他三种对象：（1）废弃集：由簇本身的简单概要信息组成，簇概要本身没有被

6、“废弃”，它们实际上不可或缺。概要所代表的点已被废弃，它们在内存中除了通过该概要之外已经没有其他表示信息。（2）压缩集：类似于簇概要信息，压缩集中存放概要信息。只存放那些相互接近的点集的概要，而不是接近任何簇的点集的概要。压缩集所代表的点也被废弃，它们也不会显式地出现在内存中。（3）留存集：留存集上的点不能分配给某个簇，留存集上的点不会和某个其他点充分接近而被放到压缩集中，这些点在内存中会与其在输入文件中一样显示存在。9、聚类的主要方法不包括（D）A.划分聚类B.层次聚类C.密度聚类D.距离聚类考核知识点：聚类的方法参见讲稿章节：9-1附（考核知识点解释）：聚类是将数据集中的样本划

7、分为若干个通常是不相交的子集，是一种无监督学习方法。给定一组点，使用点之间的距离概念，将点分组为若干簇，以便簇内的成员彼此接近/相似，不同簇的成员不同。通常点位于高维空间中，使用距离测量来定义相似性。聚类的主要方法有：划分聚类、层次聚类、密度聚类。10、以下哪一项不是特征选择常见的方法（D）A.过滤式B.封装式C.嵌入式D.开放式考核知识点：特征选择参见讲稿章节：4-6附（考核知识点解释）：从数据集的全部特征中选取一个特征子集的过程被称为特征选择（feature selection）。特征选择常见的方法包括：过滤式方法、封装式方法、嵌入式方法。11、以下哪一项不是特征工程的子问题（D）A

8、.特征创建B.特征提取C.特征选择D.特征识别考核知识点：特征的介绍和创建参见讲稿章节：4-1附（考核知识点解释）：特征工程是使用领域知识来基于原始数据创建特征的过程，它是机器学习的基础，是困难且繁杂的。特征工程的子问题包括特征创建、特征提取和特征选择。12、比如一张表，从业务上讲，一个用户应该只会有一条记录，那么如果某个用户出现了超过一条的记录，这就产生了（C）A.异常值B.不一致的值C.重复值D.缺失值考核知识点：数据质量检验参见讲稿章节：2-2附（考核知识点解释）：数据质量检验的主要任务就是检查原始数据中是否存在以上的“脏数据”，概括性来说，脏数据主要包括以下四点：缺失值、异常值、

9、不一致的值、重复值。缺失值：记录的缺失，记录中某个字段信息的缺失。异常值：指样本中的个别值，其数值明显偏离其余观测值。也称离群点。不一致的值：数据不一致是指数据的矛盾性和不相容性，主要发生在数据集成的过程中。重复值；对于二维表形式的数据集来说，主要是关键字段出现重复记录，例如主索引字段出现重复。13、对于相似性与相异性的度量方法，基于距离的方法，以下哪一项不符合要求(D)A.欧氏距离B.曼哈顿距离C.马氏距离D.对角距离考核知识点：样本相似性与相异性分析参见讲稿章节：3-5附(考核知识点解释)：两个对象之间的相似度(similarity)是两个对象相似程度的数值度量。因而，两个对象越

10、相似，它们的相似度就越高。通常，相似度是非负的，并常常在0 (不相似)和1 (完全相似)之间取值。两个对象之间的相异度(dissimilarity)是这两个对象差异程度的数值度量。对象越相似，他们的相异度就越低。通常，术语距离(distance)被用作相异度的同义词，常常用来表示特定类型的相异度。其中，相似性与相异性的度量方法中，基于距离的方法有欧氏距离、曼哈顿距离、明可夫斯基距离、马氏距离。14、通过变量标准化计算得到的回归方程称为(A)。A.标准化回归方程B.标准化偏回归方程C.标准化自回归方程D.标准化多回归方程考核知识点：多元线性回归参见讲稿章节：7-2附（考核知识点解释）：在

11、实际问题中，各自变量都有各自的计量单位以及不同的变异程度，所以不能直接用普通的偏回归系数的大小来比较方程中各个自变量对因变量的影响大小，可以利用标准化偏回归系数来衡量。通过变量标准化计算得到的回归方程称为标准化回归方程，相应的回归系数即为标准化偏回归系数。15、一元线性回归中，真实值与预测值的差称为样本的（D）。A.误差B.方差C.测差D.残差考核知识点：一元线性回归参见讲稿章节：7-1附（考核知识点解释）：在一元线性回归中，输入只包含一个单独的特征，真实值与预测值的差称为样本的残差。其中残差项服从正态分布。16、在回归分析中，自变量为（）,因变量为（D）。A.离散型变量，离散型变量B

12、.连续型变量，离散型变量C.离散型变量，连续型变量D.连续型变量，连续型变量考核知识点：一元线性回归参见讲稿章节：7-1附（考核知识点解释）：设输入为维自变量，输出因变量为连续型，回归分析等价于寻找一个映射函数，建立到的映射关系。其中X和y都是连续型变量。17、为了解决任何复杂的分类问题，使用的感知机结构应至少包含（B）个隐含层。考核知识点：人工神经网络参见讲稿章节：8-2附（考核知识点解释）：感知机只能解决线性可分的问题，多层感知机可以解决非线性可分的问题，输入层与输出层之间的一层神经元，称为隐含层。隐含层和输出层都是拥有激活函数的功能神经元。随着隐含层层数的增多，凸域将可以

13、形成任意的形状，可以解决任何复杂的分类问题。双隐层感知器就足以解决任何复杂的分类问题。18、BFR聚类用于在（A）欧氏空间中对数据进行聚类A.高维B.中维C.低维D.中高维考核知识点：BFR聚类参见讲稿章节：9-4附（考核知识点解释）：BFR是用于处理数据集非常大的k-means变体，用于在高维欧氏空间中对数据进行聚类。19、层次聚类对给定的数据进行（B）的分解。A.聚合B.层次C.分拆D.复制考核知识点：层次聚类参见讲稿章节：9-2附（考核知识点解释）：层次聚类对给定的数据进行层次的分解，适用于规模较小的数据集。层次的方法包括聚合方法和分拆方法。（二）、判断部分1、当维度增加时，特征空间

14、的体积增加得很快，使得可用的数据变得稀疏。（V）考核知识点：降维的基本概念参见讲稿章节：4-2附（考核知识点解释）：维数灾难：当维度增加时;特征空间的体积增加得很快，使得可用的数据变得稀疏。例如：给定有10个样本，假设每一维的特征空间都是一个长度为5的线段，使用一维特征时，特征空间大小=5,样本密度=样本数/特征空间大小 =10/5 =2；使用二维特征时：特征空间大小=5*5= 25,样本密度=样本数/特征空间大小=10/25;；使用三维特征时：特征空间大小=5*5*5= 125样本密度:样本数/特征空间大小=10/125二o数据科学课程期末复习资料数据科学课程讲稿章节目录：第一章导论第一

15、节了解数据科学的基本概念第二节了解数据科学的应用第三节了解数据科学的过程第四节掌握数据科学的方法第二章数据获取及预处理第一节了解获取数据的途径和方法第二节掌握数据质量检验的方法第三节掌握数据清洗第四节掌握数据集成第五节掌握数据规约第六节掌握数据变换第三章数据分析第一节了解探索性数据分析的概念第二节掌握单变量分析方法第三节掌握多变量分析方法第四节掌握样本相似性与相异性分析的方法第四章特征工程第一节了解特征的介绍和创建过程第二节了解降维的基本概念第三节掌握主成分分析-PCA第四节掌握奇异值分解-SVD第五节了解特征选择的基本概念第六节掌握过滤式方法第七节了解产生特征子集的搜索策略第八节了解封装式方

16、法第九节了解嵌入式方法2、数据分析师的任务：用模型来回答具体问题，了解数据，其来源和结构。(X)考核知识点：数据科学的过程参见讲稿章节：1-3附（考核知识点解释）：一个分析师需要具备以下能力：1 .提出正确的问题2 .争论数据3 .管理数据以便组织轻松访问4 .探索数据以产生假设5 .使用统计方法6 .使用可视化，演示和产品表达结果数据分析师的任务：争论数据，管理数据，创建基本分析和可视化。数据建模师的任务：用模型来回答具体问题，了解数据其来源和结构。数据科学家的任务：提问正确的问题，寻找数据中的模式，批判性的解释结果。3、探索性数据分析的特点是研究从原始数据入手，完全以实际数据为依据。（V

17、）考核知识点：探索性数据分析参见讲稿章节：3-1附（考核知识点解释）：探索性数据分析：在尽量少的先验假定下，通过作图、制表、方程拟合、计算特征量等手段，探索数据的结构和规律。探索性数据分析可以最大化数据分析者对数据集和数据集底层结构的洞察力，并且为分析者提供数据集中包含的各类信息。探索性数据分析的主要特点：1 .研究从原始数据入手，完全以实际数据为依据2 .分析方法从实际出发，不以某种理论为依据3 .分析工具简单直观，更易于普及4、特征的信息增益越大，则其越重要。（J）考核知识点：过滤式方法参见讲稿章节：4-9附（考核知识点解释）：特征：是一个客体或一组客体特性的抽象结果，是对数据建模有用

18、的属性。好的特征可以降低模型的复杂度，提升模型的性能，提高模型的灵活性。信息嫡主要用来描述数据信息的不确定性。信息燧越大，数据信息的不确定性越大。特征选择中，信息增益用来衡量系统包含某一个特征与不包含该特征时的信息量的差值。即反映某一特征对系统的重要性。当特征为离散型时，可以使用信息增益作为评价统计量。特征的信息增益越大，则其越重要。5、随着特征维数的增加，样本间区分度提高。（X）考核知识点：降维的基本概念参见讲稿章节：4-2附（考核知识点解释）：随着特征维数的增加，特征空间呈指数倍增长，样本密度急剧减小，样本稀疏。随着特征维数的增加，样本间区分度降低。假设有一个二维特征空间，在矩

19、形内部有一个内切的圆形，越接近圆心的样本越稀疏，相比于圆形内的样本，位于矩形四角的样本更加难以分类。随着特征维数的增加，将矩形和内切圆泛化为超立方体与超球体。随着特征数量的增加，超球体的体积逐渐减小直至趋向于0,然而超立方体的体积却不变。高维特征空间中，大多数的训练样本位于超立方体的角落。6、多层感知机的学习能力有限，只能处理线性可分的二分类问题。（X）考核知识点：人工神经网络参见讲稿章节：8-2附（考核知识点解释）：感知机只能解决线性可分的问题，但多层感知机可以解决非线性可分的问题，输入层与输出层之间的一层神经元，称为隐含层。隐含层和输出层都是拥有激活函数的功能神经元。单层感知机

20、：在输入空间形成一个超平面将实例划分为正负两类。单隐层的多层感知机：在输入空间形成开凸或闭凸区域。双隐层的多层感知机：在输入空间形成任意形状的划分区域。7、给定一组点，使用点之间的距离概念，将点分组为若干簇，不同簇的成员不可以相同。（J）考核知识点：聚类问题参见讲稿章节：9-1附（考核知识点解释）：聚类是将数据集中的样本划分为若干个通常是不相交的子集，是一种无监督学习方法。给定一组点，使用点之间的距离概念，将点分组为若干簇，以便簇内的成员彼此接近/相似，不同簇的成员不同。通常点位于高维空间中，使用距离测量来定义相似性。8、给定关联规则Af B,意味着：若A发生，B也会发生。（X）考核知识

21、点：关联规则参见讲稿章节：5-1附（考核知识点解释）：关联规则是形如X-Y的蕴涵式，其中，X和Y分别称为关联规则的先导（antecedent 或 left-hand-side, LHS）和后继（consequent 或 right-hand-side, RHS） o其中，关联规则XY,存在支持度和信任度。给定关联规则A-B,意味着：若A发生，B有可能会发生，而不是一定会发生。9、Jaccard系数只关心个体间共同具有的特征是否一致这个问题。（J）考核知识点：样本相似性与相异性分析参见讲稿章节：3-6附（考核知识点解释）：Jaccard 系数，又称为 Jaccard 相似系数（Jaccard

22、 similarity coefficient）,用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大，样本相似度越高。Jaccard主要用于计算符号度量或布尔值度量的个体间的相似度，因为个体的特征属性都是由符号度量或者布尔值标识，因此无法衡量差异具体值的大小，只能获得“是否相同”这个结果，所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。10、集中趋势能够表明在一定条件下数据的独特性质与差异。（义）考核知识点：单变量分析参见讲稿章节：3-2附（考核知识点解释）：单变量分析主要关注于单变量的描述和统计推断两个方面，旨在用简单的概括形式反映出大量样本资料所容

23、纳的基本信息，描述样本数据中的集中或离散趋势。集中趋势又称“数据的中心位置”、“集中量数”等，是一组数据的代表值。集中趋势能够表明在一定条件下数据的共同性质和一般水平。常用的有平均数、中位数等。11、利用K近邻法进行分类时，使用不同的距离度量所确定的最近邻点都是相同的。（X）考核知识点：K近邻法参见讲稿章节：6-2附（考核知识点解释）：K近邻法是一种基于向量空间的分类方法，输入为实例的特征向量，对应于特征空间中的点，K近邻法简单，直观，不具有显式的学习过程。由不同的距离度量所确定的最近邻点是不同的12、利用K近邻法进行分类时，k值过小容易发生过拟合现象。（J ）考核知识点：K近邻法参

24、见讲稿章节：6-2附（考核知识点解释）：K值的选择：选择较小的k值，相当于用较小的邻域中的训练实例进行预测，学习的 “近似误差”会减小，“估计误差”会增大，预测结果会对近邻的点实例点非常敏感。k值减小意味着整体模型变得复杂，容易发生过拟合。选择较大的k值，学习的“近似误差”会增大，“估计误差”会减小，与输入实例较远（不相似）的训练实例也会对预测起作用。k值增大意味着整体模型变得简单。在应用中，k值一般取一个比较小的数值，通常采用交叉验证法来选取最优的k值。13、神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。（V）考核知识点：人工神经网络参见讲稿章节：8-2附（考核知识

25、点解释）：通过增加其神经元个数，可以提高神经网络的训练精度。神经元数过少时，网络不能很好的学习，训练的迭代次数较多，训练精度不高；神经元数过多时，网络功能更强大，精确度更高，但训练的迭代次数也更大，并且可能会出现过拟合现象；由此，神经网络中，隐含层神经元个数的选取原则是：在能够解决问题的前提下，再增加1到2个神经元，以加快误差下降速度即可。14、单层感知机对于线性不可分的数据，学习过程也可以收敛。（X）考核知识点：人工神经网络参见讲稿章节：8-1附（考核知识点解释）：单层感知机只拥有一层的功能神经元，即只有输出层神经元进行激活函数的处理，学习能力有限。当二分类问题是线性可分的，即存在

26、一个线性超平面将其分开，则感知机的学习过程会收敛，对于线性不可分的数据，算法不收敛。15、聚合方法是自底向上的方法。（J）考核知识点：层次聚类参见讲稿章节：9-2附（考核知识点解释）：聚合方法是自底向上的方法。具体思路如下：1 .初始时每个数据都被看成是单独的一个簇2 .通过逐步合并相近的数据点或簇，形成越来越大的簇3 .直到所有的数据点都在一个簇中，或者达到某个终止条件为止16、如果一个候选集至少有一个子集是非频繁的，根据支持度的反单调属性，这样的候选项集肯定是非频繁的。（J）考核知识点：频繁项集的产生参见讲稿章节：5-3附（考核知识点解释）：Apriori定律1：如果一个项集是频繁的，

27、则它的所有子集一定也是频繁的。Apriori定律2：如果一个集合不是频繁项集，则它的所有超集都不是频繁项集。如果一个候选集至少有一个子集是非频繁的，根据支持度的反单调属性，这样的候选项集肯定是非频繁的。17、在k近邻方法中，k值增大意味着整体模型变得复杂。（X）考核知识点：K近邻法参见讲稿章节：6-2附（考核知识点解释）：选择较小的k值，相当于用较小的邻域中的训练实例进行预测，学习的 “近似误差”会减小，“估计误差”会增大，预测结果会对近邻的点实例点非常敏感。k值减小意味着整体模型变得复杂，容易发生过拟合。选择较大的k值，学习的“近似误差”会增大，“估计误差”会减小，与输入实例较远（

28、不相似）的训练实例也会对预测起作用。k值增大意味着整体模型变得简单。在应用中，k值一般取一个比较小的数值，通常采用交叉验证法来选取最优的k值。18、朴素贝叶斯分类器有简单、高效、健壮的特点，但某些属性可能会降低分类。（V）考核知识点：朴素贝叶斯参见讲稿章节：6-4附（考核知识点解释）：朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别；朴素贝叶斯分类器建立在一个类条件独立性假设基础之上：给定类节点（变量）后，各属性节点（变量）之间相互独立。朴素贝叶斯分类器一般具有以下特点：简单、高效、健壮。面对孤立的噪

29、声点，朴素贝叶斯分类器是健壮的，因为在从数据中估计条件概率时，这些点被平均。相关属性可能会降低朴素贝叶斯分类器的性能，因为对这些属性，条件独立的假设已不成立。主观部分：（一）、填空部分1、二分类问题常用的评价指标是考核知识点：分类问题第五章关联规则算法第一节了解关联规则的基本概念第二节掌握频繁项集的产生过程第三节掌握Apriori算法第六章分类算法第一节了解分类问题基本概念第二节掌握k近邻算法第三节了解贝叶斯定理第四节掌握朴素贝叶斯第五节了解决策树的基本概念第六节了解决策树-特征选择第七节了解决策树-剪枝算法第七章线性回归算法第一节了解线性回归的基本概念第二节掌握一元线性回归第三节掌握

30、多元线性回归第八章人工神经网络第一节了解神经网络的基本概念第二节掌握感知机的学习算法第三节掌握多层感知机-反向传播算法第九章聚类算法第一节了解聚类问题的介绍第二节掌握层次聚类第三节掌握K-means聚类第四节了解BFR聚类参见讲稿章节：6-1附（考核知识点解释）：分类：给定分类体系，将输入样本分到其中一个或者多个类别中的过程，是监督学习的一个核心问题。按类别数目可以分为二分类VS多分类。其中包括学习和分类两个过程。监督学习从数据中学习一个分类模型或决策函数称为分类器（classifier） o分类器对新的输入进行输出的预测，称为分类，输出变量丫取有限个离散值。分类常用的方法包括：朴素贝

31、叶斯、决策树、支持向量机、感知机和K近邻等。对于二分类问题常用的评价指标是精确率（precision）与召回率（recall）。2、朴素贝叶斯分类器建立在一个基础之上。考核知识点：朴素贝叶斯参见讲稿章节：6-4附（考核知识点解释）：朴素贝叶斯分类是一种十分简单的分类算法。其思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别；朴素贝叶斯分类器建立在一个类条件独立性假设基础之上：给定类节点（变量）后，各属性节点（变量）之间相互独立。3、在决策树生成算法中，最关键的是如何在每一轮的迭代中选择 o考核知识点：决策树-特征选

32、择参见讲稿章节：6-6附（考核知识点解释）：在决策树生成算法中，最关键的是如何在每一轮的迭代中选择最优特征，一般而言，随着划分过程的不断进行，我们希望决策树分支结点所包含的样本尽可能属于同一类别，即结点的“纯度” (purity)越来越高。其中特征选择的准则是信息增益。4、一个关联规则同时满足最小支持度和最小置信度，我们称之考核知识点：关联规则的基本概念参见讲稿章节：5-1附（考核知识点解释）：关联规则的两个重要的衡量指标是支持度和置信度。支持度：具体含义为关联规则被多少比例的数据所覆盖。置信度：用来衡量规则的可信程度。比如规则男性，尿布一啤酒的支持度表示所有的购物记录中，有百分之多

33、少的记录中，购物者为男性，且同时购买了啤酒和尿布。规则男性，尿布一啤酒的置信度表示，在购物者为男性且购买了尿布的记录中，有多少比例的记录同时也购买了啤酒。有了支持度和置信度两个指标，现在我们可以定量地描述我们所需要的规则：给定数据集，找出所有不小于预先设置的支持度阈值min_suppt （指用户指定的支持度的下限）和置信度阈值min_conf （指用户指定的置信度的下限）规则的集合。我们感兴趣的规则要在支持度和置信度两个方面满足最小的条件，这样的规则被称为强关联规则（strong association rule） o5、数据科学的过程包括获取数据、数据探索、结果展不。考核知识点：

34、数据科学的过程参见讲稿章节：1-3附（考核知识点解释）：数据科学的过程包括获取数据、数据预处理、数据探索、数据建模、结果展示。6、Pearson线性相关系数要求连续变量的取值服从分布。考核知识点：多变量分析参见讲稿章节：3-4附（考核知识点解释）：为了更加准确地描述变量之间的线性相关程度，可以通过计算相关系数来进行相关分析。在二元变量的相关分析过程中常用的有Pearson系数、 Spearman秩相关系数和判定系数。Pearson线性相关系数要求连续变量的取值服从正态分布。不服从正态分布的变量、分类或等级变量之间的关联性可采用Spearman秩相关系数，也称等级相关系数来描述。7、欧

35、氏距离越小，两个点的相似度就越,欧氏距离越大，两个点的相似度就越 o考核知识点：样本相似性与相异性参见讲稿章节：3-5附（考核知识点解释）：欧几里得度量（也称欧氏距离）是一个通常采用的距离定义，指在m维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。在二维和三维空间中的欧氏距离就是两点之间的实际距离。欧氏距离是一种常见的相似度算法。欧氏距离越小，两个点的相似度就越大，欧氏距离越大，两个点的相似度就越小。8、数据散度分析表示一组数据离数据中心的距离，多用标准差、以及进行衡量。考核知识点：单变量分析参见讲稿章节：3-2附（考核知识点解释）：单变量分析主要关注于单变

36、量的描述和统计推断两个方面，旨在用简单的概括形式反映出大量样本资料所容纳的基本信息，描述样本数据中的集中或离散趋势。数据散度分析表示一组数据离数据中心的距离，多用标准差、方差以及极差进行衡量。9、在k近邻法中，选择较大的k值时，学习的“近似误差”会,“估计误差”会 o考核知识点：K近邻法参见讲稿章节：6-2附（考核知识点解释）：选择较大的k值，学习的“近似误差”会增大，“估计误差”会减小，与输入实例较远（不相似）的训练实例也会对预测起作用。k值增大意味着整体模型变得简单。10、在k近邻法中，通常采用来选取最优的k值。考核知识点：K近邻法参见讲稿章节：6-2附（考核知识点解释）：在应

37、用中，k值一般取一个比较小的数值，通常采用交叉验证法来选取最优的k值。11、划分聚类采取的划分，即每个对象必须恰好属于 o考核知识点：聚类问题参见讲稿章节：9-1附（考核知识点解释）：划分聚类是聚类分析最简单最基本的方法。采取互斥簇的划分，即每个对象必须恰好属于一个簇。经典的算法有K均值（K-Means）算法和K中心（K-Medoids）算法。12、在线性回归分析中，根据自变量的维度不同可以分为和 O考核知识点：线性回归参见讲稿章节：7-1附（考核知识点解释）：在线性回归分析中，当输入特征的维度从一维增加到d维（dl）,则从一元线性回归转换为多元线性回归问题。13、反向传播算法的基本思

38、想为，通过输出层得到和的误差，间接调整的权值。考核知识点：人工神经网络参见讲稿章节：8-2附（考核知识点解释）：反向传播算法的基本思想：通过输出层得到输出结果和期望输出的误差，间接调整隐含层的权值。学习过程由信号的正向传播与误差的反向传播两个过程组成。正向传播时，神经网络的权值是固定的，输入样本从输入层传入，经过各隐含层逐层处理后，传向输出层。反向传播时，通过比较网络的输出和期望输出产生一个误差信号，并将误差信号进行反向传播，逐层计算隐含层各单元的误差，并以此修正各单元的权值。14、多层感知机中，和都是拥有激活函数的功能神经元。考核知识点：人工神经网络参见讲稿章节：8-2附（考核

39、知识点解释）：多层感知机：可以解决非线性可分的问题。输入层与输出层之间的一层神经元，称为隐含层。隐含层和输出层都是拥有激活函数的功能神经元15、神经网络中最基本的成分是模型。考核知识点：人工神经网络参见讲稿章节：8-1附（考核知识点解释）：神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应。神经网络中最基本的成分是神经元模型。16、密度分类法中，单维的变量可以通过其的个数来确定K值。考核知识点：K-means聚类参见讲稿章节：9-3附（考核知识点解释）：密度分类法：单维的变量可以通过其分布峰的个数来确定K值。二维的数据可以通

40、过散点图来判断。17、在聚类中，使用测量来定义相似性考核知识点：聚类问题参见讲稿章节：9-1附（考核知识点解释）：聚类算法中，点通常位于高维空间中，使用距离测量来定义相似性，如Euclidean, Cosine, Jaccard, 18、Apriori核心算法有两个关键步骤为和考核知识点：Apriori算法参见讲稿章节：5-5附（考核知识点解释）：Apriori算法中有两个关键步骤为连接步和剪枝步。（二）、简答1、为什么需要标准化偏回归系数标准化偏回归系数与普通的偏回归系数之间的关系是什么考核知识点：多元线性回归标准化偏回归系数参见讲稿章节：7-2附（考核知识点解释）：在实际问题中，各自

41、变量都有各自的计量单位以及不同的变异程度，所以不能直接用普通的偏回归系数的大小来比较方程中各个自变量对因变量的影响大小，可以利用标准化偏回归系数来衡量。通过变量标准化计算得到的回归方程称为标准化回归方程，相应的回归系数即为标准化偏回归系数。标准化偏回归系数与普通的偏回归系数关系如下：=（一）其中 2、简单介绍决策树算法流程考核知识点：决策树-特征选择参见讲稿章节：6-6附（考核知识点解释）：决策树算法流程：1.首先计算训练数据集的信息熠;一、客观部分：（单项选择、判断）（一）、选择部分1、通过构造新的指标-线损率，当超出线损率的正常范围，则可以判断这条线路的用户可能存在窃漏电等异常行为

42、属于数据变换中的（C）A.简单函数变换B.规范化C.属性构造D.连续属性离散化考核知识点：数据变换参见讲稿章节：2-6附（考核知识点解释）：数据变换是对数据进行规范化处理，将数据转换成“适当的”形式，更适用于任务及算法需要。包括简单函数变换、规范化、属性构造、连续属性离散化等。简单函数变换：对原始数据进行某些数学函数变换，常用来将不具有正态分布的数据变换成具有正态分布的数据。比如个人年收入的取值范围为10000 元到10亿元，区间太大使用对数变换对其进行压缩是常用的一种变换处理方法。规范化：不同评价指标具有不同的量纲，数值间的差别可能很大。为了消除量纲和差异的影响，需要进行标准化处理

43、。将数据按照比例进行缩放，落入特定区域，便于进行综合分析。例如将工资收入属性值映射到7,1或者0,1 内属性构造：利用已有的属性集构造新的属性，加入到现有的属性集合，提高结果精度，挖掘更深层次模式。连续属性离散化：在数据的取值范围内设定若干个离散的划分点，将取值范围划分为一些离散化的区间，最后用不同的符号或整数值代表落在每个子区间中的数据值。2、实体识别属于以下哪个过程（B）A.数据清洗2 ,计算各特征对数据集的信息增益;3 .选取信息增益最大的特征为最优特征;4 .将数据集按照最优特征进行划分;5 .循环2, 3, 4直到结点不能划分。3、一般的关联规则学习的步骤是什么考核知识点：关

44、联规则的基本概念参见讲稿章节：5-1 附（考核知识点解释）：关联规则学习的步骤:1 ,找出所有的频繁项集;2 .根据频繁项集生成频繁规则;3 .根据置信度等指标进一步过滤筛选规则;4、请简述K-means聚类的优缺点。考核知识点：K-means聚类参见讲稿章节：9-3 附（考核知识点解释）：优点：容易实现。缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢。5、请简述在使用反向传播算法训练多层感知机时，应该如何设置学习的停止条件考核知识点：人工神经网络参见讲稿章节：8-2 附（考核知识点解释）：在使用反向传播算法训练多层感知机时，设置学习的停止条件常见的方法有两种。第一种为设置最

45、大迭代次数，比如使用数据集迭代100次后停止训练；第二种为将数据分为训练集与验证集，当训练集的误差降低而验证集的误差升高，则停止训练。6、请简述k近邻法中k的取值对模型的影响。考核知识点：K近邻法参见讲稿章节：6-2附（考核知识点解释）：对于k近邻法中k的取值：选择较小的k值，相当于用较小的邻域中的训练实例进行预测，学习的 “近似误差”会减小，“估计误差”会增大，预测结果会对近邻的点实例点非常敏感。k值减小意味着整体模型变得复杂，容易发生过拟合。选择较大的k值，学习的“近似误差”会增大，“估计误差”会减小，与输入实例较远（不相似）的训练实例也会对预测起作用。k值增大意味着整体模型变得简

46、单。在应用中，k值一般取一个比较小的数值，通常采用交叉验证法来选取最优的k值。7、简答特征选择的四个步骤考核知识点：特征选择参见讲稿章节：4-6附（考核知识点解释）：特征选择的四个步骤： 1.子集产生2 .子集评估3 .停止条件4 .子集验证8、探索性数据分析有哪些特点考核知识点：探索性数据分析参见讲稿章节：3-1附（考核知识点解释）：探索性数据分析的特点：1 .研究从原始数据入手，完全以实际数据为依据；2 .分析方法从实际出发，不以某种理论为依据；3 .分析工具简单直观，更易于普及。9、单变量分析的方法主要包括非图形化方法和图形化方法两种，其中非图形化方法中主要求出哪些常量考核知识点：单变量分析参见讲稿章节：3-2附（考核知识点解释）：非图形化方法中主要

展开阅读全文