《机器学习及其Python实践 (3).pdf》由会员分享,可在线阅读,更多相关《机器学习及其Python实践 (3).pdf(115页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、机器学习及其Python实践第3章 分类问题第3章 分类问题为了认识客观世界,人们按相似程度将客观事物划分成类别(class)从不同角度观察客观事物会得到不同的属性,这种属性就被称为客观事物的特征(feature)。度量事物之间的相似程度,可以基于特征定义不同形式的距离(distance)同类事物之间的相似度高,相互间的特征距离就小;反之,不同类事物之间的相似度低,特征距离就大给定样本特征,将其划归某一类别,这就是分类(classification)问题,或称为识别(recognition)问题对分类问题进行抽象、建模,然后基于类别特征建立判别函数(discriminant function,
2、或称决策函数),并根据判别函数进行分类决策机器学习将分类所用的判别函数称作分类器(classifier)第3章 分类问题 统计学 类别特征的概率分布被称为该类别的模式(pattern)基于概率分布进行分类的问题也因此被称为模式识别(pattern recognition)问题 贝叶斯(Bayes)决策是统计决策中建立判别函数,解决分类问题的基本方法 计算机科学 针对具体问题直接基于特征(不一定是特征的概率分布)建立判别函数,解决分类问题 例如k近邻方法、线性判别分析、决策树等,可以将这些分类器统称为非贝叶斯决策3.1 贝叶斯分类器 贝叶斯分类器 这种分类规则能使分类错误率最小(即正确率最大),
3、因此贝叶斯分类器是一种错误率最小的分类器 应用贝叶斯分类器解决分类问题,首先需要通过样本训练集建立起问题的概率模型给定特征 ,然后基于条件概率(=|)进行决策分类,将类别判定为条件概率最大的。3.1 贝叶斯分类器 贝叶斯决策 由已知条件推出未知结论,这就是逻辑推理 如果已知条件、未知结论是随机的,需要由已知条件的概率推出未知结论的概率,这就是概率推理贝叶斯公式 设离散型随机变量的值域为 1,2,且(=)0,则对任意的随机变量,()0,有 =(,=)()=(=)=1 =(=),=1,2,.(3 1)或将=简写成,=(,)()=()=1 (),=1,2,.(3 2)原因结果=结果 原因 原因=1
4、结果 原因 原因3.1 贝叶斯分类器 贝叶斯决策 式3-3就是一个分类判别函数,它被称为贝叶斯分类器(Bayes classifier)可以证明,在已知概率分布的情况下,贝叶斯分类器是错误率最小的分类器贝叶斯决策 设离散型随机变量的值域为 1,2,且()0,对任意的随机变量,()0,如果=argmax=1,2,.(3 3)则判定,给定时(即=)成立。因为式3-2中的 具有共同的分母(),所以式3-3等价于=argmax=1,2,().(3 4)3.1 贝叶斯分类器 设计贝叶斯分类器需通过样本数据获得(估计)分类所需的概率分布贝叶斯公式 设离散型随机变量的值域为 1,2,且(=)0,则对任意的随
5、机变量,()0,有 =(,=)()=(=)=1 =(=),=1,2,.(3 1)或将=简写成,=(,)()=()=1 (),=1,2,.(3 2)类别条件概率 特征概率分布 、类别概率分布(),以及各类的特征条件概率 先验概率、后验概率3.1 贝叶斯分类器 举例:红富士和国光是两个苹果品种编号编号底色底色外形外形口感口感果重果重(克)(克)品种品种1黄圆甜190红富士2黄绿扁圆酸甜260红富士3绿扁圆酸甜150国光4黄绿圆甜200红富士5绿扁圆酸甜210国光6黄绿扁圆酸甜170国光7黄圆酸甜200红富士8黄绿扁圆酸甜230红富士9绿扁圆甜180国光10黄绿扁圆酸甜240红富士二分类与多分类3.
6、1 贝叶斯分类器 贝叶斯分类器 使用单个离散型特征 口感:甜、酸甜 、()和 编号编号底色底色外形外形口感口感果重果重(克)(克)品种品种1黄圆甜190红富士2黄绿扁圆酸甜260红富士3绿扁圆酸甜150国光4黄绿圆甜200红富士5绿扁圆酸甜210国光6黄绿扁圆酸甜170国光7黄圆酸甜200红富士8黄绿扁圆酸甜230红富士9绿扁圆甜180国光10黄绿扁圆酸甜240红富士 分类特征:记“甜”为1,“酸甜”为2分类目标:记“红富士”为1,“国光”为2阚道宏3.1 贝叶斯分类器 贝叶斯分类器 、()和 编号编号底色底色外形外形口感口感果重果重(克)(克)品种品种1黄圆甜190红富士2黄绿扁圆酸甜260
7、红富士3绿扁圆酸甜150国光4黄绿圆甜200红富士5绿扁圆酸甜210国光6黄绿扁圆酸甜170国光7黄圆酸甜200红富士8黄绿扁圆酸甜230红富士9绿扁圆甜180国光10黄绿扁圆酸甜240红富士 口感:品种:甜:1酸甜:2红富士:1国光:2出现次数=1:3=1:7=1:6=2:4概率分布 =1=3/10 =2=7/10 =1=6/10 =2=4/10阚道宏3.1 贝叶斯分类器 贝叶斯分类器 、()和 编号编号底色底色外形外形口感口感果重果重(克)(克)品种品种1黄圆甜190红富士2黄绿扁圆酸甜260红富士3绿扁圆酸甜150国光4黄绿圆甜200红富士5绿扁圆酸甜210国光6黄绿扁圆酸甜170国光7
8、黄圆酸甜200红富士8黄绿扁圆酸甜230红富士9绿扁圆甜180国光10黄绿扁圆酸甜240红富士 品种口感|=红富士1口感|=国光2甜:1酸甜:2甜:1酸甜:2出现次数=1:2=1:4=1:1=1:3概率分布 =1|=1=2/6 =2|=1=4/6 =1|=2=1/4 =2|=2=3/4阚道宏3.1 贝叶斯分类器 贝叶斯分类器 、()和 品种口感|=红富士1口感|=国光2甜:1酸甜:2甜:1酸甜:2出现次数=1:2=1:4=1:1=1:3概率分布 =1|=1=2/6 =2|=1=4/6 =1|=2=1/4 =2|=2=3/4口感:品种:甜:1酸甜:2红富士:1国光:2出现次数=1:3=1:7=1
9、:6=2:4概率分布 =1=3/10 =2=7/10 =1=6/10 =2=4/10 1|=(,1)()=21(1)(=2)=46610710=47.或 1|=(,1)()=21(1)=12 =2()=4661046610+34410=47.同理可得,2|=(,2)()=22(2)(=2)=34410710=37.3.1 贝叶斯分类器 贝叶斯分类器 使用两个离散型特征 口感和外形 、()和 编号编号底色底色外形外形口感口感果重果重(克)(克)品种品种1黄圆甜190红富士2黄绿扁圆酸甜260红富士3绿扁圆酸甜150国光4黄绿圆甜200红富士5绿扁圆酸甜210国光6黄绿扁圆酸甜170国光7黄圆酸甜
10、200红富士8黄绿扁圆酸甜230红富士9绿扁圆甜180国光10黄绿扁圆酸甜240红富士 分类特征=(1,2)=(11,21)、=(11,22)、=(12,21)和 =(12,22)3.1 贝叶斯分类器 贝叶斯分类器 使用离散型、连续型混合特征 口感和果重 、()和 编号编号底色底色外形外形口感口感果重果重(克)(克)品种品种1黄圆甜190红富士2黄绿扁圆酸甜260红富士3绿扁圆酸甜150国光4黄绿圆甜200红富士5绿扁圆酸甜210国光6黄绿扁圆酸甜170国光7黄圆酸甜200红富士8黄绿扁圆酸甜230红富士9绿扁圆甜180国光10黄绿扁圆酸甜240红富士 估计连续型随机变量概率分布例如正态分布,
11、2,使用极大似然估计,估计出其中的参数和3.1 贝叶斯分类器 贝叶斯分类器总结 随着特征数的增加、离散型与连续型的混合,特征联合概率密度的估计难度不断加大,贝叶斯分类器的难点在于概率分布估计 在已知概率分布的情况下,贝叶斯分类器在理论上是错误率最小的分类器 但实际应用中,由于估计多个特征之间联合概率分布的难度非常大,因此贝叶斯分类器难以实施 贝叶斯分类器通常被作为研究分类器性能时的一种基准模型3.1 贝叶斯分类器 朴素贝叶斯与参数估计 贝叶斯分类器的难点在于概率分布估计,特别是高维特征的联合概率分布 假设所有特征之间相互独立,则联合概率分布可简化为 1,2,=12,2,=12,(2|3,)3,
12、=12,23,1|().1,2,=1 2=1.(3 5)1,2,|=1|2|=1|.(3 6)阚道宏3.1 贝叶斯分类器 朴素贝叶斯与参数估计 特征条件概率的估计 1,2,|=1|2|=1|.(3 6)给定类别=的条件下各项特征的概率分布 =阚道宏3.1 贝叶斯分类器 朴素贝叶斯与参数估计 特征条件概率的估计 1,2,|=1|2|=1|.(3 6)给定类别=的条件下各项特征的概率分布 =3.1 贝叶斯分类器 朴素贝叶斯与参数估计 特征条件概率的估计 1,2,|=1|2|=1|.(3 6)给定类别=的条件下各项特征的概率分布 =3.1 贝叶斯分类器 朴素贝叶斯与参数估计 乳腺癌数据集“breas
13、t cancer wisconsin dataset”3.1 贝叶斯分类器 朴素贝叶斯与参数估计 乳腺癌数据集“breast cancer wisconsin dataset”使用Scikit-learn库中的朴素贝叶斯模型 GaussianNB(高斯分布特征)MultinomialNB(多项分布特征)BernoulliNB(伯努利分布特征)学习算法fit()、预测算法predict()和评价算法score()3.1 贝叶斯分类器 朴素贝叶斯与参数估计 乳腺癌数据集“breast cancer wisconsin dataset”加载数据集 拆分训练集和测试集3.1 贝叶斯分类器 朴素贝叶斯与
14、参数估计 乳腺癌数据集“breast cancer wisconsin dataset”加载数据集 拆分训练集和测试集 训练并测试模型3.1 贝叶斯分类器 逻辑斯谛回归与牛顿法 贝叶斯分类器 能不能通过特征直接估计出后验概率 呢?对于二分类问题(0-1分布)来说,给定样本数据集,可以使用逻辑斯谛回归方法直接估计后验概率 1、0 、()和 1=,0=1 ,0 1.1+0=1.3.1 贝叶斯分类器 逻辑斯谛回归与牛顿法 二分类:0-1分布 逻辑斯谛回归有一个重要假设:0-1分布的对数几率与特征之间存在线性关系 1=,0=1 ,0 1.1+0=1.几率=1 0=1 .(3 10)对数几率 =ln 1
15、 0=ln1 .(3 11)=1+=11+.(3 12)=.(3 13)3.1 贝叶斯分类器 逻辑斯谛回归与牛顿法 逻辑斯谛回归:0-1分布的对数几率与特征之间存在线性关系=1+=11+.(3 12)=.(3 13)1=,0=1 ,0 O(logN)简单多数表决规则=1,2,、=1,2,=1,1,2,2,.1,1、2,2、,1,2,阚道宏3.2 非贝叶斯分类器 近邻分类器与距离度量 sklearn.neighbors模块中的KNeighborsClassifier类3.2 非贝叶斯分类器 近邻分类器与距离度量 超参数的选择xk=3时,x被判定为k=5时,x被判定为阚道宏3.2 非贝叶斯分类器
16、近邻分类器与距离度量 超参数的选择3.2 非贝叶斯分类器 线性判别分析与特征空间 贝叶斯分类器 估计概率分布需要有足够多的样本数据,高维特征所需样本集的容量要求很大 对于二分类问题,线性判别分析设法将其中的高维特征压缩到一维,然后基于一维特征来设计分类器 、()和 阚道宏3.2 非贝叶斯分类器 线性判别分析与特征空间 特征空间与向量投影 每一项特征都是一个维度 假设向量的坐标是1,2,,向量在上的标量投影(scalar projection,记作)与向量投影(vector projection,记作)=1,1,2,2,特征1e1特征2e2Ox:(x1,x2)p:(1,2)x2x1z=.(3 2
17、8)=.(3 29)=12+22+2=3.2 非贝叶斯分类器 线性判别分析与特征空间 选择投影方向 类内方差最小 类间方差最大x1x2O z=Tx 010-1z=Tx3.2 非贝叶斯分类器 线性判别分析与特征空间 选择投影方向阚道宏3.2 非贝叶斯分类器 线性判别分析与特征空间 选择投影方向3.2 非贝叶斯分类器 线性判别分析与特征空间 选择投影方向3.2 非贝叶斯分类器 线性判别分析与特征空间 选择投影方向3.2 非贝叶斯分类器 线性判别分析与特征空间 选择投影方向3.2 非贝叶斯分类器 线性判别分析与特征空间 线性判别分析分类器 原始训练集 最优投影向量 投影 投影后的数据集 基于一维特征
18、训练集设计分类器=1,1,2,2,=1,1,2,2,=,=1,2,.=10 1.(3 42)阚道宏3.2 非贝叶斯分类器 线性判别分析与特征空间 sklearn.discriminant_analysis模块中的LinearDiscriminantAnalysis类3.2 非贝叶斯分类器 决策树 区分流感与普通感冒:某些特征项比较有效;某些特征项的区分效果不明显 决策树(decision tree)分类模型是一种按照特征有效性,先主要特征,后次要特征,逐步递进,最终完成分类决策的模型口感=?底色=?甜甜外形=?酸酸甜甜外形=?黄黄绿绿底色=?扁扁圆圆红富士黄黄国光绿绿红富士圆圆国光扁扁圆圆红富
19、士圆圆国光红富士黄黄黄黄绿绿国光绿绿123453.2 非贝叶斯分类器 决策树 基于if-then规则进行分类决策,非常类似于人们基于知识的演绎推理(deductive reasoning),即从一般性知识推及某个特定的个体(从一般推及个别)这些if-then规则是怎么来的呢?它们是通过对样本数据进行归纳推理(inductive reasoning,从个别推及一般)得来的 决策树的归纳过程就是基于训练集和学习算法来习得知识、建立决策树模型的过程3.2 非贝叶斯分类器 决策树 决策树学习算法 决策树的学习过程从建立根节点开始,选择某项特征并根据其取值将训练集划分成不同子集,每个取值生成一个子集,然
20、后为每个子集生成一个内部节点 剔除已使用过的特征项,再对所有子集重复“选择特征-划分子集”的过程,直到不可划分为止 将不可划分子集的节点设为叶子节点,并将其标记为某个类别 决策树的学习过程是一个递归过程=1,1,2,2,3.2 非贝叶斯分类器 决策树 决策树学习算法=1,1,2,2,编号编号底色底色外形外形口感口感果重(克)果重(克)品种品种1黄圆甜190红富士2黄绿扁圆酸甜260红富士3绿扁圆酸甜150国光4黄绿圆甜200红富士5绿扁圆酸甜210国光6黄绿扁圆酸甜170国光7黄圆酸甜200红富士8黄绿扁圆酸甜230红富士9绿扁圆甜180国光10黄绿扁圆酸甜240红富士D1=1,2,10口感=
21、?D2=1,4,9特征?甜甜D3=2,3,58,10酸酸甜甜123D1=1,2,10底色=?D2=1,7特征?黄黄D3=2,4,6,8,10黄黄绿绿123D4=3,5,9绿绿43.2 非贝叶斯分类器 决策树 决策树学习算法 特征有效性指的是特征对分类是否有效,该如何度量特征有效性呢?初始集合1,其中既包含红富士苹果,也包含国光苹果。决策树模型依据特征将1划分成子集,希望每个子集尽可能属于同一类别,也就是将1划分成纯度(purity)更高的子集 信息论里的信息熵,或统计学里的基尼指数=1,1,2,2,阚道宏3.2 非贝叶斯分类器 决策树 决策树学习算法 数据集中样本的类别看作一个离散型随机变量,
22、其值域=1,2,,共个类别 假设中样本类别的概率分布为 =1=,=1=1=1,1,2,2,3.2 非贝叶斯分类器 决策树 决策树学习算法=1,1,2,2,编号编号底色底色外形外形口感口感果重(克)果重(克)品种品种1黄圆甜190红富士2黄绿扁圆酸甜260红富士3绿扁圆酸甜150国光4黄绿圆甜200红富士5绿扁圆酸甜210国光6黄绿扁圆酸甜170国光7黄圆酸甜200红富士8黄绿扁圆酸甜230红富士9绿扁圆甜180国光10黄绿扁圆酸甜240红富士3.2 非贝叶斯分类器 决策树 决策树学习算法 总结:信息熵和基尼指数 数据集的纯度越高,则信息熵和基尼指数越小;纯度越低,则信息熵和基尼指数越大 如果数
23、据集只包含一个类别,则纯度最高,其信息熵和基尼指数最小(都为零)如果数据集包含全部类别(假设为)且服从均匀分布,则纯度最低,其信息熵和基尼指数最大,信息熵最大值为log2,基尼指数最大值为1 借用信息熵或基尼指数,可以度量数据集的纯度=1,1,2,2,3.2 非贝叶斯分类器 决策树 决策树学习算法 特征选择准则 数据集的样本特征为维,记作=1,2,,其中表示第项特征 所有特征项都是离散型的,第项特征有个可能的取值 按第项特征的取值,可以将数据集划分成个子集1,2,。将每个子集包含的样本数据个数记作1,2,,1+2+=数据集及其子集1,2,中的样本类别看作离散型随机变量,它们具有共同的值域=1,
24、2,,共个类别 决策树学习算法的关键是如何定义纯度的度量形式,即特征选择准则=1,1,2,2,3.2 非贝叶斯分类器 决策树 决策树学习算法 特征选择准则=1,1,2,2,阚道宏3.2 非贝叶斯分类器 决策树 决策树学习算法 特征选择准则=1,1,2,2,阚道宏3.2 非贝叶斯分类器 决策树 决策树学习算法 特征选择准则=1,1,2,2,阚道宏3.2 非贝叶斯分类器 决策树 决策树学习算法 将不可划分子集设为叶子节点=1,1,2,2,3.2 非贝叶斯分类器 决策树 sklearn.tree模块中的DecisionTreeClassifier类3.3 多分类问题与分类模型评价 二分类/多分类 多
25、分类问题:将多分类问题转化成二分类问题 分类模型评价 机器学习在训练好模型之后,更关注模型对新样本的预测能力,即泛化能力 评价回归模型泛化能力的主要指标有均方误差MSE和决定系数R方 评价分类模型泛化能力则会使用完全不同的指标3.3 多分类问题与分类模型评价 二分类与多分类“是/否”、“真/假”、“好/坏”等问题 通常将感兴趣的类别记作1,并将其称作正类(positive class);另外那个类别记作0或-1,并将其称作反类(negative class)正类的样本数据被称作正例(positive example),反类的样本数据被称作反例(negative example)某些分类器既可以
26、处理二分类,也可以处理多分类 某些分类器本来只能处理二分类,但略加修改即可推广至多分类 将分类问题拆分为二分类问题,常用的拆分策略有一对一(One vs.One,简称OvO)和一对其余(One vs.Rest,简称OvR)等=1,1,2,2,3.3 多分类问题与分类模型评价 多分类问题:将多分类问题转化成二分类问题 一对一(OvO)将个类别两两组合,总共拆分出(1)/2个二分类问题 每个类别与另外 1个类别按一对一方式,分别设计 1个分类器 给定新的样本特征,每个分类器会得到一个是或不是的二分类结果 统计是的结果个数(记作),然后将最大的类别作为多分类结果=1,1,2,2,1,2,3.3 多分
27、类问题与分类模型评价 多分类问题:将多分类问题转化成二分类问题 一对其余(OvR)每次将个类别中的一个作为正类,其余 1个合起来作为反类,总共拆分出个二分类问题 设计个分类器,每个类别对应一个以为正类的分类器 给定新的样本特征,每个分类器会得到一个是否正类的二分类结果 如果只有一个分类器判定样本为正类,则将该分类器对应的正类作为多分类结果;如果有多个分类器判定样本为正类,则将正类概率(或置信度)大的那个作为多分类结果3.3 多分类问题与分类模型评价 分类模型的评价指标 分类模型在训练好之后还需要再用测试集进行测试,评价其泛化能力 请注意,训练模型时会使用损失函数或准则函数来评价模型在训练集上的
28、性能,并以此作为选择最优参数的标准,不同模型在训练时会使用不同的损失函数或准则函数 而评价模型泛化能力所使用的则是测试集,而且不同模型会使用统一的评价指标,这样才有可比性3.3 多分类问题与分类模型评价 分类模型的评价指标 二分类模型的评价指标 给定样例,,将分类器模型的分类结果记作()如果样例,的分类结果()与实际类别一致,即:()=,则称样例,分类正确,否则就是分类错误 指示函数 例如 =1,如果事件发生了0,如果事件未发生.(3 52)=1,如果 =0,如果 .3.3 多分类问题与分类模型评价 分类模型的评价指标 二分类模型的评价指标 测试集 正确率 混淆矩阵=1,1,2,2,正例有+个
29、,反例有个,+=1 =.(3 53)真实类别真实类别分类结果分类结果正例反例正例正例TP(真正例)FN(假反例)反例反例FP(假正例)TN(真反例)3.3 多分类问题与分类模型评价 分类模型的评价指标 二分类模型的评价指标 混淆矩阵 精确率(Precision)与召回率(Recall)F1值真实类别真实类别分类结果分类结果正例反例正例正例TP(真正例)FN(假反例)反例反例FP(假正例)TN(真反例)=+.(3 54)=+.(3 55)11=121+1.1=2 +.(3 56)3.3 多分类问题与分类模型评价 分类模型的评价指标 二分类模型的评价指标 Scikit-learn库中的sklear
30、n.metrics模块 accuracy_score():正确率计算函数;precision_score():精确率计算函数;recall_score():召回率计算函数;f1_score():F1值计算函数。阚道宏3.3 多分类问题与分类模型评价 分类模型的评价指标 二分类模型的评价指标 Scikit-learn库中的sklearn.metrics模块 accuracy_score():正确率计算函数;precision_score():精确率计算函数;recall_score():召回率计算函数;f1_score():F1值计算函数。3.3 多分类问题与分类模型评价 分类模型的评价指标 多
31、分类模型的评价指标 多分类问题可以看作由多个二分类问题组成,测试结果可以表示成多个二分类混淆矩阵 先计算各混淆矩阵的精确率、召回率和F1值,然后求平均,所得到的平均值被称为宏精确率(macro-P)、宏召回率(macro-R)和宏F1值(macro-F1)先对混淆矩阵的TP、FP、TN、FN样例数求平均,得到一个平均混淆矩阵,基于这个平均混淆矩阵所求出的精确率、召回率和F1值被称为微精确率(micro-P)、微召回率(micro-R)和微F1值(micro-F1)3.3 多分类问题与分类模型评价 P-R曲线曲线与ROC曲线曲线 针对二分类问题,一个理想分类器应当将正例样本判定为正类,将反例样本
32、判定给反类 给定样本特征,分类器会生成一个属于正类(或反类)的后验概率,或一个模拟的后验概率值 使用测试集对分类器模型进行测试,按后验概率(或模拟后验概率)对测试样本进行降序排序阚道宏3.3 多分类问题与分类模型评价 P-R曲线与ROC曲线 P-R曲线 一组(,)数据 绘图正例样本1正类概率1正例样本2正类概率2 正例样本m+反例样本1降序排序 反例样本m-正类概率m正例样本正类概率1反反例例样样本本正类概率2 反例样本正正例例样样本本降序排序 反例样本正类概率mTi:(Pi,Ri)逐条降低阈值3.3 多分类问题与分类模型评价 P-R曲线与ROC曲线 P-R曲线 一组(,)数据 绘图 ROC曲
33、线 一组(,)数据正例样本1正类概率1正例样本2正类概率2 正例样本m+反例样本1降序排序 反例样本m-正类概率m正例样本正类概率1反反例例样样本本正类概率2 反例样本正正例例样样本本降序排序 反例样本正类概率mTi:(Pi,Ri)逐条降低阈值=+.(3 57)=+.(3 58)3.3 多分类问题与分类模型评价 P-R曲线与ROC曲线 P-R曲线 一组(,)数据 绘图 ROC曲线 一组(,)数据3.4 特征降维 训练集 特征提取 结构化数据 非结构化数据 高维数据 维数灾难、降维=1,1,2,2,是维样本特征,1,2,是其对应的实际类别=(1,2,),1,2,22 10=22064 64=40
34、963.4 特征降维 线性代数基础 坐标变换及其矩阵表示 拉伸变换特征项2e2Ox:(x1,x2)z1u1:(u11,u12)x2x1u2:(u21,u22)z2特征项1e1特征项2e2Ox:(x1,x2)z1x2x1z2z:(z1,z2)z:(z1,z2)特征项1e1=12=1122=100212=1002.记:=1001,则:=3.4 特征降维 线性代数基础 坐标变换及其矩阵表示 旋转变换(投影变换)特征项2e2Ox:(x1,x2)z1u1:(u11,u12)x2x1u2:(u21,u22)z2特征项1e1特征项2e2Ox:(x1,x2)z1x2x1z2z:(z1,z2)z:(z1,z2)
35、特征项1e11=1112,2=2122,或写成 1=111+122,2=211+222.=12=1112212212=12.(3 59)记:=12,则:=阚道宏3.4 特征降维 线性代数基础 坐标变换及其矩阵表示 坐标变换 转移矩阵 正交矩阵特征项2e2Ox:(x1,x2)z1u1:(u11,u12)x2x1u2:(u21,u22)z2特征项1e1特征项2e2Ox:(x1,x2)z1x2x1z2z:(z1,z2)z:(z1,z2)特征项1e1维特征空间从基 1,2,到另一组基 1,2,的投影变换=,其中=12.(3 60)=1,=0,1=,或 =3.4 特征降维 线性代数基础 坐标变换及其矩阵
36、表示 对样本数据进行坐标变换,实际上是对样本特征做变换 变换前,坐标 =1,2,是样本在原特征上的取值;变换后,坐标=1,2,是样本在新特征上的取值,因此坐标变换就是将原特征变换成新特征 拉伸变换、投影变换的坐标变换所得到的新特征是原特征的线性组合,即线性变换 线性变换可以利用线性代数相关的理论、方法进行处理 实际应用还会存在非线性的情况,某些非线性变换可以通过核函数(kernel function)转成线性变换3.4 特征降维 线性代数基础 特征值、特征向量与特征值分解定义3-1:一个 矩阵,如果存在一个非零向量使得=,则称标量为矩阵的特征值(eigenvalue),称向量为属于的特征向量(
37、eigenvector)。3.4 特征降维 线性代数基础 特征值、特征向量与特征值分解定义3-2:一个 实对称矩阵,若对任意非零向量 ,有 0,则称为半正定的(positive semidefinite)。3.4 特征降维 线性代数基础 特征值、特征向量与特征值分解3.4 特征降维 线性代数基础 矩阵的奇异值分解3.4 特征降维 线性代数基础 样本特征的协方差矩阵 训练集 训练集特征矩阵 将每个特征项看作一个随机变量=1,1,2,2,=1,2,=112112221212.(式3 64)=12,=1=1,=1,2,.阚道宏3.4 特征降维 线性代数基础 样本特征的协方差矩阵 将每个特征项看作一个
38、随机变量 特征随机变量的协方差矩阵(特征内积矩阵)=12,=1=1,=1,2,.=1 11,2,1,2,=1 111 121 112 222 21 12 21 2 11 121 112 222 21 12 21 2 .3.4 特征降维 主成分分析PCA(Principal Component Analysis)样本特征由多个特征项组成,可以将每个特征项看作样本特征的一个成分(component,或称分量)两个特征项之间的协方差反映它们的相关性 特征项的方差反映所携带的信息量,方差大的属于样本特征的主要成分 通过对样本特征进行投影变换,尽可能消除不同特征项之间的相关性,同时找出样本特征的主要成分
39、3.4 特征降维 主成分分析PCA 标准化样本特征 去中心化和归一化处理 特征矩阵,并计算特征的协方差矩阵 选择最优特征变换方向 给定维样本特征数据或数据集=1,2,从原始基 1,2,到另一组规范正交基 1,2,对样本特征做投影变换=1,1,2,2,,或=1,2,=12.(式3 66)=121,2,.阚道宏3.4 特征降维 主成分分析PCA 选择最优特征变换方向 给定维样本数据集=1,2,=121,2,.=1,2,=112112221212.=1 1112112221212112112221212=1 1.阚道宏3.4 特征降维 主成分分析PCA 选择最优特征变换方向 给定维样本数据集=1,2
40、,=1,2,=112112221212.=1 1112112221212112112221212=1 1.=1122222.3.4 特征降维 主成分分析PCA 选择最优特征变换方向 给定维样本数据集=1,2,阚道宏3.4 特征降维 主成分分析PCA PCA算法步骤 给定维样本数据集=1,2,3.4 特征降维 主成分分析PCA 核主成分分析KPCA 样本特征是被观测到的数据,它反映了事物的某种内在规律 这种内在规律可能是在低维空间上展开,却是在高维空间被观测到并记录成高维空间的特征 具有低维结构的特征被嵌入(embedding)到高维空间中,简称“低维嵌入”在低维嵌入的情况下应当基于低维特征协方
41、差而不是高维特征协方差来进行降维,否则会丢失特征的低维结构zx:(x1,x2)3.4 特征降维 主成分分析PCA 核主成分分析KPCA 如果知道低维特征是如何嵌入到高维空间中去的,例如已知嵌入函数:低维特征 高维特征(或1:高维特征 低维特征),则可以根据嵌入函数找出计算低维特征协方差的办法。但多数情况下,嵌入函数是未知的 在嵌入函数未知的情况下,如何根据观测到的高维特征去计算低维特征的协方差呢?协方差计算是基于向量内积的,可以基于高维特征定义一个函数来模拟低维特征的内积,这样的函数被称作核函数(kernel function),通常记作(,),其中,是两个高维特征点,而函数值则是它们在低维空
42、间中对应特征点的内积113.4 特征降维 主成分分析PCA 核主成分分析KPCA 常用的核函数有:径向基函数(Radial Basis Function,缩写RBF)核、sigmoid核(sigmoid kernel)、多项式核(polynomial kernel)等,=2.阚道宏3.4 特征降维 主成分分析PCA 核主成分分析KPCA sklearn.decomposition模块中的PCA和KernelPCA类3.4 特征降维 线性判别分析LDA 使用线性判别分析LDA解决二分类问题,其思路是先将高维特征投影到一维,然后基于一维特征来设计分类器 对于多分类问题,可以对高维特征做若干次投影,
43、得到一组新特征,然后再设计分类器 LDA多次投影的过程实际上就是消除特征冗余,选择主要成分的降维过程,这与PCA非常类似 LDA既可作为分类器模型,也可作为降维模型3.4 特征降维 线性判别分析LDA PCA不考虑类别标记,其投影原则是将高维特征投影到方差最大的方向 而LDA使用带类别标记的训练集,其投影原则是将高维特征投影到“类内方差最小,类间方差最大”的方向 PCA不考虑类别标记,属于无监督降维;而LDA考虑类别标记,属于有监督降维3.4 特征降维 线性判别分析LDA LDA降维学习算法3.4 特征降维 线性判别分析LDA LDA降维学习算法=阚道宏3.4 特征降维 线性判别分析LDA s
44、klearn.discriminant_analysis模块中的LinearDiscriminantAnalysis类3.4 特征降维 非线性降维 PCA和LDA降维使用线性变换,将低维特征表示成高维特征的线性组合,这属于线性降维 线性降维的核心思想是降维时尽可能保持高维特征的方差或类间方差,以便下一步进行回归或分类 而某些降维问题则希望降维时能尽量保持样本在高维空间的分布结构,以便下一步进行可视化和数据分析。通常,高维数据必须降到二维或三维才便于可视化3.4 特征降维 非线性降维 训练集 训练集特征矩阵=1,1,2,2,,或=1,2,=1,2,=112112221212.x1:(x11,x1
45、2)x2x3x4将维样本特征(高维特征)降到 维样本特征(低维特征,)3.4 特征降维 非线性降维 多维缩放(Multiple Dimensional Scaling,缩写MDS)降维阚道宏3.4 特征降维 非线性降维 多维缩放(Multiple Dimensional Scaling,缩写MDS)降维3.4 特征降维 非线性降维 多维缩放(Multiple Dimensional Scaling,缩写MDS)降维3.4 特征降维 非线性降维 流形降维方法 欧式距离 非欧距离,例如曲线上的长度或曲面上的测地距离 流形(manifold):高维特征空间虽然整体上与欧式空间不同,但局部具有欧式空间
46、的性质。流形就是局部具有欧式空间性质的空间 借助流形的思想,在降维时尽量保持样本在高维空间的分布结构,使得对降维后低维数据进行可视化时能观察到这些结构3.4 特征降维 非线性降维 流形降维方法阚道宏3.4 特征降维 非线性降维 流形降维方法 分布结构:邻域内的距离 分布结构:邻域内的线性关系、概率分布阚道宏3.4 特征降维 非线性降维 sklearn.manifold模块中的MDS、Isomap、LocallyLinearEmbedding和TSNE等4个类第3章 分类问题 本章学习要点 贝叶斯分类器、朴素贝叶斯分类器、概率分布的参数估计、逻辑斯谛回归分类器、牛顿法、二分类与多分类、交叉熵、近邻分类器与距离度量、线性判别分析、特征空间与向量投影、决策树及其学习算法ID3/C4.5/CART、信息熵与基尼指数 分类评价的正确率/精确率/召回率/F1值/P-R曲线/ROC曲线 特征降维、坐标变换及其矩阵表示、特征值分解、奇异值分解、PCA/KPCA/LDA/MDS/Isomap/LLE/SNE等降维算法