《大数据解析与应用导论 (12).pdf》由会员分享,可在线阅读,更多相关《大数据解析与应用导论 (12).pdf(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1大数据解析与应用导论大数据解析与应用导论Introduction to Big Data Analytics and ApplicationThe linked image cannot be displayed.The file may have been moved,renamed,or deleted.Verify that the link points to the correct file and location.第三章 判别分析基本原理基本原理1.距距离判别离判别2.贝叶斯判别贝叶斯判别4.Fisher判别判别3.SVM5.一、距离判别的思想3两个总体的距离判别问题:设两个总
2、体G1和G2,对于一个新的样品X,要判断它来自哪个总体。方法:按就近原则归类。求新样品X到G1的距离与到G2的距离之差,如果其值为正,X属于G2;否则X属于G1。对于距离判别,合适的距离定义很重要。G1G2X如何定义X点两个总体的距离更好?二、距离度量方法欧氏距离4欧式距离,或称直线距离,是最简单的距离度量方法。求解方法:设n维空间有两个坐标点X1=(x11,x12,x1n)和X2=(x21,x22,x2n),则它们的欧氏距离定义为:特殊情况下,当空间维度n=2时,欧氏距离即为平面上两点所成线段的长度。abc二、距离度量方法欧氏距离5举例下图中横坐标x1与纵坐标x2分别表示重量(以kg为单位)
3、和长度(以cm为单位)此时有:显然AB间的欧氏距离大于CD之间的欧氏距离。若将长度x2的单位改为mm,再次计算欧氏距离,有:此时CD间的欧氏距离反而大于AB间的。当变量的量纲和数量级不统一时,欧氏距离将带来不同的分析结果三、距离度量方法马氏距离6思考下图中1、2两点哪个点应该与总体(原点)更接近?三、距离度量方法马氏距离7更合理的距离度量方式马氏距离马氏距离是印度统计学家马哈拉诺比斯(Mahalanobis)于1936年引入的距离这种距离度量方法距离同时考虑了样本的方差和变量间的协方差CBA能够体现各变量在波动幅度上的不同能够体现各变量之间的相关性距离计算结果与变量使用单位无关(尺度无关性)三
4、、距离度量方法马氏距离8马氏距离的计算方式设X、Y是从均值向量为,协方差矩阵为的总体G中抽取的两个样本X与Y间的马氏距离定义为:同时,X与总体G间的马氏距离可以计算为:三、距离度量方法马氏距离9欧氏距离与马氏距离的直观对比欧氏距离马氏距离四、其他距离衡量手段10曼哈顿距离曼哈顿距离的命名原因是从规划为方型建筑区块的城市中,最短的行车路径而来。对于n维空间有两个坐标点X1=(x11,x12,x1n)和X2=(x21,x22,x2n),其计算公式为:白色方格为建筑,灰色为街道四、其他距离衡量手段11余弦相似度与余弦距离余弦相似度:对于n维空间有两个坐标点X1=(x11,x12,x1n)和X2=(x21,x22,x2n),其夹角余弦值可以计算为:其取值在-1,1之间,其值越高说明相似度越高两点的余弦距离计算为:余弦距离常用于文本检索与文本挖掘中,用于衡量文本或词向量的相似程度。五、选择距离衡量手段的原则12 没有最好的方法,只有最适合的方法 根据应用场景与数据类型,合理选择距离度量方式 欧氏距离用于直接衡量样本间的几何距离 马氏距离用于衡量给定样本总体条件下的距离 曼哈顿距离用于衡量样本间的绝对值距离,如行车路径长度 余弦距离用于衡量样本的方向差异,忽略样本各分量本身的幅度或数量级