深度学习基础Mchapter1ALL (2).pdf

上传人:刘静 文档编号:57971391 上传时间:2022-11-06 格式:PDF 页数:39 大小:2.90MB
返回 下载 相关 举报
深度学习基础Mchapter1ALL (2).pdf_第1页
第1页 / 共39页
深度学习基础Mchapter1ALL (2).pdf_第2页
第2页 / 共39页
点击查看更多>>
资源描述

《深度学习基础Mchapter1ALL (2).pdf》由会员分享,可在线阅读,更多相关《深度学习基础Mchapter1ALL (2).pdf(39页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、(Feature Engineering)特征工程什么是特征工程?引用维基百科上的定义(https:/en.wikipedia.org/wiki/Feature_engineering)Feature engineering is the process of using domain knowledge ofthe data to create features that make machine learning algorithmswork.引自知乎:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。”深度学习也要用到特征,需要对输入的特征进行组合变换等处理。2自动分词

2、何谓自动分词?自动分词就是将用自然语言书写的文章、句段经计算机处理后,以词为单位给以输出,为后续加工处理提供先决条件。举例:“我来到北京清华大学。”“我/来到/北京/清华大学/。/”“IcametoTsinghuaUniversityinBeijing.”“I/came/to/Tsinghua/University/in/Beijing/./”思考一下:中文的自动分词和英文的自动分词有何不同?3词根提取与词形还原词根提取(stemming):是抽取词的词干或词根形式(不一定能够表达完整语义)。原文:AndIalsolikeeatingapple词根提取后:and,I,also,like,to,

3、eat,appl)词形还原(lemmatization):是把词汇还原为一般形式(能表达完整语义)。如将“drove”处理为“drive”。原文:AndIalsolikeeatingapple词形还原后:And,I,also,like,ueat,apple)4词性标注词性标注(partofspeechtagging)1:是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。举例:“Ilikeeatingapple.”的词性标注结果为(I,PRP),(like,VBP),(eating,VBG),(apple,NN),(.,.)PRPperso

4、nalpronoun I,he,she人称代词VBPverb,sing.present,non3dtake动词 现在VBGverb,gerund/presentparticipletaking动词 动名词/现在分词NNnoun,singular desk名词单数形式 美国滨州树库词性标注规范美国滨州树库词性标注规范:http:/www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html句法分析句法分析(Syntacticanalysis):其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。6NLTK7Natu

5、ralLanguageToolkit(自然语言处理工具包)是在NLP领域中最常用的一个Python库。由宾夕法尼亚大学计算机系StevenBird和EdwardLoper开发提供了很多文本处理的功能:Tokenization(词语切分,单词化处理)Stemming(词干提取)Tagging(标记,如词性标注)Parsing(句法分析)此外,还提供了50多种语料和词汇资源的接口,如 WordNet等TextProcessingAPIhttp:/ Uniform Resource Locator)是利用URL语法在命令行方式下工作的开源文件传输工具。支持Unix、多种Linux发行版、Win32、

6、Win64等。9$curl-d text=great http:/text- andpluralization单数和复数)andlemmatization(词干提取)10中文处理工具jieba中文分词、词性标注工具功能:分词(包括并行分词、支持自定义词典)词性标注关键词提取结巴的安装(如pipinstalljieba)11Thanks!12(Vector Space Model and Computation of Text Similarity)向量空间模型及文本相似度计算13文档的向量化表示:BOW假设和VSM模型为了便于计算文档之间的相似度,需把文档转成统一空间的向量。BOW(bagof

7、wordsmodel):为了计算文档之间的相似度,假设可以忽略文档内的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合。VSM(Vectorspacemodel):即向量空间模型。其是指在BOW词袋模型假设下,将每个文档表示成同一向量空间的向量。14D1D2FxFyFzBOW和VSM举例假设有下面三个文档:D1:JobswasthechairmanofAppleInc,andhewasveryfamous,D2:Iliketouseapplecomputer,D3:AndIalsoliketoeatapple类似这样一批文档的集合,通常也被称为文集或者语料(corpus)。上述语料中

8、,共有17个不同的词:0:also;1:and;2:apple;3:chairman;4:computer;5:eat;6:famous;7:he;8:inc;9:jobs;10:like;11:of;12:the;13:to;14:use;15:very;16:was.因此可构造一个17维的向量空间:D311100100001001000Dim.012345678910111213141516D101110011110110012D20010100000100110015停用词英文名称:Stopwords停用词通常是非常常见且实际意义有限的词,如英文中“the”,“a”,“of”,“an”等

9、;中文中“的”、“是”、“而且”等。几乎可能出现在所有场合,因而对某些应用如信息检索、文本分类等区分度不大。在信息检索等应用中,这些词在构建向量空间时通常会被过滤掉。因此这些词也被称为停用词。note:但在某些应用如短语搜索phrase search中,停用词可能是重要的构成部分,因此要避免进行停用词过滤。16Ngram模型Ngram通常是指一段文本或语音中连续N个项目(item)的序列。项目(item)可以是单词、字母、碱基对等。N=1时称为unigram,N=2称为bigram,N=3称为trigram,以此类推。举例:对于文本 AndIalsoliketoeatapple,则Unigra

10、m:And,I,also,like,to,eat,appleBigram:AndI,Ialso,alsolike,liketo,toeat,eatapple.Trigram:AndIalso,Ialsolike,alsoliketo,liketoeat,toeatapple20世纪80年代,Ngram被广泛地应用在拼写检查、输入法等应用中。90年代以后,Ngram得到新的应用,如自动分类,信息检索等。即将连续的若干词作为VSM中的维度,用于表示文档。1761.7dist(x1,x2)cos(x1,x2)x1x2F2F1F3文档之间的欧式距离欧氏距离(euclidean metric)是一个通常

11、采用的距离定义,指在n 维空间中两个点之间的真实距离公式:d?18文档之间的余弦相似度余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫余弦相似性。cos?|?|?|?|19Tfidf词条权重计算(1)背景:特征向量里某些高频词在文集内其他文档里面也经常出现。它们往往太普遍,对区分文档起的作用不大。例如:D1:JobswasthechairmanofAppleInc.,D2:Iliketouseapplecomputer,这两个文档都是关于苹果电脑的,则词条“apple”对分类意义不大。因此有必要抑

12、制那些在很多文档中都出现了的词条的权重。在tfidf 模式下,词条t在文档d中的权重计算为:w?,?其中,,表示为词条t在文档d中的出现频率,?表示与包含词条t的文档数目成反比(inversedocumentfrequency)20Tfidf词条权重计算(2)?怎么计算??(optional)数据平滑问题:为了防止分母 为零?21Tfidf词条权重计算举例counts=3,0,1,2,0,0,3,0,0,4,0,0,3,2,0,3,0,2则第一个文档中的三个词条的 tfidf 权重 可以如下计算:1.w?,?2.w?,?3.w?,?.(可选)Then,applyingtheEuclidean(

13、L2)norm,weobtainthefollowingtfidfs fordocument1:?,?,?.?0.819,0,0.573?22Thanks!23(Processing of FeaturesFeature Scaling,Feature Selection and Dimension Reduction)特征处理(特征缩放、选择及降维)24特征值的缩放特征值的缩放特征值缩放(FeatureScaler)也可以称为无量纲处理。主要是对每个列,即同一特征维度的数值进行规范化处理。应用背景:不同特征(列)可能不属于同一量纲,即特征的规格不一样。例如,假设特征向量由两个解释变量构成,第

14、一个变量值范围0,1,第二个变量值范围0,100。如果某一特征的方差数量级较大,可能会主导目标函数,导致其他特征的影响被忽略常用方法标准化法区间缩放法25特征值的缩放特征值的缩放 标准化法标准化法标准化的前提是特征值服从正态分布。标准化需要计算特征的均值和标准差,公式表达为:X_scale?(X(axis=0)X.mean(axis=0)X.std(axis=0)(相关知识)标准差:标准差(StandardDeviation),又常称均方差,用表示,是方差的算术平方根。?标准差能反映一个数据集的离散程度。例如,两组数的集合 0,5,9,14和 5,6,8,9其平均值都是 7,但第二个集合具有较

15、小的标准差。26特征值的缩放特征值的缩放 区间缩放法区间缩放法区间缩放法利用了边界值信息,将特征的取值区间缩放到某个特定范围。假设max和min为希望的调整后范围,则X_scaled?(X(axis=0)X.min(axis=0)(X.max(axis=0)X.min(axis=0)(maxmin)+min由于希望的调整后范围一般为0,1。此时,公式变为X_scaled?(X(axis=0)X.min(axis=0)(X.max(axis=0)X.min(axis=0)27特征值的归一化特征值的归一化或称规范化(Normalizer)归一化是依照特征矩阵的行(样本)处理数据,其目的在于样本向量

16、在点乘运算或计算相似性时,拥有统一的标准,也就是说都转化为“单位向量”。即使每个样本的范式(norm)等于 1.规则为L1norm的归一化公式如下:?|?|?规则为L2norm的归一化公式如下:?28定量特征的二值化定量特征的二值化应用背景:对于某些定量特征,需要将定量信息转为区间划分。如将考试成绩,转为“及格”或“不及格”方法:设定一个阈值,大于或者等于阈值的赋值为1,小于阈值的赋值为0,公式表达如下:?1,?0,?29缺失特征值的弥补计算缺失特征值的弥补计算背景:数据获取时,由于某些原因,缺少某些数值,需要进行弥补。常见的弥补策略:利用同一特征的均值进行弥补。举例:counts=1,0,1

17、,2,0,0,3,0,0,NaN,0,0则,NaN可以弥补为同列上其他数据的均值,即(1+2+3)/3=2。30创建多项式特征创建多项式特征如果基于线性特征的模型不够理想,也可以尝试创建多项式特征。例如,两个特征?1,2?,它的平方展开式便转换成?1,1,2,12,12,22?.也可以自定义选择只保留特征相乘的多项式项。即将特征?1,2?转换成?1,1,2,1 2?.得到多项式特征后,只是特征空间发生了变化。31特征选择特征选择什么是特征选择?选择对于学习任务(如分类问题)有帮助的若干特征。为什么要进行特征选择?1)降维以提升模型的效率;2)降低学习任务的难度;3)增加模型的可解释性。特征选择

18、的角度:特征是否发散:对于不发散的特征,样本在其维度上差异性较小特征与目标的相关性:应当优先选择与目标相关性高的特征几种常见的特征选择方法:方差选择法皮尔逊相关系数法基于森林的特征选择法递归特征消除法32特征选择方法特征选择方法11方差选择法方差选择法原理:方差非常小的特征维度对于样本的区分作用很小,可以剔除。例如,假设数据集为布尔特征,想去掉那些超过80%情况下为1或者为零的特征。由于布尔特征是Bernoulli(伯努利)随机变量,其方差可以计算为?1?,因此阈值为.8*(1 .8)=0.16:X=0,0,1,0,1,0,1,0,0,0,1,1,0,1,0,0,1,1第一列的方差为?0.14

19、,小于0.16。因此可以被过滤掉。33特征选择方法特征选择方法22皮尔森相关系数法皮尔森相关系数(Pearsoncorrelationcoefficient)显示两个随机变量之间线性关系的强度和方向。计算公式为?,?,?其中,,表示和之间的协方差(Covariance)?是的均方差,?是的均值,表示数学期望计算完毕后,可以将与目标值相关性较小的特征过滤掉。Note:Pearson相关系数对线性关系比较敏感。如果关系是非线性的,即便两个变量具有一一对应的关系,Pearson相关性也可能会接近0。34特征选择方法特征选择方法33基于森林的特征选择基于森林的特征选择其原理是某些分类器,自身提供了特征

20、的重要性分值。因此可以直接调用这些分类器,得到特征重要性分值,并排序。本例中3个特征比较重要(informative),其他的分值较低.Featureranking:1.feature0(0.250402)2.feature1(0.231094)3.feature2(0.148057)4.feature3(0.055632)5.feature5(0.054583)6.feature8(0.054573)7.feature6(0.052606)8.feature7(0.051109)9.feature9(0.051010)10.feature4(0.05093435特征选择方法特征选择方法44递

21、归特征消除法递归特征消除法(以sklearn中的函数为例)递归特征消除(recursive featureelimination,即RFE)的基本步骤:1.首先在初始特征或者权重特征集合上训练。通过学习器返回的 coef_ 属性 或者 feature_importances_ 属性来获得每个特征的重要程度。2.然后最小权重的特征被移除。3.这个过程递归进行,直到希望的 特征数目满足为止。36特征降维线性判别分析法(线性判别分析法(LDALDA)降维本质上是从一个维度空间映射到另一个维度空间。线性判别分析(LinearDiscriminantAnalysis,简称LDA)是一种监督学习的降维技术,即数据集的每个样本有类别输出。LDA的基本思想:“投影后类内方差最小,类间方差最大”。即将数据在低维度上进行投影,投影后希望同类数据的投影点尽可能接近,而不同类数据的类别中心之间的距离尽可能的大。37特征降维主成分分析法(主成分分析法(PCAPCA)主成分分析(principal component analysis)是一种无监督的降维方法。PCA的基本思想是采用数学变换,把给定的一组相关特征维度通过线性变换转成另一组不相关的维度(即principal components),这些新的维度按照方差依次递减的顺序排列:形成第一主成分、第二主成分等等。38Thanks!39

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁