《朴素贝叶斯分类在机器学习中的应用.docx》由会员分享,可在线阅读,更多相关《朴素贝叶斯分类在机器学习中的应用.docx(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、朴实贝叶斯分类在机器学习中的应用贝叶斯分类技术在众多分类技术中占有着重要的地位。它属于统计学分类的范畴,是一 种非规章的分类方法。贝叶斯分类方法的主要内容是通过对已分类的样本子集进行训练,学 习归纳出分类函数(对离散变量的猜测称作分类,对连续变量的分类成为回归),采用训练 得到的分类器实现对未分类数据的分类。在众多贝叶斯分类技术中,朴实贝叶斯分类算法是 其中应用最多、表现效果最好的一项贝叶斯分类技术。一、朴实贝叶斯分类法简介朴实贝叶斯分类法来源于贝叶斯定理P(B|A)=其中P(B)称为先验概率,P(B|A)称为后验概率,P(A)称为现象概率,P(A|B)称为条件概率。 贝叶斯定理描述的是如何用
2、已知的事实去推理未知的概率。在进行猜测前,我们有大事A 发生的概率P (A),有对大事B的猜测概率P(B),还有已知B发生的条件下大事A发生的概 率P(A|B),由这三个概率可以推理出在大事A发生的条件下大事B发生的概率,这一过程也 可以解释为我们用大事A的相关信息去修正B发生的概率,在已知A的一些信息后去更新对 大事B的熟悉。朴实贝叶斯分类法顾名思义,是完全基于贝叶斯定理而来的,其定理形式为P (Cate gory Document)=P (Cate gory Document)=PDocwnentC ate gory * 尸(Category)PDocument)其中Categojry是类
3、别,Document是待分类事物,定理描述的是依据各种先验概率和概率, 来计算某事物属于某类别的概率。朴实贝叶斯分类法即是采用极大似然的思想,通过比较事 物被分到不同类别的概率,来给出一个最优的结果,把事物分到概率最大的那个类别中去。 这一比较和分类的过程在定理中,事物Document是由若干特征条件组成的,即P(Document) = P(Characterl, Character!,.)需要提到的是,在上面的公式中,分子部分尸(。0包僧?林|。1杷90厂)7)满意PDocumenC ate gory) = PCharacterl, Character!,., Category)=P(Cha
4、racterlCategory) * P(Character2Category) * .用数学语言表述为:设特征向量x中有n个特征,则概率为nP(%同)=P(%M) * P(%2 同)*=口 p(&Mk=l这称为定理成立的“条件独立性假设”,即事物的特征之间是相互独立的,这也即是定理名 称中“朴实”一词的含义。所谓独立,是指的是统计意义上的独立,即一个特征或者单词消 失的可能性与它和其他单词相邻没有关系。举个例子来说,假设单词bacon消失在delicious 和消失在ugly后面的概率相同,当然这明显是不正确的,但这的确是朴实贝叶斯分类的一 条前提假设。虽然这样做可能会对猜测结果的精确 性造
5、成肯定的影响,但实际上, 相比于使用此公式对问题求解的简化程度,这一点误差是完全可以接受的,在实践中也能证 明,朴实贝叶斯的实际效果是相当好的。二、各部分概率的解释与计算在朴实贝叶斯定理中,为求得P(B|A),需要首先取得三个概率:先验概率P(B),条件概 率P(A|B),和现象概率P(A)。这三个概率并不是都很简洁求出来的,而如何精确猎取这三个概率也成为机器学习领域讨论的热门话题。在这里我以垃圾邮件分类为例来说明这 三个概率的计算,假设在如下5封邮件中,统计如下几个词在邮件中是否消失,并统计邮件 是否被标记为垃圾邮件:样本序号单词LovePurchaseDealDiscountLuck是否为
6、垃圾邮件100111是211100否311110是401011否500101否现在给定一封邮件,四个词在其中消失的状况分别为0,1, 1,0,要推断该封邮件是否 为垃圾邮件。1.先验概率理论上,先验概率是消失事物属于某一类的客观概率,但在实际应用中,先验概率往往 是不知道的,不能当作已知参数来用。一种常用的估量先验概率的方法是通过考察大量样本, 用频率来估量概率,这就是机器学习所要实现的事情。假设某分类名称为叼,考察n个样 本,事物属于该类的概率为Ne叫一其中,N叼表示属于类叼的样本数;表示全部的样本数。在本例中,假如要考查“是垃圾邮件”这一特征,则依据样本计算如下:1 + 17P(是垃圾邮件
7、)=1+1+1+1+1管理论上,当样本数趋于无限大时,上式所代表的频数即可以代表叼的频率,为了得到这 个精确 的频率,需要赐予机器大量的样本,机器通过自动学习,采用大量样本的数据 特征来不断完善P(叼)。在某些分类应用中,由于一些样本特别难以采集的特点,还有一些样本分布集中的状况, 这时的先验概率是很难求得的,还需要通过阅历推断、询问等其他途径来获得相对比较精确 的先验概率,比如对于一封邮件是否为垃圾邮件,或许此数据在我国网络中心那里早已有过 统计。2 .条件概率条件概率P(x|助)表示在所属的类别叼.中,观看到现象X消失的概率,其中X由特征 共同组成,特征向量X中的每个特征期都可以通过极大似
8、然估量的方法来求得,也就是简洁地求某个类别中的频率,公式如下:(i = 1,2,3 . n)其中N如叼是在全部属于类别叼的训练样本中,特征/消失的次数;N阳是在全部属于类别叼 的训练样本中,全部特征消失的次数。如上例,在给定的待求问题中,要统计purchase, deal, discount同时消失在垃圾邮件中 的概率,计算为:P(purchase, deal, discountspaTn)=P(purchasespam) * P(dealspam) * P(discount|spam)12 24 ,一 7 7 7 - 3433 .现象概率3 434* * =15 15 15375现象概率是独
9、立于类别的,这个现象概率单指某一事物或特征消失的概率,计算时通过 统计全部样本中该事物或特征消失的概率,而与类别无关。如上例中要统计purchase, deal, discount消失的概率,则Repurchase, deal, discount) = Repurchase) * P(deal) * P(discount)=但通过样本算出的现象概率难以保证和实际的现象概率是相符的,这与先验概率同样需 要机器通过大量样本的学习来得到一个相对比较精确的值。另一方面,现象概率其实是没有必要求出的,由于我们在给定修时: 我们需要比较的是在看的条件下不同分类消 失的概率,即求P(叼艮),0 = 1,2,
10、.几)(或者多个期的联合分布),而在这其中看可以视作 常量,因此公式中的分母PQJ可以视作常量,在比较的时候该值不会对比较结果造成影响, 因此也就没有必要特意求出该值。4 .附加平滑有时在求PQ叼)时,会发生在该分类中某特征没有消失的现象,那么在最终结果中, 整个后验概率就会变为0。为了避开o概率的消失,我们可以加上平滑项,把上面的条件概 率公式加强为以下形式:P&E)=加,(i = 12.“n)其中N刈叼是在全部属于类别叼的训练样本中,特征期消失的次数;N叼是在全部属于类别叼 的训练样本中,全部特征消失的次数;a是附加的平滑参数,a 1时称为Ud5toaesmoo加力g; a = 1 时称为
11、 Laplace smoothing; n 是特征数。至此,朴实贝叶斯分类算法公式中的全部概率我们都已得到了计算方法,下一步需要做 的就是通过机器学习的方法猎取大量样本,来不断地通过样本特征去更新先验概率分布和条 件概率分布,以使得由此猜测的后验分布更加精确可信。三、朴实贝叶斯分类的优缺点比较.优点:1)朴实贝叶斯模型发源于古典数学理论,有稳定的分类效率。2)对小规模的数据表现很好,能个处理多分类任务,适合增量式训练,尤其是数据量 超出内存时,我们可以一批批的去增量训练。3)对缺失数据不太敏感,算法也比较简洁,常用于文本分类。1 .缺点:1)理论上,朴实贝叶斯模型与其他分类方法相比具有最小的误
12、差率。但是实际上并非 总是如此,这是由于朴实贝叶斯模型假设属性之间相互独立,这个假设在实际应用 中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。 而在属性相关性较小时,朴实贝叶斯性能最为良好。对于这一点,有半朴实贝叶斯 之类的算法通过考虑部分关联性适度改进。2)需要知道先验概率,且先验概率许多时候取决于假设,假设的模型可以有许多种, 因此在某些时候会由于假设的先验模型的缘由导致猜测效果不佳。3)由于我们是通过先验和数据来打算后验的概率从而打算分类,所以分类决策存在肯 定的错误率。4)对输入数据的表达形式很敏感。朴实贝叶斯分类算法在文档分类、垃圾邮件处理、词义分析归纳等方面都有重要的应用。 总之,作为一种从经典的贝叶斯定理进展来的分类算法,朴实贝叶斯分类算法有其独特的应 用领域和良好的适用性,在机器学习进展日益火热的今日,不失为一种有待进一步开发、潜 力巨大的有用算法在,这也是概率论学问与社会和实际生活紧密接轨的一个特别好的佐证。