《通俗理解LDA主题模型.docx》由会员分享,可在线阅读,更多相关《通俗理解LDA主题模型.docx(31页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精品文档,仅供学习与交流,如有侵权请联系网站删除通俗理解LDA主题模型0 前言 印象中,最开始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印过一次,但不知是因为这篇文档的前序铺垫太长(现在才意识到这些“铺垫”都是深刻理解LDA 的基础,但如果没有人帮助初学者提纲挈领、把握主次、理清思路,则很容易陷入LDA的细枝末节之中),还是因为其中的数学推导细节太多,导致一直没有完整看完过。 2013年12月,在我组织的Machine Learning读书会第8期上,夏粉_百度 讲机器学习中排序学习的理论和算法研究,沈醉2
2、011 则讲主题模型的理解。又一次碰到了主题模型,当时貌似只记得沈博讲了一个汪峰写歌词的例子,依然没有理解LDA到底是怎样一个东西(但理解了LDA之后,再看沈博主题模型的PPT会很赞)。 直到昨日下午,机器学习班第12次课上,邹讲完LDA之后,才真正明白LDA原来是那么一个东东!上完课后,趁热打铁,再次看LDA数学八卦,发现以前看不下去的文档再看时竟然一路都比较顺畅,一口气看完大部。看完大部后,思路清晰了,知道理解LDA,可以分为下述5个步骤:1. 一个函数:gamma函数2. 四个分布:二项分布、多项分布、beta分布、Dirichlet分布3. 一个概念和一个理念:共轭先验和贝叶斯框架4.
3、 两个模型:pLSA、LDA(在本文第4 部分阐述)5. 一个采样:Gibbs采样 本文便按照上述5个步骤来阐述,希望读者看完本文后,能对LDA有个尽量清晰完整的了解。同时,本文基于邹讲LDA的PPT、rickjin的LDA数学八卦及其它参考资料写就,可以定义为一篇学习笔记或课程笔记,当然,后续不断加入了很多自己的理解。若有任何问题,欢迎随时于本文评论下指出,thanks。1 gamma函数1.0 整体把握LDA 关于LDA有两种含义,一种是线性判别分析(Linear Discriminant Analysis),一种是概率主题模型:隐含狄利克雷分布(Latent Dirichlet Allo
4、cation,简称LDA),本文讲后者。 另外,我先简单说下LDA的整体思想,不然我怕你看了半天,铺了太长的前奏,却依然因没见到LDA的影子而显得“心浮气躁”,导致不想再继续看下去。所以,先给你吃一颗定心丸,明白整体框架后,咱们再一步步抽丝剥茧,展开来论述。 按照wiki上的介绍,LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,是一种主题模型,它可以将文档集 中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成
5、,词与词之间没有先后顺序的关系。 此外,一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。 人类是怎么生成文档的呢?LDA的这三位作者在原始论文中给了一个简单的例子。比如假设事先给定了这几个主题:Arts、Budgets、Children、Education,然后通过学习训练,获取每个主题Topic对应的词语。如下图所示: 然后以一定的概率选取上述某个主题,再以一定的概率选取那个主题下的某个单词,不断的重复这两步,最终生成如下图所示的一篇文章(其中不同颜色的词语分别对应上图中不同主题下的词): 而当我们看到一篇文章后,往往喜欢推测这篇文章是如何生成的,我们可能会认为作者先确定这篇
6、文章的几个主题,然后围绕这几个主题遣词造句,表达成文。 LDA就是要干这事:根据给定的一篇文档,推测其主题分布。 通俗来说,可以假定认为人类是根据上述文档生成过程写成了各种各样的文章,现在某小撮人想让计算机利用LDA干一件事:你计算机给我推测分析网络上各篇文章分别都写了些啥主题,且各篇文章中各个主题出现的概率大小(主题分布)是啥。 然,就是这么一个看似普通的LDA,一度吓退了不少想深入探究其内部原理的初学者。难在哪呢,难就难在LDA内部涉及到的数学知识点太多了。 在LDA模型中,一篇文档生成的方式如下: 从狄利克雷分布中取样生成文档 i 的主题分布 从主题的多项式分布中取样生成文档i第 j 个
7、词的主题 从狄利克雷分布中取样生成主题对应的词语分布 从词语的多项式分布中采样最终生成词语 其中,类似Beta分布是二项式分布的共轭先验概率分布,而狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布。 此外,LDA的图模型结构如下图所示(类似贝叶斯网络结构): 恩,不错,短短6句话整体概括了整个LDA的主体思想!但也就是上面短短6句话,却接连不断或重复出现了二项分布、多项式分布、beta分布、狄利克雷分布(Dirichlet分布)、共轭先验概率分布、取样,那么请问,这些都是啥呢? 这里先简单解释下二项分布、多项分布、beta分布、Dirichlet分布这4个分布。 二项分布(
8、Binomial distribution)。 二项分布是从伯努利分布推进的。伯努利分布,又称两点分布或0-1分布,是一个离散型的随机分布,其中的随机变量只有两类取值,非正即负+,-。而二项分布即重复n次的伯努利试验,记为。简言之,只做一次实验,是伯努利分布,重复做了n次,是二项分布。二项分布的概率密度函数为: 对于k=0,1,2,.,n,其中的是二项式系数(这就是二项分布的名称的由来),又记为。回想起高中所学的那丁点概率知识了么:想必你当年一定死记过这个二项式系数就是。 多项分布,是二项分布扩展到多维的情况。 多项分布是指单次试验中的随机变量的取值不再是0-1的,而是有多种离散值可能(1,2
9、,3.,k)。比如投掷6个面的骰子实验,N次实验结果服从K=6的多项分布。其中 多项分布的概率密度函数为: Beta分布,二项分布的共轭先验分布。 给定参数和,取值范围为0,1的随机变量 x 的概率密度函数: 其中: 注:便是所谓的gamma函数,下文会具体阐述。 Dirichlet分布,是beta分布在高维度上的推广。 Dirichlet分布的的密度函数形式跟beta分布的密度函数如出一辙: 其中 至此,我们可以看到二项分布和多项分布很相似,Beta分布和Dirichlet分布很相似,而至于“Beta分布是二项式分布的共轭先验概率分布,而狄利克雷分布(Dirichlet分布)是多项式分布的共
10、轭先验概率分布”这点在下文中说明。 OK,接下来,咱们就按照本文开头所说的思路:“一个函数:gamma函数,四个分布:二项分布、多项分布、beta分布、Dirichlet分布,外加一个概念和一个理念:共轭先验和贝叶斯框架,两个模型:pLSA、LDA(文档-主题,主题-词语),一个采样:Gibbs采样”一步步详细阐述,争取给读者一个尽量清晰完整的LDA。 (当然,如果你不想深究背后的细节原理,只想整体把握LDA的主体思想,可直接跳到本文第4 部分,看完第4部分后,若还是想深究背后的细节原理,可再回到此处开始看)1.1gamma函数 咱们先来考虑一个问题(此问题1包括下文的问题2-问题4皆取材自L
11、DA数学八卦):1. 问题1随机变量2. 把这n 个随机变量排序后得到顺序统计量3. 然后请问的分布是什么。 为解决这个问题,可以尝试计算落在区间x,x+x的概率。即求下述式子的值: 首先,把 0,1 区间分成三段 0,x),x,x+x,(x+x,1,然后考虑下简单的情形:即假设n 个数中只有1个落在了区间 x,x+x内,由于这个区间内的数X(k)是第k大的,所以0,x)中应该有 k1 个数,(x+x,1 这个区间中应该有nk 个数。如下图所示: 从而问题转换为下述事件E: 对于上述事件E,有: 其中,o(x)表示x的高阶无穷小。显然,由于不同的排列组合,即n个数中有一个落在 x,x+x区间的
12、有n种取法,余下n1个数中有k1个落在0,x)的有种组合,所以和事件E等价的事件一共有个。 如果有2个数落在区间x,x+x呢?如下图所示: 类似于事件E,对于2个数落在区间x,x+x的事件E: 有: 从上述的事件E、事件E中,可以看出,只要落在x,x+x内的数字超过一个,则对应的事件的概率就是 o(x)。于是乎有: 从而得到的概率密度函数为: 至此,本节开头提出的问题得到解决。然仔细观察的概率密度函数,发现式子的最终结果有阶乘,联想到阶乘在实数上的推广函数: 两者结合是否会产生奇妙的效果呢?考虑到具有如下性质: 故将代入到的概率密度函数中,可得: 然后取,转换得到: 如果熟悉beta分布的朋友
13、,可能会惊呼:哇,竟然推出了beta分布!2 beta分布2.1 beta分布 在概率论中,beta是指一组定义在区间的连续概率分布,有两个参数和,且。 beta分布的概率密度函数是: 其中的便是函数: 随机变量X服从参数为的beta分布通常写作:。2.2Beta-Binomial 共轭 回顾下1.1节开头所提出的问题:“问题1 随机变量,把这n 个随机变量排序后得到顺序统计量,然后请问的分布是什么。” 如果,咱们要在这个问题的基础上增加一些观测数据,变成问题2: ,对应的顺序统计量是,需要猜测; ,中有个比p小,个比大; 那么,请问的分布是什么。 根据“Yi中有个比小,个比大”,换言之,Yi
14、中有个比小,个比大,所以是中第大的数。 根据1.1节最终得到的结论“只要落在x,x+x内的数字超过一个,则对应的事件的概率就是 o(x)”,继而推出事件服从beta分布,从而可知的概率密度函数为: 熟悉贝叶斯方法(不熟悉的没事,参见此文第一部分)的朋友心里估计又犯“嘀咕”了,这不就是贝叶斯式的思考过程么?1. 为了猜测,在获得一定的观测数据前,我们对的认知是:,此称为的先验分布;2. 然后为了获得这个结果“中有个比p小,个比大”,针对是做了次贝努利实验,所以服从二项分布;3. 在给定了来自数据提供的的知识后,的后验分布变为。 回顾下贝叶斯派思考问题的固定模式: 先验分布+ 样本信息后验分布 上
15、述思考模式意味着,新观察到的样本信息将修正人们以前对事物的认知。换言之,在得到新的样本信息之前,人们对的认知是先验分布,在得到新的样本信息后,人们对的认知为。 类比到现在这个问题上,我们也可以试着写下: 其中对应的是二项分布的计数。 更一般的,对于非负实数和,我们有如下关系 针对于这种观测到的数据符合二项分布,参数的先验分布和后验分布都是Beta分布的情况,就是Beta-Binomial共轭。换言之,Beta分布是二项式分布的共轭先验概率分布。 二项分布和Beta分布是共轭分布意味着,如果我们为二项分布的参数p选取的先验分布是Beta分布,那么以p为参数的二项分布用贝叶斯估计得到的后验分布仍然
16、服从Beta分布。 此外,如何理解参数和所表达的意义呢?、可以认为形状参数,通俗但不严格的理解是,和共同控制Beta分布的函数“长的样子”:形状千奇百怪,高低胖瘦,如下图所示:2.3 共轭先验分布 什么又是共轭呢?轭的意思是束缚、控制,共轭从字面上理解,则是共同约束,或互相约束。 在贝叶斯概率理论中,如果后验概率P(|x)和先验概率p()满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时,先验分布叫做似然函数的共轭先验分布。 比如,某观测数据服从概率分布P()时,当观测到新的X数据时,我们一般会遇到如下问题: 可否根据新观测数据X,更新参数? 根据新观测数据可以在多大程度上改变参数
17、,即 当重新估计的时候,给出新参数值的新概率分布,即P(|x)。 事实上,根据根据贝叶斯公式可知: 其中,P(x|)表示以预估为参数的x概率分布,可以直接求得,P()是已有原始的概率分布。 所以,如果我们选取P(x|)的共轭先验作为P()的分布,那么P(x|)乘以P(),然后归一化的结果P(|x)跟和P()的形式一样。换句话说,先验分布是P(),后验分布是P(|x),先验分布跟后验分布同属于一个分布族,故称该分布族是的共轭先验分布(族)。 举个例子。投掷一个非均匀硬币,可以使用参数为的伯努利模型,为硬币为正面的概率,那么结果x的分布形式为: 其共轭先验为beta分布,具有两个参数和,称为超参数
18、(hyperparameters)。且这两个参数决定了参数,其Beta分布形式为 然后计算后验概率 归一化这个等式后会得到另一个Beta分布,从而证明了Beta分布确实是伯努利分布的共轭先验分布。2.4 从beta分布推广到Dirichlet 分布 接下来,咱们来考察beta分布的一个性质。 如果,则有: 注意到上式最后结果的右边积分 其类似于概率分布,而对于这个分布有 从而求得 的结果为 最后将此结果带入的计算式,得到: 最后的这个结果意味着对于Beta 分布的随机变量,其均值(期望)可以用来估计。此外,狄利克雷Dirichlet 分布也有类似的结论,即如果,同样可以证明有下述结论成立: 那
19、什么是Dirichlet 分布呢?简单的理解Dirichlet 分布就是一组连续多变量概率分布,是多变量普遍化的beta分布。为了纪念德国数学家约翰彼得古斯塔夫勒热纳狄利克雷(Peter Gustav Lejeune Dirichlet)而命名。狄利克雷分布常作为贝叶斯统计的先验概率。3 Dirichlet 分布3.1 Dirichlet 分布 根据wikipedia上的介绍,维度K 2(x1,x2xK-1维,共K个)的狄利克雷分布在参数1, ., K 0上、基于欧几里得空间RK-1里的勒贝格测度有个概率密度函数,定义为: 其中,相当于是多项beta函数 且 此外,x1+x2+xK-1+xK=
20、1,x1,x2xK-10,且在(K-1)维的单纯形上,其他区域的概率密度为0。 当然,也可以如下定义Dirichlet 分布 其中的称为Dirichlet 分布的归一化系数: 且根据Dirichlet分布的积分为1(概率的基本性质),可以得到:3.2Dirichlet-Multinomial 共轭 下面,在2.2节问题2的基础上继续深入,引出问题3。 排序后对应的顺序统计量, 问的联合分布是什么? 为了简化计算,取x3满足x1+x2+x3=1,但只有x1,x2是变量,如下图所示: 从而有: 继而得到于是我们得到的联合分布为: 观察上述式子的最终结果,可以看出上面这个分布其实就是3维形式的 Di
21、richlet 分布 令,于是分布密度可以写为 这个就是一般形式的3维 Dirichlet 分布,即便延拓到非负实数集合,以上概率分布也是良定义的。 将Dirichlet分布的概率密度函数取对数,绘制对称Dirichlet分布的图像如下图所示(截取自wikipedia上): 上图中,取K=3,也就是有两个独立参数x1,x2,分别对应图中的两个坐标轴,第三个参数始终满足x3=1-x1-x2且1=2=3=,图中反映的是参数从=(0.3, 0.3, 0.3)变化到(2.0, 2.0, 2.0)时的概率对数值的变化情况。 为了论证Dirichlet分布是多项式分布的共轭先验概率分布,下面咱们继续在上述
22、问题3的基础上再进一步,提出问题4。1. 问题4,排序后对应的顺序统计量2. 令,(此处的p3非变量,只是为了表达方便),现在要猜测;3. ,Yi中落到,三个区间的个数分别为 m1,m2,m3,m=m1+m2+m3;4. 问后验分布的分布是什么。 为了方便讨论,记,及,根据已知条件“,Yi中落到,三个区间的个数分别为 m1,m2”,可得、分别是这m+n个数中第大、第大的数。于是,后验分布应该为,即一般化的形式表示为:。 同样的,按照贝叶斯推理的逻辑,可将上述过程整理如下:1. 我们要猜测参数,其先验分布为;2. 数据Yi落到三个区间,的个数分别为,所以服从多项分布3. 在给定了来自数据提供的知
23、识后,的后验分布变为 上述贝叶斯分析过程的直观表述为: 令,可把从整数集合延拓到实数集合,从而得到更一般的表达式如下: 针对于这种观测到的数据符合多项分布,参数的先验分布和后验分布都是Dirichlet 分布的情况,就是Dirichlet-Multinomial 共轭。换言之,至此已经证明了Dirichlet分布的确就是多项式分布的共轭先验概率分布。 意味着,如果我们为多项分布的参数p选取的先验分布是Dirichlet分布,那么以p为参数的多项分布用贝叶斯估计得到的后验分布仍然服从Dirichlet分布。 进一步,一般形式的Dirichlet 分布定义如下: 而对于给定的和,其多项分布为: 结
24、论是:Dirichlet分布和多项分布是共轭关系。4 主题模型LDA 在开始下面的旅程之前,先来总结下我们目前所得到的最主要的几个收获: 通过上文的第2.2节,我们知道beta分布是二项式分布的共轭先验概率分布:o “对于非负实数和,我们有如下关系 其中对应的是二项分布的计数。针对于这种观测到的数据符合二项分布,参数的先验分布和后验分布都是Beta分布的情况,就是Beta-Binomial 共轭。” 通过上文的3.2节,我们知道狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布:o “把从整数集合延拓到实数集合,从而得到更一般的表达式如下: 针对于这种观测到的数据符合多项分布
25、,参数的先验分布和后验分布都是Dirichlet 分布的情况,就是 Dirichlet-Multinomial 共轭。” 以及贝叶斯派思考问题的固定模式:o 先验分布+ 样本信息后验分布 上述思考模式意味着,新观察到的样本信息将修正人们以前对事物的认知。换言之,在得到新的样本信息之前,人们对的认知是先验分布,在得到新的样本信息后,人们对的认知为。 顺便提下频率派与贝叶斯派各自不同的思考方式:o 频率派把需要推断的参数看做是固定的未知常数,即概率虽然是未知的,但最起码是确定的一个值,同时,样本X 是随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本X 的分布;o 而贝叶斯派的观点则
26、截然相反,他们认为待估计的参数是随机变量,服从一定的分布,而样本X 是固定的,由于样本是固定的,所以他们重点研究的是参数的分布。 OK,在杀到终极bossLDA模型之前,再循序渐进理解基础模型:Unigram model、mixture of unigrams model,以及跟LDA最为接近的pLSA模型。 为了方便描述,首先定义一些变量: 表示词,表示所有单词的个数(固定值) 表示主题,是主题的个数(预先给定,固定值) 表示语料库,其中的是语料库中的文档数(固定值) 表示文档,其中的表示一个文档中的词数(随机变量)4.1 各个基础模型4.1.1Unigram model 对于文档,用表示词
27、的先验概率,生成文档的概率为: 其图模型为(图中被涂色的w表示可观测变量,N表示一篇文档中总共N个单词,M表示M篇文档): 或为: unigram model假设文本中的词服从Multinomial分布,而我们已经知道Multinomial分布的先验分布为Dirichlet分布。 上图中的表示在文本中观察到的第n个词,n1,N表示该文本中一共有N个单词。加上方框表示重复,即一共有N个这样的随机变量。其中,p和是隐含未知变量: p是词服从的Multinomial分布的参数 是Dirichlet分布(即Multinomial分布的先验分布)的参数。 一般由经验事先给定,p由观察到的文本中出现的词学
28、习得到,表示文本中出现每个词的概率。4.1.2Mixture of unigrams model 该模型的生成过程是:给某个文档先选择一个主题,再根据该主题生成文档,该文档中的所有词都来自一个主题。假设主题有,生成文档的概率为: 其图模型为(图中被涂色的w表示可观测变量,未被涂色的z表示未知的隐变量,N表示一篇文档中总共N个单词,M表示M篇文档):4.2 PLSA模型 啊哈,长征两万五,经过前面这么长的铺垫,终于快要接近LDA模型了!因为跟LDA模型最为接近的便是下面要阐述的这个pLSA模型,理解了pLSA模型后,到LDA模型也就一步之遥给pLSA加上贝叶斯框架,便是LDA。4.2.1 pLS
29、A模型下生成文档 OK,在上面的Mixture of unigrams model中,我们假定一篇文档只有一个主题生成,可实际中,一篇文章往往有多个主题,只是这多个主题各自在文档中出现的概率大小不一样。比如介绍一个国家的文档中,往往会分别从教育、经济、交通等多个主题进行介绍。那么在pLSA中,文档是怎样被生成的呢? 假设你要写M篇文档,由于一篇文档由各个不同的词组成,所以你需要确定每篇文档里每个位置上的词。 再假定你一共有K个可选的主题,有V个可选的词,咱们来玩一个扔骰子的游戏。 1. 假设你每写一篇文档会制作一颗K面的“文档-主题”骰子(扔此骰子能得到K个主题中的任意一个),和K个V面的“主
30、题-词项” 骰子(每个骰子对应一个主题,K个骰子对应之前的K个主题,且骰子的每一面对应要选择的词项,V个面对应着V个可选的词)。o 比如可令K=3,即制作1个含有3个主题的“文档-主题”骰子,这3个主题可以是:教育、经济、交通。然后令V = 3,制作3个有着3面的“主题-词项”骰子,其中,教育主题骰子的3个面上的词可以是:大学、老师、课程,经济主题骰子的3个面上的词可以是:市场、企业、金融,交通主题骰子的3个面上的词可以是:高铁、汽车、飞机。 2. 每写一个词,先扔该“文档-主题”骰子选择主题,得到主题的结果后,使用和主题结果对应的那颗“主题-词项”骰子,扔该骰子选择要写的词。o 先扔“文档-
31、主题”的骰子,假设(以一定的概率)得到的主题是教育,所以下一步便是扔教育主题筛子,(以一定的概率)得到教育主题筛子对应的某个词:大学。 上面这个投骰子产生词的过程简化下便是:“先以一定的概率选取主题,再以一定的概率选取词”。事实上,一开始可供选择的主题有3个:教育、经济、交通,那为何偏偏选取教育这个主题呢?其实是随机选取的,只是这个随机遵循一定的概率分布。比如可能选取教育主题的概率是0.5,选取经济主题的概率是0.3,选取交通主题的概率是0.2,那么这3个主题的概率分布便是教育:0.5,经济:0.3,交通:0.2,我们把各个主题z在文档d中出现的概率分布称之为主题分布,且是一个多项分布。 同样
32、的,从主题分布中随机抽取出教育主题后,依然面对着3个词:大学、老师、课程,这3个词都可能被选中,但它们被选中的概率也是不一样的。比如大学这个词被选中的概率是0.5,老师这个词被选中的概率是0.3,课程被选中的概率是0.2,那么这3个词的概率分布便是大学:0.5,老师:0.3,课程:0.2,我们把各个词语w在主题z下出现的概率分布称之为词分布,这个词分布也是一个多项分布。 所以,选主题和选词都是两个随机的过程,先从主题分布教育:0.5,经济:0.3,交通:0.2中抽取出主题:教育,然后从该主题对应的词分布大学:0.5,老师:0.3,课程:0.2中抽取出词:大学。 3. 最后,你不停的重复扔“文档
33、-主题”骰子和”主题-词项“骰子,重复N次(产生N个词),完成一篇文档,重复这产生一篇文档的方法M次,则完成M篇文档。 上述过程抽象出来即是PLSA的文档生成模型。在这个过程中,我们并未关注词和词之间的出现顺序,所以pLSA是一种词袋方法。具体说来,该模型假设一组共现(co-occurrence)词项关联着一个隐含的主题类别。同时定义: 表示海量文档中某篇文档被选中的概率。 表示词在给定文档中出现的概率。o 怎么计算得到呢?针对海量文档,对所有文档进行分词后,得到一个词汇列表,这样每篇文档就是一个词语的集合。对于每个词语,用它在文档中出现的次数除以文档中词语总的数目便是它在文档中出现的概率。
34、表示具体某个主题在给定文档下出现的概率。 表示具体某个词在给定主题下出现的概率,与主题关系越密切的词,其条件概率越大。 利用上述的第1、3、4个概率,我们便可以按照如下的步骤得到“文档-词项”的生成模型:1. 按照概率选择一篇文档2. 选定文档后,从主题分布中按照概率选择一个隐含的主题类别3. 选定后,从词分布中按照概率选择一个词 所以pLSA中生成文档的整个过程便是选定文档生成主题,确定主题生成词。4.2.1 根据文档反推其主题分布 反过来,既然文档已经产生,那么如何根据已经产生好的文档反推其主题呢?这个利用看到的文档推断其隐藏的主题(分布)的过程(其实也就是产生文档的逆过程),便是主题建模
35、的目的:自动地发现文档集中的主题(分布)。 换言之,人类根据文档生成模型写成了各类文章,然后丢给了计算机,相当于计算机看到的是一篇篇已经写好的文章。现在计算机需要根据一篇篇文章中看到的一系列词归纳出当篇文章的主题,进而得出各个主题各自不同的出现概率:主题分布。即文档d和单词w是可被观察到的,但主题z却是隐藏的。 如下图所示(图中被涂色的d、w表示可观测变量,未被涂色的z表示未知的隐变量,N表示一篇文档中总共N个单词,M表示M篇文档): 上图中,文档d和词w是我们得到的样本(样本随机,参数虽未知但固定,所以pLSA属于频率派思想。区别于下文要介绍的LDA中:样本固定,参数未知但不固定,是个随机变
36、量,服从一定的分布,所以LDA属于贝叶斯派思想),可观测得到,所以对于任意一篇文档,其是已知的。 从而可以根据大量已知的文档-词项信息,训练出文档-主题和主题-词项,如下公式所示: 故得到文档中每个词的生成概率为: 由于可事先计算求出,而和未知,所以就是我们要估计的参数(值),通俗点说,就是要最大化这个。 用什么方法进行估计呢,常用的参数估计方法有极大似然估计MLE、最大后验证估计MAP、贝叶斯估计等等。因为该待估计的参数中含有隐变量z,所以我们可以考虑EM算法。4.2.1.1 EM算法的简单介绍 EM算法,全称为Expectation-maximization algorithm,为期望最大
37、算法,其基本思想是:首先随机选取一个值去初始化待估计的值,然后不断迭代寻找更优的使得其似然函数likelihood比原来的要大。换言之,假定现在得到了,想求,使得 EM的关键便是要找到的一个下界(注:,其中,X表示已经观察到的随机变量),然后不断最大化这个下界,通过不断求解下界的极大化,从而逼近要求解的似然函数。 所以EM算法的一般步骤为: 1. 随机选取或者根据先验知识初始化; 2. 不断迭代下述两步o 给出当前的参数估计,计算似然函数的下界o 重新估计参数,即求,使得 3. 上述第二步后,如果收敛(即收敛)则退出算法,否则继续回到第二步。 上述过程好比在二维平面上,有两条不相交的曲线,一条
38、曲线在上(简称上曲线),一条曲线在下(简称下曲线),下曲线为上曲线的下界。现在对上曲线未知,只已知下曲线,为了求解上曲线的最高点,我们试着不断增大下曲线,使得下曲线不断逼近上曲线,下曲线在某一个点达到局部最大值并与上曲线在这点的值相等,记录下这个值,然后继续增大下曲线,寻找下曲线上与上曲线上相等的值,迭代到收敛(即收敛)停止,从而利用当前下曲线上的局部最大值当作上曲线的全局最大值(换言之,EM算法不保证一定能找到全局最优值)。如下图所示: 以下是详细介绍。 假定有训练集,包含m个独立样本,希望从中找到该组数据的模型p(x,z)的参数。 然后通过极大似然估计建立目标函数-对数似然函数: 这里,z
39、是隐随机变量,直接找到参数的估计是很困难的。我们的策略是建立的下界,并且求该下界的最大值;重复这个过程,直到收敛到局部最大值。 令Qi是z的某一个分布,Qi0,且结合Jensen不等式,有: 为了寻找尽量紧的下界,我们可以让使上述等号成立,而若要让等号成立的条件则是: 换言之,有以下式子成立:,且由于有: 所以可得: 最终得到EM算法的整体框架如下: OK,EM算法还会在本博客后面的博文中具体阐述。接下来,回到pLSA参数的估计问题上。4.2.1.2EM算法估计pLSA的两未知参数 首先尝试从矩阵的角度来描述待估计的两个未知变量和。 假定用表示词表在主题上的一个多项分布,则可以表示成一个向量,
40、每个元素表示词项出现在主题中的概率,即 用表示所有主题在文档上的一个多项分布,则可以表示成一个向量,每个元素表示主题出现在文档中的概率,即 这样,巧妙的把和转换成了两个矩阵。换言之,最终我们要求解的参数是这两个矩阵: 由于词和词之间是相互独立的,所以整篇文档N个词的分布为: 再由于文档和文档之间也是相互独立的,所以整个语料库中词的分布为(整个语料库M篇文档,每篇文档N个词): 其中,表示词项在文档中的词频,表示文档di中词的总数,显然有。 从而得到整个语料库的词分布的对数似然函数(下述公式中有个小错误,正确的应该是:N为M,M为N): 现在,我们需要最大化上述这个对数似然函数来求解参数和。对于
41、这种含有隐变量的最大似然估计,可以使用EM算法。EM算法,分为两个步骤:先E-step,后M-step。 E-step:假定参数已知,计算此时隐变量的后验概率。 利用贝叶斯法则,可以得到: M-step:带入隐变量的后验概率,最大化样本分布的对数似然函数,求解相应的参数。 观察之前得到的对数似然函数的结果,由于文档长度可以单独计算,所以去掉它不影响最大化似然函数。此外,根据E-step的计算结果,把代入,于是我们只要最大化下面这个函数即可(下述公式中有个小错误,正确的应该是:N为M,M为N): 这是一个多元函数求极值问题,并且已知有如下约束条件(下述公式中有个小错误,正确的应该是:M为N):
42、熟悉凸优化的朋友应该知道,一般处理这种带有约束条件的极值问题,常用的方法便是拉格朗日乘数法,即通过引入拉格朗日乘子将约束条件和多元(目标)函数融合到一起,转化为无约束条件的极值问题。 这里我们引入两个拉格朗日乘子和,从而写出拉格朗日函数(下述公式中有个小错误,正确的应该是:N为M,M为N): 因为我们要求解的参数是和,所以分别对和求偏导,然后令偏导结果等于0,得到(下述公式中有个小错误,正确的应该是:N为M,M为N): 消去拉格朗日乘子,最终可估计出参数和(下述公式中有个小错误,正确的应该是:N为M,M为N): 综上,在pLSA中:1. 由于和未知,所以我们用EM算法去估计这个参数的值。2.
43、而后,用表示词项出现在主题中的概率,即,用表示主题出现在文档中的概率,即,从而把转换成了“主题-词项”矩阵(主题生成词),把转换成了“文档-主题”矩阵(文档生成主题)。3. 最终求解出、。4.3 LDA模型 事实上,理解了pLSA模型,也就差不多快理解了LDA模型,因为LDA就是在pLSA的基础上加层贝叶斯框架,即LDA就是pLSA的贝叶斯版本(正因为LDA被贝叶斯化了,所以才需要考虑历史先验知识,才加的两个先验参数)。4.3.1 pLSA跟LDA的对比:生成文档与参数估计 在pLSA模型中,我们按照如下的步骤得到“文档-词项”的生成模型:1. 按照概率选择一篇文档2. 选定文档后,确定文章的
44、主题分布3. 从主题分布中按照概率选择一个隐含的主题类别4. 选定后,确定主题下的词分布5. 从词分布中按照概率选择一个词” 下面,咱们对比下本文开头所述的LDA模型中一篇文档生成的方式是怎样的:1. 按照先验概率选择一篇文档2. 从狄利克雷分布(即Dirichlet分布)中取样生成文档的主题分布,换言之,主题分布由超参数为的Dirichlet分布生成3. 从主题的多项式分布中取样生成文档第 j 个词的主题4. 从狄利克雷分布(即Dirichlet分布)中取样生成主题对应的词语分布,换言之,词语分布由参数为的Dirichlet分布生成5. 从词语的多项式分布中采样最终生成词语” 从上面两个过程
45、可以看出,LDA在PLSA的基础上,为主题分布和词分布分别加了两个Dirichlet先验。 继续拿之前讲解PLSA的例子进行具体说明。如前所述,在PLSA中,选主题和选词都是两个随机的过程,先从主题分布教育:0.5,经济:0.3,交通:0.2中抽取出主题:教育,然后从该主题对应的词分布大学:0.5,老师:0.3,课程:0.2中抽取出词:大学。 而在LDA中,选主题和选词依然都是两个随机的过程,依然可能是先从主题分布教育:0.5,经济:0.3,交通:0.2中抽取出主题:教育,然后再从该主题对应的词分布大学:0.5,老师:0.3,课程:0.2中抽取出词:大学。 那PLSA跟LDA的区别在于什么地方呢?区别就在于: PLSA中,主题分布和词分布是唯一确定的,能明确的指出主题分布可能就是教育:0.5,经济:0.3,交通:0.2,词分布可能就是大学:0.5,老师:0.3,课程:0.2。 但在LDA中,主题分布和词分布不再唯一确定不变,即无法确切给出。例如主题分布可能是教育:0.5,经济:0.3,交通:0.2,也可能是教育:0