2022年超参数的意义 .pdf-淘文阁

资源描述

《2022年超参数的意义 .pdf》由会员分享，可在线阅读，更多相关《2022年超参数的意义 .pdf（4页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、超参数的意义，并提供某种方法在数据中估计它的标量值。6.1 解释通常意义上，狄利克雷超参数对多项式参数有平滑影响。通过降低和的值，减少 LDA中的平滑影响，最终会导致更加直接的话题关联，因而和将变得更加稀疏。由控制的的稀疏性说明模型倾向于赋予每个话题较少的词项，又一次影响模型在数据中已有的话题数量。这意味着为了发现词语同属一个话题，词语之间的“相似” 度需要很高（即是它们在不同的上文中共现的频繁程度1）。对于稀疏话题，如果K 值更高，模型会与数据更加匹配，因为模型将会最大限度地将多个话题赋予一个词项。这就是模型的学习K 值，例如不带参数的贝叶斯方法 TJB+06的其中一个原因，K 值强烈

2、地依赖于超参数。由控制的稀疏度意味着模型倾向于用更少的话题刻画文档。当超参数、话题数量和模型行为之间的关系是相互的，它可形成具有特定性质的模型，以及对数据的内在特点进行分析。模型质量的试探性，报道性，良好性（见下章，用于分析方法），并且GSt04。另一方面，给定话题数量K，从数据中学习和可以用于提高模型质量（指的是估计方法的目标），更进一步说，超参数估计可以揭示建模数据集的特定属性。估计可以指示不同文档的（潜在）语义是相当程度的不同，并且对的估计暗示了一般性的共现词语组有多大。但是，估计超参数的解释并不总是简单的，对文档内容的特定群集的影响尚未得到彻底调查。6.2 抽样了解了很多从数据中学习

3、狄利克雷参数向量的方法，但很遗憾目前还不存在正确的闭合解。最精确的方法是迭代近似方法。Mink00 对此进行了全面的概述。事实上，学习狄利克雷参数的最好办法是使用吉布斯采样（参考等式79）已经得到的结果。例如话题相关性的计数统计信息而不是多项式参数和，对它们进行积分分析。这说明超参数的最佳估计是狄利克雷多项式分布的参数（参考等式52）。对于对称的狄利克雷分布，对于 LDA更加普遍，在吉布斯采样中运行良好的和估计，却在文字里并未明确的说明。因此这里推荐使用的贝叶斯方法。狄利克雷分布没有减小运算的共轭先验分布，因此不会选择先验。但是，与狄利克雷处理常常一起使用的先验分布是gamma 分布，这种选

4、择被用在了狄利克雷分布上。对于的吉布斯采样的全条件可通过以下方式得到：其中，使用等式 74 中的，含有 gamma 分布的参数：形状和标量。这些参数可以通过关于可能的区间和的先验知识进行选择。某个具体的参数集合是“ 引用” 先验， EsWe95中表示的（它在=0 处有一个奇异值，因此在实际的实现中，参数是趋于零的集合，例如NGS+06）。相似的，的全条件可以通过等式70 得到：1潜在话题常常来源于高阶的共现，例如与共现的与共现代表着和直接的次阶共现关系，等等。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 -

5、 - - - - - - 第 1 页，共 4 页 - - - - - - - - - 注意两个分布和直接含有LDA吉布斯采样的统计参数。可以使用蒙特卡洛模拟的方法从这些分布中采样，从而计算和的值。例如：自适应舍选抽样（ARS GiWi92 ），一个从任何log 密度抽样的方法得到，它是提供给这些分布的一个参照。6.3 高效估计作为抽样的替代品，存在一种高效的非迭代方法，能够通过狄利克雷精度找到的最大似然估计。它基于适合于狄利克雷分布密度的距和多项式参数的距Mink00 。在坍塌的 LDA吉布斯采样中，参数不能够被直接访问，而是使用了点估计，可以通过比率的模型统计量获得。使用Mink00 的

6、结果，我们得到：这个估计方法能够比任何迭代方法或者基于抽样的方法更快捷，如果满足条件，得到的超参数值比真实的参数值要小10% （显著地过低）。如果不满足，估计将剧烈下降2。7 分析话题模型话题模型，如潜在话题与观测到的实体之间的LDA 估计的软关系，例如词语、文档，但是在模型扩展时也包括作者等。这些关系是很多与信息处理和语言建模相关操作的基础。在本节中，我们举出几个使用给定语料的话题结构的方法，从而在（1）估算中看不见的文件（正在查询）的话题结构，（2）估计隐含的已估计话题聚类的质量，（3）根据已估计的参数，推断新的关联关系，例如，词语、文档、作者之间的相关性。为此，使用了LDA 的示例

7、，其中提供了有关当前文档中已有的话题信息参数集合以及与这些话题相关的术语参数集合。7.1 查询LDA模型中的查询是指查询与检索文档相关的操作。在话题模型中，有两种方法对结果文档实施排序：（1）通过相似度分析，（2）通过可预测似然法。两种方法都依赖于对查询文档或文档的话题估计。查询抽样。一个查询仅仅是一个简单的词向量，在给定查询的词向量和 LDA模型的情况下，通过估计话题的后验分布找到已知文档的匹配文档。考虑是一个文档，与等式 83 中的可预测似然法的正确词项相同，并与等2这就是为什么这个方法不能被应用到中，其中，而不是。名师资料总结 - - -精品资料欢迎下载 - - - - - -

8、- - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页，共 4 页 - - - - - - - - - 式 85 中的相同。为了找到一个全新文档的必要数量，我们能够使用Hofm99 或SSR+04 的方法来排他性地运行关于新文档的推理算法，与等式79 类似。首先，我们通过随机给词语分配话题来初始化算法，然后循环地进行吉布斯采样更新（针对局部词语的 i）3：其中，新变量表示词项 t 和话题 k 在未发现的文档中出现的次数。这个等式提供了一个完美的吉布斯后验采样的工作实例：在随机选取中，并不可能聚类的的和的贡献比较出现，高度估计的词语-话题关联将支配

9、多项式集。结果，经过从分布中重复进行抽样，并更新，话题 -词语关联集合传播到文档-话题关联。注意狄利克雷超参数的平滑影响。应用等式 85，得到未知文档的话题分布：这个查询过程适用于未知文档的完全集合，通过跨越的未知文档实现。相似度排序。在相似度方法中，查询文档的话题分布被估计，并且与合适的相似度衡量允许排序。当话题的分布与行的形式相同，我们能够将查询与语料库中的文档进行比较。一个简单的度量方法是Kullback-Leibler 散度 KuLe51，它由两个离散随机变量X和 Y定义，其具体表达式如下：KL 散度能够被解释为交叉熵和 X 熵之间形成的区别。例如，知识Y增加到知识X 中的信息

10、。因此，仅仅当分布X 和 Y相等时， KL散度才等于零。但是 KL 散度不是一个适合的距离度量，因为它并不对称。因此一个平滑的，对称的拓展 Jensen-Shannon 距离被逐渐采纳：其中平均值。可预测似然排序。排序的第二种方法是计算由查询生成的语料库中文档的可预测似然值4：3使用等式 84 和等式 85，等式 92 中的公式也能够与模型的参数和联系起来。另外，对等式92中的采样进行简化，可以忽略与查询话题 -词项关联关系。因此。4这里使用了贝叶斯法则和非条件文档和话题概率，并且，因为。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页，共 4 页 - - - - - - - - - 其中，是文档 m 的长度，是语料库中与话题k 相关联的词语数，它们都用于吉布斯采样。通常来说，等式98 是话题向量之间的带权重标量乘积，并对短文档和强话题进行审查。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页，共 4 页 - - - - - - - - -

展开阅读全文