《CBOW词向量模型.ppt》由会员分享,可在线阅读,更多相关《CBOW词向量模型.ppt(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、CBOW模型简介及若干源码细节目录神经网络语言模型CBOW模型简介若干源码细节神经网络语言模型神经网络语言模型即是用神经网络模型训练词向量,使生成的词向量能够捕获语义信息,如语义相近的词它们的词向量也相似。一种比较常见的模型,其输入是某个词的上下文,输出为这个词的概率,通过使这个概率最大进行参数的更新,其中参数包括词向量。如Bengio提出的模型。Bengio提到的未来工作他提出可以将条件概率用树结构进行表示,其中树的每个节点表示在当前上下文下对词进行一次分类的概率,叶子节点表示词在上下文下的条件概率。CBOW模型输入层输入层:包括当前词t前面的c个词以及当前词后的c个词映射层映射层:将输入层
2、的若干词向量相加输出层输出层:输出层是一个树结构,以语料库中出现的词作叶子节点输出层赫夫曼编码赫夫曼编码:左边记为1,右边记为0分类分类:分到左边为负类,右边为正类被分为正类的概率用下式表示对于“足球”这个叶子节点来说,经历了4次二分类赫夫曼编码为1001对于词典中的任意词w,赫夫曼树中必定存在一条从根节点到其对应的叶子节点的一条路径,每个节点都有两个分支,可以看成是一个二分类问题,将每一次分类所产生的概率相乘,得到了最终的词w在上下文中的概率。因此,条件概率p(w|Context(w)的一般公式为其中即得到的对数似然函数如下用随机梯度下降法可以得到CBOW模型更新参数的伪代码若干源码细节词典的存储由于需要根据词的内容确定其对应的赫夫曼编码和获得该词的词频,因此会有在词典中查找某个词的操作。为了节省查找时间,将词典用哈希表进行存储。低频词和高频词对于低频词就是将词频小于某个值的词去掉,不参加训练。对于高频词,以一定的概率确定其是否参与某一次训练。概率的确定如下其中自适应学习率学习率的计算公式如下其中word_count_actual表示当前已训练的词数,train_words表示总词数。学习率也不能过小,在小于某个值时就不再变化。参数初始化