《word2vec词向量模型教学教材.ppt》由会员分享,可在线阅读,更多相关《word2vec词向量模型教学教材.ppt(19页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、word2vec词向量模型前言计算机人类VS语言模型判断一句话是不是正常人说出来的给定一个字符串”w1,w2,w3,w4,wt”,计算它是自然语言的概率、P(w1,w2,wt)=P(w1)P(w2|w1)P(w3|w1,w2)P(wt|w1,w2,wt1)P(大家,喜欢,吃,苹果)=p(大家)p(喜欢|大家)p(吃|大家,喜欢)p(苹果|大家,喜欢,吃)p(大家)表示“大家”这个词在语料库里面出现的概率;p(喜欢|大家)表示“喜欢”这个词出现在“大家”后面的概率;p(吃|大家,喜欢)表示“吃”这个词出现在“大家喜欢”后面的概率;p(苹果|大家,喜欢,吃)表示“苹果”这个词出现在“大家喜欢吃”后
2、面的概率。把这些概率连乘起来,得到的就是这句话平时出现的概率。如果这个概率特别低,说明这句话不常出现,那么就不算是一句自然语言,因为在语料库里面很少出现。如果出现的概率高,就说明是一句自然语言。常用的语言模型都是在近似地求P(wt|w1,w2,wt1)。比如n-gram模型就是用P(wt|wtn+1,wt1)近似表示前者。N-pos先对词进行了词性分类123 模型与方法基本概念实际应用目录Word2VecGoogle的Mikolov在2013年推出了一款计算词向量的工具word2vec作为神经概率语言模型的输入,其本身其实是神经概率模型的副产品,是为了通过神经网络学习某个语言模型而产生的中间结
3、果。具体来说,“某个语言模型”指的是“CBOW”和“Skip-Gram”。具体学习过程会用到两个降低复杂度的近似方法HierarchicalSoftmax或NegativeSampling。CBOW:ContinuousBag-of-WordsSkip-Gram:ContinuousSkip-GramModelHierarchicalSoftmaxNegativeSampling两个语言模型两种优化方法CBOW and Skip-Gram初始化值是零向量,叶节点对应的单词的词向量是随机初始化的。CBOW的目标是根据上下文来预测当前词语的概率Skip-Gram恰好相反,它是根据当前词语来预测上下
4、文的概率。这两种方法都利用人工神经网络作为它们的分类算法。起初,每个单词都是一个随机N维向量,经过训练之后,利用CBOW或者Skip-Gram方法获得每个单词的最优向量。CBOW模型结构输入层是上下文的词语的词向量,是CBOW模型的一个参数。训练开始的时候,词向量是个随机值,随着训练的进行不断被更新。当模型训练完成之后可以获得较为准确的词向量。SoftmaxO(|V|)时间复杂度:O(log2(|V|)CBOW模型结构霍夫曼树在训练阶段,当给定一个上下文,要预测词(Wn)的时候,实际上知道要的是哪个词(Wn),而Wn是肯定存在于二叉树的叶子节点的,因此它必然有一个二进制编号,如“010011”
5、,那么接下来我们就从二叉树的根节点一个个地去遍历,而这里的目标就是预测这个词的二进制编号的每一位.即对于给定的上下文,我们的目标是使得预测词的二进制编码概率最大。形象地说,我们希望在根节点,词向量和与根节点相连经过logistic计算得到的概率尽量接近0(即预测目标是bit=1);在第二层,希望其bit是1,即概率尽量接近1这么一直下去,我们把一路上计算得到的概率相乘,即得到目标词Wn在当前网络下的概率(P(Wn),那么对于当前这个sample的残差就是1-P(Wn)。于是就可以SGD优化各种权值了。Skip-Gram模型结构cd 吃ba小明喜欢吃甜甜的苹果123 实际应用基本概念模型与方法目
6、录词相似度训练数据集:经过分词后的新闻数据,大小184MB查看中国,钓鱼岛,旅游,苹果几个词语的相似词语如下所示向量加减法向量加减法中国+北京-日本,中国+北京-法国机器翻译机器翻译语言词语的关系集合被表征为向量集合向量空间内,不同语言享有许多共性实现一个向量空间到另一个向量空间的映射和转换图为英语和西班语的五个词在向量空间中的位置(已经过降维)对英语和西班语之间的翻译准确率高达90%推荐应用 Item2Vec论文:Item2vec:NeuralItemEmbeddingforCollaborativeFiltering应用到推荐场景的i2i相似度计算中,但实际效果看还有有提升的。主要做法是把item视为word,用户的行为序列视为一个集合,item间的共现为正样本,并按照item的频率分布进行负样本采样谢谢观看