《深度学习之word2vecP.ppt》由会员分享,可在线阅读,更多相关《深度学习之word2vecP.ppt(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、深度学习之word2vec学习、分享与交流报告人:黄宇鹏目录基本概念模型与方法实战与应用词向量自然语言中的词语在机器学习中表示符号One-hot Representation例如:“话筒”表示为 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0.“麦克”表示为 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0.实现时就可以用0,1,2,3,.来表示词语进行计算,这样“话筒”就为3,“麦克”为8.存在两个问题维度比较大,尤其是用于 Deep Learning 的一些算法时词汇鸿沟:任意两个词之间都是孤立的,不能体现词和词之间的关系词向量Distributional R
2、epresentation词表示为:0.792,0.177,0.107,0.109,0.542,.,常见维度50或者100解决“词汇鸿沟”问题可以通过计算向量之间的距离(欧式距离、余弦距离等)来体现词与词的相似性如何训练这样的词向量没有直接的模型可训练得到可通过训练语言模型的同时,得到词向量语言模型判断一句话是不是正常人说出来的,用数学符号描述为给定一个字符串w1,w2,.,wt,计算它是自然语言的概率 ,一个很简单的推论是例如,有个句子大家,喜欢,吃,苹果P(大家,喜欢,吃,苹果)=p(大家)p(喜欢|大家)p(吃|大家,喜欢)p(苹果|大家,喜欢,吃)简单表示为计算 问题语言模型现有模型N
3、-gram模型N-pos模型.Bengio的NNLMC&W 的 SENNAM&H 的 HLBLMikolov 的 RNNLMHuang 的语义强化.word2vec原理两种模型,两种方法模型模型CBOWSkip-Gram方法Hierarchical SoftmaxNegative SamplingHierarchical SoftmaxNegative SamplingCBOW模型+Hierarchical Softmax方法CBOW模型INPUT:输入层PROJECTION:投影层OUTPUT:输出层w(t):当前词语(向量)w(t-2),w(t-1),w(t+1),w(t+2):当前词语的
4、上下文SUM:上下文的累加和CBOW模型+Hierarchical Softmax方法(续)CBOW模型+Hierarchical Softmax方法(续)为什么建哈夫曼树?非叶子结点为LR分类器叶子结点对应词典中的一个词目标:CBOW模型+Hierarchical Softmax方法(续)句子:我,喜欢,观看,巴西,足球,世界杯w=足球CBOW模型+Hierarchical Softmax方法(续)正类概率:负类概率:足球 叶子节点经过4次二分类,每次分类结果对应的概率为由Context(足球)预测足球出现的概率CBOW模型+Hierarchical Softmax方法(续)对于词典中的每个
5、词w有,结点个数其中,或者表示为对于由S个句子组成的语料库C有取对数似然函数参数1参数2CBOW模型+Hierarchical Softmax方法(续)梯度下降法进行求解令f(w,j)关于 和 的梯度分别为更新公式word2vec实战(一)训练数据集:经过分词后的新闻数据,大小184MB查看中国,钓鱼岛,旅游,苹果几个词语的相似词语如下所示word2vec实战(一)向量加减法中国+北京-日本,中国+北京-法国,家庭+孩子-学校word2vec应用(一)机器翻译语言词语的关系集合被表征为向量集合向量空间内,不同语言享有许多共性实现一个向量空间到另一个向量空间的映射和转换图为英语和西班语的五个词在
6、向量空间中的位置(已经过降维)对英语和西班语之间的翻译准确率高达90%word2vec应用(三)给广告主推荐用户T媒体网站用户浏览网页的记录pageH是匹克体育用品公司在T上的官网page2,page3,page5和pageH是比较相似的页面可给匹克体育用品公司推荐经常浏览page2,3,5这个几个页面的用户进行广告投放word2vec应用(三)相似的页面计算过程word2vec应用(三)续对ctr预估模型的帮助新广告上线存在冷启动问题通过比较相似的广告的点击率来预估这个广告的点击率由上个例子可得到每个页面的向量,然后通过Kmeans进行聚类,得到比较相似页面的簇?向页面向量添加其它的特征,例
7、如广告主所属的行业和地域等假设页面p1的向量是(0.3,-0.5,0.1),加入行业和地域信息后为(0.3,-0.5,0.1,1,0),1和0分别表示行业和地域的特征值这样得到的聚类效果相对更好参考文献1 http:/ 深度学习word2vec笔记之算法篇 2 http:/ word2vec 中的数学原理详解(四)基于 Hierarchical Softmax 的模型 3 http:/ 杨超在知乎上的问答Word2Vec的一些理解4 http:/ hisen博客的博文5 http:/ 深度学习word2vec笔记之应用篇 6 http:/ Deep Learning实战之word2vec,网易
8、有道的pdf7 http:/ word2vec源码解析之word2vec.c 8 Hierarchical probabilistic neural network language model.Frederic Morin and Yoshua Bengio.9 Distributed Representations of Words and Phrases and their Compositionality T.Mikolov,I.Sutskever,K.Chen,G.Corrado,and J.Dean.10 A neural probabilistic language model
9、Y.Bengio,R.Ducharme,P.Vincent.11 Linguistic Regularities in Continuous Space Word Representations.Tomas Mikolov,Wen-tau Yih,Geoffrey Zweig.12 Efficient Estimation of Word Representations in Vector Space.Tomas Mikolov,Kai Chen,Greg Corrado,Jeffrey Dean.13http:/ Deep Learning in NLP(一)词向量和语言模型thank you!Q&A