《机器学习在搜索排序中的应用.pptx》由会员分享,可在线阅读,更多相关《机器学习在搜索排序中的应用.pptx(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、机器学习在搜索排序中的应用一淘及搜索事业部-搜索技术 仁重agenda背景LTR方法评估并行化与多目标LTR在淘宝搜索应用的背景在淘宝搜索应用的背景第一部分 背景背景用户输入Query引擎召回商品商品计算featureRank项目背景-特征相关性购买转化率(GDBT)点击转化率(LR)二跳率(LR)反作弊商业业务逻辑预估模型规则个性化(LR、GDBT)图片质量(SVM)通过线性模型来组合非线性的特征计算效率高可解释性好背景问题如何确定各个特征的权重W能否不同的类目给出不同的权重W如何为新加入的特征设置权重W如何在不同的系统中快速的迁移特征之前用ABTest,现在使用LTRLearning To
2、 Rank,使用机器学习的方法来进行排序优化。LTR应用的方法应用的方法第三部分 方法转化为pairwise问题把整体的排序问题转换为商品对好坏问题两个商品哪个更好CtrCvr价格优化目标与样本样本选择人工标注(工作量巨大)商品Ctr商品转化率详情页浏览时间论文中使用的样本选择样本选择单次pv点击位置Click Skip AboveLast Click Skip AboveClick Earlier ClickLast Click Skip PreviousClick No-Click NextfA fB fC fD fEf A=w*xAf B=w*xBf C=w*xCf D=w*xDf E=
3、w*xE整体统计ctr样本选择A Ctr:1C Ctr:0.1B Ctr:0.5D Ctr:0.1E Ctr:0.6A E B C=DA EA BA CA DE BE CE DB CB D相同Query统计商品ctr来生成pairctr差值需要有一定置信度没有位置信息相同queryctr单次PV样本选择B整体Ctr:0.5A整体Ctr:1C整体Ctr:0.1D整体Ctr:0.1E整体Ctr:0.6A EA BA CA DE BE CE DB CB D计算特征值需要还原到单次PV下具体的用户以及当前环境通过规则过滤掉其中的噪音购买点击无行为B产生了购买行为,D产生了点击行为优化目标与样本避免样本
4、选取的偏差Pvlog特征分布(人气,卖家,文本)100亿数据训练样本分布(人气,卖家,文本)千万训练样本样本特征分析特征分布不好的特征进行改进对分布不合理的特征样本进行按比例抽样样本特征分析特征与目标值的关系相关性差相关性好无点击样本选择保持权重的一定程度稳定性无点击数据在现有排序下对Topquery没有点击的数据,前30与后30形成pair,随机抽取按不同比例混合无点击与Ctr样本约50%的无点击样本无点击样本训练后的权重反映线上使用权重w模型优化调整无点击与有点击比例调整抽样策略对特征值进行改进分类目的模型Query类目预测结果的行业区分训练数据手机类目的价格权重高于其他类目RankSVM
5、模型(一)RankSVM模型(二)RankSVM模型RankSVM模型RankSVM模型模型评估与效果评估模型评估与效果评估第三部分【评估】模型评估baseline按线上参数计算pair准确率按模型参数计算pair准确率Abtest验证收益评估模型迭代Pv log按按线上参数排序上参数排序按按训练好的模型好的模型进行排序行排序CNDCGCNDCGNDCG收收益益样本混合比例本混合比例调整整模型模型训练样本本选择策策略略调整整NDCG差差异异query分分析析抽抽样策略策略调整整并行化与多目标并行化与多目标第四部分 模型优化并行化(一)需要解决的问题内存问题训练时间过长两种基于MPI的方法行列分割的并行SVM行分割的并行Coordinate Ascent算法,用于求解NDCG为目标值的样本并行化(二)多目标(二)需要解决的问题现实应用中,需要同时解两个目标问题例如:CTR、客单价方法Multi-loss Pair-wise Learning再ctr样本的基础上,再加上价格的label基于目标函数中,loss函数进行改造,使其兼容多种目标。多目标(二)Q&ANever try,never know曾翔-仁重