《推荐系统基础知识与整体框架详细设计.docx》由会员分享,可在线阅读,更多相关《推荐系统基础知识与整体框架详细设计.docx(32页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、推荐系统的基础知识与整体框架详细设计一、推荐算法的理解2二、推荐系统的整体框架2三、用户画像33. 1用户标签33.2用户画像的分类32. 1,原始数据432.2.事实标签42. 3.模型标签5四、内容画像51内容画像54. 2环境变量6五、算法构建65. 1推荐算法流程65.2 召回策略85.3 粗排策略95.4 精排策略95,4. 1精排目标9精排模型115. 4. 3 逻辑回归最简单Model-based模型14深度学习当前最新开展方向165.5重排层策略205. 1 EE 问题201.1.1 多样性问题21上下文问题215. 6冷启动22. 1用户冷启225.6 .2内容冷启23六、当
2、前开展23七 .算法衡量标准257 . 1指标选择258 .2推荐效果26.算法之外278.1 推荐算法是否会导致信息不平等和信息茧房? 278.2 算法可能产生的蝴蝶效应278.2. 1推荐算法对feed传播的影响28推荐算法对平台的影响29对用户价值。对作者价值,包括给作者的流量、互动、收入等。.对内容生态价值,包括品牌价值、内容安全、平台收入。间接价值,非直接由视频产生,例如用户的评论提醒,会改善用户的留存率。ScoreA:互动和时长的多目标线性加权公式ScoreB:观看时长收益0r 300s)ScoreC:观看完成度收益0,1ScoreD:点物概率点物的用户效用ScoreE:关注概率关
3、注的用户效用ScoreF:提供概率(提供的用户效用或卜部效用)ScoreG:进入原声页概率(原声收藏概率收藏 的用户效用原声拍摄概率作品价值)ScoreL: Pointwise learn2Rank排序分ScoreM: Pairwise Learn2Rank排序分参考:多目标排序在快手短视频推荐中的实践.精排层多目标融合方法.改变样本权重/多模型分数融合:(1)改变样本权重:先通过权重 构造目标值,再进行模型拟合。(2)多模型分数融合:先进行模型 拟合在进行加权融合。缺点:依赖规那么设计,依赖人工调参,且经 常面临以A目标换取B目标的问题。1 . Learn to rank : pairwis
4、e listwise 直接排序。2 .结合在线数据自动调参:5%线上流量探索,每次探索N组参数,根 据用户的实时reward来优化线上的调参算法。设计约束项,在阈值内线性弱衰减,超出阈值指数强衰减。3 .多任务学习:结合深度学习网络,可以共享embedding特征,采用 多种特征组合方式,到达相互促进以及泛化的作用。例如MMOE模 型,不同的专家可以从相同的输入中提取出不同的特征,由gate attention结构,把专家提取出的特征筛选出各个task最相关的 特征,分别接入不同任务的全连接层。不同的任务需要不同的信息, 因此每个任务都由独立gate负责。Figure 1: (a) Share
5、d-Bottom model, (b) One-gate MoE model, (c) Multi-gate MoE model.精排模型精排模型开展历史2016-2018Collaborative Filtering Models/Deep Learning-basedo NeuMF Heo ONCF Heo DeepMF Xueo ACF Cheno NAIS Heo DeeplCF XueGeneric Feature-based Models200820132009Model-based (User CF)MF KorenBPR-MF RendleModel-based (Item C
6、F)o FISM KabburSLIM NingSVD+ Yehuda201620192010201619942004Memory-basedo User Similarity Thomaso Item Similarity Greg Linden o Cosine SimilarityStuarto Pearson Correlation Paul精排模型分类精抖喉型Deep Learning-basedo NFM Heo DeepCross Shano YouTube Recommender Covingtono Wide&Deep Chengo DeepFM Guoo xDeepFM L
7、iano FNN Zhango PNN Quo CrossNet WangWangFactorization Machineso FM RendlejO FFM Juan15基于内容属性的相似性推荐Mernorv-based基于用户的协同过痣Memory oasea基于用户行为的协同过滤基于物品协同过滤分类模型Model-based因子分解逻辑回归FM树模型深度学习DNNSVDSVD+SVD Feature精排模型基本原理基本原理基于内容属性的相似性推荐基于内容属性的相似性推荐根据内容的相似性,例如标题、标签、正 文相似性进行推荐基于用户的协同过滤基于用户 行为的协 同过滤基于内容的协同过滤基
8、于用户的协同过滤基于用户 行为的协 同过滤基于内容的协同过滤根据用户过去的行为判断用户之间的相似 性,推荐相似用户喜欢的内容根据用户过去的行为判断内容之间的相似 性,推荐相似的内容分类模型逻辑回归FM树模型深度学习DNN将点击率作为Y变量,预测用户对于每一 个内容0-1之间的点击率因子分解因子分解将评分矩阵分解为用户与内容矩阵,根据 相似性预测其他评分精排模型优缺点精排模型优缺点精排模型缺点基于内容属性的相似性 推荐对于新内容友好,较为公 平单纯的从内容的相似性进 行判断,会忽略用户的行 为基于用户的协 同过滤基于用户 行为的协 同过滤更适用于内容海量频繁更用户量大的时候,矩阵过 新,但用户较
9、为稳定的场于稀疏推荐结果可能会产 景(例如社交推荐的场景;生马太效应,会越推越热基于内容的协更适用于用户数量远远大 同过滤于内容的场景物品量大的时候,矩阵过于稀疏推荐结果可能会产生马太效应,会越推越热分类模型因子分解逻辑回归FM树模型深度学习DNN模型简单易用,比拟容易 控制和解释相对于逻辑回归,无需进 行特征交叉,自动产生隐 变量相对于逻辑回归,不需要 进行特征处理(归一化、 离散化)在处理大数据量,高维度 表现更好解决矩阵稀疏性问题,节 省计算资源需要手动进行特征工程交叉特征的解释性较逻辑 回归差在高维度稀疏特征的情况 下容易产生过拟合复杂,难以解释5. 4. 3 逻辑回归最简单Model
10、-based模型原理介绍1 .概念:逻辑回归通过sigmoid函数,将线性回归变为可以解决二分类 的方法,它可用于估计某种事物发生的可能性。.计算公式:Y根据目标设计:例如是否点击(是:1,否:0,最后预 测一个0-1之间的点击概率);X根据特征工程设计:这一块就涉及到了 前面提到的用户画像与内容画像,所有的画像都是对样本的特征的刻 画。特征工程需要根据业务场景选择合适的特征并进行一定的加工;w由 模型训练得到。y是否点击=sigmod(W用户X用户+ W物品X物品+ W其他X其他)构建流程基于我们的目标,需要进行样本的收集(样本是对客观世界的具体描 述),通过对已收集到的样本进行特征构造,并
11、对其进行训练,最终求出 模型参数的具体数值。1.建立样本逻辑回归为有监督模型,因此需要有已经分类好的样本。正样本: 用户曝光过某物品并点击。负样本:用户曝光过某物品并且没有点击。 如果正负样本差距过大,可以将负样本随机抽样后与正样本一起训练。 或只保存有点击行为的用户作为样本,将曝光但是没有被点击的物品作 为负样本。负样本2.特征工程特征工程是对收集到的样本进行更加深度的特征刻画。虽然作为算法 人员与用户接触较少,但对身边使用该产品的同学,进行深入的观察与访 谈,了解他们对于所推荐内容的反响,往往可以得到意料之外的特征开发 方向。主要分为以下几个维度。 基础数据 趋势数据 时间数据 交叉数据不
12、同交叉方法得到的不同的参数数量不同交叉方法得到的不同的参数数量深度学习深度学习当前最新开展方向1.深度学习基础Embedding+MLP 模型 Embedding+MLP 模型结构:微软在 2016 年提出 Deep Crossing, 用于广告推荐中。 从下到上可以分为5层,分别是Feature层、Embedding层、 Stacking 层、MLP 层和 Scoring 层。 对于类别特征,先利用Embedding层进行特征稠密化,再利用 Stacking层连接其他特征,输入MLP (多层神经元网络),最后 用Scoring层预估结果。.深度学习主要特点(1) embedding技术在召回
13、层的应用:embedding,即用一个数值向量来 表示一个对象的方法,对于处理稀疏特征有比拟重要的应用,其将稀疏高 维特征向量转换为稠密低维特征向量,可以融合大量价值信息。其主要方 法有基于文本的Word2Vec,基于物品的Item2Vec,基于图结构(社交关 系、知识图谱、行为关系等)的deep walk、Node2Vec (增加了随机过程 中跳转概率的倾向性) 等。X1X2XixvMatrix WXvectorContext matrixOutputVector of word iX Matrix W001Vec5r of word j(2)深度学习模型在排序层的应用:深度学习模型以MLP
14、为基础结构, embedding+MLP是最经典结合,google在此基础上提出的Wide&Deep在业 界得到了广泛的应用。2 .目前主要的衍化方向改变神经网络的复杂程度。改变特征交叉方式。多种模型组合应用。与其他领域的结合,例如自然语言处理,图像处理,强化领域等。3 .深度学习模型举例(1) Wide&Deep 模型2016年谷歌发表的Wide&Deep模型与YouTube深度学习推荐模型, 引领推荐算法走向了对深度学习的应用。相比传统机器学习推荐模型, 深度学习具有更加复杂的模型结构,而使其具备了理论上拟合任何函数 的能力。同时深度学习的结构灵活性可以让其模拟出用户兴趣的变迁过 程。左侧
15、传统推荐模型与右侧深度学习推荐模型比照,其模型复杂度增 加:(2) DeepFM 模型由FM与深度学习模型的结合生成的DeepFM模型:即FM替换了 Wide&Deep的Wide局部,加强了浅层网络局部特征组合的能力,右边的 局部跟Deep局部一样,利用多层神经网络进行特征的深层处理。+加法操作X内积操作Sigmoid 函数J激活函数IIFM层;稠密 Embedding 层|稀疏输入层 特征域/特征域j 特征域m(3)深度兴趣DIN模型DIN模型为阿里的电商广告推荐模型,预测其广告点击率。它主要利 用注意力机制,即通过用户历史行为序列,为每一个用户的历史购买商 品上面加入了激活单元,激活单元相
16、当于一个嵌套在其中的深度学习模 型,利用两个商品的embedding,生成了代表他们关联程度的注意力权 重。一、推荐算法的理解如果说互联网的目标就是连接一切,那么推荐系统的作用就是建立更 加有效率的连接,节约大量用户与内容和服务连接的时间和本钱。如果把 推荐系统简单拆开来看,推荐系统主要是由数据、算法、架构三个方面组 成。数据提供了信息。数据储存了信息,包括用户与内容的属性,用户 的行为偏好例如对新闻的点击、玩过的英雄、购买的物品等等。 这些数据特征非常关键,甚至可以说它们决定了一个算法的上 限。.算法提供了逻辑。数据通过不断的积累,存储了巨量的信息。在巨 大的数据量与数据维度下,人已经无法通
17、过人工策略进行分析干 预,因此需要基于一套复杂的信息处理逻辑,基于大量的数据学 习返回推荐的内容或服务。架构解放了双手。架构保证整个推荐自动化、实时性的运行。架构 包含了接收用户请求,收集、处理,存储用户数据,推荐算法计 算,返回推荐结果等。一个推荐系统的实时性要求越高、访问量 越大,那么这个推荐系统的架构会越复杂。二、推荐系统的整体框架结果回传结果回传请求发送用户与内容上报中心接入调度层日志上报分发调度结果回传推荐方法数据统计过推荐算法层ctr更新公用组件案引表用户特征存储单元mySQL报表系统召 回实时处理日志处理画像更新Redis内容索引tdw协议接入客户端消息队列请求发送排序serve
18、r落地数据ConcatEmbeddingLayer _do-oUser ProfileFeaturesOutput)SoftmoxPReLU/Dice (200)Concat & Flatten |ConcatActivation WeightInputsfrom User Inputs from Ad Activation UnitConcatm Goods 1HIOOGoods 2User BehaviorsConcotooGoods NConcatnrIIICandidateAd:Concat 一O 0-0ContextFeaturesDeep Interest NetworkX OOO
19、ProductGoods ID Shop ID Cate ID Other IDFC layer(4)深度兴趣进化网络DIEN弥补DIN没有对行为序列进行建模的缺点,通过序列层,兴趣抽取 层,兴趣进化层。其中利用序列模型利用商品ID和前一层序列模型的 embedding 向量,输出商品 embedding 与兴趣 embedding。SamplingAuxiliary Loss 0 Not ClickFeature Featureuser behavior sequencee(t+l) h(t)InterestEvolving LayerInterestExtractor LayerBehav
20、iorLayer5. 5重排层策略5.5. 1 EE 问题 MBA问题:所有的选择都要同时考虑寻找最优解以及累计收益最大的问题。解决方案:Bandit算法,衡量臂的平均收益,收益越大越容易被选择,以及臂的方差,方差越大越容易被选择。TRt = 2 (坟00 - W5(i) i1T=Tw* - 2 wB(/)i=l常用算法:汤普森采样算法,UCB算法,Epsilon贪婪算法,LinUCB 算法,与协同过滤结合的C0FIBA。多样性问题多样性问题.多样性过差:用户探索不够,兴趣过窄,系统泛化能力以及可持续 性变差;流量过于集中在少数item上,系统缺乏活力。1 .多样性过强:用户兴趣聚焦程度弱;i
21、tem流量分配平均,对优质 item激励缺乏。多样性解法:L根据内容的相关性以及相似性进行打散。2.保持 用户以及内容探索比例。3.人工规那么控制。上下文问题pointwise排序中,仅考虑item与user之间的相关性,而较少考虑 前序item对后续item的影响,主要的解决方案有两种。listwise 排序Pointwise考虑单点目标/Pairwise考虑一个pair/Listwise考虑 整个集合的指标。 Listwise对视频组合进行transformer建模,刻画视频间的相互影 响,前序视频对后续视频观看有影响,前后组合决定总收益。Candidate evaluatioir lay
22、er (评估层)强化学习考虑序列决策,从前向后依次贪心的选择动作概率最大的视频。 Reward = f(相关性,多样性,约束)。序列决黄过理5.6冷启动5. 6. 1用户冷启其主要几个方向为:加强特征与信息的补充、EE问题平衡、实时化加 强。信息补充. side information补充:例如商品类目、领域知识图谱、第二方 公司数据的补充。1 . Cross domain:利用共同的用户在不同地方的数据进行冷启。2 .用户填写兴趣。3 .元学习:利用多任务间具有泛化能力的模型,进行少样本学习(few- shot learning)。快速收敛.主动学习、在线学习、强化学习:快速收集数据,且反响
23、到特征与 模型中。1 .增强模型实时化以及收敛能力。内容冷启以短视频推荐为例,平台常常采用大小池逻辑,对内容进行不同流量的 探索,并根据实际的反响数据来决定内容可以进入的推荐范围。其中表 现优质的内容将不断的进入更大的流量池中,最终进入推荐池,形成精 品召回池。六、当前开展 因果与推荐结合推荐系统中的特征向量和用户最终的反响(比方点击、点赞等)之 间的关系是由因果关系和非因果关系共同组成。因果关系是反响物 品被用户偏好的原因,非因果关系仅反响用户和物品之间的统计相 关性,比方曝光模式、公众观念、展示位置等。而现有推荐算法缺 乏对这两种关系的区分。 AModel -Agnos ti cCausa
24、l Learning Frame work forRecommendation using Search Data。论文提出 了一个基于工具变 量的模型无关的因果学习框架IV4Rec,联合考虑了搜索场景和推 荐场景下的用户行为,利用搜索数据辅助推荐模型。即将用户的搜 索行为作为工具变量,来帮助分解原本推荐中 特征(treatments), 使用深度神经网络将别离的两个局部结合起来,来完成推荐任务。 序列/会话推荐推荐系统倾向于学习每个用户对物品的长期和静态的偏好,但一个 用户的所有的历史交互行为对他当前的偏好并非同等重要,用户的 短期偏好和跟时间相关的上下文场景所包含的信息更加实时也更 加灵敏
25、。基于会话的推荐系统从一个用户的最近产生的会话中捕获 他的短期偏好,以及利用会话和会话间的偏好变化,进行更精准和 实时推荐。 TKDE 2022 /Di sen tangled Graph Neural Ne t works forSession-based Recommendation。用户选择某个物品的意图是由该 物品的某些因素驱动的,本文的方法建模了这种细粒度的的兴趣来 生成高质量的会话嵌入。图神经网络与推荐结合大局部的信息本质上都是图结构,GNN能够自然地整合节点属性信 息和拓扑结构信息,来减少特征处理中的信息折损。 ICDE 2021 / Multi -Be ha vi or Enh
26、anced Recommenda ti on with Cross-In terac ti on Collaborati ve Relation Mode lingo 利用图 神经网络建模Mui ti-Beha vior推荐。知识图谱与推荐结合先验的知识图谱可以对推荐系统进行很好的信息补充和信息约束, 特别是在数据较为稀疏的场景下。(1)知识图谱中的结构化知识 可以在冷启动场景中提供更多的信息。(2)对于数据稀疏,方差 过大的情况下,增加有效约束。(3)先验知识纠正数据偏差。(4) 增强推荐算法可解释性。 Conditional Graph Attention Networks for Dis
27、tilling and Refining Knowledge Graphs in Recommenda tion 由于知识图谱 的泛化性和规模性,大多数知识关系对目标用户-物品预测没有帮 助。为了利用知识图谱来捕获推荐系统中特定目标的知识关系,需 要对知识图谱进行提取以保存有用信息,并对知识进行提炼以捕获 更准确的用户偏好。这篇文章提出了 Knowledge-aware Conditional Attention Networks (KGAN)网络,对于给定 target (即用户-物品对),基于知识感知的注意力自动从全局的知识图 谱中提取出特定于target的子图。通过在子图上应用条件注意力
28、 机制进行邻居聚合,以此实现对知识图谱的细化,进而获得特定 targe t的 节点表示。强化学习与传统推荐算法不同,其主要描述和解决智能体在与环境的交互过 程中通过学习策略以达成回报最大化或实现特定目标的问题。 CIKM 2021/ Supervised A dvan tage Actoi一Critic forRecommender Systemso 现有的 RL +(sei f-)supervised sequential learning方式由于缺乏负奖励信号,q值的估计往往偏向于正值。 此外,q值还严重依赖于序列的特定时间戳。本文提出负采样策略 来训练RL分量,并将其与有监督序列学习相结
29、合。多模态内容推荐短视频推荐业务中,涉及的上下文信息包含图像,语音,文本,社 交网络,知识图谱,将不同的上下文特征进行融合。 Arxiv 2021/ MuitiHead MultiModal Deep InterestRe c ommen dation Net work。在DIN模型的基础上,增加了多头多模 态模块(MultiHead MultiModal),丰富了模型可以使用的特征集, 同时增强了模型的交叉组合和拟合能力。对话系统:主要分为两种方向(1)通过NLP的方式来构建对话机器人。 (2)交互式的意图挖掘,利用用户少量交互行为,快速得到用户偏好以 完成推荐任务。七.算法衡量标准7.1
30、指标选择硬指标:对于大多数的平台而言,推荐系统最重要的作用是提升一 些“硬指标”。例如新闻推荐中的点击率,但是如果单纯以点击率 提升为目标,最后容易成为一些低俗内容,“标题党”的天下。软指标:除了 “硬指标”,推荐系统还需要很多“软指标”以及“反 向指标”来衡量除了点击等之外的价值。好的推荐系统能够扩展用 户的视野,发现那些他们感兴趣,但是不会主动获取的内容。同时推荐系统还可以帮助平台挖掘被埋没的优质长尾内容,介绍给感兴 趣的用户。推荐准确度推荐覆盖度其他指标 覆盖度 Coverage =乜喘必基尼系数基尼系数随着物品流行度分配的 不平均而增大(马太效应,热门 的物品更加热门)7.2推荐效果如
31、何去获得推荐效果。可以分为离线实验、用户调查、在线实验三种方法。 点击率PV点击率=点击次数/曝光次数UV点击率=点击人数/曝光人数点击后行为用户停留时长用户次日/3日/7日留存率用户付费户样时健用多实稳满性性性算法构建阶段离线实验算法构建阶段离线实验算法内测阶段用户反响算法上线阶段在线实验.离线效果:通过反复在数据样本进行实验来获得算法的效果。通常 这种方法比拟简单、明确。但是由于数据是离线的,基于过去的历 史数据,不能够真实的反响线上效果。同时需要通过时间窗口的滚 动来保证模型的客观性和普适性。白板测试:当在离线实验阶段得到了一个比拟不错的预测结果之后, 就需要将推荐的结果拿到更加真实的环
32、境中进行测评,如果这个时 候将算法直接上线,会面临较高的风险。因为推荐结果的好坏不能 仅仅从离线的数字指标衡量,更要关注用户体验,所以可以通过小 范围的反复白板测试,获得自己和周围的人对于推荐结果的直观反 馈,进行优化。在线测试(AB test):实践是检验真理的唯一标准,在推荐系统的 优化过程中,在线测试是最贴近现实、最重要的反响方式。通过AB 测试的方式,可以衡量算法与其他方法、算法与算法之间的效果差 异。用户八.算法之外8.1 推荐算法是否会导致信息不平等和信息茧房?推荐系统并非导致信息不平等和信息茧房的根本原因。内容的不平等或许更多的产生于用户天性本身,而推荐算法的作用 更像是帮助用户
33、“订阅” 了不同的内容。用户天然的会对信息产生 筛选,并集中在自己的兴趣领域。在过去杂志订阅的阶段,虽然每 个杂志和报纸的内容都是完全相同的,但是用户通过订阅不同的杂 志实际接受到了完全不同的消息。而今天的内容APP提供了各种话 题,各种类型的内容,但用户通过推荐算法,在无意识的情况下“订 阅” 了不同的“杂志”。.人们更加集中于垂直的喜好是不可逆转的趋势。从内容供给的角度 来讲,从内容的匮乏到繁荣,从中心化到垂直聚群,用户的选择更 贴近自己的喜好是不可逆转的趋势。在没有提供太多项选择项的时候, 人们会更多的集中在某几个内容上面,而当今天层出不穷的内容出 现,人们开始追逐更加个性化,精细化的内
34、容。但不可否认的是,推荐系统的便捷性、自动化、实时性会加重这些问题。在这样的情况下,我们能做些什么?产品价值与数据指标的平衡:推荐算法是对短期数据指标的高度拟 合,一定阶段后会发现对推荐系统的人工干扰往往会造成负向的指 标波动。但推荐算法往往只能带来短期的局部最优解。产品仍需要 从本质出发,来看待产品给用户带来的本质价值。对产品方向的判 断、以及对产品价值的坚持才是产品寻找全局最优解的方式。8.2 算法可能产生的蝴蝶效应在很多场景中,并非只有机器算法一种推荐方式。以视频号为例,除公域 机器推荐外,也存在私域(朋友圈、群聊、单聊)、半公域(朋友tab社 交推荐)等推荐方式,但推荐对整个产品体验、
35、内容生态、作者生态的影 响都是巨大的。8. 2.1推荐算法对feed传播的影响从feed传播来看,推荐算法给予其冷启流量,提升传播速率,利于其对 抗时间衰减,快速到达社交裂变拐点,进而大规模传播feed传播过程(例如)(图中曲线均为模拟,非真实曲线,仅供例如)一个feed在传播过程中,主要影响因素有:feed特性:优质度、传播性、普适性,这三点决定其传播速度、传 播稳定性以及天花板。 feed发表时间:feed与时间的“对抗性”。因为(1) feed无法重 复消费且一段时间内目标受众有限(2)由于环境背景、文化潮流、 热点等feed具有一定时效性(3)不确定性,时间越长影响其传播 的因素越多,
36、受众的注意力发生转移的可能越大。热门对头部内容的最重要影响集中在冷启期、拐点期与加速时期。在前几个小时的冷启动时期,社交推荐无法到达其裂变点,对其传播的 效果影响非常有限。feed要对抗漫长的时间影响来到达裂变点,对feed 本身质量要求非常高。而通过热门的传播可以直接给到较大的冷启量,以及更快的传播速度、在feed受时间影响衰退前迎来社交裂变拐点,社 交传播开始作为主场景进行下一轮传播。(社交推荐具有积累慢,但达 到拐点可进行网络裂变传播,速度快、衰减慢。因此头部feed在视频号 同时享受算法推荐早期爆发性强,热度积累快,又享受社交推荐,传播 范围大、热度衰减慢的双重优势。)feed传播初期
37、(例如)未经过热门经过热门推荐算法对平台的影响1 .推荐算法作为最初的内容筛选器,对视频号的内容分布以及产品 体验有较大影响推荐算法对feed的影响是巨大的,假设无法被推荐算法识别,其获得 较高热度的可能性较低,最终导致产品的流量主要集中在被推荐算法识 别并推荐的feed上。其短期内对内容生态、浏览者体验有较为重要的决 定作用;长期来看,对内容气氛、作者反响、浏览者长期留存都有较大推荐的框架主要有以下几个模块 协议调度:请求的发送和结果的回传。在请求中,用户会发送 自己的ID,地理位置等信息。结果回传中会返回推荐系统给用户 推荐的结果。 推荐算法:算法按照一定的逻辑为用户产生最终的推荐结果,
38、不同的推荐算法基于不同的逻辑与数据运算过程。 消息队列:数据的上报与处理。根据用户的ID,拉取例如用 户的性别、之前的点击、收藏等用户信息。而用户在APP中产生 的新行为,例如新的点击会储存在存储单元里面。 存储单元:不同的数据类型和用途会储存在不同的存储单元 中,例如内容标签与内容的索引存储在mysql里,实时性数据存 储在redis里,需要进行数据统计的大量离线数据存储在 hivesql 里。三、用户画像3.1 用户标签标签是我们对多维事物的降维理解,抽象出事物更具有代表性的特 点。我们永远无法完全的了解一个人,所以我们只能够通过一个一个标签 的来刻画他,所有的标签最终会构建为一个立体的画
39、像,一个详尽的用户 画像可以帮助我们更好的理解用户。3.2 用户画像的分类的影响。2.推荐算法的影响需要进行全局评估,而非局部评估每个场景具有不同的特点,可能存在某类内容(或比例)更适合推 荐场景而不适合社交场景,在到达推荐场景最优后传导进入其他场景, 导致其他场景该类内容过少或过多。例如某类内容在一定比例下,推荐 场景有收益,而社交场景收益为负。在此类情况下,当该类内容在热门 到达最优比例后传到进入社交场景,在社交场景会而产生负向影响,仅 评估推荐场景将无法衡量其对产品的整体效果。适*x内F同场景中人群留存增损过量X内F同场景中人群留存增损60%15%0%-20%0%-20%始据原数始据原数
40、数据清洗,实签飞模标建模分析型签用户数据用户行为日志内容数据静态画像 动态叵像用户游戏偏好用户内容偏好用户标签偏好用户活跃度分层用户关键词偏好外部数据3.2.1. 原始数据原始数据一共包含四个方面(以游戏内容推荐为例)。 用户数据:例如用户的性别、年龄、渠道、注册时间、手机机型等。 内容数据:例如游戏的品类,对游戏描述、评论的爬虫之后得到的 关键词、标签等。 用户与内容的交互:基于用户的行为,了解了什么样的用户喜欢什 么样的游戏品类、关键词、标签等。 外部数据:单一的产品只能描述用户的某一类喜好,外部数据标签 可以让用户更加的立体。3.2.2. 事实标签事实标签可以分为静态画像和动态画像。静态
41、画像:用户独立于产品场景之外的属性,例如用户的自然属性, 这类信息比拟稳定,具有统计性意义。动态画像:用户在场景中所产生的显示行为或隐式行为:1 .显示行为:用户明确的表达了自己的喜好,例如点赞、提供、评分、 评论(可以通过NLP来判断情感的正负向)等。2 .隐式行为:用户没有明确表达自己的喜好,但用户会用实际行动, 例如点击、停留时长等隐性的行为表达自己的喜好。隐式行为的权 重小于显性行为,但是在实际业务中,用户的显示行为都比拟稀疏, 所以需要依赖大量的隐式行为。3.2.3. 模型标签模型标签是由事实标签通过加权计算或是聚类分析所得。通过一层加 工处理后,标签所包含的信息量得到提升,在推荐过
42、程中效果更好。 聚类分析:例如按照用户的活跃度进行聚类,将用户分为高活 跃-中活跃-低活跃三类。 加权计算:根据用户的行为将用户的标签加权计算,得到每一 个标签的分数,用于之后推荐算法的计算。四、内容画像4. 1内容画像推荐内容与场景通常可以分为以下几类,根据所推荐的内容不同,其 内容画像的处理方式也不同。文章推荐:例如新闻内容推荐,需要利用NLP的技术对文 章的标题,正文等提取关键词、标签、分类等。视频推荐:除了对于分类、标题关键词的抓取外,还依赖于图片与视频处理技术,例如识别内容标签、内容相似性等。短观顷视频推荐直搐电商推荐Feeds流文章推荐推荐内容分类新闻资讯 长文章社交网络推荐广告推
43、荐游戏推荐4.2环境变量内容画像外,环境画像也非常重要。例如在短视频的推荐场景中,用 户在看到一条视频所处的时间、地点以及当时所浏览的前后内容、当天已 浏览时间等也是非常重要的信息,但由于环境变量数据量较大、类型较 多,对推荐架构以及工程实现能力的要求也较高。五、算法构建5.1 推荐算法流程推荐算法其实本质上是一种信息处理逻辑,当获取了用户与内容的信 息之后,按照一定的逻辑处理信息后,产生推荐结果。热度排行榜就是最 简单的一种推荐方法,它依赖的逻辑就是当一个内容被大多数用户喜欢, 那大概率其他用户也会喜欢。但是基于粗放的推荐往往会不够精确,想要 挖掘用户个性化的,小众化的兴趣,需要制定复杂的规
44、那么运算逻辑,由机 器完成。推荐算法主要分为以下几步: 召回:当用户以及内容量比拟大的时候,往往先通过召回策略,将 百万量级的内容先缩小到百量级。 过滤:对于内容不可重复消费的领域,例如实时性比拟强的新闻等, 在用户已经曝光和点击后不会再推送到用户面前。 精排:对于召回并过滤后的内容进行排序,将百量级的内容按照顺 序推送。 混排:为防止内容越推越窄,将精排后的推荐结果进行一定修改, 例如控制某一类型的频次,EE问题处理等。 强规那么:根据业务规那么进行修改,例如在活动时将某些文章置顶以 及热点内容的强插等。内容集合强规那么5. 2召回策略召回层目的:当用户与内容的量级比拟大,例如对百万量级的用
45、户 与内容计算概率,就会产生百万*百万量级的计算量。但同时,大 量内容中真正的精品只是少数,对所有内容进行计算将非常的低效, 浪费大量的资源和时间。因此采用召回策略,例如热销召回,召回 一段时间内最热门的100个内容,只需进行一次计算动作,就可以 对所有用户应用。 召回层重要性:召回模型是一个推荐系统的天花板,决定了后续可 排序的空间。 召回层方法:召回对算法的精度、范围、性能都有较高要求。当前 业界常采用离线训练+打分或离线训练到达向量表达+向量检索的 方式。(比照精排为了提高准确率,更多用离线+实时打分,或在 线学习的方式)。召回方法主要特点优势局限性单策略召回利用标签、时效等单一策略召回 热销召回】将一段时间内的热门内容召 回. 协同召回:基于用户与用户行为的相似 性推荐,可以很好的突破一定的限制,发现 用户潜在的兴趣偏好. 标签召回,根据每个用户的行为,构建 标签,并根据标签召回内容. 时间召回:将一段时间内最新的内容召 回,在新闻视频等有时效性的领域常用 其他策略例如利用美系链、或对某类 用户实现某类具体的策略.速度快,实现简单单一策略漏召问题较大多路召回融合多个单一策略方法相互补充,可以覆盖不同的召回需求大量人工调参来决定每一路规 模,召回通路之间可比拟性、 可解释性较弱