《大数据内容营销解决方案.pptx》由会员分享,可在线阅读,更多相关《大数据内容营销解决方案.pptx(30页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1大数据内容营销解决方案 杭州研发中心 2017年2月2建设背景方案背景/需求分析13背景:咪咕“双计双考”对省公司来说既是机遇又是挑战业务层面支撑层面1、双记双考后,省公司如何完成KPI2、如何有效通过咪咕内容营销带动省内流量营销、提升收入3、如何通过咪咕内容营销提升用户活跃度4、如何锁定咪咕内容的目标用户,实现精准投放1、短信通道受阻后,省内所有触点能否为咪咕内容营销提供协同2、省内咪咕内容的营销活动能否做到有效监控3、咪咕下发的内容标签无法关联省内用户标签4、缺乏模型算法寻找咪咕内容的目标用户 目前,省内咪咕内容营销已经成为省公司提升流量和用户活跃度的重要手段,集团下发“双计双考”后对省
2、公司既是挑战又是机遇。4n省公司可通过整合咪咕的营销资源,业务资源及数据(标签)资源实现内容营销获客及精准营销n咪咕公司由于缺乏用户基础信息数据与行业画像数据,在营销方案制定与获客等场景中受限,因此有强烈的与省公司合作的意愿业务融合营销资源融合数据标签融合省公司营销资源 -营销渠道 -流量 -客户等资源咪咕营销资源 -CP -渠道商 -发行商等资源资源融合 省公司和咪咕公司的客户和渠道资源不尽相同,省公司可以整合咪咕公司的客户渠道等资源,扩展现有营销目标客户以及营销渠道,提升内容及流量营销用户量及收入省公司业务-4G流量 -家庭宽带 -融合业务等咪咕公司业务 -五大业务产品 -内容资源业务融合
3、4G流量以及家庭宽带是省公司目前关注的重点业务,省公司可以通过整合咪咕丰富的内容服务不断提升用户体验,提高家庭宽带等重点业务的市场占有率省公司数据 -用户属性/通信数据 -位置数据/网络行为数据等咪咕公司数据-用户内容偏好数据 -用户活跃、留存数据等数据标签融合由于省公司用户标签与咪咕内容标签未融合,现仅采取粗放式全量用户进行营销推送,营销方式和效果均不理想。省公司可通过整合咪咕数据标签实现精准推送提升营销效果。省公司关注点(1/2)内容营销5省公司关注点(2/2)标签(数据)需求目前,咪咕公司部分自有数据与省公司DPI数据没有契机充分结合,没有利用现有数据充分展现出数据优势与市场竞争力。咪咕
4、用户行为、渠道、资源省公司DPI、位置、渠道触点咪咕阅读用户标签APP内用户行为咪咕用户标签DPI内容标签、基础标签、位置营销推荐效果分析活跃、留存、付费、推广渠道营销推荐过程目标用户群、到达率、渠道触点、营销成本完整的咪咕用户标签营销推荐闭环分析获客和维挽版权、内容资源,免流量产品获客和维挽广告位、渠道、结合套餐资源互补6经调研,省内咪咕营销现状/业务痛点1.PV2.UV3.用户数4.各渠道分别上线效果评估其他渠道微厅短厅掌厅营销平台省内电子渠道/外部渠道内容调整 内容库咪咕内容负责人省内咪咕营销运营人员1234咪咕 阅读 咪咕音乐咪咕 动漫 咪咕视频咪咕搜集整理 人工维护邮件传递二次编辑爬
5、虫内容2业务目标业务痛点13省内咪咕营销现状咪咕内容缺乏,需邮件传递,获取效率低咪咕内容标签缺失,且无法与省公司标签库匹配缺少模型算法寻找目标用户群,个性化推荐程度低4很多内容需二次编辑才能在各渠道上线56缺乏模型算法智能筛选热门内容,仅凭运营经验省内内容库需要人工整理维护,更新不及时智能获取合适的推广内容(如热门内容)列表(名称、URL地址等信息),同时找到与该内容匹配的目标用户群,可直接用于营销平台进行投放能够获取指定用户群(如月末流量剩余用户)感兴趣的内容列表,可直接用于投放 72省内咪咕内容营销解决方案8杭硏提供省内咪咕内容营销解决方案省内咪咕内容营销解决方案营销案管理统一用户标签营销
6、投放触点管理提供丰富的内容标签与内容库,通过模型算法为省公司用户标签与咪咕内容标签搭建匹配桥梁,助省公司实现咪咕内容的精准投放,提高用户粘性。统一接入省公司所有触点,支撑营销案的线上流转,构建咪咕公司与省公司运营人员可协同合作的线上平台,缩短投放时间与内容更新周期。省公司运营人员咪咕运营人员新建投放任务上传投放物料圈选目标用户体验与合规性审核营销投放选择投放触点音乐库视频库小说库动漫库其他库新闻库内容库营销案投放过程省公司用户标签系统咪咕内容标签系统用户上网行为内容标签统一用户ID标签扩充用户内容标签咪咕内容标签用户-咪咕内容匹配推荐模型模型用户-咪咕内容匹配模型触点用户行为数据标签计算系统更
7、新用户标签效果分析用户行为数据方案优化手厅首页应用推荐广告位手厅发现娱乐咪咕阅读广告位9杭研为省内提供咪咕内容营销解决方案1.积累内容库基于互联网数据,通过爬虫和统一标签技术,积累内容库(音乐/视频/阅读/阅读/游戏)通过解析全网DPI数据,对用户浏览的咪咕内容进行分类,生成内容分类体系,定期更新2.沉淀用户内容偏好标签基于全网DPI数据和内容库,通过DPI二次解析技术,形成用户行为宽表基于用户行为宽表,定期沉淀用户内容偏好标签3.关联内容与目标用户,助力精准营销基于模型算法将咪咕内容找到目标用户群为特定用户群匹配感兴趣内容 咪咕+杭研省公司输出结果图例杭研+咪咕互联网数据省公司标签库内容库(
8、音乐、视频、阅读、动漫、游戏)省公司DPI数据用户内容访问宽表用户/内容标签推荐算法2省公司营销平台爬虫、统一标签定期沉淀更新内容库监控分析验证模型训练模型内容排行表推荐算法1省公司标签咪咕内容+目标用户列表特定用户群+推荐咪咕内容列表咪咕内容列表咪咕音乐竞品方案用户内容偏好模型10为省内构建完善的内容库杭研爬虫工程内容库(定期更新)文件导出工程(加密)文件解析工程(解密)省公司DPI日志解析算法组件内容数据传送u杭研1、爬虫工程:负责爬取网络音乐、阅读等数据,持续更新。2、内容库:将互联网内容分类映射到杭研内容分类体系,形成杭研数字内容库。3、文件导出工程:对内容库数据进行处理,形成加密文件
9、,上传至FTP服务器。u省公司1、文件解析工程:定期检查FTP服务器更新,拉取内容库数据并解密。2、省公司内容库:定时运行,同步杭研最新内容库到省公司。3、离线计算工程:对接省公司大数据平台,通过使用杭研定制的算法组件,解析DPI日志数据,形成用户行为宽表。爱奇艺分类搜狐视频分类腾讯视频分类站点分类体系杭研分类映射表统一分类体系杭研内容分类体系构建省公司内容库视频库游戏库动漫库音乐库阅读库省内内容库的构建11爬虫内容库远程部署方案注:1.一期优先部署动漫库、阅读库和视频库 后期部署其余类别2.一期爬虫覆盖绿色部分,后期爬虫覆盖剩余部分,可动态调整内容库更新频率:暂定每天早上8点之前传输成功爬虫
10、范围12内容库分类样例:百度书城爬虫内容详情样例:爬虫内容库内容示例自定义分类体系标准示例:注:杭研对咪咕内容五大类的分级体系重新梳理13构建标签体系,沉淀用户标签n标签沉淀工程是通过解析用户DPI行为数据关联内容库信息、获取用户浏览偏好,沉淀为用户标签。u标签体系的构建1、内容ID匹配:解析用户DPI数据中每条URL,将其中的“ID字符”与湖北内容库中的“ID字符”进行匹配2、沉淀内容标签:根据爬取的网页信息,找到该内容对应的细分类别,沉淀为内容标签,例如“轻音乐-邓丽君甜蜜蜜”。3、沉淀用户标签:定期统计用户访问所有内容的频次,将频次较高的内容对应的标签沉淀为用户标签。4、定期更新:将所有
11、用户标签入库、用户标签定期更新(如每周、每月等)。标签计算标签沉淀工程内容id匹配用户URL内容标签湖北内容库数据积累DPI解析结果用户行为分析生成用户标签2G/3G/4G数据14打通内容标签与用户标签,提供基于个性化推荐的内容目录打通内容标签与用户标签,提供基于个性化推荐的内容目录音乐库爬虫程序静态网页抓取DPI二次解析用户上网数据解析用户上网数据解析基于内容的推荐模型基于用户的推荐模型内容热度rank模型LFM推荐模型用户兴趣协同过滤结合模型内容标签体系内容库模型热门内容(如视频)推荐列表 血战钢锯岭(ID:10495958):1382392474、13823321349、13823978
12、789用户-内容(如阅读)推荐列表13823924740:天涯明月刀(ID:13666465),落日风雷(ID:19384898),英雄志(ID:98742298)内容(如音乐)-用户推荐列表黑色柳丁(ID:12774498):1382392474,13823321349,13823978789用户标签体系基于内容的推荐模型:1,根据内容标签计算内容-内容相似度2,提取目标内容A相关性较高top N的内容3,将近期浏览过相关性较高的top N内容且未浏览过目标内容A的用户加入目标内容A的推荐列表基于用户的推荐模型:1,根据用户标签计算用户-用户相似度2,提取目标用户A相似度较高top N的用户
13、3,将相似度较高top N用户近期浏览频率较高且目标用户A未浏览过的内容加入目标用户A的推荐列表LFM推荐模型:1,根据已有用户、内容的标签,构造用户-内容相关度矩阵,进行LMF矩阵分解,且迭代更新矩阵2,根据用户-内容相关度矩阵,提取用户未看过且相关度较高的内容列表内容热度rank模型:1,根据内容类型,人工选择内容热点top N网站作为目标网站。2,DPI解析目标网站的用户浏览行为,统计热度排序top K 内容用户兴趣协同过滤结合模型:1,用户的搜索和点击行为,构建贝叶斯框架,预测用户对内容的兴趣2,对用户聚类,根据兴趣相似用户浏览行为为用户推荐内容基于标签的推荐模型视频库阅读库动漫库省公
14、司标签体系手机号imei用户标签推荐内容列表内容名称内容地址内容ID目标用户(手机号码)内容名称内容地址内容ID目标用户(手机号码)15业务系统层数据层基础能力层内容列表上传Web展示结果文件前20展示同步至省内营销平台文件导出Txt、excel、csv内容-目标用户匹配列表热门咪咕内容推荐内容匹配用户用户群列表上传特定用户-兴趣内容匹配列表标签圈选用户群用户匹配内容匹配计算结果展示基础数据互联网数据位置数据DPI数据标签数据湖北大数据平台数据杭研内容库内容库标签更新能力定期更新、随时更新用户标签与内容标签互补更新用户标签沉淀能力基础标签业务标签挖掘标签内容标签沉淀能力基础标签挖掘标签网络爬虫
15、能力DPI二次解析能力终端数据采集能力数据分析能力自定义分类体系梳理用户&内容匹配模型基于用户的推荐模型基于内容的推荐模型协同过滤推荐算法咪咕内容营销产品视图咪咕+内容16业务系统接口推荐系统用户画像MIGU内容库索引系统内容标签分类建模省公司大数据爬虫库(内容/APP)DPI二次解析器基础数据处理引擎用户偏好挖掘模型/算法MIGU内容标签库杭研爬虫基础数据统一存储层可视化子系统MIGU内容列表业务层画像层数据层模型层咪咕内容营销系统架构17解决方案应用场景318省内营销人员热门内容特定用户群选择要投放的咪咕内容,可输出目标用户群用户数及明细定时或动态时段输出互联网或咪咕热门内容1.1 提供上
16、传内容列表的入口1.2内容列表上传2特定用户+推荐咪咕内容列表指定用户群预置标签规则或上传用户群感兴趣咪咕内容模型算法匹配输出用户群感兴趣的咪咕内容列表2输入特定用户群:预置标签规则或上传用户群1或咪咕/门户热门内容 指定领域互联网APP爬虫互联网热门内容内容匹配预置规则如:TOP5 APP内容+目标用户群模型算法对接省内营销平台或以“文件”文件形式导出3使用方式使用方式营销平台投放对接对接省内营销平台或以“文件”文件形式导出3投放投放省内营销人员使用场景说明注:以上使用方式仅供参考,具体实现方式待定19场景1:月初向全网用户推荐热门内容内容热度rank模型内容标签信息热门内容(如视频)排序列
17、表 血战钢锯岭(ID:10495958)摆渡人(ID:5837436465)长城(ID:3278574579)罗曼蒂克消亡史(ID:3478357549)用户标签信息用户DPI上网行为数据热门内容(如视频)推荐列表 血战钢锯岭(ID:10495958):1382392474,13823321349,13823978789摆渡人(ID:5837436465):18932467263,13777592736,18870003727长城(ID:3278574579):13870008398,15273366099罗曼蒂克消亡史(ID:3478357549):18932467263,188700037
18、27内容-用户推荐模型全网用户流量充裕,可将热门内容推荐给有兴趣的用户,以拉升全网用户流量消耗解决方案全网用户对内容进行热度排序,按照内容类别分别提取热门top N内容,如top 10热门视频、top 20热门音乐、top 5热门小说,面向全网用户进行个性化推荐省内营销人员全网用户通过营销 平台推送20场景2:月末特定用户群体内容推荐热门内容感兴趣内容内容列表月末流量剩余较多用户月末流量不足用户促进流量消耗目标特定人群1为该人群推荐感兴趣内容或热门内容解决方案省内营销人员促活+流量包订购目标为该人群推荐感兴趣内容及定向优惠流量包解决方案定向优惠流量包感兴趣内容内容列表特定人群2通过营销平台推送
19、21杭研现有能力积累422p大数据用户行为分析原理垃圾数据过滤无效链接过滤重复数据过滤过滤数据对数据进行预处理数字内容识别搜索行为识别应用使用行为识别终端使用行为识别位置识别识别行为对数据进行识别分析内容库新闻库关键词库APP库终端库沉淀标签对数据字典进行收集沉淀能力1:大数据用户行为分析23p通过解析DPI数据,解析用户的行为信息,最终对用户的行为和互联网访问内容做关联,达到对用户做精确定位的效果。101爬虫网站18T日数据处理102APP(DPI解析)12类维度标签85%识别精准度爬虫数据积累精准营销模型用户行为识别模型文本分析模型用户价值刻画模型应用模型能力模型基础层模型挖掘层模型模型能
20、力积累爬虫模块统一规则库动作深度识别:针对互联网主流重点应用业务,具有识别具体动作深度识别DPI核心规则库;流量业务识别:识别对现网数据流量实现业务名称与流量属性;建立DPI二次解析管理系统:扩展识别规则字段,使其能满足深度识别互联网主流重点应用业务;通用性语言描述:对业务识别规则,制定通用性描述语言,使其具备快速推广能力。内容识别率 =识别内容匹配为内容=15%匹配率=85%以上匹配(内容+新闻)有效DPI标签&用户画像解析率 HTTP协议:90%+解析率 全量DPI:80%+移动APP现有的移动互联网行为数据位置搜索浏览作息规律注重品质生活健康小资能力2:DPI二次解析及应用24金融风控模
21、型43个、位置模型39个,欺诈防控13个,客户体感27个,DPI二次解析21个143个模型个人信用模型客流监控类模型精准营销模型用户行为识别模型基站识别模型文本分析模型DPI二次解析用户价值刻画模型应用模型能力模型基础层模型挖掘层模型模型积累技术能力数据积累1200w/m高峰时期数据处理18T日数据处理85%识别精准度157子景区监控全流程运维监控1400wURL库500w新闻库3400w内容库7大自定义分类标签体系60w+软件APP信息库p在深入了解行业的基础上,建立行业特色的模型,优化应用平台架构,提升性能和稳定性,建立核心竞争优势。能力3:模型能力、技术能力和数据沉淀25能力4:营销平台
22、模型架构标签管理增值业务偏好标签应用功能数字内容偏好标签关系管理数据汇总数据采集主动推送实时推广用户筛选基于人物的物品关联基于标签的物品关联用户用户关联物品物品关联人物关联标签关联用户物品关联使用习惯标签管理内容偏好标签管理静态属性标签管理描述性标签管理统计性标签管理用户基础画像业务行为日志采集用户业务画像互联网数据采集用户数据月汇总模型数字内容信息采集数字内容产品画像用户通信属性数据热门推荐26离线计算数据源实时计算数据源用户基本信息话单数据月账单数据位置数据上网数据(实时)上网数据(历史)互联网数据源音乐阅读新闻动漫APP大数据平台MapReduce数据过滤KafkaJStormHbase
23、数据库HDFSFTPu离线计算数据源1.包括用户基本信息、话单数据、月账单数据等。2.省公司提供数据相应HDFS文件路径。3.杭研进行定时读取相应HDFS文件路径并对自身HBase数据库进行更新。u实时计算数据源1、包括位置数据、上网数据。2、在数据接口服务器和杭研数据采集平台之间采用FTP协议作为数据对接实现方式。3、以指定名称的数据文件存储的数据,这些数据文件在接口服务器上的指定目录下生成,由杭研数据采集平台作为客户端自行读取。u互联网数据源1.包括音乐、阅读、新闻、动漫、APP等互联网垂直领域数据。2.使用爬虫工程对互联网数据进行垂直领域爬取。3.对爬取结果进行清洗和处理,生成有应用价值的规则库。4.规则库使用FTP协议同步数据到省公司大数据平台能力5:对接省公司大数据平台方案27营销平台首页:管理所有营销案28营销案创建29物料管理:管理投放所需物料谢谢!