《计算广告学实验报告--天池大数据竞赛.docx》由会员分享,可在线阅读,更多相关《计算广告学实验报告--天池大数据竞赛.docx(4页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、计算广告学实验报告实验题目:天池大数据竞赛一1 .实验内容我们组做的是project2参加天池大数据竞赛,竞赛的题目也就是我们实验内容,如下:在真实的业务场景下,我们往往需要对所有商品的一个子集构建 个性化推荐模型。在完成这件任务的过程中,我们不仅需要利用用户在这个商品子集上的行为数据,往往还需要利用更丰富的用户行为数据。定义如下的符号:u用户集合I商品全集P商品子集,p c ID用户对商品全集的行为数据集合那么我们的目标是利用D来构造U中用户对月中商品的推荐模型。2 .实验准备在开始做project2之前,我们下好了数据tianchi_mobile_recommend_train_item.
2、 csvtianchi_mobile_recommend_train user.csv竞赛数据包含两个部分。第一部分是用户在商品全集上的移动端 行为数据(D),表名为 tianchi_mobile_aecommeod_teaie_usee,包 含如下字段:字段字段说明提取说明user_id用户标识抽样&字段脱敏item_id商品标识字段脱敏behavior_type用户对商品的行为类型包括浏览、收藏、加购物车、购买,对应取值分别是 1、2、3、4ousergeohash用户位置的空间标识,可以为空由经纬度通过保密的算法生成item category商品分类标识字段脱敏time行为时间精确到小时
3、级别第二个部分是商 品子集(P),表名为tianchi_mobile_recommend_train_item,包含如下字段:字段字段说明提取说明item_id商品标识抽样&字段脱敏item_ geohash商品位置的空间标识,可以为空由经纬度通过保密的算法生成item category商品分类标识字段脱敏训练数据包含了抽样出来的一定量用户在一个月时间 (11.1812.18)之内的移动端行为数据(D),评分数据是这些用户 在这个一个月之后的一天(12.19)对商品子集(P)的购买数据。参 赛者要使用训练数据建立推荐模型,并输出用户在接下来一天对商品 子集购买行为的预测结果。其次,我们下载了数
4、据库Microsoft SQL Server 2012并且安装, 再将上述两个数据文件导入Microsoft SQL Server 2012生成两个表。 3 .实验方法我们组直接用SQL语句对数据进行筛选,筛选条件我们主要考虑 了以下方面:一、基于内容推荐:1、筛选大数据的有效数据:由于tianchi mobile recommend train user表中的数据太多,要对其进 行除噪操作,比如,删除只浏览一次或几次的数据等。2、对上述筛选出的精简数据进行条件筛选:派根据购买的商品类型的数量进行同类型商品的推荐派 给消费欲望高的用户推荐销量高的商品(例如,用户在上个 月的购买商品的数量较多和
5、次数较频繁,则在下个月对其推荐上月销 量较高的商品)。派 根据竞赛题目的要求,对上一个月的数据进行分析,预测第 二天用户购买情况。因为大脑暂留效应,我们完全可以对上个月最后 几天的数据进行分析,预测用户在后一天的购买意向。X 记录用户一个月内对商品的浏览、收藏、加入购物车的三种 行为进行分析,针对用户浏览与收藏的商品的同类型进行推荐,对加 入购物车的商品可以推荐店家的其他商品。二、协同过滤推荐:X 统计每个用户购买的商品,在用户之间进行相似度比较,用户 间购买的商品类型相似度达到一定程度,就可以互相推荐商品。其实 这一点我们组在实验中没有体现,我们起初的构思包含了这一点。4 .实验结果见 tianchi_mobile_recommendation_predict 表5 .总结经过这次实验,对互联网广告学的盈利模式以及推荐系统的工作原理,推荐系统有3个重要的模块:用户建模模块、推荐对象建模模块、 推荐算法模块。推荐系统把用户模型中兴趣需求信息和推荐对象模型 中的特征信息匹配,同时使用相应的推荐算法进行计算筛选,找到用 户可能感兴趣的推荐对象,然后推荐给用户,同时我们对基于内容推 荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推 荐、组合推荐等推荐方法的理解。最重要的一点,我们明白了团队合 作的重要性。