《数据挖掘技术应用实例ppt课件.pptx》由会员分享,可在线阅读,更多相关《数据挖掘技术应用实例ppt课件.pptx(26页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据挖掘技术应用实例数据挖掘技术应用实例1.个性化广告个性化广告2.电影和视频推荐电影和视频推荐3.奥巴马成功竞选奥巴马成功竞选个性化广告个性化广告 广告是互联网公司生存的根本。很多互联网公司的盈利模式都是基于广告的,而广告的CPC、CPM直接决定了很多互联网公司的收入。目前,很多广告都是随机投放的,即每次用户来了,随机选择一个广告投放给他。这种投放的效率显然很低,比如给男性投放化妆品广告或者给女性投放西装广告多半都是一种浪费。因此,很多公司都致力于广告定向投放(Ad Targeting)的研究,即如何将广告投放给它的潜在客户群。个性化广告投放目前已经成为了一门独立的学科计算广告学但该学科和推
2、荐系统在很多基础理论和方法上是相通的,比如它们的目的都是联系用户和物品,只是在个性化广告中,物品就是广告。个性化广告投放和狭义个性化推荐的区别是,个性化推荐着重于帮助用户找到可能令他们感兴趣的物品,而广告推荐着重于帮助广告找到可能对它们感兴趣的用户,即一个是以用户为核心,而另一个以广告为核心。目前的个性化广告投放技术主要分为3种。 上下文广告上下文广告通过分析用户正在浏览的网页内容,投放和网页内容相关的广告。代表系统是谷歌的Adsense。 搜索广告搜索广告通过分析用户在当前会话中的搜索记录,判断用户的搜索目的,投放和用户目的相关的广告。 个性化展示广告个性化展示广告我们经常在很多网站看到大量
3、展示广告(就是那些大的横幅图片),它们是根据用户的兴趣,对不同用户投放不同的展示广告。雅虎是这方面研究的代表。 广告的个性化定向投放是很多互联网公司的核心技术,很多公司都秘而不宣。不过,雅虎公司是个例外,它发表了大量个性化广告方面的论文。 在个性化广告方面最容易获得成功的无疑是Facebook,因为它拥有大量的用户个人资料,可以很容易地获取用户的兴趣,让广告商选择自己希望对其投放广告的用户。图1-21展示了Facebook的广告系统界面,该界面允许广告商选择自己希望的用户群,然后Facebook会根据广告商的选择告诉他们这些限制条件下广告将会覆盖的用户数量。电影和视频推荐电影和视频推荐在电影和
4、视频网站中,个性化推荐系统也是一种重要的应用。它能够帮助用户在浩瀚的视频库中找到令他们感兴趣的视频。在该领域成功使用推荐系统的一家公司就是Netflix,它和亚马逊是推荐系统领域最具代表性的两家公司。Netflix原先是一家DVD租赁网站,最近这几年也开始涉足在线视频业务。Netflix非常重视个性化推荐技术,并且在2006年起开始举办著名的Netflix Prize推荐系统比赛。该比赛悬赏100万美元,希望研究人员能够将Netflix的推荐算法的预测准确度提升10%。该比赛举办3年后,由AT&T的研究人员获得了最终的大奖。该比赛对推荐系统的发展起到了重要的推动作用:一方面该比赛给学术界提供了
5、一个实际系统中的大规模用户行为数据集(40万用户对2万部电影的上亿条评分记录);另一方面,3年的比赛中,参赛者提出了很多推荐算法,大大降低了推荐系统的预测误差。此外,比赛吸引了很多优秀的科研人员加入到推荐系统的研究中来,大大提高了推荐系统在业界和学术界的影响力。YouTube作为美国最大的视频网站,拥有大量用户上传的视频内容。由于视频库非常大,用户在YouTube中面临着严重的信息过载问题。为此,YouTube在个性化推荐领域也进行了深入研究,尝试了很多算法。在YouTube最新的论文中,他们的研究人员表示现在使用的也是基于物品的推荐算法。为了证明个性化推荐的有效性,YouTube曾经做个一个
6、实验,比较了个性化推荐的点击率和热门视频列表的点击率,实验结果表明个性化推荐的点击率是 热门视频点击率的两倍。和YouTube类似,美国另一家著名的视频网站Hulu也有自己的个性化推荐页面。如图1-10所示,Hulu在展示推荐结果时也提供了视频标题、缩略图、视频的平均分、推荐理由和用户反馈模块。奥巴马成功竞选奥巴马成功竞选奥巴马竞选成功后,在 Twitter 上发的第一章照片。社交网络与数据分析,对奥巴马成功连任功不可没。奥巴马竞选阵营的数据挖掘团队为竞选活动搜集、存储和分析了大量数据,给予竞选团队的高级助手,帮助其成功“策划”多场活动,为奥巴马竞选筹集到 10 亿美元资金。今年春天晚些时候,
7、奥巴马竞选阵营的数据挖掘团队注意到,影星乔治克鲁尼(George Clooney)对美国西海岸 40 岁至 49 岁的女性具有非常大的吸引力。她们无疑是最有可能为了在好莱坞与克鲁尼和奥巴马共进晚餐而不惜自掏腰包的一个群体。克鲁尼在自家豪宅举办的筹款宴会上,为奥巴马筹集到数百万美元的竞选资金。 这个由几十人组成的数据挖掘团队的具体工作被严格保密。奥巴马竞选团队发言人本拉波尔特(Ben LaBolt)在问到数据挖掘团队的职责时说:“他们是我们的核代码。” 在办公室里,该团队会给各个数据挖掘实验进行神秘代码命名,比如“独角鲸”、“追梦人”等。他们在远离竞选团队剩余工作人员的地方办公。这些“科学家”为
8、身在白宫罗斯福厅的总统及其高级助手制作日常简报,而有关这个团队的更多细节是不会对外透露的,因为奥巴马竞选阵营牢牢固守着他们自认为比罗姆尼竞选阵营有优势的地方:即数据。在前 18 个月,竞选团队就创建了一个单一的庞大系统,可以将来自民意调查者、捐资者、现场工作人员、消费者数据库、社交媒体,以及“摇摆州”主要的民主党投票人的信息整合在一起。在竞选办公室里的电话名单上,不仅仅列出了姓名和电话号码,还按照他们被说服的可能性和重要性对姓名进行排序。在排序的决定性因素中,约 75% 是基本信息,如年龄、姓别、种族、邻居和投票记录等。一位高级顾问称:“我们可以预测哪些人会通过网络捐款,哪些人会汇款。我们还可
9、以为志愿者建模,建模可以对让我们的工作效率更高。”例如,竞选团队早期就发现,在个人注意力最容易被重新吸引回来的人群中,在 2008 年大选中曾退订了竞选电子邮件的那部分人是首要目标。为此, 战略家们为特定人群制订了相应的测试。例如,测试一个本地志愿者打来的电话的效果如何优于一个从非摇摆州(如加州)志愿者打来的电话。正如竞选总指挥吉姆梅西纳(Jim Messina)所说,在整个竞选活中,没有数字做支撑的假设很少存在。 结果的预测结果的预测 这种协助筹款的技术随后又被用于预测投票结果。奥巴马的数据分析团队建立了 4 条投票数据流,以了解关键州选民的详细情况。一名官员表示,过去 1 个月中,仅在俄亥
10、俄州,数据分析团队就获得了约2.9万人的投票倾向数据。这是一个包含1% 选民的巨大样本,使他们可以准确了解每一类人群和每一个地区选民在任何时刻的态度。这带来了巨大的优势。当第一次电视辩论结束后,选民的投票倾向发生改变。而数据分析团队可以立即知道什么样的选民改变了态度,什么样的选民仍坚持原来的投票选择。在 10 月份选情扑朔迷离的情况下,这一数据库确保了奥巴马竞选活动的稳定。通过数据,奥巴马竞选团队发现,大部分摇摆不定的俄亥俄州选民原本并非奥巴马的拥趸,而是罗姆尼的支持者。在 9 月份罗姆尼出现失误之后,这些选民的态度出现动摇。一名官员表示:“我们比其他人更冷静。”每天晚间,投票倾向和选民数据被
11、反复处理,以考虑多种不同情况。另一名高级官员则表示:“我们每晚模拟6.6万次大选,并于每天上午获得结果,了解在这些州胜出的可能性,从而针对性地分配资源。”奥巴马竞选团队还首次利用 Facebook 进行大规模的投票动员投票动员,这模仿了现场组织者挨家挨户敲门的方式。在竞选活动的最后几周,下载某一款应用的用户收到了多条消息,其中包含他们在“摇摆州”好友的照片。他们被告知,可以通过点击按钮,呼吁这些目标选民采取行动,例如进行投票注册、更早地投票,以及参与到投票中。奥巴马竞选团队发现,大约1/5收到 Facebook 请求的选民做出了响应,这在很大程度上是因为请求来自他们熟悉的人。数据还帮助奥巴马竞
12、选团队进行广告购买决策广告购买决策。在选择广告投放渠道时,他们没有依靠外部媒体顾问,而是基于内部数据。一名官员表示:“我们可以通过复杂的建模来找到目标选民。例如,如果迈阿密戴德郡的 35 岁以下女性是我们的目标,那么这里有如何覆盖她们的方式。”因此,奥巴马竞选团队在一些非传统节目中购买了广告,例如 4 月 23 日的电视剧混乱之子、行尸走肉和23号公寓的坏女孩。以往,竞选广告通常出现在本地新闻节目中。那么,在广告投放方面,奥巴马竞选团队 2012 年的表现比 2008 年好多少?芝加哥有这样的数据:“在电视平台上,我们的购买效率提升了 14%,确保与能够被说服的选民保持交流。”根据数据分析,奥
13、巴马竞选团队在大选的最后阶段也采取了不同以往的方式。今年 8 月,奥巴马决定在社交新闻网站 Reddit 上回答问题,当时多名总统高级助理并不清楚此事。一名官员表示:“我们为何将奥巴马放在 Reddit 上?因为我们发现很大一部分目标选民在 Reddit 上。”这种由数据驱动的决策方式在奥巴马成功连任的过程中发挥了重要作用,也将成为外界研究 2012 年美国大选的一个重要元素。这再次表明,依赖预感和经验的华盛顿特区竞选专家地位正在迅速下降,被善于利被善于利用大批量数据的数量分析专家和计算机程用大批量数据的数量分析专家和计算机程序员所取代。序员所取代。正如一名官员所说,“人们坐在密室抽着雪茄,简单地说我们总是会买60分钟广告”的时代已经结束。在政治界,大数据时代已经到来。