《基于用户画像大数据的电商防刷架构(DOC11)30108.doc》由会员分享,可在线阅读,更多相关《基于用户画像大数据的电商防刷架构(DOC11)30108.doc(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Evaluation Warning: The document was created with Spire.Doc for .NET.基于用户画像大数据的电商防刷架构一、背景介绍最近年电商行业业飞速发展,各各种创业公司司犹如雨后春春笋大量涌现现,商家通过过各种活动形形式的补贴来来获取用户、培培养用户的消消费习惯。但任何一件事情情都具有两面面性,高额的的补贴、优惠惠同时了也催催生了“羊毛党”。“羊毛党”的行行为距离欺诈诈只有一步之之遥,他们的的存在严重破破环了活动的的目的,侵占占了活动的资资源,使得正正常的用户享享受不到活动动的直接好处处。今天主要分享下下腾讯自己是是如何通过大大数据、用户户
2、画像、建模模来防止被刷刷、恶意撞库库的。二、黑产现状介介绍“羊毛党”一般般先利用自动动机注册大量量的目标网站站的账号,当当目标网站搞搞促销、优惠惠等活动的时时候,利用这这些账号参与与活动刷取较较多的优惠,最最后通过淘宝宝等电商平台台转卖获益。一、羊毛党分工他们内部有着明明确的分工,形形成了几大团团伙,全国在在万人左右:软件制作团伙:专门制作各各种自动、半半自动的黑产产工具,比如如注册自动机机、刷单自动动机等;他们们主要靠出售售各种黑产工工具、提供升升级服务等形形式来获利。短信代接平台:实现手机短信的自动收发,其实一些平台亦正亦邪,不但提供给正常的商家使用,一些黑产也会购买相关的服务。账号出售团
3、伙:他们主要是大量注册各种账号,通过转卖账号来获利;该团伙与刷单团伙往往属于同一团伙。刷单团伙:到各种电商平台刷单,获取优惠,并且通过第三方的电商平台出售优惠,实现套现。二、“羊毛党”从业特点这些黑产团队,有有三个特点:1. 专业化:专业团团队、人员、机机器来做。2. 团伙化:黑产已已经形成一定定规模的团伙伙,而且分工工明确;从刷刷单软件制作作、短信代收收发平台、电电商刷单到变变卖套现等环环节,已经形形成完整的刷刷单团伙。3. 地域化:黑产刷刷单团伙基本本分布在沿海海的一些经济济发达城市,比比如,北京、上上海、广东等等城市,这或或许跟发达城城市更加容易易接触到新事事物、新观念念有关。三、对抗刷
4、单的的思路对抗刷单,一般般来讲主要从从三个环节入入手:1. 注册环节:识别别虚假注册、减减少“羊毛党”能够使用的的账号量。在在注册环节识识别虚假注册册的账号,并并进行拦截和和打击。2. 登录场景:提高高虚假账号登登录门槛,从从而减少能够够到达活动环环节的虚假账账号量。比如如,登录环节节通过验证码码、短信验证证码等手段来来降低自动机机的登录效率率,从而达到到减少虚假账账号登录量、减减轻活动现场场安全压力的的目的。3. 活动环节:这个个是防刷单对对抗的主战场场,也是减少少“羊毛党”获利的直接接战场;这里里的对抗措施施,一般有两两个方面:)通过验证码码(短信、语语音)降低黑黑产刷单的效效率。)大幅度
5、降低低异常账号的的优惠力度。三、腾讯内部防防刷架构一、腾腾讯内部防刷刷的架构图二、模块详细介介绍、风险学学习引擎风险学习引擎:效率问题。由由于主要的工工作都是线下下进行,所以以线上系统不不存在学习的的效率问题。线线上采用的都都是实现的等等针对大数据据的快速聚类类算法,基本本不用考虑性性能问题。风险学习引擎:采用了黑白白双分类器风风险判定机制制。之所以采采用黑白双分分类器的原因因就在于减少少对正常用户户的误伤。例如,某个是恶恶意的,那么么该上可能会会有一些正常常的用户,比比如大网关。再比如,黑产通通过拨号上网网,那么就会会造成恶意与与正常用户共共用一个的情情况。黑分类器:根据据特征、机器器学习算
6、法、规规则经验模型型,来判断本本次请求异常常的概率。白分类器:判断断属于正常请请求的概率。、矩阵式逻辑框框架我们以黑分类器器为例来剖析析下分类器的的整个逻辑框框架。总的来讲我们采采用了矩阵式式的逻辑框架架,最开始的的黑分类器我我们也是一把把抓,随意的的建立一个个个针对黑产的的检测规则、模模型。结果发现不是这这个逻辑漏过过了,而是那那个逻辑误伤伤量大,要对对那一类的账账号加强安全全打击力度,改改动起来也非非常麻烦。因此我们就设计计了这个一个个矩阵式的框框架来解决上上述问题。矩阵的横向采用用了方法,该该方法是一种种迭代算法,其其核心思想是是针对同一个个训练集训练练不同的弱分分类器,然后后把这些分类
7、类器集合起来来,构成一个个最终的分类类器。而我们这里每一一个弱分类器器都只能解决决一种帐号类类型的安全风风险判断,集集中起来才能能解决所有账账户的风险检检测。那么在工程实践践上带来三个个好处: 便于实现轻重分分离,比如某某平台虚假账账号集中在邮邮箱账号,策策略就可以加加大对邮箱账账号的打击力力度,影响范范围也局限在在邮箱帐号,而而不是该平台台所有的账号号。 减少模型训练的的难度,模型型训练最大的的难度在于样样本的均衡性性问题,拆分分成子问题,就就不需要考虑虑不同账号类类型之间的数数据配比、均均衡性问题,大大大降低了模模型训练时正正负样本比率率的问题。 逻辑的健壮性,某某一个分类器器的训练出现现
8、了问题,受受影响的范围围不至于扩展展到全局。矩阵纵向采用了了方法,该方方法是一种用用来提高学习习算法准确度度的方法,该该方法在同一一个训练集合合上构造预测测函数系列,然然后以一定的的方法将他们们组合成一个个预测函数,从从而来提高预预测结果的准准确性。上面讲的部分东东西,理解起起来会比较艰艰涩,这里大大家先理解框框架,后续再再理解实现细细节。四、腾讯大数据据收集纬度大数据一直在安安全对抗领域域发挥着重要要的作用,从从我们的对抗抗经验来看,大大数据不仅仅仅是数据规模模很大,而且且还包括两个个方面:1. 数据广度:要有有丰富的数据据类型。比如如,不仅仅要要有社交领域域的数据、还还要有游戏、支支付、自
9、媒体体等领域的数数据,这样就就提供了一个个广阔的视野野让我们来看看待黑产的行行为特点。2. 数据深度:黑产产的对抗。我我们一直强调调纵深防御,我我们不仅仅要要有注册数据据,还要有登登录,以及账账号的使用的的数据,这样样我们才能更更好的识别恶恶意。所以想要做风控控和大数据的的团队,一定定要注意在自自己的产品上上多埋点,拿拿到足够多的的数据,先沉沉淀下来。五、腾讯大数据据处理平台魔方我们的团队研发发了一个叫魔魔方的大数据据处理和分析析的平台,底底层我们集成成了、,、等等技术,在用用户层面我们们只需要写一一些简单的语语句、完成一一些配置就可可以实现例行行分析。这里我们收集了了社交、电商商、支付、游游
10、戏等场景的的数据,针对对这些数据我我们建立一些些模型,发现现哪些是恶意意的数据,并并且将数据沉沉淀下来。沉淀下来的对安安全有意义的的数据,一方方面就存储在在魔方平台上上,供线下审审计做模型使使用;另一方方面会做成实实时的服务,提提供给线上的的系统查询使使用。一、腾腾讯用户画像像沉淀方法画像,本质上就就是给账号、设设备等打标签签。用户画像 打标签我们这里主要从从安全的角度度出发来打标标签,比如画画像,我们会会标注是不是是代理,这些些对我们做策策略是有帮助助的。以的画像为例,比比如,一个只只登录、不登登录其他腾讯讯的业务、不不聊天、频繁繁的加好友、被被好友删除、空空间要么没开开通、要么开开通了空间
11、但但是评论多但但回复少,这这种号码我们们一般会标注注养号(色情情、营销),类类似的我们也也会给打上其其他标签。标签的类别和明明细,需要做做风控的人自自己去设定,比比如:地理位位置,按省份份标记。性别别,安男女标标记。其他细细致规则以此此规律自己去去设定。我们看看腾讯的的画像,沉淀淀的逻辑如下下图:一般的业务都有有针对的频率率、次数限制制的策略,那那么黑产为了了对抗,必然然会大量采用用代理来绕过过限制。既然代理的识别别如此重要,那那我们就以代代理为例来谈谈下腾讯识别别代理的过程程。识别一个是不是是代理,技术术不外乎就是是如下四种:1. 反向探测技术:扫描是不是是开通了等代代理服务器经经常开通的端
12、端口,显然一一个普通的用用户不太可能能开通如上的的端口。2. 头部的:开通了了代理的可以以通过此法来来识别是不是是代理;如果果带有信息,该该是代理无疑疑。3. 报文:如果带有有的报文,该该毫无疑问是是代理。4. 查看上端口:如如果一个有的的端口大于,那那么该大多也也存在问题,普普通的家庭开开这么大的端端口几乎是不不可能的。以上代理检测的的方法几乎都都是公开的,但但是盲目去扫扫描全网的,被被拦截不说,效效率也是一个个很大的问题题。因此,我们的除除了利用网络络爬虫爬取代代理外,还利利用如下办法法来加快代理理的收集:通通过业务建模模,收集恶意意(黑产使用用代理的可能能性比较大)然然后再通过协协议扫描
13、的方方式来判断这这些是不是代代理。每天腾腾讯都能发现现千万级别的的恶意,其中中大部分还是是代理。二、腾讯用户画画像类别概览览三、防御逻辑实时系统使用开开发实现,所所有的数据通通过共享内存存的方式进行行存储,相比比其他的系统统,安全系统统更有他自己己特殊的情况况,因此这里里我们可以使使用“有损”的思路来实实现,大大降降低了开发成成本和难度。数据一致性,多多台机器,使使用共享内存存,如何保障障数据一致性性?其实,安全策略略不需要做到到强数据一致致性。从安全本身的角角度看,风险险本身就是一一个概率值,不不确定,所以以有一点数据据不一致,不不影响全局。但是安全系统也也有自己的特特点,安全系系统一般突发
14、发流量比较大大,我们这里里就需要设置置各种应急开开关,而且需需要微信号、短短信等方式方方便快速切换换,避免将影影响扩散到后后端系统。四四、接入系统统适应的场景包括括: 电商刷单、刷券券、刷红包 防止虚假账号注注册 防止用户名、密密码被撞库 防止恶意登录:风险学习引擎擎是自研的,还还是使用的开开源库?风险学习引擎包包括两个部分分,线上和线线下两部分:线上:自己利用用来实现。线下:涉及利用用开源库来做做的,主要是是一些通用算算法的训练和和调优。:请问魔方平台台中用到的是是不是经过改改造?因为一一直不被看好好,出现问题题也比较多。我们做了部分改改造,主要是是的引擎方面面。:请问黑分类器器和白分类器器
15、有什么区别别?白分类器主要用用来识别正常常用户,黑分分类器识别虚虚假用户。:风险概率的权权重指标是如如何考虑的?先通过正负样本本进行训练,并并且做参数显显著性检查;然后,人工工会抽查一些些参数的权重重,看看跟经经验是否相符符。:安全跟风控职职责如何区分分呢?相比安全,风控控的外延更丰丰富,更注重重宏观全局;针对一个公公司来讲,风风控是包括安安全、法务、公公关、媒体、客客服等在内一一整套应急处处理预案。:如果识别错了了,误伤了正正常用户会造造成什么后果果么?比如影影响单次操作作还是会一直直失败。如果识别错了正正常用户不会会被误伤,但但是会导致体体验多加了一一个环节,如如弹出验证码码、或者人工工客服核对等等。作者:颜国平,腾腾讯云天御御系统研发负负责人。一直直负责腾讯自自有验证码、业业务安全、防防刷、账号安安全等研发工工作。内部支支持的产品(游游戏、电商、腾腾讯投资的企企业)非常广广泛。在业务务安全领域项项目经验丰富富,并且具备备深度学习、大大数据架构搭搭建等实战经经验。(腾讯云博客)