《银行客户数据分析.pptx》由会员分享,可在线阅读,更多相关《银行客户数据分析.pptx(24页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、会计学1银行客户数据分析银行客户数据分析2背景背景 数据数据客户群客户群服务服务盈利盈利n n商业银行拥有大量的个人客户交易数据、个人客户服务数据和个人客户基本资料数据。在这些海量数据中,隐藏着大量的有价值的客户信息。运用数据挖掘中的聚类分析技术可以从这些数据集中提取客户的分类知识。聚类分析技术可以将性质、特征近似的数据对象归属在相同的群集中。商业银行可以利用此技术分辨出能有效为之服务的最有价值的客户,为他们提供更为个性化的服务,从而影响相关的客户行为并最终达到提高盈利的目的。第1页/共24页3数据集数据集n n客户数据集包含10,000条客户数据n n包含有31个特征(属性),分别为:n n
2、Bank No(Bank No(银行代码,其值有:银行代码,其值有:004,024,077004,024,077等等)n nAccount num(Account num(账户代码账户代码)n nShort Name(Short Name(客户名字客户名字)n nFirst Contact Date(First Contact Date(第一次接触日期第一次接触日期)n naccount open date(account open date(账户开户日期账户开户日期)n naccount balance(account balance(账户当前余额账户当前余额)n naccount low
3、balance(account low balance(账户曾经最低余额账户曾经最低余额)n naccount high balance(account high balance(账户曾经最高余额账户曾经最高余额)n nbalance category(balance category(余额类型余额类型)n nStatement Statement Low Low Balance(Balance(最最低低交交易易账账目目,有有正正有有负负)第2页/共24页4数据集数据集(属性属性)n nStatement High Balance(Statement High Balance(最高交易账目最高
4、交易账目)n nStatement Aggregate Debit Balance(Statement Aggregate Debit Balance(聚集透支账目聚集透支账目)n nStatement Aggregate Debit Day(Statement Aggregate Debit Day(透支账目的天数透支账目的天数)n nStatement Aggregate Credit Balance(Statement Aggregate Credit Balance(聚集存款账目聚集存款账目)n nStatement Aggregate Credit Day(Statement Agg
5、regate Credit Day(存款账目的开数存款账目的开数)n nReturn Check Count(Return Check Count(退回支票的次数退回支票的次数)n nStatus(Status(客户状态客户状态)n nAudit Granding(Audit Granding(授权级别,越高则风险越低授权级别,越高则风险越低)n nSalary Before Last Month(Salary Before Last Month(上一个月之前自动付款的账目上一个月之前自动付款的账目)n nSalary last Month(Salary last Month(上一个月自动付款
6、的账目上一个月自动付款的账目)n nSalary this Month(Salary this Month(这一个月自动付款的账目这一个月自动付款的账目)n nCount of Credit this Month(Count of Credit this Month(这个月存款的次数这个月存款的次数)第3页/共24页5数据集数据集(属性属性)n nCount of Debit this Month(Count of Debit this Month(这个月取款的次数这个月取款的次数)n nCount of OD(Count of OD(透支的次数透支的次数)n nAmount of Depos
7、it this Month(Amount of Deposit this Month(本月存款的账目本月存款的账目)n nAmount of Withdraw this Month(Amount of Withdraw this Month(本月取款的账目本月取款的账目)n nLast Transaction Date(Last Transaction Date(上一次交易的日期上一次交易的日期)n nCountry Code(Country Code(客户所属的国家客户所属的国家)n nBirthday(Birthday(生日生日)n nSex(Sex(性别性别)n n n n n n 第4
8、页/共24页6数据预处理数据预处理n n我们选用Weka数据挖掘工具来对客户的账户数据进行分析,因此所有的原始数据都必须转换成能被Weka处理的数据集格式。n n原始数据集的特征主要有四种类型的,分别是:数值型(numeric)、标称型(nominal)、日期型(date)和字符串型(string)。n n对于缺失的属性值,因为Weka中的算法能自动处理属性值缺失的情况,所以按Weka数据集的格式要求用“?”表示。第5页/共24页7数据预处理数据预处理(规格化规格化规格化规格化)n n数值型特征:采用如下公式规格化到0,1区间 n n标称型特征、日期型特征和字符串型特征保持不变 第6页/共24
9、页8聚类分析聚类分析n n目标n n我们的目的是对客户进行分群,从而使银行可以对不同群体的客户我们的目的是对客户进行分群,从而使银行可以对不同群体的客户提供不同的服务。因此聚类分析是对客户进行自动分群的有效方法。提供不同的服务。因此聚类分析是对客户进行自动分群的有效方法。n n方法n nk-meansk-means算法算法 n n选取的特征n n从从3131个原始属性值中选取个原始属性值中选取2323个属性用作聚类(都是数值型或标称型个属性用作聚类(都是数值型或标称型的)的)n n聚类参数n n在经过规格化处理后的数据集中,用在经过规格化处理后的数据集中,用k-meansk-means算法在选
10、定的算法在选定的2323个属性个属性上进行聚类,设定聚类数为上进行聚类,设定聚类数为10.10.第7页/共24页9各聚类大小各聚类大小n n各聚类所包含的客户数量如下表各聚类所包含的客户数量如下表聚类客户数量聚类1145聚类269聚类3133聚类46183聚类51985聚类6213聚类746聚类8446聚类9413聚类10368表1第8页/共24页10对聚类大小的分析对聚类大小的分析由表1可知,各聚类有大有小,且大小悬殊,但也合乎客户关系处理的目的。客户关系管理的往往是找出一小部分的特殊客户(占20%左右)来进行特别地对待。在上表所示的10个聚类中,除去最大的聚类4后其余9个聚类的客户数达38
11、18人,占总客户量的38.18%;除去最大的两个聚类(聚类4和聚类5)后其余8个聚类的客户数达1833人,占总客户量的18.33%.大聚类可以再继续细分(作为一个数据集再继续进行聚类操作,或直接提高聚类个数)第9页/共24页11对各聚类结果的处理对各聚类结果的处理n n聚类后的各聚类结果的数据是规格化处理后的数据的结聚类后的各聚类结果的数据是规格化处理后的数据的结果,我们要直观地分析各聚类的特点,必须把规格化的果,我们要直观地分析各聚类的特点,必须把规格化的数据还原为原始数据。例如,最小值为数据还原为原始数据。例如,最小值为-10,000-10,000,最大值,最大值为为1,000,0001,
12、000,000的当前账户余额规格化为的当前账户余额规格化为0,10,1后就难以理解后就难以理解各账户间存在的巨大差距,只有把它还原为原始的各账户间存在的巨大差距,只有把它还原为原始的-10000,100000010000,1000000才能使人直观地理解其存在的差距。才能使人直观地理解其存在的差距。n n把各聚类的数据集还原为原始数据后,再计算各特征的把各聚类的数据集还原为原始数据后,再计算各特征的均值和标准差(数值型的特征);或者各标称量的数量均值和标准差(数值型的特征);或者各标称量的数量(标称型的特征)。(标称型的特征)。第10页/共24页12聚类结果聚类结果分析分析(账户当前余额账户当
13、前余额)n n下表所示为下表所示为1010个聚类中各聚类的账户当前余额的正负及账户个聚类中各聚类的账户当前余额的正负及账户当前余额的均值和标准差当前余额的均值和标准差 聚类当前余额正负当前余额值+均值标准差聚类1145024445.5073408.73聚类269029164.4178077.97聚类31330152882.48604633.58聚类4618215571.1723957.76聚类51985022102.6164825.42聚类6119948432.8218680.66聚类74602093.915798.48聚类8380667729.6733233.11聚类90413-24728.
14、6861844.23聚类10368036264.2493389.14第11页/共24页13聚类结果聚类结果分析分析(账户当前余额账户当前余额)n n最明显的特殊客户群有两个最明显的特殊客户群有两个 :n n一个是一个是聚类聚类聚类聚类3 3的客户群,该聚类的当前余额均值达的客户群,该聚类的当前余额均值达十五万十五万左右,比其他聚类的当前余额均值高出一个数量级。所左右,比其他聚类的当前余额均值高出一个数量级。所以可以初步判断该聚类的客户是存款额高或者说是以可以初步判断该聚类的客户是存款额高或者说是高收高收高收高收入的客户群入的客户群入的客户群入的客户群。另外,该聚类当前余额的标准差也很大,。另外
15、,该聚类当前余额的标准差也很大,这说明在富有的客户群中各客户的收入差距也是很大的,这说明在富有的客户群中各客户的收入差距也是很大的,有的达百万、千万、甚至上亿有的达百万、千万、甚至上亿.n n另一个明显的特殊客户群是另一个明显的特殊客户群是聚类聚类聚类聚类9 9所示的客户群。该客户所示的客户群。该客户群中的群中的413413个客户当前账户余额个客户当前账户余额都为负值都为负值,且其均值达负,且其均值达负两万多元。因此可以认定该客户群是两万多元。因此可以认定该客户群是高透支的客户群高透支的客户群高透支的客户群高透支的客户群。后面还会分析的透支额、透支次数、透支时间等属性的后面还会分析的透支额、透
16、支次数、透支时间等属性的分析同样可以印证我们这个结论分析同样可以印证我们这个结论.第12页/共24页14聚类结果聚类结果分析分析(账户当前账户当前余额余额)n n分析其他的八个聚类n n聚类聚类聚类聚类4 4是占是占61.81%61.81%的最大的的最大的普通客户群普通客户群普通客户群普通客户群,该客户,该客户群中几乎所有的客户的当前余额都为正值,其群中几乎所有的客户的当前余额都为正值,其均值为五千多,标准差为两万多不会太小,说均值为五千多,标准差为两万多不会太小,说明该庞大的客户群还是可以再继续细分的。明该庞大的客户群还是可以再继续细分的。n n聚类聚类聚类聚类5 5是占是占19.85%19
17、.85%的第二大的客户群,该客户群的第二大的客户群,该客户群比最大的客户群聚类比最大的客户群聚类4 4来说它的当前余额均值高来说它的当前余额均值高很多,达两万多元。因此可以说聚类很多,达两万多元。因此可以说聚类5 5是是大量普大量普大量普大量普通客户中的中等存款额度的账户通客户中的中等存款额度的账户通客户中的中等存款额度的账户通客户中的中等存款额度的账户(不包括低存(不包括低存款额度的账户)。款额度的账户)。n n聚类聚类聚类聚类7 7是账户当前余额为正值但存款额度较低的是账户当前余额为正值但存款额度较低的客户群。客户群。n n聚类聚类1 1,2 2,6 6,8 8,1010这五个聚类在当前账
18、户余这五个聚类在当前账户余额这一属性上不能发现其明显的特征,我们将额这一属性上不能发现其明显的特征,我们将在后续的其他属性上的分析发现其聚类特征。在后续的其他属性上的分析发现其聚类特征。第13页/共24页15聚类结果聚类结果分析分析(最低及最高交易最低及最高交易账目账目)n n下表所示为各聚类的最低交易账目和最高交易账目的均值与下表所示为各聚类的最低交易账目和最高交易账目的均值与标准差标准差 聚类最低交易账目最高交易账目均值标准差均值标准差聚类121710.5767398.2930649.7787211.66聚类225422.8071501.1843955.38100110.53聚类31371
19、12.35560335.78180985.33617496.38聚类44664.6621531.078869.5331149.29聚类515040.5349724.5943980.40109262.32聚类6-9205.01915566.6615999.4228870.03聚类71703.675667.1385432.0912143.86聚类8-9331.1732766.5026126.10143537.61聚类9-27823.9464684.33-12265.0633615.10聚类1016948.3454751.5374335.21148054.73第14页/共24页16聚类结果聚类结果分
20、析分析(最低及最高交易账最低及最高交易账目目)n n明显聚类特征明显聚类特征:n n聚类聚类聚类聚类3 3的最低交易账目和最高交易账目的均值都最高,这说明该类账户一般是有的最低交易账目和最高交易账目的均值都最高,这说明该类账户一般是有大数额的资金流入大数额的资金流入大数额的资金流入大数额的资金流入。n n聚类聚类聚类聚类9 9的最低交易账目和最高交易账目的均值都最小,属于的最低交易账目和最高交易账目的均值都最小,属于透支最多的一类透支最多的一类透支最多的一类透支最多的一类,这,这说明该类账户是属于说明该类账户是属于透支型的账户透支型的账户透支型的账户透支型的账户,透支额维持在一个比较高的水平,
21、且其最,透支额维持在一个比较高的水平,且其最高交易额平均也达负一万两千多,说明这类型账户平均高交易额平均也达负一万两千多,说明这类型账户平均很少正向资金存入很少正向资金存入。第15页/共24页17聚类结果聚类结果分析分析(最低及最最低及最高交易账目高交易账目)n n聚类聚类聚类聚类4 4这个最大的客户群的最低和最高交易账目的平均值保持在一个这个最大的客户群的最低和最高交易账目的平均值保持在一个中等中等中等中等的水平,最低四的水平,最低四千多,最高八千多;千多,最高八千多;n n第二大客户第二大客户群聚类群聚类群聚类群聚类5 5的最低和最高交易账目的均值都较聚类的最低和最高交易账目的均值都较聚类
22、4 4高很多,这也同样能够说明高很多,这也同样能够说明聚类聚类5 5是大量的是大量的中等偏高的存储客户中等偏高的存储客户中等偏高的存储客户中等偏高的存储客户。n n聚类聚类聚类聚类7 7的最低和最高交易账目都较低(正值),属于的最低和最高交易账目都较低(正值),属于小额储蓄客户小额储蓄客户。n n聚类聚类6 6和聚类和聚类8 8的最低交易账目平均为负值(属于透支),最高交易账目平均为正值(属的最低交易账目平均为负值(属于透支),最高交易账目平均为正值(属于储蓄),因此该类型客户属于于储蓄),因此该类型客户属于有储蓄有透支的信用消费型客户有储蓄有透支的信用消费型客户有储蓄有透支的信用消费型客户有
23、储蓄有透支的信用消费型客户。n n聚类聚类1 1,2 2,1010在这一属性上还不能分析出很明显的聚类特征在这一属性上还不能分析出很明显的聚类特征 第16页/共24页18聚类结果聚类结果分析分析(透支账目透支账目/存款存款账目账目)n n下表所示为聚集透支账目及透支账目天数、聚集存款账目及存下表所示为聚集透支账目及透支账目天数、聚集存款账目及存款账目天数的均值和标准差。款账目天数的均值和标准差。聚类聚集透支账目透支账目天数聚集存款账目存款账目天数均值标准差均值标准差均值标准差均值标准差聚类10000621553.941893055.17260聚类20000862332.672188134.51
24、260聚类300003987771.6315631280.74260聚类4000.000.03145729.02582818.6026.000.03聚类50000599440.681531141.41260聚类699402.83202963.8015.644.3966568.08130475.9210.364.39聚类7000075543.65239671.98260聚类817345.0451581.643.632.61170027.62856644.6322.372.61聚类9596935.001384363.1225.391.312744.6715650.270.611.31聚类10000
25、0907077.212107278.80260第17页/共24页19聚类结果聚类结果分析分析(透支账目透支账目/存款存款账目账目)n n聚类聚类3 3的聚集存款账目很高的聚集存款账目很高,均值达三百多万,该类型均值达三百多万,该类型客户几乎不透支,但该类型客户的聚集存款账目的客户几乎不透支,但该类型客户的聚集存款账目的标标标标准差也奇高准差也奇高准差也奇高准差也奇高,达一千五百多万,这也印证了前面所说,达一千五百多万,这也印证了前面所说的的高收入群体中的各个体收入差距还是很大高收入群体中的各个体收入差距还是很大的。的。n n聚类聚类聚类聚类9 9是是高额度透支账户高额度透支账户高额度透支账户高
26、额度透支账户,聚集透支账目均值接近六十,聚集透支账目均值接近六十万,但聚集存款账目均值仅有两千多,并且其透支时万,但聚集存款账目均值仅有两千多,并且其透支时间长,平均达二十五天多。所以,该类型账户应该是间长,平均达二十五天多。所以,该类型账户应该是长期处于透支状态长期处于透支状态长期处于透支状态长期处于透支状态。第18页/共24页20聚类结果聚类结果分析分析(透支账目透支账目/存款账存款账目目)n n前面提到,聚类6和聚类8是有透支有储蓄的信用型消费客户信用型消费客户,在此也可以说明问题。这两个聚类的聚集透支账目和聚集存款账目都有不小的数额,但其不同点是:n n聚类聚类聚类聚类6 6的聚集透支
27、账目比聚集存款账目要高,且的聚集透支账目比聚集存款账目要高,且其透支时间长,说明该账户是其透支时间长,说明该账户是以透支消费为目以透支消费为目以透支消费为目以透支消费为目的,以存款维持信用消费的,以存款维持信用消费的,以存款维持信用消费的,以存款维持信用消费。n n聚类聚类聚类聚类8 8的聚集存款账目要远高于聚集透支账目,的聚集存款账目要远高于聚集透支账目,说明该客户群说明该客户群以储蓄为主,透支消费为次以储蓄为主,透支消费为次以储蓄为主,透支消费为次以储蓄为主,透支消费为次。n n聚类聚类7是聚集存账目不高的客户群,且其不进行透支消费。n n聚类1,2,5,10在这一属性上不能分析出明显的聚
28、类特征。第19页/共24页21聚类结果聚类结果分析分析(本月存取款账目本月存取款账目)n n下表所示为下表所示为本月存款次数、本月存款账目、本月取款次数、本本月存款次数、本月存款账目、本月取款次数、本月取款账目月取款账目 的均值与标准差的均值与标准差聚类这个月存款次数本月存款账目这个月取款次数本月取款账目均值标准差均值标准差均值标准差均值标准差聚类10.160.443102.7922512.430.682.146525.8838214.38聚类21.521.9514204.9651897.495.646.6720524.6758284.22聚类30.941.1836389.15121866.5
29、83.795.0444100.75118407.29聚类40.430.656345.4451757.411.041.406871.6351832.93聚类52.371.4048165.60434339.248.564.6353513.42435119.06聚类62.823.1230468.1953245.3510.889.1331899.8950629.19聚类70.961.865205.3512258.952.615.766791.2613240.96聚类83.322.9847629.30186798.969.108.0349078.89201585.59聚类91.993.2015185.6
30、541397.608.3310.0423149.9866096.16聚类107.184.0799006.39174714.0519.5810.0499224.65169294.68第20页/共24页22聚类结果聚类结果分析分析(本月存取款账目本月存取款账目)n n聚类1,4,7都属于存取款账目比较小的账户类型。n n聚类聚类1 1的取款账目是存款账目的的取款账目是存款账目的2 2倍;倍;n n聚类聚类4 4的存取款账目相当;的存取款账目相当;n n聚类聚类7 7的取款账目略高于存款账目。的取款账目略高于存款账目。n n另外,从本月的存取次数看,聚类1,4,7的存取次数都很低,因为他们的存取账目
31、也低,可以认为这些类型的账户主要是资资金流动很小的账户类型金流动很小的账户类型(或者说包含一部分的睡眠账户睡眠账户)。第21页/共24页23聚类结果聚类结果分析分析(本月存取款账目本月存取款账目)n n聚类2,3,5,6,8,9,10都属于存取款账目较高的客户类型。n n其中聚类其中聚类3 3,5 5,6 6,8 8的平均存取款都为三四万;的平均存取款都为三四万;n n聚类聚类2 2和和9 9平均存款账目一万多;平均取款账目平均存款账目一万多;平均取款账目两万多。两万多。n n前面已经分析出的聚类3所代表的富有人群,其当月存取款都在一个正常的平均水平,当月存取款都在一个正常的平均水平,不会太高不会太高。n n聚类10是本月存取款较高的客户群本月存取款较高的客户群,其存取账目几乎相等,但其存款次数多,取款次数也多,这说明该类型的账户是资金流入资金流入流出频繁的账户类型流出频繁的账户类型。第22页/共24页24谢谢!第23页/共24页