《消费者购买可能性判断的模型设计16213.docx》由会员分享,可在线阅读,更多相关《消费者购买可能性判断的模型设计16213.docx(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 消费者购购买可能能性判断断的模型型设计分类模型型就是根根据以往往的经验验,根据据每个属属性内的的水平与与类之间间的对应应关系,构构造出分分 类模模型。本本文旨在在探讨分分类模型型的评价价标准,并并提出了了两种分分类方法法。第一一种分类类方法比比较简单单,经济济含义也也比较明明显, 但第一一种方法法要求属属性(指指标)之之间不能能有强的的相关性性。在第第二种方方法中,提提出并证证明了两两条比较较实用的的结论,并并利用这这 两条条结论与与一些合合理的假假设,求求解出了了新的分分类模型型。 在一一对一销销售、信信用评价价等商业业活动中中,经常常需要判判断哪些些人的购购买倾向向更高一一些,哪哪些人的
2、的信用更更好一些些的问 题。这这实际上上是如何何进行分分类的问问题。分分类与聚聚类不同同。聚类类没有根根据经验验进行学学习的过过程。而而分类模模型根据据以往的的经验 ,根据据每个属属性内的的水平与与类之间间的对应应关系,构构造出分分类模型型。 分类类模型的的方法有有:决策策树、遗遗传算法法、贝叶叶斯等。 在在本文中中,只分分成两类类,这两两类用购购买者与与非购买买者来代代表。购购买者表表示购买买某产品品,非购购买者表表示不购购买某产产 品。 一、模型型好坏评评价的标标准预测结结果的好好坏也就就是预测测准确程程度。本本文以销销售时的的情况为为例,假假设结果果分为两两类:购购买者与与非购买买者。假
3、假设 在在以往数数据中购购买者与与非购买买者的个个数分别别是a、bb。我们们利用某某种模型型在a个个购买者者中预测测准确aa1个人人,不准准确a22个人(或或 者说说a2个个人被预预测成非非购买者者);在在b个非非购买者者中预测测准确bb1个人人,不准准确b22个人(或或者说bb2个人人被预测测成了购购买者)。 很很自然的的想法是是利用整整体准确确率来衡衡量: LL1=(aa1+bb1)/(a+b)1000% 指指标一 指指标一的的缺点是是,有时时购买者者的个数数要远低低于非购购买者的的个数,比比如,假假设在某某个人群群中非购购买者的的比例占占98%, 如如果采用用这样的的预测方方法:对对于任
4、何何一个人人,都认认为他是是非购买买者,按按照指标标一,预预测准确确率可以以达到998%,属属于很高高的预 测精度度。但这这与商家家的目标标不一致致:商家家希望根根据以往往的经验验,根据据每个人人的属性性特征,利利用某种种评价模模型,从从某个人人群 中中挑出一一部分人人来,与与没有应应用该种种模型相相比,挑挑出来的的这部分分人比原原始人群群具有很很高的购购买倾向向。而利利用指标标一评价价, 就就属于一一个人都都没有挑挑出来。指指标一的的根本缺缺点是没没有注意意到预测测准一个个购买者者与预测测准一个个非购买买者的重重要程度度是不一一 样的的(在购购买者与与非购买买者数量量基本相相等时两两者的重重
5、要程度度是一致致的)。 而而以下指指标就可可以有效效的克服服上述缺缺点: LL2=(aa1/aa+b11/b)50% 指标标二 可以以利用指指标二来来判别模模型的预预测能力力,将LL2称为为分类模模型拟合合优度系系数。容容易证明明,在一一般情况况下,模模型拟合合 优度度系数在在0.55与1之之间。当当L2=0.55时,说说明利用用分类预预测模型型并没有有提高预预测精度度;而当当L2=1时,说说明分类类模型将将购买者者 与非非购买者者完全区区分开了了。 将指指标二进进行变换换,可以以得到: L2=(a11/a+b1/b)50% =500%+(aa1/aab22/b)50% 一般来来说,aa1/a
6、ab22/b 显然大大于0。因因为根据据我们的的目标利利用模型型挑选出出来的人人中,购购买者的的比例与与原始人人群相 比有所所提高,也也就是: a1/(a11+b22)aa/(aa+b) (1) 其其中,模模型的左左边是利利用模型型挑选出出的人群群中购买买者所占占的比重重,模型型的右边边是原始始人群中中购买者者所占的的比例。 将将式(11)两边边同乘以以(a11+b22)(aa+b),经经过整理理可以得得到: aa1/aab22/b 同同理,可可以得到到: b11/ba2/a00,并且且容易得得到: aa1/aab22/b = bb1/bba22/a (2) 本本文将aa1/aab22/b或或
7、b1/baa2/aa称为模模型的识识别能力力因子,识识别能力力因子越越大,则则模型的的挑选能能力越高高,越能能够 符符合商家家的需要要。容易易得到,能能力识别别因子在在0与11之间。当当能力识识别因子子等于00时,利利用模型型挑选出出的人群群中购买买者占的的比 例例与原始始人群相相等,模模型没有有起到应应有的挑挑选能力力的作用用。而当当模型识识别能力力因子等等于1时时,挑选选出的人人群全部部是购买买者或 非购买买者,也也就是说说将购买买者与非非购买者者完全分分开,当当然这是是一种理理想情形形,实际际上是不不可能达达到的。 二、评价价模型设有有m个属属性(比比如性别别、年龄龄、以往往购买情情况等
8、),每每个属性性由一定定的水平平构成,通通过某种种规则将将每个属属性的各各 个水水平赋予予一定的的值,设设Xkii表示第第j个人人的第kk个属性性对应的的水平,将将该水平平赋予一一定的数数值Ukkj (比比如如果果第k个个属性是是性别,如如果第jj个人是是男,那那么属性性对应的的水平就就是男性性,根据据购买倾倾向等可可以将男男性赋予予一定的的 数值值)。对于于第j个个人,若若U1jj+U2jj+UmmjPP,则判判断第jj个人属属于购买买 者,否否则判断断为非购购买者,UU1j+UU2j+UUmj称为为第j个个人的得得分,PP称为临临界值。 假假设共有有m个属属性,假假设第ii个属性性共有kk
9、i个水平平,分别别赋予一一定的数数值:UU(i,11),UU(i,22), ,UU(i,kki)。如如果当每每个属性性的水平平以及临临界值取取以下值值时:UU*(ii,1),UU*(ii,2),UU*(ii, kki);PP* 使使模型评评价标准准取最大大值,即即 L2=maxx(a11/a+b1/b)50% =500%+mmax(aa1/aab22/b)50% 或者使使模型识识别能力力取最大大值,即即maxx(a11/ab2/b),则则称U*(i,11),UU*(i,22), ,UU*(i,kki);P*为模型型的一个个最优解解。 三、赋植植方法利利用统计计的方法法 假假设属性性A中的的j水
10、平平有t比比例的人人属于购购买者,则则称A属属性j水水平对购购买的隶隶属程度度为t。将将t值赋赋予j水水平,依依据同 样的方方法,则则可以得得到每个个属性各各个水平平的赋植植。 利用用maxx L22=maax(aa1/aa+b11/b)50%或maax(aa1/aab22/b)求求出P值值。对于于第i个个人,若若 U11i+UU2i+UUmiPP,则判判断此人人为购买买者,否否则判断断为非购购买者。 可可以求出出属性AA的重要要程度=da/d。 其其中,dda=属属性A中中各水平平赋值的的标准差差,dd表示所所有属性性水平标标准差之之和。 此此种方法法比较简简单,经经济意义义也比较较明显。但
11、但这种方方法也有有比较明明显的缺缺陷:各各个属性性(指标标)之间间不能有有强的 相关性性,没有有考虑到到属性之之间的交交互影响响,得到到的解有有可能不不是最优优解等。 利用不不等式及及定义对对各水平平进行比比较精确确的赋值值 此此种方法法要求将将每个属属性的水水平赋予予合适的的值,赋赋值的范范围从-到+。规规则是若若第i个个人 UU1i+UU2i+UUmiPP 则判断断此人为为购买者者,否则则判断此此人为非非购买者者。利用用以下目目标求出出每个属属性各个个水平以以及P的的值: mmax L2=maxx(a11/a+b1/b)50%或maax(aa1/aab22/b) 其其中maax(aa1/a
12、a+b11/b)与与maxx(a11/ab2/b)是是等价的的。 为了了提高算算法的可可行性,本本文提出出并证明明以下两两点结论论: (11)结论论一 在一一个属性性中,给给各个水水平赋值值,有意意义的不不是各个个水平赋赋值的大大小,而而是要看看各个水水平之间间差距的的大小。也也就 是是说,在在一个属属性中,给给每个水水平同时时加上一一个常数数,不改改变分类类结果。 可可以证明明以下结结论: 假假设U*(i,11),UU*(i,22),UU*(i,kki); P*是分类类模型的的最优解解,其中中i=11,2,mm。则对对每个属属性各水水平的以以下赋值值:U*(i,11) +ai,U*(i,22
13、)+aai,U*(i,kki)+aai ;PP*+a1+a2+amm,i=1,22,m也也是分类类的一个个最优解解,其中中 a11,a2,amm是常数数。 可以以这样来来证明: 对于任任意第jj个人根根据第一一种赋值值方法即即U*(i,11),UU*(i,22), U*(i,kki);PP*,其中中i=11,2,mm 来判判断是购购买者(如如果是非非购买者者结论也也 是一一样的),则则 U*1j+UU*2j+UU*mj P* 那那么采用用赋值方方法:UU*(i,11)+aai,U*(i,22)+aai, UU*(i,kki)+aai;P*+a1+a2+ +aam,i=1,22,m,因因为不等等
14、式两边边同时加加上一个个常数不不改变不不等号方方向,所所以同样样可以得得到: (UU*1j+aa1)+(UU*2j+aa2)+( U*mj+aam)P*+a1+a2+amm 也也就是说说第二种种赋值方方法没有有改变任任何人的的分类,所所以若第第一种赋赋值方法法:U*(i,11), U*(i,22),UU*(i,kki);PP*,其中中i=11,2,mm能够使使L2 达到最最大,LL2=mmax(aa1/aa+b11/b)50%,或使使模型的的识别能能力达到到最大:maxx(a11/ab2/b),则则第二种种赋值方方法: U*(i,11)+aai,U*(i,22)+aai,U*(i, ki)+a
15、ai;P*+a1+a2+amm,i=1,22, mm也能够够使L22或模型型的识别别能力达达到最大大。 所以以说,若若U*(i,11),UU*(i,22),UU*(i,kki); P*,其中中i=11,2,mm是分类类模型的的一个最最优解;则第二二种分类类方法:U*(i,11) +ai,U*(i,22)+aai,U*(i,kki)+aai ;PP*+a1+a2+amm,i=1,22,m,并并且a11,a22,amm是常数数 ,也也是分类类模型的的一个最最优解,第第一个最最优解与与第二个个最优解解是等价价的。 利利用第一一个结论论,可以以令每个个属性中中的其中中一个水水平为零零,这样样做并不不改
16、变模模型的识识别能力力。在实实际应用用中,一一 般可可以令每每个属性性中购买买倾向最最小的水水平赋予予的值为为0,因因为在模模型中,是是大于临临界值为为购买者者,因此此,认为为其它所所有的水水 平值值都大于于0是比比较合理理的。 (22)、结结论二 若若U*(i,11),UU*(i,22),UU*(i,kki); P*是分类类模型的的最优解解,其中中i=11,2,mm;则aaU*(i,11),aaU*(i,22), ,aaU*(i,kki);aaP*也是分分类模型型的一个个最优解解,其中中a是不不等于00的常数数。 可分分两种情情况来证证明: 第第一种情情况,aa0 对对于任意意第j个个人,假
17、假设根据据第一种种赋值方方法:UU*(i,11),UU*(i,22), U*(i,kki);PP*,其中中i=11,2,mm判断为为购买者者,即,根根据第一一种赋值值方法可可 以得得到 U*1j+UU*2j+UU*mj P* 因因为不等等式两边边同时乘乘以一个个正数,不不等号方方向不变变。因此此,有 aaU*1j+aaU*2j+aaU*mj aP* 也也就是说说利用第第二种赋赋值方法法对任何何一个人人的判断断与第一一种方法法都相同同。因此此,若第第一种方方法使模模型的识识别能力力 达到到最大,则则第二种种方法也也同样使使模型的的识别能能力达到到最大。所所以说,若若U*(i,11),UU*(i,
18、22 ),UU*(i,kki);PP*,其中中i=11,2,mm是分类类模型的的一个最最优解,则则 U*(i,22),aaU*(i,kki);aaP*,其中中i=11,2,mm也是分分 类模模型的一一个最优优解。 第第二种情情况:aa0 对对于a0的情情况,只只需改变变一下判判断规则则(大于于或等于于临界值值时为非非购买者者,小于于临界值值时为购购买值),则则利用 类似的的方法,同同样可以以证明,若若U*(i,11),UU*(i,22),UU*(i, ki);PP*,其中中i=11,2,mm是分类类模型的的一个最最优解,则则U*(i,22), aU*(i,kki);aaP*,其中中i=11,2
19、,mm也是分分类模型型的一个个最优解解。 一般般情况下下,可以以限制aa0,这这样判别别规则就就不用改改了。 因因为在结结论一中中,已经经将各个个水平限限制在大大于等于于0的范范围内,并并且每个个属性中中购买倾倾向最小小水平的的赋值为为零。因因 此,一一般来说说,临界界值必然然大于00。否则则就会出出现只要要出现某某种水平平,就预预测为购购买者的的情况。因因此,总总可以在在不等式式的两 边同时时乘以一一个常数数,使临临界值PP为常数数,这样样并不改改变模型型的识别别能力。 每每个属性性水平的的取值可可以限制制在不超超过P的的范围内内,否则则会出现现只要出出现某个个水平的的值,就就必须判判断为购
20、购买者的的情 况况。 可以以取P=10,令令每个属属性中购购买倾向向最小水水平的赋赋值为00,其它它水平的的值在00与P之之间(这这里P取取10),然然后确定定一 定定的步长长,利用用叠代的的方法求求出最优优解以及及分类结结果。 四、案例例分析A公公司准备备推出一一款面向向儿童的的产品,采采用的方方式为一一对一销销售。AA公司购购买了数数量很大大的一批批名址,这这些名址址包 含含的属性性有:孩孩子的性性别、孩孩子的年年龄、孩孩子的爱爱好、孩孩子是否否经常参参加某种种集体活活动、父父母的学学历、父父母的职职业。营营销 人人员按照照数据库库中的名名址与顾顾客(儿儿童的父父母)进进行沟通通,经过过一
21、段时时间的实实践,发发现沟通通成本极极大,与与很多不不可能购购买 的的人的接接触浪费费了太多多的精力力。A公公司希望望能够更更准确的的找到潜潜在消费费者。 在在这里,就就可以利利用分类类模型。 AA公司共共接触了了25000人,其其中3772人购购买了产产品,221288人没有有购买产产品。我我们采用用计算机机随机抽抽样的方方法,将将25000 人人分成两两组,每每组12250人人,每组组购买者者的比例例基本一一样。我我们用第第一组数数据来估估计模型型的参数数,第二二组数据据用来检检验模型型 。以以下分别别用上面面提到的的两种方方法来求求解分类类模型。 1、利利用统计计的方法法赋值 利利用每个
22、个水平中中购买者者占的比比重作为为该水平平的赋值值。可以以得到以以下赋值值结果: 属性水平孩子性别别男女赋值0.23330.1115孩子年龄龄1-34- 667-910-11213-11415岁及及以 上上赋值0.011290.077360.100730.477950.433750.51192父母职业业第一类职职业第二类职职业赋值0.244930.05596父母学历历硕士及以以上本科或大大专高中初中赋值0.50.23340.08841110.0882422孩子爱好好无第一类爱爱好第二类兴兴爱好赋值0.099360.088140.25574孩子是否否经常参参加集体体活动否 是赋值0.111560
23、.21199 按照照以上赋赋值方法法,可以以得到每每个人的的得分在在0.446与11.888之间。 为为了找到到最合适适的临界界值,从从而使LL2=(aa1/aa+b11/b)50%或a11/ab2/b 的的值最大大。可以以在0.46与与1.888之间间计算 出在不不同的PP值下,模模型拟合合优度LL2=(aa1/aa+b11/b)50%与模型型识别能能力a11/ab2/b 的的值。可可以得到到下图: 从从图中可可以看出出,在PP*=1.14时时,模型型拟合优优度与模模型识别别能力同同时达到到最大。模模 型拟拟合优度度L2=0.7794,模模型识别别能力=0.5587,因因此,取取临界值值P*
24、=1.14。按按照以上上赋值方方法,当当某个人人得分大大 于11.144时,就就判断该该人为潜潜在购买买者;而而当得分分小于或或等于11.144时,就就判断该该人为非非潜在购购买者。 可可以求出出,a11/(aa1+bb2)=37%,也就就是说在在利用上上述分类类模型选选出的人人中,将将来可能能会有337%的的人购买买产品,与与不 利利用模型型时相比比(144.888%),精精确度有有了很大大的提高高。 但是是,也有有一部分分购买者者被误判判为非购购买者,从从而损失失了一部部分市场场,这部部分人占占全部可可能购买买者的比比例为: a22/a=33%,这属属于利用用模型获获得高精精确度的的代价。
25、 可可以求出出各个属属性对于于判别是是否是购购买者的的归一化化重要程程度: 孩子性别别 孩子年龄龄父母职业业父母学历历孩子爱好好孩子是否否经常参参加集体体活动归一化 的重要要程度7.9%21.88%12.77%18.66%9.3%29.77%利用用得到的的 模型型在第二二组数据据中进行行预测,可可以得到到: LL2=(aa1/aa+b11/b)50%=0.7866, aa1/aab22/b=0.5572 因因此,第第一种方方法得到到的模型型预测能能力还是是比较好好的,可可以用来来预测。 2、利利用不等等式及定定义对各各水平进进行比较较精确的的赋值 利利用第二二种方法法,可以以得到各各水平比比较
26、精确确的赋值值。 令临临界值PP*=100,每个个属性购购买倾向向最小的的水平赋赋值为00。利用用叠代的的方法,可可以得到到最优解解时的赋赋值 。 属性水 平孩子性别别男女 赋值1.10孩子年龄龄1-34-67-910-11213-11415岁及及以上 赋值00.49980.77743.82263.48824.1552父母职业业第一类职职业第二类职职业赋值1.6990父母学历历硕士及以以上本科或大大专高中初中赋值3.7991.3440.01150孩子 爱爱好无第一类爱爱好第二类兴兴爱好赋值0.177402.311孩子是否否经常参参加集体体活动否是赋值00.855按照照以上赋赋值,当当某个人人的
27、得分分大于110时,就就判断为为购买者者,当得得分小于于 或等等于100时,就就判断为为非购买买者。 模模型拟合合优度LL2=00.811,模型型识别能能力=00.622,与第第一种方方法略好好一些。但但预测能能力略差差一些。利利用得到到的模型型, 在在第二组组数据中中进行预预测,结结果为: L2=(a11/a+b1/b)50%=0.7599 a1/abb2/bb=0.5188 不如第第一种方方法的预预测。因因此,利利用第一一种比较较简单的的方法基基本可以以满足一一般的分分类要求求(但第第一种方方法在选选属 性性时要注注意属性性之间不不能有强强的相关关性)。11.21.202203:2503:25:5322.11.213时25分3时25分53秒11月. 21, 2221 十一月 20223:25:53 上午03:25:532022年11月21日星期一03:25:53