《基于因子分析和聚类分析的客户偏好探究(共13页).doc》由会员分享,可在线阅读,更多相关《基于因子分析和聚类分析的客户偏好探究(共13页).doc(13页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上基于因子分析和聚类分析的客户偏好探究一 文献综述 二十世纪五十年代中期,美国学者温德尔史密斯提出了顾客细分理论。该理论指出,顾客由于其文化观念、收入、消费习俗等方面的不同可以分为不同的消费群体。企业在经营中应该针对不同的顾客提供针对性的服务,这样才能够利用有限资源进行有效的市场竞争。对顾客的细分从方法上讲有根据人口特征和购买历史的细分和根据顾客对企业的价值即基于顾客的消费金额、消费频率的细分。本文的细分是基于购买历史和人口特征的聚类分析。饭店作为一个古老的服务行业,在现阶段的高度竞争市场下的发展趋势最重要的方面便是服务趋于个性化,所以针对饭店的消费群体特征的聚类可以对
2、饭店进行定位,在此基础上通过分析目标客户群体对消费质量评价的最主要影响因素可以达到其服务个性化的目标。波特把顾客的价值定义为买方感知性与购买成本的一种权衡。对顾客的个性化服务增加了买方的感知度从而加大了他们愿意为此付出的成本,于是饭店便可以增加营业额。聚类分析是把研究对象视作多维空间中的许多点, 并合理地分成若干类,即一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系。 李蓉, 李宇. 基与主成分分析与聚类分析方法的我国西部区域划分问题的研究. 科技广场, 故聚类算法是对顾客进行分析的一个有效方式。在聚类分析的众多算法中因子分析是研究如何以最少的信息
3、丢失, 将众多原始变量浓缩成少数几个因子变量, 以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。 李新蕊.主成分分析、因子分析、聚类分析的比较与应用. 山东教育学院学报.而典型的k-means算法以平方误差准则较好地实现了空间聚类,对于大数据集的处理效率较高。 杨善林.kmeans 算法中的k 值优化问题研究 系统工程理论与实践在对顾客细分相关文献的研究过程中,主要运用的方法有神经网络,分层聚类,因子分析等方法。比如,在关于网络青少年用户的分类中,作者用层次聚类的方法,通过对青少年年龄,性别,民族,网络可得性,父母的观点等变量等变量定义不同的上网动机,在此基础上对其进行了分类。而在
4、研究人寿保险持有者未来购买基金支持寿险可能性的文章中,通过灰度聚类和神经网络利用消费者的基本信息,财产地位信息,风险承受程度将消费者分为了忠实客户和非忠实客户。在对客户忠诚度的聚类中,作者用RFM的商业模型用DBI确定了Kmeans的最优K值,并最终用kmeans对客户忠诚度进行了聚类。经过综合分析,我们选择了这两种方法处理顾客数据和饭店的基本资料。即,通过k-means对客户进行聚类后通过因子分析分析不同类别客户的评价影响因素。为分析每类客户倾向的饭店特征,本文根据客户聚类结果对饭店数据进行筛选。由于饭店部分属性之间具有相关性,本文采用因子分析法挖掘其“根本属性”,之后对饭店数据进行聚类,分
5、析得到每类客户评价得分最高的饭店特征。二 方法论本文选取UCI上的数据(包括饭店、客户、评价得分等信息),旨在通过划分客户群体并分析每一类客户对不同饭店的评价得分,得出每一类顾客选择饭店的倾向,即特定类别客户的喜好和评价饭店时最看重的因素。将结论应用于指导饭店发展路线与目标客户群间的战略匹配。具体方法步骤如下: 1 根据详细的客户信息对客户进行K-means聚类,总结出每一类客户的显著特点2 客户偏好的研究饭店的多个属性之间存在相互影响的关系,因此本文在研究饭店特点采用因子分析法,将相同本质的属性归入一个因子,既可减少变量的数目,又能得出能够表征饭店属性的影响因子。在因子分析的基础上,对同类顾
6、客所评价的饭店进行聚类分析,得到每类顾客所选饭店的种类。然后分析比较各类饭店的特点,选出影响最大的因子(依据系数绝对值大小来判断),参照因子旋转矩阵后即可得到对顾客评分影响最大的饭店属性,从而分析出特定类别顾客在选择、评价一家饭店时的偏好。Figure 1 研究框架三 研究过程(一) 顾客聚类分析:在顾客信息的属性中删去User ID,其余属性作为输入字段进行K均值聚类。模型中的K值默认为5,但是分类结果中不同类型间的差异较小,随即降低K值进行尝试。考虑到顾客评分分为0,1,2三个等级,而且K=3时分类结果间的差异较显著,因此将顾客分为三类。Cluster 1:此类顾客人数最多,出生日期在19
7、86年之后,绝大多数人学生,其次是工作者,主要同家人一起就餐;基本不饮酒;兴趣点主要为technology;绝大多数未婚,性格为thrifty protector Catholic为主 ;基本不吸烟;公交Cluster 2:此类顾客人数最少,年龄最大,不愿多透漏个人信息(数据中有大量缺失值)。Cluster 3:此类顾客人数居中,出生年份在1981左右,主要为学生、工作者 多与朋友一起就餐,大多属于social drinker。多数人是单身,但是单身比率高于类型1,性格为hard-worker,car-owner为主。聚类分析结果如下图所示:Figure 2 顾客的聚类结果(二) 顾客偏好分析
8、本文通过分析每类顾客关注饭店的特征提取分析顾客的偏好,从而便于饭店把握顾客需求,指定差异化战略。1. 因子分析i. 评价指标的选择及数据预处理影响顾客在饭店消费体验的影响性变量,本文主要筛选如下:alcohol,smoking_ area,dress_ code,accessibili1y,price,Rambience ,Franchise, area, parking, acceptance, other service。由于因子分析需要数值型数据,本文对饭店数据中定性的变量量化处理。统计学依据数据的计量尺度将数据划分为三类:定距型数据(Scale)、定序型数据(Ordinal)、定类型数
9、据(Nominal)。定距型数据通常是指诸如身高、体重、血压等的连续型数据,也包括诸如人数、商品件数等离散型数据;定序型数据具有内在固有大小或高低顺序,职称变量可以有低级、中级、高级三个取值,可以分别用1、2、3等表示,数据间却是不等距的。测量数值不能直接比较大小,只能比较优先次序。定类型数据是指没有内在固有大小或高低顺序,一般以数值或字符表示的分类数据。如性别变量中的男、女取值。本文采用的数据中,饭店的属性包含多个定序型变量,如other-variance包含none,Internet 和variety三类;Accessibility包括no_accessibility,completely
10、和partially三类。本文采用0、1、2代表上述属性中的值,0、1、2代表依次递增,即0表示no_accessibility,1表示partially,2表示completely。此外,数据集中还有定类型的数据,如franchise有True和false两种取值。本文中将却是指用该属性取值的平均值替代。012alcoholnowine/beerfull barsmoking_areanot permittedsection/only at barpermitteddress_codeinformalcasualaccessibilitynone partiallycompletelypri
11、cehighmediumlowRambiencequietfamiliarfranchiseFALSETRUEareaclosedopenother_servicesnone InternetvarietyFigure 3 因素量化ii. 因子分析由于饭店的属性之间部分具有相关性,本文采用spss进行因子分析来消除这种相关性。对饭店数据库中的影响性变量相关数据进行因子分析,所得结果见Figure 4。从Figure 4中可以看出,前八个因子的累计方差贡献率已经达到86.028%。根据累计方差贡献率85%的标准,本文选择前八个作为因子进行分析。Figure 4 初始特征矩阵为了更好地赋予所得因子
12、以合理的解释意义,本文进行了因子旋转,因子载荷矩阵见Figure 5,从表中的因子载荷可以看出,第一个因子(F1)可以用来解释price,第二个因子(F2)可以用来解释alcohol,第三个因子(F3)可以用来解释smoking-area,第四个因子(F4)可以用来解释Franchise,第五个因子(F5)可以用来解释Rambience,第六个因子(F6)可以用来解释dress_code,第七个因子(F7)可以用来解释Cuisine,第八个因子(F8)可以用来解释Parking,八大因子的累计方差贡献率可以反映顾客对饭店的满意程度。Figure 6 因子载荷矩阵根据表,可由因子方差贡献率计算得
13、出因子解释贡献率(因子解释贡献率=因子方差贡献率/总方差贡献率),从而得到各饭店的因子得分数据,具体数据如附录所示。Figure 7 提取平方和载入矩阵iii. 饭店聚类分析为分析每类顾客偏好的饭店类型,本文针对每类顾客评价过的饭店进行聚类分析,希望找出具有不同评分的各类饭店的显著性特征。本文采用K-means方法对各类顾客评价过的饭店数据进行聚类分析。以cluster 1客户为例,筛选出cluster 1 客户评分过的饭店因子得分数据,对该部分数据进行聚类分析。由于顾客对饭店的评分分为三类(0,1,2),此处对饭店聚类K值选取为3.计算每类饭店的客户评分平均值,可得出cluster 1客户最
14、偏好的饭店类别。通过分析该类饭店的显著性特征,可得出cluster 1客户最偏好的饭店特征。判断cluster 1 偏好的饭店特征具体步骤如下:1) 筛选出cluster 1 评价过的饭店因子得分数据。2) 对该数据应用k-means进行聚类分析,k取值为3.3) 分析每类饭店的显著性特征4) 计算每类饭店的平均客户评分并对三类饭店进行排名。5) 分析排名第一的饭店(cluster 1 客户最偏好的饭店)的显著性特征。在解释聚类分析的结果时,本文采取每类累计方差解释度较高的因子解释每类饭店的特征。综合考虑各类顾客各类饭店的数据分析结果我们可以看到,无论是哪类饭店F4、F5、F6均具有较高的方差
15、解释度,因此可以看出无论是哪类顾客都是比较看重F4、F5、F6这三类因子的,结合Figure 6(因子载荷矩阵),可以分析得出Franchise、Rambience、dress_code是所有饭店都考虑的普遍性因素。考虑每类饭店除F4、F5、F6之外的因子影响程度,可分析得出不同顾客对饭店的差异化要求,便于饭店针对顾客指定差异化战略。对cluster 1 参与评价的饭店评价因子得分数据进行聚类分析,其结果如Figure 8所示。可以看出除F4、F5、F6之外聚类一饭店的特征还可用F2解释,结合Figure 6,可以分析得出除了cluster 1的顾客对alcohol是较为关注的。同理聚类二的饭
16、店特征除F4、F5、F6之外还可用F1进行解释,因此cluster 1 的顾客对Price是较为关注的。聚类三的饭店特征还可用F7进行解释,因此cluster 1 的顾客对Cuisine是较为关注的。计算三类饭店的客户评分平均值,得到cluster 1的客户对于聚类1的饭店评分是最高的,可以看出可分析得出该类客户是最看重的差异化服务是alcohol。Figure 8 cluster 1 客户聚类分析结果为分析cluster 2客户的差异化要求,对cluster 2 参与评价的饭店评价因子得分数据进行聚类分析,其结果如Figure 9所示。可以看出除F4、F5、F6之外聚类一饭店的特征还可用F7
17、解释,结合Figure 6,可以分析得出除了cluster 2的顾客对cuisine是较为关注的。同理聚类二的饭店特征除F4、F5、F6之外还可用F2进行解释,因此cluster 2 的顾客对alcohol是较为关注的。聚类三的饭店特征还可用F1进行解释,因此cluster 2 的顾客对price是较为关注的。计算三类饭店的客户评分平均值,得到cluster2的客户对于聚类1的饭店评分是最高的,可以看出可分析得出该类客户是最看重的差异化服务是cuisine。Figure 9 cluster 2 客户聚类分析结果为分析cluster 3客户的差异化要求,对cluster 3参与评价的饭店评价因子
18、得分数据进行聚类分析,其结果如Figure 10所示。可以看出除F4、F5、F6之外聚类一饭店的特征还可用F1解释,结合Figure 6,可以分析得出除了cluster 3的顾客对price是较为关注的。同理聚类二的饭店特征除F4、F5、F6之外还可用F2进行解释,因此cluster 3 的顾客对alcohol是较为关注的。聚类三的饭店特征还可用F8进行解释,因此cluster 3的顾客对parking是较为关注的。计算三类饭店的客户评分平均值,得到cluster3的客户对于聚类3的饭店评分是最高的,可以看出可分析得出该类客户是最看重的差异化服务是parking 。Figure 10 clus
19、ter 3 客户聚类分析结果对应三类顾客的自身特征与其偏好,本文对顾客偏好的分析基本符合顾客自身特征。Figure 11 顾客偏好四 结论本文综合使用了聚类分析和因子分析,分析出了不同类型顾客的特点,以及每类顾客的选择、评价饭店的偏好。所得结论对饭店的经营和战略制定有极其重要的指导意义。以第三类顾客为例,顾客主要为1981年左右出生的年轻人,多与朋友一起就餐,绝大多数拥有私家车。该类顾客评价过的饭店进行聚类分析后,发现顾客非常关注泊车这一饭店属性。因此,当某饭店制定差异化战略时,如若想吸引上述第三类客户,除了关注dress_code, ambience 和franchise这三个具有普遍性的属
20、性外,还应针对该种顾客的特点尽量提供停车位,以吸引更多的顾客。五 参考文献1. Asegmentationofadolescentonlineusersandshoppers William W. Hill, Ph.D. Sharon E. Beatty, Ph.D. Gianfranco Walsh, Ph.D.2. Cluster analysis using data mining approach to develop CRM methodology to assess the customer loyalty Seyed Mohammad Seyed Hosseini *, Anah
21、ita Maleki, Mohammad Reza Gholamian3. An anticipation model of potential customers purchasing behavior based on clustering analysis and association rules analysis Horng-Jinh Chang a, Lun-Ping Hung b,*, Chia-Ling Ho 4. A two-stage clustering method to analyze customer characteristics to build discrim
22、inative customer management: A case of textile manufacturing business Der-Chiang Li a, Wen-Li Dai b, Wan-Ting Tseng a5. Distributing weights under hierarchical clustering: A way in reducing performance breakdown Jin Zhang a, Dietmar Maringer b6. 李蓉, 李宇. 基与主成分分析与聚类分析方法的我国西部区域划分问题的研究. 科技广场, 7. 李新蕊.主成分
23、分析、因子分析、聚类分析的比较与应用. 山东教育学院学报.8. 杨善林.kmeans 算法中的k 值优化问题研究 系统工程理论与实践9. 奚胜田 詹原瑞 韩著钊 因子分析与聚类分析在企业信用评级中的应用 附录一:饭店因子得分数据placeIDf1f2f3f4f5f6f7f8-0.0540.2.0.1.1.1.1.-1.31120.-0.083530.1.0.90689-0.019480.-1.31120.-0.083530.1.0.90689-0.019480.-1.173410.0.0.1.0.0.0.-0.916990.0.0.1.1.1.1.-0.575420.-0.023861.1.5
24、85160.-0.180580.-1.109980.0.0.1.0.-0.132231.-0.87570.1.1.0.1.0.1.-1.010560.0.1.0.0.0.0.62026-0.503980.495981.281751.1.1.0.0.-0.410250.0.2.1.0.0.0.-1.31120.-0.083530.1.0.90689-0.019480.-1.31120.-0.083530.1.0.90689-0.019480.-1.31120.-0.083530.1.0.90689-0.019480.-1.31120.-0.083530.1.0.90689-0.019480.-1
25、.31120.-0.083530.1.0.90689-0.019480.-1.156050.0.1.541731.584890.0.-0.22226-1.31120.-0.083530.1.0.90689-0.019480.0.0.0.1.1.0.-0.199151.0.0.0.0.0.0.-0.14319-0.03596-0.161170.482570.0.571281.0.0.1.-0.253041.0.0.2.0.-0.087811.-1.022760.0.0.1.-0.32442-0.09096-0.174860.0.0.3.2.0.0.-0.15897-0.983790.1.0.1.
26、0.0.-0.292310.0.-0.031720.1.0.-0.20414-0.18550.1.0.058382.1.0.-0.282480.0.0.0.0.1.0.0.0.0.2.1.1.1.81927-0.139671.0.0.0.0.1.1.-0.330580.-0.523250.0.2.0.1.0.1.-0.32854-1.055230.0.0.1.0.63358-0.12681-0.09006-1.31120.-0.083530.1.0.90689-0.019480.0.0.0.0.1.-0.01525-0.004911.0.0.0.0.1.0.-0.18266-0.108370.
27、-0.003172.0.1.0.1.-0.234790.-0.023630.0.0.0.-0.083850.-1.173410.0.0.1.0.0.0.-0.104971.-0.015191.2.0.0.0.-1.137271.-0.034290.1.0.0.-0.1598-1.146030.0.0.1.0.0.-0.274280.0.0.3.2.0.0.-0.4520.1.-0.052782.2.4815-0.725170.0.-0.686730.-0.007830.1.0.0.0.0.0.0.0.1.0.0.0.-0.040170.0.0.1.097620.0.-0.120020.0.0.
28、1.1.0.0.1.1.1.1.3.1.0.0.0.-1.31120.-0.083530.1.0.90689-0.019480.-1.31120.-0.083530.1.0.90689-0.019480.-1.200790.678560.0.1.0.0.1.-0.926731.1.0.0.-0.160771.-0.27361-0.620380.1.317280.1.1.1.-0.39203-0.529261.-0.194060.1.0.-0.20542-0.14815-1.290372.0.0.0.1.1.-0.22784-1.140940.0.0.1.-0.169140.0.0.0.0.2.
29、1.0.0.0.-0.371762.0.3.2.0.0.-1.261140.0.0.3.1.0.0.-1.494540.3.0.1.2.067220.-0.24381-0.995420.0.447930.1.1.0.0.-0.056441.1.0.1.1.0.0.0.0.0.0.04091-0.171030.90381.0.0.0.549230.0.0.1.0.-0.165160.1.0.0.1.1.-0.23852-0.232640.0.0.984051.351120.1.1.0.1.0.0.0720.0.0.0.897640.0.0.0.0.0.1.0.-0.18266-0.108370.
30、1.-0.002852.2.0.-0.33685-0.032540.-0.024620.1.0.0.-0.1349-0.056340.0.0.0.1.0.-0.03534-0.108070.0.0.0.1.0.-0.18266-0.10837-0.017923.1.1.2.0.0.0.-1.432530.0.0.1.0.0.0.01875-0.104940.0.1.1.13320.96711.1.817361.427330.0.2.1.0.31858-0.35914-0.987460.1.-0.07986-0.436240.0.0.0.1.0.0.1.1.522830.34447-0.3389
31、3-0.872981.0.0.1.1.522830.34447-0.33893-0.872980.0.0.0.0.0.0.81673-0.211091.0.0.1.1.0.0.1.1.0.0.2.1.0.-0.1975-1.088591.0.0.2.1.0.0.-0.999411.0.547210.2.1.0.0.-0.158160.0.0.0.1.0.-0.02102-0.2095-0.031820.148860.0.1.1.1.0.1.0.952480.1.1.0.-0.430140.0.0.0.08740.282061.0.0.-0.005830.0.0.0.1.0.0.-0.12031
32、0.0.0.0.1.0.0.-0.120310.0.0.0.1.0.0.-0.120311.0.-0.063510.1.-0.25352-0.335460.570660.0.0.1.1.0.0.0.1.0.0.674341.1.0.-0.268490.1.1.0.1.1.0.0.0.0.0.0.0.1.0.0.-0.120311.1.0.1.1.0.-0.488970.0.0.0.0.1.0.967970.-0.20921.1.0.005231.1.0.0.-0.477711.0.547210.2.1.0.0.-0.158161.0.0.1.1.0.0.0.2361.0.0.2.1.0.539
33、82-0.34753-0.146211.323111.0.1.1.0.0.-0.043380.0.0.2.1.0.640250.1.2310.0.0.777380.1.1.1.0.0.0.0.0.1.0.0.-0.120310.0.0.0.1.0.0.0.0.0.0.0.1.0.-0.18266-0.108371.0.0.1.1.0.-0.450350.1.1.0.1.1.0.-0.32461-0.97441.0.0.674341.1.0.-0.268490.-0.058780.0.0.1.0.860840.0.0.0.0.0.1.0.-0.18266-0.108371.1.0.1.1.0.0.0.1.0.0.2.1.0.0.-0.999411.1.0.1.1.0.0.-0.043671.1.0.1.1.0.0.1.0.0.0.0.1.0.0.0.1.1.0.1.1.0.-0.488970.1.0.0.1.1.0.570790.61814-0.413641.0.0.2.168971.0.-0.34482-1.088891.0.0.1.1.0.-0.30031-0.694430.0.0.0.1.0.-0.18266-0.108370.0.0.0.1.0.0.1.0.0.249370.2.284931.0.0.0.0.0.0.0.0.323740.0.1.专心-专注-专业