《一种基于加权非负矩阵分解的多维用户人格特质识别算法-王萌萌.pdf》由会员分享,可在线阅读,更多相关《一种基于加权非负矩阵分解的多维用户人格特质识别算法-王萌萌.pdf(16页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第39卷第12期 计 算 机 学 报 v01-39 No122016年12月 CHINESE JOURNAL OF COMPUTERS Dec2016一种基于加权非负矩阵分解的多维用户人格特质识别算法王萌萌 左万利 王 英 王 鑫(吉林大学计算机科学与技术学院长春130012)(吉林大学符号计算与知识工程教育部重点实验室 长春 130012)摘要随着社会媒体的普及,用户信息的爆炸式增长为深入理解在线用户行为提供了非常丰富的信息源由于用户人格特质是用户行为的主要驱动力,人格特质的差异可能会对用户的在线行为产生一定的影响,因此,用户人格特质识别问题近年来受到了众多学者的关注首先,基于用户网络结构信
2、息和用户发布内容信息序列构建用户人格特质识别特征,并根据特征重要性为其分配权重然后,以用户人格特质相关因子约束目标函数,从用户社会网络结构特征、语言学特征和情感特征三个维度利用非负矩阵分解方法识别社会网络中用户的五大人格特质最后,在真实的数据集上验证了提出框架的有效性,并通过实验以更细的粒度进一步验证了用户人格特质之间相关性的存在,同时证明了特征权重和用户人格特质问的相关性在用户人格特质识别问题中的重要性文中为社会网络中的多维用户人格特质识别问题提供了一种新思路关键词多维用户人格特质识别;非负矩阵分解;用户人格特质相关因子;五大人格特质;社交网络中图法分类号TPl8 DOI号1011897SP
3、J1016201602562A Multidimensional Personality Traits Recognition Model Based onWeighted Nonnegative Matrix FactorizationWANG Meng-Meng ZUO WanLi WANG Ying WANG Xin(Department of Computer Science and Technology,Jilin University,Changchun 130012)(Key Laboratory of Symbolic Computation and Knowledge Eng
4、ineering(Jilin University),Ministry of Education,Changchun 130012)Abstract With the pervasiveness of social media,the explosion of usersgenerated dataprovides a potentially very rich source of information for online researchers understanding userSbehaviors deeplySince userS personality traits are th
5、e driving force of userS behaviors andindividual differences in users personality traits may have an impact on users online activities,as a consequence,userS personality traits recognition has attracted increasing attention in recentyearsOn the basis of userS network structure information and series
6、 of posts information,wefirst build userS personality traits recognition features,followed by distributing weights tO featuresaccording tO their different importanceAnd then,we utilize nonnegative matrix factorization tOrecognize userS Big Five personality traits from hisher network structure featur
7、es dimension,linguistics features dimension and emotion features dimension by employing personality traitscorrelation factor tO constrain objective functionExperiments on real-world Facebook datasetdemonstrate the effectiveness of the proposed frameworkFurther experiments are conducted not收稿日期:20151
8、0-10;在线出版日期:2016-0302本课题得到国家自然科学基金(61300148,61602057)、吉林省科技发展计划(20130206051GX)、吉林省科技计划(20130522112JH)、中国博士后基金(2012M510879)、吉林大学基本科研业务费科学前沿与交叉项目(201103129)资助王萌萌,女,1987年生,博士研究生,主要研究方向为数据库、社会网络分析、数据挖掘、机器学习E-mail:wmmwwlh126corn左万利,男,1957年生,博士,教授,主要研究领域为数据库、社会网络分析、数据挖掘、机器学习王英(通信作者),女,1981年生,博士,副教授,主要研究方向
9、为数据库、社会网络分析、数据挖掘、机器学习E-mail:wangyin92010ilueducrt王,男,1981年生,博士,讲师,主要研究方向为数据库、社会网络分析、数据挖掘、机器学习万方数据12期 王萌萌等:一种基于加权非负矩阵分解的多维用户人格特质识别算法 2563only to validate the existence of the correlations between userS personality traits from a morefinegrained view,but also understand the importance of different feat
10、ureS weight and theimportance of the correlations between userS personality traits in recognizing userS personalitytraitsWhatS more,we provide a new train of thought for multidimensional personality traitsrecognition in social networksKeywords multidimensional personality traits recognition;nonnegat
11、ive matrix factorization;personality traits correlation factor;Big Five personality traits;social networks1 引 言作为一种新型的信息传播媒介,社会网络已经成为一种被人们广泛认可并使用的社交方式1尽管网络中的一些用户为了达到自我展示的目的,发布一些关于自己的非“真实”的照片和生活状态,社会网络中海量的用户内容仍然为用户行为的相关研究提供了宝贵的资源4心理学家认为,用户人格特质是用户行为的主要驱动力,人格特质的差异可能会对用户的在线行为产生一定的影响口因此,研究用户人格特质能够帮助人们更好地
12、理解社会网络中的用户行为例如,可以利用用户人格特质预测用户对Facebook的接受情况7:具有责任型人格特质的用户在使用Facebook的过程中会有所保留;具有外向型人格特质的用户会经常使用Facebook并在其中结交很多朋友;具有神经质性人格特质的用户会进行高频率的交互活动此外,用户人格特质还有助于优化搜索结果8、分析社会影响力93、对人群中拥有共同特质的个体进行聚类10及预测客户的满意度和忠诚度11|总之,用户人格特质识别在挖掘用户行为模式和获取用户潜在需求方面具有重要的理论意义及广阔的应用前景然而,Lee等人12指出能够反映用户人格特质的特征逐渐趋于复杂化,因此就其本质而言,用户人格特质
13、是难以识别的一般地,心理学家认为用户人格特质是一种长期的用户在思想上、情感上和行为上的表现出来的独特模式1 31“,其主要反映在用户对待事物采取的态度和行为上1 5|,故通过挖掘海量的用户发布状态中蕴含的用户语言学与情感特点以识别用户人格特质是一种可行的方法然而,通过深入分析可以发现,现有方法中大多没有考虑用户人格特质问的相关性对用户人格特质识别结果的影响,因此,本文提出了一个基于加权非负矩阵分解的用户人格特质识别模型(Weighted NonnegativeMatrix Factorization Model for MultidimensionalPersonality Traits Re
14、cognition,WNMFMPTR),主要贡献如下:(1)首次根据用户人格特质的不同级别对用户进行分组处理,并采用两种相关性度量方法验证了不同级别的用户人格特质之间弱相关性的存在(2)首次利用用户人格特质相关因子约束目标函数,将识别问题转化为求解社会网络特征、语言学特征和情感统计特征三个维度的加权非负矩阵分解最优解问题,有效地降低了时间复杂性并且使其能够对用户的多维人格特质进行准确识别本文第2节介绍相关工作和当前研究现状;第3节对用户人格特质识别特征进行了分析;第4节详细地阐述了提出的用户人格特质识别模型;第5节利用真实社会网络数据集验证提出方法的有效性;第6节给出结论与下一步工作2 相关工
15、作由于针对社会网络中用户行为的研究已经成为一个研究热点,因此,用户人格特质识别问题在理论和实践上均得到了广泛的关注现有用户人格特质识别算法大致可以分为两类:一类是基于用户语言学特征的方法;另一类是将用户语言学特征与用户社会网络特征相融合的综合方法第一批致力于此研究领域的是Argamon等人和Mairesse等人1 61基于文献17中提出的essay语料,Argamon等人利用SMO18对外向型人格特质和神经质型人格特质进行识别,并获得5760的准确率Mairesse等人1明将LIWC和MRC两个词典资源作为特征,分别通过SVMEl83和M5模型19对用户人格特质分数和类别进行识别,实验结htt
16、p:epfintspascalnetworkorgarchive00001492Olargamon-etal-esnapdf万方数据2564 计 算 机 学 报 2016年果显示,利用提出的方法,用户人格特质的识别精确度范围在54和62之间Oberlander和Nowsoncz0将咒元语法作为特征,分别利用SMO和朴素贝叶斯学习算法1胡识别用户的五大人格特质,并取得了较高的精确度(8393,在责任型人格特质的识别中取得了最佳的精确度,但并未对开放型人格特质进行识别),同时通过实验指出特征选择过程对于提升算法性能的重要性然而,若将上述训练好的分类器应用于较大规模的数据集时,会发生过拟合现象,从而
17、导致精确度下降到55Nguyen等人2妇首先抽取心理学特征和用户发布文本的情感倾向特征,然后利用SVM分类器识别社会链接,从而预测用户的影响力以及人格特质但该方法仅能判断用户有无影响力、用户人格特质的内向和外向,缺少对用户人格特质更细粒度的识别上述基于用户语言学特征的方法的精确度普遍不高,主要是由于一个数据集中不可能包含用户发布的所有信息,故其收集到的用户发布文本信息是有限的,其所反映的用户语言学特征也较为片面,因而准确识别用户人格特质存在一定的困难而用户的网络活动(如用户间建立链接)亦受用户人格特质的影响因此,一些学者将社会网络特征引入用户人格特质识别算法中,以提高算法的准确度Golbeck
18、等人z2基于结构化特征(链接)和语义特征,利用M5和Gaussian模型231计算特征集合与用户的五大人格特质之问的关联程度,从而识别279名Facebook用户的人格特质基于用户的朋友数和该用户最近发布的一条状态,Bai等人241使用C45算法18对人人网335名用户的人格特质进行识别,实验结果表明,通过融合用户网络结构特征和从用户发布状态中抽取的语言学特征,该方法的准确率能够达到6972Bai等人25基于从新浪微博中抽取的29种用户行为特征,分别提出一种多任务回归算法和一种增量回归算法以识别用户的五大人格特质,实验结果表明,通过用户在线微博的使用情况能够较为准确地对用户人格特质进行识别Su
19、n等人263通过实验表明,无需任何显著的增加或修改,认知框架可以作为一个通用的用户人格特质识别模型,同时还验证了结合用户人格特质模型与通用计算认知模型的可行性和有效性此外,2013年在ICWSM(The InternationalAAAI Conference on Weblogs and Social Media)会议人格特质识别的专题研讨会中,大会基于Facebook用户人格特质标准数据集中的文本和网络结构对不同的人格特质识别算法进行了系统地比较Verhoeven等人27提出了一种元学习方法以识别用户的五大人格特质,实验结果表明其可以扩展为其他系统中的某些组件分类器,甚至是除英语外其他语言
20、的分类器Farnadi等人2胡分别利用SVM、k近邻18和朴素贝叶斯方法从用户的发布状态中自动识别用户人格特质,并通过实验证明,即使对于小规模的训练数据集,提出方法的性能仍高于大多数基线方法基于从Facebook中抽取的特征集合,Alam等人29对SVM、贝叶斯逻辑回归(BayesianLogistic Regression,BLR)303和多项式贝叶斯(Multinomial Naive Bayes,mNB)3u三类分类算法的性能进行了比较,实验结果表明在Facebook用户人格特质识别问题中,mNB的性能要优于SVM和贝叶斯逻辑回归方法Tomlinson等人E32采用排序算法进行特征选择,
21、并将逻辑回归模型(LogisticRegression,LR)3朝作为学习算法对Facebook用户人格特质进行识别,取得了较好的实验结果然而,现有用户人格特质识别工作仍然存在一些不足:(1)多数研究假设用户人格特质之间不存在或者存在较小的相关性3引,且在算法中并不考虑该因素对用户人格特质识别结果的影响,然而,正如“弱链接”在链接预测中发挥着重要的作用一样,人格特质问的这种“弱相关”亦在用户人格特质识别中扮演着不容忽视的角色353;(2)尽管不同特征在用户人格特质识别中发挥着不同的作用20,36-37,但仅有一小部分学者在识别用户人格特质时将特征与用户人格特质之间的相关性考虑在内2 8】此外,
22、目前并没有用户人格特质识别算法在量化不同特征重要性的同时又对用户人格特质之间的相关性加以考虑综上,如何在算法中刻画用户人格特质问的弱相关性以及如何构建用户人格特质识别模型以合理地融合多维特征都是非常具有挑战性的工作针对上述问题,本文提出了一个基于加权非负矩阵分解的识别模型以提高社会网络中多维用户人格特质识别的精度3用户人格特质相关特征建模31 用户人格特质识别特征定义分析能够反映用户人格特质的特征因素是构建http:mypersonalityorglwilfillibexefetchphp?media=wiki:mypersonality_finalzip万方数据12期 王萌萌等:一种基于加权
23、非负矩阵分解的多维用户人格特质识别算法 2565识别模型的基础因此,拟通过分析用户发布的状态对用户的语言学特征和情感统计特征进行抽取,并将其与Facebook用户人格特质标准数据集中直接提供的社会网络特征38共同作为用户人格特质识别特征311社会网络特征在Facebook用户人格特质标准数据集中,主要通过用户的拓扑结构反映用户的行为模式,包括8种社会网络特征,即用户的注册时间、网络规模、介数中心性、归一化的介数中心性、密度、中介性、归一化的中介性和传递性,之所以包含归一化的介数中心性和中介性是由于介数中心性、中介性与用户的网络规模相关,不同的用户其网络规模可能不同,因此,需要将其进行归一化才能
24、够对不同用户的介数中心性、中介性进行比较某用户i的网络Networki是由用户i的朋友以及其间的链接共同组成的,基于此,以用户i为例,其注册时间Create_timei、网络规模Networksizei、介数中心性Betweennessf、归一化的介数中心性NBetweennessi、密度Densityf、中介性Brokeragei、归一化的中介性NBrokeragei和传递性Transitivity。的定义如表1所示由于个体之间是相互联系并相互影响的3引,因此,与文献40中提出的假设类似,本文假设用户问的网络结构越相似,其越有可能具有相同类型的人格特质表1用户i的社会网络特征定义社会网络特征
25、 定义Create_timeiNetzoorksizeiBetweennessfNBetweennessfDensityiBrokeragelNBrokerageiTransitivityl表示用户i的账户创建时间表示Networki中包括用户i在内的用户总数表示Networki中经过用户i的最短路径总数,其计算公式如下:Betweennessl= nih(i)njh,其中,吩表示用JN肼:户J和用户h之间的最短路径总数;nih(i)表示用户j和用户h之间的最短路径经过用户i的总数NBetweennessi一2Betweenness(Networksize。一1)(Networksizei一1
26、)一1)表示Networkt中的用户间实际存在的链接总数与可能存在的最大链接数量的比值,其计算公式如下:DensityiEdgeNetworksizef(Networksize一1),其中,Edgei表示Networki中的用户间实际存在的链接总数表示Network。中非直接相连的结点对总数,其计算公式如下:Brokeragel一(Networksizei一1)(Networksizei一1)一1)一(Edgei一(Networksizei一1)NBrokeragel=2Brokerage。(Networksizei一1)(Networksizel1)一1)一 ,表示Networki中拥有一个
27、共同邻居的两个用户直接相连的平均概率,其计算公式如下:Transitivityl一 2tiJNm“i ki(k,一1),其中j表示用户J的度数;表示围绕用户J的三角形数量,ti= aihajlat,q表示网jNtms“i “;Naworki络邻接矩阵的元素,如果用户j与用户h之间存在链接,则。曲=1;否则,att,=0312语言学特征由于不同用户具有不同的表达方式,故一些学者认为用户的语言学特征与用户人格特质之间具有显著的联系16d 71,因此,语言学特征可以作为用户人格特质识别的一种新视角H自然语言解析器主要用于解决句子的语法结构,如将词组合为“短语”并获取动词的主语或宾语基于概率的解析器试
28、图利用从现有的句法分析得到的语言知识中,获取新句子最准确的分析结果Stanford Parser是斯坦福大学自然语言研究小组推出的一款基于概率的开源的自然语言语法解析工具4 2|基于单独的PCFG短语结构和领域词汇,Stanford Parser使用A。算法实现对自然语言的解析此外,Stanford Parser还提供了GUI界面,使用户可以将其简单地作为一个精确的、非词汇化的、随机的、上下文无关的语法解析工具,浏览其输出的短语结构树本文采用Stanford Parser从用户发布文本中抽取以下35种词性的词语使用频率作为语言学特征:连词、数词、限定词、方位词、外来词、情态助动词、物质名词、复
29、数名词、专有名词、复数专有名词、前位限定词、所有格标记、人称代词、复数人称代词、基本形式的副词、比较副词、最高级副词、小品词、断句符、感叹词、基本形式的动词、过去时态的动词、动名词、过去分词形式的动词、现在时态的动词(非第三人称单数)、现在时态的动词(第三人称单数)、从属词、基本形式的形容词、比较形容词、最高级形容词、列表项标记、WH一限定词、WH-代词、WH一复数代词、WH一副词在此基础上,本文增加了5个语言学特征:词语总数、逗号使用频率、句号使用频率、感http:nlpstanfordedusoftwarelex-parser,shtml#About万方数据2566 计 算 机 学 报叹号
30、使用频率和问号使用频率由于用户发布文本中的超链接可能指向与用户人格特质识别无关的广告页4引,因此,在抽取语言学特征时并不考虑用户发布文本中包含的超链接313情感统计特征不同人格特质的用户在对待事物的态度上会反映出不同的情感表达方式例如,一个具有神经质型人格特质的用户很容易产生不愉快的情绪,如愤怒、焦虑、抑郁和脆弱等由此可见,用户的情感统计特征可以用于识别用户人格特质因此,拟利用知网中英文情感分析用词语集(其中包括8945个词汇和短语)中的正面、负面情感词列表和正面、负面观点词列表,基于上一节从用户发布状态中抽取的基本形式的形容词、比较级形容词和最高级形容词构建用户情感统计特征,主要包括用户发表
31、状态中所含的正面情感词比例和负面情感词比例用户i发表状态中的正面情感词比例PT(i)和负面情感词比例NT(i)计算如下:PT(i)一pnisumi (1)NT(i)一n啦sumf (2)其中,户咒i和77;分别表示用户i发表的状态中包含在知网中英文情感分析用词语集中的正向情感词个数和负向情感词个数;s“mi表示用户i发表状态中包含的词汇总数32用户人格特质识别特征权重分配文献44指出对于与待识别结果问存在强关联的特征,对其进行约束能够提高算法的性能由于在用户人格特质识别问题中不同特征具有不同的重要程度,故为用户人格特质识别特征合理地分配权重就显得尤为重要文献44和文献28以皮尔森相关系数对各特
32、征与五大人格特质问的相关性进行度量,但皮尔森相关系数存在两处局限,即必须假设数据是成对地从正态分布中取得的且数据至少在逻辑范围内是等距的,而肯德尔检验对原始变量的分布不作要求,是一种通过计算相关系数测试两个随机变量的统计依赖性的非参数假设检验,适用范围要广些因此,拟利用肯德尔相关系数法度量各特征与五大人格特质问的相关性,从而计算各特征权重随机变量X和y之间的肯德尔相关系数的计算如式(3)所示: r(X,y)一I=兰三二(3)(N3一N1)(N3一N2)其中,C表示两个随机变量中拥有一致性的元素对数;D表示两个随机变量中拥有不一致性的元素对数;N,表示随机变量X中重复元素的总数,其计算如式(4)
33、所示:N。=告u(u-1) (4)鬲6其中,S表示变量中重复元素的组数;U;表示第i个元素拥有相同元素的数量;N。表示随机变量y中重复元素的总数,其计算方法与N1相同,N。表示合并序列的总数,其计算如式(5)所示:1N3一N(N一1) (5)其中,N表示随机变量的维数随机变量X和y之间的肯德尔相关系数r(X,y)一1,1,当r(X,y)为1时,表示两个随机变量拥有一致的等级相关性;当r(X,y)为一1时,表示两个随机变量拥有完全相反的等级相关性;当r(X,y)为0时,表示两个随机变量是相互独立的即两个随机变量间的肯德尔系数越高,则二者越相关,反之亦然本文假设如果用户人格特质识别特征与识别结果较
34、为相关,那么其在用户人格特质识别中具有较高的重要性此外,由于用户人格特质识别中的特征值和用户人格特质分数均为数值类型的变量,因此,拟通过计算特征与用户人格特质之间的肯德尔相关系数以量化每一个特征的重要性,则第i个特征,i的重要性其计算公式如下:r(,户)J()一二_-一 (6)3其中,r(,PJ)表示与第歹维用户人格特质Pj之间的肯德尔相关系数;P表示用户的五大人格特质集合,将在下一节对其进行详细定义则基于的重要性,的权重W()计算公式如下:w()一娄坐 (7)I(fj)fIEF其中,F表示用户人格特质识别特征集合4基于加权非负矩阵分解的用户人格特质识别模型41 问题定义在心理学中,以五大因子
35、模型FFM(Five FactorModel)c蜘为基础,用户的五大人格特质是以五个维度对用户人格特质进行定义的,分别为外向型(extraversion,简记为EXT)、神经质型(neuroticism,http:wwwkeenagecorndownloadsentimentrat万方数据12期 王萌萌等:一种基于加权非负矩阵分解的多维用户人格特质识别算法 2567简记为NEU)、随和型(agreeableness,简记为AGR)、责任型(conscientiousness,简记为CON)和开放型(openness,简记为OPN)文献1-46又进一步将每一种人格特质分为两个级别:外向型分为外向
36、级别和害羞级别;神经质型分为神经质级别和安全级别;随和型分为友善级别和不愿合作级别;责任型分为精确级别和粗心级别;开放型分为洞察力级别和缺乏想象力级别方便起见,拟将每一维人格特质的两个级别统一简记为正向级别和负向级别文献47中曾指出因为纯加性的和稀疏的描述能使其具有更好的解释性,便于数据可视化、减少计算量和传输存储,还因为相对稀疏性的表示方式能在一定程度上抑制由外界变化给特征提取带来的不利影响,所以非负矩阵分解方法已逐渐成为信号处理、生物医学工程、模式识别、计算机视觉和图像工程等研究领域中最受欢迎的多维数据处理工具之一由于能够反映用户人格特质的特征较少,而且用户人格特质矩阵是非负、低秩且稀疏的
37、,因此本文首次将用户人格特质识别问题转化为求解非负矩阵分解的最优解问题令“一“。,U:,钟。)表示用户集合,其中m表示用户数量;R舻硒表示用户一用户人格特质矩阵(R中作为测试集部分的用户的各维人格特质级别为缺省值),其中,”表示用户人格特质维数,则用户Ui第J维人格特质识别结果分为以下2种情况:情况1正向级别,R。i一1,即啦具有正向级别的第歹维人品性夕i;情况2负向级别,R;j一0,即具有负向级别的第J维人品性Pi;则本文将社会网络中的用户人格特质识别问题定义为:首先,给定用户一用户人格特质矩阵R和用户一特征矩阵u,找到非负矩阵y,使其满足Ruy,矩阵R中的缺省值,即待预测用户具有各维正向级
38、别人格特质的可能性,可以通过分解后得到的矩阵U和矩阵y的乘积获取,从而实现用户人格特质的识别42模型算法首先,拟通过因式分解,将R分解为矩阵【,Rm4和矩阵y掣,其中,u为用户一特征矩阵,dm为用户人格特质识别特征数量,y为R与U低秩表示之间的关系拟通过式(8)最小化识别值与实际值之间的均方误差:min|I R-UV幢 (8)l,y其中,忆为Frobenius范数为避免发生过拟合,拟在式(8)的基础上,加入【,和V的正则化的Frobenius范数:min|I R-UV旺+A。|I U忙+A2 l|y峙2 (9)其中A。和A。为正则化参数此外,尽管五大用户人格特质在界定时其间并不存在重叠m,文献
39、Ez53和文献49均指出每个用户可能会同时具有两种或两种以上的人格特质,此外,文献25和文献E353还指出用户的五大人格特质问存在较弱的相关性因此,拟在识别用户人格特质时将其间的弱相关性考虑在内以提升算法的精确度本文假设相关性较大的用户人格特质间的特征差异较小,因此,为约束不同维度用户人格特质特征间的差异,拟引入正则化的用户人格特质相关因子:n-1PC(j,歹+1)IIv。jV喇十。,l J;=Tr(VTcy)(10)J=1其中,V和y嘶十分别表示y中用户人格特质PJ和P的特征向量;Tr()为矩阵的迹;一DPC为拉普拉斯矩阵,D为对角矩阵,D中的第i个元素D(i,i)等于PC中第i行元素之和;
40、PC(j,J+1)为用户人格特质Pj和P,+。之间的用户人格特质相关因子,并且本文假设PC(j,j;+1)越大,A和户j+。之间相似度越大,则其间Frobenius范数就越小用户人格特质办和夕,十。之间的用户人格特质相关因子其计算公式如下所示:1PC(j,J+1)2瓦面知11)其中,p而和ps,+。表示用户人格特质办和夕,+,的分数向量;DJ-s(ps,ps,+1)表示p町和p5J十l之间的JS散度(Jensen-Shannon divergence)s引,J-S散度越小表示不同级别的用户人格特质问的一致性越高,反之亦然,其计算公式如下:。, 、DK-L(Psi J|西)+DK-L(PSi十1
41、|丽)L)j-s(p$jp岛十1一广一(12)其中,丽表示用户人格特质PSi和ps十。分数的平均分布;DK一。(psi|面)表示p曲与石之间的KL散度(KullbackLeiblerdivergence)51,其计算公式如下:DKL(psj Il丽)一psj(re)log掣掣(13)m ps(m)其中,ps,(m)表示第m个用户的Pj的分数;丽(m)表示第m个用户夕j和夕j+,的平均分数同理可得DK_L(psi+1 l|Fss)通过在式(9)中引入上述正则化的用户人格特质相关性因子,得到如下目标函数:万方数据2568 计 算 机 学 报 2016焦minFl一|I R-UV峙2+A1 lIv噼
42、+UyA2 IIv忙+A3Tr(VTcy) (14)其中,若y固定,则F,是一个关于U的凸函数;若u固定,则F。是一个关于V的凸函数;若U和,均不固定,则F,是一个非凸函数,因此,较难形式化F,的全局最优解然而,F。的局部最优解可以通过乘性迭代方法求得嘞3为计算U和y的更新规则,将式(14)目标函数中的常数去掉后,其拉格朗日函数如下所示:CF,一Tr(R-UV)(RUV)T)+Al Tr(UUT)+A2 Tr(VVT)+A3 Tr(V。Cy)一Tr(函U)一Tr(gV)(15)其中,妒和9分别是【,和y的非负的拉格朗日乘子然后,分别计算式(15)中关于【,和y的梯度,并设其为0:f斋=-2RV
43、r+UVVT+;t,U-删1等一2UTR坩uV抵y+ Q6l A。VT(DPc)一9:o在式(16)中关于【,的梯度等式两边同时乘以U,关于y的梯度等式两边同时乘以y:f一2RVTU+UVVTU+A】【,【,一曲【,一0情感统计特征语言学特征,而532节图1中WNMFMPTR在不同用户人格特质识别特征集合上的实验结果大小关系亦为sWNMF-MPTReWNM旺、-MPTRlWNM旺乙MPrR,此外,文献-44和文献281以皮尔森相关系数对各特征与五大人格特质间的相关性进行度量,实验结丽醉生一准召旦一口一O98765432101OO0OOOOOO遥_乜万方数据12期 王萌萌等:一种基于加权非负矩阵
44、分解的多维用户人格特质识别算法 2573果表明,社会网络特征与五大人格特质问的皮尔森相关系数绝对值均较高,即拥有较强的相关性由此可见,采用肯德尔相关系数法和熵权法对不同用户人格特质识别特征赋予的权重值均是合理的然而,如表8中所示,基于肯德尔相关系数法计算得到的特征权重值与基于熵权法计算得到的特征权重值并不是完全一致的因此,为进一步比较两种特征权重计算方法,拟分别基于由肯德尔相关系数法和熵权法计算得到的带权重的特征集合对用户的人格特质进行识别,通过10折交叉验证对其性能进行对比表8不同用户人格特质识别特征权重值特征 权重值1 权重值2 特征 权重值1 权重值2注册时间网络规模介数中心性归一化的介
45、数中心性密度中介性归一化的中介性传递性连词数词限定词方位词外来词情态助动词物质名词复数名词专有名词复数专有名词前位限定词所有格标记人称代词复数人称代词基本形式的副词比较副词最高级副词0023o021o025o0320031o027o032o0220017001600160016o0200017o017o016O021o022o022o0300017o017o021o020O0210029o0260027o036o032o029o032o027O015oOlOo014o009o024o012O011o013o022o02000160019o026o023o022o024o022小品词断句符感叹词
46、基本形式的动词过去时态的动词动名词过去分词形式的动词现在时态的动词(非第三人称单数)现在时态的动词(第三人称单数)从属词基本形式的形容词比较形容词最高级形容词列表项标记WH-限定词wH一代词WH一复数代词WH一副词词语总数逗号使用频率句号使用频率感叹号使用频率问号使用频率正面情感词比例负面情感词比倒00180018O02lO016O017O016O016O016O017O01700210022002200190017O0190017001800160016001600200018002300250024001400270014O013O01500130015001400180026002800
47、2700140015O0190016002100170012O0lOO018001900240027实验结果表明,WNMF-MPTR的平均F1值在基于由肯德尔相关系数法计算得到的带权重的特征集合上比在基于熵权法计算得到的带权重的特征集合上能够提升127由于熵权法在计算特征权重时均是根据特征值本身的变异程度衡量其重要性,而肯德尔相关系数法在计算特征权重时主要侧重考虑特征值与用户人格特质分数间的联系,使其能够更为确切地反映不同特征对用户人格特质识别的影响,因此,肯德尔相关系数法在计算用户人格特质识别特征的权重时要优于熵权法534用户人格特质相关因子对WNMFMPTR性能的影响拟通过参数入。以验证用
48、户人格特质相关因子对WNMF-MPTR性能的影响实验设置如下:A。分别取值0、02、05、07、1,为避免由于训练集合规模导致实验结果出现偏差,本文分别以A中50、60、80和100的数据作为训练集合,在其上进行10折交叉验证,比较其平均F1值,实验结果如图3所示1008粤基o604蹁图3用户人格特质相关因子对WNMF-MPTR性能的影响通过比较不同的A。值可知:当A。=0时,即不考虑用户人格特质相关因子对用户人格特质识别问题的影响,此时的F1值比峰值低很多,并且随着A。的增加,F1值先不断增加,在其到达峰值之后又迅速下降当A。较大时,用户人格特质识别学习过程主要受用户人格特质相关因子控制,此时通过学习得到的