《高校人文社会学科科研实力综合评价研究基于核主成分分析和实证研究法.pdf》由会员分享,可在线阅读,更多相关《高校人文社会学科科研实力综合评价研究基于核主成分分析和实证研究法.pdf(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、高校人文社会学科科研实力综合评价研究基于核主成分分析和实证研究法 沈一岚;王志刚【摘 要】In this paper,the comprehensive strength of scientific research was evaluated by the kernel principal component analysis and empirical research,collecting relevant data of humanities and social sciences in some colleges and universities in 31 provinces an
2、d autonomous regions in 2013.Kernel principal component analysis(KPCA)was used to explore the nonlinear relationship of data and increase the contribution rate of the first principal component,aiming at the problems of weight determination and information extraction in PCA.By adopting the idea of su
3、bjective transformation,this paper put forward the viewpoint of increasing importance right and constructs the empirical research model.The comprehensive analysis model of kernel principal component analysis and empirical research was given to comprehensively evaluate the scientific research strengt
4、h of university humanities and social sciences.%收集了2013 年 31 个省市自治区部分高校有关人文社会学科科研方面的相关数据,利用核主成分分析法和实证研究法对科研实力进行综合评价.针对主成分分析在权重系数确定和信息提取等方面存在的问题,利用核主成分分析(KPCA)探究了数据的非线性关系并提高第一主成分贡献率;采用“主观化”改造的思路,提出增加重要性权等观点,构建了实证研究模型;给出了核主成分分析与实证研究相结合的理实综合分析模型对高校人文社会学科科研实力进行综合评价.【期刊名称】安徽师范大学学报(自然科学版)【年(卷),期】2017(040)
5、001【总页数】7 页(P20-26)【关键词】核主成分分析;实证研究;综合评价;科研实力【作 者】沈一岚;王志刚【作者单位】海南大学数学系,海南海口 570228;海南大学数学系,海南海口 570228【正文语种】中 文【中图分类】O212.4 主成分分析是对复杂系统进行统计分析的一种有效方法,它以最小的信息丢失为前提,利用降维思想将多个变量综合成少数几个变量(即主成分),以达到简化数据,揭示变量间关系的目的,每个主成分都是原始变量的线性组合,且所含的信息互不重叠1-2.主成分分析广泛应用于多指标的综合评价体系中,例如,陈宝等3通过提取政府投入、经济政策和社会政策的主成分,实证分析对政府综合
6、效率改进构成显著性影响的因素;刘丽萍等4将主成分和门限方法有效结合,提出了基于主成分正交补门限方法的 DCC 模型;徐顽强等5建立了主成分分析的省域科技创新体系评价模型;王思哲7等将主成分应用于葡萄酒指标评价体系,对葡萄酒进行分类研究,并建立了酿酒葡萄和葡萄酒理化指标之间的关系.随着研究问题的深入,主成分分析在应用中也存在很多问题,例如,采用以方差贡献率为权重构造综合得分函数,看似可以提高信息含量(提高方差贡献率),但其实是一种错觉;在进行综合评价时,采用指标值与权重线性加权的方法来确定评价系数,忽视了指标数据与评价系数之间非线性映射的关系,有必要对传统主成分的“线性化”进行改进;主成分分析强
7、调评价理论中的客观性,主观性任务还有待补充,权系数按性质可分为重要性权和信息量权两大类,重要性权属于主观赋权,信息量权属于客观赋权,主成分分析采用的是信息量权,未考虑重要性权,因而会影响综合评价效果.核主成分分析是处理指标数据与评价系数之间非线性关系的一种有效方法,现已引起了学者的广泛关注.例如,程砚秋等8探究了基于核主成分分析的生态评价模型及其应用;苏治等9给出了核主成分遗传算法与 SVR 选股模型改进方法;潘文砚10对 2012 年我国 30 个省(自治区、直辖市)的低碳经济进行综合评价,找出影响我国低碳经济发展水平的关键因素,对核主成分分析法不能判断关键影响因素的问题进行了补充.核主成分
8、分析进行综合评价时存在的缺陷是未能考虑权重的重要性,得出的评价结论也有待进一步完善和深化.针对主成分分析和核主成分分析综合评价时存在的问题,本文主要目的是利用核主成分分析和实证研 究法对 2013 年 31 个省市自治区部分高校有关人文社会学科科研实力进行评价研究.首先,通过收集相关数据,利用主成分分析法和核主成分分析比较研究科研综合实力,结果表明,核主成分分析(KPCA)在处理数据的非线性关系和提高第一主成分贡献率等方面明显优于主成分分析;其次,采用“主观化”改造的思路,提出增加重要性权等观点,构建了实证研究模型;最后,给出了核主成分分析与实证分析相结合的理实综合分析模型对高校人文社会学科科
9、研实力做出了综合评价.1.1 核主成分评价基本原理 主成分分析是最为经典的特征提取方法,通过对原始数据加工处理,简化问题处理的难度,起到了降维作用.但主成分分析是线性映射方法,降维后是由线性映射生成,忽略了数据之间高于二阶的相互关系,所以提取的特征并不是最优,这在一定程度上影响了主成分分析的效果.核主成分分析是线性主成分的非线性扩展算法,它采用非线性的方法提取主成分,其基本思想是通过某种隐式方式将输入空间映射到某个高维空间(又称特征空间),并在特征空间中实现主成分分析,其中的内积运算采用核函数来代替.假定样本空间的样本点(x1,x2,L,xN),定义非线性变换:RNF,xX 将其映射到特征空间
10、 F 的样本点(x1),(x2),L,(xN),假定满足中心化条件则 F 空间中样本协方差矩阵为 其中 xj 的 M 个指标构成 M 维列向量,求出 C 的特征值(0)和非零特征向量 v.Cv=v 所有 v 都可以表示为(x1),(x2),L,(xN)的线性张量,即存在系数i(i=1,2,L,N),使得 将(1)、(3)代人(2),并用(xk)(k=1,2,L,N)同乘以(2)式两边,得到 N 个等价方程:定义 NN 对称矩阵 K,Kij=(xi)(xj),则(4)式等价于:NK=K2 简化为 N=K,求解可得相应的特征值和特征向量.为了确保特征向量 vk(k=1,2,L,N)为单位向量,还需
11、要对 k 进行规范化则样本 x在 F 空间的第 k 个向量 vk 上的投影为:将核函数替换内积,有:).核主成分分析与主成分分析有本质区别,前者基于样本,后者基于指标;前者的特征数目仅为输入样本的维数,而后者可提取的特征数目与输入样本数目是相等的,核主成分分析可以最大限度地抽取指标信息.利用核主成分分析处理的一般步骤为:(1)将样本点(x1,x2,L,xN)按照指标(每个 xi 有 M 个指标)写成(MN)数据矩阵.(2)选定核函数,并利用给定的参数计算核矩阵.本文的实际应用中采用了以下两种核函数:多项式函数 K(xi,xj)=(xixj+1)p 和高斯径向函数|.(3)计算核矩阵的特征值 1
12、,2,L,M 和相应的特征向量 v1,v2,L,vM,并将特征值按降序排列,对特征向量进行正交化,得到 1,2,L,M.(4)计算特征值的累积贡献率 B1,B2,L,BM,根据指定的提取率 p,若 Blp,则提取 l 个主成分 1,2,L,l.(5)综合评价函数 F(x)计算综合评价得分并排序.其中 k 表示第 k 个主成分的贡献率.1.2 数据实验 本文收集了 2013 年 31 个省市自治区部分高校有关人文社会学科科研方面的相关数据.首先采用主成分分析方法研究上述 31 个省份的 7 个主要指标,第一主成分的方差贡献率为 85.625%,得到 PCA 评价系数与排名 2.我们采用核主成分分
13、析算法,通过对原始数据进行中心化处理,发掘其中的非线性关系,得到表1 的排序结果.运用优化方法选取参数的合适值.选取多项式核函数 K(x,y)=s(x*y)+cd 对数据评价,通过对核参数进行了适当的选取,可以最大限度地提高贡献率,例如,当s=0.05,c=0,d=5 时,第一主成分的贡献率为 99.979%,它的降维效果明显优于主成分分析.利用 PCA 综合排名的前 5 位别是北京、江苏、湖北、山东和广东,后 5 位分别是海南、贵州、宁夏、青海和西藏;利用 KPCA 综合排名的前 5 位别是北京、江苏、湖北、广东和上海,后 5 位分别是海南、贵州、宁夏、青海和西藏,结果较为吻合.我们采用高斯
14、径向函数作为核函数,对数据进行评价(见表 2),通过优化选取相关参数时,第一主成份的贡献率为 97.12%,不及多项式核函数,此时综合排名结果前 5 位分别是北京、江苏、山东、湖北、西藏,显然与实际有出入,可能是由于高斯径向函数并不能正确提取指标中的信息,但是多项式核函数局部性差,所以可以考虑使用混合核函数.核主成分分析不仅可以利用合理的核函数解决变量间的非线性关系,而且在一定程度上提高了第一主成分的贡献率,但其权重系数确定方面也存在缺陷,我们借鉴科学计量学、统计学等相关理论,运用文献资料分析法、层次分析法、比较研究法结合专家意见在计算机软件辅助计算下构建了各地区高校人文社会学科科研水平的评价
15、指标体系.在评价人文社会学科成果方面,不能简单的把工程计量方法搬到人文社会学科领域来.为充分反映科研成果的质量,本研究突破了理论研究中仅考虑各影响因素在综合评价中所占权重的弊端,从“常规指标”用于了解各省份高校人文社会学科科研的基本和整体情况和“附加指标”从研究的重大标志性成果来评价其研究水平这两个方面对科研水平做综合评价,这样设置指标既兼顾数量又突出质量.根据各省份高校人文社会学科所研究的科研目标和科研实际情况,结合专家意见,从科研平台与基础条件建设和成果产出两方面考察各省份高校人文社会学科综合实力.建立指标体系(见图 1).考虑到研究需要具有广泛适应性的方法,在构建科研评价指标体系确定权重
16、时采用萨蒂教授创立的最具代表性的层次分析法(AHP 法),绘出科研绩效评价的递阶层次结构图 2.基于人文社会学科综合实力评价,王晓丽11提出了建议和完善基于 CSSCI 的同行专家评议制、公正内行的评价专家队伍和公正公开的评价监督机制,确保人文社会学科研究评价程序的有效性和公正性.通过 Benchmarking 的方法,参照国内外对科研水平的评价方式并结合专家意见,用计算机 Expert Chlice 对专家所写判断矩阵进行计算,并采用权重算术平均法对各专家评判结果进行修正与剔除,最终得到各指标权重(见表 3、表 4).下面我们将表 3 和表 4 的数据进行处理.第一步,假设一级指标有 m 项
17、,二级指标有 n 项,三级指标有 l 项,则各二、三级指标的实际数据分别如下表示:二级指标:x11,x12,x1n x21,x22,x2n,(这里 m=2,n=3);三级指标:x221,x222.第二步,分别将研究机构三级指标数据 xmnl 除以标准值对应量 Smnl,即指标对应于标准值的比例,通过计算 fmnl 完成对指标的无量纲化,再将该比值乘上指标相应的权重,可得指标 xmnl 对应的分值.具体如下:第三步,考虑到只有第二项二级指标有三级指标,将第二项二级指标的三级指标各项所得分值 fmnl 分别相加,即可得到第二项二级指标的分值I22,其余二级指标算法同第二步,详细如下:第四步,将各项
18、二级指标所得分值相加,即为科研平台与基础条件建设分值M,后五项二级指标所得分值相加,即为基础性成果分值N.M 与 N 相加的和乘以 100即为常规指标得分 f11+f12+f13=M f21+f22+f23=N F=M+N 第五步,计算附加指标得分 F2.将研究机构附加指标数据 y 除以标准值对应量 S,即指标对应于标准值得比例,通过计算 f 完成对指标的无量纲化.再将该比值乘上该指标对应的总分数 20 即可得到指标对应的分值.具体如下:第六步,将常规指标得分 F1 与附加指标得分 F2 相加,即可得到综合分 F=F1+F2.第七步,将各研究机构的指标数据根据上述六个步骤进行处理,再将所得总分
19、可算出各省市研评价综合得分见表 5.结合上述两种方法采用理实结合的评价思路,通过敏感度分析前后排名的结果可以发现总体趋势保持一致,可以求取综合评价函数进行综合评价.3.1 敏感度分析 先将主客观评价方法所得排名(见表 2 和表 3)根据公式 yi=31-xi+1(xi 为地区 i 的排名)数量化.记 为权重,综合评价函数为 z=*m1+(1-)*m2,此处对其取不同的值,其综合评价分数见表,敏感分析图如图 4.由图 4 看出综合权重的变化对排名影响的敏感度较低,故主客观评价模型比较合理.3.2 综合评价函数的建立 对于地区把主观评价数据和客观评价数据都转化为对应的模糊集合,并对所有评价指标的模
20、糊集合的对应项进行加权平均求和得到该项的对应数据,后把所有评价数据集成构成最终评价结果的模糊集12.记地区 Di 客观评价值为:(district1,1),(district2,2),(district31,31),记地区 Di 主观评价值为:(district1,1),(district2,2),(district31,31),记 1 和 2 分别为客观和主观评价信息的权重,那么,关于地区 Di 的综合评价值仍未基准等级集合的模糊集,记为:(district1,1+1+21),(district2,12+22),(district31,131+231)建立优化模型求解权重系数 1 和 2 使
21、得所有地区的综合评价值之和最大化.再将主客观信息权重进行归一化处理,得 即 综合评价函数为 z=0.46m1+0.54m2,得各地区高校科研水平综合评分和排名见表 7.本文的主要工作在于,首先,针对主成分分析综合评价存在的问题,利用核主成分分析法(KPCA)不仅可以利用合理的核函数解决变量间的非线性关系,而且在一定程度上提高了第一主成分的贡献率(从 86.625%提高到 99.975%);其次,无论是核主成分分析还是主成分分析,在其权重系数确定方面都存在缺陷(未考虑权重的重要性),实证研究法是以层次分析法为工具,总结国内外相关文献,综合各专家意见,以兼顾数量又突出质量为突破点,从常规指标和附加
22、指标这两个方面对科研水平做出综合评价;再次,针对核主成分分析法在指标权重确定方面的不足之处,从信息量权和重要性权两方面进行完善,提出了一种基于传统主成分分析的新型评价方法对各省份高校人文社会学科科研作出了较为全面的评价.【相关文献】1 王志刚.应用随机过程M.合肥:中国科学技术大学出版社,2009.2 薛薇.SPSS 统计分析方法及应用(第三版)M.北京:电子工业出版社,2013.3 陈宝,李湛.中国政府效率改进的影响因素与中国政府改革基于主成分分析的研究J.当代经济科学,2011,33(6):57-63.4 刘丽萍,马丹,白万平.大维数据的动态条件协方差阵的估计及其应用J.统计研究,2015
23、,32(6):105-112.5 徐顽强,周晓婷.基于主成分分析法的省域科技创新体系评价模型构建J.科技管理研究,2016(6):52-57.6 李靖华.主成分分析用于多指标评价的方法研究主成分评价J.管理工程学报,2002,18(1):39-43.7 王思哲,王志刚,何勇.基于数据挖掘技术的葡萄酒评价体系研究J.应用数学进展,2015,4(4):376-384.8 程砚秋,迟国泰.基于核主成分分析的生态评价模型及其应用研究J.中国管理科学,2011,19(3):182-192.9 苏治,傅晓媛.核主成分遗传算法与 SVR 选股模型改进J.统计研究,2013,30(5):54-62.10 潘文砚,王宗军.基于核主成分分析的低碳经济发展水平评价研究J.金融与经济,2016(4):55-60.11 王晓丽.高校人文社会学科研究机构科研绩效评价体系构建研究D.浙江:浙江大学,2013.12 于佳.期刊等级评价的主客观信息集成方法研究D.沈阳:沈阳工业大学,2015.