《关于主成分分析做综合评价的改进.pdf》由会员分享,可在线阅读,更多相关《关于主成分分析做综合评价的改进.pdf(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、文章编号:1002-1566(2001)02-0052-04关于主成分分析做综合评价的改进?叶双峰(黄山林校,安徽245041)摘要:本文结合具体事例,讨论并改进利用主成分分析做综合评价的方法。关健词:主成分分析;综合评价;改进中图分类号:O212.4文献标识码:A一、引言利用主成分分析进行综合评价的基本思路是:首先求出原始 P 个指标的 P 个主成分,然后按一定的要求筛选几个主成分,来代替原始指标,再将所选取的主成分用适当的形式进行综合,得到综合评价值,依据它对被评价对象进行比较排序。1 2 6 研究并讨论了实际问题,提出了部分改进方法。本文在其基础上提出新改进方法,以希商榷。二、改进原始数
2、据的无量纲化主成分综合评价方法的关健是求主成分,其工具是协方差矩阵。由于协方差矩阵易受指标的量纲和数量级的影响,经常要对原始数据进行标准化处理,标准化使协方差矩阵变成了相关系数矩阵。但在消除量纲与数量级影响的同时,也消除了各指标变异程度上的差异信息。由于原始数据中包含两部分信息:一部分是各指标变异程度的差异信息,由各指标的方差大小来反映;另一部分是各指标间相互影响程度上的相关信息,由相关系数矩阵来体现。标准化使各指标的方差变成 1,消除了各指标变异程度上的差异,因此从标准化的数据提取的主成分,实际上只包含了各指标间相互影响这一部分信息,不能准确反映原始数据所包含的全部信息。所以必须改进原始数据
3、的无量纲化方法,均值法方法就是其中较好的一种。设有N 个被评价的对象,及 P 个指标,原始数据为(Xij)n*p,各指标的均值为 Xj均值化就是用各指标的均值去除它们相应的原始数据,即 Zij=Xji/Xj均值化后,数据的协方差矩阵V=(uij)pp的元素为uij=1n-1?nl=1(zli-zi)(zlj-zj)由上式可知,均值化后各指标的均值为 1,可得uij=1n-1?nl=1(zli-1)(zlj-1)=1n-1?nl=1(xli-xi)(xlj-xj)xixj=sijxixj式中Sij 为原始数据的协方差。特别当 i=j 时为:52数据统计与管理20 卷2 期2001 年?收稿日期:
4、2000-01-15uij=siix2i=(siixi)2sii=1n?nl=1(xli-xi)2因此,均值化后数据的协方差矩阵的对角元素是各指标的变异系数 Sii/Xi的平方,它反映各指标变异程度上的差异。均值化前,反映各指标相互影响程度的相关系数 rij 的计算公式为:rij=sijsiisjj均值化后的相关系数 rij的计算公式为:rij=uijuiiuj j将公式 Uij 代入可知:rij=sijxixj/siixisjjxj=sijsiisj j=rij这就证明了均值化处理不改变各指标间的相关系数,相关系数矩阵的全部信息都在相应的协方差矩阵中得到反映。均值化处理后的协方差矩阵不仅消除
5、了指标量纲与数量级的影响,还能包含原始数据的全部信息,因此在用主成分分析方法做综合评价时,应用均值化方法进行无量纲化处理。三、改进主成分分析的“线性化”传统主成分分析方法存在两个不足之外:一是综合评价的实际结果与评价指标间的相关程度高低成正比,评价指标间相关程度越高,主成分分析的结果越好,当指标间相关性小时,每一个主成分承载的信息量就少,为满足累计方差贡献率达到一定水平(通常为 85%以上),可能需选取较多的主成分,此时主成分分析的降维作用就不明显。二是主成分分析只是一种“线性”降维技术,只能处理线性问题:一方面主成分是原始指标的线性组合,另一方面对原始数据进行标准化处理,使协方差矩阵变为相关
6、系数矩阵,而相关系数矩阵只能反映指标间的“线性”相关程度。研究实际问题时,不仅指标间有非线性关系,有时主成分与原始数据之间也呈非线性关系,如果简单地进行线性处理,必然导致评价结果的偏差。因此有必要对传统主成分的“线性化”进行改进。非线性主成分分析法有很多种 5 6,本文只介绍“对数中心化”的非线性主成分分析方法。对数中心化的基本方法为:设有P 个指标的原始数据为(xij)n*p。1.对原始数据作中心对数化变换:yij=logxy j-1P?pl=1logxil53关于主成分分析做综合评价的改进2.计算对数中心化的样本协方差矩阵 S=(Sij)ppsij=1n-1?nl=1(yli-yi)(yl
7、j-yj)式中yi=1n?nl=1yli3.从 S 出发求主成分设?1?2?3?p是 S 的 P 个特征根,a1,a2,a3ap是相应的标准化特征向量,则第 i 个非线性主成分为:Fl=?pj=1aljlogxlj余下的处理同于传统的主成分分析。从上述分析可知,非线性主成分分析与传统主成分分析相比有两处改进:一是通过对原始数据作对数中心化变换,将主成分表示为原始数据的非线性组合;二是分析的出发点是协方差矩阵,不再是相关系数矩阵。通过这两处改进,会明显提高降维效果,用更少的主成分更多的反映原始指标的信息。表 11991 年各地区全部独立核算工业企业 7 项效益指标地区X1X2X3X4X5X6X7
8、北京144.5321.8919.515.158.0210.073.08天津152.2913.7112.2193.774.343.1河北107.578.447.867.841.611.852.85山西76.977.678.039.973.544.212.63内蒙古80.27.577.179.441.92.252.34辽宁130.738.878.768.551.191.382.91吉林98.578.677.938.791.752.022.48黑龙江92.919.249.039.953.193.822.54上海177.8923.2919.4313.095.827.163.67江苏198.2414.4
9、11.537.262.292.633.45浙江228.5320.7215.639.074.134.823.37安徽134.3912.0911.1490.420.493.36福建164.3918.3215.8411.154.555.533.56江西130.1210.649.498.181.772.042.79山东131.2311.8410.419.023.053.583.08河南104.2211.0610.2810.611.561.842.83湖北123.7613.8412.7811.193.74.482.85湖南126.5914.4913.3211.451.621.942.94广东150.75
10、14.0513.799.323.834.573.87广西129.7616.314.7212.563.534.333.28海南91.777.366.888.021.681.942.94四川115.9911.3210.329.762.442.882.57贵州95.7716.4515.1717.181.471.912.37云南116.331.7129.6427.274.526.563.21西藏35.414.835.8713.7511.6815.172.11陕西102.719.838.499.571.82.112.08甘肃85.69.649.9511.272.983.582.41青海57.774.98
11、5.148.620.330.391.88宁夏77.066.786.58.81.231.442.2新疆78.466.86.928.672.222.652.554数据统计与管理20 卷2 期2001 年四、实际应用运用 7 的 1991 年各地区全部独立核算工业企业 7 项效益指标的原始数据进行分析比较。X1-每百元固定资产原值实现的产值(元)。X2-每百元固定资产原值实现的利税(元)。X3-资金利税率%,X4-产值利税率%,X5-每百元销售收入实现的利润(元),X6-每百元销售成本实现的利润(元),X7-流动资金周转次数(次/年)。因篇幅所限,计算结果仅列出特征根、贡献率和累计贡献率。见表 2。
12、表 2数据计算分析表传统方法均值法方法非线性方法taka(k)taka(k)taka(k)13.79750.54250.54251.27640.68630.68634.5210.64590.645921.92030.27430.81680.44340.23840.92471.21950.17420.820131.07430.15350.97030.12860.06910.99391.08190.15460.974740.19020.02720.99750.00850.0460.09985 0.11690.01670.991450.01480.00210.99960.00210.00110.99
13、960.04630.00660.99860.00240.00030.99990.00050.00030.99990.0140.0020.999970.00050.000110.00030.000110.000401t-特征根ak贡献率a(K)累计贡献率1、从计算结果可以看出,经过均值化处理可使第一主成分包含的信息比传统的方法第一主成分承载的信息高十四百分点,可用较少的主成分提取更多的原始信息。2、本例中,样本指标间的线性关系较明显,但非线性化处理的结果仍然比传统方法要好,降维的效果也较显著。五、结束语1.由数理统计中的大数定律得知,随着被评价对象的增加,评价指标的平均水平和离散程度趋于稳定,因
14、而协方差矩阵也趋于稳定,增加评价结果的准确性,因此主成分分析适宜于大样本容量的综合评价。2.由于同一被评价对象在不同样本集合体中的均值和离散程度是变化的,因而协方差矩阵也是变化的,由此计算的主成分与方差贡献率是不同的,所以综合评价的结果是变化的,因此主成分分析方法只适用于一次性评价。3.改进与提高主成分分析做综合评价的效果的方法有很多,部分在 1 5 6 中业已介绍,但在研究具体问题时应首先研究指标之间的特征,选择合适的数据处理方式,再进行主成分分析,才能得到正确的评价结果。下转第 61 页55关于主成分分析做综合评价的改进的结果是仅在 5%的水平上为边缘显著的,说明实行涨跌停板后对因子变量没
15、有造成结构性影响。我们对因子变量的 GARCH 模型按交收制度分区间重新进行估计。得到了两个 GARCH模型分别是:(i)实行T+1 前(1994.01.031994.12.31):(ii)实行T+1 后(1995.01.031999.01.06):?t=-0.00247+etht=0.000164+0.32734e2t-1+0.54514ht-1?t=0.00045+etht=0.00005+0.29144e2t-1+0.63368ht-1模型(i)和(ii)中参数的 T 统计值都是在 5%水平下显著的。模型(i)的 R2为 0.9016,log L 为1086.3,模型(ii)的 R2的为
16、 0.8996,log L 为 1885.868。用这组替代模型重新估计因子变量条件方差序列,对模型(5)再次进行估计,得到 13 个新的条件方差序列。为评估分段模型的效率,我们计算了全部 13 个模型的总对数似然函数值(各序列对数似然函数之和),其值为 43078.94,大于不考虑交易规则改变的因子模型的总对数似然函数值 41222.61。这表明引入交易规则改变的因素后,提高了模型的总体效率。参考文献 1 Engle,R.F.,V.K.Ng,M.Rothschild.Asset pricing with a FACTOR-ARCH Covariance StructureJ.Journal
17、of Economitrics,1990,(45):213-238.2Bollerslev,T.P.,R.F.Engle,D.Nelson,ARCH Models,Handbook of Econometrics,North Holland,1994.3Dvid X.Li.Value at Risk Based on the Volatility,Skewness and Kurtosis,Riskmetrics Group,1999.4 Klaassen,F.,Improving GARCH Volatility Forecasts,Department of Econometrics,T
18、ilburg University,1998.上接第 55 页 参考文献 1阎慈琳.关于主成分分析做综合评价的若干问题J.数理统计与管理,1998(2).2黄宁.关于主成分分析应用的思考 J.数理统计与管理,1999(5).3吴国富,项静恬.多个变量分类与综合的多元分析法J.数理统计与管理,1995(6).4方开泰.实用多元统计分析M.上海:华东师范大学出版社,1989.5Abraham B.and J.Ledolier.Statistical for Forecasting.New York:1983.6张祟甫,陈述云.成分数据主成分分析及其应用J.数理统计与管理,1996(4).7中国统计
19、年鉴,北京:中国统计出版社,1992.The Application and Considerationabout Principal Component AnalysisYE Shuang-feng(Huangshang foreset school,Anhui245041,China)Abstract:T his paper states the problem of Principal Component Analysisin the application and puts forward animprovement suggestion on a concrectusage.Key words:principal component analsis;application61中国股市风险特征分析