数据标准化.pdf

上传人:qwe****56 文档编号:74662894 上传时间:2023-02-27 格式:PDF 页数:6 大小:190.56KB
返回 下载 相关 举报
数据标准化.pdf_第1页
第1页 / 共6页
数据标准化.pdf_第2页
第2页 / 共6页
点击查看更多>>
资源描述

《数据标准化.pdf》由会员分享,可在线阅读,更多相关《数据标准化.pdf(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、学术期刊综合评价数据标准化方法研究1 俞立平 潘云涛 武夷山 摘要:本文提出了学术期刊综合评价中指标数据标准化方法选择的三大原则,即同一指标内部数据相对差距不变原则;不同指标之间的相对差距不确定原则;标准化后极大值相等原则。根据三大原则筛选出一种正向指标标准化方法,并且提出了一种新的反向指标标准化方法。认为这两种方法适用于学术期刊截面数据的比较,也可以推广到其他截面数据评价中。不同评价目的对数据标准化方法的要求不同,基于排序的评价对数据标准化方法不敏感。关键词:学术期刊 综合评价 指标 标准化方法 中图分类号:G304 1 引言 期刊评价是文献计量学研究的重要组成部分,它通过对学术期刊的发展规

2、律和增长趋势进行量化分析,揭示学科文献数量在期刊中的分布规律,为优化学术期刊的使用提供重要参考,同时可以提高学术期刊的内在质量,促进学术期刊的健康成长和发展。美国著名情报学家加菲尔德博士在 20 世纪 60 年代对期刊文献的引文进行了大规模统计分析,得到了大量被引用文献集中在少数期刊上,而少量被引用文献散布在大量期刊中的结论,这可以被认为是国外期刊评价理论的起源。学术期刊评价主要有两大类方法,一种是直接根据期刊文献计量学指标进行对比,二是采用多指标综合评价方法,该方法克服了单指标评价容易带来的片面性,比较适合期刊的综合评价,因此得到了较广泛的应用。Weiping Yue、Concepcion

3、S.Wilson(2004)1利用结构方程的原理建立了一个期刊影响力的分析框架。苏新宁(2008)2采用指标体系赋权进行中国人文社会科学期刊的评价。邱均平、张荣等(2004)3提出了期刊评价指标体系的三维层次结构图,并利用灰色关联法进行评价。庞景安、张玉华等(2000)4及李凯扬、贾玉萍(2005)5利用层次分析法对期刊进行评价。王小唯、杨波等(2003)6将期刊以往状态的评价结果作为各期刊基础条件的一种度量,再运用数据包络分析方法(DEA)测算出它们的二次相对评价值。李修杰、陈景武(2006)7运用判别分析法建立的期刊评估指标体系。王玖、徐天和(2003)8运用秩和比法进行医学学术期刊学术质

4、量综合评价。陈汉忠(2004)9等数位学者10-15应用主成分分析对学术期刊进行评价。凌春艳、莫琳(2004)16提出自然科学学术期刊质量指标体系的属性数学综合评价模型并进行了评价。此外,还有一些学者将两种或两种以上的评价方法进行有机融合,采用复合方法进行评价,如根据层次分析法确定权重,再采取加权 TOPSIS 法进行评价,由于复合评价方法只有一个评价结果,因此本质上仍然可以认为是一种多指标综合评价方法。学术期刊多指标综合评价是一项复杂的系统工程,牵涉到评价原则、指标选取、数据标准化、评价方法选择等诸多方面。数据标准化作为一种统计学的基本方法,似乎已经没有任何悬念,近年来少有文献对其进行深入研

5、究。需要指出的是,不同的数据标准化方法,对评价结果影响较大,本文重点比较常见的几种数据标准化方法的特点,在此基础上提出了一种新的反向指标数据标准化方法。2 常见的标准化方法 2.1 正向指标的标准化方法正向指标的标准化方法正向指标的标准化方法正向指标的标准化方法 为了计算简捷,暂不考虑指标数据为区间数的情况。假设有 i 个评价对象,j 个评价指 1国家十一五支撑计划项目(2006BAH03B05)基于海量信息的科技发展与科技评价的科学计量学研究;国家自然科学基金资助(70673019)强竞争与弱竞争态势下的科技发展与科技评价的科学计量学研究 标,每个指标的原始数据值为,i jx,对于正向指标,

6、常见的标准化方法包括线性标准化方法(linear normalization algorithm)和非线性标准化方法(nonlinear normalization algorithm)两大类,线性标准化方法包括三种:,max()i ji jjxyx=(1),min()max()min()i jji jjjxxyxx=(2),1i ji jni jixyx=(3)非线性标准化方法包括偏差法和比重法,偏差法(dispersion)的标准化计算公式为:,i jji jjxxy=(4)其中jx为指标 j 的平均值,j为指标 j 的标准差(standard deviation)。比重法的标准化计算公式

7、为:,21i ji ji jnixyx=(5)2.2 反向指标的标准化方法反向指标的标准化方法反向指标的标准化方法反向指标的标准化方法 常见的反向指标的标准化方法有:,1i ji jyx=(6),min()ji ji jxyx=(7),max()max()min()ji ji jjjxxyxx=(8),1max()i ji jjxyx=(9)其中,公式 6、公式 7 为非线性反向指标标准化方法,公式 8、公式 9 为线性反向指标标准化方法。此外,无论是正向指标还是反向指标,还有一些采用指数函数、幂函数、对数函数等标准化方法。3 标准化方法的选择 3.1 标准化方法的比较标准化方法的比较标准化方

8、法的比较标准化方法的比较原则原则原则原则 3.1.1 同一指标内部同一指标内部同一指标内部同一指标内部相对差距不变相对差距不变相对差距不变相对差距不变原则原则原则原则 任何标准化方法,都不能改变评价对象指标内部数据之间的相对差距,因为如果相对差距改变了,最终评价结果评价对象间的差距就被扭曲了。例如,假设甲期刊的总评分比乙期刊的总评分高 5%,并不意味着二者的真实差距就是 5%,可能大于或小于 5%,但肯定不等于 5%。如图 1 所示,X 为标准化前数据,Y 为标准化后数据,假设有两种标准化方法,得到两根标准化曲线,分别为正向指标线性标准化曲线 L 和正向指标非线性标准化曲线 W。X1、X2 分

9、别为同一指标的两个评价对象原始数据,在线性标准化情况下,标准化后的值分别为Y1、Y2,标准化前两个期刊的指标差距为 X2-X1,即图中的 X1X2 线段部分,标准化后指标的差距为 Y2-Y1,即图中线段 AY2 部分。很显然,(Y2-Y1)/(X2-X1)为固定值,即直线 L 的斜率,也就是说,数据标准化后的差距只和标准化前的差距以及直线的斜率有关。同理,在非线性标准化情况下,标准化后的值分别为 Y、Y,标准化前两个期刊的指标差距为 X2-X1,即图中的 X1X2 线段部分,标准化后的指标差距为 Y-Y,即图中线段BY部分。很显然,标准化后的差距既和标准化前的差距有关,也和曲线方程有关。或者说

10、,相对差距在非线性标准化后发生了变化。图 1 线性标准化与非线性标准化对比 为了进一步说明问题,我们可以用指标数据差距占极差的比例来衡量这种相对关系。假设对于指标 k,任意两个期刊的指标值分别为,m kx、,n kx,不妨用这两个评价对象指标值的差距与指标值极差之比来衡量它们的相对差距,则标准化前的相对差距为:,1max()min()m kn kkkxxxx=(10)对于所有的线性标准化方法,不妨假设其标准化通用公式为:,i ji jyabx=+(11)那么,标准化后的相对差距为:,21()()()max()min()(max()min()m kn km kn kkkkkabxabxb xxa

11、bxabxbxx+=+(12)即对于所有线性标准化方法,标准化后数据的相对差距不变,而非线性标准化方法则不具备这个特性,因此,非线性标准化方法并不适用。3.1.2 不同不同不同不同指标间的相对差距指标间的相对差距指标间的相对差距指标间的相对差距不确定不确定不确定不确定原则原则原则原则 所谓指标间的相对差距,是指在客观事物的发展过程中,不同指标的发展水平并不相同。有些指标发展比较快,总体水平可能较高;而有些指标发展比较慢,总体水平可能较低。数据标准化必须体现出这种差距,为了简捷起见,可以用不同指标标准化后的极差来反映。这里对公式 1、公式 2、公式 3、公式 8、公式 9 四种线性标准化方法下不

12、同指标极差进行比较。对于公式 1,很显然,其最大值为 1,最小值不确定,即标准化后数据的极差是标准化前极差的函数,它反映了不同指标间的差距。其极差为:max()min()min()max()min()1max()max()max()jjjjjjjjxxxyyxxx=(13)对于公式 9,标准化后极大值小于 1,但不确定,极小值为 0,同样反映了不同指标间的差距。其极差为:,min()max()min()max()min()(1)(1)1max()max()max()i ji jjjjjjjxxxyyxxx=(14)对于公式 3,其极差为:,111max()min()max()min()max(

13、)min()jjjjjjnnni ji ji jiiixxxxyyxxx=(15)就是说,公式 3 通过指标初始值的极值之差反映了不同指标间的差距,由函数形式可以看出,反映程度没有公式 1 和公式 9 大。但是对于公式 2 和公式 8,很显然,标准化后极大值为 1,极小值为 0,其极差恒为 1,也就是说,这两种标准化方法不能反映指标间的相对差距,因此不宜选用这两种标准化方法。3.1.3 标准化后极标准化后极标准化后极标准化后极大大大大值值值值相等原则相等原则相等原则相等原则 既然是数据标准化,必须保证标准化后的极大值全部相等(通常为 1 或者 100),否则就失去了标准化的意义。如果某个指标标

14、准化后的极大值小于 1,那么总指标值也会变小,从而使公众对评价结果产生错觉,比如某期刊所有指标都排在第一,总评分应该是满分 1,但是由于某个指标标准化后极大值小于 1,那么总评分可能会是 0.95。采用线性标准化的公式 1、公式 2、公式 8 的极大值均为 1,公式 3、公式 9 的最大值不确定。非线性标准化公式 4、公式 5、公式 6 的极大值不确定,公式 7 极大值为 1。3.2 正向指标与反向指标的标准化方法正向指标与反向指标的标准化方法正向指标与反向指标的标准化方法正向指标与反向指标的标准化方法 根据以上分析,正向指标的标准化方法只有公式 1 全部符合标准化三大原则,反向指标的标准化方

15、法没有一种全部符合标准化三大原则,因此必须寻找新的反向指标的标准化方法。首先根据公式 9 做反向指标的标准化,由于公式 9 最大值不确定,因此用 1 减去公式 9极大值的差再加上原来公式 9 计算的结果进行调整,得到:,11max 1max()max()i ji ji ji ji jxxyxx=+(16)很明显,公式 16 的极大值为 1,属于线性变换,标准化前后的极差不固定,反映了指标间的差距,全部符合指标标准化三大原则。4 不同标准化方法算例 本文以中国科学技术信息研究所 CSTPC 数据库中的部分医学期刊为例,说明不同数据标准化方法的区别,所有数据来自于中国科技期刊引证报告(2006 年

16、版)。由于非线性标准化方法对期刊差距的扭曲,因子省略了非线性标准化方法的相关计算,为了简捷起见,仅举了一个正向指标和一个反向指标数据标准化的例子。结果如表 1 所示。影响因子是正向指标,采用公式 1 标准化,极大值为 1,极小值不固定,符合本文中的三大原则,因此公式 1 是最佳的正向指标数据标准化方法。公式 2 极大值为 1,极小值为 0,假设某期刊所有指标原始数据都排在末位,那么用公式 2 标准化后进行评价的结果值可能为0,很显然不能用公式 2 进行标准化。采用公式 3 标准化极大值不确定,导致的结果是最好的期刊评价结果也不可能为 1,当然也不宜选用。被引半衰期是反向指标,采用公式 8 标准

17、化,极大值为 1,极小值为 0,显然不合适。采用公式 9 标准化,极小值为 0,极大值不确定,同样会出现最好的期刊理想评价结果小于1 的情况。采用公式 16 标准化,极大值为 1,极小值不确定,因子是最好的反向指标标准化方法。表 1 不同线性标准化方法的比较 刊刊刊刊 名名名名 影响因子影响因子影响因子影响因子 原始数据原始数据原始数据原始数据 公式公式公式公式 1 1 1 1 标准化标准化标准化标准化 公式公式公式公式 2 2 2 2 标准化标准化标准化标准化 公式公式公式公式 3 3 3 3 标准化标准化标准化标准化 被引半衰期被引半衰期被引半衰期被引半衰期 原始数据原始数据原始数据原始数

18、据 公式公式公式公式 8 8 8 8 标准化标准化标准化标准化 公式公式公式公式 9 9 9 9 标准化标准化标准化标准化 公式公式公式公式 16161616 标准化标准化标准化标准化 生理学报 0.557 1.000 1.000 1.000 1.000 1.000 0.246 5.13 0.221 0.054 0.812 0.812 0.812 0.812 生物医学工程学杂志 0.291 0.522 0.522 0.522 0.522 0.409 0.128 4.91 0.389 0.094 0.852 0.852 0.852 0.852 安徽医科大学学报 0.25 0.449 0.449

19、0.449 0.449 0.318 0.110 4.91 0.389 0.094 0.852 0.852 0.852 0.852 吉林大学学报医学版 0.371 0.666 0.666 0.666 0.666 0.587 0.164 4.11 1.000 0.242 1.000 1.000 1.000 1.000 北京医学 0.239 0.429 0.429 0.429 0.429 0.293 0.105 5.42 0.000 0.000 0.758 0.758 0.758 0.758 广东医学 0.17 0.305 0.305 0.305 0.305 0.140 0.075 4.17 0.9

20、54 0.231 0.989 0.989 0.989 0.989 广西医科大学学报 0.107 0.192 0.192 0.192 0.192 0.000 0.047 4.95 0.359 0.087 0.845 0.845 0.845 0.845 广州医学院学报 0.161 0.289 0.289 0.289 0.289 0.120 0.071 4.75 0.511 0.124 0.882 0.882 0.882 0.882 贵阳医学院学报 0.122 0.219 0.219 0.219 0.219 0.033 0.054 4.64 0.595 0.144 0.902 0.902 0.902

21、 0.902 5 结论与讨论 4.1 不同评价目的对数据标准化方式要求不同不同评价目的对数据标准化方式要求不同不同评价目的对数据标准化方式要求不同不同评价目的对数据标准化方式要求不同 评价目的不同,对数据的标准化方法的选择不同,这一点很少有人意识到。如果评价仅仅是为了排序,而不需要对评价对象之间的差距进行深入分析,那么无论是什么标准化方法,都不会对评价排序产生影响,也就是说,以排序为主的评价对标准化方法是不敏感的。对于需要进一步分析评价对象差距以及对评价对象进行分级的评价,建议采用本文的两种线性标准化方法。这两种方法既有利于评价结果的排序,也有利于评价结果数据的深入分析和比较。由于多属性决策往

22、往重在选优,多属性评价往往重在评价,因此也可以这样说,多属性决策对数据标准化方法不敏感。期刊评价也要看评价目的,如果仅仅是为了选优,那么对标准化方法的选择是不敏感的,如果要分析期刊之间差距,则必须采用本文推荐的两种标准化方法。4.2 评价与事物发展规律之间的关系评价与事物发展规律之间的关系评价与事物发展规律之间的关系评价与事物发展规律之间的关系 近年来,一些学者开始研究基于时间序列和面板数据(panel data)的评价问题,苏为华(2000)17认为在现实生活中,许多评价对象的价值水平与指标值的关系是非线性的,应该采用一些非线性标准化方法。那么在什么情况下应该考虑非线性标准化方法呢?评价对象

23、评价往往重在截面数据的比较,即同一年度不同评价对象的比较,因此是不宜采用非线性标准化方法的,假如是对同一期刊不同年度的评价,则可以根据时间序列数据的特点首先绘出散点图,然后根据不同指标不同图形的特点适当选取不同的数据标准化方法。本文介绍的标准化方法适用于所有截面数据的评价。参考文献参考文献参考文献参考文献 1Weiping Yue、Concepcion S.Wilson.Measuring the citation impact of research journals in clinical neurology:a structural equation modeling analysisJ

24、.Scientometrics,2004(3):317-334 2苏新宁.构建人文社会科学学术期刊评价体系J.东岳论丛,2008(1):35-42 3邱均平、张荣等.期刊评价指标体系及定量方法研究J.现代图书情报技术,2004(7):23-26 4庞景安、张玉华等.中国学术期刊综合评价指标体系的研究J.中国学术期刊研究,2000(11):217-219 5李凯扬、贾玉萍.基于 AHP 的期刊全文数据库的模糊综合评价J.情报科学,2005(11):1688-1703 6王小唯、杨波等.学术期刊质量评估的二次相对评价方法J.编辑学报,2003(6):231-232 7李修杰、陈景武.运用判别分析法

25、建立的期刊评估指标体系J.江西图书馆学刊,2006(3):48-50 8王玖、徐天和.秩和比法在医学学术期刊学术质量综合评价中的应用J.数理医药学杂志 2003(3):266-267 9陈汉忠.主成分分析在学术期刊评价中的应用J.中国学术期刊研究,2004(6):658-660 10王引斌.测定核心期刊的新方法主成分分析法J.情报学报,1998,17(5):13.11贺颖.2001-2004 年中国管理类期刊学术影响力综合评价J.中国软科学,2007(1):107-112 12管进,陈文凯等.外文核心期刊的综合评价主成分析法的应用J.图书情报工作,2004(1):13-16 13张弘、赵惠祥等.基于主成分分析法的学术期刊评价方法J.编辑学刊,2008(2):87-90 14杨文燕,刘亚民等.利用主成分分析法对中国肿瘤类期刊学术影响力的综合评价J.中国肿瘤,2008(1):79-81 15周玲、张玲玲.利用因子分析法对国内主要数学期刊进行评价J.淮北煤炭师范学院学报 2006(6):67-70 16凌春艳、莫琳.自然科学学术期刊质量指标体系的属性数学综合评价模型J.数学的实践与认识,2004(5):1-7 17苏为华.多指标综合评价理论与方法问题研究.厦门大学博士论文,2000(9):48-55

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 标准材料 > 机械标准

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁