《随机森林方法在电信行业客户流失预测中的应用.doc》由会员分享,可在线阅读,更多相关《随机森林方法在电信行业客户流失预测中的应用.doc(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 收稿日期:收稿日期:2016-08-08 录用日期:录用日期:2016-12-09基金项目:基金项目:福建省软科学项目(2015R0083) * 通信作者:通信作者:1doi: 10.6043/j.issn.0438-0479.201608004基于分类回归决策树算法的专利价值评估指标体系基于分类回归决策树算法的专利价值评估指标体系邱一卉* 张驰雨(厦门理工学院经济与管理学院,福建 厦门 361024) 摘要:摘要:科学、准确的专利价值评估将有效地促进专利的产业化、商业化 ,是提升国家、企业综合实力的重要 关键点。针对我国专利数据来源众多、指标关系复杂等特点,现有专利价值评估过程依赖人为主观
2、,缺乏客 观、合理评估方法等问题,提出了一种基于分类回归决策树(classification and regression tree, CART)模型的 属性选择方法,用于构建专利价值评估的指标体系。实验结果表明相较于基于随机森林的属性选择方法,该 方法不仅能有效地降低指标体系的规模,并且能提高评估建模的效率,在兼顾评估模型可解释性的基础上更 好地提高专利价值评估的准确性。进一步通过枚举遍历的方法,约减指标集大小,构建出规模更小的指标体 系,结合专家知识和实证研究,有效地验证了该指标体系的可解释性和现实意义。 关键词:关键词:专利价值评估指标体系;属性选择;决策树算法 中图分类号:中图分类号:
3、TP181 文献标志码文献标志码: A近年来,我国的专利总量快速增长。2015 年, 我国全年科研经费支出达 14220 亿元,比上年增长 9.2%,全年受理专利申请 279.9 万件,为 171.8 万件 授予专利权1。据世界银行统计,我国的科技成果 转换率为 15%,其中专利转换率为 25%,专利推广 率在 15%20%左右,与庞大的专利数量相比,如此 之低的转换率使得大量优秀专利技术处于闲置和浪 费状态,缺乏有效的专利价值评估手段就是影响专 利快速转换的一大阻碍。若能快速有效地对专利进 行评估,不仅可以节约 60%的研究时间,更可以节 省 40%的研究经费13。因此,进行有效地专利价值
4、评估是最为关键的一环。 专利价值评估涉及诸多的指标,因此识别影响 专利价值的关键指标有利于我们进行更加准确和有 效的专利评估。近年来国内外学者在专利价值评估 指标体系方面研究取得了不少成果,Park4和 Hou5 分别提出了影响专利价值评估的主要因素,也出现 了 CHI 专利价值评估指标体系6和佐治亚太平洋 (Georgia Pacific)评估体系7等相关指标体系。杨 丹丹、李清海、赵蕴华等814提出了影响专利价值 评估的关键指标,并构建了专利价值评估指标体系。 国家知识产权局于 2012 年出版了专利价值分析指 标体系操作手册15,该体系主要包括技术价值因 素、法律价值因素及经济价值因素
5、3 个一级指标及一系列二级指标,为专利价值评估提供指导性的先 验信息。 综上,国内外学者对专利价值评估指标体系研 究取得了不少成果,在实际应用邻域仍未形成统一 的评估模型及标准。我国专利数据库也存在不完善、 未标准化等问题使得很多国外的研究成果不适用于 我国的专利价值评估,导致以往的专利价值评估过 程中过于依赖人为评价、主观性太强,缺乏公正、 合理和易操作的评估方法。在这一背景下,利用跨 领域的新方法对专利价值评估指标体系进行进一步 研究将具有重要的理论意义和实践价值。 专利价值评估数据具有来源众多、指标关系复 杂、类别不平衡等特点,为进一步提高评估性能, 对专利价值评估数据进行属性选择、建立
6、一个简约 的专利价值评估指标体系十分必要。机器学习领域 的属性选择分为三种模式:第一种模式是过滤器 (Filter)方法,独立的对数据属性进行选择处理, 与后续模型无关;第二种模式是包裹式(Wrapper) 方法,直接把最终将使用的模型性能作为特征子集 的评价准则;第三种模式是嵌入式(Embedding)方法, 将属性选择过程与模型训练过程融为一体。一般而 言,由于包裹式属性选择方法直接针对模型进行优 化,因此从最终模型性能来看,包裹式特征选择比 过滤式特征选择更好。Fishers ratio、F-score16和* 通信作者:通信作者:作者简介:邱一卉,女,博士,副教授,从事方向:管理科学及
7、工程作者简介:邱一卉,女,博士,副教授,从事方向:管理科学及工程基金项目:福建省软科学项目(基金项目:福建省软科学项目(2015R0083)Chi-Square17属性选择方法都是过滤器式的方法。这 些方法无法检测属性之间的关系,所选取的属性之间可能存在严重冗余, 提高过拟合风险。而 KP-SVM18(Kernel-Penalized Support Vector Machine)和 Boosting-SVM19 (Boosting Support Vector Machine)则是嵌入式的 属性选择方法,嵌入式的属性选择方法效率较高, 它们在构造分类器的同时选择相关的属性。基于随 机森林20
8、的属性选择方法也是一种嵌入式属性选择 方法,在建立随机森林的同时可以得到变量重要性 的排序列表,根据该列表进行属性选择。但是这类 方法依赖于特定的数据类型,在专利价值评估的数 据上运用效果不佳。针对以上属性选择方法在专利 价值评估指标体系应用中出现的问题。本文提取出 一种基于 CART 决策树算法的属性选择方法,用于 构建专利价值评估的指标体系。实验结果表明相较 于基于随机森林的属性选择方法,该方法具有更大 的优势,能够有效地降低指标体系的规模。相较于 上述属性选择方法该方法能快速简洁地对属性进行 选择,得到属性的重要性程度排序,并可适用于多 种数据类型。本文进一步通过枚举遍历的方法,约 减指
9、标集大小,构建出规模更小的指标体系,结合 专家知识和实证研究,有效地验证了该指标体系可 解释性和现实意义。与传统的成本法21和市场法22 相比本文提出的专利价值评估指标体系不受市场波 动影响,更具客观性,数据获取也更加准确、便利。1 属性选择方法属性选择方法1.1 CART 决策树算法决策树算法为提高专利评估的效率,本文利用在机器学习 领域应用最为广泛的 CART 决策树算法进行属性选 择。决策树是一种由结点和有向边组成的层次结构, 树中包含三种结点:根结点、内部结点、终结点。 决策树仅有一个根结点,是全体训练数据集合。树 中的每个内部结点是一个分裂问题,它将到达该结 点处的样本按某个特定属性
10、分块。每个终结点是带 有分类标签的数据集合。从决策树的根结点到叶结 点的一条路径形成一个判别规则。 CART 决策树算法是 Breiman23于 1984 年提出 的,该算法可以处理处理高度倾斜或多态的数值型 数据,也可以处理顺序或无序的类属型数据24。 CART 算法使用基尼系数(Gini Index)作为不纯度的度量,CART 算法选择具有最小 Gini 系数值的属 性作为决策树的分裂属性,Gini 系数值越小,表明 样本对于分类问题的纯净度越高,划分效果越好。 基尼系数的定义如公式 1 所示:(1)21( )1Ci iGini Ap 公式 1 表示一个节点 A 的 Gini 不纯度,其中
11、 表示属于 类的概率,C 表示测试集样本共有 Cipi类。当时表明所有样本属于同类,当所( )0Gini A 有类在节点中以等概率出现时,,( )(1)/ 2Gini AC C最大化。在实际递归划分中,如果当前节点( )Gini A的中的样本数不为 1 并且所有样本不属于同一类, 则此节点为非叶子节点,尝试样本中的每个属性作 为分裂属性进行计算,尝试找出不纯度最小的一个 划分,该属性划分即为该节点下的最优分支。 按上述生成过程递归得到的完整的决策树往往 都会出现“过拟合”现象,因此需要对决策树进行 剪枝。CART 算法采用交叉验证法进行剪枝,最终 得到的是一棵兼顾复杂度和错误率的最优二叉树。1
12、.2 基于基于 CART 树预测准确率的属性选树预测准确率的属性选择方法择方法本文提出一种基于 CART 决策树预测准确率计 算的属性选择方法,基本思路是利用对决策树模型 预测准确率的影响程度来定义某个属性(指标)的 重要程度,影响程度越高说明该属性对评估预测越 重要,影响程度越低说明该属性与评估预测越不相 关,即越不重要。基于以上思路来进行属性选择, 首先根据去除某一属性之后对模型预测准确率的影 响程度定义“影响系数值” ,其次根据加入某一属性 之后对模型预测准确率的提升程度定义“提升系数 值” ,最终结合以上两个系数值,找到对评估预测影 响最大的关键指标,建立专利评估的指标体系。 首先定义
13、“影响系数值”如式 2 所示。(2)0iiAAI 其中 为初始模型的预测准确率均值,为0AiA去除第 i 个属性后的模型预测准确率均值,越大iI表明去除的属性越重要。 利用初始训练集对决策树模型进行训练,采用五重交叉验证法计算该模型的预测准确率,重复实 验 100 次,得到一个平均预测准确率,即为未进行属性选择的初始模型预测准确率均值,定义如式0A 3 所示。(3)01 0njjA An其中为初始模型的预测准确率均值,第 j0A0 jA次实验的预测准确率,n为实验重复次数。利用递归的方式,采取从属性集中逐一递减属 性的方法来逐一计算每个属性的重要性,每次仅从 属性集中去除一个属性,使用该子集训
14、练新的决策 树,同时采用五重交叉验证法计算该模型的预测准 确率,重复实验 100 次,得到去除这一属性后的预 测准确率均值,代入式 2 中得到相应的“影响系数 值” 。依次对属性集中的每一属性进行实验,得到每 一个属性的影响系数值。根据影响系数值对属性进 行排序,得到属性的影响系数值排序。 如果仅以去除某一属性之后模型预测准确率的 变化程度来衡量属性的重要性,有可能导致模型的过拟合,或者较大程度依赖于特定的数据来源,因 此,引入“提升系数值”来反向考量属性对模型预 测准确率的提升程度,从而更准确的衡量属性的重 要性。 “提升系数值”定义如式 4 所示。(4)1iiiBBP其中为第 i 个属性加
15、入前的预测准确率均1iB 值,为第 i 个属性加入后的准确率均值,该属性iB 的提升系数值定义为。当时表明该属性后有iPiP0 助于提高分类任务的准确率,该属性的加入将提高模型的性能,越大则提升幅度越大,该属性越重iP要;当时该属性对分类任务是无益的。iP0 根据属性影响系数排序使用前向递归方法进行 决策树建模,依次向模型中加入属性建立决策树模 型,每次仅加入一个属性,采用五重交叉验证法计 算该属性加入后模型的预测准确率,重复实验 100 次,代入式 4 得到相应的“提升系数值” 。根据提升 系数值由高到低对属性进行排序,同时选取提升系 数值大于 0 的属性,此时得到的属性集合即为属性 选择后
16、的最优属性子集。表 1 数据集属性列表Tab.1 Attributions of dataset权利要求数当前法律状态专利类型专利有效性文献种类代码国民经济分类简单同族个数扩展同族个数同族国家个数引证专利个数家族引证个数被引证次数家族被引证个数引证申请人个数被引证申请人个数家族引证申请人个数家族被引证申请人个数被引证专利个数家族被引证次数价值度表 2 样本分布情况Tab.2 Description of sample distributionClass1Class2Class3Class4Class5Class6合计29224223122334126115902 专利价值评估指标体系的建立专利
17、价值评估指标体系的建立2.1 实验数据实验数据本文的数据来源于合享创新专业专利数据库网 站。结合专利价值评估领域专家的先验知识,在 专利价值评估指标体系基础上得到一个具有 19个属性的数据集,具体属性如表 1 所示。其中价值 度为分类标签,原始数据共分为 19 九级,等级越 高对应价值越高。通过对原始数据的分析理解与预 处理,将 14 级划分为一个类别“class1” ,59 级 每一级分为一类分别命名为“class2” 、 “class3” 、“class4” 、 “class5”和“class6”共有六类标签,样 本分布情况如表 2 所示。2.2 基于预测准确率计算的属性选择法基于预测准确
18、率计算的属性选择法具体实验步骤如下算法 1 所示:算法 1 基于预测准确率计算的属性选择方法:输入: 属性集合, 分类标签,CART 决策12,iCC CCL树算法;步骤 1:1.1 使用集合与建立决策树,得到预测准确率均值,CL0A标准差;01.2 for 所有属性iC1.3 使用去除的属性集合与建立决策树,得到预iCYL测准确率;iA1.4 ;0iiAAI1.5 endfor1.6 去除的属性,将属性集合根据升序排序,得0iICiI到属性集合;12,iCCCC步骤 2:2.1 for 所有属性;iC2.2 向属性集合中这个加入第 i 个属性,0TiC,使用与建立决策树,得到预测准确率;1i
19、iiTTCiTLiB2.3 ;1iiiBBP2.4 endfor2.5 选取出对应的属性,得到属性集合;0iP iCX输出:属性选择出的最佳属性组合,.12,jXXXXXC为为第 i 个属性缺失后的属性子集。算法步YiC 骤 1.6 得到新的属性集合,排序如表 3 所示。为CiT 第 个属性加入后的属性子集,为加入前iiC1iTiC的属性子集,为该属性加入后的预测准确率均值,iB 绘制如图 1 的折线图,实验结果如表 4 所示。选出的属性,构成新的属性子集。 0iP X 根据该属性的提升系数对属性再进一步排序,iP 再次使用前向递归方法,将属性依次从前到后依次 加入决策树模型中,得到各自加入后
20、的预测模型准 确率表 5。从第 7 个属性开始都是的属性,为0iP 了说明选择的属性是较优的这里仍继续加入未提升 属性进行建模,观察预测准确率变化,绘制折线如 图 2 所示。 图 2 中虚线所指位置即为最佳属性子集的准确率, 此时的模型性能较高且使用的属性规模较小,虽然 之后再加入几个属性会出现准确率的增加,但是对 准确率的增加幅度有限,同时增加模型过拟合的风 险。因此选择出 7 个属性用以预测,选择的 7 个属 性集合为最 佳属性子集,包含文献种类代码、家族被引证个数、 扩展同族个数、权利要求数量、引证专利个数、专 利类型和简单同族个数 7 个属性。 通过以上的实验可以发现在使用前向递归方法
21、 时,预测准确率首先会随着属性个数的增加而递增, 当属性个数达到某个临界值预测准确率最高,当属 性个数超过这一临界值时预测准确率会逐步递减, 这是由于开始较少的属性个数未能包含足够的信息 保证分类任务的有效进行,而当属性个数超出临界 值时又包含了大量冗余、无效信息以至于破坏分类 器的性能。属性选择的重要性就体现于此,选择适 用于分类任务的最佳属性子集。表 3 根据影响系数的属性排序Tab.3 Attribution ranking based on influence coefficient排序属性名称排序属性名称1文献种类代码2家族被引证个数3扩展同族个数4同族国家个数5家族引证个数6引证专
22、利个数7引证申请人个数8家族引证申请人个数911专利类型被引证次数1012被引证专利个数家族被引证次数131517被引证申请人个数专利有效性简单同族个数141618权利要求数国民经济分类家族被引证申请人个数012345678910 11 12 13 14 15 16 17 18 加入属性个数60626466687072747678808284868890预测准确率%图 1 根据影响系数前向递归的预测准确率变化曲线 Fig.1 Accuracy curve of forward recursion experiment based on influence coefficient 0123456
23、789101112 加入属性个数606264666870727476788082848688909294预测准确率%图 2 根据提升系数前向递归的预测准确率变化曲线Fig.2 Accuracy curve of forward recursion experiment based on lifting coefficient表 4 根据影响系数前向递归的预测准确率Tab.4 Accuracy rate of forward recursion experiment based on influence coefficient属性个数新加入属性名称预测准确率(%)提升系数(%)属性个数新加入属性
24、名称预测准确率(%)提升系数(%)1文献中类代码62.490.4562.492家族被引证个数72.290.449.83扩展同族个数83.820.4711.534同族国家个数83.760.43-0.065家族引证个数83.750.480.016引证专利个数85.530.451.787引证申请人个数85.260.45-0.278家族引证申请人个数85.180.46-0.089专利类型86.370.421.1910被引证专利个数86.310.46-0.0611被引证次数86.310.480.0012家族被引证次数86.230.44-0.0813被引证申请人个数86.220.45-0.0114权利要求
25、数89.810.443.5815专利有效性86.420.69-3.3916国民经济分类85.960.60-0.4617简单同族个数86.360.590.4018家族被引证申请人个数86.170.68-0.19表 5 根据提升系数前向递归的预测准确率Tab.5 Accuracy rate of forward recursion experiment based on lifting coefficient属性个数新加入属性名称预测准确率(%)属性个数新加入属性名称预测准确率(%)1文献中类代码62.510.512家族被引证个数72.400.443扩展同族个数83.400.434权利要求数89.
26、460.415引证专利个数88.840.416专利类型89.750.387简单同族个数90.360.478同族国家个数90.370.449家族引证个数90.380.4610引证申请人个数90.340.4511被引证专利个数90.230.4412被引证次数90.260.472.3 对比实验对比实验本文引入在属性选择领域中应用较为广泛的基 于随机森林的变量重要性方法,与本文提出的属性 选择方法进行对比。随机森林实验中使用 CART 决 策树算法为基础算法建树,设置参数森林的大小 ntree=500,每个节点上随机选择的分裂属性数 mtry=5。表 6 为随机森林算法得到的各属性的变量 重要性排序列
27、表。 3.2 中使用基于预测准确率计算的属性选择方法 选取了 7 个属性作为较优的属性集合,此处使用随 机森林算法得到了 19 个属性的变量重要性。使用上 述两种方法得到的属性排序构建决策树模型和支持 向量机模型25(Support Vector Machine,SVM)对 比两种属性选择方法的性能。决策树使用的是 CART 决策树算法,度量标准为 Gini 系数,支持向 量机的核函数为二次有理核(Quadratic)核算法,惩罚 因子 C=1。表 6 属性变量重要性排序列表Tab.6 Ranking of attributions importance排序属性名称排序属性名称1权利要求数2文
28、献种类代码3专利有效性4简单同族个数5扩展同族个数6专利类型7同族国家个数8家族引证个数9家族被引证次数10家族被引证个数11国民经济分类12家族被引证申请人个数13家族引证申请人个数14引证专利个数15引证申请人个数16被引证次数17被引证专利个数18被引证申请人个数19当前法律状态在同样选取前 7 个最优属性的情况下分别构建 模型,得到预测准确率表 7:表 7 属性选择方法对比Tab.7 Comparison of features selection methods预测准确率(%) 分类器模型 基于预测准确率基于随机森林变量重要性决策树90.410.4082.460.49支持向量机90.
29、180.2873.160.23实验进一步按照随机森林给出的变量重要性列 表逐个加入属性构建决策树,当加入属性为 10 个时 决策树模型预测准确率达到最大 86.89%,表 5 与表 8 对比也可以发现前者更优。表 8 采用基于随机森林的属性选择方法的模型性能Tab.8 Accuracy of models based on Random Forest feature selection method属性个数预测准确率(%)属性个数预测准确率(%)161.540.281185.090.72277.760.381285.060.76381.070.221384.930.62481.720.4114
30、86.280.57581.310.411586.340.63682.450.471686.270.64782.460.491786.300.60883.110.551886.350.65986.810.611953.970.201086.890.592.4 约减的指标集合约减的指标集合为进一步提高专利价值评估的建模效率及性能, 进一步缩小指标集合的规模,本节将在已有 7 个属 性的基础上进一步使用枚举法遍历寻找规模更小的 指标集合。为保证最终选取的属性是有效的、不受 到分类器影响的,分别选取决策树、支持向量机、 随机森林三类分类器算法来建立模型。实验中三类 算法的参数设置与 3.3 中的设置相
31、同。以下给出 7 个属性的序数列表,下文将以对应序号来表示选取 的属性。 假设选取属性数量为 1 时,需要在 7 个属性中随机选择一个属性建立模型,枚举所有可能性为,17C即有 7 种组合可能;假设选取两个属性时为,以27C此类推全部共有 127 种组合方式。对每一种属性组 合可能都建立三种模型,决策树模型、支持向量机模型、随机森林模型,采用五重交叉检验计算每个 模型的预测准确率,并且在每个属性组合下重复实 验 100 次得到该组合的预测准确率均值,进而得到 了选取属性个数从 1 个到 7 个各种组合的预测准确 率,找出在某一特定属性子集下的最高预测值及其 组合、最小预测值及其组合,预测准确率
32、最高的集 合即为约减的属性子集。决策树建模结果如表 10 所 示,支持向量机建模结果如表 11 所示,随机森林建 模如表 12 所示。表 10、表 11 和表 12 中“最高值 对应属性组合”的数字与表 9 中相应序号的属性名称对照。表 9 属性名称与序号对照表Tab.9 Cross reference list of attributions names and numbers序号属性名称序号属性名称1权利要求数2专利类型3文献种类代码4简单同族个数5扩展同族个数6引证专利个数7家族被引证个数表 10 CART 决策树算法寻找约减集合Tab.10 Finding smaller attrib
33、utions set based on CART decision tree algorithm 加入属性个数1234567最高值(%)62.474777.739886.820889.426190.758890.574490.4142最低值(%)49.469556.315563.367572.601579.402884.285090.4142均值(%)55.206768.183676.556582.063485.688288.314090.4142最高值对应属性组合3131371347123471234671234567CART 决策树算法下的最高值属性组合与表 9 对应,得到准确率最高的属性
34、集合为:权利要求数、专利 类型、文献种类代码、简单同族个数和家族被引证个数。表 11 支持向量机算法寻找约减集合Tab.11 Finding smaller attributions set based on SVM algorithm加入属性个数1234567最高值(%)62.583478.765586.439588.735390.619690.462390.1811最低值(%)34.080122.140143.088771.544379.990585.605390.1811均值(%)47.562357.209861.828381.582585.753888.195690.1811最高值对应
35、属性组合3131371347123471234671234567支持向量机算法下得到准确率最高的属性集合为:权利要求数、专利类型、文献种类代码、简单同族个 数和家族被引证个数。表 12 随机森林算法寻找约减集合Tab.11 Finding smaller attributions set based on Random Forest algorithm加入属性个数1234567最高值(%)58.150074.709482.915689.340690.146990.587590.5063最低值(%)32.212551.656359.409468.846975.306382.153190.5063
36、均值(%)46.121063.659272.346380.550383.826687.579090.5063最高值对应属性组合3343571347123471234671234567随机森林算法下得到准确率最高的属性集合为:权利要求数、专利类型、文献种类代码、简单同族个数、引证专利个数和家族被引证个数。3 实证分析实证分析通过以上实验可以发现,在决策树算法和支持 向量机算法中,选取 5 个属性时使得预测准确性最 高。在随机森林算法中会多加入一个属性使模型达 到最优,即 6 个属性时,由于随机森林为组合算法, 每一棵树的属性不完全一样,不会使用全部的属性 建树。也可以发现在不同属性数量的属性子集
37、下, 三种模型约减的属性子集属性重合率极高,因此我 们认为约减的属性集合为包含权利要求数、专利类 型、文献种类代码、简单同族个数和家族被引证个 数 5 个属性的属性集合,该集合即为本文提出的简 约的专利价值评估指标体系。 接下来将对上文总结得到的专利价值评估指标 体系进行简要分析。 “权利要求数”指独立权利要求数量及从属权利 要求总数。权利要求数量越多,通常反映从属权利 要求的撰写越严密,无效诉讼中能提供的修改余地 越大,被完全无效的可能越低。独立权利要求项数 越多,一般对技术所涉及主题的类别也越全面。研 究表明,专利权要求数量众多,并且技术覆盖范围广 的专利大多为更有价值的专利926。 “专
38、利种类”包括发明专利、实用新型专利和 外观设计专利。发明专利,是指对产品、方法或者 其改进所提出的新的技术方案。实用新型专利,是 指对产品的形状、构造或者其结合所提出的适于实 用的新的技术方案。外观设计专利,是指对于产品 的形状、图案、色彩或者其结合所提出的富有美感 并适于工业上应用的新设计。在专利保护期限上, 发明专利的保护有效期为 20 年,实用新型专利与外 观设计专利保护有效期为 10 年,相对而言发明专利 的受保护时间更长,同时发明专利的技术要求程度 也相对较高,都使发明专利在大多数情况下能获得 更高的经济价值27。 “文献种类代码”全称为“专利文献种类标识 代码” ,是指国家知识产权
39、局为标识不同种类的专利 文献而规定使用的字母代码,或者字母与数字的组 合代码。大写英文字母表示相应专利文献的公布或 公告,阿拉伯数字用来区别公布或公告阶段中不同 的专利文献种类。该代码能够反映某一专利的类型、 专利状态信息,专利的有效性和法律状态可以在一 定程度上反映专利的价值28。专利族亦称专利家族,把具有共同优先权的在 不同国家或国际专利组织多次申请、多次公布或批 准的内容相同或基本相同的一组专利文献称作专利 族。 “简单同族个数”指一组专利族中的所有专利都 以共同的一个或共同的几个专利申请为优先权的专 利个数。可以简单的理解为同一个专利在多国得到 专利保护,这一系列的专利即为简单同族专利
40、,也 可以反映出该专利价值意义,当专利价值进行授权 时,专利已在全球范围内布局,购买方会愿意付出 更高的价格购买该专利。 “家族被引证个数”的概念 可以结合以上的专利家族概率得到,如果同族中的 专利被引用次数较高就说明一项专利对未来的技术 进步奠定了基础,在一定程度上反映了专利族的技 术、经济价值39。 本文提出的专利价值评估体系也有效印证了国 内外研究的成果。吕璐成14、申文娇29、赵蕴华13 等人的结论都认为权力要求数是进行专利价值评估 一个重要的指标。杨冠灿11、李清海9、冯岭12等 也提出了运用专利族和家族引用数量指标的专利价 值评估方法,本文的实验结果也印证了专利家族指 标的重要性。
41、在佐治亚太平洋(Georgia Pacific)评 估体系7和 Lanjouw-Schankerman(LS)专利价值评 估模型26中也都选择了权力要求数和简单同族个数 作为评估指标之一。专利种类能反映专利价值的观 点也符合专利价值基本评估理论810。结合国家知 识产权局的专利价值分析指标体系15,我们可以将 专利种类归结于技术特征指标中,简单同族个数、 家族被引证个数的专利族属性可以归结为市场特征 指标,文献种类代码可以反映法律特征指标,而权力 要求数可以同时反映专利的法律特征又可以反映专 利的技术特征。综上所述,本文提出的专利价值评 估指标体系是有效的,对于专利价值评估研究具有 一定的指导
42、意义。4 总结总结本文提出了一种使用基于 CART 决策树算法的 属性选择方法,使用该方法对专利价值评估指标体 系进行研究,提出了一个约减的专利价值评估指标 体系。本文利用专业专利检索数据库开展实验,实 验表明,与基于随机森林的属性选择算法进行对比, 本文提出的新的指标体系选择方法在专利价值评估 预测中具有更好泛化性能,在此基础上利用实验性的方法,进一步缩小指标体系规模,采用枚举遍历 的方法寻找出了约减的指标体系,最终得到专利价 值评估指标体系包含权利要求数、专利类型、文献 种类代码、简单同族个数和家族被引证个数 5 个属 性。最后,对得到的专利价值评估指标体系进行了 实证分析,充分论证了该指
43、标体系的可解释性和意 义。参考文献:参考文献:1 中华人民共和国国家统计局. 2015 年国民经济和社会发展统计公报EB/OL. http:/ 廖忠安. 专利转化率的相对性实证分析D. 华南理工大学, 2014:10-143 王静, 吴玉春, 孙大帅. 基于决策树模型的非商业化专利价值评估方法研究J. 经济论坛, 2013(10):131-136.4 PARK Y, PARK G. A new method for technology valuation in mone-tary value: procedure and applicationJ.Technovation,2004,24 (5):387-394. 5 HOU J L, LIN H Y. A Multiple Rgression Model for Patent Appraisal Searching for Factors Influencing Technologocal Asset ValueJ. Industrial Management features selection; decision tree algorithm