《基于词频统计的文本关键词提取方法-罗燕.pdf》由会员分享,可在线阅读,更多相关《基于词频统计的文本关键词提取方法-罗燕.pdf(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Journal of Computer Applications计算机应用,2016,36(3):718725ISSN 10019081CODEN JYIIDU20160310http:wwwjocacn文章编号:10019081(2016)03-71808 DOI:1011772jissn1001-9081201603718基于词频统计的文本关键词提取方法罗 燕12,赵书良1,2,李晓超1,2,一,韩玉辉123,丁亚飞123(1河北师范大学数学与信息科学学院,石家庄050024; 2河北师范大学河北省计算数学与应用重点实验室,石家庄050024;3河北师范大学移动物联网研究院,石家庄0500
2、24)(通信作者电子邮箱zhaoshuliangsinaCOrn)摘要:针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TFIDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过005;确立的各频次词语所占比重的最大误差绝对值为004;提出的基于词频统计的IFIDF算法与传统ITIDF算法相比,平均查准率、
3、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及Fl指标上均优于传统TFIDF算法,并能够有效减少关键词提取运行时间。关键词:词频统计;齐普夫定律;同频词;关键词提取;TF-IDF算法中图分类号:TP391 文献标志码:AText keyword extraction method based on word frequency statisticsLUO Yanl2一,ZHAO Shulian91,2,”,LI Xiaocha01,2一,HAN Yuhuil2一,DING Yafeil2,3(1Co
4、llege of Mathematics and Information Science,Ikbei Normal University,Shijiazhuang ltebei 050024,China;2醌妊Key Laboratory of Computational Mathematics and Applications,ltebei Normal University,Slajiazhuang Hebei 050024,China;3Institute of Mobile Internet of Things,ltebei Normal University,Shijiazhuang
5、 ltebei 050024,China)Abstract:Focused on low efficiency and poor accuracy of the traditional TF-IDF(Term Frequency-Inverse DocumentFrequency)algorithm in keyword extraction,a text keyword extraction method based on word frequency statistics WasproposedFirstly,the formula of the sanle frequency words
6、 in text was deduced according to Zipfs law;secondly,theproportion of each frequency word in text was determined in accordance with the formula of the sanle frequency words,most ofwhich were low-frequency words;finally,the TFIDF algorithm based on word frequency statistics Was proposed by applyingth
7、e word frequency statistics law to keyword extractionSimulation experiments were conducted on Chinese and English textexperiment data setsThe average relative error of the formula of the sanle frequency words Was not more than 005;themaximum absolute ellor of the proportion of each frequency word in
8、 text was 004Compared with the traditional TF-IDFalgorithm,the average precision,the average recall and the average F1-measure of the TF-IDF algorithm based on wordfrequency statistics were increased respectively,while the average runtime Was decreasedThe simulation results show that intext keyword
9、extraction,the TF-IDF algorithm based on word frequency statistics is superior to the traditional TFIDF algorithmin precision,recall and F1一measure,and it call effectively reduce the runtime in keyword extractionKey words:word frequency statistics;Zipfs law;same frequency word;keyword extraction;Ter
10、m FrequencyInverseDocument Frequency(TFIDF)algorithm0 引言随着互联网的飞速发展,各种文本信息迅速扩张,面对如此海量的信息,人们需要花费大量时间和精力对其进行挑选和甄别。关键词是一篇文章核心内容的体现和主题信息的浓缩,用户可以通过阅读关键词快速明确文章主旨,从海量的文章中获取有用信息。关键词提取是信息处理领域的基础与核心技术,它在信息检索、话题跟踪、自动摘要、文本聚类、文本分类等领域都有着广泛的应用。Abilhoa等提出一种针对推特消息的关键词提取方法;Chen等旧1通过用户行为提取博客中的关键词;JeanLouis等p o提出一种面向知识库
11、的自动关键词提取方法;Habibi等H1提取会话中的关键词来进行文档收稿日期:20150724;修回日期:20150916。基金项目:国家自然科学基金资助项目(71271067);国家社会科学基金资助项目(13BTY011);国家社会科学基金重大项目(13&ZD091);河北省高等学校科学技术研究项目(QN2014196);河北师范大学硕士基金资助项目(201402002)。作者简介:罗燕(1993一),女,河北灵寿人,硕士研究生,主要研究方向:数据挖掘、智能信息处理;赵书良(1967一),男,河北献县人,教授,博士生导师,博士主要研究方向:数据挖掘、智能信息处理;李晓超(1987一),男,河
12、北永年人,硕士,主要研究方向:数据挖掘、智能信息处理;韩玉辉(1989一),男,河北邢台人,硕士研究生,主要研究方向:数据挖掘、智能信息处理; 丁亚飞(1988一),女,河北石家庄人,硕士研究生,主要研究方向:数据挖掘、智能信息处理。万方数据第3期 罗燕等:基于词频统计的文本关键词提取方法 719推荐;蒋昌金等”1提出基于组合词和同义词集的关键词提取算法;何炎祥等哺1利用关键词提取等技术,对社交网络用户兴趣进行挖掘。TF-IDF(Term Frequency-Inverse Document Frequency)算法是目前应用最多的基于统计信息的关键词提取方法,但该方法需要对每个词语进行词频统
13、计,严重影响提取效率,此外,该方法可能将低频词错选为关键词而影响提取准确率。为解决此问题,本文首先对词频统计规律进行研究,推导同频词数,。计算公式、探究各频次词语所占比重,进而将词频统计规律应用于文本关键词提取,提出基于词频统计的TFIDF算法。实验表明,该算法可以在保证提取正确率的前提下有效提高关键词提取效率。1 词频统计规律词频统计是一种词汇分析研究方法,通过对一定长度文本的词频进行统计、分析,进而描绘出词汇规律。到目前为止,已有很多学者对词频统计规律进行研究,包括词频统计规律的提出7。8、验证9|、应用10-111等各个方面,但仍存在以下问题值得进一步探究:1)如何准确计算文本中的同频词
14、数量;2)如何确定文本中各频次词语所占比重。本节对词频统计规律进行研究,首先推导同频词数L的计算公式,其中L是文本中频次为1,的词语数量;然后确定各频次词语所占比重。11 同频词数L本节主要利用齐普夫定律来推导L的计算公式。齐普夫定律(Zipfs Law)是文献计量学三大定律之一,定量揭示了文本中词频的分布规律,主要内容1为:对于一个文本d,其文本长度为r,且7足够大,统计d中每个词的词频n,按照n值递减顺序排列,并依次给这些词编上等级序号r(r由低到高,即,I最高的词r值为1,n为l的词r值最高),用,表示词的频率,则有:,r=C (1)其中C为围绕某个中心值上下波动的常数。此外,齐普夫指出
15、,若一个词出现n次则应满足式(2):(玎+1),T,l (2)其中:r代表文本长度,代表词语出现的频率,=nT。将式(1)代入式(2),得:(n+1)CTr17, (3)由式(3)可得:r(n)一:CTn (4)r(t)晌=CT(n+1) (5)出现n次的词语数量L在r(凡)一与r(n)“。之间,故有:,n=,(n)一一r(,1)。i。 (6)将式(4)、(5)代入式(6),得到同频词数L的计算公式:In=CTn(n+1) (7)但式(7)并非对所有n值适用,因为其推导过程用到了齐普夫定律,而频次极高和极低的词语不能很好地满足齐普夫定律旧J,因此需要对式(7)的适用范围加以限定。通过对大量文本
16、的词频分布情况进行统计,发现当,5时最不满足齐普夫定律。以世界名著Boule de Suif为例说明,其文本长度7为5746,不同词数D为1575,n代表词频,代表词语频率=nT),按照词频rt由高到低排列,并给予相应的等级序号L,且对每个频次的词语计算其c值(c=,r),序号m从1开始逐一递增,序号m为1时,所代表的词频最高,序号m最大时,所代表的词频最低。图1为Boule de Suif的C值趋势图,可以发现,序号m很小或很大时,C值波动较大,而中间部分C值平稳,即频次极高和极低的词语分布不能很好地满足齐普夫定律。此外,频次rt取值为l至5时,c值波动极其明显,因此本文限定式(7)的适用范
17、围为7,5,即:rr,。=_Lx;,l5 (8)-gL,十l,对于其中的C值,计算方法旧1如下:C=(1n D)+口1 (9)口为欧拉常数一般取值为0577 2。03002SO20智015010O050厶=詈一点=考杀;n5 (12)。n 5 i一;鬲。万而5 n乓) 纠厶-黑CT_n5 ,L=D (14)舌2南;n5 (15)古磊L的值,计算方法如下:万方数据720 计算机应用 第36卷联合式(13)、(14)可得:,。+L=D (16)其中:;5_=妻i三可=詈。 (-7)将式(17)代人式(16)得:,n=D一L=和 (18)4=6a=tu进而可得: N ,古薹L 2吉 (19)即词频n
18、5的词语数量占不同词数D的16(约17)。表1是结合词频n5、It5两种情形下ID的取值情况,可以发现,词频,l5的词语数量占不同词数D的83,n5的词语数量仅占不同词数的17,即文本中绝大多数是词频n5的低频词。表1各频次词语所占比重n ID n 1D It l。,Dl 50 3 8 5 32 17 4 5 5 172基于词频统计的TFIDF算法本节将词频统计规律应用于关键词提取,提出基于词频统计的文本关键词提取方法。TFIDF算法是经典的关键词提取方法,算法流程如图2所示,分为三大模块:1)文本预处理模块。对于输人的文本d,首先进行分词等预处理操作,然后Obtaind。,即把文本d的内容看
19、成由特征项(词、词组)组成的集合,文本d可以用特征项集表示为di=(t。,t:,tJ一,tD),其中i是特征项,1_D。2)权重计算模块。根据各个项i在文本d。中的重要性给其赋予一定的权重埘,TFIDF算法通过特征词的词频(Term Frequency,TF)和反文档频率(Inverse Document Frequency,IDF)来计算特征词fi的权重蜥,对于文本di中的特征词i,其权重埘f计算公式如下:玎,DF(d,i)=TF(d。,ti)X IDF(t,)=M 、TF(dt,tj)lg(硝吾) (20)其中:TF(d;,岛)表示特征词tj在当前文本d;中出现的次数,DF(t;)表示在文
20、本数据集中出现i的文本个数,肘为文本数,据集总的文本数,IDF(t)是反文档频率,即lg(芴耘)。3)提取关键词模块。Sort(di),即按照权重毗从大到小对特征词,进行排序,选择前k个词作为文本d最终的关键词。传统TFIDF算法进行关键词提取时效率低下,其中计算DF值最占用时间,因为需要对文本d中的每一个词语ti与文本数据集中的所有文本进行对比,看是否出现该词。此外,一篇较长文章中的低频词大多为罕见词或者与文本主题不相关的词语“,而采用传统TFIDF算法,若低频词t,的DF(t,)很高时,仍可能被选为关键词,从而影响关键词提取准确率。本文考虑将词频统计规律与传统TF-IDF算法相结合来改善关
21、键词提取准确率、提高关键词提取效率。 随入纠上一 文本预处理模块1分词I、囤垂圈t 幻舌+苗艚蚀Compute TFq,哙,rI:K,、Compute DF(Q H文本数据集【ICompute IDF(t)+l叩TF(d,QJ嬲)It 一Sort(d,) 提取关键侧模块图2 TFIDF算法关键词提取流程词频统计规律仅适用于较长的文本,若要将词频统计规律与关键词提取相结合,必须先对文本长度进行限定。已知不同词数D和文本长度r之间必然存在如下关系:Dr (21)进而有:lb Dlb r (22)Herdan指出符合词频统计规律的文本长度r和不同词数D之间存在如下关系“:lb D=lb肛+P lb
22、T (23)联合式(22)、(23)得:lb“+y lb Tlb T (24)则有:lb T掣 (25)lp其中lbI,=一21 760,p=2707,最终可得:r3 106 (26)即只有对文本长度r3 106的文本,才可以将词频统计规律用于关键词提取。由12节可知,词频孔2的词语所占比重高达67,而低频词的重要性程度往往很低,不会被选为关键词。因此本文考虑仅让词频TF(di,j)S(S=2)的词语参与DF计算。将上述词频统计规律与传统TFIDF算法相结合,提出基于词频统计的TFIDF算法。算法流程如图3所示,在权重计算模块中,当文本长度T3106时,Update(t。),使得Vidi,TF
23、(dl,tj)S(S=2),即只让词频大于2的词语参与DF计算,这样既能避免低频词被错选为关键词,又能有效提高关键词提取效率。基于词频统计的TFIDF算法伪代码如下:Input:Document dOutput:Top k1) Obtaindi=(tl,t2,ti,tD)2) FOREACH,diCompute TF(di,t);3) Compute T(d); 计算文本d的长度4) IF T(d)3106Update(di),使得Vtj E di,TF(di,tj)S(S=2)万方数据第3期 罗燕等:基于词频统计的文本关键词提取方法 7215)6)FOREACH tj E di 3)实验文本
24、篇幅长:选择的文本长度最多可达几十万,Compute DF(tj); 如英文名著(Gone with the WindI举J文本长度r为43万,中文Compule#OF(tj); 7计算反比文本频数 名著红顶商人胡雪岩的文本长度r为38万。仳。2卯(吐,0)。加,(0) ,。,占。 4)实验文本跨度大:选择的文本长度r从几千到几十万Sort(di);RETURNk 虮值由高到俐防 不等:荔磊芋蒜姜盖磊菇磊妊藁崧蒜。tTop i: 寸,bJ 77,曲J个n,工+”叼,工几。不犯叫川州。=-一 文本预处理模块二幻1“”88“t匝固I 权重计算模块f Compute TF(d;,0)I 结合词舾Co
25、mpute八们 统计规律Upd)teIdICompute IDF(tj)I=TF(d,,)xlDF(Q 提取关键词模块Sort(d,) l。t图3基于词频统计的TFIDF算法关键词提取流程3 实验与分析通过实验验证本文提出的词频统计规律的正确性,验证基于词频统计的TFIDF算法的有效性和可行性。本文实验均在Windows 7系统下运行,CPU主频340 GHz,内存4 GB,开发工具MyEclipse 90,运行环境JDKl6,算法实现采用Java语言。31实验数据集在对词频分布规律进行研究时,没有固定、标准的数据集。在以往有关词频分布规律的实验中,多以文章、文献或书籍作为实验数据。例如,zi
26、pf的实验_1采用的是MHanley为JJoyce的中篇小说尤利西斯一书所编的频率词典;Booth的实验”o采用的是三篇文献和一部书籍;Sun等纠在高频词界分方法研究中,对两篇文章进行统计说明;何凤远刮在对齐夫定律汉语适用性研究中,所用的统计样本选自王蒙的书籍坚硬的稀粥。为了探究本文提出的词频统计规律和关键词提取方法是否对中、英文文本都适用,采用的实验数据分为英文文本、中文文本两部分。此外,为了充分体现文本长度r对实验结果的影响,本文放弃使用长度较短的文章和文献,最终选择书籍作为实验数据。表2为本文采用的英文文本实验数据,表3为中文文本实验数据,按照文本长度r由低到高排列。本文采用的实验数据具
27、有以下特点。1)实验数据质量高:为保证数据质量,本文选择的书籍都是为大家所熟知的名人名著。2)实验文本数量多:本文选择了19部世界名著作为英文文本实验数据,14部中国名著作为中文文本实验数据。表2英文文本实验数据表3中文文本实验数据32 同频词数L验证本节分别在英文文本和中文文本上验证同频词数L式(13)的正确性。321 英文文本同频词数,。表4为英文文本,一,lo统计值与计算值对比情况。其中:“统计值”由实际统计得到,“计算值”由式(13)计算得到;“相对误差”用来衡量计算值与统计值的偏离程度,每一列相对误差的平均值加下划线显示,可以发现,?,一,5、毛一、,m的平均相对误差均为004,即采
28、用式(13)计算所得值与实际统计值基本一致。322 中文文本同频词数,。表5为中文文本,一,10统计值与式(13)计算值对比情万方数据计算杌应用 第36卷况,可以发现,厶一,5的平均相对误差为004,6,。的平均 能够较为准确地计算出中文文本的同频词数量。相对误差为006,。一,1。的平均相对误差为005,即式(13)表4 英文文本L统计值与计算值对比(n10)垩塑堕 些 些 塑 些 些垩堕笪 些 些 丝 些 些万方数据第3期 罗燕等:基于词频统计的文本关键词提取方法 72333各频次词语所占比重验证本节分别在英文文本和中文文本上验证各频次词语所占比重ID的正确性。331英文文本各频次词语所占
29、比重图4为n5时表2中19部英文著作ID的统计值,其中横坐标代表文本序号,其文本长度r从3 109到43万依次增加,纵坐标代表ID。可以发现,n=l时,ID随着文本长度的增大而减小,n取2,3,4,5时,IO比较平稳,不会随文本长度的改变而产生明显变化。表6列出了n在所有情况下英文文本ID的平均统计值与计算值对比情况,其中“Lo平均统计值”由图4得到,“ID计算值”在12节计算得到,可以发现,n=2和n5时,ID计算值与统计值的误差绝对值为001,其余情况误差为零,充分表明了各频次词语所占比重在英文文本上的正确性英文文奉序号图4 英文文本LD统计值(n5)表6 英文文本ID平均统计值与计算值对
30、比ID平均ID计算 ID平均o计算“统计值 值 “统计值 值1 50 50 4 5 52 16 17 5 3 33 8 8 5 18 17332中文文本各频次词语所占比重图5为n5时表3中14部中文著作ID的统计值,表7列出了n在所有情况下中文文本ID的平均统计值与计算值对比情况,可以发现,n=l和n5时,ID计算值与统计值的误差绝对值为004,其余情况误差为零,充分表明了各频次词语所占比重在中文文本上的正确性。7(6(堡5(9 4(赢3(丑2tl(中文文本序号图5 中义义耷InD统汁值(n5)表7 中文文本I。D平均统计值与计算值对比I,D平均ID计算 ID平均lnD计算“统计值 值 “统计
31、值 值l 54 50 4 5 52 17 17 5 3 33 8 8 5 13 1734基于词频统计的TF-IDF算法验证本节分别在英文文本和中文文本上验证基于词频统计的TFIDF算法的可行性。采用查准率(Precision)、查全率(Recall)和n指标对算法进行评价,公式如下:Prec洳=瓦Nlgmieorreetmc口ff=而Numico,mt(27)(28)Fl:丛塑堂型塑型 (29)Precision 1 Recall 、一。7其中:Num。为正确提取出的关键词数量,Num。刊为总共提取出的关键词数量,Num。为文本实际关键词数量。Fl值综合考虑了查准率和查全率两个指标,其值越高代
32、表关键词提取的准确率越高。341 英文关键词提取中的应用首先对基于词频统计的TF-IDF算法中选择S=2的合理性进行验证,表8列出了S取值不同时,该算法在英文文本上的关键词提取结果对比情况,其中,关键词提取个数k约为不同词数D的2,选用标准英文数据集20一Newsgroups进行DF计算。由表8可知,S=2时,算法的查准率、查全率及Fl值均优于其他情况,此外,运行时间随s的增大而减小,S=2时运行时间显著下降,相较S=0时平均降低了7751,即选择S=2既能提升准确率又能有效降低运行时间。表9列出了采用基于词频统计的TF-IDF算法与传统TF-IDF算法对英文文本进行关键词提取的对比情况。可以
33、发现,与传统TFIDF算法相比,平均查准率、平均查全率和平均F1值分别提升了336、344及34l,平均运行时间降低了7547。342中文关键词提取中的应用表10列出了s取值不同时,基于词频统计的TFIDF算法在中文文本上的关键词提取结果对比情况,选用标准中文数据集搜狗文本分类语料库进行DF计算。由表10可知,S=2时,算法的查准率、查全率及Fl值均优于其他情况,此外,运行时间比S=0时平均降低了8526。表1l列出了采用基于词频统计的TFIDF算法与传统TFIDF算法对中文文本进行关键词提取的对比情况。可以发现,与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1值分别提升了238、
34、241及240,平均运行时间降低了8497。4 结语本文将词频统计规律与关键词提取相结合,提出基于词频统计的文本关键词提取方法。首先对词频统计规律进行研究,根据齐普夫定律推导同频词数,。计算公式、探究文本中各频次词语所占比重,进而将得到的词频统计规律应用于关键词提取,提出基于词频统计的TFIDF算法。本文选取中、英文文本实验数据集进行验证,实验表明,得到的同频词数L计算公式能够准确计算出中、英文文本中各频次的同频词数量,平均相对误差未超过006;确立的各频次词语所占比重与中、英文文本实际统计情况基本一致,最大误差绝对值为万方数据724 计算机应用 第36卷O04。基于词频统计的TF-IDF算法
35、与传统TFIDF算法相比,查准率、查全率及,l度量均有所提高,且运行时间大幅度降低。在实验验证时,本文没有深入考虑文本体裁是否对实验结果存在影响,这将是进一步研究的重点。表8英文文本上S取值对基于词频统计的TFIDF算法性能影响SThe Diamond Necklace(k=20) Mademoiselle Fifi(k=30)The Maison TeUier(k=40)查准率查全率F1运行时间s 查准率查全率F1运行时间s 查准率查全率F1运行时间sS大淖记事(k=30) 毒药(k=30) 沉沦(女=40)查准率查全率F1运行时间s 查准率查全率F1运行时间s 查准率查全率F1运行时间s表
36、l 1 中文文本上基于词频统计的IFIDF算法与传统TFIDF算法实验结果对比参考文献:【1】 ABILHOA W D,CASTRO L N DA keyword extraction methodfrom twitter messages representedgraphs【J】Applied Mathematics and Computation,2014,240(4):308325【2】 CHEN Y H,Lu J L,MENG F TFinding keywords in bloss:efficient keyword extraction in blog mining via use
37、r behaviors【J】Ex-pert Systems with Applications,2014,41(2):663670【3】 JEANLOUIS L,GAGNON M,CHARTON EA knowledgebase o-【4】【5】riented approach for automatic keyword extraction【J】Computaei6nY Sistemas,2013,17(2):187196HABIBI M,POPESCUBELIS AKeyword extraction and clusteringfor document recommendation in
38、 conversationsJ1IEEEACMTransactions on Audio Speech and Language Processing,2015,23(4):746759蒋昌金,彭宏,陈建超,等基于组合词和同义词集的关键词提取算法【J】计算机应用研究,2010,27(8):28532856(JIANG C万方数据第3期 罗燕等:基于词频统计的文本关键词提取方法 725【6】【7】【8】【9】【10】【12】【13】J,PENG H,CHEN J C,et a1Keywords extraction algorithm basedon combined word and syns
39、et【J】Application Research of Computers,2010,27(8):28532856)何炎祥,刘续乐,陈强,等社交网络用户兴趣挖掘研究J】小型微型计算机系统,2014,35(11):23852389(HE Y X,LIU XL,CHEN Q,et a1User interest mining research based on socialnetwork service【J】Journal of Chinese Computer Systems,2014,35(11):23852389)ZIPF G KHuman behavior and the princip
40、le of least effort:an in-troduction to human ecologyMBoston:AddisonWesley Press,1949:23BOOTH A DA law of occurrences for words of low frequency【J】Information and Control,1967,10(4):386393EGGHE LA new short proof of Naranans theorem,explainingLotkas law and Zipfs law【J】Journal of the American Society
41、 forInformation Science and Technology,2010,61(12):25812583CHAN P,HUIKATA Y,NISHIDA SComputing semantic relat-edness using word frequency and layout information of wikipediaC】Proceedings of the 28th Annual ACM Symposium on Ap-plied ComputingNew York:ACM,2013:282287SURYASEN R,RANA M SContent analysis
42、 and application ofzipfs law in computer science literature【C】Proceedings of the2015 4th International Symposium on Emerging Trends and Tech-nologies in Libraries and Information ServicesPiscataway,NJ:IEEE,2015:223227ZIPF G KPsychol【M】Boston:AddisonWesley Press,1938:347367AGRAWAL R,GOLLAPUDI S,KANNA
43、N A,et a1Data miningfor improving textbooks【J】ACM SIGKDD Explorations Newsletter,2012,13(2):719【14】【15】【16】冯志伟,胡凤国数理语言学【M】北京:商务印书馆,2012:282284(FENG Z W,HU F GMathematical linguistics【M】Beiiing:The Commercial Press,2012:282284)SUN QSHAW D,DAVIS C HA model for estimating山e Occur-rence of 8anlefrequenc
44、y words and the boundary between highandlow-frequency words in texts【J】Journal of the American Societyfor Information Science,1999,50(3):280-286何凤远基于词频统计的齐夫定律汉语适用性研究【D】合肥:安徽大学,201 l:2642(HE F YThe applicability of Zipislaw in Chinese language based on wordsfrequency statistics【D】Hefei:Anhui Universi
45、ty,201 1:2642)BackgroundThis work is partially supported by the National Natural Science Foundation of China(71271067),Projects of the National Social Science Foun-dation of China(13BTY01 1),Key Project of National Social ScienceFoundation of China(13&ZD091),Research Program of Science andTechnology
46、 at Universities of Hebei Province(QN2014196),Master Foundation of Hebei Normal University(201402002)LUO Yan,born in 1993,MScandidateHer research interestsinclude data mining,intelligent information processingZHAO Shuag,bern in 1967,PhD,professorHis researchinterests include data mining,intelligent
47、information processingLI Xiaochao,born in 1987,MSHis research interests includedata mining,intelligent information processingHAN Yuhui,bem in 1989,MScandidateHis research interestsinclude data mining,intelligent information processingDING Yafei,born in 1988,MScandidateHer research interestsinclude data mining,intelligent information processing(上接第712页)10 RAO R V,PATEL VAn elitist teachinglearningbased optimization algorithm for solving complex constrained optimization problems【J】International Journal of Industrial Engineering Computat