基于混合内容线索特征的语义组块标注研究-白如江.pdf-淘文阁

资源描述

《基于混合内容线索特征的语义组块标注研究-白如江.pdf》由会员分享，可在线阅读，更多相关《基于混合内容线索特征的语义组块标注研究-白如江.pdf（10页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、情报学报2017年4月第36卷第4期Journal of the China Society for Scientific and Technical Information，April 201 7，36(4)：382391一=基于混合内容线索特征的语义组块标注研究白如江1，冷伏海2，廖君华1(1山东理工大学科技信息研究所，淄博255049；2中国科学院科技战略咨询研究院，北京 100190)摘要大数据时代背景下，实现科技文献深层语义理解逐渐成为情报学研究的热点话题，本文利用词频统计和共词分析方法分析了科技文献内容浅层语法特征、上下文特征和核心线索词特征，构建了混合内容线索特征集合，采用

2、条件随机场模型，对NSF碳纳米管研究领域项目数据进行了语义组块标注实验。实验结果表明，在BSUB、I-SUB、BACT、I-ACT、BGOL、I-GOL、BIMP7种标签标注中，增加混合内容线索特征后的精度值分别达到8443、8909、8438、8987、5133、5037、3783，与没有增加的标注结果相比精度值有了明显提升。特别是BSUB、I-SUB、BACT、I-ACT四种标签，在增加了内容线索特征后精度值提升了10以上。关键词内容线索特征；条件随机场；语义组块标注Research on Semantic Chunk Annotation Based onMixed Content C

3、luesBai Rujian91，Leng Fuhai2 and Liao Junhual(1Institute ofScientific and Technical Information，Shandong University of Technology,Zibo 255049；2Institutes ofScience and Development,Chinese Academy ofSciences，Beijing 100190)Abstract：In the big data era，how to improve the semantic understanding for the

4、 academic papers iS one of the hottopics in intelligence researchThis paper using word frequency statistics and COword analysis method to analyze theshallow grammatical features，context feature and the core clue word feature of the academic contentWe construct amixed content clue character set，and u

5、sing conditional random field model to annotate the semantic chunkThe NSFresearch of carbon nanotubes project data was taken as experiment datasetResults show that the precision value ofBSUB，I-SUB，BACT，I-ACT，BGOL，I-GOL，BIMP7 is 8443，8909，8438，8987，513350373783，respectively，compared to the precision

6、of content clue features nonadded，the value improved significantlvIn particular，BSUB，I-SUB，BACT，I-ACT four tags，the increase in the content of the characteristics of the clues toenhance the accuracy of the value of more than 1 0Key words：content clues；conditional random field；semantic chunk annotati

7、on引言近年来，随着大数据时代的来临，信息技术的迅猛发展，不同领域的各种类型科技文献成几何增长，特别是在一些热点领域内的文献数量大大超出了情报人员或科技工作者的人工阅读、分析量。并且一个研究领域内往往存在大量不相容的矛盾结论，有限的人工阅读文献很有可能得出误导性的结论，所以在现在与未来的情报研究工作中，系统性的语义分析科技文献摘要、全文的需求越来越强烈。收稿日期：20160715；修回13期：2017-01-12基金项目：国家社会科学基金项目“未来新兴科学研究前沿识别研究”(1 6BTQ083)。作者简介：自如江，男，1979年生，博士，副研究馆员，主要从事文本数据挖掘与科技情报分析领域的研

8、究工作，E-mail：brjsduteducn冷伏海，男，1963年生，博士，研究员，主要从事科技信息分析与竞争情报领域研究丁作；廖君华，女，1979年生，硕士讲师，主要从事信息管理领域的研究。万方数据第4期自如江等：基于混合内容线索特征的语义组块标注研究 383此外，在科技情报工作中，为了更好的掌握一个学科的研究进展和知识脉络，人们需要借助各种有效的学术检索工具的帮助，如Google scholar、百度学术等。然而，每次检索到的相关文献数量庞大。因此，如果想全面了解相关工作，势必需要“一篇都不能少”地进行阅读。究其原因是目前的学术检索系统在文档表示上词袋模型仍然处于主导地位。这样的处理虽

9、然带来了计算上的便利，但同时也失去了对学术文本的深层语义理解。比如，目前的系统无法揭示出“某篇文献的具体研究目标是什么?某篇文献中用到的具体研究工具是什么?”句子“developingcontrolled chemical vapor deposition methods”中的研究方法是什么?凶此，在海量科技文献时代，为了提升科技情报分析能力，必须对学术文本做深度的语义分析，揭示出科技文献全文中蕴含的丰富语义信息。2 相关研究科技文献蕴含着大量的语义组块信息，比如，“研究目的”、“研究方法”、“应用前景”、“研究性能”、“实验设备”等。如何利用自然语言处理技术标注出这些组块信息，提升科技文献语

10、义理解，学者们进行了大量研究，归纳起来主要有三种方法：基于规则的标注方法；基于统计机器学习的标注方法；混合标注方法【l。3。21基于规则的方法基于规则的方法具有直观性、有效性和易实现等特性，因此，早期研究集中在基于规则的标注方法，有代表性研究有：Bourigault4运用浅层分析和词与句子间的依存关系制定抽取规则，抽取文献中的复杂词项。Dagan等5将候选标注块限定为一个名词词组字符串，根据限定字符串的特征制定抽取规则。Smaranda等J开发了一个基于规则的在线医学文档定义(Definition)抽取系统，该系统首先根据手工判定的线索词(cuephrases)(如is defined as，

11、is called等)筛选候选词组，然后再利用语法分析技术进行深层的定义词组判定。Westerhout等71在Smaranda等【6】的工作基础上添加词性标注特征(Part ofSpeech，POS)模板，将定义抽取的性能进行了进一步提升。基于手工或半自动制定的语义块抽取规则可以非常有效准确的抽取相关语义块信息，但是它的缺点也非常明显。首先，基于规则的标注在规则构建阶段会非常耗时费力；其次，基于规则的标注泛化能力较差，因为需要标注的语义块表现形式会多种多样，不同的数据集会有不同的表现特征，因此，很难编制一个覆盖所有特征的规则集合，较好地抽取规则集合在特定数据集上会表现出非常好的性能，一旦数据集

12、发生变化，标注性能往往会有很大的衰减；最后，基于规则的标注召回率会非常低，因为如果严格匹配抽取规则提高精度的话，势必会漏掉许多符合语义块信息的词或词组。22基于统计机器学习的方法为了解决基于规则标注遇到的瓶颈，近年来基于数据驱动的统计机器学习标注方法研究广泛展开，并逐渐成为主流。在语义组块标注方面使用的统计学习模型有：隐马尔科夫模型(Hidden MarkovModel，HMM)8，支持向量机(Support Vector Machine，SVM)91，最大熵马尔科夫模型(Maximum EntropyMarkov Model，MEMM)10和条件随机场模型(Conditional Rando

13、m Fields，CRFs)1。121等。Fahmi等13运用有指导的机器学习方法从DutchWikipedia中抽取出了医学领域的定义语义块。他们综合运用了朴素贝叶斯(naive Bayes)，最大熵(Maximum Entropy，MaxEnt)和条件随机场模型进行语义块标注。研究发现从每篇文档的第一个句子标注相关定义的准确率达到了759，而条件随机场模型的标注准确率甚至达到了922，当然，论文中提到这个成绩的取得离不开Wikipedia中良好的结构化文档13。Cho等【161提出了一种运用多种分割表示方法(segment representations，SRs)(如IB02、IOBE、B

14、I、BIS、BIES等)提高条件随机场模型性能，在BC2GMR14、CoNLL2003151两个数据集上实验证明他们提出的方法可以有效提高标注性能。基于统计机器学习的标注方法不仅克服了手工编制抽取规则费时耗力的缺点，而且提高了系统的鲁棒性，一定程度上提高了系统召回率。但是，基于统计机器学习标注方法需要克服的最大困难就是训练数据集的获取和机器模型参数训练，只有数据量足够大，标注足够准确的训练数据集才能保证标注模型的有效性。23混合的方法基于规则的标注方法和基于机器学习的标注方法各有优势和缺点，近年来专家学者们往往将两者结合起来进行标注研究。通常有两种混合方式进行，万方数据384 情报学报

15、第36卷一种是首先利用规则标注方法标注出候选词项，然后利用统计机器学习方法进行筛选判别；另一种方法是先利用机器学习的方法筛选出候选词项，然后利用规则标注方法判别候选词项。在实际应用中更加倾向于第一种方法，首先利用规则标注方法大体筛选出符合标准的句子或词项，然后利用机器学习模型(如最大熵、条件随机场等)进行候选词项的类型标注。Roxana等1引开发了一种蛋白质相互作用信息抽取系统(ProteinProtein Interaction information extraction system，PPIES)，该系统将工作集中在蛋白质命名实体识别和类型判定上。首先该系统运用词典查找法处理蛋白质相关词

16、汇归一化、首字母大写以及简写等问题，然后利用条件随机场模型对检测到的蛋白质名称进行类型判别。在JNLPBA04数据集U7上进行试验，精度、召回率和F值分别为7725，7504和7613，与SVM等模型比有了明显的性能提升1 8|。综上所述，由于条件随机场模型允许融合更好更多的利用待识别文本中所提供的新特征，从而比其他概率模型有更好的性能表现。本文将研究如何利用条件随机场模型，融合科技文本内容线索特征，提升语义组块标注性能，实现科技文献内容深度语义理解，进而为科技情报分析提供证据支持。3条件随机场条件随机场模型(Conditional Random Fields，CRFs)是2001年由Laff

17、erty19提出的一种判别式概率模型，常用于标注或分析序列资料，如自然语言或是生物序列。该模型结合了最大熵模型和隐马尔可夫模型的特点，综合考虑了观测变量联合概率分布情况，从而克服了最大熵马尔科大模型标注偏移(Label Bias)问题。条件随机场将给定的输入序列X得到的状态序列条件概率定义为：1 r KPY=熹eXp屯(y纠，yt,x)(1)_、7 t=l k=l其中，z(x)为归一化因子，使在给定输入X上所自可能状态序列Y的概率之和为1；T为输入输出序列的长度；K为特征数量；为特征函数；五为特征函数丘的权重。利用条件随机场模型对科技文本内容进行语义组块标注效果如图1所示。对句子“CNT ya

18、rns fabricated by dry spinning from MWCNT arrays”进行语义组块标注后，“CNT yarns”被标注为“目标对象”，“dry spinning”被标注为“制备方法”，“MWCNT arrays”被标注为“原始材料”。i冀j聪豫s fabricated by du蹲嚣嚣g from鬻W麓F鳓ys图1基于CRF的语义组块标注4科技文献语义组块类型针对科技文献中存在哪几种语义组块类型这个问题，Graetz2 0通过对大量科技文献的分析，提出了科技文献摘要语句分类问题。他将摘要中的语句分为四种语轮(Move)，分别是：问题(Problem)、解决方案(So

19、lution)、评估(Evaluation)和结论(Conclusion o Liakata等2总结了前期对科技文献论述结构的相关研究成果，针对医学领域科技文献写作特点，提出了核心科研概念(Core ScientificConcepts，CoreSCs)，该概念将目标、方法、结果等按照类型进一步细分，在句子级别水平上提出了1 1种类型，分别为假设(Hypothesis)，动机(Motivation)，目标(Goal)，对象(Object)，背景(Background)，方法(Method)，实验(Experiment)，模型(Model)，观察(Observation)，结果(Result)和

20、结论(Conclusion o根据前期研究结果，本文确定了“研究目的”、“研究方法”、“应用前景”、“研究性能”、“实验设备”、“实验材料”6种语义组块类型。在表示方法上采用标准的BIO组块表示方法，具体表示标签及含义见表1。表1语义组块标签标签含义研究目的开始字符研究目的中间字符研究方法开始字符研究方法中间字符应用前景开始字符应用前景中间字符研究性能开始字符研究性能中间字符实验设备开始字符实验设备中间字符实验材料开始字符实验材料中间字符结束字符9PP吼一眦一旧一眦眦一嗽删剡脚一脚B一B，BB一B一B一O万方数据第4期白如江等：基于昆合内容线索特征的语义组块标注研究 3855混合内容线索特

21、征条件随机场模型最主要的优点是随着特征集合的增加并不需要改变模型适应特征函数。本文在前期研究工作基础上提出了使用浅层语法特征、上下文特征和内容线索特征的混合内容线索特征集合用于条件随机场语义组块标注。51浅层语法特征浅层语法特征是条件随机场模型最常用的特征之一，主要包括词性特征(Part of Speech，POS)、拼写特征(Orthographical features)、前后缀特征(Prefix and suffix features)以及Chunking特征221。(1)词性特征词性特征是对输入的文本标注上对应的词性信息。如名词、动词、形容词等。根据词性的相关特征可以帮助CRF模型实现

22、语义组块的识别。比如名词后面m现动词的概率会比较大一些。(2)拼写特征拼写特征可以很好的辅助判断词的相关信息，比如“Carbon Nanotubes(CNT)”，这是个专有名词，在文献中固定书写格式是首字母大写，“CNT”是碳纳米管的缩略词，也是固定的书写格式。也就是说如果有首字母大写或者全部大写的词出现，在很大可能上是专有名词。再如“strength of 5 GPa”，这里出现了数字，意味着表述相关性能参数指标。如果将上述因素考虑进条件随机场模型特征集合，可以有效地提高标注性能。(3)前后缀特征在科学研究领域很多专有名词有固定的前后缀信息，比如，“nanotubes”的前缀“nano”可以

23、表明是与纳米相关的事物。此外，利用后缀信息还可以很好地判断句子的时态，比如，“applied”的后缀“ed”可以表明该事物的过去式或被动语态。由于前后缀长度不尽相同，可以使用两个、三个或四个，有关实验表明二个或四个是最有效的选择2 31。(4)Chunking特征Chunking是对一段输入的文本(Text)进行短语(Phrase)划分，将具有相似语法特点的词(Token)组成一个短语。这些划分的短语具有互斥特性，不会有重合，也就是说一个词只能属于一个短语。通过Chunking可以将文本中简单的语法结构识别出来2 41。短语识别出来后，每个词就标注上一个标签。52上下文特征上下文特征用于获取词

24、、词性的上下文信息。上下文特征可以考虑当前词前后一个、两个或者更多的词的信息，考虑得越多，对标注的准确性帮助越大，但是考虑得越多同样会带来负面影响，那就是标注时间的消耗，因为特征越复杂，时间消耗越大。不同的标注任务对上下文考虑得长度会有不同的要求，大量实验证明取前后两个词在性能和速度上是最好的选择2 31。例如，“Th西research will address aspects ofRaman scattering from carbon nanotubes”这个句子，如果利用当前词前后两个词一2,2的上下文特征可以得到表2所示的特征集合。53 内容线索特征科技文献中提到的研究方法、目的等语义

25、组块信息会以不同的语义序列表述方式出现。这些语义表2上下文特征万方数据386 情报学报第36卷序列隐含着一些固定的规律，通过对这些规律的挖掘表示，形成特征集合，可以有效地提升CRFs模型的标注性能。科技文本数据在论述具有某个语义信息的功能时会经常用到一些特定的词语。通过对这些词语的识别可以有效发现其相关语义功能。比如，在表述研究方法的语义组块时可能会包含method这个词(“developing controlled chemical vapor depositionmethods”，见句子S1)；也可能包含approach这个词(“Our approaches will involv

26、e”，见句子S2)；还有可能使用using这个词(“using new chemical vapordeposition”，见句子S3)，本文将这些特征词表述为核心线索词。S 1：developing controlled chemical vapor deposition始峻理嫩tosynthesize high quality and yieldcarbon nanotubes materialsS2：Our翻量骚!：Q理e厘要墨will involve combiningchemical synthesis(CVD)with topdown nanofabrication methods

27、S3：Synthesis of bulk singlewalled nanotubematerials强蚍newchemical vapor deposition(CVD)approaches此外，Torii等251在分析了Medline中大量科技文献的摘要数据后发现摘要句子中大量存在这样的事实。句子中包含的特征指代词如“This method”可以有效地表明该句子的语义功能，并且可以在该句子的前后不超过两个句子中发现其指代的具体内容。随后，Hunston等26提出“semantic sequences”的概念，他们认为数据集合中大量反复出现的特征词有助于识别句子的语义功效。6 实验61 数据

28、集本文从美国自然科学基金网站上下载了碳纳米管研究领域相关研究615个项目文本。根据本文提出的混合内容线索特征集合，针对需要标注的语义组块类型，构建了实验训练数据集，具体构建过程如图2所示。第一步：句子切分将NSF数据集中项目数据的摘要信息进行句子切分。本文利用KNIME平台实现了对NSF CNT数据集中的项目数据摘要信息进行句子划分。在KNIME中进行句子切分的流程分为以下四步：(1)读入项目数据；图2实验数据集构建(2)将项目数据中的摘要信息转化为KNIME需要的Document格式；(3)利用Sentence Extractor模块进行句子切分；(4)将切分号的句子存储到Excel文件中备

29、用，如图3所示。XLS Reader Slrings To Document Sentence Extractor XLS Writer豳卜一咱*黪P幽四四四圃读人NsF 将项目数据中的摘要抽取将抽取后的句子项目数据转化为Document格式句子存储到Excel文件中图3句子切分NSF数据集中的615个项目数据经过句子切分后，得到7779个句子。第二步：句子筛选在得到的7779个句子中，每个句子的语义功能是不一样的，有的是论述研究目标的，有的是论述该项目的研究意义的。为了更加有效地进行语义组块标注，本文分两步走，首先在句子层面进行过滤，将具有特定语义功能的句子筛选出来。然后在过

30、滤出的句子基础上再进行语义组块标注。句子抽取结果如表3所示。表3句子分布情况万方数据第4期白如江等：基于混合内容线索特征的语义组块标注研究 387由于具有研究目标、研究方法、应用前景和研究性能的语义功能的句子可能会有重复，也就是说一个句子可能既判定为研究目的又判定为研究方法。针对这种情况，本文对抽取出的重复句子进行了去重处理，总共得到1713个句子。这些句子分布在了全部615个项目数据中，覆盖了整个数据集，可以作为语义组块标注数据集使用。第三步：词性与Chunking标注利用NLTK工具包对上述筛选出的1713个句子进行词性标注，总共实现了62020个词汇词性标注。然后对此进行了Chunki

31、ng处理，以保证语义组块标注的准确性。第四步：人工语义角色标注，形成训练数据集根据本文确定的语义组块类型，将数据集1713个句子中的前542个句子进行了人工语义功能组块标注，在人工标注的542个句子中总共包含19606个词汇。经过人工标注，形成本文语义组块标注实验所需要的实验训练数据集。图4给出了训练数据集的部分实例数据。图中第一列为编号；第二列为人工标注的语义组块标签；第三列为句子中的每个词语；第四列为每个词语的词性；第四列为Chunking标签；第五列为句子所在文档编号。48114812 B-SUB4813 I-SUB4814 ISUB4815 I-SUB4816 I-SUB4817 IS

32、UB4818 ISUB4819 B-ACT4820 I-ACT4821 I-ACT4822 B-GOL4823 I-GoL4824 IGOL4825 I-GoL4826 IGOL4827 I吒0L4828 rI-GOL4829 I吒OL4830 I-GOL&831 IGOL4832 I-GOL4833 I-GOL4834 I-GOL4835 I-GOL4836 I-GOL4837 I-GOL4838 I-GOL4839 I-GOL4840 IGOL4841 IGOL4842 OThemalngoalofthisNSFpr03ect1StodevelopneWclassofhybridDTjjN

33、NINDTNNPNNVBZTOVB3jNNINjjcompositeJJstructuYNNSbased VBNon INhighly RBorganizecVBNginglewalVBNcarbon NNnanotube NNSWNT NUP) ：architectNNSand ccpolymer NNmaterialsNNSB-NPI-NPI-NPB-PPBNPI-NPI-UPB-VPI-VPI-VPB-UPINPB-PPBNPINPI-NPB-VPB-PPB-NPINPB-VPB-NPI-NPOB-NPOB-NPOBNPI-UPO图4训练数据集N0927088NN0827088NN092

34、7088NN0927088NN0827088NN0827088NN0927088UN0927088NN0927088NN0827088NN0927088虬N0927088NN0927088NN0927088NN0927088NN0927088NN0827088NN0927088NN0827088NN0927088NN0927088NN0927088NU0927088NU0927088NN0927088NN0827088NN0927088NN0927088NN0927088NN0927088NN0927088N一http：wwwchokkanorgsoftwarecrfsuite62混合内容线索

35、特征构建(1)核心语义线索词特征本文对项目数据级进行了共词网络和tf*idf分析，结合本文提出的语义组块类型，对idf值小于1的词汇和共词网络中度数大于30的节点共123个词汇进行人工判读分析，最终提出如下核心语义线索词，见表4。表4核心语义线索词表研究目的object,、goal、fOCUS、expect seeK target8mdy、inV。8ig、8im、p。p。8、、研究方法 !。h?0178、8pp。8。h、m。h。d、hmugh、u8。、baseIon)、process应用前景impact,br、oad,extend、beneficoiTlrnercl inIIuence eI

36、Iect、8dV8n。、p。”。i8i119、、研究性能 improve、increase?enhance、outreach、overcoming、optimal，potenti、predict、reduc、apply(2)内容结构特征根据共词分析结果，对筛选出的边权重大于500的61对共词分析，发现在这共词强度最大的共词对中，出现最多的是this project，this research词组，后面跟着的是对该研究项目的研究目的或应用前景的描述词汇，所以按照上述分析结果，本文构建了用于标识相关语义组块功能的内容结构线索特征集合，见表5。表5内容结构线索特征63实验平台硬件环境：CPU：In

37、telCoreXMi533 1 7U 170 GHz；内存：400 GB；操作系统：Windows7旗舰版64位。软件环境：CRFsuite。CRFsuite是由Et本东北大学(Tohoku University)Naoaki Okazaki教授使用8888888888888888888888888888888o万方数据388 情报学报第36卷c+开发的一个专门利用条件随机场模型进行文本序列标注的工具。64评估标准本文采用精确率(Precision，P)、召回率(Recall，R)和F值三个评估指标。这三个评估指标是从信息检索性能评价指标引申而来，但指标含义理解则有不同。精确率是指标注

38、模型正确判断为该标注组块的样本数与标注模型判断属于该标注组块的样本总数的比值，该指标体现了标注模型标注结果的准确程度。计算公式如下：P：丝100 (2)彳+B召回率是标注模型正确判断为该组块的样本数与属于该组块的样本总数之比，体现了标注模型标注结果的完备性。计算公式如下：R：生100 f 3 1爿+C一个标注模型可能在精确率指标上表现突出，但是在召回率指标上表现得却不理想，F1值综合了精确率和召回率两个指标的性能，比较平衡地表现出标注模型的实际性能。计算公式如下：F1：!兰!塑 (4)p+R式(2)式(4)中各参数含义见表6。表6标注结果混合矩阵65 实验策略条件随机场模型性能的提升很大程度上

39、依赖于特征集合的质量，根据本文提出的特征集合，命名了如下特征集，见表7。为了全面、客观的验证本文提出基于混合内容线索特征的语义组块标注方法的有效性和先进性，根据表7制定的特征集，设计了以下实验策略：策略1：FCI+FC2+FC3。策略1使用FCl、FC2和FC3三个特征集合，该策略主要考虑词项本身特征、词性特征和上下文特征。策略2：FCI+FC2+FC3+FC4。在策略1的基础上增加拼写特征。表7特征集名称表示含义FCl TOKEN特征FC2词性特征FC3上下文特征FC5前后缀特征FC6 Chunking特征FC7内容线索特征词项本身特征利用NLTK对每个词进行词性标注取当前词的取前后2个

40、词作为特征项，取当前词的前后2个词的词性作为特征项该词是否全为大写、是否包含数字等拼写特征。取该词的前3和后3个字符作为特征项利用NLTK对句子进行Chunk标注取本文提出的核心线索词和共现特征作为特征项策略3：FCI+FC2+FC3+FC4+FC5。在策略2的基础上增加前后缀特征。策略4：FC I+FC2+FC3+FC4+FC5+FC6。在策略3的基础上s曾,tlu chunk特征。策略5：FCI+FC2+FC3+FC4+FC5+FC6+FC7。在策略4的基础上增加内容线索特征。根据上述实验策略，采取以下步骤进行实验：第一步：读取训练数据集将本文构建的实验训练数据集输入到CRFsuite工具

41、中。CRFsuite数据输入格式如图5所示。网5中，每一行对应每个词语，每个句子结束用空行来表示。第一列为语义组块标签，也就是需要标注的语义组块类型；“w【0-”列表示当前词，“w1-”列表示当前词的后一个词，“w_1】_”列表示当前词的前一个词，依次类推，通过这种形式表示上下文特征；“pos0=”列表示当前词的词性特征，“pos1_”列表示当前词后一个词的词性特征，“w_1_”列表示当前词前一个词的词性特征，依次类推，通过这种形式表示词性特征。第二步：按不同实验策略分别进行实验按照本文制定的五种实验策略分别进行实验。将本文构建的训练数据集合和特征集合，输入到CRFsuite工具进行实验。CR

42、Fsuite具体设置参数如表8所示。考虑到训练集数据量的问题，本文采用2折交叉检验进行。66实验结果分析利用上述指定的实验策略和实验步骤进行了相关实验，获得了语义组块标注的精度值、召回率和F1值实验结果。在实验结果中，五种策略的精度值如图6所示。图6中横坐标为语义组块类型，纵坐标万方数据第4期白如江等：基于混合内容线索特征的语义组块标注研究 389B一肆PINPBNPI-NPI-NPI-NPI一抑B-PPBNPINPINPINPB-PPB-船BVPI-卯B-PPB-NPINPINPINPB-PPw0=Dresselhaus wI=0000408 v2=This wlO=dresselhaus

43、 w1I=0000408 w12=this pos【O】=Nl撑pos【l】=cD pos【2】=DT chk【0】=Bw【一1=Dresselhaus w0=0000408 w1=This w2=US-Brazil wl-1=dresselhaus wl0=0000408 wl【1=this wl2=us-brazil pos卜1：NNP pw卜2=Dresselhaus w卜1=0000408 w0=This wI】=US-Brazil w2=proposal w1卜2】=dresselhaus l卜I=0000408 Wl(们=this wl【I】=usbrazw-2w-2w【-2w一2

44、=0008408 w一1】=This wO=USBrazil w1】=proposal w2=requests wl【-2】=0000408 w1 E一1=this w1O=us-brazil wl【1=proposal l【2】=This w_l】=USBrazil wO=proposal w1=requests w2=support wl-2】=this wl卜i】=us-brazil wlO=proposal wl(I=requests w=US-Bzazil w卜I】=proposal w0=requests wn=support w2】=for wl卜2=usbrazil w1卜1=

45、proposal w10=requests wl【1】=SUpport=proposal w【一1】=requests wO=support v【1】=for w2】=Dr wl【一2=proposal wl卜1=requests wl【O=support wlI】=for 畦2】=drw卜2=requests*一1=support wo=for w“=Dr w2=Mildred wl-2】=requests wl卜1】=support WlO=for wl【l】=dr w12=mildredw卜2=support w卜l】=for w0j=Dr w【1】=Mildred w【2】=swl卜2

46、=support wl卜I】=for wl【0】=dr， wl1】=miIdred，F1【2】=spos【-2】=MW卜2】=for w卜1】=Dr w【0】=Mildred wI】=Sw2】=Dresselhaus w1卜2=for wl【一I】=dr wl【0】=mildred wl1】：s wl C2】=dresselhaus 叠w卜2】=Dr w卜1】=Mildred w C0】=Sw【i】=Dresselhaus w2】=of wl【-2=dr wl一1】=mildred wl0】=s w1【l】=dresselhaus wl【2】=of pos Cw【一2】=Mildred w一i

47、】=s w(O】=Dresselhaus vfI】=of wf2】=MIT wl【-2】=mildred w1卜1】=s wl【0】=dresselhaus wl【l】=of w12】=mit Pw【+2=S w卜l】=Dresselhaus w【0】=of w【1】=MIT *【2】=to w1-2】=s w1一i】=dresselhaus w1【0】=of wl el】=rdt w121=to pos【-2=NNP Pw【一2】=Dresselhaus w卜1】=of w【0】=MIT w【l】=to￥【2】：work wl-2】=dresoelhaus wl卜1】=of w1【O】=ml

48、t wl C1】=to wl2】=work pos-2：Mw卜2=of *【一l】：舡T wO=to w1=work w2=with wl【-2=of wl一I】=mit wl0】=to wl【1=work wl2=with pos-2=IN pos卜I】珊Pw-2=MIT w【-1=to w0=work w【1=with “2】=Dr。 w1【-2=mit w1一1】=to wlO=work wl【1】=with wl【2：drpos-2=iqNP pos卜1】：Dw【一2：to *【一i】=work wO】=with w1】=Dr *(2=Marcos wlf-2】=to wl一i】=work wl【0】=with wli】=dr wlf2】=marCOS pos【一2】=TO pos卜w卜2】=work 一1】=with w

展开阅读全文