《群众分类法的网络文学标签应用研究_1.docx》由会员分享,可在线阅读,更多相关《群众分类法的网络文学标签应用研究_1.docx(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、群众分类法的网络文学标签应用研究摘要:以用户自定义标签为主要形式的群众分类法在网络文学领域得到了普遍应用,标签分类对网站原有的标准化分类系统进行了补充和完善。但不同的网络文学网站在标签的数量、类型、词长词性、重合度方面具有较大差异,网络文学标签在规范性上也存在通用程度低、同义词和近义词泛滥、歧义泛意指代模糊等问题,需要借助技术手段和运营手段实现对标签的规范控制。关键词:网络文学;群众分类法;规范控制网络文学是一种以网络为载体和媒介实现创作、传播、阅读的经过的文学形式,广义上泛指一切首发于网络平台的原创文学作品,狭义则指专门性文学网站上发表的通俗小讲。本文涉及的“网络文学概念为狭义的网络文学。由
2、于网络文学具有变化快、存量大、信息专业化程度低、无序性强的特点,且兼网络文学的读者阅读需求分散、概括及表达能力参差不齐,传统的自上而下层级式图书分类方法既无法知足网络文学作品分类细化的需求,也不能帮助读者提高信息检索效率,反之,由用户自发定义标签对内容信息进行描绘并实现自动分类的平行非层级分类方法,即群众分类法,在网络文学领域得到了普遍应用,“标签也成为了读者在网络文学网站对作品内容进行检索时的重要根据。1网络文学网站群众分类法及标签应用机制1.1群众分类法相关概念2004年美国学者ThomasVanderWal初次提出群众分类法Folksonomy的概念,表示群众分类法是广大用户根据本人需求
3、和理解为信息自由添加标签Tag,进而实现信息分类的方法。标签的选择完全取决于用户的习惯和目的,所添加的标签不仅服务于添加者本人,还被广泛分享于整个站点或网络。相比主题词和关键词的使用规范,标签在使用时通常并不要求全面概括或高度提炼信息内涵,而且标签词汇在专业性上没有要求,因而具有突出的自由性、简易性、开放性的特点。此外,标签之间不存在层级关系,不强调唯一性,能很好地实现信息的细化分类,进而以较低的管理成本换取了较高的使用价值。然而,也正是由于自由度高、缺乏规范化管理,用户自定义的标签词汇也存在词量过大、语言混乱等问题。因而,应用群众分类法的网站通常会利用“反长尾理论会对用户添加的标签进行聚类整
4、理,选择高频标签和标签分类结果呈如今检索界面或推荐界面,以供用户选择,一定程度上实现对标签词量的控制。1.2网络文学网站标签使用流程网络文学具备存量大、更新快、题材体裁冗杂、受众需求分散且文化素养偏低等特点,特别适用群众分类法。目前,国内影响力较大的原创文学网站大部分已采取群众分类法对内容资源进行细化分类。在创作阶段,网站会要求注册的作者为作品添加适当数量内容描绘性标签,此类标签能够在热门标签中进行选择,可以以自行编辑定义。一般而言,网站对单篇作品标签数量规定的上限为34个,除此之外,不对标签词性、字数做要求。在作品发表及阅读阶段,部分网站允许读者用户添加珍藏标签或构建书单标签。当同一标签共现
5、次数到达一定标准,系统则会将其提取为热门高频标签,出如今作品检索页面或首页推荐板块,并成为作者创作时的备选标签。当共现次数进一步提高,该标签甚至可能会被网站编辑所关注,经过规范化处理后提炼为基础分类中的固定选项。1.3自定义标签分类与标准化分类的主要区别编辑主导的标准化分类是各大文学网站的基础分类体系,该分类与用户主导的标签分类体系体如今5个方面:1所有类目的标引词均经过编辑的规范整合,具有较高的准确性,并在语法上保持统一;2通常情况下,基础分类选项具有唯一性,不可多项选择、复选;3通常情况下为强迫性分类,作品上传前必须加以选择,无法跳过该分类环节;4基础分类主要根据作品大纲,对作品的主干内容
6、进行分类,一般不涉及小讲细节;5基础分类在构造上更为明晰,具有层级构造。2网络文学网站高频标签比拟分析本次研究统计了起点中文网、起点女生网、晋江文学城、17k小讲网、潇湘书院、纵横中文网在内的6家文学网站、共计7个站点17k小讲网分为主站、女频小讲站两个站点的标签。选择这6家网站作为研究对象的原因是其日均流量、百度指数处于同类网站中的领先地位,并且兼顾男频女频两大小讲类型,具有代表性。2.1标签数量比拟从标签数量上看,共收集标签553个不排除重复标签,平均每个站点标签数为79个,其中潇湘书院和晋江文学城标签数量最多,分别为183、119,数量最少的站点为纵横中文网,只设定有29个备选标签,各网
7、站之间备选标签数量之间存在较大差距。2.2标签类型比拟对网络文学网站热门标签根据标签描绘对象分类,一般能够分为“角色、情节、风格3大类。不同网站由于本身读者群体和整体风格不同,在标签类型上存在不同倾向。如晋江文学城119个热门标签中仅3个与角色有关,其他绝大多数为情节类标签,而起点中文网74个热门标签中则有28个为角色类标签,占全部热门标签的30%以上。2.3标签词长与词性比拟7个站点的热门标签除极少数英文词汇外,其余词长均为2至4个汉字字符,词性方面则比拟混乱,包括了名词、形容词和动词。少数网站对挑选出来的热门标签的词长和词性进行了统一,如潇湘书院,全部59个热门标签,词长均为2个字符,词性
8、方面均为名词,相对规范。其余网站,则没有做到完全统一,但具有一定的倾向,如晋江文学城的标签字符数较多,常见为4个字符,且多为文学性较强的成语或词组,如“情有独钟“花季雨季“天之骄子等,相对应的其他站点的近义标签则为较为简单的“专情“青春“精英。2.4各网站之间标签重合度比拟从标签重合度上看,7个站点间重复标签共有112个,一定程度上体现了网络文学标签共通性,然而,其中出现概率在50%以上即出现3次以上的标签仅有16个,此外,核心内涵一致的标签,在不同站点或同一站点内详细表述形式上存在差异,大量词汇在词义上存在层级关系和关联关系,体现了标签设置的随意性和用户标注习惯的差异性。3网络文学标签存在的
9、规范性问题在群众分类法倡导由用户自由构建标签,这使得个体差异在标签构造、传播和使用的经过中体现得尤为明显,未经过专业训练的群众,在设置标签时对资源描绘的准确性有所欠缺,导致标签规范性问题在所有应用平台上普遍存在。而在网络文学领域,由于内容更新快、热门交替频繁、题材冗杂、读者关注点分散,资源描绘的难度进一步增加,规范性问题也随之更为突出,详细表现为下面几个方面。1各网站之间标签通用程度低。固然同属网络文学原创网站,但各网站因其受众和风格差异,用户设置及网站提取的标签,在数量、细化程度、描绘侧重点、语法构造、词义词性、详细表述形式上都存在不同。同一标签,在不同网站的使用几率不一;同一概念,在不同网
10、站标签的字面表述形式也存在或大或小的差异。例如,在男性向小讲网站情感类文章较少,只需“感情标签即可知足大部分男频言情小讲的分类需要,而在女性频道,与“感情相关标签则需要细化为“虐恋情深“都市情缘“西方罗曼等不同维度;大部分男频网站的标签倾向于简单明了的概念和词汇,相比之下女频网站标签文学气息、浪漫气息更浓,同时也更为复杂。2大量同义词、近义词和关联词造成冗余。用户在最初对网络文学作品进行标注时采取的规则并不统一,导致出现大量同义词、近义词及关联词词义穿插的问题。主要表现有两类,一类在语义和语法上都近似,只存在微小字面差异,如“洪荒与“洪荒流“种田与“种田文;一类则是缺少字面联络,但存在密切的内
11、在关联,如“吸血鬼与“血族“咸鱼翻身与“炮灰逆袭“鉴宝与“古玩。后者比前者更为隐蔽,但造成的冗余现象以及在检索时对查全率查准率的影响却不低于前者。3歧义、泛意化、复合式词汇干扰分类。除同义词、近义词外,歧义、泛意化以及复合式的标签词汇,也对标签分类的使用效率造成了极大的干扰。歧义的出现主要是由于网络文学中的部分概念具有特殊性。例如,网络文学网站中“猎人标签通常指代某日本动漫作品,一般用以描绘以此动漫作品为创作背景的同人小讲,但假如主要角色类型为“打猎者的小讲可以能使用“猎人标签。泛意化词汇是指如“风云“传奇等含义广泛、指代模糊的词汇。复合式词汇则是指有由简单概念组合成的复合概念,部分复合式词汇
12、在组合后并不能明晰表达单一主题的复合概念,如“青楼宫廷“骑士与剑等,对其他用户而言,并不能明确感悟被组合的概念之间的关系。4网络流行词泛滥。网络文学标签中存在大量网络流行词,固然符合用户阅读习惯,但由于网络流行语本身存在的时效性短、表述不规范、审美趣味低等问题,也间接影响了用户设置的标签质量。与此同时,还促使部分作者利用标签炒作、卖噱头,成心设置猎奇标签吸引用户关注等问题。近年来热门的网络流行词,如“网红,已成为诸如晋江文学城在内的部分网站的热门标签。起点中文网上则存在“猥琐等负面标签。5生僻标签利用率低造成冗余。标签分类具有明显的“长尾特性,高使用率的标签仅占极小的部分,大部分标签利用率普遍
13、较低。这是群众分类法无可回避的弊端。4网络文学标签规范化趋势及手段对群众分类法实现根本意义的规范控制,有赖于语义信息分析处理技术的发展,即通过挖掘标签的内部语义信息,对同义词、近义词、关联词进行自动聚类,建立起标签之间的等级层次关系,同时也能达成标签规范性自动修正的目的。而在此之前,网络文学网站仍然能够通过适当干涉热门标签的挑选展示环节,引导用户改善现有标签的规范性问题。1同一集团旗下网站、同类型网站加强标签通用性。目前,标签一致性程度最高的网络文学网站为阅文集团旗下的起点中文网和创世中文网,两者检索页面显示的热门标签几乎完全一致。此外,同属阅文集团的起点女生网,固然是女频网站,但与起点中文网
14、的标签热门重合度也很高。经比拟,三者在基础分类页面、标签展示页面、标签设置页面均有一定的类似性,挑选热门标签时对同义词的取舍也具有突出的一致性。2标签展示系统增加筛查机制和淘汰机制。固然无法直接干涉用户自定义标签,但在热门标签展示环节,网站能够对展示出来的标签进行外在条件上的控制,如对词长设置上限、将新生的热门标签与原有标签进行比拟,排除近义词,同时对使用频率较低的标签下架处理。3融合基础分类与标签分类。网站能够将基础分类与标签分类的结果进行对应,长期处于热门状态、并相对稳定的标签能够直接设置为基础分类的选项,不仅完善了分类项,还能对标签词量进行控制。同时对完成基础分类的作品,在标签设置环节,对其备选的热门标签根据其基础分类进行调整,引导用户尽选择规范标签。这一手段本质上是将群众分类法与传统的知识分类方法进行融合。更为高效的处理方法是将经过规范化的受控词汇与标签进行自动关联影射。