基于爬虫系统的省级公共图书馆微信平台运用调查.pdf

上传人:g****s 文档编号:85947987 上传时间:2023-04-13 格式:PDF 页数:12 大小:1.04MB
返回 下载 相关 举报
基于爬虫系统的省级公共图书馆微信平台运用调查.pdf_第1页
第1页 / 共12页
基于爬虫系统的省级公共图书馆微信平台运用调查.pdf_第2页
第2页 / 共12页
点击查看更多>>
资源描述

《基于爬虫系统的省级公共图书馆微信平台运用调查.pdf》由会员分享,可在线阅读,更多相关《基于爬虫系统的省级公共图书馆微信平台运用调查.pdf(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、基于爬虫系统的省级公共图书馆微信平台运用调查 谢辉【摘 要】文章利用 Python 语言建立微信公众号爬虫系统.结合试验数据,从宏观和实例角度探讨省级公共图书馆微信公众号现状以及存在的问题.研究表明:省级公共图书馆微信公众平台平均推送文章数量差异较大,人力资源分配不均衡,微信公众平台的服务水平和质量存在较大差异.根据调研情况,提出改进省级公共图书馆微信公众平台的建议.%With the rapid increase in the number of WeChat users,library needs to promptly push information to readers,to str

2、engthen the communication with readers and improve the reader experience.Using python language,through the establishment of WeChat official account crawler system,this paper builds a WeChat spread index evaluation indictor system,tring to illustrate the status quo and problems of provincial public l

3、ibraries WeChat official accounts from the macro and empirical perspectives.The results show that the average number of the articles pushed by the provincial public libraries,the level and quality of the WeChat official accounts vary greatly.Based on the above analysis,the author makes some suggesti

4、ons for improving theWeChat public platform service of provincial public libraries.【期刊名称】图书馆论坛【年(卷),期】2018(038)003【总页数】8 页(P117-124)【关键词】省级公共图书馆;微信公众号;爬虫调查系统;WCI【作 者】谢辉【作者单位】廊坊师范学院【正文语种】中 文 0 前言 近年省级公共图书馆(以下简称“省馆”)纷纷开通微信公众号服务平台(以下简称“微信公众号”),学者开始研究图书馆微信公众号运营情况。张正等1认为,微信为扩展图书馆服务范围、方式和内容提供了新途径。郭春侠等2调查

5、31 家省馆微信公众号现状,指出服务功能设置和服务水平良莠不齐。整体而言,关于省馆微信公众号的研究侧重于应用现状、功能等方面;而关于微信公众号服务情况及数据分析等定量研究较少。为此,本研究采集2016 年 5 月 1 日至 2017 年 5 月 1 日各省馆微信公众号推送的文章、文章阅读量、发布时间等作为研究数据,构建微信传播指数 WCI 评价指标体系,并针对试验数据,从宏观和实例角度探讨省馆微信公众号服务现状及存在问题。1 研究过程 1.1 数据源选择 本研究数据来自清博指数。清博指数是我国最大的第三方新媒体搜索引擎、微信数据库,其收录的数据包括头条阅读量、发布时间、总阅读量、详细内容、总点

6、赞数、最多阅读文章、图文消息链接、当日阅读量、最近一周阅读量等。依托该平台,本研究统计分析各省馆微信公众号推送文章的传播量、覆盖度、账号成熟度和影响力等。1.2 数据收集 1.2.1 爬虫系统原理及架构 网络爬虫(Web Crawler)是一种用于自动提取网络信息的工具,主要利用 C/C+、Java、Python、Perl 等程序语言撰写,自动抽取网页并保存在数据库中,以作为分析或数据探勘使用。网络爬虫基本架构见图 13:首先提取程序(Fetcher)抓取HTML 文件,并将 HTML 文件内容放进控制器(Controller)分析;当超链接被搜寻到后,将被链接提取程序抽取出来建立增加新节点到

7、网络爬虫的工作量中,可视为数据结构的队列方式;然后将抽取的 HTML 文件或想获得的信息通过汇总程序存入数据库,直到网络爬虫工作量内没有要接入的节点之后结束。一般而言,网页搜寻策略方式有 4 种:IP 地址搜寻方法、广度优先、深度优先和最佳优先策略。图 1 网络爬虫系统架构图 1.2.2 微信爬虫系统设计 为方便采集各馆微信公众号推送文章及相关数据,以 Python 语言为基础,构建微信公众号爬虫系统,主要步骤:(1)统计各馆微信公众号开通情况。通过网上搜索查询和筛选,获得 32 个省馆微信公众号。(2)通过微信公众号爬虫系统搜寻 2016年 5 月 1 日至 2017 年 5 月 1 日 3

8、2 个馆微信公众号推送的文章、阅读量、点赞率、链接地址等数据,将其放到非关系型数据库MongoDB 的 URL_list 集合中进行存储,通过爬虫系统搜寻推送文章的链接地址、文章标题和内容,同样存储在URL_list 集合中。(3)导出文件。从数据库中导出推送文章链接地址和文本内容数据,以 URL.CSV 和 INFO.CSV 格式进行分析使用。1.3 数据处理 1.3.1 筛选重复数据 利用 EXCEL 中 COUNTIF 函数筛选重复的文章链接地址,将其删除。浙江省馆和云南省馆均开通微信订阅号和服务号,因此,将其链接地址及内容数据合并在同一个账号下。由于 URL.CSV 文件中有 24 条

9、被发布者删除或内容被举报而无法查看的记录数据,将其进行删除,剩余 8065 条微信公众号推送文章的链接地址记录,INFO.CSV 文件做相应的删除修改,导出数据 8065 条链接地址,包含文本内容、标题、摘要、点赞数、推送时间等数据。1.3.2 基于 Tableau 的数据分析 Tableau 是一款可视化数据分析产品。本研究将筛选后的数据导入 Tableau 中进行分析,结合 WCI 对各馆微信公众号推送文章位置、日期、时间、传播指数排名、推送时间、推送内容等指标数据进行统计分析。部分数据见图 2。2 调查实践及结果分析 2.1 宏观分析 2.1.1 区域推送数量 为直观地展示各馆地理位置及

10、其推送文章情况,利用 EXCEL 工具将各馆微信公众号推送文章数量在地图相应位置上进行标记。从图 3 可以看出,江苏、湖南、黑龙江等省馆微信公众号推送文章数量最多,分别达 1325 篇、1103 篇、850 篇。分区域看,东部和南部省馆微信公众号推送文章数量明显较西部和北部多,表明各馆微信平台运行状况与当地经济水平有直接的关系。2.1.2 推送时间的选择 图 2 各省馆公众号采集数据(部分)图 3 省馆微信公众号文章推送量分布 根据爬虫遍历得到的文章推送日期和数量,得出各馆微信公众号推送文章数量随月份变化情况,见图 4。2016 年 12 月推送最多,可能逢元旦假期,活动增多;其次是 9 月、

11、11 月推送较多;10 月出现低谷,可能与国庆假期有关,影响微信管理人员推送文章。2016 年与 2017 年上半年和对应的下半年相比,上半年微信平台活跃度不如下半年。2.1.3 时间选择 图 4 各省馆月均推送数量 根据爬虫搜寻得到各馆推送文章及其推送时间段,以 24 小时为横坐标,各时间段所有馆推送文章数量的平均数作为纵坐标轴,数据计算结果见图 5。由图 5 可见,各馆 0-6 点推送文章最少,与工作人员作息保持一致。在上午和下午工作时间段推送数量随时间推移增多,分别在 12 时和 17 时达到高峰。13 时、14 时推送数量出现低谷,这与午休时间相符。在晚上时间段,各馆平均推送文章的数量

12、出现随时间推移而递减趋势,23 时达到最低点,这和作息时间相符。2.2 实例分析 2.2.1 微信公众平台开通现状 截至 2017 年 5 月 1 日,32 家省馆全部开通微信平台且完成认证,见表1。其中首都图书馆、天津图书馆、河北省图书馆、黑龙江省图书馆、山东省图书馆、湖南图书馆、浙江图书馆、上海图书馆等8 家开通了两个微信平台。山东省图书馆只有一个公众号“山东省图书馆资讯平台”通过认证,另一个公众号是“山东省图书馆”,显示尚未认证。表 1 省馆微信平台开通情况微信平台名称首都图书馆首图数字图书馆天津图书馆天图数字图书馆开通时间 2013-11-25 2016-08-09 2015-10-1

13、3 2014-04-17微信平台名称上海图书馆上海图书馆信使河南省图书馆湖南图书馆开通时间2013-12-30 2014-06-01 2014-06-10 2014-02-15平台类型服务号订阅号订阅号订阅号河北省图书馆河北省数字图书馆山西省图书馆内蒙古图书馆辽宁省图书馆2014-08-07 2015-11-24 2014-03-31 2015-01-09 2014-06-09天下湖南网湖北省图书馆广东省立中山图书馆广西壮族自治区图书馆海南省图书馆2013-03-08 2013-05-25 2014-07-20 2014-05-28 2014-03-28 订阅号订阅号订阅号服务号订阅号吉林省图

14、书馆黑龙江省图书馆黑龙江省数字图书馆山东省图书馆山东省数字图书馆 2014-09-17 2014-02-12 2016-04-23 2015-08-20 2015-07-08 四川省图书馆重庆图书馆云南省图书馆贵州省图书馆西藏自治区图书馆 2015-07-16 2014-04-23 2016-01-21 2016-04-20 2014-04-18 订阅号服务号订阅号服务号订阅号安徽省图书馆南京图书馆浙江图书馆福建省图书馆订阅号订阅号订阅号订阅号江西省图书馆 2014-01-23 新疆图书馆 2013-05-07 订阅号 2015-07-09 2014-05-20 2015-02-13 2015

15、-05-20 平台类型订阅号服务号服务号订阅号服务号订阅号服务号服务号服务号订阅号订阅号订阅号服务号订阅号服务号服务号服务号服务号服务号青海省图书馆甘肃省图书馆宁夏图书馆陕西省图书馆 2015-04-23 2014-10-15 2016-07-18 2014-01-25 图 5 各时段推送数量统计 图 6 省馆微信平均阅读量、平均点赞数统计 图 7 省馆微信推文数量统计 2.2.2 推送文章情况分析 整理分析 2016 年 5 月 1 日至 2017 年 5 月 1 日各馆微信公众号推送文章的数量、平均阅读量、平均点赞量(见图 6 和图 7)。鉴于数据完整及公众号的稳定性、可查询性等原因,剔除

16、无效的公众号数据,本文最终选取了27 个公众号进行研究。推送数量前 4 位是湖南图书馆、黑龙江省图书馆、甘肃省图书馆和浙江图书馆,均超过 400 篇,湖南图书馆更达到 1103 篇。各馆微信公众号平均阅读量是指所有文章阅读量总和除以文章推送数量求得的平均值,平均阅读量超过 1000 次的包括湖南、湖北和山东 3 个省馆,湖南图书馆平均阅读量达5734 次。平均点赞数是指各馆微信公众号推送文章的点赞总数除以文章数量所求得的平均值,湖南、四川、山东、吉林 4 个省馆推送文章的平均点赞数最高,均超过 1000 个,其中湖南图书馆达 5734 个。2.2.3 推送时间 选取湖南、四川、黑龙江、甘肃、浙

17、江 5 个省馆微信平台服务数据进行统计分析,得到图 8。纵坐标用于说明各馆推送文章时间段的选择和平均阅读量,横坐标为一天内各时段。5 家省馆微信公众平台推送文章均在 12 时和 15 时达到高峰,且 12时推送数量远高于其他时段,其中浙江图书馆12 时推送文章数量仅次于湖南图书馆,17 时甘肃省图书馆推送文章数量排名第二。图 8 各省馆各时段推送文章数量及阅读量均值统计 虽然湖南图书馆将 12 点作为推送文章的首选时间段,但平均阅读量并非处于全天最高峰,全天阅读最高峰出现在 16-20 时,说明用户在下午及晚上时段的关注度更高。甘肃省图书馆与黑龙江省图书馆的平均阅读量均较低,说明微信平台推送文

18、章数量与阅读量并非正相关,但与推送时间关系较密切,且阅读量较大的时间段集中在下午及晚上时间段。因此,各馆微信管理人员应在考虑读者阅读时间选择的基础上,提高文章推送效率,选择更加合适的时间进行推送。2.2.4 推送内容 对湖南、四川、黑龙江、甘肃、浙江等 5 家省馆推送文章的阅读量进行排名,选择排名前 4 的文章,排名结果见表 2。表 2 微信号高阅读量文章统计微信公众号 标题湖南图书馆父母尚在苟且,你却炫耀诗和远方他是买下十套学区房却一天也没住过的任性买房者,也是一个你完全想象不到的童话大王再也不愁书荒了,那些值得一读再读的好书 5 月 9 日上午,湖南省昆剧团团长罗艳为您讲述昆曲之美!中美大

19、摊牌,六因素或致中日擦枪走火!四川省图书馆甘肃省图书馆南海仲裁出炉,扯掉了谁的遮羞布,中国如何打脸?美军高官访华测南海仲裁效果,结果让其绝望铲屎官给汪星人做的那些暖心的事,真的是用尽一生一世来将你供养啊!孩子,我们为什么要读书?这是最好的答案!一组刷爆朋友圈的漫画:人生的意义黑龙江省图书馆早啊!新闻来了2016.09.20日本为啥总和中国过不去?周末活动预告!【龙图活动预告】5月 22 日5 月 28 日龙江讲坛 2017 年科技活动周系列讲座|5 月 27 日(星期六 14:00)糖尿病眼部并发症的预防与治疗浙江图书馆龙江讲坛2017 年科技活动周系列讲座|5 月 20 日(星期六 14:0

20、0)艺术教育提升综合素养写作一定有方法文人交往与日常生活漫谈年轻时,我们觉得自己永远不会老去舔屏!健与美好身材show出来!阅读量 111,274 100,001 87,434 53,553 31,433 300,129 20,403 8,367 32,418 2,237 13,676 13,329 8,057 5,269 3,519 1,201 3,729 2,980 1,899 902 湖南图书馆微信公众号排名前五的文章阅读量均远高于其他馆。其中,排名第一的父母尚在苟且,你却炫耀诗和远方阅读量超过 11 万,该文受到如此大的关注,主因是标题和内容触动了各年龄段人们的情感;排名第二的他是买下

21、十套学区房却一天也没住过的任性买房者,也是一个你完全想象不到的童话大王与热点话题紧密相关;其余文章也与热门话题相关,阅读量均超过5 万。四川省图书馆上榜 4 篇文章中,3 篇与南海军事热门话题密切相关。甘肃省图书馆上榜的 4 篇文章以心灵鸡汤为主,引导人们乐观向上,这与人们压力过大,需要给予开导有关。黑龙江省图书馆和浙江图书馆推送的文章大多为通知、写作,较少涉及热点话题,关注度不高,阅读量较低。2.3 微信传播指数分析 2.3.1 微信传播指数概述 微信传播指数(Wechat Communication Index,WCI)由清博新媒体指数团队开发,全面反映微信公众平台推送文章的覆盖度、传播范

22、围及其影响力,具有权威性和可靠度。WCI 常用指标架构系统及标准化得分的计算公式(见图 9)。系统抓取时间一般为系统每日更新账号前一天发布的文章及其阅读数。阅读数量在每日12:00 左右更新,统计数据在每天 15 左右更新,日榜数据采用文章发布第二天的数据进行计算,每天 14 点左右发布日榜,周榜数据通常为清博指数,设定周日到周六为一周的统计周期。头条总阅读数为某账号当期所有头条文章阅读数总和,总阅读数为某账号当期所有文章阅读数总和。平均阅读数为总阅读数除以某账号当期发布文章数,总点赞数为某账号当期所有文章点赞数总和,平均点赞数为总点赞数除以某账号当期发布文章数,最大阅读数为某账号当期最高阅读

23、数,最大点赞数为某账号当期最高点赞数,点赞率为总点赞数除以总阅读数。图 9R 为评估时间段内所有文章(n)的阅读总数;Z 为评估时间段内所有文章(n)的点赞总数;d 为评估时间段所含天数(一般周取 7 天,月度取 30 天,年度取 365 天,其他时间段以真实天数计算);n 为评估时间段内账号所发文章数;Rt 和 Zt 为评估时间段内账号所发头条的总阅读数和总点赞数;Rmax 和 Zmax 为评估时间段内账号所发文章的最高阅读数和最高点赞数。图 9 WCI 通用指标体系架构及计分方式 2.3.2 WCI 评价指标体系构建 为综合评价各馆微信公众号整体服务水平和质量,选取 2016 年 5 月

24、1 日至 2017年 5 月 1 日的统计数据作为实验样本,采用总阅读数R、总点赞数 Z、发布文章数N、各省馆微信平台当期最高阅读数Rmax、该账号最高点赞数 Zmax 等作为评价各馆微信公众平台综合服务水平的指标数据来源,构建微信传播指数 WCI 评价指标体系,详见图 10。图 10 微信传播指数 WCI 评价指标体系 借鉴 WCI 权重分配标准8来确定 WCI 评价指标体系中的权重系数,选择总阅读数1000、小于 1000 两种情况,确定不同条件下各指标权重系数(见表 3、表4)。表 3 WCI 计算公式(总阅读数1000)一级指标权重系数 二级指标 权重系数阅读指数 0.65 总阅读数

25、R1000 平均阅读数 R/N 微信传播指数(WCI)0.6 0.3 最高阅读数 Rmax 0.1 点赞指数 0.35 总点赞数 Z 平均点赞数 Z/N 0.6 0.3 最高点赞数Zmax 点赞率 Z/R 0.05 0.05 表 4 WCI 计算公式(总阅读数1000)注:当总阅读数小于 1000 时,不再考虑点赞率 Z/R 这一指标,同时指标最高点赞数的权重系数调整为 0.1。一级指标权重系数 二级指标 权重系数阅读指数 0.65 总阅读数 R1000 平均阅读数 R/N 微信传播指数(WCI)0.6 0.3 最高阅读数 Rmax 0.1 0.1 0 点赞指数 0.35 总点赞数 Z 平均点

26、赞数 Z/N 0.6 0.3 最高点赞数 Zmax 点赞率 Z/R 结合实际情况,得出微信传播指数 WCI 的计算公式。2.3.3 评价结果分析 从表 5 看出,湖南图书馆微信传播指数远远高于其他馆;四川省图书馆、甘肃省图书馆排名第二、第三,且与其剩余馆微信传播指数相差较大,说明微信平台服务水平和质量较高。黑龙江省图书馆、浙江图书馆推送文章数量排名第二、第四,但微信传播指数排名第八、第十,排名相对靠后。3 省馆微信平台建议与应用拓展 3.1 均衡分配,维持黏性 各馆微信平台平均推送文章数量差异较大,其中湖南图书馆以 1136 篇高居榜首,黑龙江省图书馆、甘肃省图书馆和浙江图书馆均超过500 篇

27、,远超其他馆。通过线下调研,发现各馆微信运用人力资源分配不均衡。统计分析各馆微信平台推送文章数量和推送时间,各馆推送数量最多的月份为 2016 年 12 月,其次为 9 月和11 月;上半年推送数量明显低于下半年。由于用户对微信平台的关注度主要依赖文章更新以及文章高热点性,因此应重视微信平台人力资源建设,提升用户对微信平台的依赖性。3.2 善用指数,合理评价 综合考量各馆微信公众号推送文章数量、阅读数、点赞数等各指标,可知各馆微信平台服务水平和质量存在差异性,说明各馆微信平台运行能力良莠不齐,不同馆面临的问题以及急需改进的问题均不相同。因此,有必要建立科学的微信平台服务水平评价指标体系,通过评

28、价结果来指导各馆改进微信平台服务质量。表 5 省馆微信 WCI 统计排名 公众号 WCI N R Z R/N Z/N Rmax Zmax Z/R 1 2 3 4 5 6 7 8 9 1 0 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 湖南四川湖北首都甘肃福建广东陕西山西内蒙古浙江江苏辽宁吉林安徽山东黑龙江河北广西云南河南西藏新疆江西青海贵州宁夏 3341824.49 217080.02 181693.61 119571.35 213455.00 2731.13 154216.03 12381.84 7018.80 15328.55 87

29、426.59 127426.59 2603.24 3000.35 46490.86 161095.59 115055.21 3291.20 45893.74 87619.92 36211.35 2345.85 9744.32 6475.61 7157.50 3318.09 3564.47 1103 392 301 387 687 11 330 23 34 78 583 789 8 8 131 139 850 37 122 274 112 17 131 19 19 13 13 6324602 303016 331702 224073 214344 1936 222090 19895 2686 2

30、9796 120681 192162 6264 2792 56592 307607 189550 4144 76250 140288 49056 3281 13231 11362 9690 3913 3120 4160516 469616 247723 152478 617613 8811 320760 20723 27914 17160 191807 281807 0 8232 115411 193071 195500 7733 76006 155906 80528 4726 21615 8911 15181 7917 10517 5734 773 1102 579 312 176 673

31、865 79 382 207 489 783 349 432 2213 223 112 625 512 438 193 101 598 510 301 240 3772 1198 823 394 899 801 972 901 821 220 329 813 0 1029 881 1389 230 209 623 569 719 278 165 469 799 609 809 101 100 101 100 100 101 100 100 101 101 101 101 101 101 100 100 100 100 100 100 101 101 100 100 100 100 101 34

32、 77 7 96 17 41 85 65 55 21 3 73 60 4 21 3 88 44 67 70 65 22 87 42 28 15 42 0.66 1.55 0.75 0.68 2.88 4.55 1.44 1.04 10.39 0.58 1.59 2.39 0.00 2.95 2.04 0.63 1.03 1.87 1.00 1.11 1.64 1.44 1.63 0.78 1.57 2.02 3.37 3.3 原创为主,转载为辅 通过对湖南、四川、黑龙江、甘肃、浙江等 5 家省馆微信传播指数、文章推送时间段、推送内容等分析发现,获得读者阅读量最多的文章有两个共性:实时性和原创性

33、。湖南图书馆凭借对热点、趣闻等信息掌握的实时性,吸引大量用户,奠定微信平台多项指标均稳居第一的位置;四川省图书馆凭借对热点新闻的深入解读而提升了影响力。因此,各馆可发挥自身优势,加强原创性。3.4 加大推送频次,完善平台功能 各馆微信公众号推送频次普遍不高,需要提高推送次数,通过完善功能并开通对应接收,使访问者与图书馆管理者实现实时互动,及时将书目等信息推送给用户,通过公众号对应的接口开发特色程序,包含二维码图书在线扫描,实现图书查询和借阅,替代或完成图书馆 APP 功能。3.5 扩大传播途径 对社交网络软件来说,多渠道扩大影响是重中之重。图书馆可以将公众号置于网页最醒目的地方,或在图书馆大厅、阅览室设置微信号二维码扫描区域,或在微信公众号中加强与读者的互动,举办有奖征文和竞技类活动,从而提高微信公众号的影响力。参考文献 1张正.图书馆微信公众平台的构建J.国家图书馆学刊,2014,23(2):26-31.2郭春侠,李诗琪.国内省级公共图书馆微信平台服务探析J.现代情报,2016,36(4):128-133.3石恩名,肖晓军.基于云平台的分布式高性能网络爬虫的研究与设计J.电信科学,2017,43(8):180-186.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 文案大全

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁