《数据科学家在医学图书馆发展的作用.docx》由会员分享,可在线阅读,更多相关《数据科学家在医学图书馆发展的作用.docx(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据科学家在医学图书馆发展的作用摘要:大数据时代的到来催生了数据科学家,本文讨论了数据科学家积极主动地介入医疗机构高层的决策咨询,努力为解决大数据时代医学图书馆发展中的战略问题提供可持续发展的咨询报告,为宏观决策提供科学根据,对所服务的读者在使用图书馆资源和网上资源的经过中所产生的大量数据进行统一收集、统一分析,为订购医学资源提供咨询和根据,从冗杂无序的大量数据中找到有用的价值信息,并将这些有用的数据信息传递给高层决策者和用户,最终得以在读者使用中实现有用的价值。关键词:数据科学家;大数据;图书馆;将来发展大数据时代的到来给数据分析和挖掘带来相当大的难度。据“国际数据公司IDC研究人员估计,到
2、2020年全球每年产生的数据量将到达35ZB。这些数据假如刻成DVD光盘,把这些DVD光盘一张一张地叠加起来的高度是地球到月球的2倍1。这些冗杂宏大的信息数据依靠传统的人工分析方法已显得缓慢滞后,只依靠机器处理也难以适应大数据时代的信息需要。那些运用数据科学的方法进行收集数据、分析数据、研究数据、处理数据的数据科学家的出现,为大数据的研究与应用带来新的希望。1数据科学与数据科学家1.1数据科学数据科学是关于数据的综合体或者是专门研究数据的一门科学,其研究对象是数据系统中的数据,是专门研究网络空间中的数据系统的规律、方法和技术。与我们所认知的自然科学和社会科学比拟,其出现的时间还比拟迟,它专门研
3、究的是虚拟的数据。数据科学主要是为我们所认知的自然科学和社会科学研究提供一种全新的方法,称为科学研究的数据方法,其目的在于探索和提示自然界和人类行为的现象和规律。1.2数据科学家数据科学家是由美国的NatahnYau博士在2009年提出来的2,目前还没有统一的定义。比拟认可的定义是,数据科学家是指运用专门的统计分析、机器判定、分布式处理、综合评估等技术,从大量数据中提炼出对用户有意义的信息,以容易通用明了的形式传送给用户和决策者,并综合提炼出新的数据来应用服务的人才。数据科学家通过关注使用者提供的数据来进行综合分析,在更高层面上创造出不同特性的产品和流程,为使用者提供增值性的信息服务3。2数据
4、科学家的素质和能力2.1数据科学家具备的素质2.1.1创业意识数据科学家应该具备以冗杂、无序、海量的数据为核心进行创新性研发和提升的创业意识。亚马逊Amazon、谷歌Google、阿里巴巴Alibaba、脸书Facebook等都是基于对庞大复杂的数据进行收集、分析、整合、创新,进而产生出新型的服务型企业,都是数据分析和数据处理的研究人员通过艰辛探求才获得成功的。2.1.2探索精神坚韧的探索精神是科学家不断进取的驱动力和创造力的根源,数据科学家的工作就是在庞大复杂数据中探求,具有强烈的探索精神才能驱动他们探求和研究问题本质,寻找问题的最佳答案,并把它们提炼为一组愈加明了、明晰、能够验证的假设4。
5、数据科学家的价值并不是单靠做简单的报表和PPT等材料提供应高层决策者,而是通过收集全体用户的标准、要求和流程等,对海量冗杂的数据进行再分析和加工,揭示出事物的内在联络,进而找出最佳的解决问题的方案,这需要数据科学家强烈的探求精神和严谨的工作态度。2.1.3广泛兴趣具有卓越品质的数据科学家的兴趣和好奇并不是局限于他们所把握的计算机科学、数学、统计学等与数据分析有关的学科,而是对文学、音乐、艺术、医疗、社会科学、自然科学等各个领域都拥有广泛的喜好5。美国的数据科学家大多数具有丰富的工作经历,他们具有实验物理学、计算机化学、数据统计学,甚至是生理学、神经外科学等工作的扎实经历和丰富理论。正由于他们具
6、有广泛的探求精神和渊博的知识,在他们对不同领域数据的搜集、整合、分析、评估时,才能够发现常人难以发现的有价值的数据与观点,找出不同事件的发展特征和正在发生事件的趋势。2.2数据科学家需具备的技能2.2.1计算机科学与数据分析能力把握计算机编程技能和数据搜集、数据分析、数据储存、数据安全的技术。具备处理大数据所需要的Hadoop、Mahout等大数据和大规模的处理技术。2.2.2数据处理与统计分析能力除了把握数据搜集、数据分析、数据优化和数据综合能力外,还要具备数学、统计及综合的知识和技能,如SAS、SPSS等统计分析软件和与编程语言与运行环境相关的知识。2.2.3数据可视化能力数据可视化能力确
7、实是数据科学家非常重要的技能。信息数据的表达方法决定了信息数据的质量,数据信息可视化对信息的直接采用和对高层决策的利用都有很重要的作用。数据科学家要从零散繁乱的数据中进行采集和分析,使用应用程序接口ApplicationProgrammingInterface,API将地图、图表、仪表盘Dashboard等数据服务统一起来,进一步完成分析结果可视化。3数据科学家是将来的战略资源随着对大数据应用研究的进一步推广和应用,数据科学家对数据的收集、存储、处理、分析,以及对大数据的解决方案都会不断地深化,但是研究大数据最大的问题不是工具,而是人才短缺,作为大数据研究的引导者,社会上对数据科学家的需求也不
8、断增长。大型互联网技术厂商易安信公司EMC在2013年发表的一份关于对美国、中国、英国、法国、印度等数据科学家的调研报告中得出,有2/3的介入者以为在将来几年中数据科学家仍然缺乏4。这一发展趋势进一步印证了2016年12月麦肯锡全球研究院发表的(分析的时代:在大数据的世界竞争)报告的结果:美国专业数据科学家每年仍缺口约25万人。预测将来的10年内,单是美国对这种人才的需求约为200400万6。社会上对数据科学家的需求在四、五年前还仅限于Google、Amazon等较大型的网络公司。随着大数据分析重要性的不断出现,重视数据分析、研究与应用的企业日益增加,一些发达国家如德国、日本、法国、美国、加拿
9、大等都大量需要数据科学家,美国通过培养和高薪引进数据研究人员,来填充数据科学家数量缺乏带来的问题7。Facebook、IBM、Google、Amazon等大型企业对数据科学家的需求不断增加,据报道,日本新成立“数据科学家协会,致力于企业内部培养“大数据分析人才8,将来数据科学家会成为一种战略资源。4数据科学家在医学图书馆中的作用从Facebook、IBM、Google、Amazon等大型企业成功的例证上我们能够看出,支撑这些大公司业务提升与业绩的背后就是数据科学家。这些大型企业对于海量冗杂的数据不仅是进行收集、存储,而是通过一系列的研究与分析,将其变为有价值的数据信息,通过对结果的分析、产品的
10、推荐为公司的发展起到了决定性的作用。就医学图书馆来讲,数据科学家的作用也与其在网络公司起到的作用近似,主要体如今下面3个方面:4.1为医学图书馆决策服务数据科学家积极主动地介入医学机构高层的决策咨询,为解决大数据时代医学图书馆发展中的战略问题提供可持续发展的咨询报告,为医学图书馆的宏观决策提供科学根据。数据科学家对读者的医学信息数据的需求和医学科技发展的走向有着很强的预测性,并且长期追踪医学图书馆的信息服务的发展热门和读者急需的医疗数据9。因而,数据科学家的研究成果往往能够直接为医学图书馆的发展提供决策性的建议,解决实际问题。4.2为医学图书馆的资源订购提供咨询和根据医学图书馆是信息聚集、搜集
11、、存储和传递的重要聚集地,大数据的收集、分析、利用、传递离不开数据科学家的介入。培养数据科学家成为今后医学图书馆在大数据时代生存发展的迫切任务。每个医学图书馆没有能力也不可能订购所有科研和医疗单位专家所需要的医学信息资源,单靠图书馆专家咨询和问卷调查来知足大部分用户对医学信息的需求是不可能实现的。这样,就需要数据科学家对读者在使用图书馆资源和网上资源的经过中所产生的大量数据进行统一收集、统一分析,探求出读者使用喜好和关注焦点的规律,并预测出将来的研究方向,根据研究成果来指导医学信息资源的订购工作,通过对数据的分析还能够预测到将来信息服务的方向。4.3提高医学图书馆资源利用率依靠数据科学家所具备
12、的数据收集、分析、综合的能力来挖掘知识,利用数据科学家的数据优化与综合能力、统计分析能力来整合知识,充分发挥数据科学家的可视化能力来传递和推广医学图书馆的信息数据知识,利用数据存储和数据安全技能保障信息数据和信息知识的安全。目前,大多数医学图书馆所订购的数据库利用率比拟低,是由于其数据和信息的分析能力远远未能到达真正把读者需要的信息和知识挖掘出来10。假如不依靠数据科学家分析和整理出所订购的信息资源,医学图书馆所拥有的数据库即便再多,数据量再大,也很难让这些资源再增加价值。数据科学家的作用就是从冗杂无序的大量数据中找到有用的价值信息,并将这些有用的数据信息传递给高层决策者和用户,最终得以在读者使用中实现信息的价值。数据科学家的出现是数据科学不断完善和发展的详细表现,使数据科学变得愈加直观和可视,也体现出数据科学研究的重要性。在大数据时代的今天,数据科学家为加快医学图书馆的发展、优化医学图书馆的管理有很大的促进作用,也为医学信息资源的优化订购、充分利用、个性化服务起到积极的推动作用。