《基于PubMed开发的大数据分析工具在科研中的应课件.ppt》由会员分享,可在线阅读,更多相关《基于PubMed开发的大数据分析工具在科研中的应课件.ppt(56页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、基于PubMed开发的大数据 分析工具在科研中的应用引言:我们进入了大数据时代 “在洛杉矶,警方通过数据分析,预测12小时内哪个地区最有可能发生犯罪;在伦敦金融城,一位交易员认为,数学计算可成为发财”秘笈”;在南美,天文学家尝试为整个宇宙进行分类记录这些迥然不同的领域如今出现同一特征:数据量的大爆发。”这是英国广播公司品牌栏目地平线最新播出的纪录片大数据时代中的开篇一幕。2012年3月29日,美国奥巴马政府宣布推出“大数据研究和发展计划”(Big Data Research and Development Initiative),该计划涉及NSF等6个联邦政府部门,投资超两亿美元,研发采集、组
2、织和分析大数据的工具及技术。有人将其比之为克林顿政府1993年推出的“信息高速公路”计划。美国政府大数据计划的出笼,表明大数据技术已经上升为国家战略。据 IDC(国际数据公司)统计,全球数据量以年均50%的速率增长。2011 年全球所产生的数据总量是 1.8 ZB(10 的 21 次方)1TB(Trillionbyte,太字节)=1024GB 1PB(Petabyte,拍字节)=1024TB 1EB(Exabyte,艾字节)=1024PB 1ZB(Zettabyte,泽字节)=1024 EB=100万PB=10亿TB 但是,对于医生、教师、研究生等专业人员来说,“大数据”的核心资源,依然还是学
3、术文献、统计报告、科技成果等正式出版或规范发布的数据资源。乐友孕婴童运用大数乐友孕婴童运用大数据分析了解顾客的需求据分析了解顾客的需求两个案例 乐友孕婴童运用大数据分析了解顾客的需求,带来大幅的业务增长。乐购通过分析会员卡用户的购物数据,对顾客分类,有针对性地发广告邮件,每年节省 3.5 亿英镑的广告费用。如果我使用数据分析工具,对科题进行分析,能否节约时间和经费?http:/ 1985年,芝加哥大学的Don.R Swanson教授,在研究时偶然发现以雷诺氏病生理改变作为中间词,可将以鱼油和雷诺氏病为主题词分别检索到的两组原本无联系的文献联系起来,得出鱼油有助于雷诺氏病的治疗结论。于是,Swa
4、nson教授提出了基于文献的知识发现(Literature-based Discovery)理论。那么,基于此理论开发的知识发现系统对科研是否有帮助?事实证明,Swanson和Smalheiser开发Arrowsmith分析系统,发现了大量的新知识。2000年,美国情报科学与技术学会(ASIST)因为Swanson独特的情报学方法授予他该学会的最高成就奖。除了Arrowsmith文献分析系统外,常用的文献分析软件还有:HistCite;Bibexcel;SATI;Thomson Data Analyzer;CiteSpace;Pajek;Ucinet;Vosviewer;SPSS;Aureka
5、;RefViz等,以及完全基于PubMed开发的德国的GoPubMed;中国的bdPubMed;美国的Anne OTate、PubFocus以及欧洲的CiteXplore等。基于共词分析技术的Arrowsmith工具可以作为专业人员的科研辅助工具,引导科研人员认识和发现不同科学、不同研究方向之间潜在的有科学价值的信息,以便进一步证实科学假设的可行性。http:/arrowsmith.psych.uic.edu/ArrowsmithArrowsmith知识发现系统简介知识发现系统简介我们以探讨虫草素与肠粘膜屏障功能稳定的潜在相关性研究为例,简单介绍Arrowsmith的使用方法。Arrowsmi
6、thArrowsmith知识发现系统简介知识发现系统简介以虫草素“cordycepinab”的检索结果为文献A集合ArrowsmithArrowsmith知识发现系统简介知识发现系统简介以肠黏膜“Intestinal MucosalTI”的检索结果为文献C集合ArrowsmithArrowsmith知识发现系统简介知识发现系统简介截至2014年10月25日,文献A和C的检索结果分别为795和801篇,A和C之间没有共同的检索词出现,而运用Arrowsmith工具,则A和C文献中共同出现的词语形成的B集合中共有861个词。ArrowsmithArrowsmith知识发现系统简介知识发现系统简介
7、利用Arrowsmith中语义过滤器以“Chemicals&Drugs”、“Genes&Molecular Sequences,and Gene&Protein Names”、“Physiology”进行语义过滤,去除不相关的词。ArrowsmithArrowsmith知识发现系统简介知识发现系统简介根据语义过滤,去除文献B中不相关或相关度小的词。ArrowsmithArrowsmith知识发现系统简介知识发现系统简介结合文献全文发现,蛹虫草对炎性肠病及消化系统疾病高度相关,但用以治疗是否有效,需要在后续的临床研究中加以验证。ArrowsmithArrowsmith知识发现系统简介知识发现系统
8、简介参考:李文林,潘苏华,关洪月.基于Arrowsmith 探讨虫草素与肠粘膜屏障功能稳定的潜在相关性.医学信息,2009,22(12):2684-2687.CiteSpace基于JAVA的可视化文献分析软件 能够显示一个学科或知识域在一定时期发展的趋势、动向及热点,形成若干研究前沿领域的演进历程。http:/cluster.cis.drexel.edu/cchen/citespace/CiteSpaceSPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。GoPubMed系统简介GoPubMed GoPubMed由德国Transinsigh
9、t和德国Technical University Dresden合作开发,该系统的数据库与PubMed检索结果一样。GoPubMed是Gene Ontology(GO)在PubMed数据库中的深度应用。GoPubMed是利用生物信息学相关知识开发的一个可以对PubMed检索结果进行探索、分析的工具/智能搜索引擎。Rules and reasoning for ontology-based literature Rules and reasoning for ontology-based literature searchsearch高度相关的概念各类统计分析各类统计分析Top YearsTop
10、 CountriesTop CitiesTop JournalsTop AuthorsTop TermsGoPubMed系统简介课题发展趋势GoPubMed系统简介地区分布图GoPubMed系统简介作者合作网络GoPubMed系统简介http:/arrowsmith.psych.uic.edu/cgi-bin/arrowsmith_uic/AnneOTate.cgiAnne OTate伊利诺伊大学芝加哥分校开发Anne OTate对PubMed检索结果按照重要的单词、MeSH主题、所属单位、作者姓名、期刊和出版年进行分组,点击给定的分类名称即可显示该类别中的所有文章。http:/cbdm.md
11、c-berlin.de/medlineranker/cms/medline-rankermedline-ranker 马克斯德尔布吕克分子医学中心开发medline-ranker与用户输入的某个主题相比较,自动推断出一组非常有判断力的单词,用这些单词对相关的文章进行评分和排序。PubFocus可以按照期刊的影响因子、作者的贡献水平等多种因素对文献进行排序,用户可能找到某一学科或某个领域内的最有影响力或最多产出的作者,或是了解在某学校领域内哪种期刊发表的文章最多。PubFocusPubFocus 南加州大学洛杉矶分校开发 本地本地PubMedPubMed检索系统是华中科技大学同济医学院与济检索系
12、统是华中科技大学同济医学院与济南泉方科技有限公司合作开发的本地化数据库产品,本检索系南泉方科技有限公司合作开发的本地化数据库产品,本检索系统产品是在美国统产品是在美国PubMedPubMed的基础上,参考的基础上,参考Web of ScienceWeb of Science数数据库、据库、Google ScholarGoogle Scholar谷歌学术搜索、德国的谷歌学术搜索、德国的GoPubMedGoPubMed等,并结合华中科技大学的创新和泉方公司大数据分析技术,等,并结合华中科技大学的创新和泉方公司大数据分析技术,开发出的新一代高水平的外文医学检索平台,为科研和临床提开发出的新一代高水平
13、的外文医学检索平台,为科研和临床提供高效而准确的参考资料。供高效而准确的参考资料。本地PubMed简介本地PubMed简介为什么要本地化?为什么要本地化?2 2011011年,年,20122012年,年,20132013年年均出现过短暂的(有时长达一个月以上)无法均出现过短暂的(有时长达一个月以上)无法正常访问的现象,本地化不受影响。正常访问的现象,本地化不受影响。本地PubMed简介为什么要本地化?医院内部局域网因为安全的为什么要本地化?医院内部局域网因为安全的考虑,一般是不能访问外网的,本地考虑,一般是不能访问外网的,本地P PubMedubMed可以安装在医院内网,方便临床和科研的使用。
14、可以安装在医院内网,方便临床和科研的使用。在期刊的影响因子上,在期刊的影响因子上,参考了参考了SCISCI发布发布的期刊引证报告的期刊引证报告JCRJCR 在被引用的次数上,在被引用的次数上,参考了谷歌学术搜索参考了谷歌学术搜索 GS(Google Scholar)GS(Google Scholar)继承继承PubMedPubMed检检索语法索语法,检索界检索界面及检索结果面及检索结果与与PubMedPubMed一致一致PubMedG&G SCI 在检索结果上增加了在检索结果上增加了 数据分析,并参考了数据分析,并参考了 GoPubMedGoPubMed统计功能统计功能本地PubMed简介为什
15、么要本地化?因为可以提供更加强大的功能!为什么要本地化?因为可以提供更加强大的功能!本地PubMed简介为什么要本地化?因为可以为临床和科研提供帮助!为什么要本地化?因为可以为临床和科研提供帮助!发表于发表于Clin Pharmacol TherClin Pharmacol Ther临床药理学与治疗学临床药理学与治疗学(20102010年度影响因子年度影响因子6.3786.378)中对济南泉方的致谢:中对济南泉方的致谢:AcknowledgmentsAcknowledgmentsWe thank all the staff at Jinan We thank all the staff at
16、Jinan Quanfang Science&Quanfang Science&Technology Technology Co.,Ltd.,for their bibliographic Co.,Ltd.,for their bibliographic retrieval service.retrieval service.发表于国际期刊发表于国际期刊DiabetesDiabetes糖尿糖尿病病(20102010年度影响因子年度影响因子8.8898.889)中对济南泉方的致谢:中对济南泉方的致谢:AcknowledgementsAcknowledgementsWe thank all the
17、 staff at Jinan We thank all the staff at Jinan Quanfang Science&Technology Quanfang Science&Technology Co.,Ltd.,for their bibliographic Co.,Ltd.,for their bibliographic retrieval service.retrieval service.本地PubMed检索系统能够提供更加强大的检索功能,包括联想检索、按IF值过滤以及检索结果的图形化显示等,让检索更加高效,在线的全文申请也更加方便。本地PubMed特色专利所有,侵权必究。
18、本地PubMed特色 本地PubMed检索系统能够提供强大的数据分析功能,通过知识图谱可以了解各领域的发展趋势和热点,及时了解世界各国主流科学家的研究方向。专利所有,侵权必究。本地PubMed特色 本地PubMed检索系统提供的共词矩阵分析可以对反映文献主题内容的关键词的共现频次进行统计分析,揭示文献内在联系、研究热点和科学结构。专利所有,侵权必究。本地PubMed特色 当人们的需求已经不只是简单的文献检索和文献计量,而是希望能够对这些文献进行较高层次的处理和分析以得到关于某领域总体特征和对发展趋势的预测时,知识发现将文献变为知识,从海量文献中找到蕴藏的知识金块,将为知识创新和学科发展作出贡献
19、。本地本地PubMedPubMed功能简介功能简介检索举例:检索举例:糖尿病肾病方面的文献糖尿病肾病方面的文献 糖尿病肾病(糖尿病肾病(Diabetic nephropathyDiabetic nephropathy,DNDN)可谓是糖尿病患者的)可谓是糖尿病患者的终极杀手。据中国之声终极杀手。据中国之声全国新闻联播全国新闻联播报道,中国目前糖尿病患者人数报道,中国目前糖尿病患者人数高达高达1.141.14亿亿,它是继肿瘤、血管病变之后第三大严重威胁人类健康的慢性它是继肿瘤、血管病变之后第三大严重威胁人类健康的慢性非传染性疾病,具有高致死率、高致残率和高医疗花费的特征。非传染性疾病,具有高致死
20、率、高致残率和高医疗花费的特征。长期以来,在人们的印象中,长期以来,在人们的印象中,2 2型糖尿病发病的两个关键因素一直是型糖尿病发病的两个关键因素一直是胰岛素抵抗和胰岛素抵抗和(或或)胰岛素分泌不足,然而,严格控制血糖、血压水平以及胰岛素分泌不足,然而,严格控制血糖、血压水平以及阻断肾素阻断肾素-血管紧张素系统的传统治疗方法不能完全阻止血管紧张素系统的传统治疗方法不能完全阻止DNDN的发生,说明的发生,说明还有其它因素。还有其它因素。那么还有那些因素呢?在本地那么还有那些因素呢?在本地PubMedPubMed中检索中检索Diabetic Diabetic NephropathiesMeshN
21、ephropathiesMesh,在检索结果界面,点击右侧,在检索结果界面,点击右侧“知识图谱知识图谱”在检索结果界面,点知识图谱在检索结果界面,点知识图谱 知识演进图谱分X轴和Y轴,其中,X轴是年份,Y轴是发文数量,从图中可以看到各个研究方向(主题词)在各个年份的研究文献的数量。系统默认推荐20个主题词,我们可以点“更多主题词”来了解更多:在更多主题词中,根据研究领域的不同,分为多个大类,我们点击“Amino Acids,Peptides,and Proteins”氨基酸,肽类和蛋白质 从文献报道中可以看出,越来越多的研究表明炎症过程可能在DN的发病机制中占据重要地位,其涉及的致炎因子有望成
22、为DN及其他炎症性疾病新的治疗靶标之一。炎症以炎症细胞浸润,黏附分子、炎症趋化因子和致炎因子表达增强,C反应蛋白(C-reactive protein,CRP)水平升高为特征。我们通过知识演进图谱,可以了解一下C反应蛋白的研究历史:可以看到:可以看到:Hemoglobin A,GlycosylatedHemoglobin A,Glycosylated;(糖基化血红蛋白(糖基化血红蛋白A A)Glycosylation End Products,Glycosylation End Products,AdvancedAdvanced;(晚期糖基化终末产物)(晚期糖基化终末产物)Cholestero
23、l,HDLCholesterol,HDL;(高密度脂蛋白胆固醇)(高密度脂蛋白胆固醇)Serum AlbuminSerum Albumin;(血清白蛋白)(血清白蛋白)C-Reactive ProteinC-Reactive Protein(C C反应蛋白)反应蛋白)等,目前研究者众多,而这些词基等,目前研究者众多,而这些词基本上都与炎症相关。本上都与炎症相关。从图中可以看到,主题词:C反应蛋白最早一篇文献,发表于1996年,是国际著名医疗机构丹麦Steno糖尿病研究中心的Myrup,B等,发表于Thrombosis researchThrombosis research(血栓形成研究),该刊
24、影响因子为3.13,2000年时,又有两篇文章发表,其中一篇发表于J Am Soc J Am Soc NephrolNephrol美国肾病学会志,该刊影响因子为8.99,从此关于此方向的研究多了起来。如果我们想进一步去了解,有关C反应蛋白的高影响因子的论文或者高被引次数的论文,那么,在本地PubMed的检索结果界面,我们还可以看到,高IF论文和高TC论文的按钮。19961996年最早一篇关于年最早一篇关于C C反应蛋白反应蛋白的文献的文献C-Reactive ProteinC-Reactive Protein可以看到文献:可以看到文献:Elevated fibrinogen and the r
25、elation to acute phase response in diabetic nephropathy.Elevated fibrinogen and the relation to acute phase response in diabetic nephropathy.Thromb Res.1996 Feb 15;81(4):485-90 Thromb Res.1996 Feb 15;81(4):485-90 影响因子:影响因子:3.13 3.13 引用次数:引用次数:6262具体的被引用情况,当然,在此界面也可以进行学术检索。具体的被引用情况,当然,在此界面也可以进行学术检索。从
26、图中可以看出,从图中可以看出,20042004年的一篇发年的一篇发表于表于Kidney InternationalKidney International(国际(国际肾病学),该刊影响因子为肾病学),该刊影响因子为7.927.92:Potential cardiovascular risk factors Potential cardiovascular risk factors in in chronic kidney disease:AGEs,total chronic kidney disease:AGEs,total homocysteine and metabolites,and h
27、omocysteine and metabolites,and the the C-reactive proteinC-reactive protein.Kidney Int.Kidney Int.2004 Jul;66(1):338-47.2004 Jul;66(1):338-47.随后又有一些高影响因子的期刊报道随后又有一些高影响因子的期刊报道这方面的文献。这方面的文献。20042004年发表的年发表的一篇高影响因子文献一篇高影响因子文献C-Reactive ProteinC-Reactive Protein 高被引次数论文,这里的被引次数,其数据来源于谷歌学术搜索,2003年的一篇发表于
28、DiabetologiaDiabetologia(糖尿病学)的文献,目前,已被引用了199次,是该领域内的经典文章,想了解该领域,不可不看:Diabetic nephropathy is associated with low-grade inflammation in Type 1 diabetic patients.Diabetologia.2003 Oct;46(10):1402-7.20032003年发表的年发表的一篇高被引次数文献一篇高被引次数文献C-Reactive ProteinC-Reactive Protein 作为普通的一名临床大夫,如果您更关心的,目前就有哪些药物用于DN
29、的治疗,那么,可以使用到知识演进图谱中的“设置”功能:因为,我们要了解就有哪些药物可治疗该病症,因此,可以勾选“副主题词过滤”中的“therapeutic use”,然后再点击“更多主题词”勾选我们需要了解的相关药物:思考:如果想了解就有哪些治疗方法?该如何设置?从上图中可以看到,治疗DN的药物主要为Angiotensin-Converting Enzyme Inhibitors(血管紧张素转换酶抑制剂,ACEI);Antihypertensive Agents(抗高血压药);Insulin(胰岛素);Hypoglycemic Agents(降糖药);Angiotensin II Type 1
30、 Receptor Blockers(血管紧张素1型受体拮抗剂,ARB)等,具体的药物有Losartan(洛沙坦);Captopril(卡托普利);Enalapril(依那普利)等。从发文量来看,1965年就有了关于Insulin的报道,截止到目前的发文量为367篇,1987年出现了第一篇关于ACEI的报道,截止到目前的发文量为801篇,2002年出现了第一篇关于ARB的报道,截止到目前的发文量为199篇(上图加粗显示者),从时间上来看,Insulin持续的在研究和报道,而ACEI在2005年发文量大幅下降之时,正在ARB发文量大幅增长之时,而实际情况也正是,ARB为该系统的一类新药,与ACE
31、 I相比具有许多独到之处。作为一种新药,如果想进一步了解,这种新药ARB与DN之间的更多研究和应用,那么我们还可以使用“指纹共词”来进一步了解。指纹共词是两个主题词共同出现在一组文献中的篇数,并将演进路径显示出来的一种方法。在检索结果界面,我们即可以看到这个按钮。进入共词分析界面后,我们可以点击“更多主题词”来选择我们需要分析的具体的主题词。从图中可以看出,ARB与DN同时出现在一篇文献中的时间最早为2002年,2014年(截止到2014年8月份)共同出现在同一篇文章的数量为6篇,它们是:共词演进图,共词演进图,X X轴表示年份,轴表示年份,Y Y轴表示共献次数,点击可查看具体信息轴表示共献次
32、数,点击可查看具体信息 这这6 6篇文献中其中篇文献中其中5 5篇文献均来源于大名鼎鼎的篇文献均来源于大名鼎鼎的N Engl J MedN Engl J Med(新(新英格兰医学杂志),该刊与英格兰医学杂志),该刊与LancetLancet(柳叶刀)、(柳叶刀)、JAMAJAMA(美国医学(美国医学会杂志)均属于世界医学权威期刊,如此多篇幅的报道会杂志)均属于世界医学权威期刊,如此多篇幅的报道ARBARB与与DNDN,很有可,很有可能该方面将成为未来研究的热点。能该方面将成为未来研究的热点。获取全文的方法获取全文的方法全文链接全文链接免费全文网站免费全文网站http:/highwire.sta
33、nford.ehttp:/highwire.stanford.edu/du/提供免费全文的期刊提供免费全文的期刊http:/www.plos.org/http:/www.plos.org/图书馆电子或纸质资源图书馆电子或纸质资源作者作者E-MailE-Mail联系或作者主页联系或作者主页图书馆馆际互借或文献传递图书馆馆际互借或文献传递检索结果全文的获取检索结果全文的获取申请全文申请全文 当检索结果少于2000条时,系统自动图形化显示,其中X轴表示年份,Y轴表示影响因子,在一界面显示整个检索结果的画卷。您在本地PubMed检索系统上申请的全文,您所在单位图书馆的相关部门(比如,馆际互借处或文献服
34、务部或委托的其他部门或单位等),将可以看到您的申请,当查询本单位图书馆无您所需要的文献后,根据情况将向与之签署有馆际互借或文献传递服务相关协议的可提供馆际互借服务的第三方图书馆发出文献申请,获取到您所需要的全文后,再发送到您在本地PubMed检索系统的邮箱(即“我的文件夹”)中,此时,您申请的全文其全文状态将有“全文处理中”变为“打开全文”。说明:申请前,请务必先查询馆藏,若无再点击该篇文献下方的“全文链接”查看本单位是否有订购以及是否有可以免费获取的全文,若本单位图书馆无订购也无馆藏也无可以免费获取的全文,您再申请。“我的文件夹我的文件夹”中所申请的全文,中所申请的全文,获取到的全文可以在线
35、打开。获取到的全文可以在线打开。本地本地PubMedPubMed开通使用说明开通使用说明本地本地PubMedPubMed检索平台网址:检索平台网址:(推荐使用谷歌浏览器,本系统不支持(推荐使用谷歌浏览器,本系统不支持IE6.0IE6.0或以下版本浏览器)或以下版本浏览器)第一步:点击第一步:点击“注册新用户注册新用户”按钮;按钮;输入本单位的公共账号和密码:输入本单位的公共账号和密码:请咨询您所在单位图书馆请咨询您所在单位图书馆第二步;显示本单位名称后填写个人信息;第二步;显示本单位名称后填写个人信息;第三步:登陆个人邮箱进行验证并激活;第三步:登陆个人邮箱进行验证并激活;打开自己注册的邮箱点击链接认证后凭个人的邮箱和密码登打开自己注册的邮箱点击链接认证后凭个人的邮箱和密码登录即可。录即可。高校的读者,在校园网内使用无需注册,但可以注册漫游账高校的读者,在校园网内使用无需注册,但可以注册漫游账号在家使用。号在家使用。谢谢大家!Good Luck!欢迎批评指正!欢迎批评指正!