《白血病数据预处理经过中的关键问题-精品文档.docx》由会员分享,可在线阅读,更多相关《白血病数据预处理经过中的关键问题-精品文档.docx(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、白血病数据预处理经过中的关键问题摘要:为研究得出吸烟能否成人白血病发病危险因素的明确结论,在某大型三甲医院的电子病历系统中,收集成人白血病病人的病历资料,从海量数据中严格挑选符合科研要求的数据以解决样本小的问题,并对相关数据进行预处理以进行数据挖掘。着重介绍了在数据预处理经过中存在的病人隐私保护、病例重复、数据不规范等关键问题,并对其解决思路进行了讨论。关键词:白血病;吸烟;数据挖掘;数据预处理白血病是造血系统的恶性肿瘤,是国内十大高发恶性肿瘤之一,占肿瘤发病率的第六位,已成为临床研究和治疗的重点对象1。目前医学界普遍以为白血病的发病机制与感染、放射、化学和遗传等因素有关,但其确切病因至今尚未
2、明确2。吸烟被广泛以为是多种疾病的危险因素,卷烟烟气中含有多种致癌性物质,主动吸烟和被动吸烟均对健康有害。早在20世纪中后期,在美国退伍军人进行的一项前瞻性死亡率研究表明,吸烟者中白血病的死亡率有明显增加,并且与吸烟总数有剂量反响关系3。英国研究人员以为烟草中的苯、铅等有害物质可引起人体免疫系统的细胞受损和血细胞的基因变异,进而导致白血病,但在国内,近年来关于吸烟和白血病两者关系的研究结论仍存在较大的争议,兰州大学进行的一项关于白血病危险因素的研究,并未发现主动、被动吸烟与白血病的发生有明显的相关4。复旦大学的另一项关于成人急性髓细胞白血病发病危险因素的研究,也未发现危险性增加,可能研究的样本
3、小有关5。计算机技术日新月异,数据库管理系统在各个行业的应用也在不断地发展和深化,人们逐步被大量数据包围,却难以找到本人所需要的信息,于是近年来出现了数据挖掘技术。数据挖掘是指从大量数据中挖掘有趣形式以及知识的经过6。随着医院信息系统HospitalInformationSystem,HIS7-8、医学影像系统PictureArchivingandCommu-nicationSystems,PACS9、电子病历ElectronicMedi-calRecord,EMR10等信息系统在各级医疗机构的应用,产生了大量的医疗数据,包括病人的个体信息、症状、检查结果、疾病诊断、医嘱、病程及治疗方案等,为
4、医学数据挖掘提供了基础。把数据挖掘相关技术和方法应用到医学领域,挖掘出隐含在其中的、有价值的规则、信息或者知识,运用于医生诊断、治疗疾病、促进健康等方面,具有极大的辅助作用,怎样更好地进行医学数据挖掘是研究的热门。讨论了使用Weka挖掘白血病与基因的关系,也有文献12根据血常规检验的结果并结合临床信息进行数据挖掘,预测各型白血病发生率,提高血常规数据对白血病初筛作用的价值。综上所述,国内已有讨论吸烟与白血病的关系研究的文献报道4-5,也有讨论数据挖掘在白血病研究的文献报道11-12,但尚未见有基于数据挖掘研究吸烟与成人白血病的关系研究的中文文献报道,且国内对于吸烟能否成人白血病的危险因素仍然存
5、在分歧,值得进一步进行研究和讨论。2数据挖掘经过为研究得出吸烟能否成人白血病发病危险因素的明确结论,课题组从某大型三级甲等医院于2012年上线的电子病历系统中,收集了成人白血病病人的资料,对相关数据进行整理,从海量数据中严格挑选符合科研要求的数据以解决样本小的问题,并使用数据挖掘方法挖掘出吸烟与成人白血病发病之间的关系,为吸烟人群预防白血病提供明确的参考,用于健康宣教及白血病预防等,降低白血病的发病率,减轻社会的负担。3存在的关键问题在进行数据挖掘前,需要进行大量的准备工作,一个重要步骤就是对收集到的数据进行预处理,数据预处理通常要大量的时间。在整个数据准备经过中,存在下面关键问题:3.1病人
6、隐私保护隐私权是公民的一项不可剥夺的权利,尊重和保护病人的隐私是医护人员应尽的职责和义务,同时也是构建和谐医患关系的必要条件13。在进行科研活动的经过中,怎样严格做好病人的隐私保密工作是摆在我们面前的一个重要问题。3.2病例重复课题组在电子病历系统中提取白血病病人信息时,是通过诊断和时间范围来查询数据的,由于白血病病人需要定期进行化疗,一年内要屡次重复住院,重复住院病人的屡次住院记录都会提取出来,就造成了病例重复的问题。3.3数据不规范课题组已经从医院的电子病历系统中收集了部分成人白血病病人的数据,但由于医生的习惯、病人较多而问诊时间短等原因,导致医生对同一个病的名称或同一字段的录入格式不统一
7、,对同一情况的描绘存在差异等情况出现。例如,对于诊断同为“急性髓细胞白血病的病历,由于有的病人有多个诊断,需要录入序号,并且由于临床治疗需要进行分型,导致有些录入的是“1、急性髓细胞白血病M4a,有的则是“1.急性髓细胞白血病M5b型,但计算机则以为这是不同的疾病,由于计算机识别的是二进制的字符,显然这些名称的二进制格式是有区别的,这样就无法进行数据挖掘工作。4解决思路讨论针对上述问题,课题组经过研究讨论,得出了下面解决思路:4.1病人隐私保护获取病人信息需严格根据有关规定,遵循严格的信息提取流程,科研数据提取必须经科研人员申请、主管部门审核同意并受权后提取,只提取科研需要的信息,对于姓名、身
8、份证号码、住址、联络方式等敏感信息,如不影响科研结果则不进行收取,假如在需要对病人进行随访等情况必需要提取相关信息,必须严格做好保密工作,不得随意公开。4.2病例重复提取了病人信息后,导入数据库中后通过构造化查询语句StructuredQueryLanguage,简称SQL进行二次挑选,以病人住院号病人唯一标识及其初次住院时间为条件获取病人初次住院的信息,以去掉重复的病例,具体语句如下:selectdistinct*fromdbo.Cases_All,(select登记号,min(就诊日期)as就诊日期fromdbo.Cases_Allwhere年龄=18groupby登记号)bwheredb
9、o.Cases_All.登记号=b.登记号anddbo.Cases_All.就诊日期=b.就诊日期orderbydbo.Cases_All.登记号4.3数据不规范必须通过数据预处理的方式,在数据仓库中通过SQL语句将这些诊断统一修改成同一个名称并去掉多余的序号等信息。下一步课题组将对数据处理后的结果进行数据挖掘,得出结论后进行临床验证,明确吸烟与成人白血病发病之间的关系。上述的解决方法只是为了到达科研目的而采取的措施,对以后的数据挖掘研究项目起到一定的参考作用,详细问题还需结合科研项目的实际情况进行分析,期望能起到抛砖引玉的作用,引来更多同行介绍更好的解决方案。另外,假如要从根本上解决这些问题,需要多部门的共同努力,例如对于数据不规范问题,需要卫生主管部门牵头制定统一标准和录入规范,各级医疗机构高度重视,严格执行,以确保数据的统一性。