《决策树分析在中医智能诊断中的应用现状及思考.pdf》由会员分享,可在线阅读,更多相关《决策树分析在中医智能诊断中的应用现状及思考.pdf(3页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、上海中医药大学学报第 26 卷第 4 期2012 年 7 月专题综述决策树分析在中医智能诊断中的应用现状及思考陈潇雨1马利庄1,21 上海中医药大学中医信息科学与技术中心(上海201203)2 上海交通大学电子信息与电气工程学院计算机科学与工程系(上海200240)【摘要】根据中医样本数据的特点,从中医智能诊断系统的构成、决策树分析算法特点等角度对决策树分析算法在中医智能诊断中的应用现状及存在问题进行了总结与思考。【关键词】中医智能诊断系统;决策树分析;综述【中图分类号】R2-03【文献标志码】A【文章编号】1008-861X(2012)04-0107-03 基金项目 国 家 科 技 重 大
2、专 项 课 题 资 助 项 目(2009ZX10004-601)作者简介 陈潇雨,男,在读博士生,主要从事中医信息处理研究。中医诊断学其精髓在于“辨证论治”,辨证论治是中医理论和临床体系的重要支撑,贯穿了对疾病诊断、治疗及疗效评价的全过程。辨证以望、闻、问、切四诊为要,依照“四诊合参”原则,综合各类信息加以分析、归纳,从而达到审查病因、辨明病态、阐述病机、确定治疗原则以及判断预后转归等目的。然而,由于传统中医诊断学理论及操作技能描述中存在着大量的不确定性和模糊性,缺乏客观评价指标,严重制约了中医的普及、推广和发展,影响了中医疗效的发挥和中医学诊疗技术的科学应用。因此,以数据挖掘、人工智能等计算
3、机技术为依托,对中医四诊所收集的症状信息进行挖掘分析,获得中医症状和证候之间的客观规律,构建中医智能诊断平台,实现中医诊断的智能化与客观化,这已经成为中医诊断现代化发展的必然趋势。本文旨在对中医智能诊断平台的基本构成及决策树分析技术在其中的应用现状和存在问题进行总结,并加以阐述、分析。1中医智能诊断平台的基本构成中医智能诊断的研究肇始于 20 世纪 70 年代,并于 1977 年研制出国际上第一个基于专家经验的中医智能诊断专家系统,即“中医关幼波肝炎诊断治疗程序”1。至 1980-1990 年代,计算机技术及人工智能技术的发展为中医智能诊断的进一步发展奠定了基础,如基于模糊判别模式模拟临床经验
4、进行中医辨证2、采用神经网络模型构建的中医辨证系统3-5、基于案例推理的中医诊断系统6 等。就中医智能诊断的基本技术路线而言,其操作平台主要涉及三部分内容 数据预处理、特征属性筛选和数据挖掘分类算法。1 1数据预处理由于源自应用系统数据库或真实样本采集而得的数据通常会存在杂乱性、重复性等方面的问题,如原始数据可能来源于不同的应用数据库,而各应用系统对数据标准缺乏统一明确的定义,导致数据一致性较差;同一个样本在数据集合中多次出现,导致数据库中包含大量冗余信息;某些数据属性值缺失等,这些问题都极大降低了挖掘算法的执行效率和精确度。因此,采用行之有效的数据预处理技术清除虚假无用及缺失的数据是进行数据
5、挖掘前的必要步骤。1 2特征属性筛选特征属性筛选是指从一组特征中去除冗余或不相关的特征来降维,以便选出一些最有效的特征来有效降低空间维数的过程,其定义为从含有 N 个特征属性的集合中选出满足某种筛选条件的包含 M 个特征属性的子集。与西医临床调查研究数据相比,由于中医病例样本的采集数据来源相对较窄,且符合入选条件的病例相对较少,因此决定了中医数据分类是典型的小样本问题。且中医数据样本具有数据维数大,信息量多,不可避免地会包含大量冗余及非相关属性的信息,从而导致数据挖掘算法的效率和性能难以保证,以至于最后得到的分析结果可解释性相对较差,因此特征属性筛选是中医智能诊断过程中的重要步骤。1 3数据挖
6、掘分类算法作为一种新兴信息处理技术,数据挖掘就是通过对大量数据进行抽取、转换、分析及模型化处理,从中自动抽出隐藏的有用信息的过程,同时将这些信息以概念、规则或样本分类结果等方式表达出来,被广泛应用于人工智能、机器学习、模式识别、数理统计等领域。常用的数据挖掘701ACTA UNIVERSITATIS TRADITIONIS MEDICALIS SINENSIS PHARMACOLOGIAEQUE SHANGHAI Vol26 No4 Jul,2012分类算法较多,包括决策树分析、聚类法、朴素贝叶斯法(简单贝叶斯法)、贝叶斯网络、神经网络等。2决策树分析在中医智能诊断中的应用现状及存在问题2 1
7、应用现状中医智能诊断本质上是中医病例样本分类问题,而决策树分析作为重要的数据挖掘技术,其解决的核心问题就是数据分类问题,即根据数据的属性将数据分配到不同的组中。决策树分析采用自顶向下的分治策略,通过逐层选择决策属性的方式,实现对数据样本的分类,具有速度快、分类精度较高、分类模式相对简单等优点,适合处理离散型数据;其分类规则易于提取与表达,非常适合于表述辨证规则,提供辨证依据。决策树分析的算法较多,如经典的 ID3 算法7、改进后的 ES-ID3 算法8、C45 算法9 等。尽管各种算法在细节上有所差别,但就其总体思想而言,差别并不大,都是以自顶向下的递归迭代方式从无规则、无次序的元组中推理出树
8、形结构的分类规则,最后以 IF-THEN 的规则形式表示出来。由于中医数据属性多为离散型,并且数据维数大,信息量多,因此,作为病理模型构建及辨证规则提取的主要技术途径,决策树分析算法在中医智能诊断的研究领域得到了广泛应用。如徐蕾等10 采用基于信息熵的决策树 C4 5 算法筛选出对慢性胃炎中医辨证分型有意义的 26 个因素,并对其重要性进行排序,建立辨证模型,得到了训练集 83 60%、测试集 81 25%的模型分类符合率,且各分类证型的灵敏度和特异度较高,可应用于慢性胃炎的中医证型诊断。廖晓威等8 采用改进的 ES-ID3 决策树算法,对 600 例肝病患者进行中医辨证分型诊断,得到了 73
9、 3%的分类精确度。王彦等11 采用改进的决策树算法从 201 例肝硬化病例中自动提取相应的肝硬化状态识别规则,得到决策树分类模型,并归纳出代偿性肝硬化和失代偿性肝硬化的诊断规则,识别正确率为 84 6%。沈兰荪等12 采用决策树方法对舌色、苔色进行分类与识别,提出了舌图像的彩色校正、舌体区域分割、舌质与舌苔特征分析以及舌象裂纹分析等一系列实用算法,通过对 300 例舌图像进行舌色、苔色、苔厚的特征分析,分别获得了 8267%、94%、98%的符合率,证明了这些算法的有效性。李晓宇等13 提出采用有向无环图(DAG)和决策树结合的方法进行中医舌色、苔色的识别,提高了舌色与苔色的正确识别率。李锋
10、刚等14 应用决策树方法对新安医家的临床经验进行分析,筛选出新安医学对中风不同证型的主要诊断依据,为中风的中医临床辨证提供了重要的参考依据。翟海斌等15 利用决策树方法从 290 例血瘀证病例中自动地提取了相应的诊断规则,并对 194 例血瘀证病例进行测试,得到了 98 45%的检测正确率。刘晓谷等16 用决策树方法建立了慢性胃炎脾虚湿热证的特征性舌苔模型,结果其预测正确率为 91 67%。2 2存在问题决策树分析具有速度快、精度高、分类模式简单、分类规则易于提取与表达等优点,非常适合于表述辨证规则、提供辨证依据,因而被作为中医智能诊断的主要技术途径。但就其算法结构而言,仍存在诸多不足之处。2
11、 2 1执行效率有待提高目前的决策树算法不经过任何属性约简,直接基于训练数据集合进行学习和建模,大大增加了额外计算开销,同时对分类器的学习精度也可能造成一定影响。另外,在决策属性的选择策略上主要是基于信息熵原理,而计算信息熵的时间复杂度较高,并且决策树的构造是一个循环递归的过程,多次计算会导致复杂的计算代价。2 2 2数据离散化处理问题经典 ID3 算法只能处理离散型描述属性,因此需要对某些原数据集合中的连续数据类型表示的特征属性进行离散化数据变换。虽然此问题在其后续算法中得到了一定程度的改进,可以将连续型数据离散后进行处理,但由于连续数据的离散化处理本身就是 NP-hard 问题(即无法用精
12、确、有效的算法来求解的问题),因此,理论上并不存在普便适用于任何数据集的最佳离散化方法;而且过低的离散区间数会影响预测的准确性,离散区间数过大又会使数据的可理解性变差。由于目前中医诊断研究比较倾向于中西医结合,因此这种问题在中医离散型数据与西医生化指标等连续型数据相结合的数据集中尤为突出。2 2 3“过度拟合”与“空枝”问题这个问题在ID3 算法中尤其明显,即在决策树的生成过程中,若在一次划分之后,某个节点的样本已经明显趋向于某一类,而算法还对其进行继续划分就会使决策树分支过细,不仅增加了决策树的深度和节点个数,影响了决策树的分类效果,还导致运算量的大大增加。3小结与展望综上所述,笔者认为可以
13、尝试借鉴其他数据挖掘方法的特点,对现有决策树分析方法进行算法改进,或采用将决策树分析技术与其他数据挖掘方法801上海中医药大学学报第 26 卷第 4 期2012 年 7 月相结合的方法来加以优化。如钟颖等17 利用关联规则的 Apriori 算法与决策树 ID3 算法相结合,对胃炎“中虚气滞”的病例进行挖掘分析,避免了生成的决策树过于庞大、冗余的问题;李梢等18 采用 t 检验、Logistic 回归、决策树以及贝叶斯网络方法,应用SPSS 11 0 统计软件进行乙型肝炎肝胆湿热证与肝郁脾虚证的统计分析与模型构建,发现部分实验室指标与中医症状的恰当组合具有一定的辨证意义,取得了较为理想的结果。
14、此外,若将决策树分析算法与特征属性筛选模型相结合,筛除非相关属性和冗余属性,提高数据质量,也可以达到提高分类结果精度和分类性能的目的。虽然目前没有可以完全模拟、代替人脑思维方式的智能诊断方法,各种智能诊断方法的分析结果也必然与基于人脑思维的诊断结果有所差别,且中医智能诊断涉及信息科学、中医临床、中医诊断等学科,学科交叉跨度大,复杂度高,实现与人脑思维高度契合的目标尚无法一蹴而就;但以信息技术对中医海量、多维信息中的隐藏规律进行挖掘分析的研究方向无疑是正确的,必然对中医证候研究及推进中医现代化具有重要意义。参考文献:1余江维,马利庄,杨华元 中医智能化诊断的研究现状与展望J 辽宁中医杂志,201
15、0,37(1):50-53 2吕汉兴,孙德保,程良铨,等 中医专家系统辨证推理的决策模型 J 华中理工大学学报,1989,17(6):67-72 3陈五零,王存冉,郭荣江 神经元网络模型及其在中医诊断方面的应用 J 中华医学杂志,1991,71(2):111-113 4宋红,林家瑞 用于医学辅助诊断的神经网络方法的应用研究J 生物医学工程学杂志,1996,13(2):141-144 5樊晓平,彭展,杨胜跃,等 基于多层前馈型人工神经网络的抑郁症分类系统研究 J 计算机工程与应用,2004,40(13):205-208 6李锋刚,倪志伟,郜峦 案例推理技术在医学诊断专家系统中的设计思路探讨 J
16、中医药临床杂志,2005,17(2):100-102 7 Quinlan JR Induction of decision treesJ Machine Learning,1986,1(1):81-106 8廖晓威,马利庄,王彦 ES-ID3 算法及其在中医辨症中的应用 J 计算机工程与应用,2008,44(32):191-193 9Quinlan JRC45:Programs for machine learning M SanFrancisco:Morgan Kaufmann Publishers,1993 10徐蕾,贺佳,孟虹,等 基于信息熵的决策树在慢性胃炎中医辨证中的应用 J 第二军
17、医大学学报,2004,25(9):1009-1012 11王彦,马利庄,褚娜,等 基于决策树的代偿期和失代偿期肝硬化自动诊断的方法J 现代生物医学进展,2008,8(1):126-128,140 12沈兰荪,王爱民,卫保国,等 图像分析技术在舌诊客观化中的应用 J 电子学报,2001,29(12A):1762-1765 13李晓宇,张新峰,沈兰荪 基于支撑向量机的中医舌色苔色识别算法研究 J 北京生物医学工程,2006,25(1):43-46 14李锋刚,郜峦,许梁海 数据挖掘技术在新安医学研究中的应用 J 安徽中医学院学报,2005,24(6):12-14 15瞿海斌,毛利锋,王阶 基于决策
18、树的血瘀证诊断规则自动归纳方法 J 中国生物医学工程学报,2005,24(6):709-711,727 16 刘晓谷,蔡淦,何磊,等 慢性胃炎脾虚湿热证患者的舌苔蛋白质组学初探 J 上海中医药大学学报,2012,26(1):31-35 17钟颖,胡雪蕾,陆建峰 基于关联规则和决策树的中医胃炎诊断分析 J 中国中医药信息杂志,2008,15(8):97-99 18李梢,张宁波,李志红,等 慢性乙型肝炎患者肝胆湿热证和肝郁脾虚证的决策树诊断模型初探J 中国中西医结合杂志,2009,29(11):993-996编辑:李欣收稿日期:2011-12-15Status and Thinking for A
19、pplication of Decision Tree Analysisin Traditional Chinese Medical Intelligent DiagnosisCHEN Xiao-yu1MA Li-zhuang1,21 Center of Traditional Chinese Medicine Information Science and Technology,Shanghai University of Traditional Chinese Medicine2 Department of Computer Science and Engineering,School o
20、f Electronic Informationand Electrical Engineering,Shanghai Jiaotong UniversityABSTRACTAccording to the data characteristics of traditional Chinese medicine samples,this paper summarized theapplication status and unresolved problems of decision tree analysis algorithms in intelligent diagnosis system of traditionalChinese medicine from the following aspects:the consistence of traditional Chinese medical intelligent diagnosis system and thecharacteristics of decision tree analysis algorithmKEY WORDSIntelligent diagnosis system of traditional Chinese medicine;decision tree analysis;review901