《一种新的医保支付案例组合分类方法.docx》由会员分享,可在线阅读,更多相关《一种新的医保支付案例组合分类方法.docx(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、一种新的医保支付案例组合分类方法抽象快速上升的医疗费用可以通过精心设计的医疗保险支付系统来控制,并有能力确 保医疗保险资金的稳定和开展。目前,我国正处于医保缴费制度改革的探索阶段。 其中一项重要任务是建立适当的疾病治疗费用报销模式,以满足患者对医疗服务 的需求。在本文中,我们提出了一种案例混合决策树方法,该方法考虑了同一案 例子组内的同质性以及不同案例子组之间的异质性。最正确情况组合是通过最大化 组间差异和最小化组内差异来确定的。为了处理少量数据下基于树的方法的不稳 定性,我们提出了一种多模型集成决策树方法。该方法首先通过基于堆叠的集成 学习方法提取并合并数据的固有规那么,然后通过将原始数据与
2、应用这些规那么获得 的其他样本聚合来生成新的样本集,最后使用增强数据集训练案例组合决策树。 该方法同时保证了分组规那么的可解释性和分组的稳定性。基于真实数据的实验结 果说明,我们的案例组合方法能够为不同患者群体提供合理的医保支付标准和相 应的医保赔偿支付。关键字: 诊断相关组;案例混合;医疗费用;决策树;集成学习1.引言近年来,医疗费用的迅速增加已成为一个棘手的问题,疾病的诊断和治疗往往面临内在的复杂性和不确定性。因此,医保 支付方式的改革和完善在医学界一直备受期待。一个好的医保缴费制度,不仅要控制医保资金的支出,抑制不合理的医疗行为, 还要公平补偿医疗费用,保证医疗服务的质量和积极性。参考文
3、献提出了一种新型病例混合分类方案,即诊断相关组系统 (DRGs),该方案综合考虑了疾病诊断、疾病严重程度、医疗服务使用强度等因素,建立了一套基于医疗资源消耗的临床病例 分类方法。由于对实际情况的广泛适用性,该方法对美国医疗服务体系的推广起到了积极作用,有效控制了医疗费用的增长2, 3o因此,许多国家跟随他们开发了自己的DRG分组系统4, 5o然而,国家之间医疗保健生态系统的差异导致DRG在任何 地方都无法同样有效。2020年,中国国家医疗卫生局提出了大数据诊断-干预包(DIP)分组方案。DIP从大量数据中提取与患 者医疗资源消耗水平密切相关的特征,并通过这些特征组合病例6。病例混合模型本质上是
4、一种疾病分组系统,旨在提高护理质量或本钱管理。一般来说,医疗费用的研究基于各种回归模型 来预测疾病本钱7。然而,在病例组合研究中,将患者分类为具有临床意义且易于理解的群体,这些群体消耗相似的医疗保健 资源更为重要。树方法通常用于构建案例组合模型,其灵感来自其直观和可解释表示的优点。许多作者提出了不同的基于树的 模型。Reference网基于决策树模型对结直肠癌患者住院医疗费用的诊断相关分组进行了研究。参考文献9提出了一种通过自 举构建回归树的方法,并将它们用于DGR系统中的模型检索。10的作者通过CHAID模型生成了诊断相关的组,并提供了更 准确的病例组合本钱估计。参考文献11研究了基于E-C
5、HAID算法的老年性白内障诊断相关分组。但是,基于树的模型也有一 些缺点,即过度拟合数据的不良倾向。此外,众所周知,树结构不稳定,特别是当训练样本的数量很少时,训练集中的小扰动 可能会导致生成的类发生较大变化12。树结构的多样性也来自用于识别树的不同贪婪搜索算法。在相关文献中,一般有两种方 法用于处理树模型的不稳定性:模型选择和模型组合。选择单个树模型的优点是,可以通过更快的计算生成简单且可解释的规 那么。类似的方法基于使用评估树之间相似性或距离的指标选择单个代表性决策树,参见13, 14。但是,这些方法主要用于分类 问题,这种单树的准确性和稳定性不如集成方法。与单个分类潜相比,集成学习通常通
6、过生成多个模型并组合它们以获得最终 的预测结果,从而实现更高的准确性和更好的泛化能力15。常见的集成学习方法包括打包、提升、堆叠和贝叶斯模型平均16, 17, 18, 190对于医学和生物信息学界的一些问题,从数据中提取有用的知识比从准确的模型中提取有用的知识更重要。因此,说明了分组的合理性。首先,我们对12个病例亚组患者的医疗费用进行了 Kruskal-Wallis检验,得到该试验的p值小于20-2.然后,我们用Holm的方法对案例子组进行了屡次比拟28。其中,多重比拟中最大的p值为:6.8(9x10-3,仍小于说明不同病例亚组之间的患者医疗费用存在显着的统计学差异。这些统计检验结果验证了所
7、提分组方法的合理性。7SJD0D0* INdusea Tumor Navsea TumorNausea TumorBenign TumorBenign TumorBenign Tumorwith MiW with Moderate with SevereComplicMiomComplications Complkjtkxnswith MM with Moderate with SevereComptkdtMnsCompNcationsComplk4bons图5,不同群体之间的医疗费用差异。最后,我们根据图4中的分组结果为卵巢癌病例组合设定了价格,并将其与0C疾病的当前支付标准进行了比拟。为了
8、确 保与分组标准的一致性,我们对案例组合的结果进行了小幅调整。这有助于分组标准简单易懂。目前,治疗0C的医疗保险平 均报销率为70%。因此,我们取每个病例亚组实际医疗费用的70%,并将其四舍五入为500的倍数,以设置为OC病例组合的 相应支付标准。结果示于表3中。表3,卵巢癌病例混合的支付标准。从表3可以看出,基于MEDT方法的OC患者支付标准更加合理和具有解释性。通过按医疗资源需求的差异对患者进行 分组,不仅可以满足轻度患者的医疗需求,还可以提高重症患者的医疗补偿程度,使医疗保险资金的分配更加合理。同时,对 病例组合应用缴费标准后,OC患者的总医疗费用可比以往标准降低9.12%。我们的方法制
9、定的标准也有利于控制和降低医疗保 健本钱。42结果比拟我们应用CART, CAHID和我们提出的MEDT方法来构建案例混合树模型,并评估了我们的方法和比拟方法在CV和RIV 方面的性能。简历反映了每个病例子组中医疗资源消耗的差异,而RIV反映了病例混合后的差异减少程度。CV值较小的树具有 较小的分散度和更好的均匀性,以及组内较小的差异。同样,具有较大RIV的树可以在数据中发现更好的基础规那么,提供更合 理的分组,并减少更多变化29。根据国家医疗保障局现行的DGR和DIP组支付技术规范,应用案例组合后的CV值应小于0.8, RIV值应大于80%。RIV = CVxi=O乂=:)2x2OO(%),
10、(11)其中X i表示第,个事例子组的平均本钱,X代表所有患者的平均医疗费用,以及Mj表示第,个亚组中第/个患者的医疗费用。我们为所有三种方法设置了相同的最大树深度和叶节点的最小样本数,并修剪了 CART和MEDT的结果。然后,我们计算了由这三种方法生成的OC案例组合的平均CV和RIV值。表4的结果说明,MEDT的分组性能优于CART和CHAID方法, 平均CV值较低,RIV值较高。将表3与表4 一起考虑,可以看出各组中的CV值均小于0.8,说明分组后各子组的内部离散度 变小。RIV为93.90%,大于0.8,说明分组方法可以发现数据中更多的潜规那么,系统化程度更高。分组将变异程度降低了 93
11、.90%,这意味着分组能够显著降低组内的变异程度。表4.CART、CARD的CV和RIV值及所提方法.综上所述,仿真实验结果说明,所提方法在合理指标上优于两种比拟方法(CART、CHAID),同时更好地反映了不同案 例子组之间的异质性。同时,在真实数据上的实验结果说明,与其他两种方法相比,按我们方法分组产生更好的CV和RIV值, 这说明我们的方法在真实数据集中可以表现得更好。5.结论面对医疗费用的快速增长,医保支付改革成为当务之急。目前,我国的医保支付主要基于DRG、DIP等案例混合支付方 式。良好的病例组合支付方式应产生合理的群体,并为具有不同医疗资源需求的患者提供适当的补偿性支付。本文提出
12、了一种 病例混合决策树方法,该方法提供了对具有不同医疗资源需求的患者的合理分组以及树模型的主要可解释性。在实际情况下, 提供的数据通常缺乏,导致单树模型在结构上不稳定。为了解决这个问题,我们提出了一种多模型集成决策树方法。在模型组 合过程中,我们通过脊回归方法进行惩罚,以防止过拟合问题。最终,我们构建了一个案例组合决策树模型,并提供可解释的 分组规那么。对模拟和真实世界数据的子分组实验说明,我们提出的方法优于两种比拟方法(CART, CHAID) o这种方法的缺点是,由于集成了多个模型,它比单个决策树需要更多的训练时间,特别是在处理高维数据时。此外,我们 只对少数疾病的数据进行了实验。未来,我
13、们可以通过从不同的医疗中心收集更多病例来增强我们的数据集,以生成更可靠的 健康保险定价模型。学习模型的输出应该是准确、稳定、可理解、为人所接受的。但是,大多数现有的集成方法都侧重于提高预测模型的准确性, 而忽略了可解释性。此外,特征选择是构建合理案例组合过程中的重要步骤。特别是当数据维度相对较高时,可以从给定的数 据集中选择最优的输入特征集,从而使机器学习模型能够更有效地理解和区分数据集中的模式。同时,减小数据维度有利于缩 短后续计算的时间。在最近的研究中,应用了几种基于混合元启发式的方法来解决特征选择问题,并取得了良好的效果。例如, 参考文献20提出了一种基于遗传算法的分层特征选择(HFS)
14、模型,以优化从图像中提取的局部和全局特征。参考文献21提 出了一种基于二元混合元启发式算法,并将其应用于COVID-19分类的特征选择。大多数传统的病例混合方法从医学角度考虑患者之间的变异性。与这些方法相比,本研究侧重于开发数据驱动的方法,其 动机是探索不同患者之间医疗本钱的差异,并给出直观的病例组合规那么。本文的主要工作和贡献如下:首先,我们提出了一种 新的案例组合决策树模型。我们定义了一个新的目标函数来评估不同病例亚组之间医疗资源消耗的差异。最小化这一目标函数 可以同时最大化异构组之间的医疗资源消耗差异,并最小化同质组之间的差异。其次,考虑到树法由于数据量较小而变得不稳 定,我们借用堆叠的
15、思想,通过多个不同类型的学习者提取数据的内部规那么,并基于最小二乘法组合模型。同时,为了防止过拟合问题,我们使用22规范作为惩罚条款。使用原始数据和生成的规那么构造新的例如集,并从中构建案例组合树模型。该方法通过积分利用了更多的模型信息,提高了分组结果的准确性和可靠性。最后,验证了该方法在真实数据上的有效性,并制定 了适当的案例组合支付标准。本文的其余局部组织如下。在第2节中,我们详细介绍了所提出的案例混合决策树模型和多模型集成决策树方法。在第3 节中,通过仿真实验,评估了所提方法与CART和CHAID在各种场景下的分组性能。在第4节中,根据吉林省社会医疗保险 总局提供的病例数据,构建卵巢癌病
16、例组合模型,制定缴费标准,为卵巢癌患者医疗费用报销提供参考。最后,我们总结了第5 节中的论文。第2章调查手法提出一种多模型集成决策树模型,以解决案例混合和团支付问题,在保证合理分组的同时生成可解释模型。在第一小节中, 我们介绍了案例混合决策树模型(CDT)。第二局部介绍多模型集成决策树方法(MEDT)。案例组合决策树传统的决策树通常用于解决分类和回归问题。它们通过优化特定目标函数来递归地划分数据空间,并生成多个不相交的分 区22。每个分区对应的子节点具有不同的分区特征。因此,我们可以将每个分区视为不同的群集。用于选择和划分特征的目标 函数通常根据不同的问题而变化。例如,在经典的C4.5算法中使
17、用信息增益比,在CART中使用基尼指数或平方误差。在病例 组合问题中,我们打算将不同的病例合并为组,根据不同病例所消耗的医疗资源制定不同病例的医疗支付标准,并为其推荐合 理的医保补偿金23。案例混合方法主要取决于分组特征的选择,这导致不同的分组输出。例如,在脑梗死患者的情况组合中, 将使用不同的分组特征形成不同的集群,如图1所示。在图1中,蓝线和绿线表示两个不同患者组的本钱分布密度,紫色和橙 色线表示两个不同疾病组的平均本钱,红线表示所有患者的平均本钱。从图1中可以看出,不同的分组特征在对患者的分化程 度上存在显著差异。中选择疾病类型作为分组特征时,两个疾病组之间的患者分化程度更明显,不同组之
18、间的差异较大。中选 择种族或婚姻状况作为划分特征时,两个群体之间的差异几乎无法区分。图1 ,根据不同的功能进行分组。蓝色和绿色曲线表示不同事例子组的分布密度,紫色和橙色线表示相应子组的平均本钱。红线 表示分组前的平均本钱。我们旨在找到一种合理的分组方法,满足以下两个属性:首先,组间的差异应足够大,以说明不同组在医疗资源的消耗方 面存在显着差异,从而确定不同患者的医疗需求;其次,各组之间的差异应尽可能小,说明同一组的患者有相似的医疗需求。从 这些角度来看,我们提出了一种通过决策树选择特征的新方法。设x和y分别表示解释变量和目标变量。作为数据集D=和Rm是划分为特征空间的m个子区域。此处,/和s分
19、别表示分割变量和分割点。如果我们选择第/个变量x(j)首先,使用s作为分割点, 可以定义两个子区域,如下所示:R 工(M)=x|xO)4sR2ds)=x|xO)s.(1)为了表示组内差异,我们采用以下组内方差:(2) 哪里勿代表第/位患者医疗资源的消费水平,可以反映在医疗费用中,9也和yR2代表次区域医疗费用的平均值R1和心 分别。组内方差越小,分割后两个疾病组间组内医疗资源消耗的差异越小,提供更强的同质性。为了测量不同疾病组之间医疗资源消耗的差异,组间的平均平方距离如下:Zxi R(js)(g Ri-g)2+xi R2ds)(g R2-g )2)哪里g一是对所有病例进行分组之前所有病例的医疗
20、费用的平均值。组间均方距离越大,分组后两个疾病组之间的差异越大,提 供组间更强的异质性。有必要衡量不同分组方法的效率,因此我们定义了分组目标函数:Q(jR工R2)2+Wxiw R2a,s)(gi-g R2)2Wx,Rl-y)24Zxiw R2(js)(g R2-g )2.(3)对于案例混合方法,最好使组之间的差异尽可能大,组之间的差异尽可能小。找到最正确分组方法可以变成优化问题此问题的解决方案类似于回归树。贪婪算法可用于遍历所有分割变量/,对于固定分割变量J;遍历所有分割点S,从而找到最优分割。分割变量和分割点形成一对(Jj).输入空间依次分为两个区域,并在每个区域上重复上述除法过程,直到满
21、足停止条件。CDT算法如下所示:步骤1:通过求解找到最优分割变量/和分割点Shi用Id I I I Q0 J)=Rfs)(gi-g -RDZ+WxiwR2.)2.x/ e)2+Zxiw 尺为,6)一区2-,)2川 I I I.(4)遍历每个分割变量/和相应的分割点s,并选择该对(Jj)最小化等式(5)中的目标。第2步:使用所选货币对划分面积并确定相应的输出。尺,01)二乂,幺9一段侬二1N&R2O,s)=x|xO)sNxie侬=步骤3:继续对两个子区域重复步骤1和2,直到满足停止条件。步骤4:将输入空间划分为M个子区域R1/&广iRm,对于样本x,该值由下式给出f(x)=2M=2Mg RmQW
22、Rm)哪里尺侬)是指标函数,所有货币对0J)对应于Rm.“完全生长”的树通常会过度拟合数据,因此有必要在树的生长过程中设置一定的早停条件。此外,使用类似于向后选择的过程通过切断不需要的叶节点来修剪树24。具有叶节点的树7Nk定义为D(T)=八 odesNKD(NK).(8)然后,我们使用以下公式计算树丁的本钱复杂度25:(9)哪里ao是本钱复杂度参数,并且T是树中叶节点的数量。对于固定a,那么存在一个最小化的子树Da(T),表示为请注意,最正确子树Ta对于大型,往往很简单a和复杂为小伙.参考文献25说明,树序列最小化DaCO是嵌套的,并且可以 递归修剪树,其中交叉验证通常用于选择适当的子树。2
23、2 MEUT算法由于数据收集负担和个人隐私问题,案例数据量往往相对较小,使得单树模型容易出现结构不稳定的问题。针对这一问题, 提出并评价了一种模型组合方法,该方法将多个模型的主要精度和稳定性与单个模型的可解释性相结合。此方法利用堆叠方法 来组合多个基础学习器通过元学习器生成的元数据。我们可以认为,在模型组合过程中,多个学习者共同从数据中学习,提取 规那么,然后以某种方式组合规那么以产生新的模型。该模型基于对多个学习者生成的数据的理解-一般情况下多个模型的映射, 从而导致其规那么的差异化变得复杂。许多因素,如患者的生理特征,疾病程度和接受的治疗,都与患者消耗的医疗资源密切相 关。在病例组合问题中
24、,我们打算找到对患者医疗本钱有重大影响的特征,并根据这些特征将人群划分为不同的子组。通过这 种方式,可以获得不同子组下的医疗费用参考。一个好的分组方法可以显示不同特征对结果的影响程度,同时以直观和可理解 的方式展示所获得的规那么,例如分层结构或树形图。通过荟萃学习器组合获得的模型可以被认为是对患者生理特征,疾病程度, 接受治疗和消耗的医疗资源的解释。虽然这种解释可能不够清楚,但它不会影响根据特征的重要性生成的患者分组。在学习模 型“真实的前提下,我们可以通过上述方法提取出多种规那么,并将它们组合起来,对数据生成机制给出“解释”。为了防止过度拟 合问题,我们使用K-fold交叉验证,并根据这个新
25、生成的“规那么”构建一组新的合成样本,该“规那么”与原始训练集聚合以形成新的 测试集。这个新的测试集不仅包含原始数据中的信息,还包含各种学习者提取的“规那么”信息,从而使所包含的信息更加全面。通 常,学习者的准确性和稳定性往往会随着训练集的大小而提高。因此,基于新测试集可以获得比基于原始数据更准确、更稳定 的案例组合定价结果。刚才描述的过程称为多模型集成决策树(MEDT),如算法1所示。算法1MEDT算法。输入:。是训练集,L是学习算法;k是生成模型的学习算法的类数;C是组合模型,丁是分类器。为i二工到k让Li成为第/个学习算法;生成Mi作为应用学习算法的模型集Li到 D生成Si作为模型生成的
26、元数据集Mi.获得通过将C应用于SZ/iSk.让Xf是由。随机生成的协变量,以及。是生成的新数据集应用Cm工Mk自X-.合并数据:D八ew-DUD。使用数据集训练模型D八ew以获得分类器To输出:分组结果。在实际的案例混合过程中,我们通常从各种强学习器中选择基础学习器,例如随机森林,梯度提升决策树(GBDT),极 端梯度提升(XGBoost),套索回归,支持向量回归(SVR)等模型。该设置的优点是,所提出的集成模型考虑了线性和非线 性结构的预测能力,并且所选模型具有很强的区分变量重要性的能力,可以识别影响医疗资源消耗程度的最重要变量。在保证 模型泛化能力的同时,我们打算尽可能多地保存原始数据的
27、信息。我们采用五倍交叉验证方法,因此我们将原始数据随机分为 五局部,其中四局部用作训练集,其余局部用作验证集。基础学习器使用训练数据进行训练,基础学习器生成的预测用作元数 据。元数据可以被视为元模型的输入特征。接下来,我们将使用元数据来训练元模型(组合模型0)o图2显示了上述学习过 程。Model St MiNew FeatureLearnPredictLearnPredictPredict一PredictPreorPredict Learn Learn H Predict Learn . Learn Learn . Learn Learn LearnCombinedmodel CasMUCE
28、PredictLearnLearnPredictLearn learn Learnlearn learn LearnLearnLearnLearnLearnPredict,小Model Set 如图2.多模型组合过程。模型组合在系综构造过程中具有重要意义。适当的组合可以提高模型的数据分析能力。最常见的组合方法是多数投票及其 变体26,例如简单多数投票和加权多数投票。在本文中,我们研究了构建融合的类似堆叠的方法,以探索一种更好的方法来组 合训练有素的基础学习者。每个基础学习器对最终结果提供不同的贡献,可以表示为权重。在这种情况下,问题变成了如何预 定义权重。参考文献26提出了一种堆叠回归方法。该
29、方法通过线性组合不同的预测变量来提高预测精度,并通过最小二乘法确 定每个预测变量的权重。由于我们在强学习器中选择基础学习器,因此模型的预测结果之间存在很强的相关性。使用最小二乘 法为模型分配权重通常会导致过拟合。在这里,我们使用脊回归方法来确定模型的权重:rd(10)哪里人是惩罚工程,表示k个不同模型的预测,以及仅是第,个模型的权重。在组合模型时,我们通过添加必2规范。这可以解决过拟合问题,提高模型的泛化能力,更好地集成多个模型来分析数据。然后,我们通过应用通过集成模型获得的规那么来获取其他样本,然后通过聚合原始数据来生成新的样本集。,最后使用。构建案例混合决策树。图3显示了 MEDT算法 的
30、具体过程。图3.MEDT算法的整体过程。3.模拟研究在某些仿真场景中,我们根据几个标准比拟了多模型集成决策树方法的性能。我们通过具有四个分类协变量多项式(0.35 , 0.4 , 0.25) , X2f白努利(0.7) , X4f白努利(0.45),和 X5多项式(0.15, 0.2, 0.4, 0.25)和两个连续协变量(X3W(14,25),X6U(0,1).检查多个参数以评估各种模拟场景下的预测性能。首先,我们更改样本数量接下来,我们调用三种类型的数据生成方 案,其中X4-5和X6是与y无关的变量,并且错误.在第一种情况下,结果y是通过线性模型获得的。在第二种 情况下,结果y的生成方式包
31、括多项式项,对数项和交互作用项。第三种情况比第二种情况更复杂,涉及指数项。凯斯 1 : y = 1(9X14-X2+15X34-34-6;案例 2: g=2X2i+xtX2+5a+5X2+/og(X3)+&案例 3: g=Cxi+2(Xi+X2)2+2/ogx:5+5+公对于上述每个场景,我们增加了模拟生成的另外1000个样本。我们将每个数据集拆分为训练集和测试集,其中一个随机 分配了该数据集的一半,另一个作为其补充。由于我们的数据中没有提供类标签,因此我们根据集群内部信息评估了上述方法 的性能27。我们根据测试集计算了 Calinski-Harabaz指数(CHI),轮廓系数(SC)和Dav
32、ies-Bouldin指数(DBI)。我们进行了两次模拟实验。在第一个实验中,我们考虑了样本数量为n的设置,其中样本量n为1000、2000和4000, 其中训练集和测试集分别占数据集的50%o我们将CART和CHAID的性能与拟议的MEDT进行了比拟。CHI和SC的值越 大,DBI的值就越小,说明生成的聚类在同一聚类中是密集的,并且不同的聚类相距更远,即案例混合的结果更显著。从表1可以看出,当样本量相对较小(。=1000)时,我们提出的MEDT方法利用了更多的样本信息,因此其性能明显 优于其他两种方法,具有较大的CHI和SC值以及较小的DBI值。此外,当样本量较小时,CART和CHAID可能
33、存在不合适的 问题,从而导致最终分组结果不准确。此外,随着样本数量的增加,这三种方法的性能在所有指标方面都得到了改善。当样本 数量从n = 1000增加到。= 2000时,CART和CHAID的性能显着提高,但聚类效果仍然比我们的方法差。当样本量变大(n = 4000)时,上述三种方法之间的差异很小,但MEDT和CART表现相对较好。第一次仿真实验结果说明,MEDT方法在小样本 的情况下表现更好。这是因为MEDT方法通过集成更多模型来获得更多的样本信息。表1.CART, CHAID和所提出方法的比拟。最好的结果是粗体。向上或向下箭头表示指标越高或越低,对应的指标越好。接下来,我们验证了这种方法
34、有利于更好的聚类(特别是当样本量相对较小时)。在第二个实验中,我们有两个不同的设 置:在第一个设置中,我们复制了原始训练集的样本,并将它们聚合到一个新的测试集中,以训练我们提出的案例组合树模型, 在下文中表示为COM;在第二个设置中,我们直接在训练集数据上使用MEDT方法。与第一次模拟一样,我们将样本数量。设 置为600和1000并生成数据。训练集和测试集各占50%,表2显示了两种不同设置下的比拟性能。表2.两种不同设置下的比拟性能。最好的结果是粗体。向上或向下箭头表示指标越高或越低,对应的指标越好。表2的结果说明,当样本量较小时,MEDT方法可以利用更多的样本和模型信息来获得更好的聚类结果。
35、同时,我们可 以看到,应用MEDT导致MSE与直接复制样品的方法相比略有增加,但这种增加很难区分。对于病例混合问题,我们更感兴 趣的是同质患者的聚类,而不是个体预测的准确性。合理的病例分组将有助于健康保险部门区分患者并进行补偿性付款。在CHI, SC和DBI三个指标方面,MEDT方法比直接样品复制方法具有更好的性能。在某些临床场景中,我们经常需要对患者进行分组,以便使相似的人群同质化。然而,当可用数据量缺乏时,CART和 CHAID等方法表现不佳,简单地复制样本带来的改进也受到限制。在这种情况下,MEDT方法在分组问题方面比两种比拟方法 表现得更好,同时保持决策树方法的主要可解释性。在下一节中
36、,我们基于这种MEDT方法构建卵巢癌患者的病例组合。4.应用我们使用中国吉林省一些三级医院的卵巢癌(0C)患者数据进行了实验。该数据集由中国吉林省社会医疗保险总局提供, 包含2017-2019年0c患者的医疗消费记录、患者个人信息(包括年龄、性别、婚姻状况、民族、医疗保险类别等)、医疗诊 断信息(包括疾病名称、主要医疗操作、合并症、并发症等)和医疗费用(消费总量和各种医疗服务费用)。原始数据中的特 征不是形式化的向量,而是无序地显示为多个记录。因此,为了进行后续实验,我们首先对数据进行了预处理并量化了分类变 量。卵巢癌的病例组合价格预处理后,我们有1463个OC案例。接下来,我们需要根据患者医
37、疗资源消耗的差异对病例组合进行定价。首先,我们 使用MEDT方法来构建案例组合模型。树的深度与模型的复杂程度成正比。因此,我们将树的最大深度设置为4并对其进行 修剪。图4显示,使用MEDT方法获得了 12个不同的案例子组,最终的分组结果非常清喷且可解释。MalignantOvarian TumorCancer Nxl463 100% 24,652.989Typ191 13.1%N-95 6.5%43r040.53461,2rt.21SN-371 25.4% 14.7S994429 1.97%CV-0.134图4.基于MEDT方法的卵巢癌病例组合。N-J7 2.53% 25,041.3 CVO.211N41 2% 52,050.0 CV-0.074“256.5% 47,590.3CV0404N27 1,% 9390.4CV0.547N201 13.73% 】7S8S CV=0.06S然后,我们验证了我们的分组是合理的。图5显示了基于MEDT方法的12个不同0C病例亚组的医疗费用差异。从图5可以看出,使用我们的方法获得的0C病例亚组相对分开,每个亚组具有不同的医疗资源需求。之后,我们从统计检验的角度