《健康管理系统的数据挖掘过程.docx》由会员分享,可在线阅读,更多相关《健康管理系统的数据挖掘过程.docx(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、青岛理工大学课程设计川报告院(系):理学院专业:信息与计算科学班级:一计科082 学号: 202201057学生姓名:吕齐鸣指导教师:姚惠萍完成日期: 2022年12月22日目录第一章:数据挖掘基础知识第二章:系统分析32.1系统背景32. 2健康管理中数据挖掘技术的应用32.3基于决策树的数据挖掘4第三章:数据采集5第四章:数据预处理5第五章:数据挖掘6第六章:数据挖掘结论的体现7第七章:个人体味7第一章:数据挖掘基础知识近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数 据,可以广泛使用,并且迫切需要将这些数据转换成实用的信息和知识。获取的信息 和知识可以广泛用于各种应用,
2、包括商务管理,生产控制,市场分析,工程设计和科 学探索等。特殊地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高 性能(并行)计算的技术在处理海量数据集方面往往是重要的。分布式技术也能匡助 处理海量数据,并且当数据不能集中到一起处理时更是至关重要。数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现(KDD),也有人 把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下三个阶段 组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。数据挖掘可以与用户或 者知识库交互。并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管 理系 统查找个别的记录,或者通过因特
3、网的搜索引擎查找特定的Web页面,则是信 息检索领 域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构, 但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而 有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能 力。可以分为 两类:直接数据挖掘;间接数据挖掘1.直接数据挖掘目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属 性,即列)进行描述。2.间接数据挖掘目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。分类、估值、预言属于直接数据 挖掘;相关性分组和关联规
4、则、会萃、描述和可视化、复杂数据类型挖掘属于间接数 据挖掘。第二章:系统分析2.1系统背景随着社会进步和科学发展,人口老龄化及生活水平的提高,人们越来越关注自身 的健康状况。健康管理的概念最早起源于美国。1929年美国洛杉矶水利局成立了世 界上第一个健康管理组织(Health Management Organization, I IMO),该组织通过注 重预防的全面健康管理的方式,有效降低会员疾病发病率,提高人们的健康水平。健 康管理系统中积累大量的数据资料,如何从海量的数据中提取隐含在其中的事先 未知的、潜在的、深层次、有价值的信息,辅助专家或者群众个体进行诊断决策,是 健 康管理系统必须考
5、虑的问题,而这正是数据挖掘的长处。本文主要针对中老年慢 性病的管理的需求,以糖尿病为例,采集居民的健康档案信息指标,利用决策树方 法生成 对当前数据有效的模型,并对模型进行分析,筛选高危人群,提高糖尿病的 早期发现 率,使人们不断提高对健康的认识程度,疾病要以预防为主,减少身体及 经济上的负担。2.2 健康管理中数据挖掘技术的应用健康管理系统是对个人或者人群的健康危(wei)险因素进行全面检测、分析、 评估以及预测和预防的全过程的系统。它普通由以下几部份组成:基本信息管理(含基本项管理)、 体检项目管理(含健康评估、健康报告、健康指导)、个人(企业)健康档案数据采 集、信息查询、综合数据分析和
6、系统管理。健康管理系统的总体结构如图所示:在这个系统中,输入用户(病人)的各项生理参数,诸如身高,体重,心电,血压, 血氧,体温等,这些参数将与用户的个人信息,社区信息一起被存档,作为个人的病 史记录。针对以上的记录,数据挖掘可以应用在以下两个方面:一是用户根据个人的 生理参数,寻求合适的保健方法或者治疗方法。此外一方面是相关科技工作者,社区 医 疗组织,计生人员主动到系统上去搜寻必要的信息,然后根据用户的病症,治疗 过程 以及治疗结果挖掘出更有效的治疗方法等。比如社区医务人员可以通过系统查 看本辖区的慢性病表征情况,筛选出慢性病的高危人群,挖掘出引起慢性病的主要 因素,提 醒居民对健康情况引
7、起注意。2.3 基于决策树的数据挖掘2.4 3.1决策树ID3算法ID3算法1是由Quinlan提出的一种基于信息增益的典型的自上而下决策树归纳算 法,主要特征是在一个结点上使用最大的信息增益量,作为启示式来决定应用选择哪 一个属性来进行树的展开。ID3算法的基本原理如下:已知训练例子集E,设训练例 子集E中含有p个正例和n个反例,则一个例子属于正例集PE的概率为P/P+n,属性 于反例集NE的概率为n/P+n, 一棵决策树可以看做正、反例集的消息源,所需要的“、 P1 P n1 n= _loglog信息烯为:P + P + P + P + 设属性A取V个不同的值A1,A2,.Av),它们将E
8、划分为V个子集尸必郎,尸,假设E中含有Pi个正例和n 个反例,那末子集i E所需要的期望信息是I(Pi,ni),并且以A为根的树所需要的期望 (4) =:且上/5%)信息为各子集所需要的期望信息的加权平均值,即 大尸 + N,以a 为根的信息增益是:Gain(A) = I ( p, n)-E(A)ID3算法选择Gain(A)最大的属性A作为根 结点,对A,的不同取值对应的E的V个子集i E递归调用上述过程生成的A,子结点B1 , B23.BVo健康管理系统的档案数据记录庞大,对应的属性值较多,ID3算法是基于 所有属性值都确定的情况下分类的,而实际应用中时常浮现有些记录的属性值缺失或 者空白的
9、情况,ID3算法就直接抛却数据库中所有丢失数据的样本,在建模数据挖 掘时就不能对健康档案数据进行正确的分类或者预测。同时ID3算法对健康管理进 行数据挖掘时确定树根节点时选择居民的年龄(有7种值)作为首选判断的属性根 节点,但实 际中医学专家却认为这个属性在判断糖尿病诱因时不是最重要的,ID3 算法往往选择取值较多的属性作为测试属性。健康管理系统进行数据挖掘时ID3算 法每选择一个分 裂节点,算法都要经过多次的对数运算,影响了决策树的生成效率。2. 3. 2决策树ID3的算法改进针对以上ID3算法在健康管理系统应用中存在的问题,提出以下几方面的改进方 案:1)对属性值缺失或者空白情况的处理,通
10、过对训练集中其他完整的实例,进行 比较来选择一个较优的填充值,在构造决策树之前,对训练集中缺失或者空白的属 性进行 填充。2)对算法要经过多次对数运算,影响决策树生成效率的处理,对信息 增益公式的对数运算进行转换,找到一种属性选择的新方法,使算法生成决策树的 时间大大减少,提高决策树分类的效率,提出了简化端的计算方法。3) ID3算法 根据每一个属 性信息端的值来判断数据集中的分裂属性,信息崎反映每一个属性对 整个数据集的不确定程度,ID3往往选择取值较多的属性,为克服这一缺点,我们 为每一个属性的信息熠引入一个权值,来平衡每一个属性的不确定程度,更符合实 际的数据分布。但要保证决 策树生成效
11、率,这里选择对每一个属性的简化端引入一 个权值,权值为每一个属性在数据集中的取值个数,再用该权值乘以简化蜡,使信 息燧的结果还依赖于属性的取值个数,乘积结果称为加权简化牖,再通过比较加权简 化燧的大小来选择最优的属性作为决 策树的分裂节点构造决策树,这样既克服了倾 向属性选择较多值的问题,又可以提高决策树的构建速度。第三章:数据采集本系统采集了某地区多个社区2005年1月1日到2022年12月31两年居民健康 档案数据,包括居民基本信息、病史、家族史、生活方式(每日膳食、运动锻炼、吸 烟、饮酒等)、体检信息等,共5531人。为了确保实验结果,保留2005年1月1日 到2022年12月31两年的
12、档案数据为筛选因素属性数据,从2022年1月1日到2022 年12月31日期间,更新的居民健康档数据中糖尿病诊断或者检查结果作为结局数据, 两年内糖尿病患者总共有53人,根据个人ID号,将筛选因素数据表和结局数据表连 接成一张大表,将所有记录随机分为训练集和测试集两组。第四章:数据预处理数据预处理,需要对连续的属性进行离散化处理,并要去掉一些对挖掘来说没有 意义的属性,在进行挖掘时,应该根据不同的数据有选择的选取挖掘属性,比如说去 掉一些居民的基本家庭信息、联系方式等等。本系统根据数据库中数据选用了其中12 个属性、属性的取值(即离散值)和人数进行数据挖掘,如表4.1所示:属性取值(离散)人数
13、年龄大于403253小于等于402278体育锻炼缺失3缺少5001偶尔57经常470性别男2714女2817舒张压ngr181低2正常范围5374缺失1心率心率过快68心率正常5463高血压史有645无4886体重正常3620超标20%1911食脂肪多的食物(天)126841-219043-43885-779不详476食甜食(天)125801-21809345385-7131不详473感到压力辂松1851尚可2790有压力410精神紧张有102无5429表4. 1随机抽取原始数据中的3500条记录作为训练数据集,剩余数据作为测试数据集。应 用改进算法克服属性选择多值化的办法构建决策树,计算化简
14、信息燧值及加权简化燧 值,选取加权简化崎值最小的属性作为决策树的根结点,递归调用这种方法建立各棵 子树。第五章:数据挖掘为验证改进算法的有效性,对测试数据进行分析,见表2所示:表2两种算法结果对比预 测 方 法检测率(0)误检率 (%)准确 率(4)符合规 则的平 均覆盖 率R)信息 增益 率计算 时间 ms原 算 法63. 3512. 35283.3548. 4342.54. 58改 进 算. 法70. 658. 54387. 3757. 4863. 73. 65由以上分析结果可以看出,改进的算法优于原算法,充分说明改进算法,能够以更快 的速度及准确率构造决策树,基本达到实验要求,更适合健康
15、管理系统的挖掘工作。 根据决策树对居民健康档案数据进行挖掘得出结论:具有高血压病史的人、脂肪饮食 不详的人或者体重超标20%、体育锻炼缺失的人、年龄大于40岁的人可能患有糖尿病 的高风险。第六章:挖掘结论的呈现本文通过对决策树ID3算法进行研究,针对ID3算法在健康管理系统中,应用存 在的一些问题提出了改进算法,克服属性选择多值性、处理属性值空白或者缺失的情 况 及提高决策树构建速度等方法。本文使用决策树对居民健康档案数据进行糖尿病 诱因的数据挖掘,得出了可能得糖尿病的相关属性,结果和实际数据及患病背景知 识相一致,证明使用其进行数据挖掘得出的结论是有效的。在其他慢性病的预防及 治疗中也起到了
16、重要作用。第七章:个人体味1、挖掘工具主要分商业数据产品和集成数据挖掘产品两类:商业数据挖掘产品 具有代表性的 SPSS Clementine , SAS Enterprise MinerJBM Intelligent Miner; SQL Server2005属于集成为了挖掘模型类的,挖掘算法与SQL数据库产品密不可分2、数据挖掘过程的重点绝对是数据预处理,普通认为预处理工作会占60%-80% 时间不等,这在整个BI领域都是成立的。商业智能-既然提到智能层面,那就不只是 展现,还要做分析和预测(无非现阶段不少BI项目确实只是在做展现,最多加点多 维分析)。BI概念提出之初就是辅助战略决策的产
17、物,固然向操作型BI发展的趋势这 里不做过多介绍,经验告诉我们战略决策是基于历史和别人现成经验的,怎样从历史 数据的展现和分析过程中得到实用知识,不管你是通过报表或者多维分析得到企业各 领域指标相关性,还是通过挖掘模型的实施来根据历史数据预测企业未来发展,这 一切 都是基于企业历史数据的。没有数据质量基础的保证,展现得多华丽的走势图 表都是垃圾。(1)如果是基于数据仓库或者数据集市的挖掘,那末可直接在仓库或者数据集 市中建立挖掘模型源输入(也可叫暂时宽表,这个表是根据挖掘业务需求对其他维度 表属性的一个综合提取,合适的时间窗口在这里是个要考虑的关键因素);如果是没 有仓库或者集市这一数据基础,
18、那末就需要一个针对挖掘业务需求字段属性的简单 ETL过程了。(2)上面只是挖掘源数据的建立,接下来才进入数据预处理的核心阶段,由于 源数据(暂时宽表)里面不少数据是有偏差的,比如空值,错误值,异常值等.这 就需要根据每一个业务字段属性的规范标准来进行处理,这步是一个繁杂的工程,数 据 预处理技术各式各样,比较有代表性的有数据清理、数据集成、数据变换、数据归 约、离散化和概念分层等等;而且针对不同字段数据特征,不同的数据处理技术往 往会导 致挖掘的结果差异。虽然商业数据挖掘产品都提供了常用的数据预处理技术, 但要用 好,除了需要一些统计学,数据分布等知识外,对该字段对应的业务理解和 挖掘过程的数
19、据预处理方法差异的经验积累才是关键因素。就拿属性归约来将,不 少挖掘产品有因子分析工具,貌似可以自动对所有属性字段做一个挖掘相关重要性 因素从大大小的排序,但这也不能全信,毕竟工具是死的,它只能从数据本身的数 理特征去理解和自动分析,例如有些业务字段可能数据分布的特征不符合因子分析的重要性条件,但 对该数据挖掘模型贡献确是很大的。这样的情况虽说不多,却是值得注意的地方。3、经过上面两步,挖掘模型数据输入算是初步建立起来了。接下来需要对所应 用的挖掘模型有个初步理解,有朋友赞成挖掘模型是“黑匣子”的观点,有朋友赞成 需要对挖掘模型的专业理解。我保持中庸的观点:如果不是做算法研究的朋友,只是 做挖
20、掘模型应用,却需要对挖掘模型算法有专业理解是不现实的,毕竟公司讲的效益 和效率,不比是在实验室,有的是时间让你查资料,折腾进而对模型有个深入全面的 理解;但彻底黑匣子也是不妥的,一个对该挖掘模型彻底不理解的人,指望能利用该 模型挖掘出实用知识是不可能的。一是他不可能对挖掘结果有很好的理解;二是参数 的调整是最大障碍,挖掘过程本来就是迭代过程,对算法彻底不了解的参数设置乱设 一通就指望得出较优模型更是天方夜潭。个人认为对挖掘模型大致原理是有必要了解 的,再就是每一个参数的范围及所代表的意义和对模型所起作用也是需要了解的。4、数据规模也是个关键因素。5、不管是需求分析还是挖掘模型的评估及应用,和业务人员和决策者们的充分 沟通交流是彻底必要的。闭们造车的数据挖掘模型是脆弱的