宏基因组在复杂疾病中的应用习题说明.docx

上传人:太** 文档编号:86345731 上传时间:2023-04-14 格式:DOCX 页数:2 大小:10.35KB
返回 下载 相关 举报
宏基因组在复杂疾病中的应用习题说明.docx_第1页
第1页 / 共2页
宏基因组在复杂疾病中的应用习题说明.docx_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《宏基因组在复杂疾病中的应用习题说明.docx》由会员分享,可在线阅读,更多相关《宏基因组在复杂疾病中的应用习题说明.docx(2页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、宏基因组在复杂疾病中的应用习题说明某些复杂疾病因为通过传统方法诊断困难,而又因为肠道菌群或者其他部 位的菌群与该种复杂疾病相关性较强,因此研究人员会使用与疾病比较相关的 某些菌的数据来对疾病进行分类。此次习题需要大家有一定的编程语言(R或 者python等)以及统计学习基础。本次习题不限方法,可以通过随机森林、 lass。或者其他方法对菌群数据进行筛选并且使用筛选后的菌群数据达到相对较 好的疾病分类效果。表中的数据包括四个表单。因为保证判别模型的稳健性除模型训练样本 外,还需要外部验证数据(此处的外部数据不参与训练模型的构建,只用于判 断训练模型的效果)。因此本次练习中包括两部分的数据,bas

2、eline和 validationo各自分别表示基线样本和验证样本。1.表单baseline-group”为基线样本名称以及分组信息。其中HC表示 健康人,SCZ表示病人。2,表单“baselineprofile”为样本-菌群相对丰度数据,行名为肠道菌的 名称,列名为样本名称。3.表单validation-group为基线样本名称以及分组信息。其中HC表示 健康人,SCZ表示病人。4,表单“validation-profile”为样本-菌群相对丰度数据,行名为肠道菌的 名称,列名为样本名称。提示:1 .常用的模型:随机森林,lass。等.模型效果判断:AUC (Area Under Curve) : ROC曲线下与坐标轴围成 的面积。该值越接近1越好。2 .注意过拟合的问题。3 .注意需要对菌群数据进行筛选,即实现少量的菌也能达到较好的判别效 果。4 . R或者python中都有相应的包或者模块,请自行查阅。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 解决方案

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁