信息处理与数据挖掘技术.ppt

上传人:wuy****n92 文档编号:90762967 上传时间:2023-05-17 格式:PPT 页数:26 大小:393KB
返回 下载 相关 举报
信息处理与数据挖掘技术.ppt_第1页
第1页 / 共26页
信息处理与数据挖掘技术.ppt_第2页
第2页 / 共26页
点击查看更多>>
资源描述

《信息处理与数据挖掘技术.ppt》由会员分享,可在线阅读,更多相关《信息处理与数据挖掘技术.ppt(26页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第二章 计算机与仪器分析 一、化学计量学介绍a brief introduction of chemometrics二、信息评价information appraise三、信号与噪声signal and noise四、信号的处理技术technology of signal process 五、多元分析方法polybasis analysis methods第三节 信息处理与数据挖掘技术computer and instrument analysis information process and technology of date excavate5/15/2023一、化学计量学简介a br

2、ief introduction of chemometrics化学计量学:化学与计算机结合的产物1974年,Kowalski 与Wold 提出建立国际化学计量学协会任务:运用数学和统计的方法设计或选择最佳测试过程和实验 通过化学数据分析提供更多化学信息。范畴:纯化学与量子化学之间凡涉及计算和计算机的所有领域。应用举例:大连湾海水污染物与污染源之间的关系;控制 由尿样获取身体健康状况的全部信息;简化 化合物性质数据结构,结构与性质的关系;新药 产品质量检验生产中的问题;决策 犯罪现场的烟雾分析:香烟牌号,种类;破案5/15/2023 二、信息评价 information appraise 分析

3、仪器是分析化学家为获取化学信息所使用的工具,因此可以由信息理论来评价仪器的性能。1.信息量和熵 设有一事件有几种可能性,他们各自的概率为pi,Shannon定义信息熵:在信息理论中,习惯取“2”作为对数的底,此时单位为bit(e为底,nat)。设有一具有两种可能性的等概率事件:5/15/2023信息量和熵 熵是事件不确定程度的度量,不确定程度越大,熵就越大。对于一个概率密度为p(x)的连续型分布熵的定义为:信息的概念是与事件发生的概率相联系的,出现小概率事件所包含的信息量大,因此可定义信息量:I=-lgpi 如果事件发生后的概率不等于1,即它是不确定的,则信息量可表示为:I=lg(qi/pi)

4、式中 qi 是事件发生后的概率。5/15/20232.信息量与熵的关系 如果通过某些方法获取信息使原来事件的不确定程度减小,所得到的信息的数量就是信息量,故信息量就是熵减少的量:I=H0-H式中 H0 和H 分别表示获取“情报”前后,事件不确定程度。在分析化学中则是实验前后的熵。若经过实验后的结果完全确定,即实验后的熵=0,则:I=H0=Hmax即经过这样一个实验后,可能得到的最大信息量。5/15/20233.分析化学实验中的信息量与熵 在定性分析实验中,判断某一组分是否存在。实验前:概率:各为1/2(实验前并无任何信息)H0=1 bit实验后:H=0故信息量:I=H0-H=1 bit如果采用

5、仪器分析定性,不能将全部组分检测出,如何确定?例:原子吸收测定含铜、锌试样(组成未知)。仅测定出Cu2+时的信息量,测定出Cu2+、Zn2+时的信息量分别是多少?(阴离子不能检测)。5/15/20234.定量分析中有关参数与信息量 在定量分析实验中,如果实验前知道某一组分的大致范围时,即p(x)均匀地分布在(x1,x2)区间内,则:由于分析中偶然误差的存在,结果不可能是一定值而成正态分布。设其标准偏差为,则:5/15/2023于是:越小,信息量越大。实验中增大信息量的途径?减少干扰、提高仪器灵敏度、减小噪声、增加测定次数等。5/15/20235.仪器的最大信息量 分析仪器通常有一测定限cmin

6、,待测试样浓度低于此值时,不能用该仪器测定。该仪器实验前的熵为:c 为仪器能分辨的最小浓度差,实际的信息量:5/15/2023 对于多通道的仪器,可以有n个通道同时测定n种组分,其总的信息量是各通道的信息量之和:单位时间内信息量的变化称为信息流:理想的分析仪器应该在很短的时间内获得很大的信息量。5/15/20236.仪器的效率和剩余度 仪器的效率可用剩余度来衡量。剩余度的定义:R=Hman H 剩余度是熵偏离其最大值的度量。熵的一个重要性质是当所有的可能性都是等概率时,熵有最大值。在定量分析中,如果试样中待测组分的含量完全是未知的,则其可能的含量为0100%,故:5/15/2023仪器的效率和

7、剩余度 在分析仪器中,剩余度常被定义为:R=Iman I 即它是分析过程中被保留,未被利用的信息量的度量。剩余度大表示该仪器的效率低。分析时,一般样品的大致含量范围总是知道的,设其范围为x1x2。故:则:5/15/2023三、信号与噪声signal and noise本底信号:没有试样时,仪器产生的信号;随机噪声;空白信号:试样中无待测组分时,仪器产生的信号;试样预处理:空白信号接近本底信号;5/15/20231.检出限 样品的信号能被检出的最低限;由于存在随机噪声(正态分布),有误判的可能;如何规定检出限使误判产生的几率符合要求(统计学),1969年,国际原子吸收光谱会议;yB+3B 197

8、5年,IUPAC;yB+2B 保险检出限:yB+6B 数学期望值yB;标准偏差B定义:以一定的置信度检出待测组分的最低浓度(或量)yA=yB+k B k 的取值对应于不同置信概率5/15/20232.灵敏度 分析仪器的响应值与浓度(或量)改变一个单位时所引起的信号的变化,y/c.(IUPAC给出的定义);单纯灵敏度高不能保证有低的检测限;检测限与B有关,B来自随机噪声,信号变化可能被噪声淹没。5/15/20233.信噪比(S/N)的提高 途径:a.改善信号的测量技术;b.信号经过适当处理;c.优化。(1)信号的平均:噪声信号(2)滤波和调制5/15/2023四、信号处理技术 technolog

9、y of signal process 对分析信号进行处理是为了提高信息量,改善信噪比。信号处理通常采用以下几种方法和技术:1.曲线拟合 用数学方法将获取的数据作曲线拟合。方法:(1)根据实际获得的曲线找出与此曲线适应的数学模型;(2)以实验得到的数据对(Xi,Yi),代入数学模型(关系式),用最小二乘法求出模型中的待定参数。关键点:选择正确的数学模型例:非正态色谱曲线,可采用r函数与指数衰减曲线相结合的数学模型。5/15/20232.曲线的平滑处理 曲线平滑处理可以去除数据集合中的随机噪声,保留有用信息,提高信噪比。小波动:随机噪声 大波动:包含有用信息方法:boxcar平均化;移动窗口均化

10、;最小二乘多项式平滑(Savitzky-Golay卷积法),最常用的方法。注意点:不正确的进行平滑处理可能会将微弱信号当作噪声处理掉。5/15/20233.信号求导 消除背景和重叠峰的干扰,提高分辨率和灵敏度。方法:模拟微分电路或求导程序软件。微分谱比原谱对谱特征的细微变化反应要灵敏的多,被隐藏的谱的特征可以通过对原谱图的微分而得到加强。应用:(1)光谱图、色谱图:重叠峰、弱肩峰的区分;(2)电位滴定曲线的导数曲线容易确定滴定钟点。注意点:微分时,原谱的噪声也被加强,高阶导数谱的噪声增大的更明显,解决方法:对原谱进行平滑处理。5/15/2023五、多元分析方法polybasis analysi

11、s methods 如何在大批实验数据中总结出有用的规律或者挖掘出有用的信息;多元分析是一类计算机信息处理、信息挖掘技术,特别适合用于从多种因素影响的大量实验数据中总结规律;多元分析应用领域:处理卫星照片;指纹鉴别;文字和语音识别;多参数、多变量问题的处理;分析化学中的应用:(1)多种微量元素的分布与健康(或疾病)的关系(2)物质中复杂成分的含量分析(3)各种谱的特征与性质关系(4)分子结构与谱特征的关系5/15/20231.多元分析方法的特点 在多元分析中,对每个研究对象(每个观察样本都有M个变量或参数)取值,考察N个观察对象的集合就作成一张N*M的数据表。观察对象的集合可以是全部样本,也可

12、是较大集合中的一个子集;变量可以是连续的也可以是离散的;在多元分析中,通常采用以下技术:(1)简化结构 用简单方法来表示所研究的复杂问题;(2)分类 将观察对象分成若干个不同的组或类;(3)变量分组 将变量按其性质分组;(4)相关分析 研究变量之间的相互关系、观察对象之间的相互关系。5/15/20232.多元分析中的主要方法简介 多元分析中所采用的方法:(1)回归分析:多元线形回归分析;偏最小二乘回归分析;逐步回归分析。(2)相关分析(3)因子分析(4)降维与映射(5)聚类分析(6)分类与判别(7)人工神经网络(8)优化技术5/15/20233.化学因子分析法简介 因子分析:通过对一数据矩阵进

13、行特征分析、旋转变换等操作以获取有关信息的数学方法。化学因子分析:将因子分析技术用于解决化学中的问题,形成了带有浓厚化学特色的因子分析方法。化学因子分析特点:(1)解决复杂问题 同时处理多因素相互影响的复杂体系(2)快速处理大量数据 采用标准因子分析程序(3)数据的有序解释与预测 在获得规律指导下进行预测5/15/2023因子分析基本步骤5/15/2023常见的因子分析方法(1)主成分分析(principle component analysis)(2)目标因子分析(target factor analysis)(3)迭代目标因子分析(iterative target factor analy

14、sis)(4)秩消因子分析(rank annihilation factor analysis)(5)渐进因子分析(evolving factor analysis)(6)窗口因子分析(window factor analysis)(7)启发渐进式特征投影(heuristic evolving latent projection)5/15/2023内容选择:第一节 计算机与仪器分析computer and instrument analysis第二节 数据采集与计算机控制computer control and data collection第三节 信息处理与数据挖掘技术information process and technology of date excavate第四节 人工智能与仿真模拟artificial intelligence and multimedia experiment simulation technology结束5/15/2023

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁