《利用偏最小二乘回归方法分析烧结复杂参数关系问题.pdf》由会员分享,可在线阅读,更多相关《利用偏最小二乘回归方法分析烧结复杂参数关系问题.pdf(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、利用偏最小二乘回归方法分析烧结复杂参数关系问题顾云松提要:本文介绍了分析复杂系统规律的第二代多元统计分析方法偏最小二乘回归方法(PLS)的原理和技术特点,利用国内第一款在Excel 中实现 PLS 的软件 PEW(PLS+Excel+Word )对影响烧结矿成品率、利用系数的因素进行了分析。 此技术提供了一种模型简单有效,物理意义清晰明确的分析工具,可以打开错综复杂,影响因素交叉重叠这一看不见的生产过程黑箱,指导操作调整,指引改造升级, 为分析、优化烧结乃至钢铁生产流程复杂参数关系问题提供了一个很好的手段。关键词:偏最小二乘回归方法(PLS) 分析烧结复杂参数关系1 前言烧结是一个非稳态、紧耦
2、合、多时变的复杂系统,在烧结生产实践中,有时很想了解本单位在现有装备水平、原料条件下各种原料特性,各种工艺参数是如何影响烧结矿产量、质量、能耗指标或透气性等限制性环节的,更具体来说就是:众多工艺参数与产品产量、质量、能耗指标或透气性等限制性环节之间是什么关系。如何能清晰地表明哪些参数对产品产量、质量、能耗指标或透气性等限制性环节而言是重要因素,哪些是次要因素;哪些是正相关,哪些是负相关;变动参数的一个单位对结果影响有多大;哪些数据点是特异点需要关注或剔除;得出这些结论可信度有多大。由于各厂情况不一样,专业课本没有也不可能给出明确的公式, 而实践经验往往也很模糊,从统计学角度来讲专家系统和神经网
3、络预测的精度是最高的,但是专家系统和神经网络只能依据经验或采取随机试探的方法,具用一定的随意性,且对所描述对象的输入输出变量之间的关系往往缺乏很好的解释性。传统的最小二乘回归能给出一个清晰的关系式,但由于变量之间存在多重相关性,使得模型精度不高, 甚至出现与常识相悖的情况。瑞典化学家伍德和阿巴诺于1983年提出的新型多元统计分析方法 偏最小二乘回归(PLS) ,它集多元线性回归分析、主成份分析、典型相关分析的基本功能为一体,很好地解决了普通多元回归无法解决的现实问题中普遍存在的自变量之间多重相关性和样本点容量过少的问题,被称为第二代的多元回归分析方法,其应用领域已经从最初的化工领域快速扩展到机
4、械、生物、地质、医学、社会学以及经济学等领域。人大常委会副主任、管理学专家、化工专家成思危对偏最小二乘回归(PLS)给予高度评价,他在给王惠文等著偏最小二乘回归的线性与非线性方法一书做序时写到:“?我立即感到PLS 回归是一种非常有用的工具,有可能用来解决非线性、非稳态、非参数、紧耦合的复杂问题?” 。秦皇岛市慧金软件有限公司在国内率先将偏最小二乘回归(PLS ) 植入最普及、 最易用的电子表格Excel中,并以最通俗易懂的Word 方式输出,开发出PEW (PLS+Excel+Word)软件,无需编程,不需要外语和统计知识,一线的管理、技术、操作人员都能在Excel 表格中简单两步完成操作,
5、使得轻松解析、优化企业生产过程变成可能。PEW (PLS+Excel+Word)软件开发成功后现已被用户应用于环境工程及管理、水处理、城市经济发展评价、水文地理,光谱、混凝土、国产大型客机造价预测、生态足迹等方面研究,本文利用该软件对烧结生产关注的影响烧结矿成品率、利用系数的因素进行分析。2 偏最小二乘回归方法( PLS)原理2.1偏最小二乘回归原理偏最小二乘回归采用主成分提取的方法。q个因变量1,qyy和p个自变量1,pxx。观测n个样本点, 自变量与因变量的数据表分别为1,pn pXxx和1,qn qYyy。 分别在X和Y中提取成分1t和1u(1t是1,pxx的线性组合,1u是1,qyy的
6、线性组合) 。需要满足下列两个要求:( 1)1t和1u应尽可能大地携带各自数据表中的变异信息;( 2)1t和1u的相关程度要达到最大。这样可使得1t和1u应尽可能好地代表数据表X和Y,同时自变量的成分1t对因变量的成分1u又有最强的解释能力。第一个成分1t和1u提取后,分别实施X对1t的回归以及Y对1u的回归。如果回归方程达到满意的精度,则算法终止;否则,将利用X被1t解释后的残余信息以及Y被1u解释后的残余信息进行第二轮的成分提取。如果最终对X共提取了m个成分1,mtt,将通过实行ky对1,mtt的回归,最后表达成ky关于原变量1,pxx的回归方程,1,2,kq。2.2偏最小二乘回归模型计算
7、步骤首先对数据进行标准化处理。X标准化处理后的记为0010,pnpEEE,Y标准化处理后记为0010,qn qFFF。第一步1t是0E的第一个成分,101tE w, 1w是0E的第一个主轴,为单位向量,11w。1u是0F的第一个成分,101uF c,1c是0F的第一个主轴,为单位向量,11c。根据主成分的分析原理,要求1maxVar t(1)1maxVar u(2)根据典型相关分析的思路,1t与1u的相关程度要达到最大,即11,maxr t u(3)要求1t与1u的协方差达到最大111111( ,)( ) var( ) ( ,)maxCov t uVar tu r t u( 4)采用拉格朗日算
8、法求取轴w 和 c,得到成分101tE w(5)10 1uF c( 6)其中1w和1c分别是矩阵0000E F F E和0000F E E F的最大特征值对应的特征向量。分别求0E和0F对11,t u的三个回归方程0111Et pE(7)0111Fu qF(8)01 11Ft rF(9)1E,1F,1F分别是三个回归方程的残差矩阵。第二步用残差矩阵1E和1F替代0E和0F,求第二个主轴2w和2c以及第二个成分2t,2u,得到两个回归方程1222Et pE(10)12 22Ft rF(11)照此计算下去,根据预测误差平方和PRESSh达到最小原则。确定提取主成分的个数m,从面得到最终的回归方程2
9、。01 1,1,2,k kkFt rt rF km(12)2.5 偏最小二乘回归丰富的辅助分析内容偏最小二乘回归除了给出一个能清晰准确反映复杂系统规律的方程式外,还提供以下丰富的辅助分析内容,便于深入挖掘数据信息。( 1) 常用统计量。( 2) 变量间相关系数。( 3) 主成份数量确定的依据。( 4) 标准化数据回归方程系数直方图。( 5) 精度分析。( 6) 自变量与因变量相关关系。( 7) 自变量在解释因变量时的作用(VIPj )图。( 8) 组间相关关系的结构分析。( 9) T2椭圆图与特异点的发现。( 10) 数据重构的质量分析。( 11) 偏最小二乘与普通最小二乘回归拟合比较。( 1
10、2) 偏最小二乘与普通最小二乘去一回归预测比较。( 13) 对成分的命名。( 14) 原始数据回归方程回归系数表。( 15) 偏最小二乘回归Bootstrap 参数检验。( 16) 偏最小二乘回归方程复相关系数R2。( 17) 普通最小二乘回归Bootstrap 参数检验。3. 偏最小二乘回归方法( PLS)技术特点3.1 偏最小二乘回归方法(PLS )是先进的数据分析预测工具,解决了实际生产中参数之间相关和数据量少的问题。预测精度高于普通最小二乘回归,在自变量区间之外进行预测,效果尤其明显。3.2 偏最小二乘回归方法(PLS)是成熟可靠的分析工具,已成为化学分析 (特别是光谱分析)的行业标准
11、,PLS方法已经固化在很多精密分析仪器之中,并广泛应用在工、农、医、科研、国防、经济、社会等领域。3.3 对于实际工业生产有很大现实意义,因为生产过程不可能稳定多个变量而只变动一个变量,在有些情况下也不允许试验,但参数又总是处在波动之中,参数实际上是通过竞争的方式影响指标。现在工厂都有完善的检测数据,在很难实验的情况下,PLS可从生产数据中发现规律。3.4 不仅可解析复杂系统参数之间关系,从数据中发现规律,找到解决问题的办法,优化生产过程,从各关键工序点对生产进行控制,提高产质量,节能降耗。并能直接面向关键问题、重大问题、老大难问题和限制性瓶颈问题,对这些问题提供全面最佳解决方案,正确自信地指
12、导操作调整和进行技术改造。3.5 由于使用了主成分提取的方法,不仅可测量某个具体变量对指标的影响,还可确定某大类因素对指标的影响。另外,PLS 方法还具有其它统计方法不具备的辨别系统噪声的能力,能辨别重大影响点,发现需要剔除的异常数据,优化模型。4 PEW 软件(PLS+Excel+Word)技术特点4.1 PEW 软件以 Excel 作为开发平台,与Excel 无缝连接,成为Excel 的一条菜单,无需编程,让PLS成为易用的工具。克服PLS推广应用的语言、编程、统计知识障碍,让先进工具从象牙塔走向工厂车间。4.2 PEW 软件安装简单,使用方便,数据实现自动整理,结论以Word文档形式输出
13、,一线人员无需学习统计知识都能理解,一般PLS软件都忽视了这一点。另外,增加与普通最小二乘的详细比较,能体现PLS巨大优越性。还提供丰富的图形、表格、文档,给专业人士提供丰富信息。不仅便于理解,也便于打造高质量的论文和报告。4.3 只需要标记、确定两步就完成操作,象使用傻瓜相机一样使用先进工具。省去学习、培训、交流的麻烦和费用,是工艺技术人员和生产操作人员的好帮手。在中控室配备的话,大批核心操作岗位人员都能长期受益,在拥有专业知识,工作经验的基础上更拥有定性、定量的先进分析手段。由于一线操作人员对数据有很好的甄别能力,得出的模型更准确可靠,在可调整的权限范围内从数据统计这一薄弱环节最大限度挖掘
14、生产潜力,提升技术经济指标,产生无法估量的经济效益。4.4 全面部署本软件还可以在最短时间,以最低的成本全面快速有效提升管理、技术、 操作三个层面群体,特别是为企业直接创造利润的操作群体,分析解决复杂问题的能力,打开错综复杂,影响因素交叉重叠的生产过程黑箱,找到一个物理意义清晰明确,简单有效的数学模型,指导操作调整,指引改造升级。同时使企业主要工序控制点整体受控、优化,使得过去只有极少数高层次人材才能应用的先进技术遍地开花,最大限度挖掘潜力,为企业创造价值,推动技术经济指标不断上新台阶,效益、利润最大化。5 烧结实例5.1 烧结成品率、利用系数与工艺参数的关系利用的是2005 年 1-8 月份
15、生产报表234 个日平均数据,考虑到成品率与利用系数有紧密联系,采用多因变量对多自变量的PLS2模型来研究烧结矿成品率、利用系数与机速、上料量、点火温度、终点温度、终点负压、烟道温度、烟道负压的关系。(1)自变量间相关关系自变量间相关系数最大的为0.95 ,自变量之间存在高度相关性,将使普通最小二乘回归模型失准。另外,机速与上料量之间相关系数为0.87,表明在当时高强度生产过程中,提高上料量时,机速只有随之提高,实际上是降低料层厚度来实现烧结终点的平衡;终点负压与烟道负压之间相关系数为0.95,反映出终点负压与烟道负压的高度随动性。它们之间的关系均达到高度相关的程度,将会影响到普通最小二乘回归
16、模型的可靠性。(2)自变量与因变量的相关关系判断自变量集合X 与因变量集合Y 之间是否存在较强的相关关系是检验是否可以建立Y 对 X 的线性回归的基本条件,自变量与因变量主成分的相关系数为-0.8139,自变量与因变量存在高度线性相关关系,说明X 与Y 有显著的相关关系,所以采用偏最小二乘回归方法建立Y 对 X 的线性模型是比较合理的。(3)自变量在解释因变量时的显著性及重要性排序表 1 自变量在解释因变量时的显著性及重要性排序自变量在解释因变量时的显著性及重要性变量VIP 值重要性(VIPj )显著性( Bootstrap检验)料量 x1.546991481最重要因素显著机速 x1.3756
17、78473重要因素显著终点温度x0.954603737显著烟道温度x0.769155332显著烟道负压x0.669982229不显著终点负压x0.656395429不显著点火温度x0.575957231不显著采用最新的Bootstrap基于数据模拟的再抽样法,对偏最小二乘模型的参数进行检验,确定影响烧结矿成品率、利用系数的显著性变量为料量、机速、终点温度、烟道温度。根据用变量投影重要性指标VIPj 来测度的每一个自变量对解释因变量的作用大小依次为:料量x机速 x终点温度x烟道温度 x烟道负压x终点负压x点火温度x。根据 VIPj1 即认为 xj 在解释因变量时具有重要作用的原则,料量x,机速
18、x 在解释因变量集合Y 时具有重要作用。其中料量x 在解释因变量集合 Y 时具有最重要的作用。(4)对参数及指标进行断层扫描表 2 参数、指标断层扫描主成分提取的信息第一主成分第二主成分第三主成分机速 x -0.6187089 -0.1550991 0.26870942 料量 x -0.6890394 -0.265693 0.38437646 点火温度 x -0.16031867 0.31596117 -0.0129353 终点温度 x -0.10847195 -0.710385 -0.4483314 终点负压 x -0.21043766 0.12615062 -0.57504 烟道温度 x
19、0.091411025 -0.554668 -0.1315402 烟道负压 x -0.22872631 0.12939019 -0.521482 主成分对因变量的作用成品率 y 0.168082776 -0.239781 -0.175062 利用系数 y -0.4419036 -0.247118 0.08722499 从表 2 可发现:第一主成分主要提取了机速、料量物料类信息,与此相对应它们主要影响利用系数,说明利用系数主要受机速、料量影响,第二主成分主要提取了终点温度、烟道温度温度类信息,与此相对应它们同时影响成品率和利用系数,说明成品率和利用系数都受到烧结温度场的影响,第三主成分主要提取了
20、终点负压、烟道负压压力类信息,与此相对应它们主要影响成品率,说明成品率主要受负压的影响,而负压的最终主要影响因素是料层高度,所以成品率主要决定于料层高度。上述分析也表明成品率与利用系数尽管从常识上讲紧密联系,但影响它们的因素种类却有区别。这种多层次的影响分析如果不用类似PLS这样的工具,很难从专业知识和实践经验中准确把握。这种对生产过程参数之间的关系进行的类似于断层扫描样的梳理,为更好地驾驭生产操作提供了有用的信息。(5)数学模型成品率 y=55.8058-2.6338 机速 x-0.0100 料量 x-0.0015 点火温度x+0.0304 终点温度x+0.1794 终点负压x+0.0555
21、 烟道温度x+0.1116 烟道负压x 利用系数y=-0.1917+0.2247 机速 x+0.0010 料量 x+0.0000 点火温度x+0.0007 终点温度 x+0.0017 终点负压x+0.0008 烟道温度x+0.0035 烟道负压x 在模型中,成品率与机速、料量是负相关,利用系数与机速、料量是正相关。降低机速、料量有利于提高成品率但却抑制了利用系数的提高,适当提高机速、料量有利于提高利用系数,但却使成品率下降,为此必须根据当时的生产实际需求,灵活采取相应措施。如果当前生产矛盾主要体现在成品率低,就应适当降低机速和料量,如果当前生产矛盾主要体现在利用系数低,就应适当提高机速和料量,
22、缓解当前矛盾。由于终点温度、烟道温度的提高均有利于成品率及利用系数的提高,所以增加料温、适当提高焦粉配比也可提高成品率及利用系数。根据自变量在解释因变量时的显著性及重要性排序,这种调整手段不如机速、料量的调整效果显著。至于调整的边际效应可由参数前面的系数计算得到。(6)捕捉最佳工艺参数表 3 捕捉最佳工艺参数样本点序号机速 x料量x点火温度 x终温 x终压 x烟温 x烟压 x成品率 y利用系数 y成品率 +利用系数(实际)成品率 +利用系数(预测)特异点情况811.93 566 1136 426 14.1 151 14.65 73.21 1.35974.56 (实际最大)70.11正常点158
23、1.76 518 1080 480 13.7 139 14.35 68.771.18769.9570.70(预测最大)正常点1511.71 507 1087 396 12.1 146 12.75 73.231.23874.4769.48 特异点如果按成品率加上利用系数最大化来捕捉最佳工艺参数的话,表3 给出的81 号样本点是所有样本点中实际成品率加上利用系数最大化的参数组合;158 号样本点是所有样本点中预测成品率加上利用系数最大化的参数组合,它代表了按统计规律得到的最佳工艺参数组合;151 号样本点是所有样本特异点中实际成品率加上利用系数最大化的参数组合,151 号样本点机速、料量都非常小,
24、终点温度也不高,但成品率却非常高,利用系数也较高,在排除了统计错误的原因后,可能是一个理想的工艺参数组合,它代表了孤立、突变、偶然的最佳工艺参数组合,这三个点都值得关注和重新试验,观察其重显性,以最终确定最佳工艺参数组合。从上述可发现,偏最小二乘回归方法是一个分析烧结复杂参数规律,找出系统状态特征的有效工具,它使得生产过程更清晰,操作调整更自如,驾驭生产更容易。5.2 烧结相关领域进一步的应用由于国家对钢铁业节能环保的要求,烧结余热利用和脱硫正逐渐成为不可缺少的配套工程,这两个工程进入烧结在线系统后,产量、质量、能耗、环保四者间的关系更加复杂微妙,在积累数据和有意识调控参数的基础上,可利用先进
25、的偏最小二乘回归工具(PLS)深入挖掘烧结工况参数与产量、质量、能耗、环保之间的关系,使得各项经济技术指标尽可能得到兼顾。另一方面,铁前系统炼铁、烧结、焦化整合也是全国钢铁企业发展的一个趋势,围绕炼铁的需要,什么质量的焦碳、烧结矿、球团矿对高炉来说是合适而不过剩的;各种原料的指标中是物理特性(粒度、转鼓、)还是化学特性(各种化学成份,):是常温特性还是高温特性;具体是哪一个指标对高炉的经济技术指标而言是重要的,解析这一问题非常有现实意义,可以很好发挥整合优势。而偏最小二乘回归( PLS)可以非常好地处理这种大量因素交织在一起的复杂问题。6 结论61 偏最小二乘回归(PLS )作为先进可靠的数据分析工具,非常适合于解析复杂的生产过程,准确发现规律,用于烧结乃至于钢铁业将能优化生产过程,解决限制性环节问题,提升经济技术指标。62 PEW (PLS+Excel+Word)软件以Excel 为开发平台,以Word 为输出结果,易用、易懂,特别适用于为企业直接创造利润的一线操作、技术、管理人员分析解决提升产量、改善质量、节能降耗等复杂问题,为企业创造价值。参考文献1 周取定,孔令坛. 铁矿石造块理论及工艺. 北京:冶金工业出版社,1989. 2 王惠文,吴载斌,孟洁. 偏最小二乘回归的线性与非线性方法. 北京:国防工业出版社,2006.