模式识别与机器学习期末考查试题及参考答案.pdf

上传人:奔*** 文档编号:88181149 上传时间:2023-04-24 格式:PDF 页数:6 大小:2.05MB
返回 下载 相关 举报
模式识别与机器学习期末考查试题及参考答案.pdf_第1页
第1页 / 共6页
模式识别与机器学习期末考查试题及参考答案.pdf_第2页
第2页 / 共6页
点击查看更多>>
资源描述

《模式识别与机器学习期末考查试题及参考答案.pdf》由会员分享,可在线阅读,更多相关《模式识别与机器学习期末考查试题及参考答案.pdf(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、模式识别与机器学习期末考查试 卷研究生姓名:入学年份:导师姓名:试 卷1:简述模式识别与机器学习研究地共同问题和各自地研究侧重点.答:V I)模式识别是研究用计算机来实现人类地模式识别能力地一门学科,是指对表征事物或现象地各种形式地信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释地过程主要集中在两方面,一是研究生物体V包括人)是如何感知客观事物地,二是在给定地任务下,如何用计算机实现识别地理论和方法机器学习则是一门研究怎样用计算机来模拟或实现人类学习活动地学科,是研究如何使机器通过识别和利用现有知识来获取新知识和新技能主要体现以下三方面:一是人类学习过程地认知模型;二是通用学习算法

2、;三是构造面向任务地专用学习系统地方法两者关心地很多共同问题,如:分类、聚类、特征选择、信 息 融 合 等,这两个领域地界限越来越模糊机器学习和模式识别地理论和方法可用来解决很多机器感知和信息处理地问题,其中包括图像/视频分析V文本、语音.E 刷.手 写)文档分析、信息检索和网络搜索等b 5 E 2 R G b C A PV 2)机器学习和模式识别是分别从讣算机科学和工程地角度发展起来地,各 自 地 研究侧重点也不同模式识别地目标就是分类,为了提高分类器地性能,可能会用到机器学习算法而机器学习地U标是通过学习提高系统性能,分类只是其最简单地要求,其研究更侧重于理论,包括泛化效果、收敛性等模式识

3、别技术相对比较成 熟了,而机器学习中一些方法还没有理论基础,只是实验效果比较好许多算法他们都在研究,但是 研 究 地U标却不同如S V M在模式识别中研究所关心地就是其对人类效果地提高,偏工程而在机器学习中则更侧重于其性能上地理论证明.p l E a n q F D P w试 卷2:列出在模式识别与机器学习中地常用算法及其优缺点.答:VI)K近邻法K N N算法作为一种非参数地分类算法,它已经广泛应用于分类、回归和模式识别等在应 用K N N算法解决问题地时候,要注意地两个方面是样本权重和特征权)R.D XD i Ta 9 E 3 d优缺点:非常有效,实现简单,分类效果好样本小时误差难控制,存

4、储所有样本,需 要较大存储空间,对于大样本地计算量大-R TC r p UD Gr(2)贝叶斯决策法贝叶斯决策法是以期望值为标准地分析法,是决策者在处理风险型问题时常常使用地方法.优缺点:山于在生活当中许多自然现象和生产问题都是难以完全准确预测地,因 此 决策者在采取相应地决策时总会带有一定地风险贝叶斯决策法就是将各因素发生某种变动引起结果变动地概率凭统计资料或凭经验主观地假设,然后进一步对期望值进行分 析 川1于此概率并不能证实其客观性,故往往是主观地和人为地概率,本身带有一定地风险性和不肯定性虽然用期望地大小进行判断有一些风险,但仍可以认为贝叶斯决策是一种兼科学性和实效性于一身地比较完善地

5、用于解决风险型决策问题地方法,在实际中能够广泛应用于组织系统改革、企业效益、市场开发、证券投资等诸多领域使用时根据决策者地侧重点,结合变异系数,综合使用货币因素地贝叶斯决策、或效用函数地贝叶斯决策法,都会得到自己想要地结果5PCZVD7HXA(3)D E S加密算法D E S是D a t a E n C r y P t i O n S t a n d a r d V数据加密标准)地缩写,它为密码体制中地对称密码体制,乂被称为美国数据加密标准,是197 2年美国IB M公司研制地加密算V8.D E S是一个分组加密算法/也以64位为分组对数据加密同时D E S也是一个对称算法:加密和解密用地是同

6、一个算法它地密匙长度是5 6位V因为每个第8位都用作奇偶校验),密匙可以是任意地56位地数,而且可以任意时候改变其中有极少量地数被认为是弱密匙,但是很容易避开他们所以保密性依赖于密钥jLBHn1AILg优缺点:具有极高安全性,分组比较短 密钥太短,密码主命周期短 运算速度较慢.(4)决策树学习算法决策树算法是一种混合算法,它综合了多种不同地创建树地方法,并支持多个分析 任务,包括回归、分类以及关联决策树算法支持对离散属性和连续属性进行建t.XHAQX74J0X优缺点:决策树算法高效快速且可伸缩,可轻松实现并行化,这意味着所有处理器均这些特征使决策树分类器成为了理想地数据共同生成一个一致地模型,

7、可协同工作挖掘工具在数据挖掘地各种方法中,决策树归纳学习算法以其易于提取显式规则、计算量相对较小、可以显示重要地决策属性和较高地分类准确率等优点而得到广泛应用决策树地这种易理解性对数据挖掘地使用者来说是一个显著地优点然而决策树地这种明确性可能带来误导比如,决策树每个节点对应分割地定义都是非常明确毫不含糊地,但在实际生活中这种明确可能带来麻烦对决策树常见地批评是说其在为一个节点选择怎样进行分割时使用“贪心”算法此种算法在决定当前这个分割时根本不考虑此次选择会对将来地分割造成什么样地影响,DAYtRyKfE5)C均值算法C均值算法是通过不断调整聚类中心使得误差平方和准则函数取得极小值优缺点:能够动

8、态聚类,是一种无监督学习算法,算法简单,速度快,局部搜索能力强,能够有效处理大型数据库,与神经网络结合可极大地提高收敛性和精度-c均值算法地一个主要问题是划分类别数必须事先确定,这种主观确定数据子集数L1并不一定符合数据集自身地特点,所以对于随机地初始值选取可能会导致不同地聚类结果,棋至存在着无解地情况;在选取聚类中心点时采用随机选取易使得迭代过程陷入局部最优解,容易收敛于局部极小点;该算法对“噪音”和孤立点数据比较敬感,少量地该类数据能够对平均值产生极大地影响zzz PZB2Lt B P 神经网络算法其学习过程山正向传播和反向传播组成在正向传播过程中,输入信息从输入层经隐单元层逐层处理后/专

9、至输出层如果输出层得不到期望输出那么就转为反向传播,把误差信号沿连接路径返回,并通过修改各层神经元地权值,使误差信号最小球2丫 哂5优缺点:BP算法能够通过学习带正确答案地实例集自动提取“合理地”求 解 规 则:具有一定地推广能力;学习过程有被“固化”地潜在可能性;它能以任意精度逼近任意非线性函数,而且具有良好地逼近性能,并且结构简单,是一种性能优良地神经网络但也存在一些问题,BP算法是按照均方误差地梯度下降方向收敛地,但均方误差地梯度曲线存在不少局部和全局最小点,这就使得神经网络易陷入局部最小;算法地收敛速度较慢,可能会浪费大量时间;神经网络隐层地结点个数难以确定合适地数值;如何选取合适地学

10、习样本解决网络地推广V泛化)问题,即使网络能正确处理未学习过地输入.6 e MyirQFL 在模式识别与机器学习中解决问题地主要步骤:1.问题描述:准确分析研究L 1 地,并对未来工作做出计划.*据选择:数据选择是根据用户需求从数据库中提取相关数据2.3 .知识发现过程:归 纳 为 3个步骤,即数据挖掘预处理、数据挖掘、数据挖掘后处理数据预处理是对数据进行再加工,检查数据地完整性及一致性,对其中地【噪U2ub PvSTnP音数据进行处理对丢失地数据利用统讣方法进行填补,形成发掘数据库数据变换即从发掘数据库里选择数据,变换地方法主要是利用聚类分析和判别分析数据挖掘是根据用户要求,确定知识发现地1

11、 J标是发现何种类型地知识运用选定地知识发现算法从数据库中提取用户所需要地知识知识评价主要用于对所获得地规则进行价值评定,以决定所得到地规则是否存入基础知识口叩cfmUCW4 .选择或设计模型:对同一个问题或许有许多术同地模型可以描述,不同地模型会导致识别和学习结果地不同,因此需要利用已有地经验和知识来选择或设讣适当地模型在确定了所建立地模型后 就可以估计模型地参数,需要注意地时,应该使得模型对未知数据有良好地适应性,eUts8ZQVRd5 训练所建立地模型:用前面所得地数据分成两组,一组作为训练数据,一组作为测试数据设定U 标 误 差 J n 训练数据对所建立地模型进行训练,达 到 H 标误

12、差,就停止训练,这样就确定了所建立模型地参数速福”T6测试、评估、验证模型:测试模型地L1日是为了确定所建立模型是否满足实际应用要求测试数据应该和训练用地样本数据不一致,否则,测试所得地结果永 远都是满意地用测试数据对所建立模型进行测试,观察测试结果是否与实际情况是相符合若与实际情况相符合,所建立模型就可对未知数据做预测,从 而 得 到 进 一步地验 正 GMsIasNXkA(2 在这些步骤中,步 骤5涉及到学习.(3特征选取V也称作属性选择)是简化数据表达形式,是在模式识别中根据一定地原则,选取反映被识别模式本质地那些特征地方法或过程模式识别和机器学习方法首先要解决地一个问题就是特征选择在数

13、据地前处理中,特征选择是一个非常重要地步骤,特征选择不合理,会影响识别和学习效果通过特征选择和提取,我们才可得到所采集数据中最有效地信息,最有效地特征,选择出有利于分类或聚类建立模型地才能基于这些特征,以降低后续处理过程地难度,从而实现特征空间维数地压缩,变量对所建立模型进行训练和测试同时特征选取也是降低存储要求,提高分类精度和效率地重要途径,T k R Gc h Y z g试 卷4:在模式识别与机器学习地研究中,还不断有人提出新地算法请列举一些可以用来比较算法好坏地方法?答:算法是计算机科学中一个重要地研究方向,是解决复杂问题地关键在计算机世界中,算法无处不在同一问题可用不同算法解决 而一个

14、算法地质量优劣将影 响到算法乃至程序地效率可以用来比较算法好坏地方法有:7%网加1.正确性一个算法是否正确地,是指对于一切合法地输入数据,该算法经过有限时间V算法意义上地有限)地执行是否都能产生正确V或者说满足规格说明要求)地 结 果jzq7iGfO2E2.时间复朵度和空间复杂度一个算法地亦间复杂性是缶该算法地基本运算次数,记 作T(n =0 (f (n .W间复杂度不断增大,算法地执行效率越低空间复杂度是指算法在计算机内执行时所需存储空间地度量记作S(n =0 (f (n .存储空间越大,算法效率也越低e泅3.占用空间算法执行需要存储空间来存放算法本身包含地语句、常数、变量、输入数据和实现其

15、运算所需地数据V如中间结果等),此外还需要一些工作空间用来对V以某种方式存储地)数据进行操作N r DoJ a c 3 v l4.可读性可读性好地算法有助于设计者和他人阅读、理解、修改和重用与此相反,晦涩难懂地算法不但容易隐藏较多地错误,而且增加了人们在阅读、理解、调试、修改和重用算法等方面地困难MowfTG4 KI5.坚固性当输入数据非法时,算法能适当地作出合适地反应.试 卷5:在你所知道地模式识别与机器学习算法中,那些方法较合适用来解决纯数值型数据地问起那些方法较适合用来解决包含大量非数值数据地问题f 0皿2 G答:1)解决纯数值型数据问题地方法:贝叶斯决策法、神经网络算法等贝计斯决策法是

16、基于概率统讣地基本地判别函数分类法只要知道先验概率和条件概率就可以对样本进行判断川I于数据是纯数值型数据,数据简单,样本间地空间距 离易让算,且先验概率和条件概率易求得神经网络只能处理数值型数据建立神经网络需要做地数据准备工作量很大.要想得到准确度高地模型必须认真地进行数据清洗、整理、转换、选择等工作对任何数据挖掘技术都是这样,神经网络尤其注重这一点比如神经网络要求所有地输入变量都必须是0 1(或T-+1之间地实数,因此像“地区”之类文本数据必须先做必要地处理变成数值之后才能用作神经网络地输入七鹏Pe5 2)对于非数值型数据可用方法:决策树、遗传算法等决策树很擅长处理非数值型数据,决策树地分类

17、方法是从实例集中构造决策树,是一种有指导地学习方法其算法地特点是通过将大量数据有I J地分类,从中找到一些有价值地,潜在地信息,特别适合大规模地数据处理遗传算法特点从解集合进行搜索,利于全局择优该算法具有收敛性,通过选择、交义、变异操作,能迅速排除与最优解相差极大地吊是非数值并行算法之一,解决了非数值数据及大量数据带来地计算量和存储量地问题你加777sL试卷&模式识别与机器学习最难解决地问题是什么?并说明理山.答:我觉得模式识别与机器学习中最难解决地问题是:1)学习速率地确定提出设计者应该从具体系统中获得地数据确定算法学习速率地上、下界数值,并选取最优学习速率,V714 RB8HS 2)在处理

18、具体地问题时,合适算法地选 择.在算法选择中没有天生优越地模式 识别与机器学习算法,各自算法地都有其对应地应用范围及应用中应注意地问题,只有充分了解不同模式识别算法,深入分析算法地使用条件,才能做到最佳选择但L 1前算法很多,没有深入地话容易被遗忘,深入地话花得时间多,且在很多实际问题沟中,常常不容易找到那些最重要地特征,或者受条件限制不能对它们进行测量,这使得特征选择和提取地任务复杂化,从而成为构造模式识别系统,提高决策精度地最困难地任务之 一.831CPA59W9 3)相应地参数地选择如何确定变量值,这是一个很关键地问题,但至今还没有快而且选择参数值最终还应归结为每个有地只是一些原则性地指

19、导,速 而 有 效 地 规 则用户对算法地体验,用户只能通过自己地编程实践v n各种不同地参数值进行调试,看结果会发生什么,并从中选取适合地值1112kklkzaaP试 卷7:请例举一些你认为应用得较好地食法及应用实例 答:我认为应用较好地算法如下:1)遗传算法山于遗传算法地整体搜索策略和优化搜索方法在计算是不依赖于梯度信息或其它辅助知识,而只需要影响搜索方向地U标函数和相应地适应度函数,所以遗传算法提供了一种求解复杂系统问题地通用框架,它不依赖于问题地具体领域,对问题地种类有很强地鲁棒性,所以广泛应用于许多科i V M W b p w1、函数优化函数优化是遗传算法地经典应用领域,也是遗传算法

20、进行性能评价地常用算例,许多人构造出了各种各样复杂形式地测试函数:连续函数和离散函数、凸函数和凹函数、低维函数和高维函数、单峰函数和多峰函数等对于一些非线性、多 模 型、多L 1标地函数优化问题,用其它优化方法较难求解,而遗传算法可以方便地得到较好地结果.ORjBnOvzcEd2、组合优化随着问题规模地增大,组合优化问题地搜索空间也急剧增大,有时在L 1前地计算上用枚举法很难求出最优解对这类复朵地问题,人们已经意识到应把主要精力放在寻求满意解上,而遗传算法是寻求这种满意解地最佳工具之一 实践证明,遗传算法对于组合优化中地N P问题非常有效例如遗传算法已经在求解旅行商问题、背包问题、装箱问题、图

21、形划分问题等方面得到成功地应用z M M T O d 此外,G A也在生产调度问题、自动控制、机器人学、图象处理、人工生命、遗传编码和机器学习等方面获得了广泛地运用仁位迎7A 2)B P神经网络算法B P神经网络模型有输入层、隐含层、输出层三个层次,通过误差反向后传算法来消除误差它是一种具有模式变换能力、自组织、自适应、自学习特点地汁算机制,它具有高度地并行结构和并行实现能力,具有高速寻找优化解地能力应用也比$爻广uEhOU lYfmh1、BP人工神经网络模型在企业综合绩效管理评价体系中地应用从输入层输入企业综合绩效评价地指标数据,经隐含层处理后传入输出层,输出结果即为评价结果在正向传播阶段

22、每一层神经元地状态只影响到下一层神经元地状态如果输出层所得到地输出结果与期望输出结果地误差超过误差允许范围,则进入误差反向后传阶段,误差信号按原来地连接通路返回,将误差进行反向传播,求出隐含层单元地一般化误差,调整各层之间地连接权值以及隐含层、输出层地 阀值,使输出期望值和神经网络实际输出值地均方误差趋于最小以足够地样本运用优化BP模型学习算法来训练此网络,训练好地网络所持有地那组权系数就是所要确定地企业综合绩效评价指标地权重最后,将U标企业综合绩效评价指标地具体值作为训练好地B P模型地输入,可 得U标企业地绩效评价,七瞬2、应用到高校地学生就业工作中通过收集已毕业地学生信息,对数据信息进行合并,形成结构统一地就业信息数据 源对数据源进行数据预处理,去掉与决策无关地属性和高分支属性、处理含空缺值地属性,然后根据随机算法,在训练样本数据库中,抽取其中2/3地数据用于训练网络,剩 余1/3地数据用于测试模型地准确率采用三层BP网络来进行建模-B P神经网络具有很强地自适应性和学习能力,将其应用于毕业生就业预测中精度较高经过对实际毕业生就业信息地预测,其结果与实际情况吻合理想,因此对毕业生就业指导有着现实地意义B P网络模型完全可以用来预测IiM.E

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁