《机器学习实战》学习笔记（一）：机器学习基础-精品文档资料整理.docx-淘文阁

资源描述

《《机器学习实战》学习笔记（一）：机器学习基础-精品文档资料整理.docx》由会员分享，可在线阅读，更多相关《《机器学习实战》学习笔记（一）：机器学习基础-精品文档资料整理.docx（8页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、机器学习实战学习笔记（一）：机器学习基础本章内容机器学习的简单概述机器学习的主要任务学习机器学习的原因Python语言的优势 1、何谓机器学习什么是机器学习书中举了一个很有意思的例子我们来听一下就当开胃菜了。最近我以及一对夫妇共进晚餐他们问我从事什么职业我回应道 “机器学习。妻子回头问丈夫 “亲爱的什么是机器学习她的丈夫答道 “T-800型终结者。在?终结者?系列电影中 T-800是人工智能技术的反面样板工程。哈哈承包了我一天的笑点极其学习的概念到底是什么这个我们在很多博客中都又提到过。中讲到【那么什么是机器学习就是让计算机拥有学习的才能也就是根据数据积累/计

2、算经历等训练获得分析解决问题的才能。】中讲到【正如我们根据过去的经历来判断明天的天气吃货们祈望从购置经历中挑选一个好瓜那能不能让计算机帮助人类来实现这个呢机器学习正是这样的一门学科人的“经历对应计算机中的“数据让计算机来学习这些经历数据生成一个算法模型在面对新的情况中计算机便能作出有效的判断这便是机器学习。】中讲到【机器学习是实现人工智能的一种方法。大体来讲机器学习就是用算法真正解析数据不断学习然后对世界中发生的事做出判断以及预测。此时研究人员不会亲手编写软件、确定特殊指令集、然后让程序完成特殊任务相反研究人员会用大量数据以及算法“训练机器让机器学会怎样执行任

3、务。】假如你还是不清楚的话实在是很过分了在深度学习大火的如今机器学习也正是出如今人们视野中现今机器学习已应用于多个领域远超出大多数人的想象比方NLP 再比方推荐系统。机器学习在日常生活中的应用从左上角按照顺时针方向依次使用到的机器学习技术分别为人脸识别、手写数字识别、垃圾邮件过滤以及亚马逊公司的产品推荐。在本书中给出的定义是【简单地讲机器学习就是把无序的数据转换成有用的信息。】传感器以及海量数据固然已从互联网上获取了大量的人为数据但最近却涌现了更多的非人为数据。传感器技术并不时髦已经开展了好多年度的传统行业但是怎样将它们接入互联网这确实是新的挑战。地震预

4、测是一个很好的例子传感器手机了海量的数据但是怎样从这些数据中抽取出有价值的信息是一个非常值得研究的课题。机器学习非常重要在过去的半个世纪里兴旺国家的多数工作岗位都已从体力劳动转化为脑力劳动。过去的工作根本上都有明确的定义类似于把物品从A处搬到B处或在这里打个洞但是如今这类工作都在逐步消失。现今的情况具有很大的二义性类似于“最大化利润 “最小化风险、“找到最好的市场策略诸如此类的任务要求都已成为常态。固然可从互联网上获取到海量数据但这并没有简化知识工人的工作难度。针对详细任务搞懂所有相关数据的意义所在这正成为根本的技能要求。 2、关键术语通过构建下面的鸟类分类系统来对机

5、器学习领域的常用术语进展一个总结。机器学习的主要任务就是分类。怎样判断飞入进食器的鸟是不是象牙喙啄木鸟呢任何发现活的象牙喙啄木鸟的人都可以得到5万美元的奖励。这个任务就是分类有很多机器学习算法非常擅长分类。本例中的类别就是鸟的物种更详细地讲就是区分是否为象牙喙啄木鸟。我们决定使用某个机器学习算法进展分类首先需要做的是算法训练即学习怎样分类。通常我们为算法输入大量已分类数据作为算法的训练集。训练集是用于训练机器学习算法的数据样本集合表1-1是包含六个训练样本的训练集每个训练样本有4种特征体重、翼展、脚蹼以及后背颜色、一个目的变量种属目的变量是机器

6、学习算法的预测结果在分类算法中目的变量的类型通常是标称型的而在回归算法中通常是连续型的。训练样本集必须确定知道目的变量的值以便机器学习算法可以发现特征以及目的变量之间的关系。正如前文所述这里的目的变量是种属可以以简化为标称型的数值。我们通常将分类问题中的目的变量称为类别并假定分类问题只存在有限个数的类别。为了测试机器学习算法的效果通常使用两套独立的样本集训练数据以及测试数据。当机器学习程序开场运行时使用训练样本集作为算法的输入训练完成之后输入测试样本。输入测试样本时并不提供测试样本的目的变量由程序决定样本属于哪个类别。比拟

7、测试样本预测的目的变量值与实际样本类别之间的差异就可以得出算法的实际准确度。假定这个鸟类分类程序经过测试知足准确度要求是否我们就可以看到机器已经学会了怎样区分不同的鸟类了呢这局部工作称之为知识表示某些算法可以产生很容易理解的知识表示而某些算法的知识表示也许只能为计算机所理解。知识表示可以采用规那么集的形式可以以采用概率分布的形式甚至可以是训练样本集中的一个实例。在某些场合中人们可能并不想建立一个专家系统而仅仅对机器学习算法获取的信息感兴趣。此时采用何种方式表示知识就显得非常重要了。 3、机器学习的主要任务分类问题的主要任务是将实例数据划分到适宜的分类

8、中回归问题的主要任务是预测数值型数据。分类以及回归属于监视学习之所以称之为监视学习是因为这类算法必须知道预测什么即目的变量的分类信息也就是label。与监视学习相对应的是无监视学习此时数据没有类别信息也不会给定目的值。在无监视学习中将数据集合分成由类似的对象组成的多个类的经过被称为聚类将寻找描绘数据统计值的经过称之为密度估计。此外无监视学习还可以减少数据特征的维度以便我们可以使用二维或者三维图形更加直观地展示数据信息。 4、怎样选择适宜的算法从上面的表格中可以看出假如我们能确定算法的目的想要算法完成何种任务再加上确定需要分析或者手机的数据

9、是什么就能大概确定哪一个算法更合适了。首先考虑使用机器学习算法的目的。假如想要预测目的变量的值那么可以选择监视学习算法假如目的变量是离散型那么可以选择分类器算法假如目的变量是连续型的数值那么需要选择回归算法假如不想预测目的变量的值那么可以选择无监视学习算法进一步分析是否需要将数据划分为离散的组。假如这是唯一的需求那么使用聚类算法假如还需要估计数据与每个分组的相似程度那么需要使用密度估计算法。其次需要考虑的是数据问题。主要应该解析数据的以下特性特征值是离散型变量还是连续型变量特征值中是否存在缺失的值何种原因造成缺失值数据中是否存在异常值某个特征发生的频率怎样

10、是否罕见得如同海底捞针等等。一般讲来发现最好算法的关键环节是反复试错的迭代经过。 5、开发机器学习应用程序的步骤机器学习算法开发应用程序通常遵循以下的步骤。 (1) 采集数据 (2) 准备输入数据 (3) 分析输入数据 (4) 训练算法 (5) 测试算法 (6) 使用算法 6、Python 语言的优势选择Python作为实现机器学习算法的编程语言的原因 (1) Python的语法明晰 (2) 易于操作纯文本文件 (3) 使用广泛存在大量的开发文档。 7、NumPy 函数库根底机器学习算法涉及很多线性代数知识因此在使用Python语言构造机器学习应用时会经常使用NumPy函数库。假如不熟悉线性代数也不用着急这里用到线性代数只是为了简化不同的数据点上执行的一样数学运算。将数据表示为矩阵形式只需要执行简单的矩阵运算而不需要复杂的循环操作。 8、总结尽管如今引起很多人的注意但是机器学习算法其实还是一个专业的学科很多人都是道听途讲仍然有很长的路要走。随着每天我们需要处理的数据在不断地增加可以深化理解数据背后的真实含义是数据驱动产业必须具备的根本技能。假如你想走这个方向就要下定决心走到黑加油共勉。下一章我们将介绍第一个分类算法k-近邻算法。参考文章 ?机器学习实战?

展开阅读全文