《《神经网络与深度学习》-精品文档资料整理.docx》由会员分享,可在线阅读,更多相关《《神经网络与深度学习》-精品文档资料整理.docx(13页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、神经网络与深度学习 一个人在不接触对方的情况下 通过一种特殊的方式 以及对方进展一系列的问答。假如在相当长时间内 他无法根据这些问题判断对方是人还是计算机 那么就可以认为这个计算机是智能的。 图灵测试 2.人工智能的研究领域 1.感悟 模拟人的感悟才能 语音信息处理、计算机视觉 2.学习 模拟人的学习才能 监视学习、无监视学习、强化学习等。 3.认知 模拟人的认知才能 知识表示、自然语言处理、推理、规划、决策。 3.人工智能的开展史 1.推理期 1956-60年度代末 基于逻辑以及事实规那么 出现了几何定理证明器、语言翻译器等。 2.知识期 70年度代初-80年度代中期 意识到知识对于人工智能
2、系统的重要性 构建专家知识库 出现专家系统 3.学习期 90年度代至今 让计算机自动从数据中分析并获取规律 然后进展预测 出现机器学习 machine learning 伴随着计算机运算才能的进步 神经网络重新兴起 并促进了深度学习的开展 4.人工智能的流派 1.符号主义 用符号抽象世界中的事物 用逻辑抽象世界中的规那么。 2.连接主义 模拟人类大脑神经网络 3.行为主义 控制论 模拟人的行为形式 感悟-动作 1.2 机器学习 1.机器学习是什么 机器学习是人工智能的一个分支 致力于从有限的观测数据中学习出一般性的规律 并在将来进展预测。 2.机器学习的步骤 浅层学习不涉及特征学习 机器学习的
3、特征主要通过人工方法或特征转换来抽取。特征处理是机器学习中的重点工作 对模型输入的特征的优劣直接影响模型的性能 因此很多机器学习问题演变成了特征工程 特征工程需要人类智能 。 1.数据预处理 去除噪声 2.特征提取 从原始数据中提取有效特征 3.特征转换 对特征升维以及降维 降维的方式主要有特征抽取 Feature Extration 以及特征选择 Feature Selection 。特征选择以及特征抽取有着些许的相似点 这两者到达的效果是一样的 就是试图去减少特征数据集中的属性(或称为特征)的数目 但是两者所采用的方式方法却不同 特征抽取的方法主要是通过属性间的关系 如组合不同的属性得新的
4、属性 这样就改变了原来的特征空间 而特征选择的方法是从原始特征数据集中选择出子集 是一种包含的关系 没有更改原始的特征空间。特征抽取的方法主要包括主成分分析 PCA 以及线性判别分析 LDA 特征选择的方法有Filter方法、Wrapper方法、Embedded方法。 4.预测 学习一个函数 分类、回归 1.3 表示学习 1.表示学习是什么 表示学习是机器学习经过中针对数据特征的一种技术手段。为了进步机器学习的准确率 就需要获取数据更有效地特征 假如使用人工进展抽取 工作量太大。假如有一种算法可以自动的学习出有效的特征 并最终进步机器学习模型的性能 这种学习就被称作表示学习。 2.表示学习的关
5、键是什么 表示学习的关键是解决语义鸿沟 在某种程度上反响数据的高层语义信息。语义鸿沟是指底层特征 原始数据特征 以及高层语义信息差异大。比方两个汽车的图片像素数据差异很大而在语义信息上却是相似的。 3.什么是一个好的表示 1 应该具有很强的表示才能 一样长度的向量表示更多的信息 2 使后续的学习任务变得简单 即表示出更高层的语义信息 3 具有一般性 可以迁移到其他的任务上 4.表示学习的两种方法 1 部分表示 以表示颜色为例 对人类来讲 有多少种不同的颜色就可以有多少种不同的符号来表示 比方天蓝色、海蓝色、咖啡色、土黄色.但是计算机识别不了符号 因此就用向量来表示 比方目前已知的颜色有1000
6、种 那么计算机就用一个1000维的向量来表示颜色 向量的每一个分量都代表不同的颜色 对于每一个颜色 其对应的向量中只有一个分量为1 其余均为0。一旦出现一种新的颜色 向量的维度就要加1。 部分表示在特征空间中的表达 所有的数据对象都是不同坐标轴上的点。 2 分布式表示 分布式表示选择数据对象共有的特征组成特征向量 并根据数据对象是否具有某个特征来判断该对象的类型。比方颜色共有的特征是RGB 因此分布式表示方法表示颜色仅需要一个3维向量即可表示出所有的颜色。 分布式表示在特征空间中的表达 低维空间中分散的点 部分表示 分布式表示 A 1 0 0 0 0.25 0.5 B 0 1 0 0 0.2
7、0.9 C 0 0 1 0 0.8 0.2 D 0 0 0 1 0.9 0.1 部分表示可解释性强 但是维度太高并且无法计算数据对象之间的相似度。部分表示可以通过神经网络转化为分布 5.表示学习以及传统的特征转换的区别 传统的特征转换 如PCA、LDA等方法一般是使用人为设计的规那么 并且特征学习以及最终的模型的学习是分开的 因此学习到的特征并不一定能提升模型的性能。 1.4 深度学习 1.深度学习是什么 深度学习是表示学习的学习经过加上预测经过。深度指的是学习特征要分为多步 如先学习底层特征 再学习中层特征、再学习高层特征。学习指的是表示学习的经过。 2.深度学习以及人工神经网络的关系 人工
8、神经网络是深度学习的工具 用于解决深度学习中奉献度分配的问题 选择更有效地特征 。详细方法有梯度下降 反向传播算法。 3.端到端的学习以及传统的机器学习、 传统的机器学习往往将任务分解为多个子模块 分别独立的进展优化。各个子模块的优化目的不能以及总体目的保持一致 因此效果差。而端到端的学习不必拆分子模块 整个学习经过也无须人工干预 只需要将 输入-输出 数据对输入到神经网络中 即可自行学习。 1.5 人工神经网络 1.6本书知识体系 第二章 机器学习概述 2.1 机器学习的根本概念 1.特征 选定的待识别目的的特征 如预测芒果的甜度时 选取芒果的大小、产地、品种、颜色作为特征。 2.标签 挑选
9、10000个芒果作为训练数据 标注每个芒果的特征值和测得的甜度 甜度就是每个芒果的标签 但是标签值可以是连续的可以以是不连续的 如预测芒果是好果还是坏果时 标签值就是二值的 0或者1 。 3.样本(实例) 一个芒果就是一个样本 样本 特征值 标签值 : 一个样本可看作二维数组 7.样本的独立同分布 机器学习就是要从已知的历史数据中学习到固有的规律 进而进展预测。但是在大数据时代 历史数据太过庞大。假如使用全部的数据进展学习 效率太低。因此就要在原有数据的根底上进展采样 用更少的数据 即采样数据 代表总体。我们假设采样得到的数据全部都是独立同分布的。同分布是指样本数据知足一个隐含的分布 这个隐含
10、的分布固然是未知的 但却是真实存在的 即全体历史数据知足的分布。独立是指 样本之间是互相独立的 样本1对样本2不会产生影响。知足了独立同分布以后 便可以用样本数据代替总体数据进展学习。 5.数据集 所有的样本放在一起就是数据集 一个数据集可以看成三维数组 6.训练集以及测试集 训练集用于训练模型 测试集用于测试学习到的模型 7.机器学习流程 2.2 机器学习三要素 1.模型 对于一个学习任务 我们首先要确定其输入空间以及输出空间 输入空间就是特征向量的长度 输出空间就是标签的取值范围 可以是离散的可以以是连续的。确定了输入输出空间以后 我们根本就可以学习输入以及输出之间的特定联络了 这种联络可
11、以是一个映射函数y g(x)或是一个概率分布 p(y|x) 。假设如今要学习的参数是映射函数y g(x),我们并不能确定这个函数详细多少 但是我们可以假设它的类型 线性or非线性 多项式or三角函数 并在学习经过中不断地优化参数 使其可以接近真实的映射函数。例如要预测曼哈顿楼价以及位置、楼层、面积之间的关系 我们可以假设它们之间的关系是 根据的不同取值可以得到无穷多个函数 这些函数同属于一个函数族 这个函数族就构成了我们的假设空间 而形成这个假设空间的模板函数就是模型. 常见假设空间分为线性假设空间以及非线性假设空间 对应的模型分别是线性模型以及非线性模型。 线性模型 为向量 非线性模型 为函
12、数向量 假如本身为可学习的基函数 即将看作模型 能由其他的基函数生成 可套娃 ,那么可看作神经网络模型。 2.学习准那么 学习准那么 调整参数的原那么 预测函数通过学习准那么不断地调整参数 使得整个预测函数不断地向真实函数拟合。 A.损失函数 损失函数用于计算预测值以及真实值之间的误差 常见的有0-1损失函数、平方损失函数、绝对损失函数、对数损失函数。 通过损失函数我们只能知道预测函数f(X)对于单个样本点的预测才能 借用损失函数L(Y,f(x) 损失函数越小 讲明模型对于该样本预测越准确 但是无法得知预测函数在整个训练集上的表现。这就引入了经历风险的概念。 B.经历风险 经历风险就是把训练集
13、中的所有样本的损失函数值加起来再除以样本总数。 但是假如模型按照经历风险进展计算的话 训练出的模型只能是在训练集上有较好的表现 再其他数据上的表现可能不好 因此就引出期望风险。 C.期望风险 计算预测函数对所有样本点的损失函数值的期望 但是不现实。P(x,y)是结合概率分布。 D.构造风险 既然期望风险无法计算 因此只能用经历风险代替期望风险 即用部分最优代替全局最优 当训练数据集无限大时 经历风险也就无限接近期望风险 但是由于训练数据集在实际中只是总体数据的一个子集 因此训练集并不能完美的反映总体数据 再训练集上将经历风险最小化就容易出现过拟合的问题 即在训练集上表现很好 而在测试集上表现很差。为了防止过拟合 就引入了构造风险。构造风险用于对参数个数进展限制 及减小参数空间。以学习多项式函数为例 变量个数越多 等都看作是不同的变量 而不是同一变量的不同次幂 函数越复杂 就越容易过拟合。是的L2范数 也是参数空间的大小。 L1范数以及L2范数的正那么化