《机器学习及其Python实践 (1).pdf》由会员分享,可在线阅读,更多相关《机器学习及其Python实践 (1).pdf(51页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、机器学习及其Python实践第1章 机器学习导论机器学习及其Python实践 教学内容 第1章 机器学习导论 第2章 回归分析 第3章 分类问题 第4章 统计学习理论与支持向量机 第5章 聚类问题 第6章 概率图模型与概率推理 第7章 神经网络基础 第8章 深度学习机器学习基础统计学习神经网络与深度学习第1章 机器学习导论人类的学习:发现知识、运用知识机器学习(Machine Learning,缩写ML)建立模型、应用模型 如果一个系统能够通过执行某个过程改进其性能,这就是学习。(H.A.Simon)针对特定的任务T和性能度量P,如果系统能够借助历史经验E提升性能,那么就可以说该系统具有从历史
2、经验E中学习的能力。(T.M.Mitchell)给定任务T和损失函数L(即性能度量P,或称作学习策略R),借助样本数据集D(历史数据)和学习算法A,训练出最优(损失最小)模型(用函数f表示),然后使用模型对新样本进行预测1.1 测算房价的数学模型 给定房屋面积x,如何测算其房价y呢?函数 线性函数 数学模型 线性模型 符号 :运算规则、函数值 =+.(1 1)=+,或 =+,=,或 =+.(;,1.1 测算房价的数学模型 通过样本确定模型参数 =+.(1 1)1+=12+=2,1 2.=1 21 2=1(1 21 21,1 2.(1 2)1,12,2阚道宏1.1 测算房价的数学模型 以几何形式
3、展现数学模型 机器学习 模型假设 训练、拟合、学习 预测 编程实现 =+.(1 1)+LinearModel()+fit(in x_train:double,in y_train:double)+predict(in x_test:double):double+omega:double+b:doubleL Li in ne ea ar rM Mo od de el l阚道宏1.1 测算房价的数学模型 C语言阚道宏1.1 测算房价的数学模型 C+语言1.1 测算房价的数学模型 Java语言1.1 测算房价的数学模型 Python语言 即改即运行 类库丰富 上手快“胶水”语言 库:C/C+1.2
4、随机模型及其学习算法 理想模型 带观测误差的模型 =+,(1 1)=1,1,2,2,1(1;,2(2;,(;,,或1=1;,+12=(2;,+2=(;,+。(1 6)=+,或 =+.;,=+,(1 5)1.2 随机模型及其学习算法 最优模型 最小二乘法 极大似然估计=1,1,2,2,(;,1.2 随机模型及其学习算法 最小二乘法=(;=,=(,2 =1(=1,1,2,2,如果=argmin(,则 为最优参数,,为最优模型阚道宏1.2 随机模型及其学习算法 最小二乘法 ;,=+,=1(,=1 ;,2=1(+2.(1 10),=argmin,=argmin,=1(+2.(1 11)(,=2=1+=
5、2=1 =12,(1 12)(,=2=1+=2=1 ,(1 13)=1 =121=12,=1=1,(1 14)=1,1,2,2,1.2 随机模型及其学习算法 极大似然估计x+bf(x)+xf(x)Y 0,2=+.(1 15)=+=+=.=+=+=2.1.2 随机模型及其学习算法 极大似然估计=+.(1 16)=+.(1 15)(|(,2|=12(222|;=12(;222.(1 17)阚道宏1.2 随机模型及其学习算法 极大似然估计|;=12(;222.(1 17)=1,1,2,2,;=1(|;=112(;222.(1 18)=ln(;=1ln2+=1 ;222.(1 19)=argmax(=
6、argmin(=argmin=1(;2.(1 20),=argmin,=1(+2.(1 21);,=+1.2 随机模型及其学习算法 两种数学观点 确定性观点 随机性观点 为苹果建模1.2 随机模型及其学习算法 回归分析方法 ;,=+.=0.516+0.8567.阚道宏1.2 随机模型及其学习算法 回归分析方法 ;,=+.=0.516+0.8567.1.3 随机变量与数学语言 随机变量 vs 确定性变量定义1-1(概率论):给定一个随机试验,是它的样本空间。如果对中的每个样本点,都有一个实数(与之对应,那么就把这个定义域为的单值实值函数:=(称作是一个(一维)随机变量,记作(大写)。随机变量的值
7、域记作,。从普通变量(确定性变量)到随机变量 观测过程存在误差 合并次要因素以简化模型 研究总体的规律性1.3 随机变量与数学语言 举例房屋面积:x指导价:yy=f(x)定义域xD值域yS函数 f(x)(映射 f)集合D集合S房屋面积:x指导价:yy=f(x)定义域xD值域yS函数 f(x)映射 f集合D集合S市场价:YY=y+值域P(Y=y)yS1集合S1y+E(Y)1.3 随机变量与数学语言 举例小区面积:X指导价:Y值域P(X=x)xD值域P(Y=y)yS若X=x,则Y=y=f(x)集合D集合SE(X)E(Y)Y=f(X)房屋面积:x值域xD集合D测量面积:X值域P(X=d1)d1D1集
8、合D1x+E(X)值域P(Y=y)ySy=f(d1)集合SE(Y)指导价:Y1.3 随机变量与数学语言 举例 两个随机变量X、Y 任给X,存在唯一的Y与之对应,则属于因果关系,可以用函数来表示,例如Y=f(X)任给X,存在多个Y与之对应,则属于相关关系,可以用概率分布来表示,例如P(Y|X)或P(X,Y)小区面积:X值域P(X)集合D值域P(Y|X=x)P(Y|X)或 P(Y,X)集合S市场价:Y1.3 随机变量与数学语言 确定性变量和随机变量 变量的取值 变量的均值与方差 函数值域:=1,2,=,、=、=0 =+.=+.=+=+=+=(+.1.3 随机变量与数学语言 数学语言“昔在黄帝,生而
9、神灵,弱而能言,幼而徇齐,长而敦敏,成而登天。”琴生不等式(Jensen inequality)对任意凸函数,有 .(1 22)其中,为任意随机变量。1.3 随机变量与数学语言 凸函数定义:设 为非空凸集,为定义在上的实值函数,即:,若对于任意两点1,2,及实数(0 1),都有 1+1 2 1+1 2,(1 23)则称函数为上的凸函数(convex function,下凸)。凸集x2x1x=tx1+(1-t)x2f(x2)f(x1)tf(x1)+(1-t)f(x2)f(tx1+(1-t)x2)凸函数 f1.3 随机变量与数学语言 凸集定义:设为维欧式空间中的一个集合,即 ,若对于任意两点1,2
10、,及实数(0 1),都有1+1 2,则称为凸集(convex set)。x2x1x=x2+t(x1-x2)=tx1+(1-t)x2x2x1xDx2x1xD1.3 随机变量与数学语言 证明琴生不等式引理:若函数为上的凸函数,则对于任意个点 及实数0 1,=1,2,,且=1=1,都有=1=1.(1 24)琴生不等式(离散型随机变量):设离散型变量的值域=1,2,,其概率函数为 =,则对任意凸函数,有 。.(1 22)1.3 随机变量与数学语言 琴生不等式(Jensen inequality)凸函数 凹函数 随机变量YY=f(X)E(f(x),即E(Y)随机变量XX=X凸集DE(X)xiyi=f(x
11、i)凸函数 ff(E(X)E(f(x)1.4 更加复杂的数学模型 数学形式未知的模型 数据可视化建模 数学建模1.4 更加复杂的数学模型 数学建模 新型冠状病毒COVID-19(Corona Virus Disease 2019)阚道宏1.4 更加复杂的数学模型 数学建模新型冠状病毒COVID-19 武汉市的总人口为N(已知常数)易感(Susceptible)人群:记作或 感染(Infectious)人群:记作或=.(1 30)=(1 .=0 0+0=2727+27.=argmin=118(;2.1.4 更加复杂的数学模型 数学建模新型冠状病毒COVID-19 武汉市的总人口为N(已知常数)易
12、感(Susceptible)人群:记作或 感染(Infectious)人群:记作或 康复(Recovered)人群,记作或=.(1 31)1.4 更加复杂的数学模型 多元模型 =+(1,2=11+22+(1,2,3=11+22+33+=123=1,2,3=1,2,3 =1,2,3123=11+22+33(=+.(1 35)(=.(1 36)=1,2,3,1=1,2,3,特征:1,2,3预测目标:1.4 更加复杂的数学模型 用矩阵描述问题及算法过程损失函数(=.(1 36)=1 ;2=1(11+22+2.(1 37)=1,2,=;=11+22+=12=1,2,12=1,1,2,2,=1,2,阚道
13、宏1.4 更加复杂的数学模型 用矩阵描述问题及算法过程损失函数(=.(1 36)=1 ;2=1(11+22+2.(1 37)=1,2,=;=11+22+=12=1,2,12=1,1,2,2,=,=.(1 37b)=(1,2,,=1,2,=12=111221221121121=1,2,1.4 更加复杂的数学模型 用矩阵描述问题及算法过程求最优参数=argmin =argmin .(1 38)(=2 .(1 39)2 =0.=.=1.(1 40)对向量或矩阵求导?1.4 更加复杂的数学模型 对向量或矩阵求导1.4 更加复杂的数学模型 对向量或矩阵求导1.4 更加复杂的数学模型 对向量或矩阵求导梯度
14、向量1.4 更加复杂的数学模型 对向量或矩阵求导1.4 更加复杂的数学模型 对向量或矩阵求导1.4 更加复杂的数学模型 对向量或矩阵求导1.4 更加复杂的数学模型 对向量或矩阵求导阚道宏1.4 更加复杂的数学模型 对向量或矩阵求导阚道宏1.4 更加复杂的数学模型 用矩阵描述问题及算法过程求最优参数=argmin =argmin .(1 38)(=2 .(1 39)2 =0.=.=1.(1 40)对向量或矩阵求导?(=2 1,2,1 12 2 =2 .阚道宏1.5 机器学习问题 统计学与计算机科学 机器学习与人工智能 基于:知识/特征/数据 三种机器学习问题 回归 分类 聚类模型假设 f(x;)
15、训练集Dtrain测试集Dtest损失函数L()(学习策略)最优模型(参数)f(x;*)新样本 x回归:连续值 y分类:类别 c学习算法A训练 fit预测 predict:有监督学习:有监督学习:无监督学习机器学习及其Python实践 机器学习教学的三个层面 设计层面:提出新的模型和学习算法,或者改进别人的模型与算法。其关键是数学建模(即形式化表示)及其最优化(即学习算法)编程层面:理解别人的模型与算法,能够将其编写成函数库或类库(主要是C/C+)应用层面:理解各种模型与算法的基本原理、特点和适用性,将其应用于实际问题(主要是Python)第1章 机器学习导论 本章学习要点 数学模型及其编程、Python语言 最小二乘法、极大似然估计、随机变量与随机模型、数学符号与数学语言、Jensen不等式、可视化建模与数学建模、新冠疫情的SIR传染病模型、多元模型及其矩阵表示、函数向量/矩阵及其求导