(6.1)--第六章人工智能、机器学习与深度学习.pdf

上传人:刘静 文档编号:63485121 上传时间:2022-11-25 格式:PDF 页数:108 大小:5.46MB
返回 下载 相关 举报
(6.1)--第六章人工智能、机器学习与深度学习.pdf_第1页
第1页 / 共108页
(6.1)--第六章人工智能、机器学习与深度学习.pdf_第2页
第2页 / 共108页
点击查看更多>>
资源描述

《(6.1)--第六章人工智能、机器学习与深度学习.pdf》由会员分享,可在线阅读,更多相关《(6.1)--第六章人工智能、机器学习与深度学习.pdf(108页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、人工智能、机器学习与深度学习背景知识大数据时代3亿用户,每天上亿条微博.巡天望远镜,每年收集600万GB数据2015年全球移动终端产生的数据量6300PB 海量数据的存在大数据时代大数据:规模大、变化快、种类杂4珠穆朗玛峰8.8公里飞机15公里1PB1PB数据数据:DVD:DVD存储存储约约2525公里公里1ZB=1PB106Facebook:用户规模超过10亿,每天新增数据量10TB四大微博四大微博(新浪,腾讯、搜狐和网新浪,腾讯、搜狐和网易易):用户8亿多,每天新增微博超过2亿条,图片2000万张社交类应用社交类应用百度:百度:每天新增日志数据量近1PB,数据总量近1000PBGoogle

2、:每天新处理数据总量已超过20PB搜索类应用搜索类应用数据每18月翻一番,过去数据是确定的,当前伴随人机物融合,网络信息空间网络信息空间大数据呈现大数据呈现 多样性多样性 和和 异构性异构性IDC报告:全球数据报告:全球数据2009年年0.8 ZB,2012年年 2.7 ZB,预计,预计2020年达年达35ZB图灵奖得主图灵奖得主Jim Gray和和IDC报告报告大计算时代计算能力的增强摩尔定律峰值计算速度54.9 PFLOPS峰值计算速度125.436 PFLOPS2015年5月,“天河二号”上成功进行了3万亿粒子数中微子和暗物质的宇宙学N体数值模拟,揭示了宇宙大爆炸1600万年之后至今约1

3、37亿年的漫长演化进程。知识发现的第四范式 第一范式:实验科学 几千年前的科学,以记录和描述自然现象为主,其典型案例如钻木取火、中国古代的四大发明;第二范式:理论科学 数百年前,科学家们开始利用模型归纳总结过去记录的现象,其典型案例如牛顿三定律、麦克斯韦方程组、相对论等;第三范式:计算科学 过去数十年,科学计算机的出现,诞生了“计算科学”,对复杂现象进行模拟仿真,推演出越来越多复杂的现象,其典型案例如模拟核试验、天气预报等;第四范式:数据密集型科学 今天以及未来科学的发展趋势是,随着数据量的高速增长,计算机将不仅仅能做模拟仿真,还能进行分析总结,得到理论。也就是说,过去由牛顿、爱因斯坦等科学家

4、从事的工作,未来可以由计算机来做。使用机器运行人类总结的规律实现复杂预测。知识发现的第四范式实验科学理论科学计算科学数据科学由人从自然现象(数据)中总结规律。由人将规律总结成为数学模型。使用机器完成从规律总结到复杂预测的过程。地球兄弟:Kepler-78b(距离地球400光年)巡天望远镜,每年收集600万GB数据KIC 84628521500光年外疑似戴森球第四范式 第一范式:实验科学 几千年前的科学,以记录和描述自然现象为主,其典型案例如钻木取火;第二范式:理论科学 数百年前,科学家们开始利用模型归纳总结过去记录的现象,其典型案例如牛顿三定律、麦克斯韦方程组、相对论等;第三范式:计算科学 过

5、去数十年,科学计算机的出现,诞生了“计算科学”,对复杂现象进行模拟仿真,推演出越来越多复杂的现象,其典型案例如模拟核试验、天气预报等;第四范式:数据密集型科学 今天以及未来科学的发展趋势是,随着数据量的高速增长,计算机将不仅仅能做模拟仿真,还能进行分析总结,得到理论。也就是说,过去由牛顿、爱因斯坦等科学家从事的工作,未来可以由计算机来做。智能计算机器学习模式识别数据挖掘人工智能 Tom Mitchell的机器学习(1997)对信息论中的一些概念有详细的解释,其中定义机器学习时提到,“机器学习研究的算法是能够使用经验自动改进性能”。(Machine Learning isthestudyofco

6、mputeralgorithmsthatimproveautomatically through experience.)Alpaydin(2004)提出自己对机器学习的定义,“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”(Machinelearningisprogrammingcomputerstooptimize a performance criterion using example data orpast experience.)机器学习机器学习分类问题Input:training set X,Y;testing set XOutput:Y=f(X),or P(Y|

7、X)Xy=f(x)YY有监督学习机器学习 聚类问题 Input:X Output:Y=f(X),or P(Y|X)Xy=f(x)Y无监督学习机器学习强化学习强化学习的场景代理(Agent)环境观测行为奖励不要那样做状态改变环境强化学习的场景环境观测奖励感谢.代理学会采取行动使回报的期望最大化。https:/ 奖励=0代理学会采取行动使回报的期望最大化。学习下围棋监督学习:强化学习下一步:“5-5”下一步:“3-3”走一步 继续走多步胜利!Alpha Go 包含 监督学习+强化学习.跟随老师学习从经验中学习(两个代理一起对弈.)深度强化学习 模式识别(英语:Pattern Recognition

8、),就是通过计算机用数学技术方法来研究模式的自动处理和判读。模式识别Low-level sensingPre-processingFeature extract.Feature selectionInference:prediction,recognition机器学习特征工程特征工程模式识别模式识别的任务计算机视觉医学影像分析光学文字识别自然语言处理语音识别手写识别生物特征识别人脸识别指纹识别虹膜识别文件分类互联网搜索引擎信用评分测绘学摄影测量与遥感学 模式识别(英语:Pattern Recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。模式识别Low-level

9、sensingPre-processingFeature extract.Feature selectionInference:prediction,recognition深度学习深度学习什么是数据挖掘在大型数据存储中,自动地发现有用信息的过程 探查大型数据集,发现先前未知的有用信息 或是预测未来观测结果更严谨的表述 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。如:预测某新客户是否会在一家商场消费如:预测某新客户是否会在一家商场消费100元以上?元以上?什么是数据挖掘数据挖掘 某插班生应该读几年级

10、?买哪只股票更可能挣钱?怎么才能多卖化妆品?海量文档该如何归类?行驶车辆如何预警?广告如何派送更好?.Low-level sensingPre-processingFeature extract.Feature selectionInference:prediction,recognition什么是数据挖掘PM2.5预测数据挖掘的核心任务是知识发现Knowledge Discovery in Database(KDD)数据数据:原始的原始的,未解释的信号或者符未解释的信号或者符号号,如如:1信息信息:有一定解释或意义的数据有一定解释或意义的数据,如如:S.O.S知识知识:综合信息形成的观点和普

11、适性综合信息形成的观点和普适性的理论的理论智慧智慧:能够综合知识和经验用以生存能够综合知识和经验用以生存计划的人类思维的结晶计划的人类思维的结晶一句话总结数据挖掘从数据中获取知识!为决策(应用)提供支持!数据挖掘和其它课程的关系数据挖掘是多学科交叉的产物数据挖掘数据库技术统计学高性能计算人工智能机器学习领域知识 人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能?统计学1749年人工智能1940年机器学习1946年数据挖掘1980年人工智能?人工智能的三起两落深度学习神经

12、元模型 生物神经元 神经元由两个部分构成:Input Zone(树突和胞体),Output Zone(轴突和轴突末端)。在两个神经元之间,输出细胞的轴突末端和输入细胞的树突相连接。每个神经元有两种状态:“兴奋”与“抑制”。处于“兴奋”态时,神经元发出输出脉冲,并由轴突末端传递给其他神经元。神经元平时处于“抑制”状态,其树突接受其它“兴奋”态神经元传来的兴奋电位。如果输入兴奋电位总量超过某个阈值,神经元会被激发进入兴奋状态,发出输出脉冲,并由突触传递给其他神经元。神经元模型 输入:来自其它个神经元传递过来的输入信号 处理:输入信号通过带权重的连接进行传递,神经元接受到总输入值将与神经元的阈值进行

13、比较 输出:通过激活函数的处理以得到输出神经元模型 理想激活函数是阶跃函数,0表示抑制神经元而1表示激活神经元 阶跃函数具有不连续、不光滑等不好的性质,常用的是Sigmoid 函数神经网络模型多层感知机(MLP)输入层隐藏层输出层逻辑回归逻辑回归自动化的特征学习方法自动化的特征学习方法dfx字典特征对象自动化的特征学习方法PCA 主成分分析Nx22xN2x2X自动化的特征学习方法PCA 主成分分析2x22xNN2fdx字典特征对象自动化的特征学习方法将对象分解成为一组“字典”的线性组合线性组合的权重是一种有效的特征由正交字典所产生的特征是一种非常有效的特征 信息冗余最小 稀疏性最强自动化的特征

14、学习方法存在的问题固定字典:傅立叶变换、小波变换等 优点:字典已经确定,因此特征的物理含义较为明确 缺点:固定的字典不是对所有的数据集都适用,固定的字典产生的特征不是对有所的问题都有效自学习字典:PCA、ICA等 有点:字典通过数据产生,对数据的适应性较好 缺点:字典的学习目标不明确,对问题的针对性不强基于线性/逻辑回归的预测特征1特征2特征3特征n权重f特征w权重预测结果y结果结合起来看字典特征数据X数据字典-1X特征特征权重X结果数据字典-1X特征特征权重X结果Representation Learning表征学习 特征和字典都通过学习获得,对数据有很强的适应性 学习的目标是优化一个预测问

15、题,具有很强的针对性数据字典-1特征权重结果多层神经网络数据特征结果特征特征分层的特征提取输入数据:像素初层特征:边缘中层特征:形状高层特征:物体部件马云分层的特征提取模仿了人脑的特征抽象过程深层特征由浅层特征组合而成深度学习的优势 人脑视觉机理 人的视觉系统的信息处理是分级的 高层的特征是低层特征的组合,从低层到高层的特征表示越来越抽象,越来越能表现语义或者意图 抽象层面越高,存在的可能猜测就越少,就越利于分类“深度”竞赛8 layers19 layers22 layersAlexNet(2012)VGG(2014)GoogleNet(2014)16.4%7.3%6.7%http:/cs23

16、1n.stanford.edu/slides/winter1516_lecture8.pdfAlexNet(2012)VGG(2014)GoogleNet(2014)152 layers3.57%Residual Net(2015)16.4%7.3%6.7%Special structure迪拜哈利法塔162 layers“深度”竞赛神经网络模型不同动物神经元数量的对比0100002000030000400005000060000700008000090000100000果蝇果蝇25万万家鼠家鼠7千万千万家猫家猫7亿亿黑猩猩黑猩猩32亿亿人类人类90亿亿VGG19模型模型1千千4百万百万生物生

17、物神经元神经元信息信息神经元神经元神经元连接数规模神经元连接数规模是神经元个数据的是神经元个数据的几何级数!几何级数!城市科学当中的应用智慧城市城市信息化2.0信信息息基基础础设设施施城城市市大大数数据据业务支撑业务支撑GPS一卡通手机传感器视频监控人口人口社会社会经济经济安全安全交交通通城市城市动态动态环境环境人工智能人工智能数据挖掘数据挖掘机器学习机器学习信息化1.0:将业务从物理空间转移到信息空间信息化2.0:使用数据知识实现业务升级无监督学习:聚类问题 Clustering数据集聚类结果无监督学习:聚类问题 Clustering核心思想 对给定对象集寻找一种分组方式,使得组内的各个对象

18、尽可能的相似,组间的对象差异尽可能的大。最大化Cluster之间的距离最小化Cluster的内部距离语文语文数学数学外语外语MotivationHandclapTrafficTidalSheep FlockAnimalMobilityAnimalBehaviorFish SchoolAll contain patternsMotivationPhysicalSpacePatternSpaceOur goalInput:Output:spatial-temporal patterns Which areas are in the same spatial patterns?(Community)

19、What temporal patterns exist in urban traffic?(Rhythm)How traffic occurs between spatial patterns with different temporalpatterns?(Relations between community and rhythm)Urban big dataOur WorksMap roadTaxi GPS in BeijingBeijing MapBeijing POIInput:Tools:Regularized Non-negative Tensor DecompositionO

20、utput:Spatio-temporal patternsProblem definitionOrigin-Destination-Time tensor(i,j,k)-th element:the traffic volume from i-thorigin zone to j-th destination zone in k-th time.OD networkTensorA ODT tensorTime evolving OD networkProblem definitionDecompose the tensor as three projection matrixes and a

21、 core tensorODTtensorCore tensorO projection MatrixD projection MatrixT projection MatrixSpatial pattern projectionUrban zonesUrban communitiesTemporal pattern projectionUrban rhythmUrban trafficminRegularized Non-negative Tucker DecompositionBasic Tucker decomposition Objective function(1)Challenge

22、 Values in the tensor is very sparse(only 8%non-zero elements)Urban traffic patterns have close relations with urban context,such as POI.ODT tensorO MatrixT MatrixCore tensorD MatrixModel urban contextual information Assumption:areas with similar POI information should have the similar urban structu

23、re Construct area-area similarity matrix Objective function(2)minRegularized Non-negative Tucker DecompositionRegularized Non-negative Tucker DecompositionMake patterns more explainable Non-negative constraints L1 regularization Core tensor:Only keep strong interactions Projection matrix:make each c

24、luster more meaningful and enhance uniquenessRegularized Non-negative Tucker DecompositionFinal objection function Human mobility and urban context are jointly optimized!Model urban contextual information(POI)Model traffic informationMake results sparseMake results non-negativeOptimizationBlock Coor

25、dinate Descent(BCD)Alternating Proximal Gradient(APG)ExperimentsDataBeijing GPS data GPS trajectory of 20000 Beijing taxies,2008 and 2012.Beijing traffic analysis zones map 600 zones in the 5thring road in BeijingPosition of Interesting(POI)in Beijing 380,000 points Beijing show caseODTtensorCore te

26、nsorO projection MatrixD projection MatrixT projection MatrixSpatial patternsTemporal patternsRelationsTemporal patternsMorning peakMid-dayAfter evening peakEvening peakTemporal patterns20082012Beijing show caseODTtensorCore tensorO projection MatrixD projection MatrixT projection MatrixSpatial patt

27、ernsTemporal patternsRelationsSpatial patterns20082012Spatial patterns20082012Spatial patterns20082012Spatial patterns20082012Beijing show caseODTtensorCore tensorO projection MatrixD projection MatrixT projection MatrixSpatial patternsTemporal patternsRelationsCore tensorMorningMiddayEveningNightMo

28、rningOriginDestinationMiddayOriginDestinationEveningOriginDestinationNightOriginDestinationFunction of urban zonesFunction of urban zones20082012Where is the center of Beijing?深度学习交通速度预测与拥堵分析深度学习+智能交通=?计算机视觉=+围棋=+智能交通=+?深度学习:从大数据中获取智能深度学习:从大数据中获取智能图像识别vs交通预测ObamaHillaryTrumpBush人脸照片人脸照片深度学习模型深度学习模型+

29、图图像像识识别别问问题题输出结果输出结果ImageNet世界纪录世界纪录96.5%输入矩阵输入矩阵深度学习模型深度学习模型+交交通通预预测测问问题题输出结果输出结果?低速低速高速高速深度学习交通速度预测与拥堵分析主要挑战:如何建模交通拥堵的时空相关性?如何建模突发事件对于拥堵的影响?如何寻找导致交通拥堵的关键路段?研究任务:实现精准的交通拥堵预测(服务驾驶);理解交通拥堵的成因(服务规划)No-congestionCongestion深度学习交通速度预测与拥堵分析研究思路:ErrorInput MatrixConvolution Pooling Error feedbackOutput路况数据

30、路况数据深度学习交通速度预测与拥堵分析核心贡献1:构建时空速度矩阵 VT=vs,tvs+1,tvs+m,tvs-1,tvs-m,t被预测的路段被预测的路段交通方向交通方向 v:,tv:,t-1v:,t-n vs-m,:vs+m,:vs,:时-空间速度矩阵空间空间时时间间there exist a number of local patterns(spatio-temporal trends)in the spatio-temporal input matrixSpatio-temporal?trendsConvolution layer:using several filters to con

31、volute the input matrixPooling layer:using average pooling to down sampling the convolution neuro matrix深度学习交通速度预测与拥堵分析核心贡献2:采用带误差反馈的递归神经网络,应对交通突发事件ErrorLILCLPLeRLOInput MatrixConvolution Pooling Error feedbackOutputError feedback recurrent neural networkeRNN带误差反馈的递归神经网络带误差反馈的递归神经网络预测误差深度学习交通速度预测与拥堵

32、分析Error feedback recurrent neural network带误差反馈的递归神经网络(eRNN)卷积信息子层+误差反馈子层eRNN隐藏层公式LoutLhiddenLinLoutLhiddenLinRecurrentLoutLhiddenLinErrorError FeedbackNNRNNeRNNRecurrent深度学习交通速度预测与拥堵分析核心贡献3:在模型训练中,使用迁移学习引入类似路段的数据知识,避免过度拟合建国门桥数据东直门桥数据国贸桥数据预训练预训练模型模型Transfer learning迁移学习迁移学习最终预测最终预测模型模型西直门西直门立交桥立交桥起因:

33、每个road segment需要一个预测模型!甚至还要细分时段!但只有有限的训练数据!深度学习交通速度预测与拥堵分析应用:北京二、三环车速预测(基于2013年11月工作日6万辆出租车数据;400米设为一个路段;每个路段的平均速度每隔5分钟更新一次)在不同场景和指标下,预测误差均小于现有算法。实用场景下预测误差4km/h接近GPS终端的采样误差。平均速度预测:二环瞬时速度预测:二环ARIMA:Auto Regression Integrated Moving Average;SVR:Support Vector Regression;SAE:Stacked Auto Encoders;1D-CN

34、N:1D Convolutional Neural Network;CNN:Convolutional Neural Network深度学习交通速度预测与拥堵分析典型应用:准确预测突发事件造成的交通拥堵交通事故晚高峰结束速度恢复真实速度带反馈不带反馈深度学习交通速度预测与拥堵分析典型应用:迁移学习避免过度拟合,提高预测精度深度学习交通速度预测与拥堵分析典型应用:评估道路影响力Yj=fX1道路1的速度X2道路2的速度Xi道路 i 的速度.被预测的道路 j 的速度路段 i 对被预测路段 j 的影响力。路段 i 的重要性:对所有路段的总体影响力。1深度学习交通速度预测与拥堵分析对环路交通拥堵影响最大路段:环路的拐弯与主要高速衔接处典型应用:评估道路影响力第一类路段第二类路段全路网路段重要性分析,重要性高的路段主要分布在环路、立交桥及几个主要进出城道路。G6高速公路G104高速公路G106高速公路S315姚家园路朝阳北路四惠桥公主坟北京西站S213阜成门国贸S11三元桥S315G104高速公路G106高速公路G6高速公路四惠桥京通快速路朝阳北路G109高速公路G4高速公路G1高速公路三里屯蓟门桥深度学习交通速度预测与拥堵分析典型应用:评估道路影响力谢 谢

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁