《基于增量计算的大规模场景致密语义地图构建-江文婷.pdf》由会员分享,可在线阅读,更多相关《基于增量计算的大规模场景致密语义地图构建-江文婷.pdf(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第50卷第2期201 6年2月浙 江 大 学 学 报(工学版)Journal of Zhang University(Engineering Science)V0150 No2Feb2016DOI:103785jissn1008973X201602026基于增量计算的大规模场景致密语义地图构建江文婷12,龚小谨12,刘济林12(1浙江大学信息与电子工程学系,浙江杭州310027;2浙江省综合信息网技术重点实验室,浙江杭州310027)摘要:为了准确而高效地进行大规模场景理解,提出基于增量计算的条件随机场下的大规模场景致密语义地图构建方法该方法利用双目视觉估算相机运动轨迹,根据图像序列语义标注结
2、果构建语义地图递增的语义地图的构建过程是关键,需要检测致密化处理后的输入帧相较于前一帧的新增体素,对新增体素内部三维点过分割成超体素,利用前后多帧的标注结果指导超体素的标注,如此逐帧地将新增体素融合到语义地图中该方法将时序上的先验信息作为条件随机场中的数据项,依据超体素的邻接关系定义平滑项,利用图割法求解新增超体素的标签实验表明,该方法能够获取准确的大规模语义地图,有效减少对冗余点的处理,改善图像上的标注结果关键词:大规模;语义地图;增量;超体素;条件随机场;致密点云中图分类号:TP 2426 文献标志码:A 文章编号:1008973X(2016)02038507Incremental lar
3、ge scale dense semantic mappingJIANG Wen-rin91”,GONG Xiao-jinl”,LIU Jilinl2(1Department of Information Science and Electronic Engineering,Zhejiang University,Hangzhou 310027,China;2Zhejiang Provincial Key Laboratory of Information Network Technology,Hangzhou 310027,China)Abstract:In order to efficie
4、ntly achieve accurate largescale scene understanding result,A new large scaledense semantic mapping system was proposedThe system constructed a map by incrementally calculatingwith a conditional random field modelThe method used stereo visual odometry to get the motion of thecamera,and used the labe
5、led image sequences to build semantic mapThe key point was tO incrementallybuild the semantic map which detected newly built voxels,oversegment the points within these voxels intosupervoxels,labeled these supervoxels under the guidance of neighboring frames and used the rigidtransformation matrix to
6、 fuse the newly labeled points with the already built mapA conditional randomfield model was constructed which took labeling results of sequential frames as the data term,took thecoherent labeling constraint between neighboring supervoxels as the pairwise term and solved the model bygraph cutExperim
7、ental evaluations show that the approach can get an accurate large scale semantic mapand decrease computational cost,The approach can improve the labeling results at image levelKey words:large-scale;semantic map;incremental;supervoxel;conditional random field;dense point cloud即时定位与地图构建(SLAM)技术通过安装在自
8、主车上的传感器获得的信息(如三维点云和图像等),在定位传感器自身位置的同时构建周围的场景地图1|该技术目前的主要研究热点是对大范围场景的快速定位与三维重建,但仅有少部分的工作对地图信息进行了语义理解21本项目旨在构建大规模场景的语义地图,为自动驾驶、环境勘探等应用提供更为丰富和全面的信息。牧稿日期:20150515 浙江大学学报工学版J网址:WWWjournalszjueducneng基金项目:国家自然科学基金青年基金资助项目(61001171),国家“863”高技术研究发展计划资助项目(2014AA09A510)作者简介:江文婷(1990一),女,硕士生,从事大规模场景理解相关研究ORCID
9、:0000000272610532E-mail:3090103585zjueduCFI通信联系人:龚小谨,女副教授ORCID:0000000199553569Email:gongxjzjueducn万方数据386 浙 江 大 学 学 报(工学版) 第50卷传统语义地图的构建方法按照构建策略可分为将二维图像标注结果映射到三维地图的模式和二维语义理解与三维重建联合求解的模式等;按照表达方式则可分为网格(Mesh)和立体体素(Voxel)31的表示等Sunando等241分别利用条件随机场(CRF)模型和非参数化的方法标注二维图像,然后直接把标注结果映射到重建后的三维地图上其中,Sunando等口1
10、采用了网格化的表示方式,Hu等4则利用立体体素来表示三维地图这2个工作均在图像上有较好的标注结果,但是将标注结果直接映射到三维地图上会带来语义地图的不连续性因此,Abhijit等5提出了联合语义分割及三维地图构建的方法,这种方法使得三维重建过程和语义分割能相互指导,但是需要对整个场景所有立体体素进行分类标注,影响了建模和求解的速度本文提出并实现了基于增量计算的大规模场景致密语义地图构建的方法,该方法相比传统方法能更有效地利用时序性来构建紧致的语义地图,同时减除突变的帧间标注结果基于增量计算的大规模场景致密语义地图构建方法的主要思想是通过双目视觉里程计估算相机运动轨迹,再根据融合彩色图和三维点的
11、方法获取单帧图像标注结果,在地图构建过程中,对输入的逐帧点云致密化处理后检测新增体素,将新增体素过分割为超体素(Supervoxe1)6,再根据时序上帧问连续性及超体素邻接关系构建条件随机场,最终利用图割法(Graphcut)71求解语义标注结果,如此不断融合所有帧的新增点云后得到大规模的、致密的三维语义地图1语义地图构建框架本系统的地图构建采用双目相机和激光雷达相结合的方式基于增量计算的语义地图构建流程为:1)利用双目视觉里程计估算相机运动轨迹;2)利用融合彩色图像和激光雷达三维点云的方法对图像进行语义标注;3)对输入的逐帧点云进行致密化处理;4)基于增量计算的策略构建语义地图第4步中首先检
12、测新增体素并进行超体素表达,然后利用条件随机场获取超体素的分类标注结果,最后不断地将新增点的标注结果加入到已建立的语义地图,具体的构建流程如图1所示需要说明的是,以上前2步可在离线状态下完成对整个序列的操作递增地语义地图构建方法体现在整个语义地图的构建过程只需标注和拼接检测到的新增体素,主要目的是提高语义地图的连续性以及避免直接拼接全部点云导致的内存开销过大的问题TLBBA视觉里程计由于考虑到相机运动估算的运算效率和精度,本文采用项目组开发的基于两阶段局部双目光束法平差(two-stage local binocular BA,TLBBA)83的视觉里程计方法来估算相机的运动轨迹其流程为:1)
13、获取双目图像,并对左右图进行特征点检测和匹配,估算特征点对应的三维位置;2)获取新的图像对,对前后帧检测到的特征点进行匹配跟踪来估计相机的运动信息,包括计算旋转和平移矩阵;3)通过两阶段优化的光束法平差(bundle adjustment,BA)93来优化较长序列的运动信息其中,第1阶段对两帧之间的三维点位置和运动参数进行迭代优化;第2阶段则对相连若干帧进行光束法平差,以便在不增加太多计算量的同时提高运动估计的准确度目前该方法的性能在Geiger等1叩数据集的里程计评测中排名前十,在数据集所有序列的评测中,其平移的平均误差为136,旋转的输入j帧t?ij眨z,?ff机f辽霄图l 基于增量计算的
14、大规模场景致密语义地图构建流程Fig1 Franlework of incremental dense semantic mapping万方数据第2期 江文婷,等:基于增量计算的大规模场景致密语义地图构建平均误差为0003 8 o)m,为后续的三维重建提供了相对准确的位姿信息3单帧图像语义标注采用融合彩色图像和激光雷达三维点云信息的方法11标注各帧图像:首先进行3D点云聚类并提取特征,然后采用卷积递归神经元网络(convolu-tional recursive neural network,CRNN)的方法学习其类别先验,再根据融合RGB和雷达点信息设计条件随机场模型,最后通过图割法联合求解图
15、像的分割和类别标注其中,CRNN利用人工标注的13 765张图中的70进行语义训练,剩余的用于测试虽然基于单帧标注结果的平均准确率较高,但是在时序上会出现标注的突变,该突变通过本文结合时序的大规模语义场景构建策略可得到改善4三维点云致密化由于激光雷达的三维点云相对稀疏,不能很好地表示场景的三维信息因此,本文首先对点云进行致密化处理,其主要流程为:利用透视投影将三维点投影到图像平面得到稀疏深度图像,再利用基于各向异性扩散的、彩色图像指导的深度图像升采样方法12对深度图进行升采样,最后将深度值反投影到三维空间中得到具有图像分辨率的、相对致密的三维点云由此,图像上每个像素都有对应的三维点,由于天空深
16、度值为无穷,需要去掉天空部分的点云再进行地图构建如图2所示为单帧三维点致密化处理,图中从上到下分别显示了二维图像和对应的稀疏三维点云、投影后得到的稀疏深度图、升采样后的致密深度图、以及致密三维点云(可以适当放大查看细节)5基于增量计算的语义地图构建如何有效地结合时序信息来融合单帧图像的标注,从而构建大场景语义地图是本文研究的重点本文构建语义地图的主要流程为:首先检测输入帧的新增点,再根据时序上的先验信息对新增点进行语义标注,最后根据相机位置信息将分类结果融合到已建立的语义地图上,如此逐帧操作最后获得整个场景的语义地图由于构建地图过程中运动物体会在地图中出现重影,在呈现大场景的语义地图时本文根据
17、图像中的标注结果去掉了语义标签结果为运图2单顿三维点致密化处理Fig2 Upsampling result of point clouds in frame动物体(如车辆等)的点云,该过程不影响静态部分的地图构建在单帧图像中静止的物体在整个序列中也是潜在的运动目标,因此即使是当前帧静止的潜在运动目标,本文也将其去除51检测新增点由于激光雷达每帧扫到的点云一般不会完全重合,如果将后一帧与前一帧不重合的点云作为新增的待标注的点,那么几乎所有的后一帧数据都被检测为新增点,无法起到降低存储量,提高帧间连续性的作用因此本文将已构建好的地图Mo进行立体体素表达并用八叉树数据结构存储,当新增的一帧点云数据m
18、i输入时,同样对该点云数据用立体体素表达,由于相邻帧立体体素之间的差异较少,通过检测前后帧立体体素之间的差异,就能找到新增的立体体素该过程的主要思想是保持原本的八叉树的所有叶子结点,当新增点云输人时,检测这些三维点是否属于原本的叶子结点,仅对点云中不属于其中任何叶子结点的部分添加新的叶子结点,这些新增的叶子结点(即新增的立体体素)中包含的三维点就是新增的三维点52标注新增点如果将检测到的每一个新增点作为结点求解语万方数据388 浙 江 大 学 学报(工学gt) 第50卷义类别会带来巨大计算量,同时产生不一致的局部类别,因此,本文对新增点进行超体素表达后再进行语义标注521超体素表达 超体素类似
19、于图像级的超像素131的概念,即三维中具有局部一致性的点云的集合本文采用文献6的方法对新增的体素进行过分割,得到超体素三维空间中超体素的表达优势在于:1)保持每个分割块的语义分类结果的一致性,使标注具有局部稳定性;2)将超体素作为结点建立条件随机场优化标注结果,可提高运算效率并提升准确度522超体素语义标注 本文采用条件随机场对新增点进行标注:将每块超体素作为结点构建图G(V,),结点u:V代表一个超体素,边e。,e代表该超体素及其相邻接的超体素的连线对每个结点计算其类别zi的超体素分类问题转化为最小化如下能量方程的优化问题E(L)一驴i(z,)+A驴o(z。,lj) (1)y 。i式中:L=
20、li,i一1,M,为所有M个超体素的标注结果,蛾(z。)为数据项,幽(Z。,l,)为平滑项,具体设计方法见下文,A为2项之间的平衡因子,整个优化问题可以通过图割法快速求解1)数据项 数据项定义为把超体素让标记为标签z。的置信度本文通过把当前新增的每一个超体素ui的中心c,投影到前后K帧图像上,对投影得到的竹。个点,J一1,2,行。的标签做统计投影得到的点中标签为P的比例越大则认为超体素移。类别为P的可能性越大:妒i(1i刮一-In陧竺竺二H lK J(2)式中:label(cij)为投影点c。的标签,T()定义为Tc一,一i5 2)平滑项 三维点云中的超体素之间如果距离小于一定阈值且距离越近,
21、那么它们之间的标签更倾向于一致,对于每个超体素口i,找艘i个与其最近的超体素,对门i中的每一个超像素u,平滑项定义:咖;i(Z。,Zi)一exp f一坦盟掣1W(W lilj)(4)I一2可。2 J () (4)式中:F(vi)和F(73i)分别代表u,Oj上提取的特征(如FPFH、Span Image等特征),在本文中暂时使用的是可。,Vj的中心点f:,c,W()定义为6实验结果与分析(5)61实验设置主要在KITTI数据集上进行实验,该数据集提供了每一帧的双目图像以及相应的64线激光雷达数据,其中图像分辨率为3751 242,雷达点为360。范围内一定高度的稀疏三维点,该雷达的水平方向视场
22、(Field of View)范围为360。,垂直方向的视场范围为268。,对于反射率约为010的道路等测量对象的有效距离为50 m,对于反射率约为080的车辆、植物等测量对象的有效距离为120 m为了利用现有的单帧标注结果构建大范围的语义地图,本文选择了图像视角(FOV)下的三维点云由于基于不同的单帧标注结果构建的语义地图不同,本文主要通过实验验证基于增量计算的策略构建语义地图的完整性及其带来的优势在算法实现中,模型中相关参数设置如下:K=5,A=01,盯一10在检测新增点、新增点分类等过程中为了增加三维点的处理效率,本文利用八叉树(Oetree)L141的数据结构来8个立体体素,再对每个立
23、体体素划分为8个更小的立体体素,如此直到最小的立体体素的尺寸达到分割要求每个立体体素内包含的三维点就可以近似地用该立体体素来表达,通过八叉树能更快地索引、删除或者增加新的体素62定性分析主要展示构建的大场景语义地图在全局和局部的效果,同时比较结合时序信息的大场景语义地图的单帧标注结果和原始的单帧标注结果。其中获取结合时序信息的大场景语义地图的单帧图像标注结果的具体方法是:对于地图中的一帧致密点云,首先通过52节方法获取其中新增点的分类结果,其他与前一帧一致的点云则根据其在前一帧中的体素的位置,将该位置的体素的标签(中心点标签)作为该点云的标签,这样就获得了融合时序信息的当前帧的致密点云的全部标
24、签结果,最后投影到图像上得到图像的标签结果如图3所示中呈现了KITTI数据集城市场景中20110926一drive一0056序列的大场景语义结果该场景由294帧图像和对应的点云组成该场景分为天空、地面、背景、车辆、草地、杆子等6个语义类别,具体颜色标签详见图3右下侧图3上半部分从左到右依次是真实的点云场景、稀疏点云的语义万方数据第2期 江文婷,等:基于增量计算的大规模场景致密语义地图构建 389标注结果、致密处理后的标注结果以及从大场景中选取的第3帧和第132帧点云投影到图像上的结果,左下角分别是稀疏和致密的点云的语义标注结果中的部分细节由于构建地图过程中运动物体会在地图中出现重影,两幅语义地
25、图及其分别对应的细节中均去除了语义标签结果为运动物体的点云可见大场景的标注工作能从图像级到整个场景有更全面的理解如图4所示显示使用时序信息能改善单帧图像的标注结果从上到下依次为真实场景的RGB图像、图像标注真值、单帧标注结果和结合时序后的标注结果,可见结合时序的标注结果很大程度上消除了单帧结果中的错误标签原因在于:在单帧图像的标注过程中,一方面仅利用图像RGB信息做图像标注无法在物体边缘有很好的把握度,另一方面利用三维点云虽然可以提供准确的三维位置信息,但是由于三维点云比较稀疏,且只能扫到一定高度的物体,无法全面地指导图像标注因此,单帧的标注会在图像一定高度以上以及部分细节上出现标注错误而进行
26、大场景理解能够充分利用时序上的先验知识,纠正连续帧出现标注突变的错误,实现图像上标注结果的一致性63定量分析通过3方面来定量分析实验结果:首先分析计算增量的策略减少冗余点数量;其次,在连续帧图像上比较增加时序信息的图像标注结果与原始图像标注结果的准确率及比较各类别平均准确率由于致密的点云数据量巨大,每帧点云约有47万- -sky l衄grassbuiliding瞄图3 大场景语义地图构建及改善的单帧标注结果Fig3 Semantic map of large scale scene and some labeling results of newly labeled images一mrji-I
27、K一14口图4语义地图构建对单帧标注结果的改善Improvement of image classification from building of semantic mj雾万方数据390 浙 江 大 学 学 报(工学版) 第50卷个点,对于20110926一drive一0056序列来说直接拼接序列内的所有帧需要处理约1亿4千万个点,利用计算增量地构建语义地图的方法,平均每帧递增的点数约为7万多点,总共需要处理的点数减少为原来的20以下(包括天空部分)通过随机选取294帧图像中的52帧进行人工标注类别真值,计算原始图像标注的准确率以及大场景融合后重新标注的该52帧点云投影到单帧图像上的标注准
28、确率(去掉天空部分),结果如图5所示(横坐标代表52帧图像分别对应的图像标号N,纵坐标代表图像上语义标注的准确率艿)这里标注的准确率定义为(以类别l为例):类别l的准确率一所有标注为类别l的像素中正确的像素个数 ,所有标注为类别1的像素个数 ”图5连续图像帧标注准确率比较可见,由于大场景理解的操作是在单帧结果的基础上进行的,两者的结果在变化幅度上有一致性,前者在后者正确率下降很大的点处有较好的纠正作用如表1所示显示各类别的平均准确率:结合时序信息的大场景语义地图的单帧标注结果比原始的单帧标注结果有一定优势,主要体现在如背景、草坪等类别上的准确率提高但是车辆等运动物体通过连续帧信息直接指导会带来
29、误导从整体上说基于增量计算的大场景理解在图像标注准确率上有较大的改善,约提升8如表2所示为平均处理一帧对应的相机位置估计、单帧标注、三维点云致密化、新增点检测(体素分辨率为10 m)、新增点标注(包括数据项和平滑项的计算以及Graph Cuts求解)等各子模块的处理时间t以及总的处理时间t。,其中单帧标注采用的是论文11的源代码(利用MatlabC混编的代码实现),其余部分采用C+代码实现(语义地图构建过程的代码未进行GPU等加速处理),PC配置为Inter Core i5-3570以及8G内存可见,计算时间主要集中在结合CRNN的单帧标注上,本文提出的增量计算的语义地图构建的时间相对较短表l
30、各类别准确率比较Tab1 Comparison of every categoryS accuracy7 结语从理论分析到实验验证,可以归纳得如下结论:本方法的实现有助于得到全局的大规模场景语义信息且改善图像的标注结果;同时,通过增量计算的策略和超体素化的表达方式能够提高处理效率同时提高分类结果准确度;此外,结合时序信息及超体素之间连续性的条件随机场的构建能有效地优化分类结果后续的工作将考虑不仅要将图像级语义结合到语义地图的构建中,还要将其有效结合到相机位置估算中,从而得到更统一的,构建更完善的语义地万方数据第2期 江文婷,等:基于增量计算的大规模场景致密语义地图构建 391图,同时不断提高地
31、图构建的运算效率参考文献(References):r 1BAILEY T,DURRANT-WHYTE HSimultaneous 10calization and mapping(SI。AM):Part II I-JRobotics&Automation Magazine,2006,13(3):108117I-z3 SENGUPTA S,GREVESON E,SHAHROKNI A,et a1Urban 3dsemantic modelling using stereo vision EcC0nlImler Vision-ICIAKarlsruhe:IEEE,2013:5805853谭光华三维
32、几何模型的形状编辑技术研究D杭州:浙江大学,2009:317TAN GuanghuaStudies on shape editing techniquesof3d geometric modelsHangzhou:Zhejiang University,2009:3174HE Hu,UPCROFT BNonparametric semantic segmentation for 3dstreet scenesCIEEE IROSTokyo:IEEE,2013:36973703r5KUNDU A,LI Y,DELLAERT F,LI F,et a1Jointsemantic segmentati
33、on and 3d reconstruction from monocular videoCComputer Vision-ECCVZurich:Springer,2014:7037186PAPON J,ABRAMOV A,SCHOELER M,WORGOTTER FVoxel cloud connectivity segmentation-supervoxels for point cloudsCIEEE CVPRPortland,OR:IEEE,2013:202720347BOYKOV Y,JOLLY MInteractive graph cuts for optimal boundary
34、region segmentation of objects in ndimagesCIEEE ICCVVancouver,BC:IEEE,200I:105一11283 LU W,XIANG Z,LIU JHighperformance visualodometry with twostage local binocular EcIEEEIVGold Coast,QI。D:IEEE,2013:110711129TRIGGS B,MCI。AUCHI。AN P F,HARTLEY R I,FITZGIBBON A WBundle adj ustmenta modernsynthesisCVisio
35、n algorithms:theory and practiceCorfu,Greece:Springer,2000:29837210GEIGER A,LENZ P,URTASUN RAre we readyfor autonomous driving?the kitti vision benchmarksuite E cf IEEE CVPRProvidence,RI I Springer,2012:33543361113 HUANG Wenqi,GONG XiaojinFusion based holistic road scene understandingEBOL(20140629)-
36、201507223 http Iarxivorgpdf14067525pdf12LIU Junyi,GONG XiaojinGuided depth enhancement via an isotropic diffusionCAdvances in Multimedia Information Processing(PCM)Nanjing。China:Springer,2013:40841713GOULD S,FULTON R,KOLI。ER DDecomposing ascene into geometric and semantically consistent regionsCIEEE
37、 ICCVKyoto:IEEE,2009:1814HORNUNG A,wURM K M,BENNEWITZ M,STACHNISS C,et a1OctoMap:an efficient probabilistic 3d mapping framework based on octreesJAutonomous Robots,2013,34(3):189206_,_,_,”d_-_1_。1。n_”41Hlmq hn“_nIHlib-it。 _|。_H目-_。H”下期论文摘要预登基于液压变压器的TBM刀盘混合驱动系统刘 统,龚国芳,彭 左,吴伟强,彭雄斌(浙江大学流体动力与机电系统国家重点实验室
38、,浙江杭州310027)摘要:摘要:针对全断面硬岩隧道掘进机(TBM)电机驱动系统脱困扭矩不足、欠负载工作效率低等问题,提出基于液压变压器(HF)的二次调节系统协同变频电机的刀盘混合驱动方案通过分析液压变压器的工作原理并建立数学模型,基于直径为25m TBM实验台的性能要求,在AMEsim软件平台上搭建液压变压器超级元件模型并进行二次调节系统的性能验证采用插值查表法反算控制角度实时控制变压器在蓄能器充放时的输入输出压力稳定,引入变比例系数PID闭环控制提高压力控制精度仿真结果表明:通过调节液压变压器的变压比能实现二次调节泵马达对蓄能器的精确低压充能和高压释放,压力控制误差在2以内,典型工况下刀盘驱动系统效率可提高499关键词:TBM;刀盘混合驱动;液压变压器;二次调节;AMESim仿真万方数据