本篇文章3672字,读完约9分钟
英文标题-
论文地址
0 .摘要
根据彩色图像估计深度是一个长期存在的不当问题,计算机视觉、图形学、机器学习行业已经研究了几十年。 在目前的技术中,立体匹配与人类的双目系统密切相关,因此是最广泛采用的技术之一。 在传统方法中,基于立体视觉的深度估计通过将人工提取的特征与多个图像匹配来进行处理。 尽管进行了广泛的研究,但这些传统方法仍然受到许多复杂的纹理区域、较大的不可区分区域和遮挡的影响。 由于成功地应对了各种2d和三维视觉问题,利用深度学习处理基于立体视觉的深度估计问题备受关注。 -2019年期间,业界发表了150多篇论文。 这种新方法在性能上有了很大的飞跃,实现了自动驾驶和增强现实( ar )等的应用。 本文对这个新的研究行业进行了全面的综述,总结了最常用的过程(),探讨了它们的特点和局限性。 回顾了他们迄今为止的研究成果,也推测了基于深度学习和立体视觉的深度推断研究未来可能的快速发展前景。
1导言
根据一张或多张彩色图像推算深度是一个长期存在的不恰当的问题,应用于机器人、自动驾驶、物体识别、场景理解、三维建模与动画、增强现实、工业控制与医学诊断等多个行业。 这个问题已经被广泛研究了几十年。 在文献中提到的所有做法中,立体匹配一直以来是研究传播最多的。 因为与人类的眼睛密切相关。
基于立体视觉的第一代深度估计方法通常依赖于由校准照相机拍摄的多个照片上的像素匹配。 这些做法可以取得很好的效果,但在很多方面都有局限性。 例如,无法解析具有遮挡、缺少特征或重复阵列的复杂纹理区域。 有兴趣的是,作为人类,我们非常善于利用先验知识来处理这种不恰当的逆问题()。 例如,可以容易地推测物体的大致大小、它们的相对位置、以及它们和我们眼睛的相对距离。 我们之所以能做到这一点,是因为我们以前看到的所有物体和场景,都获得了先验知识,建立了关于三维世界是什么样的思考模型。 第二代方法试图将问题转化为学习任务以利用这些先验知识。 随着计算机视觉中深度学习技术的出现和大数据集的普及,能够恢复丢失维度(即深度维度)的第三代方法应运而生。 虽然这些方法最近出现了,但在与计算机视觉和图形相关的各种任务中展示了令人兴奋的结果。
本副本提供了最近基于立体招聘深度学习到的全面、结构化的概述。 这些方法使用的是分布在空之间的位置上的彩色照相机拍摄的2张以上的照片。 我们收集了从年1月到2019年12月在计算机视觉、计算机图形学、机器学习前沿会议和期刊上发表的150多篇论文。 我们的目标是帮助网民充分了解这个新行业,回顾过去几年的巨大快速发展。
据我们所知,这是利用深度学习研究基于立体视觉的深度估计方法的第一个拷贝。 我们综合评述了150多篇论文,这些论文在过去6年中发表在各大会议和期刊上。
我们对所有最新的做法进行了全面的分类。 首先介绍了一般的过程(),然后讨论了各过程中所有方法的不同。
全面回顾和深入分析了问题的全方位,包括对培训数据集、互联网结构、重构绩效、培训策略、泛化能力的影响等。
作为一种重要的方法,利用通用数据集和独特的图像对性能和性能进行了测试和详细总结。 后者(即自己的图像)用于测试这些方法在新场景中的性能。
正文其余部分如下:第二节提出问题,制定分类方法。 第三节总结了可用于基于双目视觉的深度重构算法训练和测试的数据集。 第4节介绍使用深度学习匹配图像间像素的方法。 第5部分回顾了端到端的立体匹配方法,第6部分介绍了如何将这些方法扩展到多视图立体视觉。 第七节介绍了培训过程,包括损失函数的选择和监管程度。 第8部分介绍了主要方法(或主要方法)的性能。 最后,第9节讨论了潜在的未来研究方向,第10节总结了本文的首要贡献。
表1 .深度/视差估计数据集
4 .立体视觉匹配深度
图1。 立体匹配过程的构成要素
图2。 特征学习框架
5 .立体视觉的端到端深度
图4。 基于立体视觉的端到端深度学习和视差估计的互联网结构分类
图6。 多视点立体视觉方法的分类
7 .端到端的立体视觉训练方法
8 .讨论和比较
表5 .以大小的图像作为输入,计算时间和运行时的内存消耗量
注意:差的n误差被定义为估计的视差和真值之差超过n个像素的像素的比例
未来快速发展的方向
基于立体视觉的深度学习和深度估计取得了可喜的成果。 但是,这个行业还处于起步阶段,需要进一步迅速发展。 本部分介绍了一些问题,强调了未来的研究方向。
(1)摄像机参数。 本文研究的许多基于立体视觉的方法都需要校正图像。 多视图立体视觉使用-扫描体积块或反投影图像/特征。 图像校正和psv都需要已知的摄像机参数,难以在自然环境下进行推测。 多篇论文试图通过联合优化摄像机参数和三维场景的几何结构来处理单眼深度估计和三维形状重构问题[2]。 。
(2)光的条件和许多复杂材料的特征。 恶劣的照明条件和许多复杂材料的特点仍然是许多现行做法的挑战。 对象识别、高级场景理解和低级特征学习相结合可能是处理这些问题的比较有效的方法。
(3)空之间和深度分辨率。 目前,许多方法不能解决高分辨率的输入图像,一般会产生低空间分辨率和深度分辨率的深度图。 深度分辨率非常有限,无法重建植被、毛发等小结构或远离相机的结构。 精密的模块可以提高估计深度图的分辨率,但与输入图像的分辨率相比增加还太小。 最近通过分层技术处理了这个问题,该技术限制中间结果的分辨率以便根据实际需要获得不同精度的视差。 在这些方法中,低分辨率深度图可以在移动平台上采用,因此可以实时生成。 高分辨率的深度贴图需要越来越多的计算时间。 实时绘制高空之间和深度分辨率的准确地图仍然是未来研究的课题。
(4)实时解决视差估计的许多深度学习方法采用3d和4d的价格体积,通过2d和3d的卷积解决并归一化。 关于内存诉求和解决时间,非常昂贵。 开发轻量级、高收益、端到端深度的互联网仍然是未来具有挑战性的研究方向。
(5)视差范围。 过去是将视差范围统一离散化来解决。 这会引起很多问题。 特别是,重构误差在视差空之间可能很小,但是特别是在长距离的情况下,有可能导致深度空之间的米级误差。 缓解这个问题的方法之一是在对数空之间均匀地离散视差和深度。 另外,改变差异范围需要重新训练互联网。 将深度视为连续变量可能是未来研究前途光明的途径。
(六)培训。 深度互联网在很大程度上取决于标记有真实值的训练图像的可用性。 这使得深度/视差重构非常昂贵和费力。 同样,这些方法的性能和泛化功能可能会受到很大的影响,例如使模型过度适合特定行业的风险。 现有方法通过设计无需三维表示的损失函数或采用行业适应和迁移学习策略来缓解这一问题。 但是,前者需要校准的照相机。 近来,行业适应技术,特别是无监督行业[4]引起了许多关注。 因为通过采用这些技术,我们可以训练出容易得到的合成数据和实际数据。 收集新的图像后,将通过无人监管适应变化的环境。 他们早期的成果非常令人鼓舞,因此看到未来大数据集的出现,就像imagenet一样,但我们希望将其应用于3d重建。
(7)从数据中自动学习互联网结构及其激活函数和参数。 现有的研究大多集中在设计新奇的网络结构和新奇的训练方法上,优化其参数。 直到最近,一篇论文自动开始研究最佳框架。 像文献[5]这样的早期尝试,集中在单纯的互联网结构上,关于采用神经互联网进化理论[6]等更多的异视差估计结构及其激活函数的自动学习的研究将来会发生。
结论:本文综述了基于深度学习的立体视觉深度估计技术的最新快速发展。 这些技术还处于初期阶段,但已经达到了最高水平。 年以来,我们进入了一个新的时代。 在这个时代,数据驱动和机器学习技术在基于图像的深度重构中起着核心作用。 据了解,到2019年为止,在计算机视觉、计算机图形学、机器学习第一次会议和期刊上发表了150多篇相关论文。 到了投稿的最后阶段,发表的新论文一多,追踪最新动态就不容易了,更重要的是,不能很好地了解它们的异同,特别是这个行业的初学者。 因此,这个及时的评论可以为网民提供浏览快速发展的研究行业的指南。
最后,本文不涉及一些相关行业。 例如利用深度学习,基于图像的三维物体重构(韩国等最近正在研究这个[7] ),基于单眼和视频的深度估计(这5~6年间,该行业发表了很多论文,需要单独进行综述)。 。 其他行业包括光度立体学和主动双眼立体学[8],本文不讨论。
欢迎与加入微信官方账户的网民群同行交流。 目前有灌篮高手、检测、分割识别、3d视觉、医疗图像、gan、自动驾驶、计算拍摄、算法竞赛等微信群。 (以后分阶段细分)。 请扫描以下微信号添加组。 备注:“昵称学校/企业的研究方向”,如“张三上海交大愿景slam”。 请按样式注明。 不这样做的话是不会通过的。 如果添加成功,将根据研究方向被邀请进入相关微信群。 请不要在人群中做广告。 否则就出群了。 感谢您的理解。
也欢迎投稿和合作联系: simiter@126
标题:“基于双目深度估计的深度学习技术研究”
地址:http://www.hongyupm.com/gnyw/5528.html