计算机视觉工坊汇总|基于激光雷达的3D目标检测开源项目&数据集


_本文原题:汇总|基于激光雷达的3D目标检测开源项目&数据集
来源:公众号|3D视觉工坊(系投稿)作者:蒋天园「3D视觉工坊」技术交流群已经成立 , 目前大约有12000人 , 方向主要涉及3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等 。 工坊致力于干货输出 , 不做搬运工 , 为计算机视觉领域贡献自己的力量!欢迎大家一起交流成长~添加小助手微信:CV_LAB , 备注学校/公司+姓名+研究方向即可加入工坊一起学习进步 。前言
这一片文章主要介绍目前3D目标检测的一些比较重要的数据集合在github上比较好用的3D目标检测项目 。 包含了最火最热的KITTI到当前研究前沿的多模态 , 时序融合等的新数据集 。 分类方法如下 , 首先按照场景可以将数据集划分为室内和室外数据集 。 然后分别介绍目前3D目标检测室内和室外的一些常用数据集;然后介绍一些做研究容易上手的项目 , 并做一些简单的异同总结 。
数据集 室内数据集
室内3D目标检测的研究算是一项比较新的研究任务 。 目前的数据集主要有 ScanNetV2和SUN RGB-D 。
ScanNetV2
官方网址:http://www.scan-net.org/
论文链接:https://arxiv.org/abs/1702.04405
Benchmark: http://kaldir.vc.in.tum.de/scannet_benchmark/
ScanNetV2是由斯坦福大学 , 普林斯顿大学和慕尼黑工大在CVPR18SH提出的室内场景数据集 。 ScanNet是一个RGB-D视频数据集 , 可做语义分割和目标检测任务一共1513个采集场景数据(每个场景中点云数量都不一样 , 如果要用到端到端 , 可能需要采样(FPS采样) , 使每一个场景的点都相同) , 共21个类别的对象 , 其中 , 1201个场景用于训练 , 312个场景用于测试 。 数据集包含2D和3D数据 , 2D数据包括每一个场景下的N个帧(为了避免帧之间的重叠信息 , 一般取的时候隔50取一帧)2D标签和实例数据提供为.png图像文件 。 彩色图像以8位RGB的形式提供.jpg文件 , 深度图片为16位 .png文件 。 每一帧包含的信息为color , depth , instance-label , label , and corresponding pose 。 3D数据则是一系列ply文件 。
计算机视觉工坊汇总|基于激光雷达的3D目标检测开源项目&数据集
本文插图
SUN RGB-D
官方网址:http://rgbd.cs.princeton.edu/
论文链接:http://rgbd.cs.princeton.edu/paper.pdf
由普林斯顿大学提出的室内数据集 , 可分割和检测任务 。 该数据集包含10335个rgb-d图像 , 其规模与pascal voc相似 。 整个数据集都有密集的注释 , 包括146617个二维多边形注释和64595个具有精确对象方向的三维边界框 , 以及每个图像的三维房间布局和场景类别 。 该数据集是NYU depth v2 , Berkeley B3DO , and SUN3D, 三个数据集的并集 。
计算机视觉工坊汇总|基于激光雷达的3D目标检测开源项目&数据集
本文插图
室外数据集
KITTI
3D目标检测官网链接:http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=3d
论文链接:http://www.cvlibs.net/publications/Geiger2012CVPR.pdf
KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办 , 是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集 。 该数据集用于评测立体图像(stereo) , 光流(optical flow) , 视觉测距(visual odometry) , 3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能 。 KITTI包含市区、乡村和高速公路等场景采集的真实图像数据 , 每张图像中最多达15辆车和30个行人 , 还有各种程度的遮挡与截断 。 整个数据集由389对立体图像和光流图 , 39.2 km视觉测距序列以及超过200k 3D标注物体的图像组成, 以10Hz的频率采样及同步 。 总体上看 , 原始数据集被分类为’Road’, ’City’, ’Residential’, ’Campus’ 和 ’Person’ 。 对于3D物体检测 , label细分为car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram以及misc组成 。