面向销售自动化的基于数据扩增和真实图像合成的鲁棒多目标检测( 二 ) 引用KoturwarS,ShiraishiS,IwamotoK.Ro

文章插图
图 3 模拟用于产品检测器培训的真实感图像合成的总体流程
在这项工作中，我们提出了一种数据扩增的方法，通过使用单个产品图像及其相应的掩模有效地合成真实的训练图像（图 3）。由于这种方法，我们能够减少数据采集所需的人力。尽管在（Follmann、Drost 和 Bottger 2018）中完成的一项独立工作提出了使用单个产品遮罩生成训练图像的类似方法，但他们使用的是标准背景颜色减法来生成产品遮罩。我们发现，这种方法不具有鲁棒性，而且对背景色很敏感。相比之下，我们提出了一个颜色不敏感、鲁棒的掩模生成系统，我们将在第 3.1 节中进行描述。此外，他们不能控制产品在结果图像中的相对位置，这是我们提出的方法的核心，对我们的预期用途很重要。在我们的方法中，我们通过一个称为重叠索引的参数来控制合成图像中的邻近度和遮挡。实验表明，这个特定的参数是至关重要的，需要调整。我们调整重叠指数以生成真实的训练图像，与使用每个图像包含一个产品的基本训练数据集相比，准确率和召回率分别提高了 46.2%和 40% 。我们想指出的是，这项工作只关注产品的检测（本地化），而不是产品的分类，我们将其视为一个单独的问题。
文章插图
图 4 标准差图像阈值化提取掩模
文章插图
图 5 合并单个产品
左：当新增产品与已有产品重叠时，将新产品移开现有产品；
右：由于新增产品与现有产品不重叠，将新产品移到现有产品上。
文章插图
图 6 由建议的真实图像合成生成的样本训练图像，重叠指数=0.01 。
2 相关工作在这一部分中，我们回顾了处理通用对象检测的相关工作。历史上，这方面工作的重点一直是提取手工制作的特征，如 SIFT（Lowe 2004）、HoG（Dalal 和 Triggs 2005）用于目标检测。这些方法虽然在许多情况下有用，但在检测无定形纹理的产品（如水果或非包装产品）方面并不成功。另一方面， CNN 能够对图像中的各种复杂模式进行建模。因此，最近的焦点已经转向开发复杂的 CNN 架构，如更快的 RCNN、YOLO 和 SSD 。然而，正如前一节所讨论的，这些基于 CNN 的方法并没有明确地解决遮挡和附近对象的存在问题，而是集中精力为对象开发复杂的体系结构检测。
另一项工作在（乔等。 2017）专注于超市零售产品检测的目标提议。他们通过在检测框架中集成目标尺度预测来解决邻近和遮挡问题。与以前的目标检测器一样，这种方法还提出了一种复杂的目标检测体系结构，并且需要大量的训练数据表现。不像这些方法侧重于对 CNN 结构的改进，利用数据扩增技术解决遮挡和邻近条件下的检测问题。特别地，我们合成了代表手头任务的训练图像，在本例中是以拥塞的方式放置产品。
文章插图
图 7 消融研究所用方法的样本训练图像
3 真实图像合成如前所述，在拥挤的环境下获取大量的训练图像既费时又费力，这是 POS 系统自然使用的结果。我们提出了一种图像合成方法，通过合并单独拍摄的产品图像来自动生成这些训练图像，从而大大减少了采集训练图像所需的人力。所提出的方法的可行性取决于生成的图像的真实性（与实际捕获的图像无法区分）。为了实现图像的真实感，我们的方案包括两个关键阶段：精确提取单个产品的掩模和合并单个产品。图 3 解释了真实图像合成中涉及的步骤。以下部分详细解释这些步骤。