江湖车侠|全自动实时移动端AI框架，YOLO-v4目标检测实时手机实现机器之心发布

机器之心发布
作者：马晓龙
如何助力深度神经网络在移动端「看得」更清，「跑得」更快？来自美国东北大学等机构的研究者提出一种新型全自动模式化稀疏度感知训练框架。
基于模式化稀疏度的剪枝方法能够使深度神经网络在图像识别任务中「看得」更清楚，同时减小了模型尺寸，使模型在移动端「跑得」更快，实现实时推理。
由美国东北大学王言治教授研究团队与美国威廉玛丽学院任彬教授研究团队共同提出， IBM、清华等共同研究的模式化稀疏度感知训练框架，不仅能够同时实现卷积核稀疏模式的全自动提取、模式化稀疏度的自动选择与模型训练，还证明了所提取的模式化稀疏度与理论最佳模式化稀疏度相匹配，并进一步设计了能够利用模型特点实现编译器优化的移动端推理框架，实现了大规模深度神经网络在手机移动端上的实时推理。目前，这篇文章已被ECCV2020会议收录，该文章同时入选ECCV2020demonstrationtrack 。
目前，这项技术已经广泛应用在多种类型的人工智能（AI）任务中，包括但不限于：Yolo-v4目标检测、实时相机风格迁移、AI实时换脸、相机超分辨率拍摄、视频实时上色等，并且成功落地。以上任务全部在手机端上实现。
官方网站：
B站：
接下来，我们来看论文的详细内容。
论文简介
【江湖车侠|全自动实时移动端AI框架，YOLO-v4目标检测实时手机实现】通过开发功能强大的算法和设计工具，深度神经网络（DNN）成为各个领域的最新技术，包括图像分类、计算机视觉、语音识别和目标检测。随着海量数据不断增加，应用程序日趋复杂，模型的大小也急剧增加，对算力与内存的需求与日俱增，使得深度神经网络在资源有限的移动平台上实现实时推理受到很大的挑战。
近年来，移动与边缘计算平台正在迅速取代台式机和笔记本电脑，成为深度神经网络应用程序的主要计算设备。这些移动与边缘计算设备的物理尺寸受到严格限制，并结合了此类设备需要长时间运行的要求。然而，在大规模深度神经网络实际部署时，借助现有的移动端深度神经网络推理框架依然很难实现实时推理。即便这些平台能够运行大规模深度神经网络，巨大的计算代价对计算平台的运行时长也提出了挑战。因此，研发微型化的网络模型与可通用的加速方法势在必行。
为了弥合深度学习任务的性能（推理速度）要求与目标计算平台上资源可用性之间的差距，在算法层面，深度神经网络模型剪枝技术已被证明可有效消除原始模型中的冗余，从而得到小尺寸的网络模型。当前的两种主流剪枝方案——非结构化权重剪枝和结构化权重剪枝，代表了剪枝方式的两个极端，无法在保证模型精度和泛化能力的前提下，解决硬件执行效率低下的问题。研究者认为，必须寻求一种可以提供甚至超越两种稀疏性的最佳剪枝方案。
如图1所示，研究人员可视化了VGG-16在ImageNet上的预训练模型的部分权重，并且发现（i）卷积核的有效面积（即具有较高绝对值的权重）形成一些特定形状并在模型中反复出现，（ii）某些卷积核的权重值非常小，因此并不能对输出产生有效的激活，研究人员认为这种卷积核是无效卷积核。