密恐警告：超2000万张，全球最大的人眼图像数据集开源了涵盖2D和3D特征点、语义分割、

涵盖2D和3D特征点、语义分割、3D眼球注释以及注视向量和眼动类型等因素，德国图宾根大学的研究者创建了全球最大的人眼图像公开数据集——TEyeD 。
机器之心报道，作者：杜伟
在当今世界，基于图像的眼动追踪（eyetracking）变得越来越重要，这是因为人眼运动有可能变革我们与周围计算机系统交互的方式。此外，眼动的方式可以识别甚至在某种程度上预测我们的行动和意图，所以眼动分析可以赋能新的应用，特别是与VR或AR等现代显示技术结合时。例如，人眼注视（gaze）信号连同人机交互的可能性，使得残疾人能够借助专门为其疾症设计的特殊设备来与环境进行交互。在手术显微镜的应用场景中，外科医生必须进行多种控制行为，这时视觉信号可以用于自动对焦。人眼注视行为还可用于诊断精神分裂症、自闭症、阿尔茨海默症、青光眼等多种疾病。在VR或AR游戏中，人眼注视信号可用于减少渲染资源的计算。
除了人眼注视信息以外，对人眼的观察还可以带来更多信息源。例如人眼闭合的频率可用于衡量人的疲劳程度，这是汽车驾驶和航空飞行场景中的一种有效安全特征。另一个重要的信息源是瞳孔大小，它可以作为估计指定任务中人们认知负荷的基础，然后调整内容（如基于媒介的学习）以更好地适应人的精神状态。最后，借助虹膜特征以及个人的人眼注视行为，人眼相关的信息可以在生物识别过程中得到应用。
近日，来自德国图宾根大学的研究者创建了世界上最大的、统一人眼图像公开数据集TEyeD ，这些图像均通过头戴式设备拍摄获取。具体而言， TEyeD的创建过程中使用了七种不同的头戴式眼动追踪器，其中两个还结合了VR或AR设备。 TEyeD中的图像在不同的任务场景中获得，包括乘车、模拟飞行、户外体育运动以及日常室内活动。
此外，数据集中的人眼图像包括2D和3D特征点、语义分割、3D眼球注释以及注视向量（gazevector,GV）和眼动类型。对瞳孔、虹膜和眼睑均提供了特征点和语义分割，视频长度从几分钟到几小时不等。 TEyeD数据集拥有2000多万张精心注释的人眼图像，为推动现代VR和AR应用中计算机视觉、眼动追踪和注视估计领域的研究提供了独特且一致的资源和良好的基础。

文章图片
论文地址：https://arxiv.org/pdf/2102.02115.pdf
与现有数据集的对比
下表1列出了包含人眼特写图像的现有数据集。每个数据集处理特定的问题，例如Casia和Ubiris数据集借助虹膜识别个人。在NNVEC中，对光学向量和眼球位置的直接估计可以补偿头戴式眼动追踪器的位移。

文章图片
TEyeD通过使用7种分辨率不同的眼动追踪器结合并扩展了以前发布的数据集，合并了现有数据集提供的所有可用注释，并通过3D分割和特征点扩展了这些数据集。更具体地说， TEyeD集成的数据集包括NNGaze、LPW、GIW、ElSe、ExCuSe和PNET 。此外，来自研究[69]的完整数据也得到了精心注释。
TEyeD一共包含2000多万张图像，是全球最大、利用头戴式眼动追踪器拍摄的图像数据集。
数据集详情
下图1展示了TEyeD数据集中的示例图像。具体而言，第1和第5列包含输入图像；第2和第6列的人眼图像展示了巩膜、虹膜和瞳孔的叠加分割（overlaidsegmentation）；第3和第7列展示了输入图像的特征点，其中红色表示眼睑、绿色表示虹膜、白色表示瞳孔；第4和第8列展示了计算出的眼球以及眼球中心和注视向量。

文章图片
下图2展示了瞳孔（左）、虹膜（中）和眼睑（右）特征点的对数分布：

文章图片
下图3展示了瞳孔、虹膜和巩膜的区域分布箱形图（左），以及注视向量的对数分布（右）：

文章图片
下图4展示了眼球位置(x,y)的分布，以及映射到固定分辨率192×144的眼球半径（以像素为单位）箱形图：

文章图片
注释过程
对于TEyeD数据集中的特征点注释和语义分割，研究者同时使用了半监督方法和多注释maturation(MAM)算法。与原始算法不同，他们没有用SVM ，而是将卷积神经网络（CNN）与HOG特征相结合。此外，研究者还将迭代次数限制在了5次，并使用两个竞争模型。其中一个模型包含ResNet50 ，并使用[36]中的验证损失函数进行特征点回归训练；对于另一个模型，他们将语义分割与U-Net和残差块一起训练。