密恐警告:超2000万张,全球最大的人眼图像数据集开源了( 二 )


最初 , 研究者对2万张具有特征点的图像进行了注释 , 并将它们转化成语义分割 。 然后 , 他们训练CNN并利用MAM算法不断进行改进 。 在5次迭代后 , ResNet50特征点转化成了语义分割并与U-Net结果进行对比 。
具体而言 , 研究者基于[30]中的方法对3D眼球和光学向量进行了注释 。 但是 , 他们没有使用椭圆形瞳孔 , 而是使用了椭圆形虹膜 , 这是因为后者仅受角膜曲率(cornealrefraction)的部分影响 。
通过结合2D特征点、分割和3D眼球模型 , 研究者对3D特征点和分割进行了几何计算 。 由于瞳孔总是位于虹膜的中心 , 他们考虑了两种不同的3D分割和3D特征点 。
眼动注释则分为了注视(眼球静止不动)、扫视(两次注视之间的快速眼动)、平滑跟随(缓慢眼动)和眨眼 。
基准评估
在实验中 , 研究者将数据分成训练集和验证集 。 为了避免训练和验证集中出现相同的实验对象 , 他们将整个记录分配给训练集和验证集的其中一个 。
对于评估环境 , 研究者将基于C++的CuDNN框架用于神经网络模型 。 测试环境硬件包括一个4核心、16GBDDR4内存的Inteli5-4570CPU和一个4GB内存的NVIDIA1050ti 。
下表3显示了特征点回归的结果 。 结果表明 , 如预期一样 , 较大模型在回归任务上更加有效 。

密恐警告:超2000万张,全球最大的人眼图像数据集开源了
文章图片
下表4得出了同样的结论 , 其中显示了眼球参数估计的结果:

密恐警告:超2000万张,全球最大的人眼图像数据集开源了
文章图片
如上表3和4所示 , 与现有规模较小的数据集相比 , 我们可以看到TEyeD数据集具有明显优势 。 这些结果还表明 , 如预期的那样 , 对现实世界场景中拍摄的图像进行跨眼球追踪(cross-eye-tracker)泛化是一项具有挑战性的任务 , 但通过结合使用TEyeD与更复杂的架构可以处理这项任务 。 因此 , 无论何时使用一种新的眼动追踪设备都可以轻松解决跨眼球追踪泛化任务 , 并且无需创建和注释新数据 。
下图5显示了语义分割的结果:

密恐警告:超2000万张,全球最大的人眼图像数据集开源了
文章图片
密恐警告:超2000万张,全球最大的人眼图像数据集开源了】下表6显示了眼动识别的结果 。 可以看到 , 注视向量在眼动分类中更加有效 , 因为它对眼动追踪器的位移做出了补偿 。

密恐警告:超2000万张,全球最大的人眼图像数据集开源了
文章图片