clearview ai|10亿张人脸数据被抓取,我们正面对无处不在的“偷脸”( 二 )


【clearview ai|10亿张人脸数据被抓取,我们正面对无处不在的“偷脸”】数据采集是人脸识别产业的最前端 , 因为人脸识别的准确度 , 需要靠大量的人脸数据来“投喂” 。 多位技术人员告诉《中国新闻周刊》 , 技术发展早期 , 数据主要来自于机构或者高校实验室的公开数据集 , 公司找志愿者有偿采集也是重要途径 。
云从科技相关负责人告诉《中国新闻周刊》 , 云从科技为此构建了一个由91个摄像头组成的矩阵用于全方位采集人脸 , 2年时间采集了1000个人 , 每个人产生了20万张图片 , 共计2亿张图片 。 采集的人脸数据场景也非常丰富 , 包括不同表情和服饰 , 比如闭眼、皱眉、微笑、大笑、戴眼镜、戴帽子等等 。 另外还会搜集不同光线环境下的数据 , 例如逆光、背光、阴阳脸等 。
但线下采集的数据远远不够 , 云从科技还从网络抓取了1000万人大概10亿张人脸数据 , 加入到机器学习的数据库中 。 基于这些海量的数据 , 公司人脸识别准确率从68%上升到99% 。
使用爬虫工具抓取互联网上公开的照片 , 成为整个行业的普遍做法 。 中科院计算所研究员山世光研究计算机视觉和机器学习 , 也是人脸识别公司中科视拓的创始人之一 。 他曾告诉《中国新闻周刊》 , 人们在网站上传照片 , 如果能找到两三张或者十几张照片 , 这个人的数据就可以用来给算法做能力建设 。 这些数据包括一些明星、体育运动员、政治人物的照片 , 也包含普通人的照片 , 数量庞大 。
黄昊(化名)曾在微软研究院工作 , 他告诉《中国新闻周刊》 , 现在人脸识别模型最需要质量较差的数据 , 比如大角度的照片、光照不好的照片、年龄跨度较大的照片等 。 这些公司很少再爬取社交网站上摆拍的、质量较高的照片 , 而是直接在生活场景中主动放置摄像头拍摄和识别 , 这种无配合的数据效果最佳 。
多位人脸识别从业人员都提到 , 在人脸识别技术上 , 中国之所以走在世界前列 , 一定程度上得益于互联网上的大量数据以及相对宽松的网络环境 。 在他们看来 , 互联网上的照片是“主动公开的” , 拿这些数据锻炼算法“不算侵犯隐私” , 公司并不会获取除人脸外的其他个人信息 。
中国科学院自动化所研究员、北京智源人工智能研究院AI伦理中心主任、国家新一代人工智能治理专委会委员曾毅认为 , 这种爬虫的做法并不合理合法 , “我甚至难以相信 , 技术公司只是单纯采集照片 , 不拿走网站上其他的个人信息 。 ”他解释 , 在网上抓取的数据需要先整理和标注 , 再提供给算法训练 。 标注中 , 一张图可以有许多分类 , 比如女性、成年人、亚洲人等 。 曾毅指出 , 社交网站上有一些数据信息 , 比如生日、毕业院校、职业等 , 都可以赋予照片解释 , 用来帮助数据标注 。
这种做法在国外也引发了争议 。 澳大利亚摄影师Georg Holzer是Flickr(图片分享网站)的用户 , 他喜欢把照片发布在网站 , 并同意将照片免费共享给非营利组织和艺术家 。 但是 , 让他意外和反感的是 , 巨头公司IBM在未经他同意的情况下 , 拿走了他拍摄的照片 , 也包括网站上其他数百万张照片 , 用以锻炼人脸识别技术的准确度 。
这是NBC(美国国家广播公司)的一则报道 , 指出了人脸识别行业的潜规则:IBM以及数十家研究机构免费采集网上的公开照片 , 用以锻炼算法 , 而照片中的人和摄影师并不知情 , 想要删除自己的照片 , 更是几乎不可能 。
今年1月 , 美国一家面部识别软件公司Clearview AI遭遇行业声讨 。 该公司发明了一款人脸识别的应用程序 , 使用者只需上传一个人的照片 , 就能搜索出这个人在网络上的公开照片以及网页链接 。 更让人惊恐的是 , 这个系统可以识别此人的名字、住址 , 曾经做过什么事情 , 以及人际关系网 。
系统背后 , 有一个超过30亿张图片组成的数据库 。 Clearview AI称 , 这些图片是从Facebook、YouTube、Twitter、Instagram以及其他数百万个网站上搜集而来 。 此前1年 , 已经有600多家执法机构使用了Clearview的软件 。 由于牵扯隐私等问题 , Clearview AI公司遭到抵制 。 新泽西州颁布州禁令 , 禁止执法机构使用 Clearview AI 的应用工具服务 。 Twitter、Google、YouTube、Facebook 等互联网公司也对其进行封杀 。