clearview ai|10亿张人脸数据被抓取，我们正面对无处不在的“偷脸”( 二 ) |人脸识别技

【clearview ai|10亿张人脸数据被抓取，我们正面对无处不在的“偷脸”】数据采集是人脸识别产业的最前端，因为人脸识别的准确度，需要靠大量的人脸数据来“投喂” 。多位技术人员告诉《中国新闻周刊》，技术发展早期，数据主要来自于机构或者高校实验室的公开数据集，公司找志愿者有偿采集也是重要途径。
云从科技相关负责人告诉《中国新闻周刊》，云从科技为此构建了一个由91个摄像头组成的矩阵用于全方位采集人脸， 2年时间采集了1000个人，每个人产生了20万张图片，共计2亿张图片。采集的人脸数据场景也非常丰富，包括不同表情和服饰，比如闭眼、皱眉、微笑、大笑、戴眼镜、戴帽子等等。另外还会搜集不同光线环境下的数据，例如逆光、背光、阴阳脸等。
但线下采集的数据远远不够，云从科技还从网络抓取了1000万人大概10亿张人脸数据，加入到机器学习的数据库中。基于这些海量的数据，公司人脸识别准确率从68％上升到99％。
使用爬虫工具抓取互联网上公开的照片，成为整个行业的普遍做法。中科院计算所研究员山世光研究计算机视觉和机器学习，也是人脸识别公司中科视拓的创始人之一。他曾告诉《中国新闻周刊》，人们在网站上传照片，如果能找到两三张或者十几张照片，这个人的数据就可以用来给算法做能力建设。这些数据包括一些明星、体育运动员、政治人物的照片，也包含普通人的照片，数量庞大。
黄昊（化名）曾在微软研究院工作，他告诉《中国新闻周刊》，现在人脸识别模型最需要质量较差的数据，比如大角度的照片、光照不好的照片、年龄跨度较大的照片等。这些公司很少再爬取社交网站上摆拍的、质量较高的照片，而是直接在生活场景中主动放置摄像头拍摄和识别，这种无配合的数据效果最佳。
多位人脸识别从业人员都提到，在人脸识别技术上，中国之所以走在世界前列，一定程度上得益于互联网上的大量数据以及相对宽松的网络环境。在他们看来，互联网上的照片是“主动公开的” ，拿这些数据锻炼算法“不算侵犯隐私” ，公司并不会获取除人脸外的其他个人信息。
中国科学院自动化所研究员、北京智源人工智能研究院AI伦理中心主任、国家新一代人工智能治理专委会委员曾毅认为，这种爬虫的做法并不合理合法， “我甚至难以相信，技术公司只是单纯采集照片，不拿走网站上其他的个人信息。 ”他解释，在网上抓取的数据需要先整理和标注，再提供给算法训练。标注中，一张图可以有许多分类，比如女性、成年人、亚洲人等。曾毅指出，社交网站上有一些数据信息，比如生日、毕业院校、职业等，都可以赋予照片解释，用来帮助数据标注。
这种做法在国外也引发了争议。澳大利亚摄影师Georg Holzer是Flickr（图片分享网站）的用户，他喜欢把照片发布在网站，并同意将照片免费共享给非营利组织和艺术家。但是，让他意外和反感的是，巨头公司IBM在未经他同意的情况下，拿走了他拍摄的照片，也包括网站上其他数百万张照片，用以锻炼人脸识别技术的准确度。
这是NBC（美国国家广播公司）的一则报道，指出了人脸识别行业的潜规则：IBM以及数十家研究机构免费采集网上的公开照片，用以锻炼算法，而照片中的人和摄影师并不知情，想要删除自己的照片，更是几乎不可能。
今年1月，美国一家面部识别软件公司Clearview AI遭遇行业声讨。该公司发明了一款人脸识别的应用程序，使用者只需上传一个人的照片，就能搜索出这个人在网络上的公开照片以及网页链接。更让人惊恐的是，这个系统可以识别此人的名字、住址，曾经做过什么事情，以及人际关系网。
系统背后，有一个超过30亿张图片组成的数据库。 Clearview AI称，这些图片是从Facebook、YouTube、Twitter、Instagram以及其他数百万个网站上搜集而来。此前1年，已经有600多家执法机构使用了Clearview的软件。由于牵扯隐私等问题， Clearview AI公司遭到抵制。新泽西州颁布州禁令，禁止执法机构使用 Clearview AI 的应用工具服务。 Twitter、Google、YouTube、Facebook 等互联网公司也对其进行封杀。