按关键词阅读:
本文图片
图/pixabay
【版权声明】本作品著作权归《财经》所有 , 独家授权深圳市腾讯计算机系统有限公司享有信息网络传播权 , 任何第三方未经《财经》授权 , 不得转载 。
文|《财经》采访人员 刘以秦
编辑|谢丽容
提要点:
- 1村民们在乎那即将到手的几十块钱 , 没有人会询问这些脸部数据被采集后会用在什么地方 , 简单的摇头晃脑就能赚到几十元钱 , 似乎没理由拒绝 。
- 2这些“脸”的第一站 , 是数据标注公司的二次加工 , 变成结构性数据 。 然后卖给AI公司 。
- 3算法是需要数据“喂”的 , 有了数据 , 算法才可以跑起来 , 数据越多 , 算法越准确 。
- 4没有卖家会真删除被第一次交易后的人脸数据 , 他们还有很多渠道可以二次出售这批收据 。
- 5目前人脸数据主要有几大来源:一是爬虫软件爬取网络上的人脸数据;二是获取公共场所摄像头采集到的人脸数据;三是在各类人脸识别应用的场景下 , 每进行一次识别 , 就采集了一次新的数据 , 这些数据存在后台或云端 , 可以拿出来再次售卖 。
- 6四天之内 , 三家主流科技巨头接连叫停人脸识别 。 背后的原因只有一个 , 在人脸识别越来越具备宽广的使用渠道的今天 , 尚无立法和规则来限制这项技术侵犯人权及被滥用 。
黄方健并不清楚这是什么意思 , “听起来很简单” , 他告诉《财经》采访人员 , 发布兼职信息的是他认识了七八年的一个中介 , “我很相信他 。 ”
到了现场之后才发现 , 台灯只是装置 , 台灯上安装的摄像头才是重点 , 扭头、转身的目的是让摄像头采集人脸信息和动作数据 。
4个小时后 , 黄方健和一起来的朋友把自己的“脸”完整地交给了这枚摄像头 。 他们提供了自己的姓名和手机号 , 没有签任何数据使用合约 , 不清楚这些数据会被送到哪里 , “隐私问题?肯定不会有问题的 , 我认识这个中介很久了 。 ”
中国的人脸识别技术已经走在世界前列 , 其中一个重要原因是可使用的数据量足够大 。 这背后是大量像黄方健一样的人 , 主动或被动提供了自己的“脸” 。
国际调研机构 Gen Market Insights发布报告称 , 中国已经是全球人脸识别设备市场最大的消费区域 , 2023年占比将达到44.59% 。
中国的人脸识别技术已经遍地开花 , 摄像头无处不在 , 便利店可以刷脸支付;校园的门禁改用人脸识别;各类App的实名认证需要人脸识别;商场用摄像头来监测人流;工厂用摄像头来监管员工;一些科技公司甚至将摄像头装到了教室里 , 学生的每一次举手、思考、打盹都被记录下来 。
有人在卖“脸” , 提前“享受”到AI技术的人 , 已经开始为“脸”维权 。 2019年4月 , 浙江理工大学副教授郭兵将杭州野生动物世界告上了法庭 , 原因是动物园将入园方式从按指纹改成“刷脸” , 郭兵不愿意使用人脸识别 , 他说 , 起诉的目的不在经济补偿 , 是对目前人脸识别技术滥用的一种斗争 。
“脸”被卖到哪 , 用来干什么?
在河南一个简陋的办公室里 , 前来卖“脸”的人排起了长队 , 他们大部分是中老年 , 以女性居多 , 一些头发已经花白的奶奶们手里还抱着孙子孙女 , 就像赶集一样 。
有人脸数据采集的现场工作人员告诉《财经》采访人员 , 一个村子只要有一个人来卖“脸” , 他很有可能第二天把全村人都号召过来 。
这次人脸采集没有用台灯 , 桌上直接摆了一台电脑 , 坐在电脑前 , 在工作人员的指导下 , 抬头、低头、向左看、向右看……排队的人们觉得很新奇 , 也跟着一起抬头低头 。分页标题#e#
村民们在乎那即将到手的几十块钱 , 几乎没有人会主动询问这些脸部数据被采集后会用在什么地方 。 他们听不太懂什么叫人工智能、大数据、人脸识别 , 也没想过隐私问题 , 简单的摇头晃脑就能赚到几十元钱 , 似乎没理由拒绝 。
脸是一个人最直观的特征 , 人脸上有大量的细节 , 来帮助我们辨认彼此 , 大眼睛、高鼻梁、左脸有颗痣 , 面部表情会传递情感 , 是开心、困倦还是生气......也正是这些细节 , 让机器认识了人 。
这些“脸”的第一站 , 是数据标注公司的二次加工 , 变成结构性数据 。 然后卖给AI公司 。
李飞(匿名)从来没有这么仔细的盯着一个人的脸看 。 他是一家数据标注公司的标注员 , 他的工作是在各种人脸照片和视频上 , 用打点的方式来做标注 , 仅仅是眼睛 , 就要打超过10个点 。
此外 , 他还需要标记出面部表情 , 例如笑、皱眉、打哈欠等 。
中国AI产业发展的最大优势 , 是庞大且丰富的数据 , 如果将AI比作人 , 数据就是AI学习的教材 , 有了足够多的结构性数据 , AI就能越来越高效 。
尽管对AI技术并不了解 , 李飞也知道这项工作的目的 , “通过我们标注好的数据 , 机器就可以识别出你是谁 , 你在做什么 。 ”他告诉《财经》采访人员 。
标注完成后 , 数据会被打包好 , 上传到大数据平台公司 , 然后卖到AI公司手里 。 对于AI公司来说 , 这些从不同渠道买到的脸部数据 , 是他们的算法“口粮” 。 在AI领域有一个常识 , 算法是需要数据“喂”的 , 有了数据 , 算法才可以跑起来 , 数据越多 , 算法越准确 , 当识别的精准度足够高 , 就可以做成产品 , 卖给各类有具体需求的客户 。
走出河南乡村 , 人脸识别的应用场景非常丰富 , 深圳的公安在过去几年 , 已经将人脸识别广泛应用于嫌疑人定位和抓捕;智能手机不再局限于指纹识别 , 通过摄像头的人脸识别解锁 , 手机屏幕可以变得更大;一些校园、写字楼、景区门口 , 人脸识别代替了刷卡、检票 , 减少人工;线下商场里 , 人脸识别技术会分析顾客的行为和情绪 , 来帮助商家做出更有针对性的营销策略 。
由于对数据的需求不是持续性的 , 且采集并不复杂 , 对操作人员的技术也没有特殊要求 , 只需提供专业的采集设备即可 , 很少有AI公司会自己成立数据采集团队 , 大多交给外包公司 。
阎良斌是知否大数据公司创始人 , 2014年他还在上大学 , 一次偶然的机会 , 他发现北京的一家AI公司有数据的标注和采集需求 , 他开始做兼职 , 一天可以赚到1000元钱 。
“这可能是一个商机” , 2017年 , 他在河南郑州成立公司 , 系统性从事数据采集和标注的工作 。
阎良斌告诉《财经》采访人员 , 如果只是采集人脸照片 , 一个人平均下来只需要5分钟时间 , 视频需要约1-2小时 。 通常的流程是 , 客户告知具体的数据需求 , 他们会以此来预判所需要的人力和时间成本 , 进行报价 , 价格商议一致后 , 会先提供一些样本数据 , 客户对数据质量满意后 , 就会进行正式的采集工作 。
目前阎良斌接到的订单 , 一次采集量在1000个人左右 , 这个规模的采集量 , 一周左右就能完成 。
“脸”的流通到这里还没有结束 。 其实 , 所有的摄像头在比对人脸时 , 又再一次的记录了人脸 , AI技术之所以有巨大价值 , 就是可以在不断的应用中 , 自我优化 。
每个人每天的面部情况 , 不是一成不变的 , 是否化妆 , 是否戴眼镜 , 是否更换发型 , 光线不同......同一个人不同时间走到摄像头前面的角度也是不一样的 , 摄像头每拍下一张新的照片 , 就是将人脸数据更新了一次 。
当摄像头记录了你100天的照片后 , 它大概就成为了这个世界上最熟悉你的“人” 。
在一次次的人脸识别应用的过程中 , 这些“脸”变得越来越有价值 , 也变得越来越不受控制 。分页标题#e#
二次转卖背后的灰色江湖
如果买卖人脸数据只是喂给算法 , 那么 , 只要脸部数据的拥有者同意并知情 , 这还算是一门阳光下的生意 。 但随着AI产业的迅速爆发 , 这一条产业链正在“变形” 。
阎良斌一年前就听说 , 网上有公开售卖人脸数据包 , 几万张人脸数据 , 只需要几百元钱 。
他说 , 按照正常的商业规则 , 这一批脸部数据卖给一个客户后 , 卖家就应该删除数据清除缓存 , 不得留存在自己的电脑里 。 但这是道德约束 , 没有很强的技术约束能力 。 没有卖家会真删除 , 他们还有很多渠道可以二次出售这批收据 。 “网上低价出售的数据 , 应该就是来源于这些已经被卖过一次的二手数据 。 ”
第一次卖出的价格高 , 第二次重复卖 , 卖点是价格低 。 另一个人脸采集行业的资深从业者告诉《财经》采访人员 , 也不是所有人脸数据都可以二次出售 。 被二次低价售卖的数据通常是一些清晰的正面人脸照片 。
不太好被二次出卖的是那些从一开始就有特殊定制化的脸 。 比如 , 有的客户会要求只要戴着眼镜的照片 , 或者戴着口罩的照片 , 或是光线昏暗下的照片 。
这些被二次出卖的人脸数据卖给谁?许多初创AI公司 , 并没有足够的预算去定制化数据采集 , 这引发了对低成本人脸数据的需求 , 阎良斌透露 , 如果是初创公司刚开始跑算法 , 可以用这些数据 , 但是如果要将算法打磨的更精准 , 就不够用了 。
不过 , 这些便宜的人脸数据 , 并不完全来自上述渠道 , 来自四面八方 。
多位AI行业人士向《财经》采访人员透露 , 除了数据公司定向采集 , 目前人脸数据主要有几大来源:一是爬虫软件爬取网络上的人脸数据;二是获取公共场所摄像头采集到的人脸数据;三是在各类人脸识别应用的场景下 , 每进行一次识别 , 就采集了一次新的数据 , 这些数据存在后台或云端 , 可以拿出来再次售卖 。
这三大来源 , 都是隐藏在蓬勃发展的AI产业下的数据买卖冰山 。
去年年底 , 在一个科技行业论坛上 , 《财经》采访人员只花了3块钱就买到了一个包含8万张高清人脸照片数据的人脸数据包 。 如果你是该论坛VIP用户 , 还可以免费下载 。 出售者私底下告诉《财经》采访人员 , 这是通过爬虫软件爬取的数据 。
爬虫工具是涉及到大数据的公司的通用工具 , 爬虫工具的出现 , 可以提高数据搜集的效率 , 如果是爬取公开数据 , 例如百度索引 , 是合理合法的 , 但如果涉及到个人隐私数据 , 那就越过了红线 。
2019年10月 , 多家大数据金融公司被查处 , 其中包括51信用卡 , 原因是涉嫌利用爬虫技术 , 爬取欠款人的个人隐私信息 。
多位行业人士认为 , 在目前的法律框架内 , 如果爬取的是社交网络上的公开人脸数据 , 且只有照片 , 并不匹配个人的身份信息 , 只标注出性别 , 以及面部五官 , 用于跑算法的话 , 目前看来是不违法的 。
公共摄像头采集的数据 , 是指在小区、校园内、商场内、路口处或是车站内安装的公共摄像头 , 会采集到大批量的人脸数据 , 这些数据相对不那么高清 , 但好处是可以用来验证算法 。
通过这些照片 , AI公司可以分析出该场景下的人群分布情况 , 包括性别比例 , 大致的年龄分布 , 人流密集程度 , 以及行动轨迹 。
从结果来看 , 这些数据的作用是巨大的 , 比如政府部门可以用来检测公共场所的人流密集程度 , 来判断是否应当增加安保;商场可以更有针对性的进行广告宣传等 。
但从数据获取的来源来看 , 它又显得不那么“阳光” 。 一家大数据公司的创始人告诉《财经》采访人员 , 他就曾经帮客户采集过这样的公共摄像头数据 。 由于目前对数据的监管并不严格 , 获取这些数据并不复杂 , 他透露 , 只需要花费小小的代价 , “打通”一些简单的关节 , 就可以拿到数据 。分页标题#e#
例如 , 小区和校园内的监控数据 , 只要“收买”安保处的工作人员即可 , 再或者 , 架设摄像头的相关公司 , 都会留存这些数据 , “你如果提出要买 , 对方没有什么理由不卖给你 。 ”
也就是说 , 一手交钱 , 一手交脸的卖脸方式 , 卖的是高精度、多角度、符合特定要求的脸 , 但即便你没有这样的操作 , 只是在日常的生活中出现在脸部识别的摄像头中 , 你的脸 , 也有可能多次产生你永远不可能知道 , 也不会拿到报酬的商业价值 。
不过 , 这些数据含金量并不高 , 高端买家更加青睐能够定位到个人信息的人脸数据 。 一家AI公司CEO告诉《财经》采访人员 , 最有价值的数据 , 就是能够匹配个人身份 , 且在不同时间、场景下的数据 。
这就引出了人脸数据交易环节中 , 最隐秘的一环 , 如何拿到匹配个人身份信息的人脸数据 , 且是连贯性、结构性的数据 。
人脸识别的一个常见的应用场景是门禁 , 将固定人群的数据输入后台 , 当经过门口的摄像头时 , 会被拍摄一张照片 , 算法会识别是否与数据库匹配 , 如果匹配 , 就会放行 。
在一些人看来 , 这是一个非常简单的应用 , 只是做一个数据匹配而已 。 但如果这些数据被分类抽出 , 售卖 , 就是最有价值的人脸数据 。
应该继续下去吗?
今年 , 阎良斌发现 , 仅仅是采集人脸照片数据 , 已经不能满足客户需求了 。
他接到的订单要求开始升级 , 主要包括两类 , 一类是人脸视频数据采集 , 相对于静态人脸 , 视频数据采集 , 要求的是动态的、自然的人脸;还有一类是海外人脸数据采集 , 对于阎良斌来说 , 要找那么多外国人来采集人脸数据 , 难度加大不少 。
采集一个人脸的视频数据 , 至少需要40分钟 , “一次可能会来10个人 , 但只有2套设备 , 剩下的人要排队等很久 , 他们就不愿意等了 。 ”这种情况下 , 一天最多采集20个人 。
不止是视频动态数据 , 今天 , 相对成熟的AI公司们基本都能做到识别准确率90%以上 , 他们还需要做到99%以上 , 阎良斌接到过专门要求采集双胞胎数据的订单 , 以及不同肤色人种的数据 。
报酬确实会提高 , 但增幅有限 , AI公司并不愿意在数据采集环节支付过高的费用 , “给到一个人的费用可能是从30增加到50 , “很多订单是不可能完成的 。 ” 阎良斌说 。 ”
需求升级的背后 , 是人脸识别技术的进阶 , 对应的数据需求也越来越高 。 今天 , 大量的场景需要动态识别 , 而不止是让用户走到摄像头前 , 站定 , 拍照 , 确认身份 。
动态识别的价值似乎更高 , 应用场景之一是线下零售 , 安装在各个角落里的摄像头 , 会记录下顾客的行为轨迹 , 以及拿起每一件商品时的面部表情 。
这需要人脸识别技术的“无感” , 一位智能零售行业技术人士告诉《财经》采访人员 , “如果顾客知道有摄像头在拍 , 面部表情和行为会受到干扰 。 ”他将这样的数据称为“脏数据” , “失去了很多分析价值 。 ”
让摄像头“无感” , 同时采集顾客的脸部和行为数据 , 怎么样算合法合理 , 行业里是有争议的 。 一家AI创业公司创始人向《财经》采访人员表达了他的看法 。 他认为 , 任何时候 , 任何地点 , 如果要采集人脸数据 , 就必须要告知 , 比如一些公共场所有摄像头 , 会有标识称您已进入视频监控区域 。
前述智能零售行业人士则表示 , 如果“采集到的数据不涉及个人身份信息 , 且只用于当下的场景 , 也就是不会上传到云端 , 直接做出数据分析的结果” , 就不会有问题 。
但问题是 , 谁来规范这个“如果”?
同样的问题在AI人脸识别的一个重要领域 , 校园里 , 也有同样的问题 。
2019年9月 , 网络上出现一幅课堂行为分析视频的截图画面 , 教室里的人工智能系统正在监测学生们睡觉、举手、趴桌子和阅读次数 , 不少网友称学生没有隐私和尊严 。 该系统开发商是某AI独角兽公司 , 该公司随后发布声明称 , 此为技术场景化概念演示 , 该公司在教育领域的产品专注于保护孩子在校园的安全 。分页标题#e#
学校已经是人脸识别技术的重要采购者 。 数据买来以后 , 可以用于校园内的安全防护 , 以及进校门的身份验证 , 但这似乎还不够 , 摄像头已经开始批量进入教室内 。
一家为学校做智能课堂改造方案的公司人士告诉《财经》采访人员 , 这样的需求很多 , 但并不是为了监控学生 , “我们目前接到的需求都是为了考核教师 , 如果学生表现的比较积极 , 说明这堂课的上课质量更高 。 ”
智慧课堂早在2018年就已经开始落地 , 在2018年中国教育装备展示会上 , 多家科技公司都展出了相关解决方案 , 包括旷视、百度、腾讯等 , 用以辅助教学评估 。
AI创业公司一览群智CEO胡建告诉《财经》采访人员 , 有能力且有意愿采购AI技术的客户目前并不多 , 学校有政府资金支持 , 并积极响应国家推动AI发展的号召 , 是除政府与金融机构之外的大客户 。
胡建提到 , 此前陆陆续续有不少学校找到他 , 希望可以提供相关的技术解决方案 , 但他的内心是拒绝的 。
他始终认为 , 如果摄像头都已经安装到课堂里 , 不管是监控学生还是老师 , 如果采集到的数据后续的流转得不到制度和法律上的规范保障 , 目前就大规模应用 , 似乎有点过火 。
《财经》采访人员的综合采访结果显示 , 一些人认为这涉嫌技术滥用 , 这不是公司、学校 , 或技术本身的问题 , 但确实是个问题 。 新技术发展初期 , 会面临类似难题 , 如果放而任之 , 很有可能出现孩子们的人脸数据进入灰色交易市场的失控局面;如果管得太死 , 又遏制了技术创新的机会 。
【人脸识别技术|人脸识别也成了灰色生意!谁在卖你的脸,又是谁在买?】今年6月开始 , 美国主流科技巨头掀起了一轮集体抵制人脸识别运动 。
6月8日 , 蓝色巨人IBM 宣布:IBM 将不再提供任何人脸识别和人脸分析软件 , 这是美国科技巨头第一次旗帜鲜明地放弃人脸识别业务 。
两天后的6月10日 , 亚马逊宣布将会暂停向美国警方提供人脸识别服务 , 时间长达一年 。
紧接着的6月12日 , 微软表示 , 在有监管面部识别技术的联邦法律出台之前 , 该公司不会向警察部门出售这种技术 。
四天之内 , 三家主流科技巨头接连叫停人脸识别 。 背后的原因只有一个 , 在人脸识别越来越具备宽广的使用渠道的今天 , 尚无立法和规则来限制这项技术侵犯人权及被滥用 。
美国之外 , 中国是人脸识别技术和应用最火热的国家之一 。 前瞻产业研究院研究表示 , 未来五年中国人脸识别整体市场成长迅速 , 市场渗透快速攀升 , 预计到2021年中国人脸识别市场规模将达到53.16亿元 , 2024年将突破100亿元 。
国家相关机构越来越重视个人隐私保护 , 《个人信息保护包》和《数据安全法》已经纳入全国人大常委会2020年立法工作计划 。 多位行业人士告诉《财经》采访人员 , 目前中国的相关法规依然在平衡商业创新和个人信息保护 , 目前还并未出现足以震慑行业的典型判罚案例 。
6月15日 , “中国人脸识别第一案”在浙江杭州富阳区法院开庭审理 。 此案还没有最后的结果 。
产业高速发展背后 , 是越来越明显的社会矛盾 , 清华大学法学教授劳东燕撰文指出:所有的个人数据 , 包括识别性极强的生物学数据 , 都是由群体中的少数人来掌控 。 这些人究竟掌控我们多少的个人信息 , 为什么要掌控我们的个人信息 , 掌控这些个人信息是要用来干什么 , 都是细思极恐的事 。
来源:(财经杂志优选)
【】网址:/a/2020/0708/kd248256.html
标题:人脸识别技术|人脸识别也成了灰色生意!谁在卖你的脸,又是谁在买?