央视3.15晚会炮轰商家收集人脸识别信息 讽刺的是...

今日头条
Toutiao
最新回复:2021年3月17日 8点27分 PT
  返回列表
11510 阅读
4 评论
RFA
【要不要脸?】

央视3.15晚会炮轰商家搜集人脸信息。讽刺的是,中国企业“芯翌科技”翌日即宣布,已建立全球最大人脸数据集,在“戴口罩人脸识别评测”中,中国更夺得世界第一....https://t.co/IJIXoqBIMJ

— 自由亚洲电台 (@RFA_Chinese) March 17, 2021

央视3.15晚会以保护消费者权益为名,点名炮轰科勒卫浴、宝马汽车和Maxmara商店,安装人脸识别摄像头,在未征得顾客同意下,海量搜集人脸信息,批评“严重威胁用户的财产安全、隐私安全”。

然而讽刺的是,中国企业“芯翌科技”和清华大学却在翌日公布,已建立全球最大规模人脸数据集,包含400万人脸ID和2.6亿张图片。

而“芯翌科技”更在不久前的NIST-FRVT人脸识别评测中,在“戴口罩人脸识别评测”,夺得世界第一。两项“全球之最”,被形容是“中国队”在人脸识别领域的“捷报”。

不过有中国网民却不以为然,“这种第一一点也不值自豪”、“不会真有人假装不知道这是为了干啥的吧?”

相关阅读:清华大学和芯翌科技联合发布全球最大的公开人脸数据集

随着人工智能技术的不断发展,越来越多生物识别技术融入到我们的日常生活中。人脸识别作为应用最广泛的生物识别技术,和指纹、虹膜等生物识别技术相比,以其非接触、高精度、便捷的优势,广泛落地于各行各业,是目前最受欢迎的生物认证方式。

人脸数据集发布背景

近年来,得益于深度学习技术的发展,经过业界多年来在数据集构建、神经网络架构、损失函数设计等方面的详尽研究,人脸识别技术在识别精度上已经取得了长足进步,并实现了大规模落地。但当前人脸识别仍然面临公开数据规模小、标准混杂、测评无法对齐等问题。其中,目前公开的人脸识别训练数据集中,规模最大的是 MegaFace2 和 MS1M,分别仅拥有 67.2 万 ID 和 470 万图片,以及 10 万 ID 和 1000 万图片,远远无法满足实际人脸识别系统的数据需求。可以说,公开数据规模与实际落地系统所需数据规模之间的巨大差距,已经较大程度上阻碍了当前人脸识别相关技术的持续发展。

另一方面,评测准则和测试集也是影响人脸识别技术进一步发展的重要制约因素。目前公开的人脸识别评测集,包括 LFW、CFP、AgeDB、RFW、MegaFace、IJB 系列等,在精度上基本已经比较饱和。同时这些测试集对于人脸识别不同场景下的分类测评不够细致,没有持续迭代、升级和维护,也没有根据实际应用限制搭建评测准则。业界公认,NIST-FRVT 是一个完全独立的第三方测评系统,它的测试集非公开,测评指标分类详尽,并且对提交频次有严格限制和运行时间有严格要求,是目前唯一符合现实应用的测评系统。然而,也由于 NIST-FRVT 对提交频率和提交条件的严格要求,一定程度上也限制了人脸识别技术的发展。

WebFace260M 数据集情况

基于当前行业的现状,芯翌科技与清华大学的研究人员在 FRVT 参赛基础上,完全基于全球互联网公开人脸数据,联合推出了当前全球规模最大的人脸数据集 WebFace260M,人脸 ID 数目首次达到数百万,图片数目首次达到数亿规模,将很大程度上推动以深度学习为基础的人脸识别相关技术发展。

同时在 WebFace260M 的基础上,芯翌科技和清华大学的研究人员采用自训练全自动迭代的清洗流程 (Cleaning Automatically by Self-Training, CAST),得到 WebFace42M,是目前全球规模最大的可直接用于训练的干净人脸数据集。该数据集包含 200 万 ID 和 4200 万图片,ID 数目和图片数目相比目前使用最广泛、最受认可的公开数据集 MS1MV2 都提高了一个数量级以上。

针对目前人脸识别的评测问题,研究人员发布了更贴近实际应用的“时间受限人脸识别评测准则”-FRUITS (Face Recognition Under Inference Time conStraint),和分布更广泛、更具挑战性、分类更细致的人脸测试集,这将推动人脸识别评测更靠近真实场景。同时,**研究人员将持续维护、迭代和升级该测试集以及评测系统,**助力行业技术发展。

数据集共同作者、芯翌科技 AI 算法技术总监黄冠表示:“基于发布的数据集、测试准则和测试集,我们进行了广泛的实验、对比和分析。分析结果表明,在新的高一个数量级的大规模数据、更贴近实际应用的评测准则、更具挑战的测试集等多项内容的综合评判下,大规模人脸识别问题在算法、系统、数据、评测等各个方面,存在相当多的问题需要学术界和工业界一起去探索和解决。”

WebFace260M 数据集指标

基于 WebFace260M 清洗得到的 WebFace42M 数据,能够在目前公开的、最具挑战性的 IJBC 测试集上,达到新的 SOTA (State-Of-The-Art),并把相对错误率降低了 40%。

同时,仅基于 WebFace42M 的数据,芯翌科技在 2020 年 10 月 NIST-FRVT 的榜单上,取得了 1:1 人脸识别评测综合排名世界前三的成绩。

更进一步,以 WebFace42M 为基础,在 2021 年 3 月最新一期的 NIST-FRVT 榜单上,芯翌科技在戴口罩人脸识别评测中以绝对优势获得世界第一,并在 1:1 人脸识别评测综合排名世界前三。

打造开放、共享、安全的数据生态

芯翌科技研发副总裁都大龙表示:“在数字经济和智能化时代,数据资源是最宝贵的生产资料。人们可能需要像对待传统的生产资料,如土地资源、生产原料、工具设备等一样,去规划、生产、分享、交易、使用和保护新时代的生产资料——数据资源。”

然而目前,国内外普遍对数据资源这一重要的生产资料重视程度不够,行业规范不足,分享壁垒严重,缺乏长期规划。生产资料的匮乏,严重影响和制约了数字经济和智能化时代生产力的释放,限制了行业的发展。

芯翌科技和清华大学的研究人员深刻认识到数据资源对行业发展的重要性,合作推出了目前全球最大的公开人脸数据集——WebFace260M 以及相应的 Benchmark。通过这个数据集,希望能够助力 AI 时代科技创新,持续推动智能化产业落地。同时,也希望和整个学术界、产业界一起,打造智能化时代开放、共享、安全的数据生态。

j
johniewalker
1 楼
凡艹蛋事,干得都很专业;凡专业事,干得都很艹蛋。
柳小波
2 楼
不过有中国网民却不以为然,“这种第一一点也不值自豪”、“不会真有人假装不知道这是为了干啥的吧?” ~~~~~~~~~~ 信不信,五毛马上就来假装给大家看
百家争鸣2012
3 楼
央视3.15晚会以保护消费者权益为名,点名炮轰科勒卫浴、宝马汽车和Maxmara商店,安装人脸识别摄像头,在未征得顾客同意下,海量搜集人脸信息,批评“严重威胁用户的财产安全、隐私安全”。 ------------------------------ RFA想说什么?这些都是外资企业,很多时候脱离了中国的监管。这是绝对不允许。而清华及相应的企业,必然经过国家和政府的授权。 一个合法,一个非法。就这么简单。
柳小波
4 楼
楼下提醒西方公司,中共的钱不是那么好赚的,他们想怎么整你怎么整 同样的事,你们做非法,国企做合法,就这么简单粗暴,呵呵