如何在保证生物识别的性能同时保护用户的隐私?

近日,国内数据领域首部综合性立法《深圳经济特区数据条例》正式公布,《条例》中指出,由于生物识别数据具有唯一性、终生性、不可更改性,一旦泄露或者被滥用,将造成较一般个人数据更为严重的损害后果。《条例》还对处理生物识别数据做出了较处理其他数据更加严格的规定。

生物识别数据安全和隐私保护一直是社会讨论的热门话题。人脸识别、声纹识别等技术已经进入到我们的生活当中,在改变人们的生活生产方式的同时,也引起对生物识别数据的泄露与滥用的担忧。

7 月 15 日上午,清华大学智能产业研究院(AIR)举办的以“数据安全与可信 AI”为主题的学术交流研讨活动。墨奇科技 CEO 及联合创始人邰骋受邀发表演讲,介绍了高性能、保护隐私的生物识别技术特性和实现途径。

墨奇科技一直致力于打造保护隐私、安全可靠的下一代生物识别平台。我们欢迎有更多的学界和产业界的伙伴相互交流,共同探索 AI 时代高性能与保护隐私的生物识别。

以下文章转载自

清华大学智能产业研究院
内容有部分调整

报告内容

生物识别技术的落地应用场景广泛,不同任务面对的挑战是不相同的,那么如何在保证生物识别的性能同时保护用户的隐私?这是一个亟待解决的问题。——邰骋

生物识别技术中的两个最基本任务是识别任务和验证任务,验证任务所进行的是 1:1 的比对,而识别任务则进行的是 1:N 的比对。识别任务类似于检索任务,但与检索任务不同的是生物识别往往要求精确匹配而不是模糊匹配。从难度来讲,识别任务具有更大的挑战,两种任务尽管具有相近的漏检率,但识别任务的错检率是验证任务的N倍。

例如,在传统的指纹识别流程中,共有注册和验证两个阶段,首先用户需要先在注册阶段通过传感器(按压,滚动,滑动,非接触式)输入原始指纹,再经过特征工程提取原始指纹的特征,最后将特征存入数据库。在验证阶段通过传感器来捕获需要验证的指纹,在数据库中检索的同时进行特征的比对,通过相似度的计算和阀值的设定来得出比对结果。

那么,在传统的指纹识别流程中如何定义指纹的特征?指纹的特征可以分为宏观特征(global feature)和细节特征(local feature)。相较于细节特征,宏观特征信息量比较有限。我们通常可以根据细节特征的组合来完成识别任务。特征的提取方式主要有 Ridge Extraction 和 Minutiae Extraction 两种,其中 Ridge Extraction 会将增强后的数据进行二值处理。Minutiae Extraction 则更容易获取结构图(skeleton images)的特征。最后通过特征点的匹配情况对识别结果进行打分。

总结下来,传统的指纹识别有以下四点问题:

1.不能自动处理潜在/低质量指纹 

2.对于大型数据库准确率有限 

3.基于 ML 的方法需要大量的训练数据 

4.性能问题(时间开销)

目前的特征提取技术基于上述缺点提出解决方案,核心思想是尝试使用多尺度特征。这样我们并不需要很多的标注数据进行训练,同时随着系统的使用,系统也会根据样本外数据进行自学习。

针对于性能上的问题,主要使用异构的系统架构,该系统首先使用高速的 GPU 进行过滤,并使用 CPU 来精确匹配,最后对匹配结果进行重排序来获取我们需要的输出。

在演讲的第二部分邰骋教授从隐私保护的角度来阐述生物识别技术所面临的的挑战。生物识别技术在许多应用中带来了便利,然而生物识别技术隐私问题也日益凸显,同时与密码相比,生物识别绑定于每个人,不会改变。生物识别技术的隐私问题不仅包括数据库泄露所带来的隐私泄露,也会面临着多种外部攻击:模仿攻击,设备替换,重放攻击,暴力破解等。

传统的加密手段秉持一个原则:明文密码永远不应该被存储。因此我们往往存储的是经过 hash 运算后的密码,然而传统的加密手段是否适用于生物识别呢?答案是否定的。同一个人原始数据不同(形态)得到的 hash 值不同。

我们理想中的保护隐私的生物识别技术应该具有 1)不可逆 2)可撤销 3)非关联,这三个特征。

  • 不可逆是指我们无法根据特征还原用户的原始信息。
  • 可撤销是指我们可以随时更换我们的模板。
  • 非关联则是指在应用之间,如果一个应用的数据泄露,那么该用户在其他应用的数据不会因此也被泄露

目前的人脸识别技术是否满足以上几个条件呢?从不可逆的角度,相关研究者做过实验,可以使用 GAN 来恢复原始数据的大部分信息。

针对于上述问题,目前的解决方式有三种 BioHashing,Fuzzy Commitment,Fuzzy Vault。以 BioHashing 为例,其核心想法是在生物信息以外增加一个用户的密钥来生成新的 hash 值。他的优点很明显,通过 two-factor 身份验证提高了准确性。缺点也同样明显:需要记住私钥,牺牲方便性。如果密钥一旦暴露,则生物识别数据将变得不安全。 

未来领域的研究主要集中于两个方面:1)生物识别系统 FAR(false acceptancerate)和 FRR(falserejection rate)的权衡。2)性能与隐私的权衡。

点击查看完整演讲视频

讲者介绍

邰骋 墨奇科技CEO及联合创始人

  • 普林斯顿大学应用数学博士,主要研究方向为大规模非结构化数据处理算法和系统,在SIAM、JMLR、ICML等国际期刊会议发表多篇论文,是国内人工智能、应用数学方面的领军学者。
  • 2016年创立墨奇科技,致力于数学框架的构建及产业化应用。