如何以“一手之力” 证明你就是你?

相信你也曾经过这样的尴尬:为了证明自己是自己,你必须提供一大堆卡片,背下一串串密码、口令;一旦这些东西遗失或被篡改,你就不再是”你“了。但是,除了各类身份证件和密码外,每个人独一无二的生物特征也是一种证明方式。

一大早,地铁闸机口,不再用从包里掏出手机,只需轻轻挥一下手,就可通过闸机,到站后挥一下手就可出站扣费;到达办公大楼,也不再需要门禁卡,挥手就可控制大门和电梯;去银行办理业务,也不需要带银行卡和身份证,只要通过手系统便可自动识别你的身份,办理存取款等各种业务。

这些曾经只出现在科幻小说里的场景,慢慢变成了人们触手可及的现实。

但通过指掌纹这种人体生物特征来做身份识别并不是 AI 时代的产物,一千多年前,中国人就深深意识到了每个人的指纹和掌纹的独特。

早在唐朝,人们就开始使用指纹和掌纹作为独特标识用于契书、文书、遗嘱等文件。“大宋提刑官”宋慈在《洗冤录》中详细记载了如何收集嫌疑人指纹断案的实例,也令手印指纹早早就成为中国古代刑事侦破时的重要物证。

d0ac6ef5fd1245ddb3462d531f3fae4d.jpg
古代掌纹的运用(图片来源:互联网)

在中国,上世纪九十年代以来,计算机辅助人工比对技术开始应用,随后,计算机技术的普遍应用让这个古老的技术产生了新的蜕变。指掌纹比对工作,也从依赖纯人工肉眼比对,发展成为基于深度学习等技术的自动指掌纹比对。

01. 传统系统急需升级,新一代系统应运而生

以更广泛运用的指纹系统为例,国内现有的指纹系统大多在九十年代左右设计研发并投入使用,然而发展到如今的智能时代,现有主要的指纹比对架构并没有随之变化,对于应对当下生物识别需求具有相当大的挑战。

  • 建立海量指纹库,需要更高的系统综合比对性能

  • 近年来,随着人员数据的持续增长,指纹库容显著扩大,更需要千万级、亿级的系统。然而,传统指纹系统最早设计的目标库容大多是几万到几十万的小库,已经难以达到大库比对的速度和精度要求。

  • 传统系统比对精度的“大库衰减”现象严重

  • 传统算法随着库容增加准确率下降很快,这就是所谓的“大库衰减”现象。传统系统难以克服大库衰减难题的原因有两方面:一方面,随着指纹数据量增加,导致更多应该比中的数据在候选列表中排名靠后,而如果排名靠后太多,就无法出现在候选列表中,导致漏比。另一方面,存在低质量指纹的顽疾,使比对精度降低。

    传统系统的特征类型主要是细节特征点(Minutia),其信息量很非常有限。以指纹为例,一个高质量的指纹有 80 – 120 个特征点,而很多现场快采的指纹只有十几个甚至几个特征点,再考虑到比对算法的误差,实际可用的信息量更少。同时,传统指纹采集易受外界条件影响,如手指过干、过湿、指纹过浅,都会导致模糊或形变,降低指纹质量,而这些低质量指纹在指纹库中占有很大比重。而由于这些低质量指纹的特征点少,在大库中比中的可能性更低。

  • 传统系统依赖人工标注,使用门槛高

  • 在传统算法下,指纹需要标注才能比对,非常依赖于有经验的指纹专家,而这类专家目前非常稀缺。同时,一枚疑难指纹的标注方式可能有上百种,不同的标注方式比对结果也不同,错误的标注可能直接导致漏比,因此指纹比对的技术门槛很高,效率却很低。

    如今我们需要更及时、更精确地获取及处理指掌纹,这对于指掌纹比对技术以及数据库的快速响应都提出了更高要求。

新一代指掌纹识别系统应运而生。

02. 面向 AI 时代的墨奇智能指掌纹系统

墨奇智能指掌纹系统是面向未来生物识别需求的下一代指掌纹系统。凭借墨奇底层的技术创新,墨奇智能指掌纹系统突破了传统系统在大库中不能返回精确结果、对复杂环境比较敏感、需要海量训练数据的缺陷, 能够做到十亿大库秒级比对,拥有业界领先的比中率和排前率,且突破性地不需要人工标注,已获得许多机构和企业的青睐,累计处理超过数十亿枚指纹和掌纹数据,包括两个十亿数量级的指纹中心。墨奇已成为极少数可在十亿量级的指掌纹图像上达到秒级、高精度、自动化比对的系统服务提供商。

  • 秒级:十亿指纹实时比对

  • 墨奇智能指掌纹系统实现了十亿级别指纹库的秒级比对,而且具备无限扩展的比对能力。因为由于采用的分布式架构设计弹性大,在实际应用中,即使客户端请求量增多,只要配备了合理的硬件资源,就可以无限扩展比对性能。从库容的几百万到几十亿,系统支持返回时间最短可达 10 秒。

  • 高精度:业界领先的比中率和排前率

  • 基于创新技术突破,墨奇智能指掌纹系统在大库容下仍具有领先行业的高比中率和高排前率。多项应用结果表明,在十亿级图像数据库的比对中,墨奇智能指掌纹系统的正确结果排前五的精度高达 99%、排第一的精度高达 90%,大幅领先其他参与公司。

  • 自动化比对:墨奇原创无标注特征提取

  • 墨奇智能指掌纹系统的自动特征提取技术是墨奇原创。得益于墨奇独有的小样本无监督学习技术,在训练阶段只需要极少的人工标注样本,而在特征提取和比对阶段,完全不需要人工标注。这不仅简化了以往繁琐的流程,而且大大提升了特征数量、维度以及系统的比对精度,与现有绝大部分依赖人工的人工智能系统都有本质的差别。

image.png
无标注比对自动搜索指纹图像相似的区域(图片来源:墨奇)

03. 底层技术积蕴提供坚实支撑

墨奇智能指掌纹系统离不开底层在技术上的长期积累和创新突破:

首先,先进的数学模型,让高精度、高性能的图像搜索成为可能

  • 从底层构建视觉信号的多尺度表达,从像素到图像整体的多尺度刻画,极大地扩充了信息量。
    • 传统算法主要依靠细节特征点比对,而指掌纹上除了传统特征点还有很多其他信息,例如纹线的曲率、疏密分布、宏观的走向、拓扑结构等等,以及大量的不能直接用规则描述、但是有区分度的信息,这些都可以被用来区分指掌纹。然而,这些信息分布在不同的尺度上,有的是在像素层级的,有的是指纹整体图像层级的,用人工规则编码的方式来提取这些特征是不现实的,需要有特殊的方法。
    • 墨奇智能指掌纹系统采用人工智能技术来提取多尺度特征,在从像素到整体图像的每一个中间尺度上,都提取了标签、向量和图等不同的特征,使得信息量扩大了上万倍。同时,通过高效的压缩算法,多尺度特征的大小只是传统的数倍就实现了上万倍的信息量扩充。
  • 利用多尺度特征以及之间的层次和几何关系建立索引结构,进一步提升了比对性能
    • 特征的索引结构也是比对性能的决定性因素之一。系统对多尺度特征分配了不同的索引结构,例如,对于向量特征使用了多种量化索引的特征以支持近似和精确查询。索引在内存中使用列存储的数据结构。对于索引来说,特别是向量和部分的几何索引结构,列存储的性能要显著优越于行存储。索引的内存访问是向量优化的,也就意味着很多的指令可以以批次(Batch)的方式进行,节约了 I/O 和提高缓存效率。
image.gif
多尺度特征(图片来源:墨奇)

其次,只需要极少样本的自学习框架,让系统可以自学习,且需要的标注数据减少了几千至上万倍

  • 适应多尺度特征的 AI 自学习框架,能够从搜索候选中不断自学习,且单张图片的训练信号大大增加,突破了 feedforward neural network 的瓶颈。
  • 这使得需要的标注数据减少了几千甚至上万倍,且更容易泛化到看不见的数据类别。

另外,超高性能的异构系统和架构,让准确性和速度提升。

  • 专门用于视觉搜索的异构多层分布式系统,针对多尺度特征进行了优化,同时提高了搜索准确性和速度。系统比对引擎由一组异构的比对服务器组成,支持CPU、GPU、NPU 等不同的计算单元。引擎将不同种类的特征分配到不同的计算单元上去,在保证准确率的情况下实现加速。在比对过程中,向量和大尺度被首先分配到 GPU/NPU 中去,利用其强大的并行计算能力,对特征进行初步的比对和过滤;对结果使用 CPU 进行几何特征的比对和精确匹配,以及对于多种算法的候选列表进行再排序以优化最终的结果。
  • 秒级搜索数十亿图像的高性能搜索引擎,具备单机高性能 + 分布高容错比对,可以实现海量索引数据分段存储,机群自动扩展和数据自动恢复。同时,利用 NVM 减小了内存消耗,提高了数据密度。
墨奇智能指掌纹系统架构(图片来源:墨奇)

由此可见,相较于传统系统,虽然墨奇智能指掌纹系统需要处理的特征数量和特征维度更多,但比对效率和响应速度却更高。基于以上的技术突破,墨奇智能指掌纹系统是目前行业内比对速度更快、精度更高的系统,同时降低了大库衰减率。

目前,随着科技的不断发展,生物识别技术已被运用到生活的各个场景之中,为人们的生活带来便利,帮助人们以“一手之力”证明你就是你。未来,墨奇科技将继续以技术创新解决行业挑战和客户需求,为数十亿人提供保护隐私、安全可靠的下一代身份识别和认证服务,并研发先进的人工智能技术来自动化地处理机器知识,最终增强人类处理信息的能力。