您的位置:主页 > 新闻资讯 > 科技情报 >

苹果 Animoji 表情背后:面部识别技术如何一步步进化的?

发布时间:2017-10-27 12:24   来源: 雷锋网

导读:iPhone X 人脸解锁和 Animoji 背后的人脸追踪技术

  几年前,苹果公司进行了一波疯狂收购,3-D 传感器制造商 PrimeSense、图像识别公司 Perceptio、增强现实公司 Metaio 和 运动捕捉技术公司 Faceshift 被苹果统统收入麾下。

  通过购买其他公司的技术来提升自己并不是苹果的常规操作。那时,大家都不理解苹果这么做意图何在,直到上个月的苹果发布会,我们才明白它几年来的疯狂收购和研究的意义是什么——苹果是在构建 iPhone X。

  而这款跨时代的机型中最重要的新功能可能就是人脸解锁和定制表情(Animoji)以及其背后的人脸追踪技术。苹果认为 iPhone X 代表了移动设备技术的未来,目前从很多方面来看,事实确实如此。如果去追溯面对消费者的重大科技进步,你会发现大多数技术突破都是在无聊的大学实验室里产生的。而在Animoji 的例子中,技术研究是从十年前一些欧洲顶级科技类高校里开始的。

  技术的开端

  面部识别技术如何一步步进化的?

  《阿凡达》工作照

  2005 年左右,运动捕捉技术仍处在实验室阶段。用《阿凡达》举例,要想制作人物角色细微的表情和动作,需要演员穿上带有小球的衣服,并在面部涂上标记点。这些小点作为标记,帮助光学系统追踪面部和身体的动作变化,最终模拟出电影的动态效果。“标记点非常有用,因为它们简化了运动追踪的计算。”Faceshift 的联合创始人 Mark Pauly 解释道(Pauly 还是瑞士洛桑 EPFL 大学计算图形和几何实验室的主管)。

面部识别技术如何一步步进化的?

  标记点技术十分有用,但是需要使用大量设备——一个工作站、运动捕捉套件、演员还需要全身穿着标记点。Pauly 实验室的博士生 Hao Li(目前是 USC 的视觉图像实验室主管)说:“无论你想制作什么,这种技术所要花费的时间和成本都太高了。我们想要把它变得简单一些。”

  所以,Pauly、Li 和其他一些研究者们(包括 Thibaut Weise,、Brian Amberg 和 Sofien Bouaziz,他们目前都就职于苹果),开始探索如何使用深度感应相机的长镜头来代替点标记和运动捕捉套件,完成面部表情追踪。他们的目标是制作可以实时捕捉人类表情的动态数字头像。

  但是这里的问题在于:人脸跟踪算法是出了名的复杂。Li 把人脸称为“图形运算中的圣杯”,因为人脸运算实在太难。不同于静态物体,人脸总是持续变化,因此没有一个普遍的运算法则可以通用

  让机器读懂表情

  为了让机器可以识别出面部运动,必须让它看懂形式各异的人脸。“算法必须对变幻的光线、头部的旋转、人种和年龄方面同的形态标准等保持其稳定性。”专攻汽车和金融领域的面部追踪软件公司 Visage Technologies 的市场主管 Dino Paic 解释道。

  在 2005 年前,3-D 深度感应相机的发展已经足以捕捉面部动作。但是更大的挑战在于教会计算机如何理解捕获到的数据。Li 说:“这里的问题是,即使你可以看到所有点的数据,但这对于计算机来说,毫无意义。”

  为了解决这一问题,Li 和他的团队将人脸当作几何图形来求解。他们使用大量面部表情来不断训练算法,创建大量可以被描述出的数字 3-D 模型,进而描绘出不同人种、不同环境下的人脸模型。利用这些计算好的模型,算法就可以更容易地自动匹配面部 3-D 标记点,实现实时捕捉面部表情,创建模拟头像。

  脸的价值

  面部识别技术如何一步步进化的?

  Pinscreen 此前恶搞川普的图片

  目前,视觉特效公司大都在产品制作中使用原有技术,但是这个主流将会被新技术所取代,相信过不了多久,像苹果的 Animoji 和 英特尔的“Pocket Avatars”(可以将你的脸植入进各种图像中)这种使用面部识别软件的应用将会越来越多。

  Li 说,面部模仿的 emoji 表情还只是一个开始。他现在正在运作一个专注于图形拟真计算的创业公司——Pinscreen,他们最近正在研究一个基于单源照片的超现实 3-D 头像的算法。

  去年秋天的总统大选后,Pinscreen 放出了一系列“跳舞的川普”GIF 图,展示了它目前的技术能力。这组 GIF 还不是最为复杂的——川普的脸还有一些 CGI (电脑三维动画)产品遗留的模糊感。但是他们已经为未来的发展奠定了基石。我们相信,未来任何人都可以创建出一个现实感的头像,通过头像说话和动作。Pinscreen 的技术仍在测试中,但它的发展潜力可能既令人激动,又隐隐有些担忧。

  担忧的是:随着这种技术的发展和不断应用,现在还能分清现实和虚拟的区别的我们,不久以后,可能越来越难以区分真假了。


推荐阅读