人类生存危机:你被百分百复制了怎么办?
发布时间:2017-08-21 11:05 来源: 黑匣
人是可以被百分百复制的吗?放在二十年前想都不敢想。
你有没有看过AI合成的奥巴马视频,口型与声音近乎完美匹配,凡人肉眼压根瞅不出破绽。其实全是假的。
华盛顿大学研究员利用神经网络分析奥巴马的数百万帧公开影像,了解与声音匹配的各种口型。研究员能将任意奥巴马音频片段进行组合并生成相应口型,然后对口型进行处理使其更加逼真(包括嘴唇、牙齿甚至是周围的皱纹),最后嫁接到新视频中的奥巴马脸上。
作伪就是如此简单,普通观众很容易被骗。
然而,这个合成视频毕竟还留有漏洞。比如研究员的人工操作会模糊人物的嘴巴和牙齿,虽然肉眼难以察觉这种细微变化,但将嘴部模糊部分与视频中其余部分一对比,程序能够轻易识别出来。
所以这还不是最恐怖的,最恐怖的是毫无漏洞。一个叫Wikihuman的项目正在全方位参透真实人类,力求打造一个百分百的复制品。
顾名思义,Wikihuman是一个超大型数字化人类数据库,由Digital Human League(数字人类联盟)发起。DHL是一个由艺术家、科学家与程序员组成的联盟,他们共享关于数字人物创作的知识与经验,希望能够得出一套行之有效的基础解决方案,并且供所有有志于跨过恐怖谷效应的公司和研究人员开源使用。如果你想做个以假乱真的虚拟人物,或许可以试着把Wikihuman利用起来。成果很多:
Wikihuman第一个课题:对演员Emily O'Brien的扫描渲染
恐怖谷效应也说过很多次了,简单来讲,如果假人和真实人类的外表动作十分相似但又没有达到完全拟合,真人看到假人就会产生厌恶反应。
如果能做到百分百还原,理想效果是可以走出恐怖谷。这对VR而言是天大的好事——让用户真假不辨,完全沉迷。
实时渲染技术是走出恐怖谷的必备武器。奥巴马那个视频好歹有动态素材打底,VR中的人物则要靠渲染来“捏造”。前面的静态渲染画面其实已经很精致了,那么以Wikihuman最新作品《MEETMIKE》,感受一下实时渲染技术的动态画面已经发展到什么水平。
在洛杉矶SIGGRAPH2017现场,几位VR业界人士接受了一个照片级真实的数字人的在线实时采访,而这个数字人是在“悉尼”的一个虚拟演播室中。观众可以在VR中观看,也可以通过一个巨型屏幕围观。这个毛孔、纹理还有斑和光影就不夸了,Mike动起来的眼神表情很生动吧,虽然可能有点生硬,但你很难怀疑到他其实是个假人。
为实现这个效果,记者Seymour身上架着一台Technoprops立体相机,随时捕捉着他脸部变化。通过Cubic Motion的技术跟踪脸部的图像,并将该数据传输到由3Lateral 创建的面部平台,扫描结果作为Wikihuman项目的一部分。
MEETMIKE项目的具体参数如下:
大约实时渲染了44万个三角面,这意味着每9毫秒渲染一张VR立体图,其中75%用于毛发。
脸部使用了约80个节点,主要用于头发和面部毛发的运动。
面部网格仅使用约10个节点,这些节理用于颌骨、眼睛和舌头,让运动更加圆滑。
最终版本的头部模型综合使用了以上关节和750个融合变形(blendshapes)。
系统采用了复杂的传统软件设计和三种深度学习的AI引擎。
不明白没关系,只用知道很厉害就行。暂且搁置这些研究的潜在负作用,回到中心思想:它们给VR带来的好处显而易见,可以帮助生成超逼真的人物模型,正是我们“入戏”的必要前提。
推荐阅读