这是两会上最高科技的主播！不会累、不会失误，逼真得不像AI...

您的位置:主页 > 新闻资讯 > 科技情报 >

科技情报
公司新闻＞
行业资讯＞
科技情报＞
推荐阅读＞

发布时间：2020-05-27 10:47 来源: AR in China

导读：什么样的主播水平，可以担当新华社「两会」新闻播报重任?这个AI合成主播就可以——坐姿、站姿零失误播报是基操，而且还是3D，360度取景也hold得住。

　　什么样的主播水平，可以担当新华社「两会」新闻播报重任?

　　这个AI合成主播就可以——坐姿、站姿零失误播报是基操，而且还是3D，360度取景也hold得住。

　　她叫“新小微”，是全球第一个 3D+AI 合成主播，在两会召开之际上线，为全国观众带来了最新的两会新闻资讯报道。

　　话不多说，先来看下她的业务能力。

　　举止端庄，神情自然，近距离镜头前大方得体。

　　360°多角度取景，无死角完美呈现。

　　走路进场，站姿报道轻松拿下。

　　这就是搜狗分身最新的技术进展——基于AI算法实现实时驱动，打造高逼真、高灵活、高可控的3D AI合成主播。

　　“新小微”的诞生过程

　　我们先近距离观察一下新小微的细节。

　　可以看到，在超近镜头下，新小微的发丝、睫毛，甚至是毛孔都是清晰可见。

　　如此“高清”效果，又是如何打造的呢?

　　首先，是基于真人原型采集海量数据。

　　新小微的真人原型，是新华社记者赵琬微。

　　赵琬微戴着数据采集头盔，几百个摄像头对其身体各个部位，360度全方位“打点”扫描。

　　这样做的目的，是采集每一处细节信息，并对其多种形态的表情和动作，进行细致入微地捕捉记录。

　　采集完数据过后，便是生成高逼真度的3D 数字人模型。

　　这个过程中，采用了行业领先的扫描还原算法，以及面部肌肉驱动、表情肢体捕捉等技术。

　　最后，通过搜狗分身的端到端多模态生成算法，对3D数字人模型进行实时文本驱动，也就是说，只要给到一个文本，就能输出一个视频或者视频流。

　　并确保在此基础之上，渲染后的面部表情唇动、肢体动作和语言表达能力，能够实现高度契合。

　　和游戏、影视中的3D数字人的区别

　　“新小微”的诞生，或许会让你联想到我们在游戏、影视中经常看到的3D数字人。

　　然而，“新小微”和这些3D数字人存在两大方面的区别。

　　首先，3D模型的制作技术不同，带来的逼真效果不同。

　　很多做写实类型的3D模型，都是采用blendshapp或骨骼动画去完成，做出来的面部表情和身体动作就不是特别逼真。

　　而搜狗采用的是全球最领先的肌肉模型来完成3D建模，所以每一个肌肉点的运动都会连带着很多面部脸谱协同运动。

　　从面部表情到肢体动作的细节程度，达到了不亚于，甚至会高于一些影视作品及游戏NPC的写实度。

　　在高清特写镜头下，3D AI合成主播的皮肤材质、毛孔、牙齿、嘴唇、眼睛、头发达到高逼真程度。

　　并且在AI合成主播讲话的过程中，语音和她的唇动细节之间的配合度，以及她的面部肌肉运动，整体看起来实现了很高的自然度。

　　同时，在讲话过程中，3D AI合成主播的头动、肩膀、眼神、眨眼等等都非常自然。

　　其次，是3D数字人驱动方式、成本、效率不同，这一点格外重要。

　　3D AI合成主播靠AI算法实时驱动，输入一个文本就能输出一个视频或者视频流。

　　并且其效率极高——若是要生成一个1分钟的视频，输入文本后，生成只需要1分钟，可以说，几乎达到了实时生成的效果。

　　反观游戏行业及电影行业，大多是靠人工做驱动，才能实现一个高写实的3D模型。这就导致需要投入大量的人力、财力成本。

　　例如，扫描一个人物，再投入大量的人工采集他讲的每一个字、每一个发音、每一个动作。而后靠美术师自己勾画出来，一点一点地提升写实度。

　　以这种制作过程，来完成一个小时的3D写实度视频，大约需要花费几千万人民币。

　　再者，如现在市面上一些比较火的卡通效果，如洛天依，大多都是通过真人采集，没有做到真正意义上的AI驱动。

　　业内类似的3D数字人，还有像今年CES中，三星的NEON.Life项目。

　　虽然三星的这项技术在面部细节还原方面达到了高逼真度，但是其在整体面部、肢体的协调性等方面还是具有一定的缺陷。

　　可以看到，三星NEON.Life项目中的数字人，在说话的过程中，只有面部肌肉在动，而身体是一直保持一个动作不变。

　　而在刚才的展示中，“新小微”从进场到站姿播报，表情、唇动、语言、肢体动作，都是一气呵成、自然协调。

　　再来看一个细节。

　　这个3D人在完成扭头动作时，由于脖子、肩膀不能完成“联动”，所以效果上会比较“诡异”。

　　而在游戏、影视，甚至是同行3D数字人中存在的缺陷，搜狗通过开创性的AI技术，将其逐一攻克。

　　不是迭代，而是两条赛道并行走

　　说搜狗是AI合成主播的开创者，一点也不足为过。

　　其实，早在2018年开始，便采用搜狗分身技术，联合新华社发布全球首个AI合成主播。

　　真人?AI?傻傻分不清。

　　但需要强调的一点是，搜狗的3D AI合成主播，并不是基于此前2D合成主播的升级、迭代。

　　而是两条赛道并行走。

　　2D的AI合成主播技术已经在许多场景中落地，例如新闻主播“雅妮”、“AI虚拟法官”，以及虚拟审核客服等等。

　　而随着数字人这一概念的兴起，搜狗基于已有的AI技术，与3D技术相结合，便推出了此次的3D AI合成主播。

　　二者是处于“搜狗分身”体系下的并行发展路线，正如在量子位采访过程中，搜狗AI交互技术部总经理陈伟表示：

　　2D的写实度比3D略高一些，但是3D的灵活性更高一点。

　　基于路线探讨，我们还是区分了2D和3D，同时在底层算法上也做了充分的打通。

　　搜狗分身的下一步

　　从2D的AI分身，到现在3D的进化，背后不仅是技术、产品在场景落地上的不断探索和精益求精。

　　也是搜狗在其AI战略执行线上的不断推进。

　　众所周知，自2016年以来，搜狗就确定了以语言为核心的自然交互+知识计算路线，而AI分身类产品，核心发展目标就是打造像人一样的自然交互，并且拥有强大的知识计算能力。

　　2D和3D的AI合成主播，正在从“表达式”向“交互式”发展，这背后要基于强大的知识理解和计算能力。

　　这也是全球目前及下一阶段最前沿的“数字人”的核心技术竞争力所在。

　　相比三星在CES上的Demo展出，搜狗已将AI合成主播实现了重要场合、重要岗位和重要任务场景上的商用。

　　这既是产品成熟度的自信，也是背后的技术自信。

　　或许要不了多久，真正的“数字人”，将不再局限于数字世界。

声明：本站在转载文章时均注明来源出处，转载目的在于传递更多信息，未用于商业用途。如因本站的文章、图片等在内容、版权或其它方面存在问题或异议，请与本站联系(电话：020-37784831，邮箱：edit@fly-tech.com.cn)，本站将作妥善处理。

上一篇：新冠肺炎疫情中值得关注的10大技术趋势

下一篇：物联网的未来：有关2020物联网的10个预测

推荐阅读