虚拟人行业深度研究元宇宙基石,多行业渗透

(报告出品方/作者:中银证券,卢翌)

1元宇宙基石,多行业渗透虚拟

人指具有数字化外形的虚拟人物。,虚拟数字人具备三大特征:1)拥有人的外观及性格特征;2)拥有通过语言、表情或肢体动作表达的能力;3)拥有识别外界环境、与人交流互动的能力。在元宇宙概念中,未来每个用户都将依托虚拟人为化身进入虚拟世界中探索,虚拟人技术将成为元宇宙时代的基础技术之一。

最早的虚拟人出现于20世纪80年代,受限于技术,当时的虚拟人制作以手绘为主。21世纪初,随着动捕、渲染等技术的逐步发展,虚拟人相关技术开始在影视领域逐渐普及,用于呈现超现实角色和场景。年初音未来的诞生标志着虚拟偶像行业进入蓬勃发展的阶段。近些年来,随着AI和深度学习算法的出现,虚拟人的制作环节被大大简化,同时虚拟人的功能性也日渐凸显:数字员工、智能主持人等新业态被开发。目前国内各大相关公司均已开始虚拟人相关的布局和变现,预期其在娱乐、电商、教育、文旅等诸多行业的应用将逐步落地。

虚拟人产业已经发展出了由技术层、平台层、应用层组成的产业链结构。虚拟人的基础技术层为虚拟人的生产制作提供技术支持,主要可分为硬件部分和软件部分。硬件包括所有虚拟人呈现及交互所需的硬件,如显示设备、芯片和交互所用的光学器件、传感器等;以及制作虚拟人时需要承载算力的计算设备、动作捕捉所用的各类光学器件以及动作传感器等。软件端除了呈现和交互软件外,在制作环节还需要建模软件和渲染引擎,如UnityTechnologies的Unity3D、EpicGames的UnrealEngine等。

虚拟人平台层是将技术层中各独立技术进行串联,应用在具体的项目设计中,主要包括建模、动捕、渲染等制作环节。平台层公司目前在高速发展中,竞争壁垒主要在如何结合技术能力和文化设计能力,为下游应用层提供整合的虚拟人解决方案。随着AI、算法、5G网络等技术发展,制作环节成本仍有下降空间。

虚拟人应用层将虚拟人应用于各行业领域。虚拟人相关技术首先在影视、传媒和游戏领域有了多年应用的积累,随着技术进一步成熟正逐步呈现出新的赋能方式。目前在金融、文旅等领域,虚拟人凭借其与AI技术的结合,以及成本、表现力优势逐步开始提供数字员工、虚拟导游等服务。

2制作技术逐步成熟,降本普及未来可期

制作流程:三大流程为主,技术促进流程简化

虚拟人的制作流程涵盖了诸多技术,制作方式仍在逐步进化中,存在某些步骤互相融合的趋势,但尚没有完全定型的整套解决流程。虚拟人制作流程中最为核心、最具挑战的是建模、驱动、渲染三大流程。

具体的制作步骤是:1)以真人为模型或设计人物为虚拟人建立基本的3D模型。2)通过真人动作捕捉等形式确定虚拟人的基本动作,也即驱动环节。3)根据在设计环节中确定的虚拟人最终呈现效果和应用场景等外界要素,将模型与其运动进行渲染以呈现最佳效果。

建模:静态扫描广泛应用,动态光场指引未来

目前的建模方式主要可以分为三种:1)手工建模,这是最初的建模手段,目前仍广泛应用,但人工制作周期较长。2)图像采集模型,通过几张照片还原人脸3D结构,但其精度仍不足以建立高质量模型。3)仪器采集模型,目前发展的重点,精度可达0.1毫米,但目前成本较高。

仪器采集模型方面,目前仍以静态扫描模型为主,可具体细分为结构光扫描重建与相机阵列扫描重建。结构光扫描重建系统由投影仪与摄像头构成,其原理是投影仪投射特定光、摄像头采集信息,最后以图像处理和视觉模型复原整个三维模型,iPhoneX所使用的人脸识别技术便是基于此原理。该技术为早期静态建模技术主流方案,精度可达0.1毫米,设备要求相对较低,是一种比较经济的扫描方案。不过由于其扫描时间长达一秒至几分钟,难以满足人体等运动目标重建需求,因此多用于工业、检测领域。

另一种静态扫描技术:相机阵列扫描重建正替代结构光成为主流的人物建模方式,其原理是通过相机阵列拍摄的图片间的相同特征点进行匹配、校准以重建人物模型,该技术在国际上已成功商业化并被应用于电影、游戏制作中。

动态光场重建技术是目前重点发展的方向,这类技术在搭建精细几何模型之外,还可获得动态数据,高品质呈现光影效果。动态光场的原理是使用成系统的、独立的编程模块控制光源的亮度、颜色,与相机协同,模拟各种光照环境,获得不同光照下准确的模型。业界具有代表性的产品LightStage5被应用于《本杰明〃巴顿奇事》、《阿凡达》等好莱坞大片制作中。这项技术的开创者PaulDebvec也因此获得了OscarSciTechAward。该技术由于成本较高、难以运输、组装难度高且尚未出现商业化的通用解决方案等原因,尚未在国内得到普及,国内的清华大学、商汤科技等已推进相关研究。

驱动:动捕技术侧重明显,逐步形成互补体系

虚拟人驱动部分按照基本逻辑可拆分为面部动作和肢体动作部分。面部动作部分最具挑战的是嘴部动作,其基本逻辑为:以文本为起点,制作相关语音与动画,并通过大量模型训练,最终达到任意文本可驱动的模型。具体驱动方式有视频算法训练,即使用大量与文本绑定的语音嘴型视频进行机器训练;接着将语音与动作相绑定,从而达成文本输入到特定动作的实现;最后通过相关设备采集点,将真人的面部动作还原到模型当中。在嘴型以外,其他面部动作目前多采用随机策略,或某脚本策略循环播放预先录制动画,文本与动作间的匹配主要通过手动配臵,未来将在AI技术下实现自动化。(报告来源:未来智库)

目前数字人肢体动作主要的生成方式是动作捕捉,具体实现方式是光学式、惯性式、电磁式及基于计算机视觉的动作捕捉。

1)光学式动作捕捉

光学动作捕捉的原理是首先跟踪、识别并命名目标身上各反光标记点,得出目标的基本骨架,再通过空间中多个镜头对标记点位臵进行持续跟踪,完成对运动的记录。光学动作捕捉精度较高,但需通过相机的位臵角度建立三维空间坐标,对环境要求高,软硬件造价高昂。

2)惯性式动作捕捉

惯性动作捕捉主要使用装备于人体各主要骨骼节点上的惯性传感器,来完成数据采集,最后通过处理建立运动的三维模型。惯性传感器组成部分有集成加速度计、陀螺仪和磁力计等,可收集运动目标的各部位速度、姿态、方位等数据。惯性动作捕捉技术高度适应不同的环境,成本相对较低,使用便捷,能在某种程度上弥补光学动作捕捉的缺点,但精度较低、连续使用易产生累积误差。

3)基于计算机视觉的动作捕捉

基于计算机视觉的动作捕捉技术使用多个不同角度的高速相机对目标进行拍摄,计算机视觉基于拍摄到的二维图像、三维形状特征还原各关节点运动信息。该类动捕技术主要使用光学高速相机,动捕对象通常不需穿着设备,精确度高,成本相对低廉,近些年兴起后获得青睐并在不同的应用端逐步推广;但计算量庞大、受环境影响大。

渲染:核心环节决定呈现效果,技术发展引领行业变革

渲染指对三维物体或虚拟场景加入几何、视点、纹理、照明和阴影等信息从而达成从模型到图像的转变,渲染决定了最终作品的质量与风格。渲染技术的升级是综合实力的体现,每一次技术提升对数字人皮肤纹理、3D效果、质感和细节等方面提升巨大,目前常用的3D渲染引擎包括UnrealEngine4,CryEngine3,Unity3D5,都具备丰富的应用经验。

渲染技术分为两类,离线渲染技术(预渲染技术)和实时渲染技术,其本质区别是在目前发展状况各项局限下,对时效性和图形质量间的取舍。离线渲染技术不关心完成速度,这类渲染技术主要应用于影视动画等方面,其对真实度、精细度有较高要求,可使用更多的计算资源。实时渲染技术重点


转载请注明:http://www.180woai.com/afhpz/8362.html


冀ICP备2021022604号-10

当前时间: