虚拟数字人的变迁:从小众走向共生

文|01区块链

来源|新浪财经
栏目|米塔之家.行业热点
图片来源|网络

元宇宙的热潮,推动着各种虚拟数字人频繁出现在公众视野,在娱乐、社交、营销等领域发挥其价值。

在理解虚拟数字人时,需要对其词组进行拆分。

“虚拟”对应物理,强调展现形式,包括图片、视频、直播等方式存在于电子屏中,如 App、小程序、软硬一体显示设备。元宇宙下,VR 设备与全息投影也将成为重要存在方式。“数字”强调技术。虚拟数字人依托多项技术存在,包括建模驱动、视觉设计、语音识别、图像识别,以及多模态技术与深度学习等,相关技术成熟成为其发展重要推动力。“人”指的是高度拟人化。外在上,虚拟数字人有着特定的五官、身高和体重,甚至能够被刻画出毛孔和细纹。内在上,虚拟数字人有比拟正常人的情商和三观,能够与人交流和互动。

综上,虚拟数字人指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。但从虚拟数字人发展的历史看,“虚拟”、“数字”和“人”并非同步发展,技术是决定虚拟数字人的发展程度的核心因素。因此,本文将从技术维度,探讨虚拟数字人发展脉络。此前,零壹智库、01区块链联合《陆家嘴(10.610,0.02,0.19%)》杂志针对虚拟数字人发布了第一期“虚拟数字人TOP50排行榜”(虚拟偶像 TOP30 和虚拟员工 TOP20 ),也欢迎关注。

一、虚拟数字人的萌芽与初步发展

早在 20 世纪 80 年代,将虚拟人引入到现实世界的想法已经出现。

1982 年,动画片《太空堡垒》中的女角色林明美作为虚拟歌姬出道,其专辑也成功打入当时的知名音乐排行榜。日本媒体率先提出了“虚拟偶像”的称号。

1984 年,世界首位虚拟电影演员“Max Headroom”诞生,出演电影,并拍摄数支广告,在英国家喻户晓。

1998 年,英国虚拟乐队 Gorillaz 出现,由主唱 2-D、贝斯手 Murdoc Niccals、吉他手 Noodle 和鼓手 Russel Hobbs 四位虚拟角色组成。

此时,虚拟人概念先行,给予虚拟形象以立体化人设,并带入大众视野。但受制于技术发展,“数字化”在这个阶段并不明显。打造虚拟人的技术以手工绘制为主,人物形象以 2 D 的形式展现,展现方式以事先完成的音频和视频为主,并不具备实时交互功能。

图:初代虚拟歌姬“林明美”

进入 21 世纪,虚拟人的数字化特征逐渐明显。

形象创建上,虚拟数字人开始从手绘转向 CG(Computer Graphics,计算机动画)和动作捕捉等计算机技术。

传统 CG 技术脱胎于游戏行业,主要基于专业 CG 软件进行相应的建模、动画制作和渲染等,可以从外形、表情到动作方面还原真人的影视级效果。

动作捕捉技术来源于电影工业,即通过红外线摄像机、动作分析系统,透过由受试者身上反光球执行反射回来的光线,将运用摄像机拍摄到的 2 D 影像转换成 3 D 资料。

2007 年,日本虚拟歌手“初音未来”的诞生与流行成为虚拟数字人在该阶段最重要的里程碑。

初音未来的虚拟形象采用 CG 和动作捕捉技术。在动作捕捉技术的助力下,初音未来可以直接采用人类的表情和动作,借助 CG 技术,能够对动作捕捉生成的“人物骨骼”进行“无痕”对接。初音未来的一颦一笑都与人类更加接近。

作为虚拟歌姬,初音未来的歌喉基于 VOCALOID(电子音乐制作语音合成软件)。采样于日本声优藤田咲,创作者只需要输入歌词和旋律,就能够自动形成歌曲。在此基础上,制作方和粉丝为初音未来创作了超 10 万首歌曲,包括红遍大街小巷的《甩葱歌》等。

2010 年 3 月 9 日,初音未来在日本举行名为初音未来日的感谢祭”“初音之日”(Miku‘sDay),这是史上首场 3 D 全息投影演唱会。全息影像成像面积超过 15 平,由 4 块全息投影膜拼接而成,并采用高流明的投影,配合三维动画内容投射到全息投影膜上。该技术“复活”了初音未来,其首次以 3 D 形象现世。

图:初音未来感谢祭

从形象创建、演唱方式到互动形式,初音未来在“数字”上垮了一大步。诞生仅五年,其已经创下了超 100 亿日元的经济效益,正式了掀起虚拟偶像热潮。

在这个阶段,国内也诞生了虚拟偶像。2001 年,中国首位虚拟少女“青娜诞生,以全数字、3 D 动画和动捕技术创建而成。2012 年,洛天依的形象设计首次公布,至今成为中国最著名的虚拟偶像,并出现在春晚、奥运会开幕式上,成为真正的国产偶像。

二、2 D 转向 3 D,恐怖谷效应凸显

2016 年,一位巴西和西班牙混血女孩 Lil Miquela 引起大众热议。

健康的小麦色肤色、长着浓眉和雀斑、扎着标志性的丸子头和齐刘海,以及新锐潮流的穿搭、丰富的社交日常,Lil Miquela 很快在 Instagram 吸引大量粉丝。但其略带建模痕迹的照片引发了一场“真假辩论”。许多粉丝相信她是真实存在的人物,只是修图“狠”了点。直到黑客们入侵了她的账号,才最终确定了她是由 3 D 电脑动画公司 Modelingcafe 制作的虚拟人。

Lil Miquela 具有非常强烈的性格特征。她用自己的实名账号,在网络上声援跨性别者平权,与 LGBT 群体站在同一战线,支持种族平等,还与虚拟人男友秀恩爱,并后来宣告分手。2018 年,Lil Miquela 与特朗普、蕾哈娜等人一起被美国《时代》周刊列为“25 位最有影响力的互联网人物”。

Lil Miquela 的出现让人直呼惊呆了,虚拟数字人再次受到了关注。不同于 2 D 的动漫形象,3 D 拟人形象对面捕和身体建模对建模提出了更高要求,需要使用三维建模技术生成形象,信息维度增加,所需的计算量更大。此外,这个阶段虚拟数字人的个性特征凸显,通过在社交平台上发表自己的想法,逐渐具备社会影响力。

图:Lil Miquela(右)

随着 3D 拟人形象的出现,恐怖谷效应开始出现。

1970 年,日本机器人(8.200,0.10,1.23%)专家森昌弘提出恐怖谷理论,由于机器人与人类在外表、动作上相似,所以人类会对机器人产生正面的情感。当机器人与人类的相似程度达到一个特定程度的时候,一点点的差别都会显得非常刺目,并带来负面和反感情绪。而当机器人与人类的相似度继续上升,人类对其情感会再度回到正面。

虚拟人不仅需要以假乱真的建模技术,还需要在表情、动作以及交互能力上提升。

例如,当虚拟人面对镜头微笑,嘴角上翘的幅度、眉眼以及皮肉之间联动等细节都需要被照顾到。对于动态的拟人虚拟人来说,细节的不到位往往带来说不出的僵硬和古怪。因此,恐怖谷效应下,不仅建模技术需要实现拟真,在渲染和交互上也提出了更高要求。

渲染和交互能力是个“此消彼长”的过程。游戏中的角色更加强调交互能力,渲染出来的角色仿真性较差,而电影渲染出来的角色能够达到肉眼分不出真假的层次,但是不具备交互性。

2018 年 5 月 30 日,腾讯对外公布了一个名为“Siren”的研究项目。这是由腾讯、Epic Games、Cubic Motion 和 3Lateral 企业合作打造的一个虚拟人物。不同于一般虚拟人,Siren在渲染的真实性和交互性之间找到平衡,打造了具备实时交互能力的数字虚拟人。

Siren 的所有动作表情都由实时捕捉以及实时渲染形成。操作者需要将一套特制的设备戴在头上,这一设备会实时跟踪 200 多个面部特征点,再把这些特征点实时反映到系统构造的 3 D 脸部模型上,最终呈现为以每秒 60 帧输出的动作表情。整个捕捉过程会在 15 毫秒内完成,基本不会有什么延迟。

图:虚拟数字人Siren

2021 年 6 月,由新华社、腾讯联合打造的全球首位数字航天员、数字记者“小诤”出现。小诤在不到 3 个月的时间被打造出来,相较 Siren 的制作周期缩短了一半。这依赖于一套高效人脸制作管线 xFaceBuilder,通过将建模、绑定、动画等环节纳入平台并统一解法,大大缩短了制作的流程。

当然,从成本上来讲,虚拟数字人的成本支出非常大。例如团队在“小诤”脸上种了 10 万根面部汗毛,这对机能的消耗是极其庞大。高昂的建设成本使得虚拟数字人难以在商业领域大规模落地。

 

 

三、AI 技术的引用带来大规模商业化应用

随着虚拟数字人技术的发展,AI 技术成为制作和驱动虚拟人重要的工具。AI 技术的支持下,数字人制作过程得以简化,深度学习算法突破,提升虚拟人语音表达、语义理解以及对话等能力。

在《2022 年中国虚拟人产业发展》中,数字虚拟人被分为下述两种:

广义虚拟人(Meta human),指通过 CG 建模、手绘方式完成虚拟人前期制作,通过联合动捕、面捕技术实现驱动的虚拟人。

超级自然虚拟人(Al being),指主要通过 A 技术“一站式”完成虚拟人的创建、驱动、内容生成,并具备感知、表达等无需人工干预的自动交互能力。

近五年,AI 在虚拟数字人生成和驱动上展现了较高的效率。在《企业级 AI 数字人数字经济发展“新动能”》中,根据数字人拟人化程度,以及生产制作的自动化水平两个维。