36氪专访 | A-SOUL团队首次接受独家专访:这个行业没有NG的机会

时间:2023-01-21 11:05:23 来源:游戏主播网

1 月,哔哩哔哩公布了年度百大UP主奖项,其中虚拟主播嘉然获得了“直播年度最强舰队”单项奖。这位来自虚拟偶像组合 A-SOUL 的女孩已经连续两年蝉联百大UP主称号。

A-SOUL 团体出道也恰好满两年。2020 年 11 月,A-SOUL发布了第一支宣传 PV,并迅速登上舆论的风口浪尖。两年过去,它的数百万“一个魂”(A-SOUL 粉丝名称)们仍然保持着超强的观看、二创和氪金能力。

嘉然在直播中变装

A-SOUL 从出道至今,已经完成了 600 场共 1000 小时的直播,这是一个很庞大的工作量。与“只用一台电脑、一个人”就能完成的 2D 虚拟偶像直播不同,3D 直播仍然需要庞大的技术团队和设计团队支持。

两年前,A-SOUL 的出现曾被粉丝戏称为“V圈的黑船事件”,因为它以 3D 实时直播的方式冲击了 2D 的V圈,就像 1853 年,美国海军准将佩里驾驶黑船舰队驶来日本,给睡梦中的幕府日本带来骚动,最终导致日本走上了工业化和现代化之路一样。

然而,两年过去,A-SOUL 却仍是国内唯一一家一直坚持 3D 实时直播的虚拟偶像企划。想象中的行业巨变并没到来,A-SOUL 目前仍然在国内V圈保持着一枝独秀的地位——即便这一组合已经反复证明了 3D 虚拟偶像的商业价值。

在二周年纪念直播中,A-SOUL 累计收获了 2.7 万名“舰长”。这一成绩不光在 vtuber(虚拟主播)圈,即便在整个B站主播圈里,也是罕见的奇迹。A-SOUL 粉丝以“3 分钟万舰、1 小时 2 万舰”这一创纪录的速度,一度卡爆了B站的上舰接口,也刷新了由 A-SOUL 保持的虚拟偶像的直播纪录。

为什么一定要做 3D 直播?为什么技术的普及比想象中更慢?二周年之际,一直保持神秘的 A-SOUL 团队首次接受了 36氪的独家专访,第一次向外界展示了 3D 实时直播之困难与昂贵,以及技术和运营团队在其中的付出。

以下是36氪与 A-SOUL 团队的采访实录:

出道两年的A-SOUL,仍然是纪录保持者

2D VS 3D,A-SOUL为什么选择走更难的路?

Q:两年前,A-SOUL 为什么决定以 3D 实时直播的方式来做虚拟偶像企划?

A:2020年,当时做 3D 的企划是不多的。我们作为行业的“新人”,并没有太多地去考虑这个行业是怎样的,而是重点思考了“虚拟偶像是一个怎样的存在”。大家都觉得,虚拟偶像应该和真人一样,具有真情实感,并且活灵活现。

为了提高真实感,我们开始自研技术。其中包括3D表情驱动、全身动作捕捉和手指动作优化、自动适配肢体的重定向,基于XPBD原理且应用了SIMD优化的实时物理解算等等。我们需要解决这一系列的技术难题,才能以较高的开播频率,实现偶像和粉丝的双向交流。

在项目成立之初我们就一直希望,大家所建设的枝江,能成为一个虚拟又真实的地方。

(笔者注:“枝江”是官方设定中,A-SOUL成员们所生活的虚拟城市。)

Q:为了做虚拟偶像 3D 实时直播,A-SOUL 团队前期做了哪些投入?

A:自从决定要做3D直播的虚拟偶像企划开始,A-SOUL团队投入了大量的心血,光是前期投入就高达九位数,包括打造独家的动捕棚、自主研发专属于A-SOUL的直播环境和软件等。同时我们也走了很多的弯路,付出了很多的试错成本。比如曾花了大量精力在AR云渲染上,但因无法做到高清流畅的体验效果而暂停。

此前曾公开的A-SOUL企划动捕室

Q:实时动捕+3D 渲染具体能昂贵到什么程度?您能否给我一个 1 小时高质量 3D 直播的成本预估?

A:相比开播时投入的人力成本,其实前期和日常投入的成本才是巨大的。

前期的开播环境搭建投入高达九位数:包括了导播软件架构铺设,功能开发,原生资产制作(场景/角色/镜头/道具/特效等),渲染管线的铺设,自建动捕棚,EFP直播线路搭建等。

我们每年为每一个角色的日常投入也是上千万级别,其中包括 A-SOUL 几位成员的薪酬福利和培训,住宿安保经纪支持,每年数套3D衣服、音乐、周边的设计制作(上述每一套的完整周期都至少有半年),各种与单一角色相关的商业权益及相关制作,针对每一位 A-SOUL 成员定制化的动捕设备和动捕软件持续优化(3D打印适配头型的头盔,根据脸型的面捕适配、动捕绑定和优化解决各种多人交互动作带来的不稳定和穿模优化等)。

而每场大活的投入也在数百万这个级别。大活为了更好地呈现多人舞台效果,会适配大型的多人灯光系统,加上一系列的镜头设计制作,大量的3D场景、新特效,甚至一些复杂度极高的AR实时直播效果。

Q:假设 A-SOUL 是在 2023 年的今天开启同规格的企划,前期成本是会因为技术进步而更低,还是会因为行业溢价而更高?

A: 从 A-SOUL 首播至今已经两个年头了,国内市场上也出现了许多类似的虚拟偶像企划,同时直播内容也变得多样起来,在内容制作层面投入也变得更高。但在研发和制作管线上,已经变得标准了很多,技术成本和使用门槛也会持续因标准化提高而降低。A-SOUL 在过去 2 年内也不断地去做各种尝试,付出了很多的沉没成本,积累出来的这些经验希望能够成为行业发展道的养分。相信在 2023 年,以及未来的一些年头里,国内虚拟偶像内容会进入一个百花齐放的时代,大家能同屏,同场景互动。这时候成本也许会更高,但这种投入是值得的。

二周年直播中,A-SOUL成员的头发展现出被风吹起的效果

Q:3D 实时直播技术难点具体有哪些?

A:3D 实时直播的难点,要拆分成“3D 制作”和“实时直播”两方面。选择这个赛道,在内容制作上我们就会面临两个传统行业都会面临难题。就好比玩Roguelike游戏那样,在困难模式上,叠加了若干个dbuff。

在 3D 制作上:原画设计、建模、地图、材质、绑定、layout、动画、摄影、灯光、渲染、特效等都是环环紧扣的,哪一环缺了,都会导致整体视觉效果下降,因此做好品控是我们天天关注的事情。

在“实时直播”上:最考验团队的是没有“NG”的机会,每周直播呈现出来的效果都是“一 Take 而过”的。现场各单位都需要高度紧张,紧密配合,容不得出错,每一个小失误都会被直播出去。这也和那句老话说的一样,台上三分钟台下十年功。当然,我们在这块下的功夫还远远不够。

既要完整地呈现出精心准备的内容,又要注意实时直播中不要出错,其实是非常难的一件事情。团队也没少撞过墙,出现过直播穿模、卡顿,林林总总一箩筐的问题。但即便是这样,我们仍旧觉得,3D 实时直播就是目前最能展现虚拟偶像优势、与观众密切互动的方式,这是我们会一直坚持做下去的事情。

Q:A-SOUL 至今已经开播两年了,完成了600多场、超过 1000 小时的直播,这是一个很庞大的工作量。在这个过程中,占据了最多人工劳动的是哪个环节?

A:其实A-SOUL团队的分工是相对平均的。我们没有用到常规视频和动画制作中的“堆编导”、“堆3D建模”、“堆动画师”的模式,而是采用了更加可持续发展的分工模式,介绍一下我们的分工吧:

产品需要做开发计划和保障方案,保障项目开发和现场直播质量,让内容能够完高质量地呈现;

技术需要完成软件层面的开发工作,确保每个软硬件的顺利运行,同时持续探索、研究技术;

美术需要持续进行美术风格调研,迭代美术效果,不断提升服装、场景、道具、镜头、灯光等的视效质量;

内容运营需要和 A-SOUL 成员们一起进行头脑风暴,规划好每场直播内容,做好节目和表演的创新,并负责视频的更新等;

导演导播需要和 A-SOUL 成员们一起一遍遍地彩排,准备直播素材,沟通直播中的镜头调度细节,音乐音效的配合,卡点的舞美效果等;

经纪人需要关注成员的日程安排,和声乐老师、舞蹈老师一块指导成员,提升舞台表演能力;

还有营销、商务等职能,支持着企划的品牌、商业化等经营工作;

当然最离不开的是 A-SOUL 成员们在每一个排练日、彩排日、直播日所付出的汗水。

我们觉得把整个团队凝聚起来,才能不断地事情做好,不断去深挖这个赛道的可能性,做出有高度的事情。二周年纪念直播中,我们首次在片尾放出了staff名单,也让粉丝们第一次直观认识了团队的“工具驼们”(笔者注:A-SOUL工作人员的形象常展示为羊驼)。

部分幕后工作人员

Q:3D 直播的节目设计难度与 2D 相比完全不是同一个维度,A-SOUL 团队是如何做节目设计的?设计师要考虑的因素有哪些?

A:相比2D,3D 直播中的人物可动性更强,空间更加“真实”,视角也更加多变。这需要设计师们更全面地考虑三个问题:

一,内容需要考虑人物肢体发挥和表演情境,人物表现才能更生动;

二,设计的内容需要考虑空间关系,提高观众的代入感,如虚拟人物和场景物品的位置关系、声音在空间里的传播效果等,如果没有处理好,观众就很难沉浸其中。

三,内容需要考虑观众视角,直播时镜头就是观众的眼睛,我们需要思考观众在每个时间段想看什么,不想看什么。

另外,企划一直以来都有一个目标,就是“充分发挥虚拟制作的优势,做出真人直播难以做到的内容”。过去我们做了很多这方面的内容创新,如:一周年纪念的御剑飞行、贝拉 50 万粉纪念的与心魔决战、2022 乃琳生日会的与光共舞等。我们未来的目标没有变化,会持续地做这方面的内容创新,希望能给观众带来更多奇妙的体验。

贝拉的舞台效果

没有参照物的冒险,A-SOUL团队探索虚拟偶像的边界

Q:A-SOUL团队技术进化最主要的目标是什么?在“更高的清晰度”、“更细微的表情”、“更流畅的动作”、“更丰富的场景”、“更多样的交互”这几个假设的方向之中,哪一个优先级最高?为什么?

A:首先,我们认为在“表情”、“动作”方面,做得还很不足,必须保持在这两方面的投入。“表情”和“动作”是基础,只是我们一直还没有做得很好。企划原本使用的是基于 iPhone arkit 的面捕方案,但是我们发现 arkit 的捕捉精度并不足以生动地展示二次元人物的口型和表情。 因此我们下决心自研了一套针对二次元角色的面部捕捉方案,包括了软件和配套的头盔硬件。在持续的版本迭代中,我们在不断提升偶像们的表情细腻度。

其次,我们在研发方面的投入远不止这几点,在众多的投入上,我们面临的不是一个优先级的问题,而是一个“阈值”问题。做好内容,不代表需要把某一个技术点做到一个非常高的水平,我们一直在研发和内容制作上,寻找一个平衡点,少一点溢价的无谓投入,多一些在未来能发挥真正收益投入。我们不希望技术创新脱离了业务本质,也许熵增是无法避免的事情,但我们可以把它放缓。

Q:之前 A-SOUL 团队和 PICO 团队合作举办了国内第一场虚拟偶像的 3D 实时演唱会 LIVE SHOW,这件事最大的挑战体现在哪里?在这样的困难下,为什么 A-SOUL 仍然决定要去完成它?

A :目前 3D 实时直播的业务形态与内容传达方式,仍处于起步阶段。企划不会放过任何一个业务探索与内容创新的机会。我们认为在 VR 加持下,观众是能够在沉浸感方面获得观影提升的,同时在 VR 直播中融入的互动小游戏,也能提高观众的参与感。

这场 3D LIVE SHOW 最大挑战还是在于性能方面。目前 VR 一体机的性能确实和 PC 相比还有距离,为了在 VR 一体机上获得与 PC 一样的渲染质量,我们协同 PICO 团队一起打通了国内首例的 VR 虚拟视频流直播链路:针对VR设备的直播,内容渲染压力和视频流传输带宽要求都要远大于正常直播。团队在分布式渲染、云上导播合成、视频编解码等方向都做了大量的开拓性工作,完成了这场里程碑式的SHOW。 整个研发过程中我们没有太多一手经验,整个开发过程都属于摸着石头过河,但我们认为这是一个难而正确的事情。未来这样的业务创新挑战还是会有很多的,困难一直都在。

VR演唱会中全体观众和A-SOUL云合唱

Q:A-SOUL 在 12 月完成了二周年纪念直播,在筹划过程中,最大的技术挑战体现在哪里?

A:在产品技术方面,我们主要有两方面的工作:一块是软件开发,一块是硬件运维。这两块工作当时都遇到了前所未有的挑战。

Q:软件开发上具体遇到了哪些困难?团队是如何克服的?

在软件层面最大的挑战是“抢进度,赶版本”。在二周年直播里面我们上线了一些新功能和新效果,如新的二次元角色渲染管线、新的灯光系统、更复杂的实时运镜系统、分布式的导播交互、升降和飞行的舞台、无缝切换的大场景等等。希望能够打磨出“新枝江”的视觉效果——比如酷炫的舞台灯光、各种飞行舞台、头发和裙摆飞扬起来的效果、在城市上空的大舞台多光源的表现、贴近打歌舞台的运镜、模拟物理世界的昼夜系统等等。二周年整个开发周期为3个月,在3个月内需要完成上述的新功能开发,还同时并线开发着PICO演唱会。这对开发团队造成了非常大的压力。

其实还有一个事情是我们一直没有对外公布,那就是团队在22年年初决心把整个渲染和导播体系切换到新的引擎架构下。新的架构采用了全分布式设计,突破了老版本的渲染瓶颈;采用了多级导播体系,并且能够多人同时操作,拔高了直播内容的上限。 这是一件非常需要勇气的事情,开发组需要在保持老架构正常直播迭代的前提下,开发新的架构,并分阶段安全上线,这和给飞行中的飞机换引擎一样困难,而二周年也是第一次基于新引擎架构做的各种新功能开发。

二周年纪念直播部分画面截图

另外由于二周年的歌舞表演非常多,我们还提前超过一个月的时间来排练走位和动作,以及成员和导演组的配合。当开发与彩排并行推进时,测试难度和Bug的修改难度就会提升一个难度。

Q:在筹备二周年纪念直播时,团队又遇到了哪些硬件运维上的困难?

在硬件层面,虽然我们已经在技术方案上采用了“分布式导播体系”,把渲染任务进行了多台机器拆分,但渲染压力依然很大,为了保持全程60帧的渲染质量,也对我们的机器进行了一轮配置升级:给所有渲染电脑都换上了4090。

果然,我们也未来逃脱烧接口的命运。在距离直播没几天的时候,原生16Pin接口烧了。为此,粉丝也在动态里纷纷为我们出谋划策,我们除了更换所有电脑的电源和电源线外,还准备了一大批的备用显卡,组织了灭火器的使用学习和操作演练。但其实我们还提前开发了热备系统,渲染机器在主路信号崩溃的情况下,是能够马上切换成备路的信号的,只要不同时烧掉主备路,直播都能正常播出。但这次直播也并非尽善尽美,还是出现了一些卡顿等情况,这些都已经第一时间详细记录并进入排查阶段。

经过了二周年的这一次奋战,不仅让企划的开播工具开发进度往前突进了一大截,还让团队感受到了奋斗的喜悦感。这份经历,这份回忆,是真珍贵,是值得回味的。

Q:A-SOUL团队为二周年直播准备了比以往更宏大的场景和舞台,为什么“突破直播间的边界”是有必要的?

A:更宏大的场景是必定会带来更大的工作量和更高的算力要求的,以往我们的舞台都只是着重于去完成舞台的主结构部分的模型制作。这次我们为了表达出我们想传达给一个魂(A-SOUL的粉丝名)们的信念,造了一座等比例的城市,一片会有昼夜变化的天,一片真实物理模拟的海。枝江,在过去两年来,设定都是偏向抽象含糊的,大家知道 A-SOUL 的 4 位成员是生活在枝江这片土地上的,但其实从来没有呈现一个“具体的枝江”出来。乃琳的飘雪房间在哪?贝拉的练舞室在哪?向晚的电竞卧室在哪?嘉然的小木屋又是在哪?

为了丰富世界观和场景的设定,我们决定狠狠地下血本:一起好好地建设枝江吧!那初次相遇的教室,那飘雪的窗户,那樱花飘落的树下,那个约定好的天台,那旋转的木马......过去总总的片段应该被连成一线。也希望有一天,A-SOUL与一个魂能在枝江的转角处遇见。

A-SOUL站在城市的一端,迎接朝阳升起

Q:除了直播,A-SOUL团队有考虑将目前的技术和 IP 应用到更丰富的场景中吗?比如动画、游戏甚至元宇宙?

A:对于行业来说,动画、游戏甚至元宇宙都是很有意义的尝试,但并不是现在的A-SOUL要做的。A-SOUL目前的价值来源于“面对面”直播产生的“高频”“互动感”和“距离感”。这些是团队、粉丝们都认同的优势,我们希望可以好好保持,秉承初心,做好该做的事。除此之外,我们也不希望用已有的一些内容形态和主观意识去“定义”A-SOUL。

放在百年影视的历史上来看,目前虚拟偶像是一种非常新的内容形态。相信未来,这会是一种主流的内容形态。电影,动画,游戏,直播,是会相互结合,并诞生出新形态的,这将不再会有明显的界限。这份对未来的热血澎湃,是我们心之所想,也是作为一个内容从业者希望看到的事情。

Q:A-SOUL 认为自己最大的优势在哪里?

A:A-SOUL最大的优势应该是:真。

一开始,由于我们的目标是做实时直播,所以就没法通过后期剪辑去芜存菁,我们无法去修饰瑕疵。后来我们发现,其实观众是有一定的包容度的,也是希望看到我们成长:当我们努力奋斗的时候,粉丝们会不吝夸赞;当我们自满懈怠停滞不前的时候,粉丝们会不断鞭策。我们的邮箱每天都能收到很多粉丝的反馈和建议,这是我们动力的来源。

因此后来我们就更加坚定了:研发的每一个技术难点,我们都不会因为难就取巧规避;直播的每一个表演,我们都要一块为直播效果付出汗水;枝江的每一段故事,都和伴随着企划成长的所有人,一起谱写出来。

1/1页