胡 璇 腾讯研究院高级研究员
王焕超 腾讯研究院研究员
2021 年底,微软亚洲研究院以论文形式发布了一项沉浸式 3D 视频交流系统——VirtualCube,并一举拿下虚拟现实与图形学领域 IEEE VR 2022 (& IEEE TVCG) 的最佳期刊论文奖。
从技术层面看,VirtualCube 为构建出每个用户的实时 3D 影像,硬件方面采用包括用于获取用户 3D 模型的六台摄像机,以及由三个 65 寸 4K 屏幕组成的环绕显示设备,位于隔间之内。同时,利用软件系统和专用算法保障视觉还原度,包括参与者的形体、相对位置关系、相互注视,并保证视频流帧率稳定。研发团队也在探索未来加入空间音频支持和复杂手势处理等更多维度。
简单来说,VirtualCube 的作用,是把传统视频会议中的“纸片人”(由每秒 24 帧图片构成的视频),还原成了真正的“大活人”:即使对方保持不动,你也能转过头看到 ta 的侧脸。
在传统的视频会议中,经典难题就是与会者缺乏眼神交流:如果发言者注视摄像头,会感觉自己在和屏幕而非人类对话;而一旦注视屏幕中的人脸,就更无法与对方“对视”,看起来心不在焉。VirtualCube 创造性地解决了这一问题:视频双方不必看摄像头,也会有自然的眼神交流。
根据官方的介绍,VirtualCube 系统的核心目标正是实现“参与者位于同一房间中”的临场感,从而让不同时空环境下的参会者,都能够更沉浸和放松,更专注于沟通本身。在它之前,谷歌的 Starline、Facebook 的 Horizon Workrooms 也都是解决这一需求的先行者。
在新冠疫情的大背景下,远程办公成为不少公司的选择,而视频会议作为兼顾体验与沟通效率的一项工具,成为远程办公的标配。但与真实的线下交流相比,视频会议仍显得不够自然,前述的缺乏眼神交流等问题的存在,都让参与者无法沉浸。从这一角度出发,我们自然就能理解 VirtualCube 等技术努力的意义所在。
对于远程办公者来说,VirtualCube 是以一种比视频会议更生动的方式,把你的同事和老板搬到了你的面前,从而实现了媲美线下的临场感。
但也有不少观点认为,所谓的“临场感”可能是一种伪需求,对于远程办公来说,连接才是第一性的目标,视频甚至是语音通话的作用已经足够,对临场感的追寻显然并不必要。问题来了,对远程办公乃至更广义上的工作模式而言,“临场感”真的是冗余的吗?通过技术追求“临场感”到底有什么意义?
接下来,我们就讨论这个问题。
比起线下, 远程办公到底差了点啥?
得益于各种数字化技术和工具的存在,远程办公不再是一件稀奇事。通过语音通话和即时通讯软件,我们可以与同事保持联系;通过在线会议工具,能够参加大大小小的会议或研讨;通过在线协同工具,可以与团队同步工作进度,流程化地完成长链条任务。
所以,在新冠疫情暴发之后,远程办公很快就成为许多公司选择的工作模式。艾媒咨询数据显示,2020 年复工期间,中国有超过 1800 万家企业采用了线上远程办公模式,超过 3 亿用户使用远程办公应用。腾讯研究院 T-ask 的一项调研也发现,接近 7 成(69.8%)被调研者都有过远程办公经历。不久前,携程公司官宣了混合办公的规定,全球范围内,微软、Google、meta 等公司也都推出相关措施。
可以说,远程办公正在成为大多数人所接受的常态。但是,随着常态化过程的深化,远程的一些弊端或者说劣势也在逐渐凸显出来。
先把时间线拉回到世纪之初,彼时的科技界也曾有过一波远程办公浪潮。以 IBM 为例,其在 2009 年的一项报告中宣称,全球 38.6 万公司员工中有 40% 都居家办公,十年间,公司将节省下来的办公空间出售就获益 19 亿美元。但这波浪潮很快就退却了,原因就在于,这些先行者发现,远程办公在员工沟通效果、工作效率以及企业文化的形成方面存在诸多问题,因此仍不能替代线下办公。
其中最有代表性的是雅虎。2013 年,雅虎颁布了一项规定,明确禁止员工远程,而是必须到最近的办公区中办公,否则将被辞退。2017 年,IBM 也将员工召回办公室现场工作。彼时的雅虎全球人力资源总监 Jackie Reses,在内部备忘录中写道:“作为一个雅虎人,不仅仅要做好日常工作,更重要的是要互动和体验。而互动和体验只有在办公室才能完成。”
是的,互动和体验,正是对比远程与现场办公的关键线索。远程办公虽然以某种方式实现了“互动”和“体验”,但并不完整。
在现场办公中,工作者能够直接进行面对面沟通,在这种沟通模式中,除了口语交流,双方能看到彼此的眼神、表情、手势、动作这些语言之外的要素。同时,交流时所处的环境也相当重要:气味、光线、现场布置、双方所处的位置,甚至是对方的毛孔、飞溅的唾沫。它们的存在,赋予每次交流以深刻的独特性。
这些因素的加总,共同构成了交流的“语境”,它对于传达意涵与感情,从而使交流双方建立更好的理解与合作而言相当重要。用一个统一的词来定义,这些东西就是“临场感”,它涵盖了你在交流语境中的所见、所听、所闻、所思、所感,以及由这些全部观察与感受形成的综合感觉。对比之下,远程办公可以借助各种工具,实现语音、视频画面的传递,并在某种程度上模拟现实,但它缺少的就是这种“临场感”。
瓦尔特·本雅明曾经提出过“灵韵”(Aura)的概念,用以描述艺术品实体以及线下剧场的演出所具有的一种综合的真实特质。当机械复制时代来临,通过大规模的复制(本雅明主要指摄影),艺术品和演出的传播范围广了,但“灵韵”却消失了。而远程办公所不具备的,正是线下办公的“灵韵”。
灵韵的消失是一个触发点。与面对面的现场办公相比,远程办公无疑增加了沟通成本。线下几句话能说明白的事情,要经过很多次低效的线上沟通才能达成目的。同时,面对面的互动决定了要在同一时间内和空间内进行同一件事,因此有利于更快地做出决策。而远程办公就不行,你不会知道网线另一端的同事到底在干什么:撸猫、哄娃,还是蹬划船机。即便同在一个视频会议上,也不能保证同事有没有开着其他窗口。
第二个层面是工作关系。在工作场所中,员工通过观察同事的表现和行为,能够了解公司的制度、规范和文化,这是一个学习的过程。同时,员工之间的真实互动,有助于建立起良好的工作关系,这不仅能增强团队凝聚力和公司文化,而且紧密、融洽的工作关系本身就是工作效率和创造力的一部分。
对于新员工来说,类似互动尤为重要。如果缺少这些环节,直接进入到远程办公的模式中,很可能面临难以融入的问题。《华尔街日报》的一篇报道写到一名年轻人在工作一年半后,才有机会和其他同事见面:“开会时,大家关掉了摄像头,我甚至不知道他们长什么样。”显然,这无助于工作者之间建立起正常的关系,并进一步影响工作的开展。
鲍曼在《工作、消费主义和新穷人》中指出,工作场所承载了最主要的社交融合功能。现代社会中,成年人大部分时间都是在工作中度过的,这意味着工作中的人际关系,不仅仅是纯工作层面,也是我们作为与他人建立连接、参与社会化的一种必须。
这或许是工作制度更深远的意义,也是远程办公缺失临场感最严重的后遗症:长时间以工作和任务导向,缺乏人际互动,不但会促成焦虑和抑郁等不良情绪,也严重影响了成年人正常的社会化过程。
这些技术在 努力追求“数字临场感”
正是考虑到远程办公的一系列负面影响,不少远程办公的支持者纷纷“反水”。2021 年 2 月,谷歌在提交给监管机构的年度报告中指出,居家办公影响了公司的工作效率、竞争力和企业文化,并表示更多员工将会回归到线下办公。
回到传统模式当然是一种选择,但考虑到远程办公仍然可能是未来重要的工作模式之一,哪怕只着眼于疫情反复的近期,它也是实用主义的应对之策,所以,弥补远程办公在“临场感”方面的不足,未尝不是一种可选项。
试想一下,如果能通过 VirtualCube 这样的方式,把同事的 3D 形象投影到你的身旁,即便是居家办公,同事也坐在你旁边或与你面对面,随时能闲谈或开会交流(空间音频完美还原),其实已经在很大程度上解决了“临场感”不足的问题。
其实在 VirtualCube 之前,谷歌于 2021 年 5 月公开的视频通话 Starline 项目,就已实现了令人惊叹的“隔空传人”,远在千里外的家人影像如此清晰、立体,仿佛触手可及。示范了 3D 全息影像对“临场感”的有力加成,也初步克服了最大挑战:在手机、电视、VR 等 2D“平板”显示设备上还原 3D 内容。
对面的女士是实时影像,既非真人,也非普通视频
VirtualCube 和 Starline 效果相似,但技术路径不同。下面从视觉原理和技术脉络两方面来看全息影像如何步步进化,我们距离科幻电影中的“真全息”还有多远。
全息投影是钢铁侠众多黑科技之一
3D 视觉是人类的生存法宝,多种线索帮助大脑形成空间感。狩猎求生时,祖先依靠双眼来判断猎物的远近、大小、形态;直到今天,视觉仍是各种感官中最主要的信息来源,对空间、光影、运动等保持高度灵敏。
第一类是平面线索,包括近大远小、遮挡关系、光影纹理等,这也是绘画、摄影中立体感的基础。我们凭借生活经验,将图像视作三维物体在二维平面的投影,“脑补”其原本的模样。
左图:立方体,而非三个邻接的平行四边形
右图:阴影、遮挡、近大远小在绘画中应用的实例
画面动起来,立体效果翻倍:比如“添加两条白杠变 3D“的例子。白杠遮挡了部分原图,将视频切割成了前景(魁地奇)中景(白杠)和背景(哈利波特)三部分,模糊效果进一步拉远了三个景别的心理距离。
当心!魁地奇要飞到你鼻尖上啦
第二类是深度线索,它们是突破“临场感”的关键。即在 XY 轴构成的平面外、Z 轴上的更多信息,包括:双目视差,移动视差和聚焦模糊。双目视差的典型应用是 3D 电影和 VR 眼镜,戴上特制的眼镜后,左右眼接收到的画面会有些微差异,经由大脑重新加工为立体的画面。
移动视差更为重要,现实中“横看成岭侧成峰”,对着手机图片可没这效果。毕竟显示器中每一帧画面的像素排列都是恒定的,无论晃头看还是调节焦点,图像不会有任何差异,因此立体感也是不完整的。
实现移动视差,就要确保观看者在不同的位置和角度看到不同的内容,大致有两条技术路径:第一是在显示器本身做文章,第二是追踪观看者并发送正确的画面。
借用lookingglass的效果示意图
路线一的典型代表是 LookingGlass、京东方等生产的新型光场显示器,谷歌 Starline 中使用的也是这种设备。原理是在显示层上叠加一层柱状透镜,使不同视角下进入眼睛的光线不同。外观上和普通显示器区别不大,只是很厚,像一块大玻璃。这本身并不是一项黑科技,你小时候一定见过。
在 2010 年前后曾兴起过一阵裸眼 3D 电视风潮,飞利浦在 2010 柏林电子展就率先展出,东芝、索尼也有布局;最大的瓶颈是芯片算力,要增加多少微视角,就要同时渲染多少倍的画面,很快因为体验不佳而被遗忘。
飞利浦的专利到期后,多家厂商又重新捡起这一科技树。在强劲显卡支持下,LookingGlass 在 2018 年推出首台设备,2021 年初发布了体积更小的消费级产品 portrait,可同时渲染 45 个视角画面,可视范围更大;能配合各种外接设备使用,从而实现与全息内容的高级交互,包括 VR 手柄,传感器,触觉反馈系统等。
LookingGlass与传感器联动效果示意
路线二的典型代表是 VirtualCube 项目中搭建的设备。原理为根据用户眼睛的位置,持续显示正确的图像和视角,相比 Lookingglass 等更为节约算力;缺点是体积稍大,同时只支持 1 人观看。
也有产品融合以上两种方式,如 Sony 的 ELFD 3D 显示器,在 2020 年的 CES 上展出 15 英寸原型机后受到广泛关注。ELFD 采用了索尼的三项专利技术:高速、高精度、实时传感;实时光场渲染;高精度 3D 显示。既追踪用户,以最小的延迟实现精确的眼部检测;也结合微光透镜实现更立体的效果。
不要因为熟悉,就觉得“必须”
本文的讨论主要是从“远程办公”出发,但“临场感”及相关的技术努力,显然不局限于这一个场景。数字技术在大大小小的领域推进着范式变革,也自然会引出传统范式与新兴范式的特性对比。沿着这一思路,再来思考“临场感”这个概念,恐怕也没有那么简单了。
我们对于临场感的理解与认知,建立在面对面人际交往的传统模式的基础之上,我们认为它是“好”的,是要去追寻的,在很大程度上是因为临场感是旧范式的固定属性,因此具备了合理性,也自然而然地成为我们评价和衡量新范式的标准。但是随着数字时代的延伸,“临场感”的定义也会发生变化,说不定“在线连接”的时代也会发展出属于自己的“光韵”,正如摄影也已经成为严肃艺术的代表一样。
所以我们不必过于纠结。每一代人都有所属的媒介环境和所处的时代背景,据此又会形成不同的价值观念和认知。没有什么是变动不居的,时代在发展,工具和技术在进步,我们对于事物的认知和态度也会因此发生变化。“工作”的定义也在发生漂移,生活在 21 世纪的我们所理解的“工作”,与 16 世纪纺织工厂工人的认知几乎完全不同,同理,一直处在线上办公模式中的人,对于工作的认知,显然也会与我们这一代人有很大差别。
这就意味着,我们对“临场感”这种传统范式属性的追寻,很可能缺少合理性的支撑。因为对于新一代或者说下一代工作者来说,他们对工作的认知可能就是“分散各地的人们,通过在线协同工具,相互沟通与协作,模块化、流程化完成任务”,既然远程连接能够提供这些条件,那为什么还要有一个物理的工作空间呢?为什么还要追求什么“临场感”呢?
所以,当我们讨论临场感时,要保持警惕,它可能不是未来工作模式中所必须的,避免因为熟悉,就觉得必须。不能因为传统事物的固有认知,限制了我们对新事物的想象。这跟我们对元宇宙等新事物的态度应该是一致的,所有人都在讨论元宇宙,但它到底是什么样貌,不是以现在的技术形态为标准的。与其按照旧思维去构想,去定义,去框定,不如打开想象空间,不设限,静待它自我发展与延伸,这就可以了。