分享好友 资讯头条首页 频道列表

MIT推出3D全息图生成新方法,可在智能手机上实时运行

2021-03-15 15:483940

来自 MIT 的研究者利用深度学习推出了 3D 全息图生成新方法,可以为VR、3D 打印、医学成像等创建全息图,并且能够在智能手机上运行。

提起三维场景可视化,虚拟现实(VR)是最常见的一种技术。但经过多年宣传,VR 头戴式耳机仍未成为电视或计算机屏幕上观看视频的必备设备。一个重要的原因是 VR 会让用户感到不适。虽然用户实际上是注视着 2D 显示器,但 VR 会产生 3D 观看的错觉,从而使人视觉疲劳和感到头晕恶心。更好的 3D 可视化解决方案可能在于一种诞生了六十年的技术:全息图。

全息图能够出色地展现 3D 世界,而且它的呈现效果非常漂亮。全息图可以根据观看者的位置提供变化的视角,并允许眼睛调整焦深以交替聚焦在前景和背景上。

长期以来,研究者们一直在试图制造出计算机生成的全息图,但传统上,该过程需要一台超级计算机来进行物理模拟,这非常耗时,并且产生的效果真实感不高。

近日,来自麻省理工学院的研究者已经开发出一种几乎可以立即生成全息图的研究方法。研究者表示:「基于深度学习的方法非常高效,使得新方法瞬间就能够在笔记本电脑上运行。」

研究团队的主要成员,MIT 电气工程与计算机科学系(EECS)的博士生 Liang Shi 说:「以前人们认为,使用现有的消费级硬件还不可能进行实时 3D 全息计算的。人们经常说:商用全息显示器将在未来十年左右出现,但这种说法已经存在了数十年。」

Shi 认为该团队称为「张量全息术」的新方法将最终实现这一「十年目标」。这一进展可能会推动 VR 和 3D 打印等领域引入全息技术。该研究的论文现已发表在《Nature》上,索尼对部分研究提供了支持。

论文链接:https://www.nature.com/articles/s41586-020-03152-0

代码地址:https://github.com/liangs111/tensor_holography

追求更好的 3D 全息图

照片可以忠实地再现场景的颜色,但最终产生的是一个平面图像。相比之下,全息图对每一个光波的亮度和相位都进行编码。这种组合可以更加真实地描述场景的视差和深度。莫奈的《睡莲》可以突出画作的色彩感,而全息图可以让作品变得栩栩如生,呈现出每一笔独特的 3D 质感。

但全息图的制作与共享仍是一个挑战。

全息图从 20 世纪中期开始发展,早期全息图是用光学原理记录的。这种技术需要将激光分为两部分,一半用来照亮被摄体,另一半用作光波相位的参考,该参考产生了全息图特有的深度感。产生的图像都是静态的,不能捕获运动。很难复制和共享。

而计算机生成全息术通过模拟光学装置避开了这些挑战,但是该过程可能是一个就算难题。Shi 说:「由于场景中每个点都有不同的深度,因此无法对所有点都使用相同的操作,这大大增加了复杂性。」指挥集群超级计算机运行这些基于物理的模拟可能需要几秒钟或几分钟来获得一张全息图像。此外,现有的算法不能精确地对遮挡物(occlusion)进行建模。

因此,Shi 的团队采取了不同的方法:「让计算机自学物理。」

他们使用深度学习来加速计算机生成全息术,从而实现实时全息图的生成。该团队设计了一个卷积神经网络:这是一种处理技术,使用一系列可训练张量来粗略模拟人类处理视觉信息的方式。通常,训练神经网络需要比较大的、高质量的数据集,但此前 3D 全息图领域并不存在这样的数据集。

该团队建立了一个包含 4000 对计算机生成图像的数据库。每一对都匹配一张图片,图像信息包括每个像素的颜色和深度信息,这些信息与全息图相对应。研究者使用形状和颜色复杂多变的场景,像素的深度从背景到前景均匀分布,并使用一组基于物理的新型计算来处理遮挡,产生了逼真的训练数据。接下来,算法开始发挥作用。

数据集样例

通过学习每个图像对,张量网络调整了其计算参数,从而逐步增强了其创建全息图的能力。完全优化的网络的运行速度比基于物理的计算快了多个数量级。这种效率让研究团队也感到惊讶。

Matusik 说:「它的表现让我们很惊讶。在短短几毫秒内,张量全息术可以从含有深度信息的图像中生成全息图,其中深度信息是由典型的计算机生成图像提供的,可以通过多机位的设置或激光雷达传感器(这两者都是一些新型智能手机的标准配置)计算出来。

这一进展为实时 3D 全息摄影铺平了道路。更重要的是,压缩型张量网络仅需要不足 1 MB 的内存。这一点非常适合现代智能手机。

微软首席光学架构师 Joel Kollin 说:「这项研究表明真正的 3D 全息显示器是实用的,只需要适当的计算需求。该研究的图像质量比此前有了显著的改善,将提升观看者的真实感和舒适感。」

Kollin 还暗示:「全息显示器可以根据观看者的眼部定制,矫正眼睛的像差。」

其他应用

实时 3D 全息技术还有助于 VR、3D 打印等系统的发展。研究团队表示,新系统可以帮助 VR 观众沉浸在更真实的场景中,同时消除眼睛疲劳和长期使用 VR 的其他副作用。这项技术可以很容易地应用在调制光波相位的显示器上。目前,大多数价格合理的消费级显示器只调节亮度,但如果广泛采用 3D 全息技术,相位调制显示器的成本会下降。

此外,3D 全息技术还可以促进立体 3D 打印技术的发展。事实证明,这种技术比传统的逐层 3D 打印更快、更精确。其他的应用还包括用于显微镜、医疗数据可视化以及具有独特光学特性的平面设计。

Matusik 说:「这是一个巨大的飞跃,可以彻底改变人们对全息技术的态度,我们觉得神经网络是为这项任务而生的。」

作者介绍

该论文的第一作者是 MIT 的计算机科学与人工智能实验室(CSAIL)的博士生史亮。他本科毕业于北京航空航天大学,2016 年获得斯坦福大学电气工程硕士学位。史亮的研究兴趣包括 VR/AR、计算摄影、计算制造、计算机图形学、机器学习等。

第二作者是 MIT CSAIL 博士生李北辰。他本科毕业于清华大学。他的研究兴趣是机器学习在计算机图形学、计算设计和计算制造中的跨学科应用。

参考链接:https://news.mit.edu/2021/3d-holograms-vr-0310

对于企业和开发者,如何加满机器学习技能点,更轻松地上手机器学习?

3月15日,亚马逊云科技机器学习高级产品经理孟和将带来线上分享。本次分享从供应链和自动驾驶领域的相关应用案例出发,详细讲解亚马逊云科技将提供哪些关键资源,帮助开发者团队提高机器学习技能,从而更好地应用AI。


反对 0
举报 0
打赏 0
相关信息
虚拟人不“虚”:一年新增20万家,以500万入局千亿市场
字节跳动旗下虚拟偶像组合A-SOUL近日因成员休眠登上热搜,再次将虚拟人推到了前台。出圈登上热搜足以证明虚拟人用户群体已经不小。实际上虚拟人已经成为元宇宙热潮之后最热的一个方向,除了字节,网易、腾讯、百度等诸多互联网大厂也在这个赛道发力。天眼查数据显示,我国现有虚拟数字人相关企业28.8万余家,有近七成的虚拟

0评论2024-01-1819774

虚拟人音乐会上,你会粉哪位“歌者”?
AI大模型的火爆,让虚拟数字人再度成为市场宠儿。技术的突破,驱动着其加速驶向商业化落地......在文娱产业,虚拟数字人也为数字经济带来一番热闹景象。虚拟人,从“人仿AI”走向“AI仿人”1985年,英国卡尔顿电视台第四频道决定推出一档音乐视频节目。节目如何能够快速获得观众的喜爱?从主持人身上做文章!不久后,“第一

0评论2024-01-1817869

三星在CES 2024推出全球首款透明MicroLED显示屏
IT之家1 月 8 日消息,在今日的CES 2024展台,三星展示了全球首款透明 MicroLED 屏幕。三星官方没有透露这项技术的成本,或者何时将这项技术用于零售设备。根据外媒 Engadget 的报道,三星展示了三种不同透明度的 MicroLED 显示屏,其中两个采用有色玻璃,另一个采用透明玻璃,拥有无边框设计。三星官方人员表示,由于透明

0评论2024-01-1518658

“联通向5G 童眼看未来”童学会小记者采访团走进陕西联通
1月7日上午,童学会小记者采访团走进陕西联通,感受联通5G数字科技魅力,零距离了解云计算、物联网、数字人等在实际场景中的应用,更有全息投影、元宇宙数字人对话、直播助农带货等沉浸式互动体验,小记者采访团身临其境地感受到了联通5G神奇的“新世界”。陕西联通数字科技创新馆  一走进陕西联通数字科技创新馆,小记者

0评论2024-01-1220417

幻影成像是什么意思?带你详细了解幻影成像原理构成
近年来幻影成像技术以其神秘而引人入胜的特性,逐渐引起科技领域和创新企业的关注。神奇的幻影成像,原理是什么呢?幻影成像技术常用于发布会、演唱会、企业年会等大型舞台,它以斜置的框架作为支撑,把具有一定透明度的反射膜绷装于框架内。投影机画面投射在或上或下的水平成像幕上,成像幕中的影像依靠反射原理将光线反射

0评论2024-01-0324552

评论

0

收藏

点赞