这让我想到了人类的视觉。 很容易忘记,而且我们大多数人甚至从未学过,人类的视觉实际上并没有很好的覆盖范围。 我们有一个非常狭窄、高保真的聚光灯,周围是一个宽广、低保真的边缘。 我们的视觉感觉比这更“完整”的原因是,我们的大脑前部接收到的数据实际上是大脑其他区域经过大量后处理的结果。 有一次,在帮助一位感知心理学的博士生为她的论文研究编写一些C++代码时,我意外地发现了如何擦除这个后处理模型的部分。 这产生了一种效果,你可以向眼睛展示某个东西,一个刺激,但让它对大脑不可见。 这是我经历过的最奇怪的感觉之一。起初,我以为我引入了一个bug,呈现视觉测试刺激的代码不再运行,因为我看不见它。 但当我用调试器逐步检查时,刺激确实存在。它只是被从我的视觉皮层中擦除,在我的意识“看到”它之前。 那位博士生看了看,耸了耸肩,用一种不感兴趣的语气说了句“奇怪”,然后又回到了她的研究主题。我感到不适,放弃了约她出去的计划。 无论如何,我提到这一点是因为我怀疑“全景监狱”硬件方法在实践中注定要失败,如果连自然都不是这样做,而是用大量后处理来替代详细的原始输入。 我怀疑,就像在我们的生物进化中一样,我们的计算机系统的进化将达到一个点,在这个点上,额外的计算成本远低于更好的外设。 不过,也许约翰马上就要告诉我,这种情况早在几年前就发生了,而我只是不够关注。
John Carmack
John Carmack8月13日 00:15
为了捕捉完整的空间视频,已经创造了许多疯狂的多摄像头设备。 我记得在Meta的一次对话,基本上是“我们将尽可能依赖经典的几何计算机视觉,然后再考虑机器学习算法”,我对这个方向表示支持。那是很多年前,当时机器学习仍然感觉像是不可预测的炼金术,当然你希望最大化利用真实数据! 在相机校准、同步和数据处理方面投入了大量的工程努力,但它从未真正实现愿景。无论你有多少个摄像头,任何复杂的移动物体都会有被遮挡的区域,而“现实中的空洞”在不在摄像头点的观众眼中显得格外明显。 即使在良好的可见性下,多摄像头摄影测量中的模糊性也使得事情不如你所希望的那样精确。还有一些实验是看看如何利用离线计算从Quest摄像头生成更好的3D场景重建,答案仍然是“不是很好”,表面相当粗糙。许多3D重建在手机的动态信息流中看起来很惊艳,但在完全沉浸式的VR渲染中放大,与高质量的传统照片对比时就显得不那么好。 你真的需要强大的先验知识来推动拟合问题并填补覆盖空白。对于建筑场景,你可以从简单的平面先验中获得一些收益,但现代生成性AI是终极的先验。 即使这些疯狂的摄像头设备完全实现了承诺,它们仍然无法促进良好的内容生态系统。如果每个创作者都需要一台RED数字电影相机,YouTube就不会成功。 Quest Instagram中的(相当不错的!)立体3D照片生成是通往未来的一小步。通往立体视频和6DOF静态视频的路径,然后最终到6DOF视频。 让一切都沉浸式,然后允许对沉浸感媒体进行定制调优。
12.41K