這讓我想到了人類的視覺。 很容易忘記,而且我們大多數人甚至從未學過,人類的視覺實際上並沒有很好的覆蓋範圍。 我們有一個非常狹窄、高保真的聚光燈,周圍是一個寬廣、低保真的邊緣。 我們的視覺感覺比這更“完整”的原因是,我們的大腦前部接收到的數據實際上是大腦其他區域經過大量後處理的結果。 有一次,在幫助一位感知心理學的博士生為她的論文研究編寫一些C++代碼時,我意外地發現了如何擦除這個後處理模型的部分。 這產生了一種效果,你可以向眼睛展示某個東西,一個刺激,但讓它對大腦不可見。 這是我經歷過的最奇怪的感覺之一。起初,我以為我引入了一個bug,呈現視覺測試刺激的代碼不再運行,因為我看不見它。 但當我用調試器逐步檢查時,刺激確實存在。它只是被從我的視覺皮層中擦除,在我的意識“看到”它之前。 那位博士生看了看,耸了耸肩,用一種不感興趣的語氣說了句“奇怪”,然後又回到了她的研究主題。我感到不適,放棄了約她出去的計劃。 無論如何,我提到這一點是因為我懷疑“全景監獄”硬件方法在實踐中注定要失敗,如果連自然都不是這樣做,而是用大量後處理來替代詳細的原始輸入。 我懷疑,就像在我們的生物進化中一樣,我們的計算機系統的進化將達到一個點,在這個點上,額外的計算成本遠低於更好的外設。 不過,也許約翰馬上就要告訴我,這種情況早在幾年前就發生了,而我只是不夠關注。
John Carmack
John Carmack8月13日 00:15
為了捕捉完整的空間視頻,已經創造了許多瘋狂的多攝像頭設備。 我記得在Meta的一次對話,基本上是「我們將儘可能依賴經典的幾何計算機視覺,然後再考慮機器學習算法」,我對這個方向表示支持。那是很多年前,當時機器學習仍然感覺像是不可預測的煉金術,當然你希望最大化利用真實數據! 在相機校準、同步和數據處理方面投入了大量的工程努力,但它從未真正實現願景。無論你有多少個攝像頭,任何複雜的移動物體都會有被遮擋的區域,而「現實中的空洞」在不在攝像頭點的觀眾眼中顯得格外明顯。 即使在良好的可見性下,多攝像頭攝影測量中的模糊性也使得事情不如你所希望的那樣精確。還有一些實驗是看看如何利用離線計算從Quest攝像頭生成更好的3D場景重建,答案仍然是「不是很好」,表面相當粗糙。許多3D重建在手機的動態信息流中看起來很驚艷,但在完全沉浸式的VR渲染中放大,與高質量的傳統照片對比時就顯得不那麼好。 你真的需要強大的先驗知識來推動擬合問題並填補覆蓋空白。對於建築場景,你可以從簡單的平面先驗中獲得一些收益,但現代生成性AI是終極的先驗。 即使這些瘋狂的攝像頭設備完全實現了承諾,它們仍然無法促進良好的內容生態系統。如果每個創作者都需要一台RED數字電影相機,YouTube就不會成功。 Quest Instagram中的(相當不錯的!)立體3D照片生成是通往未來的一小步。通往立體視頻和6DOF靜態視頻的路徑,然後最終到6DOF視頻。 讓一切都沉浸式,然後允許對沉浸感媒體進行定制調優。
12.03K