Stworzono wiele szalonych rigów z wieloma kamerami w celu uchwycenia pełnego wideo przestrzennego.  Przypominam sobie rozmowę w Meta, która zasadniczo brzmiała: „będziemy się mocno opierać na klasycznej geometrii w wizji komputerowej, zanim spojrzymy na algorytmy uczenia maszynowego”, i byłem zwolennikiem tego kierunku. To było wiele lat temu, kiedy ML wciąż wydawało się nieprzewidywalną alchemią, a oczywiście chcesz maksymalnie wykorzystać prawdę obiektywną! Włożono ogromny wysiłek inżynieryjny w kalibrację kamer, synchronizację i przetwarzanie danych, ale nigdy tak naprawdę nie zrealizowało to wizji. Niezależnie od tego, ile kamer masz, każdy złożony obiekt w ruchu będzie miał obszary zasłonięte, a „dziury w rzeczywistości” wyraźnie rzucają się w oczy widzowi, który nie znajduje się dokładnie w jednym z punktów kamery. Nawet gdy masz dobrą widoczność, niejednoznaczności w fotogrametrii z wielu kamer sprawiają, że wszystko jest mniej precyzyjne, niż byś chciał. Były też pewne eksperymenty, aby zobaczyć, jak dobrze można zrekonstruować scenę 3D z kamer Quest, korzystając z offline'owego przetwarzania, a odpowiedź wciąż brzmiała: „niezbyt dobrze”, z dość nierównymi powierzchniami. Wiele rekonstrukcji 3D wygląda niesamowicie, gdy przewijasz je w feedzie na swoim telefonie, ale nie tak dobrze, gdy są powiększone do w pełni immersyjnego renderowania VR i zestawione z wysokiej jakości tradycyjnym zdjęciem. Naprawdę potrzebujesz silnych priorytetów, aby napędzać problem dopasowania i wypełniać luki w pokryciu. W przypadku scen architektonicznych możesz uzyskać pewne korzyści z prostych priorytetów płaskich, ale nowoczesna generatywna AI to ostateczny priorytet. Nawet gdyby szalone rigy kamer w pełni zrealizowały obietnicę, nadal nie umożliwiłyby dobrego ekosystemu treści. YouTube nie odniósłby sukcesu, gdyby każdy twórca potrzebował kamery RED Digital Cinema. (Dość dobre!) generowanie stereoskopowych zdjęć 3D w Quest Instagram to mały krok w stronę przyszłości. Istnieją ścieżki do wideo stereo i statycznego 6DOF, a następnie w końcu do wideo 6DOF. Zrób wszystko immersyjne, a następnie pozwól na dostosowanie mediów świadomych immersji.
160,92K