Det har blitt laget mange sprø mangekamerarigger med det formål å fange full romlig video.  Jeg husker en samtale hos Meta som i utgangspunktet var "vi skal lene oss så hardt som mulig på klassisk geometrisk datasyn før vi ser på maskinlæringsalgoritmer", og jeg støttet den retningen. Det var for mange år siden, da ML fortsatt føltes som uforutsigbar alkymi, og selvfølgelig ønsker du å maksimere bruken av grunnsannheten! Hardcore ingeniørarbeid gikk inn i kamerakalibrering, synkronisering og databehandling, men det leverte aldri helt visjonen. Uansett hvor mange kameraer du har, vil ethvert komplekst bevegelig objekt ha okkluderte områder, og "hull i virkeligheten" skiller seg sterkt ut for en seer som ikke akkurat er på et av kamerapunktene. Selv når du har god sikt, gjør tvetydighetene i fotogrammetri med flere kameraer ting mindre presise enn du ønsker. Det var også noen eksperimenter for å se hvor god du kunne gjøre 3D-scenerekonstruksjonen fra Quest-kameraene ved hjelp av offline databehandling, og svaret var fortsatt "ikke veldig bra", med ganske klumpete overflater. Mange 3D-rekonstruksjoner ser fantastiske ut når de ruller forbi i feeden på telefonen din, men ikke så bra blåst opp til en fullstendig oppslukende VR-gjengivelse og satt i kontrast til et tradisjonelt bilde av høy kvalitet. Du trenger virkelig sterke priors for å drive tilpasningsproblemet og fylle ut dekningshull. For arkitektoniske scener kan du få litt kjørelengde ut av enkle plane priors, men moderne generativ AI er den ultimate prioren. Selv om de sprø kamerariggene fullt ut holdt løftet, ville de fortsatt ikke ha muliggjort et godt innholdsøkosystem. YouTube ville ikke ha lyktes hvis alle skapere trengte et RED Digital Cinema-kamera. Den (ganske gode!) stereoskopiske 3D-bildegenereringen i Quest Instagram er et lite skritt mot fremtiden. Det er veier til stereovideo og 6DOF-statisk, og deretter til slutt til 6DOF-video. Gjør alt oppslukende, og tillat deretter skreddersydd innstilling av oppslukende medier.
159,44K