Det dette får meg til å tenke på er menneskelig syn. Det er lett å glemme, og de fleste av oss har aldri engang lært, at menneskelig syn egentlig ikke har stor dekning heller. Vi har et veldig smalt, high-fidelity-spotlight, omgitt av en bred, low-fidelity-periferi. Grunnen til at synet vårt føles mye mer "komplett" enn det for oss, er at dataene forhjernen vår får, faktisk er et resultat av mye etterbehandling i andre områder av hjernen. En gang, mens jeg hjalp en doktorgradsstudent i perseptuell psykologi med litt C++-kode for avhandlingen hennes, oppdaget jeg ved et uhell hvordan jeg kunne slette deler av denne etterbehandlede modellen. Dette skaper en effekt der du kan vise noe, en stimulus, til øyet, men gjøre det usynlig for hjernen. Det var en av de merkeligste følelsene jeg noen gang har følt. Først trodde jeg at jeg hadde introdusert en feil, og koden som presenterte den visuelle teststimulansen kjørte ikke lenger, fordi jeg ikke kunne se den. Men da jeg gikk gjennom med en debugger, var stimulansen der. Det ble rett og slett slettet fra min visuelle cortex før mitt bevisste sinn noen gang "så" det. Doktorgradsstudenten så på dette, trakk på skuldrene, sa «rart» i et nysgjerrig tonefall, og gikk tilbake til temaet for studien sin. Og jeg skjønte ick og skrotet planene mine om å invitere henne ut på date. Uansett, jeg tar opp dette fordi det får meg til å mistenke at "panopticon"-maskinvaretilnærmingen alltid var dømt i praksis, hvis ikke engang naturen gjør ting på den måten, og i stedet erstatter tung etterbehandling med detaljert råinput. Jeg mistenker at, akkurat som i vår biologiske evolusjon, vil utviklingen av datasystemene våre nå et punkt der ekstra databehandling er mye billigere enn bedre periferiutstyr. Selv om John kanskje er i ferd med å fortelle meg at dette skjedde for mange år siden, og jeg har bare ikke fulgt med.
John Carmack
John Carmack13. aug., 00:15
Det har blitt laget mange sprø mangekamerarigger med det formål å fange full romlig video.  Jeg husker en samtale hos Meta som i utgangspunktet var "vi skal lene oss så hardt som mulig på klassisk geometrisk datasyn før vi ser på maskinlæringsalgoritmer", og jeg støttet den retningen. Det var for mange år siden, da ML fortsatt føltes som uforutsigbar alkymi, og selvfølgelig ønsker du å maksimere bruken av grunnsannheten! Hardcore ingeniørarbeid gikk inn i kamerakalibrering, synkronisering og databehandling, men det leverte aldri helt visjonen. Uansett hvor mange kameraer du har, vil ethvert komplekst bevegelig objekt ha okkluderte områder, og "hull i virkeligheten" skiller seg sterkt ut for en seer som ikke akkurat er på et av kamerapunktene. Selv når du har god sikt, gjør tvetydighetene i fotogrammetri med flere kameraer ting mindre presise enn du ønsker. Det var også noen eksperimenter for å se hvor god du kunne gjøre 3D-scenerekonstruksjonen fra Quest-kameraene ved hjelp av offline databehandling, og svaret var fortsatt "ikke veldig bra", med ganske klumpete overflater. Mange 3D-rekonstruksjoner ser fantastiske ut når de ruller forbi i feeden på telefonen din, men ikke så bra blåst opp til en fullstendig oppslukende VR-gjengivelse og satt i kontrast til et tradisjonelt bilde av høy kvalitet. Du trenger virkelig sterke priors for å drive tilpasningsproblemet og fylle ut dekningshull. For arkitektoniske scener kan du få litt kjørelengde ut av enkle plane priors, men moderne generativ AI er den ultimate prioren. Selv om de sprø kamerariggene fullt ut holdt løftet, ville de fortsatt ikke ha muliggjort et godt innholdsøkosystem. YouTube ville ikke ha lyktes hvis alle skapere trengte et RED Digital Cinema-kamera. Den (ganske gode!) stereoskopiske 3D-bildegenereringen i Quest Instagram er et lite skritt mot fremtiden. Det er veier til stereovideo og 6DOF-statisk, og deretter til slutt til 6DOF-video. Gjør alt oppslukende, og tillat deretter skreddersydd innstilling av oppslukende medier.
12,02K