Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Waar dit me aan doet denken is het menselijk zicht.
Het is gemakkelijk om te vergeten, en de meesten van ons hebben het zelfs nooit geleerd, dat het menselijk zicht niet echt een geweldige dekking heeft.
We hebben een zeer smalle, hoge-fidelity spotlight, omringd door een brede, lage-fidelity periferie.
De reden dat ons zicht veel "vollediger" aanvoelt dan dat voor ons is, is dat de gegevens die onze voorhersenen ontvangen, eigenlijk het resultaat zijn van veel nabewerking in andere delen van de hersenen.
Een keer, terwijl ik een doctoraatsstudent in de perceptuele psychologie hielp met wat C++-code voor haar scriptieonderzoek, ontdekte ik per ongeluk hoe ik delen van dit nabewerkte model kon wissen.
Dit creëerde een effect waarbij je iets, een stimulus, aan het oog kon tonen, maar het onzichtbaar kon maken voor de hersenen.
Het was een van de vreemdste sensaties die ik ooit heb gevoeld. In het begin dacht ik dat ik een bug had geïntroduceerd, en dat de code die de visuele teststimulus presenteerde niet meer draaide, omdat ik het niet kon zien.
Maar toen ik met een debugger doorliep, was de stimulus daar. Het werd simpelweg gewist uit mijn visuele cortex voordat mijn bewuste geest het ooit "zag".
De PhD-student keek hiernaar, haalde haar schouders op, zei "vreemd" in een ongeïnteresseerde toon, en ging terug naar het onderwerp van haar studie. En ik kreeg een naar gevoel en gooide mijn plannen om haar uit te vragen overboord.
Hoe dan ook, ik breng dit ter sprake omdat het me doet vermoeden dat de "panopticon" hardwarebenadering altijd gedoemd was in de praktijk, als zelfs de natuur het niet zo doet, en in plaats daarvan zware nabewerking vervangt voor gedetailleerde ruwe invoer.
Ik vermoed dat, net als in onze biologische evolutie, de evolutie van onze computersystemen een punt zal bereiken waar extra rekencapaciteit veel goedkoper is dan betere randapparatuur.
Hoewel misschien John me gaat vertellen dat dit jaren geleden is gebeurd en ik gewoon niet heb opgelet.

13 aug, 00:15
Er zijn veel gekke camera-opstellingen gemaakt voor het vastleggen van volledige ruimtelijke video.
Ik herinner me een gesprek bij Meta dat in feite ging over "we gaan zo hard mogelijk leunen op klassieke geometrische computer vision voordat we naar machine learning-algoritmen kijken", en ik was ondersteunend aan die richting. Dat was vele jaren geleden, toen ML nog aanvoelde als onvoorspelbare alchemie, en natuurlijk wil je je gebruik van de grondwaarheid maximaliseren!
Er is veel hardcore engineering-inspanning gestoken in camera-calibratie, synchronisatie en gegevensverwerking, maar het heeft nooit echt de visie waargemaakt. Hoeveel camera's je ook hebt, elk complex bewegend object zal occlusiegebieden hebben, en "gaten in de realiteit" vallen sterk op voor een kijker die niet precies op een van de camerapunten staat.
Zelfs wanneer je goede zichtbaarheid hebt, maken de ambiguïteiten in multi-camera fotogrammetrie dingen minder precies dan je zou willen. Er waren ook enkele experimenten om te zien hoe goed je de 3D-scène reconstructie van de Quest-camera's kon maken met offline berekeningen, en het antwoord was nog steeds "niet erg goed", met behoorlijk hobbelige oppervlakken. Veel 3D-reconstructies zien er geweldig uit terwijl ze voorbij scrollen in de feed op je telefoon, maar niet zo goed als ze worden vergroot tot een volledig meeslepende VR-rendering en in contrast worden gesteld met een traditionele foto van hoge kwaliteit.
Je hebt echt sterke priors nodig om het fittingprobleem aan te sturen en de dekkingstekorten op te vullen. Voor architectonische scènes kun je wat voordeel halen uit eenvoudige vlakke priors, maar moderne generatieve AI is de ultieme prior.
Zelfs als de gekke camera-opstellingen volledig aan de belofte zouden voldoen, zouden ze nog steeds geen goed content-ecosysteem mogelijk maken. YouTube zou niet zijn geslaagd als elke maker een RED Digital Cinema-camera nodig had.
De (best goede!) stereoscopische 3D-fotogeneratie in Quest Instagram is een eerste stap naar de toekomst. Er zijn paden naar stereo video en 6DOF statisch, en uiteindelijk naar 6DOF video.
Maak alles meeslepend, en laat dan op maat gemaakte afstemming van meeslepende media toe.

12,41K
Boven
Positie
Favorieten