Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Quello che mi fa pensare è la visione umana.
È facile dimenticare, e la maggior parte di noi non ha mai nemmeno imparato, che la visione umana non ha davvero una grande copertura.
Abbiamo un faro molto stretto e ad alta fedeltà, circondato da una periferia ampia e a bassa fedeltà.
Il motivo per cui la nostra visione ci sembra molto più "completa" è che i dati che il nostro cervello anteriore riceve sono in realtà il risultato di un sacco di post-elaborazione in altre aree del cervello.
Una volta, mentre aiutavo uno studente di dottorato in psicologia percettiva con un po' di codice C++ per la sua ricerca di tesi, ho scoperto accidentalmente come cancellare parti di questo modello post-elaborato.
Questo crea un effetto in cui puoi mostrare qualcosa, uno stimolo, all'occhio, ma renderlo invisibile al cervello.
È stata una delle sensazioni più strane che abbia mai provato. All'inizio, pensavo di aver introdotto un bug, e che il codice che presentava lo stimolo visivo non stesse più funzionando, perché non riuscivo a vederlo.
Ma quando ho eseguito il debug, lo stimolo era lì. Veniva semplicemente cancellato dalla mia corteccia visiva prima che la mia mente consapevole lo "vedesse" mai.
Lo studente di dottorato ha guardato questo, ha scrollato le spalle, ha detto "strano" con un tono di voce disinteressato, e è tornata all'argomento del suo studio. E io ho avuto un brivido e ho abbandonato i miei piani di chiederle di uscire.
Comunque, lo menziono perché mi fa sospettare che l'approccio hardware "panottico" fosse sempre destinato a fallire nella pratica, se anche la natura non fa le cose in quel modo, e invece sostituisce una pesante post-elaborazione a un input grezzo dettagliato.
Sospetto che, proprio come nella nostra evoluzione biologica, l'evoluzione dei nostri sistemi informatici raggiungerà un punto in cui il calcolo aggiuntivo è molto più economico delle migliori periferiche.
Anche se forse John sta per dirmi che questo è successo anni fa e io non ho semplicemente prestato attenzione.

13 ago, 00:15
Sono stati creati molti rig di telecamere folli per catturare video spaziali completi.
Ricordo una conversazione a Meta che era fondamentalmente "ci concentreremo il più possibile sulla visione computerizzata geometrica classica prima di esaminare gli algoritmi di apprendimento automatico", e io ero favorevole a quella direzione. Era molti anni fa, quando l'apprendimento automatico sembrava ancora un'alchimia imprevedibile, e naturalmente vuoi massimizzare l'uso della verità di base!
Un grande sforzo ingegneristico è stato dedicato alla calibrazione delle telecamere, alla sincronizzazione e all'elaborazione dei dati, ma non ha mai realmente realizzato la visione. Non importa quante telecamere hai, qualsiasi oggetto in movimento complesso avrà aree occluse, e i "buchi nella realtà" si notano nettamente per un osservatore che non si trova esattamente in uno dei punti della telecamera.
Anche quando hai una buona visibilità, le ambiguità nella fotogrammetria multi-camera rendono le cose meno precise di quanto vorresti. Ci sono stati anche alcuni esperimenti per vedere quanto bene potessi ricostruire la scena 3D dalle telecamere Quest utilizzando il calcolo offline, e la risposta era ancora "non molto bene", con superfici piuttosto irregolari. Molte ricostruzioni 3D sembrano fantastiche mentre scorrono nel feed sul tuo telefono, ma non così buone se ingrandite in un rendering VR completamente immersivo e messe a confronto con una foto tradizionale di alta qualità.
Hai davvero bisogno di forti prior per guidare il problema di adattamento e riempire i gap di copertura. Per le scene architettoniche, puoi ottenere qualche vantaggio da semplici prior planari, ma l'IA generativa moderna è il prior definitivo.
Anche se i rig di telecamere folli avessero pienamente realizzato la promessa, non avrebbero comunque abilitato un buon ecosistema di contenuti. YouTube non avrebbe avuto successo se ogni creatore avesse bisogno di una telecamera RED Digital Cinema.
La generazione di foto stereoscopiche 3D (piuttosto buona!) in Quest Instagram è un primo passo verso il futuro. Ci sono percorsi verso video stereo e 6DOF statici, e poi eventualmente verso video 6DOF.
Rendi tutto immersivo, poi consenti una regolazione su misura dei media consapevoli dell'immersione.

12,03K
Principali
Ranking
Preferiti