Ce que cela me fait penser, c'est à la vision humaine. Il est facile d'oublier, et la plupart d'entre nous n'ont même jamais appris, que la vision humaine n'a pas vraiment une grande couverture non plus. Nous avons un très étroit faisceau lumineux de haute fidélité, entouré d'une large périphérie de faible fidélité. La raison pour laquelle notre vision nous semble beaucoup plus "complète" que cela, c'est que les données que notre cerveau antérieur reçoit sont en réalité le résultat d'un grand nombre de post-traitements dans d'autres zones du cerveau. Une fois, en aidant une étudiante en doctorat de psychologie perceptuelle avec un code C++ pour sa recherche de thèse, j'ai accidentellement découvert comment effacer des parties de ce modèle post-traité. Cela créait un effet où vous pouviez montrer quelque chose, un stimulus, à l'œil, mais le rendre invisible pour le cerveau. C'était l'une des sensations les plus étranges que j'ai jamais ressenties. Au début, je pensais avoir introduit un bug, et que le code qui présentait le stimulus visuel ne fonctionnait plus, car je ne pouvais pas le voir. Mais quand je suis passé avec un débogueur, le stimulus était là. Il était simplement effacé de mon cortex visuel avant que mon esprit conscient ne l'ait jamais "vu". L'étudiante en doctorat a regardé cela, a haussé les épaules, a dit "bizarre" d'un ton désintéressé, et est retournée au sujet de son étude. Et j'ai eu un malaise et j'ai abandonné mes plans de lui proposer un rendez-vous. Quoi qu'il en soit, je mentionne cela parce que cela me fait soupçonner que l'approche matérielle du "panoptique" était toujours vouée à l'échec en pratique, si même la nature ne fait pas les choses de cette manière, et substitue plutôt un lourd post-traitement à une entrée brute détaillée. Je soupçonne que, tout comme dans notre évolution biologique, l'évolution de nos systèmes informatiques atteindra un point où le calcul supplémentaire est beaucoup moins cher que de meilleurs périphériques. Bien que peut-être John est sur le point de me dire que cela s'est produit il y a des années et que je n'ai tout simplement pas fait attention.
John Carmack
John Carmack13 août, 00:15
Il y a eu beaucoup de configurations de caméras folles créées dans le but de capturer des vidéos spatiales complètes.  Je me souviens d'une conversation chez Meta qui était essentiellement : « nous allons nous concentrer autant que possible sur la vision par ordinateur géométrique classique avant d'examiner les algorithmes d'apprentissage automatique », et j'étais favorable à cette direction. C'était il y a de nombreuses années, lorsque l'apprentissage automatique semblait encore être une alchimie imprévisible, et bien sûr, vous voulez maximiser votre utilisation de la vérité terrain ! Un effort d'ingénierie intense a été consacré à la calibration des caméras, à la synchronisation et au traitement des données, mais cela n'a jamais vraiment réalisé la vision. Peu importe combien de caméras vous avez, tout objet en mouvement complexe aura des zones occluses, et les « trous dans la réalité » se démarquent fortement pour un spectateur qui n'est pas exactement à l'un des points de caméra. Même lorsque vous avez une bonne visibilité, les ambiguïtés dans la photogrammétrie multi-caméras rendent les choses moins précises que vous ne le souhaiteriez. Il y a également eu quelques expériences pour voir à quel point vous pouviez améliorer la reconstruction de scènes 3D à partir des caméras Quest en utilisant un calcul hors ligne, et la réponse était toujours « pas très bonne », avec des surfaces plutôt inégales. Beaucoup de reconstructions 3D ont l'air incroyables en défilant dans le fil d'actualité sur votre téléphone, mais pas si bonnes lorsqu'elles sont agrandies pour un rendu VR totalement immersif et mises en contraste avec une photo traditionnelle de haute qualité. Vous avez vraiment besoin de fortes hypothèses pour résoudre le problème d'ajustement et combler les lacunes de couverture. Pour les scènes architecturales, vous pouvez tirer parti de simples hypothèses planes, mais l'IA générative moderne est l'hypothèse ultime. Même si les configurations de caméras folles réalisaient pleinement la promesse, elles n'auraient toujours pas permis un bon écosystème de contenu. YouTube n'aurait pas réussi si chaque créateur avait besoin d'une caméra RED Digital Cinema. La génération de photos 3D stéréoscopiques (plutôt bonne !) dans Quest Instagram est un premier pas vers l'avenir. Il existe des voies vers la vidéo stéréo et le statique 6DOF, puis finalement vers la vidéo 6DOF. Rendez tout immersif, puis permettez un réglage sur mesure des médias sensibles à l'immersion.
12,03K