Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Lo que esto me hace pensar es en la visión humana.
Es fácil olvidar, y la mayoría de nosotros nunca aprendió, que la visión humana realmente no tiene una gran cobertura tampoco.
Tenemos un foco muy estrecho y de alta fidelidad, rodeado de una periferia amplia y de baja fidelidad.
La razón por la que nuestra visión se siente mucho más "completa" que eso para nosotros es que los datos que recibe nuestro cerebro anterior son en realidad el resultado de un gran procesamiento posterior en otras áreas del cerebro.
Una vez, mientras ayudaba a una estudiante de doctorado en psicología perceptual con algo de código en C++ para su investigación de tesis, descubrí accidentalmente cómo borrar partes de este modelo procesado.
Esto crea un efecto donde puedes mostrar algo, un estímulo, al ojo, pero hacerlo invisible para el cerebro.
Fue una de las sensaciones más extrañas que he sentido. Al principio, pensé que había introducido un error, y que el código que presentaba el estímulo visual ya no estaba funcionando, porque no podía verlo.
Pero cuando revisé con un depurador, el estímulo estaba allí. Simplemente estaba siendo borrado de mi corteza visual antes de que mi mente consciente lo "viera".
La estudiante de doctorado miró esto, se encogió de hombros, dijo "raro" con un tono de voz desinteresado, y volvió al tema de su estudio. Y yo me sentí incómodo y descarté mis planes de invitarla a salir.
De todos modos, menciono esto porque me hace sospechar que el enfoque de hardware "panóptico" siempre estuvo condenado en la práctica, si incluso la naturaleza no hace las cosas de esa manera, y en su lugar sustituye un pesado procesamiento posterior por una entrada cruda detallada.
Sospecho que, al igual que en nuestra evolución biológica, la evolución de nuestros sistemas informáticos llegará a un punto donde el cómputo adicional es mucho más barato que mejores periféricos.
Aunque quizás John está a punto de decirme que esto sucedió hace años y simplemente no he estado prestando atención.

13 ago, 00:15
Se han creado muchos sistemas de cámaras locas con el propósito de capturar video espacial completo.
Recuerdo una conversación en Meta que básicamente decía "vamos a centrarnos lo más posible en la visión por computadora geométrica clásica antes de mirar los algoritmos de aprendizaje automático", y apoyé esa dirección. Eso fue hace muchos años, cuando el aprendizaje automático aún se sentía como una alquimia impredecible, y por supuesto, ¡quieres maximizar tu uso de la verdad fundamental!
Se dedicó un gran esfuerzo de ingeniería a la calibración de cámaras, sincronización y procesamiento de datos, pero nunca realmente cumplió con la visión. No importa cuántas cámaras tengas, cualquier objeto en movimiento complejo tendrá áreas ocluidas, y los "agujeros en la realidad" destacan de manera notable para un espectador que no está exactamente en uno de los puntos de la cámara.
Incluso cuando tienes buena visibilidad, las ambigüedades en la fotogrametría de múltiples cámaras hacen que las cosas sean menos precisas de lo que te gustaría. También hubo algunos experimentos para ver qué tan buena podía ser la reconstrucción de escenas 3D a partir de las cámaras Quest utilizando computación offline, y la respuesta seguía siendo "no muy buena", con superficies bastante irregulares. Muchas reconstrucciones 3D se ven increíbles al desplazarse en el feed de tu teléfono, pero no tan bien ampliadas a una representación VR completamente inmersiva y contrastadas con una foto tradicional de alta calidad.
Realmente necesitas fuertes priors para impulsar el problema de ajuste y llenar los huecos de cobertura. Para escenas arquitectónicas, puedes obtener algo de rendimiento de priors planos simples, pero la IA generativa moderna es el prior definitivo.
Incluso si los locos sistemas de cámaras cumplieran completamente con la promesa, aún no habrían permitido un buen ecosistema de contenido. YouTube no habría tenido éxito si cada creador necesitara una cámara RED Digital Cinema.
La generación de fotos 3D estereoscópicas (¡bastante buena!) en Quest Instagram es un primer paso hacia el futuro. Hay caminos hacia video estereoscópico y 6DOF estático, y eventualmente hacia video 6DOF.
Haz que todo sea inmersivo, luego permite la sintonización personalizada de medios conscientes de la inmersión.

12,41K
Parte superior
Clasificación
Favoritos