Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O que isso me faz pensar é na visão humana.
É fácil esquecer, e a maioria de nós nunca aprendeu, que a visão humana não tem uma cobertura tão boa assim.
Temos um foco muito estreito e de alta fidelidade, cercado por uma periferia ampla e de baixa fidelidade.
A razão pela qual nossa visão parece muito mais "completa" para nós é que os dados que nosso cérebro anterior recebe são, na verdade, o resultado de muito processamento posterior em outras áreas do cérebro.
Uma vez, enquanto ajudava uma estudante de doutorado em psicologia perceptual com um código em C++ para sua pesquisa de tese, descobri acidentalmente como apagar partes desse modelo processado.
Isso cria um efeito onde você pode mostrar algo, um estímulo, ao olho, mas torná-lo invisível para o cérebro.
Foi uma das sensações mais estranhas que já senti. A princípio, pensei que tinha introduzido um bug, e que o código que apresentava o estímulo visual não estava mais rodando, porque eu não conseguia vê-lo.
Mas quando passei pelo depurador, o estímulo estava lá. Ele simplesmente estava sendo apagado do meu córtex visual antes que minha mente consciente o "visse".
A estudante de doutorado olhou para isso, deu de ombros, disse "estranho" com um tom de voz desinteressado, e voltou ao tópico de seu estudo. E eu fiquei desconfortável e abandonei meus planos de convidá-la para sair.
De qualquer forma, trago isso à tona porque me faz suspeitar que a abordagem de hardware "panóptico" sempre esteve condenada na prática, se até mesmo a natureza não faz as coisas dessa maneira, e em vez disso substitui um pesado processamento posterior por uma entrada bruta detalhada.
Suspeito que, assim como em nossa evolução biológica, a evolução de nossos sistemas computacionais atingirá um ponto onde o processamento adicional é muito mais barato do que melhores periféricos.
Embora talvez John esteja prestes a me dizer que isso aconteceu anos atrás e eu simplesmente não tenha prestado atenção.

13/08, 00:15
Foram criados muitos sistemas de câmeras malucos para capturar vídeo espacial completo.
Lembro-me de uma conversa na Meta que basicamente dizia "vamos nos aprofundar o máximo possível na visão computacional geométrica clássica antes de olhar para algoritmos de aprendizado de máquina", e eu apoiava essa direção. Isso foi há muitos anos, quando o aprendizado de máquina ainda parecia uma alquimia imprevisível, e claro que você quer maximizar o uso da verdade fundamental!
Um esforço intenso de engenharia foi dedicado à calibração de câmeras, sincronização e processamento de dados, mas nunca realmente entregou a visão. Não importa quantas câmeras você tenha, qualquer objeto em movimento complexo terá áreas ocluídas, e "buracos na realidade" se destacam de forma marcante para um espectador que não está exatamente em um dos pontos da câmera.
Mesmo quando você tem boa visibilidade, as ambiguidades na fotogrametria de múltiplas câmeras tornam as coisas menos precisas do que você gostaria. Também houve alguns experimentos para ver quão boa poderia ser a reconstrução da cena 3D a partir das câmeras Quest usando computação offline, e a resposta ainda era "não muito boa", com superfícies bastante irregulares. Muitas reconstruções 3D parecem incríveis ao rolar no feed do seu telefone, mas não tão boas quando ampliadas para uma renderização VR totalmente imersiva e contrastadas com uma foto tradicional de alta qualidade.
Você realmente precisa de fortes priors para resolver o problema de ajuste e preencher as lacunas de cobertura. Para cenas arquitetônicas, você pode obter algum rendimento a partir de priors planos simples, mas a IA generativa moderna é o prior definitivo.
Mesmo que os sistemas de câmeras malucos entregassem totalmente a promessa, eles ainda não teriam possibilitado um bom ecossistema de conteúdo. O YouTube não teria tido sucesso se cada criador precisasse de uma câmera RED Digital Cinema.
A geração de fotos estereoscópicas 3D (bastante boa!) no Instagram do Quest é um pequeno passo em direção ao futuro. Existem caminhos para vídeo estéreo e 6DOF estático, e eventualmente para vídeo 6DOF.
Faça tudo imersivo, depois permita o ajuste personalizado de mídia consciente da imersão.

12,03K
Top
Classificação
Favoritos